日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

睡眠音频分割及识别问题(五)--YAMNet进一步分析

發布時間:2024/8/23 编程问答 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 睡眠音频分割及识别问题(五)--YAMNet进一步分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

YAMNet 是一個經過預訓練的深度網絡,可基于?AudioSet-YouTube 語料庫?預測 521 種音頻事件類別,并采用Mobilenet_v1深度可分離卷積架構。

輸入

模型訓練所使用的音頻特征計算方式如下:

  • 所有音頻均重采樣為 16 kHz 單聲道。

  • 通過長度 25 毫秒,步長為 10 毫秒,且具有周期性 Hann 時間窗的短時距傅里葉變換計算出聲譜圖。

  • 通過將聲譜圖映射到覆蓋 125 至 7500 Hz 范圍的 64 個梅爾倉計算出梅爾聲譜圖。

  • 然后將這些特征分幀成具有 50% 重疊且長度為 0.96 秒的示例,每個示例覆蓋 64 個梅爾頻段,總共 96 幀,每幀 10 毫秒。

聲譜圖(spectrogram)

聲音信號是一維信號,直觀上只能看到時域信息,不能看到頻域信息。通過傅里葉變換(FT)可以變換到頻域,但是丟失了時域信息,無法看到時頻關系。為了解決這個問題,產生了很多方法,短時傅里葉變換,小波等都是很常用的時頻分析方法。

短時傅里葉變換(STFT),就是對短時的信號做傅里葉變換。原理如下:對一段長語音信號,分幀、加窗,再對每一幀做傅里葉變換,之后把每一幀的結果沿另一維度堆疊,得到一張圖(類似于二維信號),這張圖就是聲譜圖。

梅爾頻譜

由于得到的聲譜圖較大,為了得到合適大小的聲音特征,通常將它通過梅爾尺度濾波器組(Mel-scale filter banks),變為梅爾頻譜。

頻率的單位是HZ,人耳能聽到的頻率范圍是20-20000HZ,但是人耳對HZ單位不是線性敏感,而是對低HZ敏感,對高HZ不敏感,將HZ頻率轉化為梅爾頻率,則人耳對頻率的感知度就變為線性。變換公式如下:

輸出

將這些 96x64 的片段饋送到 Mobilenet_v1 模型,以在卷積之上針對 1024 個內核生成一個 3x2 的激活函數數組。平均之后將得到 1024 維的嵌入向量,然后通過單個邏輯層得到對應于 960 毫秒輸入波形段的 521 個按類別的輸出得分(由于采用窗口分幀,您至少需要 975 毫秒的輸入波形才能獲得第一幀輸出得分)。

模型

模型采用了大量的卷積和深度可分離卷積層。

總結

以上是生活随笔為你收集整理的睡眠音频分割及识别问题(五)--YAMNet进一步分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。