當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

睡眠音频分割及识别问题(五)--YAMNet进一步分析

發布時間：2024/8/23 编程问答 69 豆豆

生活随笔收集整理的這篇文章主要介紹了睡眠音频分割及识别问题(五)--YAMNet进一步分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

YAMNet 是一個經過預訓練的深度網絡，可基于?AudioSet-YouTube 語料庫?預測 521 種音頻事件類別，并采用Mobilenet_v1深度可分離卷積架構。

輸入

模型訓練所使用的音頻特征計算方式如下：

所有音頻均重采樣為 16 kHz 單聲道。
通過長度 25 毫秒，步長為 10 毫秒，且具有周期性 Hann 時間窗的短時距傅里葉變換計算出聲譜圖。
通過將聲譜圖映射到覆蓋 125 至 7500 Hz 范圍的 64 個梅爾倉計算出梅爾聲譜圖。
然后將這些特征分幀成具有 50% 重疊且長度為 0.96 秒的示例，每個示例覆蓋 64 個梅爾頻段，總共 96 幀，每幀 10 毫秒。

聲譜圖(spectrogram)

聲音信號是一維信號，直觀上只能看到時域信息，不能看到頻域信息。通過傅里葉變換(FT)可以變換到頻域，但是丟失了時域信息，無法看到時頻關系。為了解決這個問題，產生了很多方法，短時傅里葉變換，小波等都是很常用的時頻分析方法。

短時傅里葉變換(STFT)，就是對短時的信號做傅里葉變換。原理如下：對一段長語音信號，分幀、加窗，再對每一幀做傅里葉變換，之后把每一幀的結果沿另一維度堆疊，得到一張圖（類似于二維信號），這張圖就是聲譜圖。

梅爾頻譜

由于得到的聲譜圖較大，為了得到合適大小的聲音特征，通常將它通過梅爾尺度濾波器組(Mel-scale filter banks)，變為梅爾頻譜。

頻率的單位是HZ，人耳能聽到的頻率范圍是20-20000HZ，但是人耳對HZ單位不是線性敏感，而是對低HZ敏感，對高HZ不敏感，將HZ頻率轉化為梅爾頻率，則人耳對頻率的感知度就變為線性。變換公式如下：

輸出

將這些 96x64 的片段饋送到 Mobilenet_v1 模型，以在卷積之上針對 1024 個內核生成一個 3x2 的激活函數數組。平均之后將得到 1024 維的嵌入向量，然后通過單個邏輯層得到對應于 960 毫秒輸入波形段的 521 個按類別的輸出得分（由于采用窗口分幀，您至少需要 975 毫秒的輸入波形才能獲得第一幀輸出得分）。

模型

模型采用了大量的卷積和深度可分離卷積層。

總結

以上是生活随笔為你收集整理的睡眠音频分割及识别问题(五)--YAMNet进一步分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。