當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

声纹识别与声源定位（二）

發布時間：2023/12/29 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了声纹识别与声源定位（二）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、引言

????????什么是聲源定位(Sound Source Localization，SSL)技術？聲源定位技術是指利用多個麥克風在環境不同位置點對聲信號進行測量，由于聲信號到達各麥克風的時間有不同程度的延遲，利用算法對測量到的聲信號進行處理，由此獲得聲源點相對于麥克風的到達方向（包括方位角、俯仰角）和距離等。

當談及到聲源定位，我們很容易聯想到人耳定位，人的單耳和雙耳都具有定位的能力。在單耳定位中，耳廓各部位會對入射聲波進行反射，再進入耳道。由于與直達聲波相位不同，兩者在耳道出發生干涉，產生了特殊聽覺效果，該效應稱為耳廓效應，再配合人頭轉動因素，可以達到聲源定位的目的。在雙耳定位中，我們通過左耳和右耳接收到的信號會有時間差（Interaural Time Difference, ITD）和聲級差（Interaural Level Difference, ILD），根據ITD和ILD對特定的聲音進行定位，水平方位角的確定在數學上可以表述為一個二維聲音方向估計問題，如下圖1所示。ITD信息在中低頻時的方位估計有更好的效果，而ILD信息在高頻的方位估計有更好的效果。再加上耳廓效應、頭部轉動、優先效應等，我們會對角度、距離等信息有更進一步、更準確的認知。

什么是陣列麥克風？
????????麥克風陣列是由一定數目的麥克風組成，對聲場的空間特性進行采樣并濾波的系統。目前常用的麥克風陣列可以按布局形狀分為：線性陣列，平面陣列，以及立體陣列。其幾何構型是按設計已知，所有麥克風的頻率響應一致，麥克風的采樣時鐘也是同步的。
麥克風陣列一般用于：聲源定位，包括角度和距離的測量，抑制背景噪聲、干擾、混響、回聲，信號提取，信號分離。其中聲源定位技術利用麥克風陣列計算聲源距離陣列的角度和距離，實現對目標聲源的跟蹤。

環形6麥陣列? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?USB 4麥克風陣列

????????基于麥克風陣列的語音分離就是利用麥克風陣列或多個麥克風來模擬人耳，通過語音分離算法將麥克風采集到的相互干擾的混疊信號分離開來以獲得感興趣的信號。而基于麥克風陣列的聲源定位也是首先利用麥克風陣列采集語音信號，然后利用數字信號處理的相關技術對采集的信號做分析處理，最后確定并對聲源的空間位置（即聲源在平面或空間中的坐標）進行跟蹤。

二、聲源定位技術

?聲源定位技術主要有以下兩部分組成：

到達方向 (Direction-of-arrival, DOA) 估計，其中包括方位角與俯仰角。
距離估計。

1. 端到端的模型

聲源定位端到端的模型對采集到的聲音信號進行特征提取，然后使用聲音定位方法來獲得輸出，而該映射方法很大程度依賴于聲學傳播模型。

傳播模型（Propagation Model）。聲源定位的聲學傳播模型比較常見的是自由場模型和遠場模型。在自由場中，聲音只通過一條直達的路徑到達麥克風，這也意味著聲源與麥克風之間沒有阻擋物，沒有聲音的反射（沒有室內的混響），例如空曠的室外或者消音環境室中。在遠場中，麥克風間的距離和聲源到麥克風陣列的距離之間的關系，使得聲波可以被認為是平面波。

特征（Feature）。在使用的聲學定位方法中，使用了以下聲學特征：到達時間差(Time difference of arrival, TDOA)，麥克風間的能量差（Inter-microphone intensity difference, IID），頻譜缺口（Spectral notches），MUSIC偽頻譜（Pseudo-spectrum），以及波束形成可控響應（Beamforming steered-response）等。

映射方法（Mapping procedures）。聲源定位中的映射方法是指將陣列信號中的特征映射為其位置信息。

?2. 實現方法

（1）到達方向估計

基于相對時延估計的方法。由于陣列的幾何結構，各個陣列接收到的信號都有不同程度的延時，而基于相對時延估計的方法通過互相關、廣義互相關（Generalized Cross-Correlation, GCC）或相位差等來估計各個陣列信號之間的時延差，再結合陣列的幾何結構來估算聲源的方位角信息。

基于波束形成的方法。該算法通常對陣列的各陣元使用所有角度補償相位，以實現對目標區域的掃描，然后對各信號進行加權求和，將波束輸出功率最大的方向作為目標聲源的方向。常見的基于波束形成的聲源方位角估計算法有延遲相加（Delay and Sum, DS）算法，最小方差無失真響應（Minimum Variance Distortionless Response, MVDR）算法，可控響應功率相位變換法（Steered Response Power-Phase Transform, SRP-PHAT）等。

基于信號子空間的方法。這類算法一般可以分為相干子空間方法和非相干子空間方法，在非相干子空間算法中，最經典的算法為多信號分類（Multiple Signal Classification, MUSIC）算法，其思想是將信號的協方差進行特征提取，利用特征向量構建信號子空間和噪聲子空間，再將噪聲子空間構建高分辨率空間譜。由于聲源信號是寬帶信號，可以對聲源信號使用傅立葉變換分解成多個窄帶信號，再對每個窄帶利用MUSIC算法定位，將各窄帶估計得結果加權組合得寬帶方位估計。而相干子空間方法是將窄帶信號匯聚到某一參考頻率，從而采用窄帶子空間處理方法進行方位估計。

基于模態域的方法。上述方法皆是陣元域的處理方法，而模態域的一大特性是其波束和導向矢量的頻率無關，依據此可以設計出具有低頻指向型的波束形成器，也可以降低陣元域波束掃描的頻點數。模態域的處理方法與陣元域相比，其波束形成多出一步模態展開的操作，模態展開可通過傅立葉變換實現，展開后的每階模態都有與之對應的空間特征波束，對應于特定的波束響應，可以看作是組合成期望波束響應的一組基。理論上來講，只要模態展開的階數足夠高，理論是可以組合逼近成任意的波束。模態域的方法目前應用在球型陣列和環型陣列上有比較好的結果。

基于機器學習（或深度學習）的方法。與傳統基于模型的方法相比，基于機器學習的方法是數據驅動的，甚至無需定義傳播模型。基于機器學習的方法將聲源定位看作是一個多分類或者線性回歸問題，利用其非常強的非線形擬合能力，直接將多通道數據特征映射成定位結果。基于機器學習的方法主要也發展成了兩種方向，即基于網格的方法和無網格的方法，這兩種方法在定位精度和估計聲源個數上各有優勢。

（2）距離估計

與DOA估計相比，聲源距離的估計研究起步較晚。在得到DOA估計結果后，聲源被定位在了由傳聲器和捕獲信號之間的雙曲線內，若采用多個傳聲器陣列對源信號進行DOA估計，則可通過每個傳聲器陣列的雙曲線交點對聲源進行定位。然而，該方法并不適用于遠距離測距，許多研究也停留在室內的短距離聲源測距上。

在室內條件下，當聲源距離發生變化時，來自反射聲的能量（如室內混響漫射聲場）可以假定是保持不變，而來自直達聲的能量會發生變化。這兩種能量的比值被稱為直達混響比（Direct-to-Reverberant ratio, DRR），該比值與聲源距離的估計密切相關。理論上，信號的DRR可以通過聲源到達傳聲器的房間沖激響應函數（Room Impulse Responses, RIRs）直接計算出。但聲源距離的估計受多方因素的影響（如RIRs未知，近場與遠場模型不匹配，混響能量會因距離的改變而改變等），這些方法并不成熟，無法得到很好的應用。

3. 評價指標

針對DOA估計和距離估計的方法，需要依靠一些指標來衡量聲源定位的性能，常見的評價指標如下：

平均誤差（Average error）。它衡量的是估計的誤差，通常將估計值與真實值進行比較，將這些值的平均差異表現出來。具體實現的方法包括絕對誤差、均方誤差、均方根誤差和最大誤差等。

準確率（Accuracy）。這個指標通常用于DOA估計，我們假定如果估計值在真實值一定的誤差范圍內，則認定該估計是正確的，否之，認定為錯誤。它衡量了多少比例的檢測是正確的。

查準率（Precision）、查準率（Recall）和F1分數（F1-score）。這些指標在機器學習分類任務中比較常見的。針對估計一個聲源的位置，如果估計正確，則稱為真正例（True positive）；如果估計錯誤，則稱為假反例（False negative）。假設該位置沒有聲源，如果估計的結果也是沒有，則稱為真反例（True negative）；如果估計的結果是有聲源，則稱為假正例（False positive）。查全率衡量所檢測正確的聲源位置個數占所有聲源的比例；查準率衡量所估計到的聲源位置中，有多少位置估計是正確的比例。一般來說，查準率和查全率呈負相關關系，而F1分數為這兩個指標的調和平均，提供它們之間的平衡。

聲源的數量（Number of sources）。該指標衡量所能估計到聲源的數量，而不在乎聲源的具體位置。

還有一些其他的性能指標，如將某聲源定位方法用在語音識別、聲源分離、語音拾取任務的預處理，上述任務依賴于聲源定位的效果，通過這些任務的性能表現來間接評價聲源定位的性能。

三、語音分離與聲源定位算法Steered Response Power Phase Transform（SRP-PHAT）+Degenerate?Unmixing?Estimation?Technique（DUET）

相位變換加權的可控響應功率算法Steered Response Power Phase Transform（SRP-PHAT）是定位聲源的一種重要的算法。對于多源擴展，可以使用Degenerate?Unmixing?Estimation?Technique（DUET）來分離每個源，并將其傳遞給SRP-PHAT算法以實現多源跟蹤

3D Multiple Sound Sources Localization (SSL)

GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.Combine sound source separation with SRP-PHAT to achieve multi-source localization. - GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.https://github.com/BrownsugarZeer/Multi_SSL

總結

以上是生活随笔為你收集整理的声纹识别与声源定位（二）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

声源

上一篇： cocos2d-x传智播客_Hansel
下一篇：裸眼3D大屏首秀！变形金刚登陆成都太古里