声纹识别与声源定位(二)
一、引言
????????什么是聲源定位(Sound Source Localization,SSL)技術?聲源定位技術是指利用多個麥克風在環(huán)境不同位置點對聲信號進行測量,由于聲信號到達各麥克風的時間有不同程度的延遲,利用算法對測量到的聲信號進行處理,由此獲得聲源點相對于麥克風的到達方向(包括方位角、俯仰角)和距離等。
當談及到聲源定位,我們很容易聯(lián)想到人耳定位,人的單耳和雙耳都具有定位的能力。在單耳定位中,耳廓各部位會對入射聲波進行反射,再進入耳道。由于與直達聲波相位不同,兩者在耳道出發(fā)生干涉,產(chǎn)生了特殊聽覺效果,該效應稱為耳廓效應,再配合人頭轉(zhuǎn)動因素,可以達到聲源定位的目的。在雙耳定位中,我們通過左耳和右耳接收到的信號會有時間差(Interaural Time Difference, ITD)和聲級差(Interaural Level Difference, ILD),根據(jù)ITD和ILD對特定的聲音進行定位,水平方位角的確定在數(shù)學上可以表述為一個二維聲音方向估計問題,如下圖1所示。ITD信息在中低頻時的方位估計有更好的效果,而ILD信息在高頻的方位估計有更好的效果。再加上耳廓效應、頭部轉(zhuǎn)動、優(yōu)先效應等,我們會對角度、距離等信息有更進一步、更準確的認知。
什么是陣列麥克風?
????????麥克風陣列是由一定數(shù)目的麥克風組成,對聲場的空間特性進行采樣并濾波的系統(tǒng)。目前常用的麥克風陣列可以按布局形狀分為:線性陣列,平面陣列,以及立體陣列。其幾何構(gòu)型是按設計已知,所有麥克風的頻率響應一致,麥克風的采樣時鐘也是同步的。
麥克風陣列一般用于:聲源定位,包括角度和距離的測量,抑制背景噪聲、干擾、混響、回聲,信號提取,信號分離。其中聲源定位技術利用麥克風陣列計算聲源距離陣列的角度和距離,實現(xiàn)對目標聲源的跟蹤。
環(huán)形6麥陣列? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?USB 4麥克風陣列
????????基于麥克風陣列的語音分離就是利用麥克風陣列或多個麥克風來模擬人耳,通過語音分離算法將麥克風采集到的相互干擾的混疊信號分離開來以獲得感興趣的信號。而基于麥克風陣列的聲源定位也是首先利用麥克風陣列采集語音信號,然后利用數(shù)字信號處理的相關技術對采集的信號做分析處理,最后確定并對聲源的空間位置(即聲源在平面或空間中的坐標)進行跟蹤。
二、聲源定位技術
?聲源定位技術主要有以下兩部分組成:
- 到達方向 (Direction-of-arrival, DOA) 估計,其中包括方位角與俯仰角。
- 距離估計。
1. 端到端的模型
聲源定位端到端的模型對采集到的聲音信號進行特征提取,然后使用聲音定位方法來獲得輸出,而該映射方法很大程度依賴于聲學傳播模型。
傳播模型(Propagation Model)。聲源定位的聲學傳播模型比較常見的是自由場模型和遠場模型。在自由場中,聲音只通過一條直達的路徑到達麥克風,這也意味著聲源與麥克風之間沒有阻擋物,沒有聲音的反射(沒有室內(nèi)的混響),例如空曠的室外或者消音環(huán)境室中。在遠場中,麥克風間的距離和聲源到麥克風陣列的距離之間的關系,使得聲波可以被認為是平面波。
特征(Feature)。在使用的聲學定位方法中,使用了以下聲學特征:到達時間差(Time difference of arrival, TDOA),麥克風間的能量差(Inter-microphone intensity difference, IID),頻譜缺口(Spectral notches),MUSIC偽頻譜(Pseudo-spectrum),以及波束形成可控響應(Beamforming steered-response)等。
映射方法(Mapping procedures)。聲源定位中的映射方法是指將陣列信號中的特征映射為其位置信息。
?2. 實現(xiàn)方法
(1)到達方向估計
基于相對時延估計的方法。由于陣列的幾何結(jié)構(gòu),各個陣列接收到的信號都有不同程度的延時,而基于相對時延估計的方法通過互相關、廣義互相關(Generalized Cross-Correlation, GCC)或相位差等來估計各個陣列信號之間的時延差,再結(jié)合陣列的幾何結(jié)構(gòu)來估算聲源的方位角信息。
基于波束形成的方法。該算法通常對陣列的各陣元使用所有角度補償相位,以實現(xiàn)對目標區(qū)域的掃描,然后對各信號進行加權(quán)求和,將波束輸出功率最大的方向作為目標聲源的方向。常見的基于波束形成的聲源方位角估計算法有延遲相加(Delay and Sum, DS)算法,最小方差無失真響應(Minimum Variance Distortionless Response, MVDR)算法,可控響應功率相位變換法(Steered Response Power-Phase Transform, SRP-PHAT)等。
基于信號子空間的方法。這類算法一般可以分為相干子空間方法和非相干子空間方法,在非相干子空間算法中,最經(jīng)典的算法為多信號分類(Multiple Signal Classification, MUSIC)算法,其思想是將信號的協(xié)方差進行特征提取,利用特征向量構(gòu)建信號子空間和噪聲子空間,再將噪聲子空間構(gòu)建高分辨率空間譜。由于聲源信號是寬帶信號,可以對聲源信號使用傅立葉變換分解成多個窄帶信號,再對每個窄帶利用MUSIC算法定位,將各窄帶估計得結(jié)果加權(quán)組合得寬帶方位估計。而相干子空間方法是將窄帶信號匯聚到某一參考頻率,從而采用窄帶子空間處理方法進行方位估計。
基于模態(tài)域的方法。上述方法皆是陣元域的處理方法,而模態(tài)域的一大特性是其波束和導向矢量的頻率無關,依據(jù)此可以設計出具有低頻指向型的波束形成器,也可以降低陣元域波束掃描的頻點數(shù)。模態(tài)域的處理方法與陣元域相比,其波束形成多出一步模態(tài)展開的操作,模態(tài)展開可通過傅立葉變換實現(xiàn),展開后的每階模態(tài)都有與之對應的空間特征波束,對應于特定的波束響應,可以看作是組合成期望波束響應的一組基。理論上來講,只要模態(tài)展開的階數(shù)足夠高,理論是可以組合逼近成任意的波束。模態(tài)域的方法目前應用在球型陣列和環(huán)型陣列上有比較好的結(jié)果。
基于機器學習(或深度學習)的方法。與傳統(tǒng)基于模型的方法相比,基于機器學習的方法是數(shù)據(jù)驅(qū)動的,甚至無需定義傳播模型?;跈C器學習的方法將聲源定位看作是一個多分類或者線性回歸問題,利用其非常強的非線形擬合能力,直接將多通道數(shù)據(jù)特征映射成定位結(jié)果?;跈C器學習的方法主要也發(fā)展成了兩種方向,即基于網(wǎng)格的方法和無網(wǎng)格的方法,這兩種方法在定位精度和估計聲源個數(shù)上各有優(yōu)勢。
(2)距離估計
與DOA估計相比,聲源距離的估計研究起步較晚。在得到DOA估計結(jié)果后,聲源被定位在了由傳聲器和捕獲信號之間的雙曲線內(nèi),若采用多個傳聲器陣列對源信號進行DOA估計,則可通過每個傳聲器陣列的雙曲線交點對聲源進行定位。然而,該方法并不適用于遠距離測距,許多研究也停留在室內(nèi)的短距離聲源測距上。
在室內(nèi)條件下,當聲源距離發(fā)生變化時,來自反射聲的能量(如室內(nèi)混響漫射聲場)可以假定是保持不變,而來自直達聲的能量會發(fā)生變化。這兩種能量的比值被稱為直達混響比(Direct-to-Reverberant ratio, DRR),該比值與聲源距離的估計密切相關。理論上,信號的DRR可以通過聲源到達傳聲器的房間沖激響應函數(shù)(Room Impulse Responses, RIRs)直接計算出。但聲源距離的估計受多方因素的影響(如RIRs未知,近場與遠場模型不匹配,混響能量會因距離的改變而改變等),這些方法并不成熟,無法得到很好的應用。
3. 評價指標
針對DOA估計和距離估計的方法,需要依靠一些指標來衡量聲源定位的性能,常見的評價指標如下:
平均誤差(Average error)。它衡量的是估計的誤差,通常將估計值與真實值進行比較,將這些值的平均差異表現(xiàn)出來。具體實現(xiàn)的方法包括絕對誤差、均方誤差、均方根誤差和最大誤差等。
準確率(Accuracy)。這個指標通常用于DOA估計,我們假定如果估計值在真實值一定的誤差范圍內(nèi),則認定該估計是正確的,否之,認定為錯誤。它衡量了多少比例的檢測是正確的。
查準率(Precision)、查準率(Recall)和F1分數(shù)(F1-score)。這些指標在機器學習分類任務中比較常見的。針對估計一個聲源的位置,如果估計正確,則稱為真正例(True positive);如果估計錯誤,則稱為假反例(False negative)。假設該位置沒有聲源,如果估計的結(jié)果也是沒有,則稱為真反例(True negative);如果估計的結(jié)果是有聲源,則稱為假正例(False positive)。查全率衡量所檢測正確的聲源位置個數(shù)占所有聲源的比例;查準率衡量所估計到的聲源位置中,有多少位置估計是正確的比例。一般來說,查準率和查全率呈負相關關系,而F1分數(shù)為這兩個指標的調(diào)和平均,提供它們之間的平衡。
聲源的數(shù)量(Number of sources)。該指標衡量所能估計到聲源的數(shù)量,而不在乎聲源的具體位置。
還有一些其他的性能指標,如將某聲源定位方法用在語音識別、聲源分離、語音拾取任務的預處理,上述任務依賴于聲源定位的效果,通過這些任務的性能表現(xiàn)來間接評價聲源定位的性能。
三、語音分離與聲源定位算法Steered Response Power Phase Transform(SRP-PHAT)+Degenerate?Unmixing?Estimation?Technique(DUET)
相位變換加權(quán)的可控響應功率算法Steered Response Power Phase Transform(SRP-PHAT)是定位聲源的一種重要的算法。對于多源擴展,可以使用Degenerate?Unmixing?Estimation?Technique(DUET)來分離每個源,并將其傳遞給SRP-PHAT算法以實現(xiàn)多源跟蹤
3D Multiple Sound Sources Localization (SSL)
GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.Combine sound source separation with SRP-PHAT to achieve multi-source localization. - GitHub - BrownsugarZeer/Multi_SSL: Combine sound source separation with SRP-PHAT to achieve multi-source localization.https://github.com/BrownsugarZeer/Multi_SSL
1
2
3
總結(jié)
以上是生活随笔為你收集整理的声纹识别与声源定位(二)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cocos2d-x传智播客_Hansel
- 下一篇: 裸眼3D大屏首秀!变形金刚登陆成都太古里