语音跟踪:信号分解、锁相、鸡尾酒会效应、基于PR的信号分离
??????? NLP中關(guān)于語音的部分,其中重要的一點(diǎn)是語音信號(hào)從背景噪音中分離。比如在一個(gè)辦公室場景中,有白天的底噪-類似于白噪音的噪音、空調(diào)的聲音、鍵盤的啪啪聲、左手邊45度7米元的地方同事討論的聲音、右手邊1.5米遠(yuǎn)處同事討論的聲音、打印機(jī)的聲音。各種聲音混雜在一起,從自然人的角度來分別,很容易做到區(qū)分各種聲音。
??????? 以自然人的觀點(diǎn)來看,不自覺的感知中使用了空間傳播模型和聲音模式識(shí)別,具體的機(jī)理暫時(shí)沒能搞清楚。以一般人的能力看來,區(qū)分特定的人的聲音是簡單從容的,一般只要記得曾經(jīng)聽過即可。且可以在嘈雜的環(huán)境中持續(xù)的聽清楚這個(gè)人的說話聲。
?????? 在嘈雜的環(huán)境中,人們非常善于把注意力集中在某個(gè)特定的人身上,在心理上"屏蔽"所有其他語音和聲音。這種能力被稱為雞尾酒會(huì)效應(yīng),它是我們?nèi)祟?strong>與生俱來的本領(lǐng)。然而,盡管關(guān)于自動(dòng)語音分離(將音頻信號(hào)分離為單獨(dú)的語音源)的研究已經(jīng)非常深入,這個(gè)課題仍是計(jì)算機(jī)領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。
??????? 從聲音到語義,以此經(jīng)過音素分析、單詞識(shí)別、句子識(shí)別、語義理解過程。
鎖相環(huán)-信號(hào)跟蹤
????? 模式識(shí)別從另一個(gè)方面來源于自動(dòng)化技術(shù),主要研究控制系統(tǒng)的自動(dòng)化仍為普遍的模式識(shí)別科學(xué)很多的啟示。
?? ?? 信號(hào)分離是一種模式識(shí)別方案,鎖相環(huán)是一個(gè)反饋控制系統(tǒng),本應(yīng)該不相交。不過語音信號(hào)分離可以看做一種語音信號(hào)的鎖定和跟蹤技術(shù)。 參考: 鎖相環(huán)的基本組成和工作原理 。
????? 鎖相環(huán)路是一種反饋控制電路,簡稱鎖相環(huán)(PLL)。鎖相環(huán)的特點(diǎn)是:利用外部輸入的參考信號(hào)控制環(huán)路內(nèi)部振蕩信號(hào)的頻率和相位。
????? 因鎖相環(huán)可以實(shí)現(xiàn)輸出信號(hào)頻率對(duì)輸入信號(hào)頻率的自動(dòng)跟蹤,所以鎖相環(huán)通常用于閉環(huán)跟蹤電路。鎖相環(huán)在工作的過程中,當(dāng)輸出信號(hào)的頻率與輸入信號(hào)的頻率相等時(shí),輸出電壓與輸入電壓保持固定的相位差值,即輸出電壓與輸入電壓的相位被鎖住,這就是鎖相環(huán)名稱的由來。
???? 鎖相環(huán)通常由鑒相器(PD)、環(huán)路濾波器(LF)和壓控振蕩器(VCO)三部分組成,鎖相環(huán)組成的原理框圖如圖8-4-1所示。
???? 鎖相環(huán)中的鑒相器又稱為相位比較器,它的作用是檢測輸入信號(hào)和輸出信號(hào)的相位差,并將檢測出的相位差信號(hào)轉(zhuǎn)換成uD(t)電壓信號(hào)輸出,該信號(hào)經(jīng)低通濾波器濾波后形成壓控振蕩器的控制電壓uC(t),對(duì)振蕩器輸出信號(hào)的頻率實(shí)施控制。
?? 鎖相環(huán)的應(yīng)用:應(yīng)用集中在以下三個(gè)方面:第一 信號(hào)的調(diào)制和解調(diào);第二 信號(hào)的調(diào)頻和解調(diào);第三信號(hào)頻率合成電路。
信號(hào)分離基礎(chǔ)
??????? 信號(hào)分離的模式識(shí)別基礎(chǔ)認(rèn)知為模式分解的方法,一般可以把信號(hào)分解為更小尺度的基信號(hào),通過基信號(hào)的組合模式進(jìn)行模式識(shí)別。通過識(shí)別不同的模式來進(jìn)行信號(hào)分離。
?????? 參考:信號(hào)分離研究內(nèi)容基礎(chǔ)1、;信號(hào)分離研究內(nèi)容基礎(chǔ)、2;講解的通俗易懂。
到目前為止,我們將現(xiàn)有的信號(hào)分析方法分為6大類方法:
1、最大后驗(yàn)概率的方法MAP(Maximal aposterior probability)
2、基于稀疏性的表示方法 Sparsity based method:based onsparse representation(根源于小波的表示)
3、基于新的范數(shù)(度量)的方法,Norm based method:based on newnorm
4、經(jīng)驗(yàn)的方法,Empirical method:EMD etc(告訴你怎么算,但是不知道怎么辦)
5、變分框架分解方法,VMD
6、基于一些數(shù)學(xué)工具,Other method:basis,frame,ICA(小波基,框架,ICA)
(6)現(xiàn)有數(shù)學(xué)手段
基于數(shù)學(xué)工具的方法是大家用的最多,但是常常忘記的方法,如降維方法中的PCA,SVD方法,盲分離方法ICA,FastICA方法等等。幾乎所有的降維算法都能用于信號(hào)分離,如流行學(xué)習(xí)的算法。同時(shí)包括一些框架的算法,這些方法就是傳統(tǒng)數(shù)學(xué)理論的運(yùn)用,這里就不多講了。
最后總結(jié)下現(xiàn)有信號(hào)處理方法的現(xiàn)狀和進(jìn)展,以下個(gè)人觀點(diǎn),請(qǐng)辯證的閱讀,如有錯(cuò)誤,作者本人不承擔(dān)任何責(zé)任。
- 時(shí)域分析--所有基于統(tǒng)計(jì)的方法。
- 頻域--傅里葉變換(平穩(wěn)信號(hào)處理方法)。
- 時(shí)頻分析方法--窗口傅里葉變換STFT、時(shí)頻分布方法(Winger-Ville、Cohen分布等等),小波方法WT,雙樹復(fù)數(shù)小波DTCWT,多小波Multi-WT,脊波變換等等(傳統(tǒng)非平穩(wěn)信號(hào)分析)
- EMD方法,LMD,LCD,ITD等方法,這些都是基于EMD方法本身,屬于自適應(yīng)非平穩(wěn)信號(hào)處理方法。理論基礎(chǔ)薄弱。
- 字典方法,SWT,EWT,這些方法都是基于字典或是小波框架的方法,但是具有自適應(yīng)分析能力,也屬于自適應(yīng)非平穩(wěn)信號(hào)處理方法。
- 稀疏時(shí)頻分析的方法,這類方法是基于字典的優(yōu)化方法,也是稀疏表達(dá)大類的方法,屬于自適應(yīng)非平穩(wěn)分析方法。
- VMD方法,不講了,講過了。。。
- 還有很多。。。讀者自行查閱相關(guān)文檔
基于深度學(xué)習(xí)的語音分離
?????? 對(duì)于采樣頻率一般固定的聲音采樣,固定模式的聲音因此是變長的,RNN的循環(huán)結(jié)構(gòu)可以用于處理變長模型,基于保留殘差改進(jìn)為LSTM模型。
? ? ? 參考:搜狗研究員講解基于深度學(xué)習(xí)的語音分離技術(shù) 。文章很長,慢慢地看。
???? 技術(shù)詞匯:頻譜映射 方法
???? 根據(jù)干擾的不同,語音分離任務(wù)可以分為三類:
當(dāng)干擾為噪聲信號(hào)時(shí),可以稱為 “語音增強(qiáng)”(Speech Enhancement)
當(dāng)干擾為其他說話人時(shí),可以稱為 “多說話人分離”(Speaker Separation)
當(dāng)干擾為目標(biāo)說話人自己聲音的反射波時(shí),可以稱為 “解混響”(De-reverberation)
??? ?? 由于麥克風(fēng)采集到的聲音中可能包括噪聲、其他人說話的聲音、混響等干擾,不做語音分離、直接進(jìn)行識(shí)別的話,會(huì)影響到識(shí)別的準(zhǔn)確率。因此在語音識(shí)別的前端加上語音分離技術(shù),把目標(biāo)說話人的聲音和其它干擾分開就可以提高語音識(shí)別系統(tǒng)的魯棒性,這從而也成為現(xiàn)代語音識(shí)別系統(tǒng)中不可或缺的一環(huán)。
????? 基于深度學(xué)習(xí)的語音分離,主要是用基于深度學(xué)習(xí)的方法,從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)語音、說話人和噪音的特征,從而實(shí)現(xiàn)語音分離的目標(biāo)。
????? 練目標(biāo)包括兩類,一類是基于 Mask 的方法,另一類是基于頻譜映射的方法。
..............
?????? 如果使用頻譜映射,分離問題就成為了一個(gè)回歸問題。
?????
????? 頻譜映射可以使用幅度譜、功率譜、梅爾譜以及 Gammatone 功率譜。Gammatone 是模擬人耳耳蝸濾波后的特征。為了壓縮參數(shù)的動(dòng)態(tài)范圍以及考慮人耳的聽覺效應(yīng),通常還會(huì)加上對(duì)數(shù)操作,比如對(duì)數(shù)功率譜。
????? 基于頻譜映射的方法,是讓模型通過有監(jiān)督學(xué)習(xí),自己學(xué)習(xí)有干擾的頻譜到無干擾的頻譜(干凈語音)之間的映射關(guān)系;模型可以是 DNN、CNN、LSTM 甚至 GAN。
.......................
???? 最后,文仕學(xué)給大家留了兩個(gè)思考題,歡迎大家在評(píng)論區(qū)給出自己的見解。
第一個(gè)問題是語音分離任務(wù)中,是按傳統(tǒng)思路先變換到頻域,然后在頻域上進(jìn)行處理,還是直接在時(shí)域上處理比較好?后者的好處是端到端訓(xùn)練,不用考慮頻域方法做傅立葉反變換時(shí)相位的問題。
第二個(gè)問題是對(duì)于語音增強(qiáng)任務(wù),應(yīng)該使用真實(shí)噪聲加噪還是使用人工仿真生成的噪聲進(jìn)行降噪?
語音分離-噪聲中分離
????? 參考一個(gè)中文簡介:語音分離-從噪聲中分離,沒有仔細(xì)看。
單聲道語音分離,一般用到兩種技術(shù):語音增強(qiáng),和計(jì)算聽覺場景分析。
語音增強(qiáng)通過分析語音和噪聲的一般統(tǒng)計(jì)量,從帶噪語音中估計(jì)噪聲,進(jìn)而從帶噪語音中減去噪聲估計(jì),得到目標(biāo)語音。其中最簡單的也是使用最廣泛的技術(shù)是譜減,它估計(jì)噪聲的功率譜,從帶噪語音中減去噪聲得到目標(biāo)語音。
????? 計(jì)算聽覺場景分析模擬了人類聽覺系統(tǒng)的場景分析過程,它將聽覺場景分析分成分段(segmentation)和組織(grouping)兩個(gè)步驟,首先利用時(shí)間連續(xù)性及諧波特性等信息,將語音信號(hào)分解成獨(dú)立的來自于單個(gè)聲源的片段,再根據(jù)語音基音(pitch)以及語音開始(onset)和結(jié)束位置(offset)等線索,將語音片段組織連接起來。這些連接起來的語音就是分離得到的目標(biāo)語音。
GitHub上的開源代碼:????
???? GitHub項(xiàng)目:自然語言處理領(lǐng)域的相關(guān)干貨整理
使用其他感知進(jìn)行輔助
1.MIT提出像素級(jí)聲源定位系統(tǒng)PixelPlayer:無監(jiān)督地分離視頻中的目標(biāo)聲源:
論文鏈接:https://arxiv.org/pdf/1804.03160.pdf
項(xiàng)目地址:http://sound-of-pixels.csail.mit.edu/
2. GoogleAI技術(shù):google 指哪兒看哪兒,多重信號(hào)分離
?? 論文地址:https://arxiv.org/pdf/1804.03619.pdf
總結(jié)
以上是生活随笔為你收集整理的语音跟踪:信号分解、锁相、鸡尾酒会效应、基于PR的信号分离的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 剑与远征如何遣散英雄
- 下一篇: 最优化方法系列:Adam+SGD-AMS