當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音跟踪：信号分解、锁相、鸡尾酒会效应、基于PR的信号分离

發(fā)布時(shí)間：2023/12/31 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了语音跟踪：信号分解、锁相、鸡尾酒会效应、基于PR的信号分离小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

??????? NLP中關(guān)于語音的部分，其中重要的一點(diǎn)是語音信號(hào)從背景噪音中分離。比如在一個(gè)辦公室場景中，有白天的底噪-類似于白噪音的噪音、空調(diào)的聲音、鍵盤的啪啪聲、左手邊45度7米元的地方同事討論的聲音、右手邊1.5米遠(yuǎn)處同事討論的聲音、打印機(jī)的聲音。各種聲音混雜在一起，從自然人的角度來分別，很容易做到區(qū)分各種聲音。

??????? 以自然人的觀點(diǎn)來看，不自覺的感知中使用了空間傳播模型和聲音模式識(shí)別，具體的機(jī)理暫時(shí)沒能搞清楚。以一般人的能力看來，區(qū)分特定的人的聲音是簡單從容的，一般只要記得曾經(jīng)聽過即可。且可以在嘈雜的環(huán)境中持續(xù)的聽清楚這個(gè)人的說話聲。

?????? 在嘈雜的環(huán)境中，人們非常善于把注意力集中在某個(gè)特定的人身上，在心理上"屏蔽"所有其他語音和聲音。這種能力被稱為雞尾酒會(huì)效應(yīng)，它是我們?nèi)祟?strong>與生俱來的本領(lǐng)。然而，盡管關(guān)于自動(dòng)語音分離（將音頻信號(hào)分離為單獨(dú)的語音源）的研究已經(jīng)非常深入，這個(gè)課題仍是計(jì)算機(jī)領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。

??????? 從聲音到語義，以此經(jīng)過音素分析、單詞識(shí)別、句子識(shí)別、語義理解過程。

鎖相環(huán)-信號(hào)跟蹤

????? 模式識(shí)別從另一個(gè)方面來源于自動(dòng)化技術(shù)，主要研究控制系統(tǒng)的自動(dòng)化仍為普遍的模式識(shí)別科學(xué)很多的啟示。

?? ?? 信號(hào)分離是一種模式識(shí)別方案，鎖相環(huán)是一個(gè)反饋控制系統(tǒng)，本應(yīng)該不相交。不過語音信號(hào)分離可以看做一種語音信號(hào)的鎖定和跟蹤技術(shù)。參考：鎖相環(huán)的基本組成和工作原理。

????? 鎖相環(huán)路是一種反饋控制電路，簡稱鎖相環(huán)(PLL)。鎖相環(huán)的特點(diǎn)是：利用外部輸入的參考信號(hào)控制環(huán)路內(nèi)部振蕩信號(hào)的頻率和相位。

????? 因鎖相環(huán)可以實(shí)現(xiàn)輸出信號(hào)頻率對(duì)輸入信號(hào)頻率的自動(dòng)跟蹤，所以鎖相環(huán)通常用于閉環(huán)跟蹤電路。鎖相環(huán)在工作的過程中，當(dāng)輸出信號(hào)的頻率與輸入信號(hào)的頻率相等時(shí)，輸出電壓與輸入電壓保持固定的相位差值，即輸出電壓與輸入電壓的相位被鎖住，這就是鎖相環(huán)名稱的由來。

???? 鎖相環(huán)通常由鑒相器(PD)、環(huán)路濾波器(LF)和壓控振蕩器(VCO)三部分組成，鎖相環(huán)組成的原理框圖如圖8-4-1所示。

???? 鎖相環(huán)中的鑒相器又稱為相位比較器，它的作用是檢測輸入信號(hào)和輸出信號(hào)的相位差，并將檢測出的相位差信號(hào)轉(zhuǎn)換成uD(t)電壓信號(hào)輸出，該信號(hào)經(jīng)低通濾波器濾波后形成壓控振蕩器的控制電壓uC(t)，對(duì)振蕩器輸出信號(hào)的頻率實(shí)施控制。

?? 鎖相環(huán)的應(yīng)用：應(yīng)用集中在以下三個(gè)方面：第一信號(hào)的調(diào)制和解調(diào)；第二信號(hào)的調(diào)頻和解調(diào)；第三信號(hào)頻率合成電路。

信號(hào)分離基礎(chǔ)

??????? 信號(hào)分離的模式識(shí)別基礎(chǔ)認(rèn)知為模式分解的方法，一般可以把信號(hào)分解為更小尺度的基信號(hào)，通過基信號(hào)的組合模式進(jìn)行模式識(shí)別。通過識(shí)別不同的模式來進(jìn)行信號(hào)分離。

?????? 參考：信號(hào)分離研究內(nèi)容基礎(chǔ)1、；信號(hào)分離研究內(nèi)容基礎(chǔ)、2；講解的通俗易懂。

到目前為止，我們將現(xiàn)有的信號(hào)分析方法分為6大類方法：

1、最大后驗(yàn)概率的方法MAP（Maximal aposterior probability）

2、基于稀疏性的表示方法 Sparsity based method：based onsparse representation（根源于小波的表示）

3、基于新的范數(shù)（度量）的方法，Norm based method：based on newnorm

4、經(jīng)驗(yàn)的方法，Empirical method：EMD etc（告訴你怎么算，但是不知道怎么辦）

5、變分框架分解方法，VMD

6、基于一些數(shù)學(xué)工具，Other method：basis，frame，ICA（小波基，框架，ICA）

（6）現(xiàn)有數(shù)學(xué)手段

基于數(shù)學(xué)工具的方法是大家用的最多，但是常常忘記的方法，如降維方法中的PCA，SVD方法，盲分離方法ICA，FastICA方法等等。幾乎所有的降維算法都能用于信號(hào)分離，如流行學(xué)習(xí)的算法。同時(shí)包括一些框架的算法，這些方法就是傳統(tǒng)數(shù)學(xué)理論的運(yùn)用，這里就不多講了。

最后總結(jié)下現(xiàn)有信號(hào)處理方法的現(xiàn)狀和進(jìn)展，以下個(gè)人觀點(diǎn)，請(qǐng)辯證的閱讀，如有錯(cuò)誤，作者本人不承擔(dān)任何責(zé)任。

時(shí)域分析--所有基于統(tǒng)計(jì)的方法。
頻域--傅里葉變換（平穩(wěn)信號(hào)處理方法）。
時(shí)頻分析方法--窗口傅里葉變換STFT、時(shí)頻分布方法（Winger-Ville、Cohen分布等等），小波方法WT，雙樹復(fù)數(shù)小波DTCWT，多小波Multi-WT，脊波變換等等（傳統(tǒng)非平穩(wěn)信號(hào)分析）
EMD方法，LMD，LCD，ITD等方法，這些都是基于EMD方法本身，屬于自適應(yīng)非平穩(wěn)信號(hào)處理方法。理論基礎(chǔ)薄弱。
字典方法，SWT，EWT，這些方法都是基于字典或是小波框架的方法，但是具有自適應(yīng)分析能力，也屬于自適應(yīng)非平穩(wěn)信號(hào)處理方法。
稀疏時(shí)頻分析的方法，這類方法是基于字典的優(yōu)化方法，也是稀疏表達(dá)大類的方法，屬于自適應(yīng)非平穩(wěn)分析方法。
VMD方法，不講了，講過了。。。
還有很多。。。讀者自行查閱相關(guān)文檔

基于深度學(xué)習(xí)的語音分離

?????? 對(duì)于采樣頻率一般固定的聲音采樣，固定模式的聲音因此是變長的，RNN的循環(huán)結(jié)構(gòu)可以用于處理變長模型，基于保留殘差改進(jìn)為LSTM模型。

? ? ? 參考：搜狗研究員講解基于深度學(xué)習(xí)的語音分離技術(shù) 。文章很長，慢慢地看。

???? 技術(shù)詞匯：頻譜映射方法

???? 根據(jù)干擾的不同，語音分離任務(wù)可以分為三類：

當(dāng)干擾為噪聲信號(hào)時(shí)，可以稱為 “語音增強(qiáng)”（Speech Enhancement）
當(dāng)干擾為其他說話人時(shí)，可以稱為 “多說話人分離”（Speaker Separation）
當(dāng)干擾為目標(biāo)說話人自己聲音的反射波時(shí)，可以稱為 “解混響”（De-reverberation）

??? ?? 由于麥克風(fēng)采集到的聲音中可能包括噪聲、其他人說話的聲音、混響等干擾，不做語音分離、直接進(jìn)行識(shí)別的話，會(huì)影響到識(shí)別的準(zhǔn)確率。因此在語音識(shí)別的前端加上語音分離技術(shù)，把目標(biāo)說話人的聲音和其它干擾分開就可以提高語音識(shí)別系統(tǒng)的魯棒性，這從而也成為現(xiàn)代語音識(shí)別系統(tǒng)中不可或缺的一環(huán)。

????? 基于深度學(xué)習(xí)的語音分離，主要是用基于深度學(xué)習(xí)的方法，從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)語音、說話人和噪音的特征，從而實(shí)現(xiàn)語音分離的目標(biāo)。

????? 練目標(biāo)包括兩類，一類是基于 Mask 的方法，另一類是基于頻譜映射的方法。

..............

?????? 如果使用頻譜映射，分離問題就成為了一個(gè)回歸問題。

?????

????? 頻譜映射可以使用幅度譜、功率譜、梅爾譜以及 Gammatone 功率譜。Gammatone 是模擬人耳耳蝸濾波后的特征。為了壓縮參數(shù)的動(dòng)態(tài)范圍以及考慮人耳的聽覺效應(yīng)，通常還會(huì)加上對(duì)數(shù)操作，比如對(duì)數(shù)功率譜。

????? 基于頻譜映射的方法，是讓模型通過有監(jiān)督學(xué)習(xí)，自己學(xué)習(xí)有干擾的頻譜到無干擾的頻譜（干凈語音）之間的映射關(guān)系；模型可以是 DNN、CNN、LSTM 甚至 GAN。

.......................

???? 最后，文仕學(xué)給大家留了兩個(gè)思考題，歡迎大家在評(píng)論區(qū)給出自己的見解。

第一個(gè)問題是語音分離任務(wù)中，是按傳統(tǒng)思路先變換到頻域，然后在頻域上進(jìn)行處理，還是直接在時(shí)域上處理比較好？后者的好處是端到端訓(xùn)練，不用考慮頻域方法做傅立葉反變換時(shí)相位的問題。
第二個(gè)問題是對(duì)于語音增強(qiáng)任務(wù)，應(yīng)該使用真實(shí)噪聲加噪還是使用人工仿真生成的噪聲進(jìn)行降噪？

語音分離-噪聲中分離

????? 參考一個(gè)中文簡介：語音分離-從噪聲中分離，沒有仔細(xì)看。

單聲道語音分離，一般用到兩種技術(shù)：語音增強(qiáng)，和計(jì)算聽覺場景分析。

語音增強(qiáng)通過分析語音和噪聲的一般統(tǒng)計(jì)量，從帶噪語音中估計(jì)噪聲，進(jìn)而從帶噪語音中減去噪聲估計(jì)，得到目標(biāo)語音。其中最簡單的也是使用最廣泛的技術(shù)是譜減，它估計(jì)噪聲的功率譜，從帶噪語音中減去噪聲得到目標(biāo)語音。

????? 計(jì)算聽覺場景分析模擬了人類聽覺系統(tǒng)的場景分析過程，它將聽覺場景分析分成分段（ｓｅｇｍｅｎｔａｔｉｏｎ）和組織（ｇｒｏｕｐｉｎｇ）兩個(gè)步驟，首先利用時(shí)間連續(xù)性及諧波特性等信息，將語音信號(hào)分解成獨(dú)立的來自于單個(gè)聲源的片段，再根據(jù)語音基音（ｐｉｔｃｈ）以及語音開始（ｏｎｓｅｔ）和結(jié)束位置（ｏｆｆｓｅｔ）等線索，將語音片段組織連接起來。這些連接起來的語音就是分離得到的目標(biāo)語音。

GitHub上的開源代碼：????

???? GitHub項(xiàng)目:自然語言處理領(lǐng)域的相關(guān)干貨整理

使用其他感知進(jìn)行輔助

1.MIT提出像素級(jí)聲源定位系統(tǒng)PixelPlayer：無監(jiān)督地分離視頻中的目標(biāo)聲源：

論文鏈接：https://arxiv.org/pdf/1804.03160.pdf
項(xiàng)目地址：http://sound-of-pixels.csail.mit.edu/

2. GoogleAI技術(shù)：google 指哪兒看哪兒，多重信號(hào)分離

?? 論文地址：https://arxiv.org/pdf/1804.03619.pdf

總結(jié)

以上是生活随笔為你收集整理的语音跟踪：信号分解、锁相、鸡尾酒会效应、基于PR的信号分离的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：剑与远征如何遣散英雄
下一篇：最优化方法系列：Adam+SGD-AMS

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

语音跟踪：信号分解、锁相、鸡尾酒会效应、基于PR的信号分离

???? GitHub項(xiàng)目:自然語言處理領(lǐng)域的相關(guān)干貨整理

總結(jié)