當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

腾讯AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展

發(fā)布時(shí)間：2023/12/20 ChatGpt 65 豆豆

生活随笔收集整理的這篇文章主要介紹了腾讯AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文來(lái)自騰訊AI Lab（微信號(hào)：tencent_ailab），這是一篇深度研究的概述。今年七月， IEEE/CAA Journal of Automatica Sinica發(fā)表了騰訊 AI Lab 副主任兼西雅圖實(shí)驗(yàn)室負(fù)責(zé)人俞棟博士，與微軟首席應(yīng)用科學(xué)家兼技術(shù)負(fù)責(zé)人李錦宇聯(lián)合撰寫(xiě)的論文。該論文回顧了過(guò)去兩年聲學(xué)模型方面的新進(jìn)展。本文摘取該論文主干部分進(jìn)行編譯介紹，希望為讀者提供相關(guān)進(jìn)展的概括性了解。欲知相關(guān)技術(shù)方法詳情，可參閱頁(yè)末論文及相關(guān)文獻(xiàn)。

1. 引言

過(guò)去幾年里，自動(dòng)語(yǔ)音識(shí)別（ASR）已經(jīng)取得了重大的進(jìn)步?[1-21]。這些進(jìn)步讓 ASR 系統(tǒng)越過(guò)了許多真實(shí)場(chǎng)景應(yīng)用所需的門(mén)檻，催生出了 Google Now、微軟小娜和亞馬遜 Alexa 等服務(wù)。這些成就中很多都是由深度學(xué)習(xí)（Deep Learning）技術(shù)推動(dòng)的。

在這篇論文中，我們調(diào)查了過(guò)去兩年的新進(jìn)展，并重點(diǎn)關(guān)注了聲學(xué)模型。我們討論了所調(diào)查的每一項(xiàng)有趣研究成果的動(dòng)機(jī)和核心思想。具體而言，第 2 節(jié)中，我們闡釋了使用深度循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）的改進(jìn)的 DL/HMM（深度學(xué)習(xí)-隱馬爾可夫模型）混合聲學(xué)模型。比起前饋深層神經(jīng)網(wǎng)絡(luò)（DNN），這些混合模型能更好地利用語(yǔ)境信息，并由此得到了新的當(dāng)前最佳的識(shí)別準(zhǔn)確度。

第 3 節(jié)中，我們描述了僅使用很少或不使用不可學(xué)習(xí)組件的以端到端方式設(shè)計(jì)和優(yōu)化的聲學(xué)模型。我們首先討論了直接使用音頻波形作為輸入特征的模型，其特征表征層是自動(dòng)學(xué)習(xí)到的，而不是人工設(shè)計(jì)的。然后我們描述了聯(lián)結(jié)主義時(shí)序分類(lèi)（Connectionist Temporal Classification， CTC）標(biāo)準(zhǔn)優(yōu)化的模型，該模型允許序列到序列的直接映射。之后我們分析了構(gòu)建于注意機(jī)制之上的序列到序列翻譯模型。

第 4 節(jié)中，我們討論了可以提升穩(wěn)健性的技術(shù)，并重點(diǎn)關(guān)注了自適應(yīng)技術(shù)、語(yǔ)音增強(qiáng)和分離技術(shù)、穩(wěn)健訓(xùn)練技術(shù)。第 5 節(jié)中，我們描述了支持高效解碼的聲學(xué)模型并涵蓋了通過(guò)教師-學(xué)生訓(xùn)練（teacher-student training）與量化實(shí)現(xiàn)的跳幀和模型壓縮。第 6 節(jié)中，我們提出了正待解決的核心問(wèn)題以及有望解決這些問(wèn)題的未來(lái)方向。

2. 利用可變長(zhǎng)度語(yǔ)境信息的聲學(xué)模型

DL/HMM 混合模型?[1-5]?是第一種在 ASR 上取得成功的深度學(xué)習(xí)架構(gòu)，而且仍然是這一行業(yè)使用的主導(dǎo)模型。幾年前，大多數(shù)混合系統(tǒng)都是基于 DNN 的。

但是，由于音素和語(yǔ)速的不同，語(yǔ)境信息的最優(yōu)長(zhǎng)度也可能各不相同。這說(shuō)明像在 DNN/HMM 混合系統(tǒng)中一樣使用固定長(zhǎng)度的語(yǔ)境窗口（context window）可能并非利用語(yǔ)音信息的最佳選擇。近幾年，人們已經(jīng)提出了一些可以更有效地利用可變長(zhǎng)度語(yǔ)境信息的新模型。其中最重要的兩個(gè)模型使用了深度 RNN 和 CNN。

A. 循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

前饋 DNN 僅會(huì)考慮固定長(zhǎng)度的幀的滑動(dòng)窗口中的信息，因此無(wú)法利用語(yǔ)音信號(hào)中的長(zhǎng)距離相關(guān)性。而 RNN 可以編碼自己內(nèi)部狀態(tài)中的序列歷史，因此有望基于截止當(dāng)前幀所觀察到的所有語(yǔ)音特征來(lái)預(yù)測(cè)音素。但不幸的是，純粹的 RNN 難以訓(xùn)練。

為了克服這些問(wèn)題，研究人員開(kāi)發(fā)了長(zhǎng)短期記憶（LSTM）RNN?[23]。LSTM-RNN 使用輸入門(mén)、輸出門(mén)和遺忘門(mén)來(lái)控制信息流，使得梯度能在相對(duì)更長(zhǎng)的時(shí)間跨度內(nèi)穩(wěn)定地傳播。

為了得到更好的建模能力，一種流行的做法是將 LSTM 層堆疊起來(lái)?[8]。但帶有太多 vanilla LSTM 層的 LSTM-RNN 非常難以訓(xùn)練，而且如果網(wǎng)絡(luò)太深，還會(huì)有梯度消失問(wèn)題。這個(gè)問(wèn)題可以使用 highway LSTM 或 residual LSTM 解決。

在 highway LSTM?[29]?中，相鄰層的記憶單元通過(guò)門(mén)控的直接鏈路連接在一起，這為信息提供了一種在層之間更直接且不衰減地流動(dòng)的路徑。

residual LSTM?[30,31]?在 LSTM 層之間使用了捷徑連接（shortcut connection），因此也提供了一種緩解梯度消失問(wèn)題的方法。

另外還有一種二維時(shí)頻 LSTM（2-D, time-frequency (TF) LSTM）[35, 36]，可以在時(shí)間和頻率軸上對(duì)語(yǔ)音輸入進(jìn)行聯(lián)合掃描，以對(duì)頻譜時(shí)間扭曲（spectro-temporal warping）建模，然后再將其輸出的激活（activation）用作傳統(tǒng)的時(shí)間 LSTM 的輸入。這種時(shí)間-頻率聯(lián)合建模能為上層的時(shí)間 LSTM 提供更好的規(guī)范化的特征。

網(wǎng)格 LSTM（Grid LSTM）?[38]?是一種將 LSTM 記憶單元排布成多維網(wǎng)格的通用 LSTM，可以被看作是一種將 LSTM 用于時(shí)間、頻譜和空間計(jì)算的統(tǒng)一方法。

盡管雙向 LSTM（BLSTM）通過(guò)使用過(guò)去和未來(lái)的語(yǔ)境信息能得到比單向 LSTM 更好的表現(xiàn)，但它們并不適合實(shí)時(shí)系統(tǒng)，因?yàn)檫@需要在觀察到整個(gè)話語(yǔ)之后才能進(jìn)行識(shí)別。因?yàn)檫@個(gè)原因，延遲受控 BLSTM（LC-BLSTM）[29]?和行卷積 BLSTM（RC-BLSTM）等模型被提了出來(lái)，這些模型構(gòu)建了單向 LSTM 和 BLSTM 之間的橋梁。在這些模型中，前向 LSTM 還是保持原樣。但反向 LSTM 會(huì)被替代——要么被帶有最多 N 幀前瞻量的反向 LSTM（如 LC-BLSTM 的情況）替代，要么被集成了 N 幀前瞻量中的信息的行卷積替代。

B.卷積神經(jīng)網(wǎng)絡(luò)（CNN）

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是另一種可以有效利用可變長(zhǎng)度的語(yǔ)境信息的模型?[42]，其核心是卷積運(yùn)算（或卷積層）。

時(shí)延神經(jīng)網(wǎng)絡(luò)（time delay neural network/TDNN）是第一種為 ASR 使用多個(gè) CNN 層的模型。這種模型在時(shí)間軸和頻率軸上都應(yīng)用了卷積運(yùn)算。

繼DNN 在 LVCSR 上的成功應(yīng)用之后，CNN 又在 DL/HMM 混合模型架構(gòu)下被重新引入。因?yàn)樵摶旌夏Ｐ椭械?HMM 已經(jīng)有很強(qiáng)的處理 ASR 中可變長(zhǎng)度話語(yǔ)問(wèn)題的能力了，所以重新引入 CNN 最初只是為了解決頻率軸的多變性?[5,7,44,45]。其目標(biāo)是提升穩(wěn)健性，以應(yīng)對(duì)不同說(shuō)話人之間的聲道長(zhǎng)度差異。這些早期模型僅使用了一到兩個(gè) CNN 層，它們和其它全連接 DNN 層堆疊在一起。

后來(lái)，LSTM 等其它 RNN 層也被集成到了該模型中，從而形成了所謂的 CNN-LSTM-DNN （CLDNN）?[10]?和 CNN-DNN-LSTM（CDL）架構(gòu)。

研究者很快認(rèn)識(shí)到處理可變長(zhǎng)度的話語(yǔ)不同于利用可變長(zhǎng)度的語(yǔ)境信息。TDNN 會(huì)沿頻率軸和時(shí)間軸兩者同時(shí)進(jìn)行卷積，因此能夠利用可變長(zhǎng)度的語(yǔ)境信息。基于此，這種模型又得到了新的關(guān)注，但這一次是在 DL/HMM 混合架構(gòu)之下?[13,47]，并且出現(xiàn)了行卷積?[15]?和前饋序列記憶網(wǎng)絡(luò)（feedforward sequential memory network/FSMN）?[16]?等變體。

最近以來(lái)，主要受圖像處理領(lǐng)域的成功的激勵(lì)，研究者提出和評(píng)估了多種用于 ASR 的深度 CNN 架構(gòu)[14,17,46,48]。其前提是語(yǔ)譜圖可以被看作是帶有特定模式的圖像，而有經(jīng)驗(yàn)的人能夠從中看出里面說(shuō)的內(nèi)容。在深度 CNN 中，每一個(gè)更高層都是更低層的一個(gè)窗口的非線性變換的加權(quán)和，因此可以覆蓋更長(zhǎng)的語(yǔ)境以及操作更抽象的模式。和有長(zhǎng)延遲困擾的 BLSTM 不一樣，深度 CNN 的延遲有限，而且如果可以控制計(jì)算成本，那就更加適用于實(shí)時(shí)系統(tǒng)。

為了加速計(jì)算，我們可以將整個(gè)話語(yǔ)看作是單張輸入圖像，因此可以復(fù)用中間計(jì)算結(jié)果。還不止這樣，如果深度 CNN 的設(shè)計(jì)能保證每一層的步幅（stride）長(zhǎng)到能覆蓋整個(gè)核（kernel），比如基于逐層語(yǔ)境擴(kuò)展和注意（layer-wise context expansion and attention/LACE）的 CNN?[17]和dilated CNN?[46]，它僅需更少數(shù)量的層就能利用更長(zhǎng)范圍的信息，并且可以顯著降低計(jì)算成本。

3. 使用端到端優(yōu)化的聲學(xué)模型

在 DNN/HMM 混合模型中，DNN 和 HMM 兩個(gè)組件通常是分別進(jìn)行優(yōu)化的。然而，語(yǔ)音識(shí)別是一個(gè)序列識(shí)別問(wèn)題。如果模型中的所有組件都聯(lián)合進(jìn)行優(yōu)化，那就很可能得到更好的識(shí)別準(zhǔn)確度。如果模型可以移除所有人工設(shè)計(jì)的組件（比如基本特征表征和詞典設(shè)計(jì)），那結(jié)果甚至可以更好。

A.自動(dòng)學(xué)習(xí)到的音頻特征表征

對(duì)語(yǔ)音識(shí)別而言，人工設(shè)計(jì)的對(duì)數(shù)梅爾濾波器組特征（log Mel-filter-bank feature）是否最優(yōu)還存在爭(zhēng)議。受機(jī)器學(xué)習(xí)社區(qū)內(nèi)端到端處理的啟發(fā)，研究者們一直在努力?[49-52]?試圖用直接學(xué)習(xí)濾波器替代梅爾濾波器組提取。直接學(xué)習(xí)濾波器就是使用一個(gè)網(wǎng)絡(luò)來(lái)處理原始的語(yǔ)音波形，并且與識(shí)別器網(wǎng)絡(luò)聯(lián)合訓(xùn)練而得到濾波器。

遠(yuǎn)場(chǎng) ASR 領(lǐng)域當(dāng)前的主導(dǎo)方法仍然是使用傳統(tǒng)的波束成形方法來(lái)處理來(lái)自多個(gè)麥克風(fēng)的波形，然后再將經(jīng)過(guò)波束成形處理過(guò)的信號(hào)輸入給聲學(xué)模型?[54]。在使用深度學(xué)習(xí)執(zhí)行波束成形以及波束成形和識(shí)別器網(wǎng)絡(luò)的聯(lián)合訓(xùn)練上，都已經(jīng)有了一些研究工作?[55-58]。

B.聯(lián)結(jié)主義時(shí)序分類(lèi)（CTC）

語(yǔ)音識(shí)別任務(wù)是一種序列到序列的翻譯任務(wù)，即將輸入波形映射到最終的詞序列或中間的音素序列。聲學(xué)模型真正應(yīng)該關(guān)心的是輸出的詞或音素序列，而不是在傳統(tǒng)的交叉熵（CE）訓(xùn)練中優(yōu)化的一幀一幀的標(biāo)注。為了應(yīng)用這種觀點(diǎn)并將語(yǔ)音輸入幀映射成輸出標(biāo)簽序列，聯(lián)結(jié)主義時(shí)序分類(lèi)（CTC）方法被引入了進(jìn)來(lái)[9,60,61]。為了解決語(yǔ)音識(shí)別任務(wù)中輸出標(biāo)簽數(shù)量少于輸入語(yǔ)音幀數(shù)量的問(wèn)題，CTC 引入了一種特殊的空白標(biāo)簽，并且允許標(biāo)簽重復(fù)，從而迫使輸出和輸入序列的長(zhǎng)度相同。

CTC 的一個(gè)迷人特點(diǎn)是我們可以選擇大于音素的輸出單元，比如音節(jié)和詞。這說(shuō)明輸入特征可以使用大于 10ms 的采樣率構(gòu)建。CTC 提供了一種以端到端的方式優(yōu)化聲學(xué)模型的途徑。在 deep speech?[15, 63]?和 EESEN?[64,65]?研究中，研究者探索了用端到端的語(yǔ)音識(shí)別系統(tǒng)直接預(yù)測(cè)字符而非音素，從而也就不再需要[9,60,61]?中使用的詞典和決策樹(shù)了。

確定用于 CTC 預(yù)測(cè)的基本輸出單元是一個(gè)設(shè)計(jì)難題。其中，預(yù)先確定的固定分解不一定是最優(yōu)的。[68]?中提出了 gramCTC，可以自動(dòng)學(xué)習(xí)最適合目標(biāo)序列的分解。但是，所有這些研究都不能說(shuō)是完全端到端的系統(tǒng)，因?yàn)樗鼈兪褂昧苏Z(yǔ)言模型和解碼器。

因?yàn)?ASR 的目標(biāo)是根據(jù)語(yǔ)音波形生成詞序列，所以詞單元（word unit）是網(wǎng)絡(luò)建模的最自然的輸出單元。[18]?中表明通過(guò)使用 10 萬(wàn)個(gè)詞作為輸出目標(biāo)并且使用 12.5 萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練該模型，發(fā)現(xiàn)使用詞單元的 CTC 系統(tǒng)能夠超越使用音素單元的 CTC 系統(tǒng)。

圖 1：詞 CTC 的一個(gè)示例

受 CTC 研究的啟發(fā)，最近有研究者提出了無(wú) lattice 最大互信息（lattice-free maximum mutual information/LFMMI），可以無(wú)需從交叉熵網(wǎng)絡(luò)進(jìn)行初始化，就能從頭開(kāi)始訓(xùn)練深度網(wǎng)絡(luò)。

總體來(lái)說(shuō)，從 DNN 到 LSTM（時(shí)間建模）再到 CTC（端到端建模），聲學(xué)模型存在一個(gè)清晰的主要發(fā)展路徑。盡管使用音素作為建模單元時(shí)，LFMMI 等一些建模技術(shù)可以得到與 CTC 類(lèi)似的表現(xiàn)，但它們可能并不非常符合端到端建模的趨勢(shì)，因?yàn)檫@些模型需要專(zhuān)家知識(shí)來(lái)設(shè)計(jì)，也需要語(yǔ)言模型和詞典等組件才能工作。

C.基于注意的序列到序列翻譯模型

基于注意（attention）的序列到序列模型是另一種端到端模型?[71,72]。它源自機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)一種成功的模型[73,74]，即使用注意解碼器（attention decoder）對(duì)編碼器-解碼器框架?[75]?進(jìn)行了擴(kuò)展。

這種基于注意的模型并沒(méi)有像 CTC 那樣假設(shè)幀是獨(dú)立的，這也是注意模型的一大優(yōu)勢(shì)。這種基于注意的模型的訓(xùn)練難度甚至比 CTC 模型還大。

基于注意的模型也有不能單調(diào)地從左到右對(duì)齊和收斂緩慢的缺點(diǎn)。在?[76]?中，通過(guò)將 CTC 目標(biāo)函數(shù)用作輔助成本函數(shù)，注意訓(xùn)練和 CTC 訓(xùn)練以一種多任務(wù)學(xué)習(xí)的方式結(jié)合到了一起。這樣一種訓(xùn)練策略極大地改善了基于注意的模型的收斂，并且緩解了對(duì)齊問(wèn)題。

4 聲學(xué)模型穩(wěn)健性

當(dāng)測(cè)試集和訓(xùn)練集匹配時(shí)，尤其是當(dāng)兩者處在相當(dāng)接近的對(duì)話條件下時(shí)，當(dāng)前最佳的系統(tǒng)能夠得到很出色的識(shí)別準(zhǔn)確度。但是，在有更多噪聲（包括音樂(lè)或干擾性說(shuō)話人）或帶有很強(qiáng)口音?[78,79]?等不匹配或復(fù)雜環(huán)境中時(shí)，系統(tǒng)的表現(xiàn)將大打折扣。這一問(wèn)題的解決方案包括自適應(yīng)、語(yǔ)音增強(qiáng)和穩(wěn)健建模。

A.聲學(xué)模型自適應(yīng)

鑒于自適應(yīng)數(shù)據(jù)有限，所以與說(shuō)話人相關(guān)（SD）模型和與說(shuō)話人無(wú)關(guān)（SI）模型的差距應(yīng)該不大。參考文獻(xiàn)[82]?為訓(xùn)練標(biāo)準(zhǔn)加入了Kullback-Leibler divergence（KLD）正則化，防止自適應(yīng)的模型偏離 SI 模型太遠(yuǎn)。這種 KLD 自適應(yīng)標(biāo)準(zhǔn)已被證明可以非常有效地處理自適應(yīng)數(shù)據(jù)有限的情況。

與其調(diào)整自適應(yīng)標(biāo)準(zhǔn)，大多數(shù)研究關(guān)注的是如何使用非常少量的參數(shù)來(lái)表征說(shuō)話人的特征。奇異值分解（SVD）瓶頸自適應(yīng)?[84]?是解決方案之一，這種方法可以通過(guò)使用 SVD 重構(gòu)的結(jié)構(gòu)得到占用資源低的 SD 模型?[85]。

k×k 的 SD 矩陣通常是對(duì)角主導(dǎo)矩陣，這一觀察啟發(fā)研究者提出了低秩加對(duì)角（low-rank plus diagonal/LRPD）分解，這種方法可以將 k×k 的 SD 矩陣分解成一個(gè)對(duì)角矩陣加上兩個(gè)低秩矩陣的乘積。

另一種旨在尋找變換的低維子空間的方法是子空間方法（subspace method），這種方法僅需少量參數(shù)就能指定每種變換。這一類(lèi)別內(nèi)的一種流行方法是使用輔助特征，比如 i-vector?[89,90]、說(shuō)話人代碼?[91]?和噪聲估計(jì)?[92]，這些特征會(huì)與標(biāo)準(zhǔn)的聲學(xué)特征串接在一起。

其它子空間方法還包括聚類(lèi)自適應(yīng)訓(xùn)練（CAT）[96,97]?和 factorized hidden layer（FHL），其中的變換會(huì)被局限在說(shuō)話人子空間中。

CAT 風(fēng)格的方法有一個(gè)問(wèn)題，就是它的基（base）是滿秩矩陣，這需要非常大量的的訓(xùn)練數(shù)據(jù)。因此，CAT 中的基的數(shù)量通常局限在少量幾個(gè)?[96,97]。使用 FHL?[98,99]?是一種解決方案，這種方法將基限制為秩一矩陣。通過(guò)這樣的方式，能夠減少每個(gè)基所需的訓(xùn)練數(shù)據(jù)，從而能在訓(xùn)練數(shù)據(jù)固定的條件下增加基的數(shù)量。

B.語(yǔ)音增強(qiáng)和分離

眾所周知，當(dāng)語(yǔ)音中摻雜了很強(qiáng)的噪聲或干擾語(yǔ)音時(shí)，當(dāng)前的 ASR 系統(tǒng)的表現(xiàn)會(huì)變得很差?[105,106]。盡管人類(lèi)聽(tīng)者也會(huì)受到糟糕的音頻信號(hào)的影響，但表現(xiàn)水平的下降程度比 ASR 系統(tǒng)要明顯小很多。

在單聲道語(yǔ)音增強(qiáng)和分離任務(wù)中，會(huì)假設(shè)只有線性混合的單麥克風(fēng)信號(hào)已知，其目標(biāo)是恢復(fù)音頻源中的每一個(gè)音頻流。語(yǔ)音的增強(qiáng)和分離通常在時(shí)頻域進(jìn)行。

研究者近來(lái)已經(jīng)為語(yǔ)音的增強(qiáng)和分離開(kāi)發(fā)了很多深度學(xué)習(xí)技術(shù)。這些技術(shù)的核心是將增強(qiáng)和分離問(wèn)題轉(zhuǎn)化成一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。更具體來(lái)說(shuō)，就是給定配對(duì)的（通常是人工）混合語(yǔ)音和聲源流，針對(duì)每個(gè)時(shí)頻區(qū)間（time-frequency bin），優(yōu)化深度學(xué)習(xí)模型使其能預(yù)測(cè)聲源是否屬于目標(biāo)類(lèi)別。

與說(shuō)話人無(wú)關(guān)的多說(shuō)話人語(yǔ)音分離的難度在于標(biāo)簽的模糊性或排列問(wèn)題。因?yàn)樵诨旌闲盘?hào)中，音頻源是對(duì)稱(chēng)的，所以在監(jiān)督學(xué)習(xí)過(guò)程中，并不能預(yù)先確定的將正確源目標(biāo)分配給對(duì)應(yīng)輸出層。因此，模型將無(wú)法很好地訓(xùn)練以分離語(yǔ)音。幸運(yùn)的是，人們已經(jīng)提出了幾種用于解決標(biāo)簽?zāi)：詥?wèn)題的技術(shù)。

Hershey et al.?[111, 112]?提出了一種被稱(chēng)為深度聚類(lèi)（deep clustering/DPCL）的全新技術(shù)。這種模型假設(shè)每個(gè)時(shí)頻區(qū)間都僅屬于一個(gè)說(shuō)話人。在訓(xùn)練過(guò)程中，每個(gè)時(shí)頻區(qū)間都被映射到了一個(gè)嵌入空間。然后對(duì)這個(gè)嵌入進(jìn)行優(yōu)化，使屬于同一個(gè)說(shuō)話人的時(shí)頻區(qū)間在這個(gè)空間中相距更近，屬于不同說(shuō)話人的則相距更遠(yuǎn)。在評(píng)估過(guò)程中，該模型會(huì)在嵌入上使用一個(gè)聚類(lèi)算法來(lái)生成時(shí)頻區(qū)間的分區(qū)。

Yu et al.?[20]?和 Kolbak et al.?[21]?則提出了一種更簡(jiǎn)單的技術(shù)排列不變訓(xùn)練（permutation invariant training/PIT）來(lái)攻克與說(shuō)話人無(wú)關(guān)的多說(shuō)話人語(yǔ)音分離問(wèn)題。在這種新方法中，源目標(biāo)被當(dāng)作一個(gè)集合進(jìn)行處理（即順序是無(wú)關(guān)的）。在訓(xùn)練過(guò)程中，PIT 首先根據(jù)前向結(jié)果在句子層面上確定誤差最小的輸出-目標(biāo)分配。然后再最小化基于這一分配的誤差。這種策略一次性地簡(jiǎn)單直接地解決了標(biāo)簽排列問(wèn)題和說(shuō)話人跟蹤問(wèn)題。PIT 不需要單獨(dú)的跟蹤步驟（因此可用于實(shí)時(shí)系統(tǒng)）。相反，每個(gè)輸出層都對(duì)應(yīng)于源的一個(gè)流。

對(duì)于語(yǔ)音識(shí)別，我們可以將每個(gè)分離的語(yǔ)音流饋送給 ASR 系統(tǒng)。甚至還能做到更好，基于深度學(xué)習(xí)的聲學(xué)模型也許可以和分離組件（通常是 RNN）進(jìn)行端到端的聯(lián)合優(yōu)化。因?yàn)榉蛛x只是一個(gè)中間步驟，Yu et al.?[124]提出直接在 senone 標(biāo)簽上使用 PIT 優(yōu)化交叉熵標(biāo)準(zhǔn)，而不再需要明確的語(yǔ)音分離步驟。

C.穩(wěn)健的訓(xùn)練

深度學(xué)習(xí)網(wǎng)絡(luò)的成功是因?yàn)榭梢詫⒋罅哭D(zhuǎn)錄數(shù)據(jù)用于訓(xùn)練數(shù)以百萬(wàn)計(jì)的模型參數(shù)。但是，當(dāng)測(cè)試數(shù)據(jù)來(lái)自一個(gè)新領(lǐng)域時(shí)，深度模型的表現(xiàn)仍然會(huì)下降。

最近，為了得到對(duì)噪聲穩(wěn)健的 ASR，對(duì)抗訓(xùn)練?[125]?的概念也得到了探索?[126-128]。這種解決方案是一種完全無(wú)監(jiān)督的域適應(yīng)方法，不會(huì)利用太多關(guān)于新域的知識(shí)。它的訓(xùn)練是通過(guò)在編碼器網(wǎng)絡(luò)的域鑒別器網(wǎng)絡(luò)之間插入一個(gè)梯度反向?qū)?#xff08;gradient reverse layer/GRL）實(shí)現(xiàn)的。

最近，為了不使用轉(zhuǎn)錄數(shù)據(jù)執(zhí)行自適應(yīng)，研究者提出了教師/學(xué)生學(xué)習(xí)（teacher/student (T/S) learning）方法[132]。來(lái)自源域的數(shù)據(jù)由源域模型（教師）處理，以生成對(duì)應(yīng)的后驗(yàn)概率或軟標(biāo)簽（soft label）。這些后驗(yàn)概率被用于替代源自轉(zhuǎn)錄數(shù)據(jù)的硬標(biāo)簽（hard label），以使用來(lái)自目標(biāo)域的并行數(shù)據(jù)訓(xùn)練目標(biāo)模型（學(xué)生）。

5 具有有效解碼的聲學(xué)模型

通過(guò)堆疊多層網(wǎng)絡(luò)訓(xùn)練深度網(wǎng)絡(luò)有助于改善詞錯(cuò)率（WER）。但是，計(jì)算成本卻是個(gè)麻煩，尤其是在實(shí)時(shí)性具有很高的優(yōu)先級(jí)的行業(yè)部署中。降低運(yùn)行時(shí)成本的方法有好幾種。

第一種方法是使用奇異值分解（SVD）。SVD 方法是將一個(gè)滿秩矩陣分解成兩個(gè)更低秩的矩陣，因此可以在保證再訓(xùn)練之后準(zhǔn)確度不下降的同時(shí)顯著減少深度模型中的參數(shù)數(shù)量。

第二種方法是采用教師/學(xué)生（T/S）學(xué)習(xí)或知識(shí)精煉（knowledge distillation），從而通過(guò)最小化小規(guī)模 DNN 和標(biāo)準(zhǔn)的大規(guī)模 DNN 的輸出分布之間的 KLD 來(lái)壓縮標(biāo)準(zhǔn)的 DNN 模型。

第三種方法是通過(guò)大量量化來(lái)壓縮模型，既可以應(yīng)用非常低比特的量化，也可以用向量量化。

第四種解決方案是操作模型結(jié)構(gòu)。為了降低計(jì)算成本，研究者提出了一種帶有投射層的 LSTM（LSTMP），即在 LSTM 層之后增加一個(gè)線性投射層?[8]。

最后，可以使用跨幀的相關(guān)性來(lái)降低評(píng)估深度網(wǎng)絡(luò)分?jǐn)?shù)的頻率。對(duì)于 DNN 或 CNN 而言，這可以通過(guò)使用跳幀（frame-skipping）策略完成，即每隔幾幀才計(jì)算一次聲學(xué)分?jǐn)?shù)，并在解碼時(shí)將該分?jǐn)?shù)復(fù)制到?jīng)]有評(píng)估聲學(xué)分?jǐn)?shù)的幀?[149]。

6 未來(lái)方向

這一領(lǐng)域的研究前沿已經(jīng)從使用近距離麥克風(fēng)的 ASR 變成了使用遠(yuǎn)場(chǎng)麥克風(fēng)的 ASR，這種發(fā)展的推動(dòng)力是用戶對(duì)無(wú)需佩戴或攜帶近距離麥克風(fēng)就能與設(shè)備進(jìn)行交互的需求的日益增長(zhǎng)。

盡管為近距離場(chǎng)景開(kāi)發(fā)的很多語(yǔ)音識(shí)別技術(shù)都可以直接用于遠(yuǎn)場(chǎng)場(chǎng)景，但這些技術(shù)在遠(yuǎn)距離識(shí)別場(chǎng)景中的表現(xiàn)不佳。為了最終解決遠(yuǎn)距離語(yǔ)音識(shí)別問(wèn)題，我們需要優(yōu)化從音頻捕獲（如麥克風(fēng)陣列信號(hào)處理）到聲學(xué)建模和解碼的整個(gè)流程。

作者簡(jiǎn)介 | 俞棟博士

騰訊AI Lab副主任及西雅圖實(shí)驗(yàn)室負(fù)責(zé)人

俞棟博士是首批將深度學(xué)習(xí)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域的研究者，60項(xiàng)專(zhuān)利發(fā)明人及開(kāi)源軟件CNTK開(kāi)發(fā)者，曾任職美國(guó)微軟、并兼浙大、中科大及上海交大等教職。

他有浙大電子工程學(xué)士、美國(guó)印第安納大學(xué)計(jì)算機(jī)碩士、中科院自動(dòng)化所模式識(shí)別與智能控制碩士及愛(ài)達(dá)荷大學(xué)計(jì)算機(jī)博士等學(xué)位。

掃描以下二維碼，可下載論文全文

總結(jié)

以上是生活随笔為你收集整理的腾讯AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Modern C++ JSON nloh
下一篇：深度 | 腾讯 AI Lab副主任俞栋：

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ChatGpt

腾讯AI Lab副主任俞栋：过去两年基于深度学习的声学模型进展

總結(jié)