腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展
本文來(lái)自騰訊AI Lab(微信號(hào):tencent_ailab),這是一篇深度研究的概述。今年七月, IEEE/CAA Journal of Automatica Sinica發(fā)表了騰訊 AI Lab 副主任兼西雅圖實(shí)驗(yàn)室負(fù)責(zé)人俞棟博士,與微軟首席應(yīng)用科學(xué)家兼技術(shù)負(fù)責(zé)人李錦宇聯(lián)合撰寫(xiě)的論文。該論文回顧了過(guò)去兩年聲學(xué)模型方面的新進(jìn)展。本文摘取該論文主干部分進(jìn)行編譯介紹,希望為讀者提供相關(guān)進(jìn)展的概括性了解。欲知相關(guān)技術(shù)方法詳情,可參閱頁(yè)末論文及相關(guān)文獻(xiàn)。
1. 引言
過(guò)去幾年里,自動(dòng)語(yǔ)音識(shí)別(ASR)已經(jīng)取得了重大的進(jìn)步?[1-21]。這些進(jìn)步讓 ASR 系統(tǒng)越過(guò)了許多真實(shí)場(chǎng)景應(yīng)用所需的門(mén)檻,催生出了 Google Now、微軟小娜和亞馬遜 Alexa 等服務(wù)。這些成就中很多都是由深度學(xué)習(xí)(Deep Learning)技術(shù)推動(dòng)的。
在這篇論文中,我們調(diào)查了過(guò)去兩年的新進(jìn)展,并重點(diǎn)關(guān)注了聲學(xué)模型。我們討論了所調(diào)查的每一項(xiàng)有趣研究成果的動(dòng)機(jī)和核心思想。具體而言,第 2 節(jié)中,我們闡釋了使用深度循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的改進(jìn)的 DL/HMM(深度學(xué)習(xí)-隱馬爾可夫模型)混合聲學(xué)模型。比起前饋深層神經(jīng)網(wǎng)絡(luò)(DNN),這些混合模型能更好地利用語(yǔ)境信息,并由此得到了新的當(dāng)前最佳的識(shí)別準(zhǔn)確度。
第 3 節(jié)中,我們描述了僅使用很少或不使用不可學(xué)習(xí)組件的以端到端方式設(shè)計(jì)和優(yōu)化的聲學(xué)模型。我們首先討論了直接使用音頻波形作為輸入特征的模型,其特征表征層是自動(dòng)學(xué)習(xí)到的,而不是人工設(shè)計(jì)的。然后我們描述了聯(lián)結(jié)主義時(shí)序分類(lèi)(Connectionist Temporal Classification, CTC)標(biāo)準(zhǔn)優(yōu)化的模型,該模型允許序列到序列的直接映射。之后我們分析了構(gòu)建于注意機(jī)制之上的序列到序列翻譯模型。
第 4 節(jié)中,我們討論了可以提升穩(wěn)健性的技術(shù),并重點(diǎn)關(guān)注了自適應(yīng)技術(shù)、語(yǔ)音增強(qiáng)和分離技術(shù)、穩(wěn)健訓(xùn)練技術(shù)。第 5 節(jié)中,我們描述了支持高效解碼的聲學(xué)模型并涵蓋了通過(guò)教師-學(xué)生訓(xùn)練(teacher-student training)與量化實(shí)現(xiàn)的跳幀和模型壓縮。第 6 節(jié)中,我們提出了正待解決的核心問(wèn)題以及有望解決這些問(wèn)題的未來(lái)方向。
2. 利用可變長(zhǎng)度語(yǔ)境信息的聲學(xué)模型
DL/HMM 混合模型?[1-5]?是第一種在 ASR 上取得成功的深度學(xué)習(xí)架構(gòu),而且仍然是這一行業(yè)使用的主導(dǎo)模型。幾年前,大多數(shù)混合系統(tǒng)都是基于 DNN 的。
但是,由于音素和語(yǔ)速的不同,語(yǔ)境信息的最優(yōu)長(zhǎng)度也可能各不相同。這說(shuō)明像在 DNN/HMM 混合系統(tǒng)中一樣使用固定長(zhǎng)度的語(yǔ)境窗口(context window)可能并非利用語(yǔ)音信息的最佳選擇。近幾年,人們已經(jīng)提出了一些可以更有效地利用可變長(zhǎng)度語(yǔ)境信息的新模型。其中最重要的兩個(gè)模型使用了深度 RNN 和 CNN。
A. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
前饋 DNN 僅會(huì)考慮固定長(zhǎng)度的幀的滑動(dòng)窗口中的信息,因此無(wú)法利用語(yǔ)音信號(hào)中的長(zhǎng)距離相關(guān)性。而 RNN 可以編碼自己內(nèi)部狀態(tài)中的序列歷史,因此有望基于截止當(dāng)前幀所觀察到的所有語(yǔ)音特征來(lái)預(yù)測(cè)音素。但不幸的是,純粹的 RNN 難以訓(xùn)練。
為了克服這些問(wèn)題,研究人員開(kāi)發(fā)了長(zhǎng)短期記憶(LSTM)RNN?[23]。LSTM-RNN 使用輸入門(mén)、輸出門(mén)和遺忘門(mén)來(lái)控制信息流,使得梯度能在相對(duì)更長(zhǎng)的時(shí)間跨度內(nèi)穩(wěn)定地傳播。
為了得到更好的建模能力,一種流行的做法是將 LSTM 層堆疊起來(lái)?[8]。但帶有太多 vanilla LSTM 層的 LSTM-RNN 非常難以訓(xùn)練,而且如果網(wǎng)絡(luò)太深,還會(huì)有梯度消失問(wèn)題。這個(gè)問(wèn)題可以使用 highway LSTM 或 residual LSTM 解決。
在 highway LSTM?[29]?中,相鄰層的記憶單元通過(guò)門(mén)控的直接鏈路連接在一起,這為信息提供了一種在層之間更直接且不衰減地流動(dòng)的路徑。
residual LSTM?[30,31]?在 LSTM 層之間使用了捷徑連接(shortcut connection),因此也提供了一種緩解梯度消失問(wèn)題的方法。
另外還有一種二維時(shí)頻 LSTM(2-D, time-frequency (TF) LSTM)[35, 36],可以在時(shí)間和頻率軸上對(duì)語(yǔ)音輸入進(jìn)行聯(lián)合掃描,以對(duì)頻譜時(shí)間扭曲(spectro-temporal warping)建模,然后再將其輸出的激活(activation)用作傳統(tǒng)的時(shí)間 LSTM 的輸入。這種時(shí)間-頻率聯(lián)合建模能為上層的時(shí)間 LSTM 提供更好的規(guī)范化的特征。
網(wǎng)格 LSTM(Grid LSTM)?[38]?是一種將 LSTM 記憶單元排布成多維網(wǎng)格的通用 LSTM,可以被看作是一種將 LSTM 用于時(shí)間、頻譜和空間計(jì)算的統(tǒng)一方法。
盡管雙向 LSTM(BLSTM)通過(guò)使用過(guò)去和未來(lái)的語(yǔ)境信息能得到比單向 LSTM 更好的表現(xiàn),但它們并不適合實(shí)時(shí)系統(tǒng),因?yàn)檫@需要在觀察到整個(gè)話語(yǔ)之后才能進(jìn)行識(shí)別。因?yàn)檫@個(gè)原因,延遲受控 BLSTM(LC-BLSTM)[29]?和行卷積 BLSTM(RC-BLSTM)等模型被提了出來(lái),這些模型構(gòu)建了單向 LSTM 和 BLSTM 之間的橋梁。在這些模型中,前向 LSTM 還是保持原樣。但反向 LSTM 會(huì)被替代——要么被帶有最多 N 幀前瞻量的反向 LSTM(如 LC-BLSTM 的情況)替代,要么被集成了 N 幀前瞻量中的信息的行卷積替代。
B.卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是另一種可以有效利用可變長(zhǎng)度的語(yǔ)境信息的模型?[42],其核心是卷積運(yùn)算(或卷積層)。
時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network/TDNN)是第一種為 ASR 使用多個(gè) CNN 層的模型。這種模型在時(shí)間軸和頻率軸上都應(yīng)用了卷積運(yùn)算。
繼DNN 在 LVCSR 上的成功應(yīng)用之后,CNN 又在 DL/HMM 混合模型架構(gòu)下被重新引入。因?yàn)樵摶旌夏P椭械?HMM 已經(jīng)有很強(qiáng)的處理 ASR 中可變長(zhǎng)度話語(yǔ)問(wèn)題的能力了,所以重新引入 CNN 最初只是為了解決頻率軸的多變性?[5,7,44,45]。其目標(biāo)是提升穩(wěn)健性,以應(yīng)對(duì)不同說(shuō)話人之間的聲道長(zhǎng)度差異。這些早期模型僅使用了一到兩個(gè) CNN 層,它們和其它全連接 DNN 層堆疊在一起。
后來(lái),LSTM 等其它 RNN 層也被集成到了該模型中,從而形成了所謂的 CNN-LSTM-DNN (CLDNN)?[10]?和 CNN-DNN-LSTM(CDL)架構(gòu)。
研究者很快認(rèn)識(shí)到處理可變長(zhǎng)度的話語(yǔ)不同于利用可變長(zhǎng)度的語(yǔ)境信息。TDNN 會(huì)沿頻率軸和時(shí)間軸兩者同時(shí)進(jìn)行卷積,因此能夠利用可變長(zhǎng)度的語(yǔ)境信息。基于此,這種模型又得到了新的關(guān)注,但這一次是在 DL/HMM 混合架構(gòu)之下?[13,47],并且出現(xiàn)了行卷積?[15]?和前饋序列記憶網(wǎng)絡(luò)(feedforward sequential memory network/FSMN)?[16]?等變體。
最近以來(lái),主要受圖像處理領(lǐng)域的成功的激勵(lì),研究者提出和評(píng)估了多種用于 ASR 的深度 CNN 架構(gòu)[14,17,46,48]。其前提是語(yǔ)譜圖可以被看作是帶有特定模式的圖像,而有經(jīng)驗(yàn)的人能夠從中看出里面說(shuō)的內(nèi)容。在深度 CNN 中,每一個(gè)更高層都是更低層的一個(gè)窗口的非線性變換的加權(quán)和,因此可以覆蓋更長(zhǎng)的語(yǔ)境以及操作更抽象的模式。和有長(zhǎng)延遲困擾的 BLSTM 不一樣,深度 CNN 的延遲有限,而且如果可以控制計(jì)算成本,那就更加適用于實(shí)時(shí)系統(tǒng)。
為了加速計(jì)算,我們可以將整個(gè)話語(yǔ)看作是單張輸入圖像,因此可以復(fù)用中間計(jì)算結(jié)果。還不止這樣,如果深度 CNN 的設(shè)計(jì)能保證每一層的步幅(stride)長(zhǎng)到能覆蓋整個(gè)核(kernel),比如基于逐層語(yǔ)境擴(kuò)展和注意(layer-wise context expansion and attention/LACE)的 CNN?[17]和dilated CNN?[46],它僅需更少數(shù)量的層就能利用更長(zhǎng)范圍的信息,并且可以顯著降低計(jì)算成本。
3. 使用端到端優(yōu)化的聲學(xué)模型
在 DNN/HMM 混合模型中,DNN 和 HMM 兩個(gè)組件通常是分別進(jìn)行優(yōu)化的。然而,語(yǔ)音識(shí)別是一個(gè)序列識(shí)別問(wèn)題。如果模型中的所有組件都聯(lián)合進(jìn)行優(yōu)化,那就很可能得到更好的識(shí)別準(zhǔn)確度。如果模型可以移除所有人工設(shè)計(jì)的組件(比如基本特征表征和詞典設(shè)計(jì)),那結(jié)果甚至可以更好。
A.自動(dòng)學(xué)習(xí)到的音頻特征表征
對(duì)語(yǔ)音識(shí)別而言,人工設(shè)計(jì)的對(duì)數(shù)梅爾濾波器組特征(log Mel-filter-bank feature)是否最優(yōu)還存在爭(zhēng)議。受機(jī)器學(xué)習(xí)社區(qū)內(nèi)端到端處理的啟發(fā),研究者們一直在努力?[49-52]?試圖用直接學(xué)習(xí)濾波器替代梅爾濾波器組提取。直接學(xué)習(xí)濾波器就是使用一個(gè)網(wǎng)絡(luò)來(lái)處理原始的語(yǔ)音波形,并且與識(shí)別器網(wǎng)絡(luò)聯(lián)合訓(xùn)練而得到濾波器。
遠(yuǎn)場(chǎng) ASR 領(lǐng)域當(dāng)前的主導(dǎo)方法仍然是使用傳統(tǒng)的波束成形方法來(lái)處理來(lái)自多個(gè)麥克風(fēng)的波形,然后再將經(jīng)過(guò)波束成形處理過(guò)的信號(hào)輸入給聲學(xué)模型?[54]。在使用深度學(xué)習(xí)執(zhí)行波束成形以及波束成形和識(shí)別器網(wǎng)絡(luò)的聯(lián)合訓(xùn)練上,都已經(jīng)有了一些研究工作?[55-58]。
B.聯(lián)結(jié)主義時(shí)序分類(lèi)(CTC)
語(yǔ)音識(shí)別任務(wù)是一種序列到序列的翻譯任務(wù),即將輸入波形映射到最終的詞序列或中間的音素序列。聲學(xué)模型真正應(yīng)該關(guān)心的是輸出的詞或音素序列,而不是在傳統(tǒng)的交叉熵(CE)訓(xùn)練中優(yōu)化的一幀一幀的標(biāo)注。為了應(yīng)用這種觀點(diǎn)并將語(yǔ)音輸入幀映射成輸出標(biāo)簽序列,聯(lián)結(jié)主義時(shí)序分類(lèi)(CTC)方法被引入了進(jìn)來(lái)[9,60,61]。為了解決語(yǔ)音識(shí)別任務(wù)中輸出標(biāo)簽數(shù)量少于輸入語(yǔ)音幀數(shù)量的問(wèn)題,CTC 引入了一種特殊的空白標(biāo)簽,并且允許標(biāo)簽重復(fù),從而迫使輸出和輸入序列的長(zhǎng)度相同。
CTC 的一個(gè)迷人特點(diǎn)是我們可以選擇大于音素的輸出單元,比如音節(jié)和詞。這說(shuō)明輸入特征可以使用大于 10ms 的采樣率構(gòu)建。CTC 提供了一種以端到端的方式優(yōu)化聲學(xué)模型的途徑。在 deep speech?[15, 63]?和 EESEN?[64,65]?研究中,研究者探索了用端到端的語(yǔ)音識(shí)別系統(tǒng)直接預(yù)測(cè)字符而非音素,從而也就不再需要[9,60,61]?中使用的詞典和決策樹(shù)了。
確定用于 CTC 預(yù)測(cè)的基本輸出單元是一個(gè)設(shè)計(jì)難題。其中,預(yù)先確定的固定分解不一定是最優(yōu)的。[68]?中提出了 gramCTC,可以自動(dòng)學(xué)習(xí)最適合目標(biāo)序列的分解。但是,所有這些研究都不能說(shuō)是完全端到端的系統(tǒng),因?yàn)樗鼈兪褂昧苏Z(yǔ)言模型和解碼器。
因?yàn)?ASR 的目標(biāo)是根據(jù)語(yǔ)音波形生成詞序列,所以詞單元(word unit)是網(wǎng)絡(luò)建模的最自然的輸出單元。[18]?中表明通過(guò)使用 10 萬(wàn)個(gè)詞作為輸出目標(biāo)并且使用 12.5 萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練該模型,發(fā)現(xiàn)使用詞單元的 CTC 系統(tǒng)能夠超越使用音素單元的 CTC 系統(tǒng)。
圖 1:詞 CTC 的一個(gè)示例
受 CTC 研究的啟發(fā),最近有研究者提出了無(wú) lattice 最大互信息(lattice-free maximum mutual information/LFMMI),可以無(wú)需從交叉熵網(wǎng)絡(luò)進(jìn)行初始化,就能從頭開(kāi)始訓(xùn)練深度網(wǎng)絡(luò)。
總體來(lái)說(shuō),從 DNN 到 LSTM(時(shí)間建模)再到 CTC(端到端建模),聲學(xué)模型存在一個(gè)清晰的主要發(fā)展路徑。盡管使用音素作為建模單元時(shí),LFMMI 等一些建模技術(shù)可以得到與 CTC 類(lèi)似的表現(xiàn),但它們可能并不非常符合端到端建模的趨勢(shì),因?yàn)檫@些模型需要專(zhuān)家知識(shí)來(lái)設(shè)計(jì),也需要語(yǔ)言模型和詞典等組件才能工作。
C.基于注意的序列到序列翻譯模型
基于注意(attention)的序列到序列模型是另一種端到端模型?[71,72]。它源自機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)一種成功的模型[73,74],即使用注意解碼器(attention decoder)對(duì)編碼器-解碼器框架?[75]?進(jìn)行了擴(kuò)展。
這種基于注意的模型并沒(méi)有像 CTC 那樣假設(shè)幀是獨(dú)立的,這也是注意模型的一大優(yōu)勢(shì)。這種基于注意的模型的訓(xùn)練難度甚至比 CTC 模型還大。
基于注意的模型也有不能單調(diào)地從左到右對(duì)齊和收斂緩慢的缺點(diǎn)。在?[76]?中,通過(guò)將 CTC 目標(biāo)函數(shù)用作輔助成本函數(shù),注意訓(xùn)練和 CTC 訓(xùn)練以一種多任務(wù)學(xué)習(xí)的方式結(jié)合到了一起。這樣一種訓(xùn)練策略極大地改善了基于注意的模型的收斂,并且緩解了對(duì)齊問(wèn)題。
4 聲學(xué)模型穩(wěn)健性
當(dāng)測(cè)試集和訓(xùn)練集匹配時(shí),尤其是當(dāng)兩者處在相當(dāng)接近的對(duì)話條件下時(shí),當(dāng)前最佳的系統(tǒng)能夠得到很出色的識(shí)別準(zhǔn)確度。但是,在有更多噪聲(包括音樂(lè)或干擾性說(shuō)話人)或帶有很強(qiáng)口音?[78,79]?等不匹配或復(fù)雜環(huán)境中時(shí),系統(tǒng)的表現(xiàn)將大打折扣。這一問(wèn)題的解決方案包括自適應(yīng)、語(yǔ)音增強(qiáng)和穩(wěn)健建模。
A.聲學(xué)模型自適應(yīng)
鑒于自適應(yīng)數(shù)據(jù)有限,所以與說(shuō)話人相關(guān)(SD)模型和與說(shuō)話人無(wú)關(guān)(SI)模型的差距應(yīng)該不大。參考文獻(xiàn)[82]?為訓(xùn)練標(biāo)準(zhǔn)加入了Kullback-Leibler divergence(KLD)正則化,防止自適應(yīng)的模型偏離 SI 模型太遠(yuǎn)。這種 KLD 自適應(yīng)標(biāo)準(zhǔn)已被證明可以非常有效地處理自適應(yīng)數(shù)據(jù)有限的情況。
與其調(diào)整自適應(yīng)標(biāo)準(zhǔn),大多數(shù)研究關(guān)注的是如何使用非常少量的參數(shù)來(lái)表征說(shuō)話人的特征。奇異值分解(SVD)瓶頸自適應(yīng)?[84]?是解決方案之一,這種方法可以通過(guò)使用 SVD 重構(gòu)的結(jié)構(gòu)得到占用資源低的 SD 模型?[85]。
k×k 的 SD 矩陣通常是對(duì)角主導(dǎo)矩陣,這一觀察啟發(fā)研究者提出了低秩加對(duì)角(low-rank plus diagonal/LRPD)分解,這種方法可以將 k×k 的 SD 矩陣分解成一個(gè)對(duì)角矩陣加上兩個(gè)低秩矩陣的乘積。
另一種旨在尋找變換的低維子空間的方法是子空間方法(subspace method),這種方法僅需少量參數(shù)就能指定每種變換。這一類(lèi)別內(nèi)的一種流行方法是使用輔助特征,比如 i-vector?[89,90]、說(shuō)話人代碼?[91]?和噪聲估計(jì)?[92],這些特征會(huì)與標(biāo)準(zhǔn)的聲學(xué)特征串接在一起。
其它子空間方法還包括聚類(lèi)自適應(yīng)訓(xùn)練(CAT)[96,97]?和 factorized hidden layer(FHL),其中的變換會(huì)被局限在說(shuō)話人子空間中。
CAT 風(fēng)格的方法有一個(gè)問(wèn)題,就是它的基(base)是滿秩矩陣,這需要非常大量的的訓(xùn)練數(shù)據(jù)。因此,CAT 中的基的數(shù)量通常局限在少量幾個(gè)?[96,97]。使用 FHL?[98,99]?是一種解決方案,這種方法將基限制為秩一矩陣。通過(guò)這樣的方式,能夠減少每個(gè)基所需的訓(xùn)練數(shù)據(jù),從而能在訓(xùn)練數(shù)據(jù)固定的條件下增加基的數(shù)量。
B.語(yǔ)音增強(qiáng)和分離
眾所周知,當(dāng)語(yǔ)音中摻雜了很強(qiáng)的噪聲或干擾語(yǔ)音時(shí),當(dāng)前的 ASR 系統(tǒng)的表現(xiàn)會(huì)變得很差?[105,106]。盡管人類(lèi)聽(tīng)者也會(huì)受到糟糕的音頻信號(hào)的影響,但表現(xiàn)水平的下降程度比 ASR 系統(tǒng)要明顯小很多。
在單聲道語(yǔ)音增強(qiáng)和分離任務(wù)中,會(huì)假設(shè)只有線性混合的單麥克風(fēng)信號(hào)已知,其目標(biāo)是恢復(fù)音頻源中的每一個(gè)音頻流。語(yǔ)音的增強(qiáng)和分離通常在時(shí)頻域進(jìn)行。
研究者近來(lái)已經(jīng)為語(yǔ)音的增強(qiáng)和分離開(kāi)發(fā)了很多深度學(xué)習(xí)技術(shù)。這些技術(shù)的核心是將增強(qiáng)和分離問(wèn)題轉(zhuǎn)化成一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。更具體來(lái)說(shuō),就是給定配對(duì)的(通常是人工)混合語(yǔ)音和聲源流,針對(duì)每個(gè)時(shí)頻區(qū)間(time-frequency bin),優(yōu)化深度學(xué)習(xí)模型使其能預(yù)測(cè)聲源是否屬于目標(biāo)類(lèi)別。
與說(shuō)話人無(wú)關(guān)的多說(shuō)話人語(yǔ)音分離的難度在于標(biāo)簽的模糊性或排列問(wèn)題。因?yàn)樵诨旌闲盘?hào)中,音頻源是對(duì)稱(chēng)的,所以在監(jiān)督學(xué)習(xí)過(guò)程中,并不能預(yù)先確定的將正確源目標(biāo)分配給對(duì)應(yīng)輸出層。因此,模型將無(wú)法很好地訓(xùn)練以分離語(yǔ)音。幸運(yùn)的是,人們已經(jīng)提出了幾種用于解決標(biāo)簽?zāi):詥?wèn)題的技術(shù)。
Hershey et al.?[111, 112]?提出了一種被稱(chēng)為深度聚類(lèi)(deep clustering/DPCL)的全新技術(shù)。這種模型假設(shè)每個(gè)時(shí)頻區(qū)間都僅屬于一個(gè)說(shuō)話人。在訓(xùn)練過(guò)程中,每個(gè)時(shí)頻區(qū)間都被映射到了一個(gè)嵌入空間。然后對(duì)這個(gè)嵌入進(jìn)行優(yōu)化,使屬于同一個(gè)說(shuō)話人的時(shí)頻區(qū)間在這個(gè)空間中相距更近,屬于不同說(shuō)話人的則相距更遠(yuǎn)。在評(píng)估過(guò)程中,該模型會(huì)在嵌入上使用一個(gè)聚類(lèi)算法來(lái)生成時(shí)頻區(qū)間的分區(qū)。
Yu et al.?[20]?和 Kolbak et al.?[21]?則提出了一種更簡(jiǎn)單的技術(shù)排列不變訓(xùn)練(permutation invariant training/PIT)來(lái)攻克與說(shuō)話人無(wú)關(guān)的多說(shuō)話人語(yǔ)音分離問(wèn)題。在這種新方法中,源目標(biāo)被當(dāng)作一個(gè)集合進(jìn)行處理(即順序是無(wú)關(guān)的)。在訓(xùn)練過(guò)程中,PIT 首先根據(jù)前向結(jié)果在句子層面上確定誤差最小的輸出-目標(biāo)分配。然后再最小化基于這一分配的誤差。這種策略一次性地簡(jiǎn)單直接地解決了標(biāo)簽排列問(wèn)題和說(shuō)話人跟蹤問(wèn)題。PIT 不需要單獨(dú)的跟蹤步驟(因此可用于實(shí)時(shí)系統(tǒng))。相反,每個(gè)輸出層都對(duì)應(yīng)于源的一個(gè)流。
對(duì)于語(yǔ)音識(shí)別,我們可以將每個(gè)分離的語(yǔ)音流饋送給 ASR 系統(tǒng)。甚至還能做到更好,基于深度學(xué)習(xí)的聲學(xué)模型也許可以和分離組件(通常是 RNN)進(jìn)行端到端的聯(lián)合優(yōu)化。因?yàn)榉蛛x只是一個(gè)中間步驟,Yu et al.?[124]提出直接在 senone 標(biāo)簽上使用 PIT 優(yōu)化交叉熵標(biāo)準(zhǔn),而不再需要明確的語(yǔ)音分離步驟。
C.穩(wěn)健的訓(xùn)練
深度學(xué)習(xí)網(wǎng)絡(luò)的成功是因?yàn)榭梢詫⒋罅哭D(zhuǎn)錄數(shù)據(jù)用于訓(xùn)練數(shù)以百萬(wàn)計(jì)的模型參數(shù)。但是,當(dāng)測(cè)試數(shù)據(jù)來(lái)自一個(gè)新領(lǐng)域時(shí),深度模型的表現(xiàn)仍然會(huì)下降。
最近,為了得到對(duì)噪聲穩(wěn)健的 ASR,對(duì)抗訓(xùn)練?[125]?的概念也得到了探索?[126-128]。這種解決方案是一種完全無(wú)監(jiān)督的域適應(yīng)方法,不會(huì)利用太多關(guān)于新域的知識(shí)。它的訓(xùn)練是通過(guò)在編碼器網(wǎng)絡(luò)的域鑒別器網(wǎng)絡(luò)之間插入一個(gè)梯度反向?qū)?#xff08;gradient reverse layer/GRL)實(shí)現(xiàn)的。
最近,為了不使用轉(zhuǎn)錄數(shù)據(jù)執(zhí)行自適應(yīng),研究者提出了教師/學(xué)生學(xué)習(xí)(teacher/student (T/S) learning)方法[132]。來(lái)自源域的數(shù)據(jù)由源域模型(教師)處理,以生成對(duì)應(yīng)的后驗(yàn)概率或軟標(biāo)簽(soft label)。這些后驗(yàn)概率被用于替代源自轉(zhuǎn)錄數(shù)據(jù)的硬標(biāo)簽(hard label),以使用來(lái)自目標(biāo)域的并行數(shù)據(jù)訓(xùn)練目標(biāo)模型(學(xué)生)。
5 具有有效解碼的聲學(xué)模型
通過(guò)堆疊多層網(wǎng)絡(luò)訓(xùn)練深度網(wǎng)絡(luò)有助于改善詞錯(cuò)率(WER)。但是,計(jì)算成本卻是個(gè)麻煩,尤其是在實(shí)時(shí)性具有很高的優(yōu)先級(jí)的行業(yè)部署中。降低運(yùn)行時(shí)成本的方法有好幾種。
第一種方法是使用奇異值分解(SVD)。SVD 方法是將一個(gè)滿秩矩陣分解成兩個(gè)更低秩的矩陣,因此可以在保證再訓(xùn)練之后準(zhǔn)確度不下降的同時(shí)顯著減少深度模型中的參數(shù)數(shù)量。
第二種方法是采用教師/學(xué)生(T/S)學(xué)習(xí)或知識(shí)精煉(knowledge distillation),從而通過(guò)最小化小規(guī)模 DNN 和標(biāo)準(zhǔn)的大規(guī)模 DNN 的輸出分布之間的 KLD 來(lái)壓縮標(biāo)準(zhǔn)的 DNN 模型。
第三種方法是通過(guò)大量量化來(lái)壓縮模型,既可以應(yīng)用非常低比特的量化,也可以用向量量化。
第四種解決方案是操作模型結(jié)構(gòu)。為了降低計(jì)算成本,研究者提出了一種帶有投射層的 LSTM(LSTMP),即在 LSTM 層之后增加一個(gè)線性投射層?[8]。
最后,可以使用跨幀的相關(guān)性來(lái)降低評(píng)估深度網(wǎng)絡(luò)分?jǐn)?shù)的頻率。對(duì)于 DNN 或 CNN 而言,這可以通過(guò)使用跳幀(frame-skipping)策略完成,即每隔幾幀才計(jì)算一次聲學(xué)分?jǐn)?shù),并在解碼時(shí)將該分?jǐn)?shù)復(fù)制到?jīng)]有評(píng)估聲學(xué)分?jǐn)?shù)的幀?[149]。
6 未來(lái)方向
這一領(lǐng)域的研究前沿已經(jīng)從使用近距離麥克風(fēng)的 ASR 變成了使用遠(yuǎn)場(chǎng)麥克風(fēng)的 ASR,這種發(fā)展的推動(dòng)力是用戶對(duì)無(wú)需佩戴或攜帶近距離麥克風(fēng)就能與設(shè)備進(jìn)行交互的需求的日益增長(zhǎng)。
盡管為近距離場(chǎng)景開(kāi)發(fā)的很多語(yǔ)音識(shí)別技術(shù)都可以直接用于遠(yuǎn)場(chǎng)場(chǎng)景,但這些技術(shù)在遠(yuǎn)距離識(shí)別場(chǎng)景中的表現(xiàn)不佳。為了最終解決遠(yuǎn)距離語(yǔ)音識(shí)別問(wèn)題,我們需要優(yōu)化從音頻捕獲(如麥克風(fēng)陣列信號(hào)處理)到聲學(xué)建模和解碼的整個(gè)流程。
作者簡(jiǎn)介 | 俞棟博士
騰訊AI Lab副主任及西雅圖實(shí)驗(yàn)室負(fù)責(zé)人
俞棟博士是首批將深度學(xué)習(xí)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域的研究者,60項(xiàng)專(zhuān)利發(fā)明人及開(kāi)源軟件CNTK開(kāi)發(fā)者,曾任職美國(guó)微軟、并兼浙大、中科大及上海交大等教職。
他有浙大電子工程學(xué)士、美國(guó)印第安納大學(xué)計(jì)算機(jī)碩士、中科院自動(dòng)化所模式識(shí)別與智能控制碩士及愛(ài)達(dá)荷大學(xué)計(jì)算機(jī)博士等學(xué)位。
掃描以下二維碼,可下載論文全文
總結(jié)
以上是生活随笔為你收集整理的腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Modern C++ JSON nloh
- 下一篇: 深度 | 腾讯 AI Lab副主任俞栋: