语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。搜集一些資料,方便查閱學習:http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。
Recent Advances in End-to-End Automatic Speech Recognition
本篇綜述是微軟JINYU LI在2021.11.02更新的文章,主要從產業界的角度對最近幾年端到端ASR的發展進行總結,感興趣的讀者可以閱讀該文章,具體的文章鏈接?https://arxiv.org/pdf/2111.01690.pdf
一?介紹
相對于傳統的混合模型的ASR,端到端E2E的ASR系統具備以下優點:1)混合模型的每個模塊優化都是單獨優化,不能保證獲取全局最優,而E2E的ASR使用一個優化函數來優化整個網絡;2)E2E的ASR直接輸出character或者words,簡化流程;而混合模型的每個模塊都需要相應的專業知識;3)相對于混合模型,e2e模型使用一個網絡進行識別,整個系統更加緊湊,可以更便捷在設備上部署。雖然端到端的ASR具備以上優點,而且在很多benchmarks超過混合模型,但混合模型在工業界依然占據主要市場。混合模型在工業界發展數十年,在streaming,latency,adaptation capability,accuracy等方面的方案技術有較厚的積累,e2e的asr要想替代混合模型,必須在以上諸多方面超越混合模型。本文為了促進e2e的asr方案落地,從工業界的角度對近年來的e2e的方案進行總結,更好的應對以上的挑戰。
二?端到端模型(end-to-end models)
現在主流的E2E的ASR模型主要包括?a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer?。其主要網絡結構如圖一所示
其中CTC的結構如圖1(a)所示,本文簡單舉例ctc?path如圖2
圖1(b)為AED模型,其為了實現streaming方式,需要對attention進行處理,本文列舉了AED使用的四種attention,如圖3所示
RNN-T主要如圖1(c)所示。以上結構詳細信息請讀者閱讀該文章。
三?Encoder
端到端的ASR主要部分encoder,該部分主要把輸入信息進行高級的特征表示,本文對encoder使用的結構類型進行總結
? ? A)?Lstm
? ? B)?Transformer
? ? ? ??圖5展示了transfomer和目前流行的confomer結構。
為了實現streaming?ASR,需要在attention使用mask策略,使其只看到部分的context。圖6展示了不同的attenion及對應的mask矩陣。
四?其它的訓練準則
A) teacher-student learning
B) Minimum Word Error Rate Traing
五?多語言模型
?本部分主要介紹多語言模型以及方案,主要介紹了使用語言ID(LID)的優劣和CMM方案,以及code-switching在句內和句間的挑戰。
六?自適用
?A) speaker adaptation
主要使ASR在對應的個人效果更好,常用的方案使用speaker?embeddings對應的語料進行微調,但更多情況下是如何處理每個說話人擁有較少語料。而且本部分也提到如何在用戶端進行訓練,不需要把用戶數據發送到服務端,從而保證用戶數據安全。
B)Domain?Adaptation
?該部分主要介紹Domain?Adaptation,其主要介紹使用文本進行LM方案和TTS-based的方案。
C) Customization
七?Advanced Models
??A)非自回歸模型Non-Autoregressive Models
B)?Unified Models
??流式和非流式方案的結合,動態計算等等
C)Two-pass Models
??
D)?Multi-talker Models
E)Multi-channel Models
八?多種多樣的主題
a)?更多語音的toolkits
?b)?系統使用的建模單元:characters,word-piece,words等等
?c)?limited data,data?augmentation, self-supervised等等
?d)?模型部署的研究,模型壓縮,量化等等
?e)?asr模型的輸入直接使用waveform而不是聲學特征等等。
?f)?魯棒性的研究
九?總結
本文列舉端到端ASR相比混合模型方案的優勢以及劣勢。?為了促進端到端對混合模型在工業界的替代,本文詳細描述了端到端ASR的模型、挑戰以及各種解決方案。最后作者也可列舉端到端ASR未來的挑戰。
總結
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 符合python语言变量命名规则_符的解
- 下一篇: postgrepsql 安装失败