當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

發布時間：2024/1/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。搜集一些資料，方便查閱學習：http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

Recent Advances in End-to-End Automatic Speech Recognition

本篇綜述是微軟JINYU LI在2021.11.02更新的文章，主要從產業界的角度對最近幾年端到端ASR的發展進行總結，感興趣的讀者可以閱讀該文章，具體的文章鏈接?https://arxiv.org/pdf/2111.01690.pdf

一?介紹

相對于傳統的混合模型的ASR，端到端E2E的ASR系統具備以下優點：1）混合模型的每個模塊優化都是單獨優化，不能保證獲取全局最優，而E2E的ASR使用一個優化函數來優化整個網絡；2）E2E的ASR直接輸出character或者words，簡化流程；而混合模型的每個模塊都需要相應的專業知識；3）相對于混合模型，e2e模型使用一個網絡進行識別，整個系統更加緊湊，可以更便捷在設備上部署。雖然端到端的ASR具備以上優點，而且在很多benchmarks超過混合模型，但混合模型在工業界依然占據主要市場。混合模型在工業界發展數十年，在streaming,latency,adaptation capability,accuracy等方面的方案技術有較厚的積累，e2e的asr要想替代混合模型，必須在以上諸多方面超越混合模型。本文為了促進e2e的asr方案落地，從工業界的角度對近年來的e2e的方案進行總結，更好的應對以上的挑戰。

二?端到端模型（end-to-end models)

現在主流的E2E的ASR模型主要包括?a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer?。其主要網絡結構如圖一所示

其中CTC的結構如圖1（a)所示，本文簡單舉例ctc?path如圖2

圖1(b)為AED模型，其為了實現streaming方式，需要對attention進行處理，本文列舉了AED使用的四種attention,如圖3所示

RNN-T主要如圖1(c)所示。以上結構詳細信息請讀者閱讀該文章。

三?Encoder

端到端的ASR主要部分encoder,該部分主要把輸入信息進行高級的特征表示，本文對encoder使用的結構類型進行總結

? ? A)?Lstm

? ? B)?Transformer

? ? ? ??圖5展示了transfomer和目前流行的confomer結構。

為了實現streaming?ASR，需要在attention使用mask策略，使其只看到部分的context。圖6展示了不同的attenion及對應的mask矩陣。

四?其它的訓練準則

A) teacher-student learning

B) Minimum Word Error Rate Traing

五?多語言模型

?本部分主要介紹多語言模型以及方案，主要介紹了使用語言ID（LID)的優劣和CMM方案，以及code-switching在句內和句間的挑戰。

六?自適用

?A) speaker adaptation

主要使ASR在對應的個人效果更好，常用的方案使用speaker?embeddings對應的語料進行微調，但更多情況下是如何處理每個說話人擁有較少語料。而且本部分也提到如何在用戶端進行訓練，不需要把用戶數據發送到服務端，從而保證用戶數據安全。

B）Domain?Adaptation

?該部分主要介紹Domain?Adaptation，其主要介紹使用文本進行LM方案和TTS-based的方案。

C) Customization

七?Advanced Models

??A）非自回歸模型Non-Autoregressive Models

B)?Unified Models

??流式和非流式方案的結合，動態計算等等

C)Two-pass Models

D)?Multi-talker Models

E）Multi-channel Models

八?多種多樣的主題

a)?更多語音的toolkits

?b)?系統使用的建模單元：characters,word-piece,words等等

?c)?limited data，data?augmentation, self-supervised等等

?d)?模型部署的研究，模型壓縮，量化等等

?e)?asr模型的輸入直接使用waveform而不是聲學特征等等。

?f)?魯棒性的研究

九?總結

本文列舉端到端ASR相比混合模型方案的優勢以及劣勢。?為了促進端到端對混合模型在工業界的替代，本文詳細描述了端到端ASR的模型、挑戰以及各種解決方案。最后作者也可列舉端到端ASR未來的挑戰。

總結

以上是生活随笔為你收集整理的语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：符合python语言变量命名规则_符的解
下一篇： postgrepsql 安装失败