當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog

發布時間：2024/1/8 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。搜集一些資料，方便查閱學習：http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

A comparison of streaming models and data augmentation methods for robust?speech?recognition

本文為三星在2021.11.19更新的文章，主要對比端到端流式ASR系統Monotonic Chunkwise Attention (MoChA) 和?Recurrent Neural Network-Transducer (RNN-T)的性能以及multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等數據增廣對比試驗，主要為經驗分享，具體的文章鏈接https://arxiv.org/pdf/2111.10043.pdf

1?背景

端到端的ASR最近幾年受到重大關注，其使用一個網絡結構來完成傳統的ASR多個模塊共同完成的任務，大大降低其復雜程度。在現實場景中，ASR需要滿足時延低的特性，因此streaming asr被研究。本文對比了目前主流的端到端streaming ASR的方案：Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)。另外也對比三種數據增廣方案的實驗對比：multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment。

2?詳細設計

本文先回顧了MoChA和RNN-T的網絡結構（圖1所示），為了對比公平，本文的encoder部分的結構及超參相同，都使用LSTM的結構。其中MoChA的chunk設置為4，其對齊如圖2所示。另外本文訓練模型使用了warm-up 的策略，其學習率隨著添加layer而變化如圖3所示。

3?實驗

本文除了對比MoChA和RNN-T流式模型，還對比了非流式模型Bi-directional LSTM with Full Attention (BFA) models and Uni-directional LSTM with Full Attention (UFA)?。訓練使用的數據為LibriSpeech Corpus，測試數據為Test set - LibriSpeech clean with noise和Test set - VOiCES。另外對比了數據增廣的方案Room acoustics simulation，Vocal Tract Length Perturbation和 SpecAugment，訓練添加的Room acoustics simulation占比如公司4所示。首先看table1對比了MoChA和RNN-T在每種方案的對比試驗，在clean數據上MoChA表現好，在noise數據上RNN-T表現好。另外RNN-T在時延、模型大小上更占優勢，更適合在端上進行部署使用。Table2對比warm-up的效果，結果顯示warm-up訓練提高性能。Table 3對比數據增廣acoustics simulation的影響，有結果可知該數據增廣在noise數據上效果顯著，clean數據集效果反而下降。Table 4對比三種數據增廣方案在流式和非流式系統上的性能，其大大提高的系統的性能，而且在非流式系統上表現更突出。Table5和Table6對比了MoChA和RNN-T的速度和參數量，其結果顯示RNN-T更具備優勢，更適合在邊緣設備上進行部署的方案。

4?總結

本文對比端到端流式ASR系統Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等數據增廣對比試驗，主要為經驗分享。

總結

以上是生活随笔為你收集整理的语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python编程小记：基本语法
下一篇： table里的th和td加了边框后，他是