當前位置：首頁 > 运维知识 > windows >内容正文

windows

从零开始语音识别（5）--- 端到端的语音识别系统

發布時間：2024/1/1 windows 52 豆豆

生活随笔收集整理的這篇文章主要介紹了从零开始语音识别（5）--- 端到端的语音识别系统小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么需要端到端的系統

傳統語音識別系統非常復雜，需要分別訓練聲學模型、語言模型、發音模型
需要領域特殊的專業知識
通過端到端的模型可以直接將輸入的聲學特征轉變為文本

端到端語音識別系統介紹

Seq2Seq
此模型長用于機器翻譯、語音識別。其優點是輸入輸出不需要等長，而且兩者長度不固定。
此模型包含兩個RNN結構，分別用于編碼與解碼。Decoder網絡直到解碼的序列是END才停止，因此可以實現變長的輸出。Encoder將輸入進行編碼，將整個輸入的隱狀態輸入給Decoder，可以實現輸入的變長。

seq2seq的瓶頸如圖中橙色方框標記所示，Encoder與Decoder之間傳遞信息是通過Encoder最后一個的隱狀態。如果輸入的整個句子比較長那么和有可能最后一個隱狀態所包含的信息不夠。因此可以通過Attention解決這個問題。

Attention
關鍵點：在decoder的每一個步，只關注句子的特定部分。
從Attention官網中截取的圖片可以看到，Decoder通過Attention機制生成的 $d_1$ 隱狀態更關注于Encoder的 $e_1$ 、 $e_2$ 這兩個隱狀態。

將Encoder的輸入換成語音特征就可以實現端到端的語音識別。

Attention具體的計算步驟：

（1）Decoder在t時刻的隱狀態 $s_t$ ，與encoder在t時刻的所有隱狀態進行點乘再進行softmax獲得 $s_t$ 在每個encoder隱狀態的分數。
（2）將得到的分數與Encoder的狀態相乘得到Attention的分布（Distribution）
（3）此分布再與Decoder進行向量相乘或其他操作得到最后的decoder隱藏層參數
Self-Attention
values和query只來自Decoder的其中一個，而在Attention中values是Encoder的隱狀態，query是Decoder的每一步。
這樣的好處是：能夠替換RNN，對時序進行建模；易并行，計算快
scaled Dot-Product Attention
圖中Q是query，V是value。Q，K，V如果是相同的向量或矩陣那么就是self-attention
Multi-head Attention
多個Attention共同的組合

Transformer
也是Encoder、Decoder框架的一種

[1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.

4.CTC
核心觀點就是利用單個RNN實現將語音特征序列映射到文本序列。通過在輸出集合中引入空符號解決輸入與輸出不等長的問題。

5. RNN Transducer（RNN-T）
是對CTC的增強

RNN-T相比其他E2E模型的優點：
? 使用單向Encoder時，可以進行流式語音識別，也就是拿到一幀就可以解碼一步（主要是因為存在Pred.Network結構）
? LAS、Speech Transformer等必須等到一句話說完才
可以解碼

總結

以上是生活随笔為你收集整理的从零开始语音识别（5）--- 端到端的语音识别系统的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【报告分享】2019-2020动画电影市
下一篇：基于GMM-HMM的语音识别系统