日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

从零开始语音识别(5)--- 端到端的语音识别系统

發布時間:2024/1/1 windows 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从零开始语音识别(5)--- 端到端的语音识别系统 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么需要端到端的系統

  • 傳統語音識別系統非常復雜,需要分別訓練聲學模型、語言模型、發音模型
  • 需要領域特殊的專業知識
    通過端到端的模型可以直接將輸入的聲學特征轉變為文本

端到端語音識別系統介紹

  • Seq2Seq
    此模型長用于機器翻譯、語音識別。其優點是輸入輸出不需要等長,而且兩者長度不固定。
    此模型包含兩個RNN結構,分別用于編碼與解碼。Decoder網絡直到解碼的序列是END才停止,因此可以實現變長的輸出。Encoder將輸入進行編碼,將整個輸入的隱狀態輸入給Decoder,可以實現輸入的變長。

    seq2seq的瓶頸如圖中橙色方框標記所示,Encoder與Decoder之間傳遞信息是通過Encoder最后一個的隱狀態。如果輸入的整個句子比較長那么和有可能最后一個隱狀態所包含的信息不夠。因此可以通過Attention解決這個問題。

  • Attention
    關鍵點:在decoder的每一個步,只關注句子的特定部分。
    從Attention官網中截取的圖片可以看到,Decoder通過Attention機制生成的d1d_1d1?隱狀態更關注于Encoder的e1e_1e1?e2e_2e2?這兩個隱狀態。

    將Encoder的輸入換成語音特征就可以實現端到端的語音識別。

    • Attention具體的計算步驟:

      (1)Decoder在t時刻的隱狀態sts_tst?,與encoder在t時刻的所有隱狀態進行點乘再進行softmax獲得sts_tst?在每個encoder隱狀態的分數。
      (2)將得到的分數與Encoder的狀態相乘得到Attention的分布(Distribution)
      (3)此分布再與Decoder進行向量相乘或其他操作得到最后的decoder隱藏層參數

    • Self-Attention
      values和query只來自Decoder的其中一個,而在Attention中values是Encoder的隱狀態,query是Decoder的每一步。
      這樣的好處是:能夠替換RNN,對時序進行建模;易并行,計算快

    • scaled Dot-Product Attention
      圖中Q是query,V是value。Q,K,V如果是相同的向量或矩陣那么就是self-attention

    • Multi-head Attention
      多個Attention共同的組合

  • Transformer
    也是Encoder、Decoder框架的一種

    [1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.
  • 4.CTC
    核心觀點就是利用單個RNN實現將語音特征序列映射到文本序列。通過在輸出集合中引入空符號解決輸入與輸出不等長的問題。


    5. RNN Transducer(RNN-T)
    是對CTC的增強

    RNN-T相比其他E2E模型的優點:
    ? 使用單向Encoder時,可以進行流式語音識別 ,也就是拿到一幀就可以解碼一步(主要是因為存在Pred.Network結構)
    ? LAS、Speech Transformer等必須等到一句話說完才
    可以解碼

    總結

    以上是生活随笔為你收集整理的从零开始语音识别(5)--- 端到端的语音识别系统的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。