日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

语音识别与 RNN-Transducer 概述

發布時間:2023/12/19 综合教程 28 生活家
生活随笔 收集整理的這篇文章主要介紹了 语音识别与 RNN-Transducer 概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注:本文為一次課程展示所用幻燈片與報告存檔。

目錄背景方法綜述RNN-Transducer發展背景模型結構算法實現后記

背景

語音識別是一項可以使人與人、人與機器更加順暢地交流的技術。近年來,語音識別相關的若干技術場景以及逐漸地改變了我們的工作和生活方式,如語音輸入法、語音消息“轉文本”、語音到語音翻譯系統、檢索語音信息等。同時,語音識別也能夠極大地提升人機交流地能力,包括語音搜索、個人數碼助理、游戲體驗改進、智能家居、車載娛樂系統等等。這些種種應用場景,其對于機器理解人類語音地程度要求各不相同,但共同之處在于,我們都需要構建一種以包含語音地待識別音頻為激勵,以呈現識別結果的書面表達形式為響應的識別系統。

形式化地,語音識別問題可以表達為:

由此,我們可以引入語音識別問題的評價指標,它通常是定義在某一種識別單位上的錯誤率,如最常用的詞錯誤率定義為以詞為單位的編輯距離。所謂編輯距離是指對于給定的兩個串A,B,串 A 修改為串 B 需要替換、刪除、插入的元素數量總和的最小值。它的求解是一個非常經典的可以在多項式時間內求解的動態規劃問題。

在引出語音識別系統的系統結構之前,我們需要首先對語音識別問題進行基本的模型構建與數學表達。根據語音識別問題的定義,我們利用Bayes定理并引入音素

由此我們將語音識別問題的求解拆解成為三個部分。聲學模型負責給出對于一個確定的音素序列,它發聲為當前音頻的概率;詞典模型負責給出一個詞素序列的發音為一個音素序列的概率;語言模型給出一句話有多大概率是自然語言中的語句。

此外,在音頻被識別推理之前,還需要經過前端的VAD、分幀、特征提取等信號處理步驟。綜上所述,語音識別的系統結構可以粗略表示如下圖所示。

方法綜述

前端系統主要分為VAD、分幀、特征提取三個部分。

在這里我們討論特征提取的兩種常用思路:FBank和MFCC。FBank是由波形經過DFT變換產生頻譜圖并進行三角濾波后得到的,在此基礎上再做LogDCT得到梅爾倒譜系數MFCC。顯然,MFCC實在FBank的基礎上進一步計算得到的。因此,相對而言,FBank的計算量更小,特征相關性更高,但同時因為它更加原始,所以信息的損失也更小。基于GMM的方法通常采用MFCC作為特征提取的方式,而基于神經網絡的方法則通常采用FBank。

后端分為聲學模型、詞典模型、語言模型三部分。在這里我們著重討論聲學模型的主流研究方法。基于GMM-HMM的傳統方法由于缺少上下文信息和難以利用深度的非線性特征,目前已經較少采用。一種簡單的改進是采用DNN代替GMM,由此得到DNN-HMM方法,它只能通過拼幀來表達相關性,仍然不夠。因此引入了LSTM-RNN來代替普通DNN,自動保留歷史信息,但是這樣構造出的聲學模型復雜而難以訓練。此外,以上方法我們需要對數據做手工的對齊標注,即標注每一詞素的輸出是由輸入當中的哪一幀產生的,這樣的標注過程非常費時費力,同時也限制了大量訓練數據的產生。端到端方法的產生解決了這一問題。LAS作為一種帶有注意力機制的seq2seq方法,通過Attention規避了需要手工對齊的問題,但是它無法實現真正的在線語音識別。CTC雖然可以在線識別,但是由于缺乏語言建模能力,且輸出獨立性假設存在明顯的不合理性,單獨使用很難達到較好的效果。RNN-T是在CTC的基礎上改進產生,它解決了CTC兩個最主要的問題,也是本文要重點討論的對象。

RNN-Transducer

本節中我們主要介紹RNN-T的發展來源、模型結構、關鍵算法實現,并對齊性能表現進行討論,同時給出其與其它常用端到端模型的對比以及其改進策略。

發展背景

基于DNN-HMM的方法雖然克服了無法學習到深度非線性特征的問題,并通過引入LSTM-RNN解決了無法整合上下文信息的問題,但是仍然面臨著相當巨大的困境。為了訓練傳統的聲學模型,我們需要大量的高度標注的數據。這種標注,不僅是對一段聲音波形所包含的文字信息的標注,還需要包括每一個輸出Token對應到哪一幀的音頻輸入上。不妨簡單計算,每秒鐘100幀的音頻特征,對數萬小時的訓練數據進行這樣的人工標注,成本巨大,難以接受。LAS通過引入機器翻譯中常用的帶有Attention機制的seq2seq,但是仍然面臨著無法進行在線地流式識別的問題。

CTC是一個Encoder加上一個線性分類器的模型結構。Encoder負責將低級的語音特征轉換為高級的深度特征,將這些特征輸入到一個Softmax分類器中,得到該幀輸出字符的概率分布。回顧我們之前討論過的幾個問題,上下文信息已經在Encoder層被編碼到其輸出中。同時,對于每個輸入幀,CTC都會輸出一個對應的Token。這個過程中并沒有使用到將來的語音信息,因此它表現為一個自然的因果系統,可以完成流式的識別處理。

CTC中輸出的Token可能是一個有效的語素或者為空,事實上,大量的輸出都是空的。由于空語素的存在以及重復Token的輸出問題,我們需要對輸出序列做一些簡單的后處理。我們將輸出的序列先合并所有連續相同的Token,再刪除其中的空元素。由于存在很多種不同的對齊方式都是正確的,在計算損失函數時,需要用動態規劃計算所有合法路徑總概率。注意 Token 的選擇也是多樣化的。

CTC 化繁為簡,可以加速解碼,但是仍然缺乏語言模型建模能力,因此無法實現真正的端到端聯合優化。同時,CTC存在一個非常不合理的假設,即各輸出之間時相互獨立的。我們需要通過聯合一個RNN語言模型來解決這一問題。

RNN-T在CTC的基礎上改進得到。其演變過程如下圖所示:

模型結構

RNN-T由一個Encoder,一個Decoder構成,這里我們將Pred. Network和Joint Network以及Softmax合起來看作一個Decoder。針對CTC網絡的條件獨立性假設即當前時刻輸出與之前的輸出條件獨立,引入語言模型預測網絡分支,通過聯合前饋神經網絡將二者結合,在預測最終輸出時能夠同時利用聲學和語言特征信息。

具體地,Encoder的輸入是經過編碼后的聲學特征信息,它會將這些信息映射到高階表示。和CTC中的Encoder一樣,它只與過去所有時刻的Encoder輸入相關,因此它可以被作為一個CTC模型單獨訓練。

Decoder的輸出之和整個網絡過去所有時刻的非空輸出歷史相關。具體而言,它由預測網絡和連結網絡構成。預測網絡通常使用一個由LSTM構造的RNN,它只和過去所有時刻的非空歷史輸出相關,而與Encoder當前的輸出無關,這意味著它是一個純粹的LM。連結網絡是一個簡單的前向傳播神經網絡,它產生logits,并交由Softmax層完成分類任務。

在Google的一項工作中,在grapheme作為建模單元基礎上,引入了詞組單元wordpieces,能夠捕獲更長的文本信息,有利于減少替換性錯誤。對于其中的CTC部分,采用多級CTC,建模單元包括音素phoneme、字母grapheme、詞條wordpieces,此外在字母LSTM輸出時,通過時域卷積來縮短時間片長度,減少參數量,加速訓練。

算法實現

下面我們簡單介紹實現過程中的幾個算法設計問題。

在RNN-T的訓練過程的實現上,需要使用Viterbi動態規劃算法來完成損失函數以及梯度下降計算時導數反向傳播求解的過程,因為損失函數是根據所有的對齊方式設計的,而一個正確的文字序列結果,對應的對齊序列的結果是指數級別的,我們不可能窮舉所有的序列。

當然我們也可以將整個過程放在一個自動機上看。

在RNN-T的推理過程的實現上,模型輸出了序列每個位置的值的概率分布,我們需要求概率最大的若干輸出序列,雖然我們可以通過直接將分類器對所有幀輸出的概率分布的最大參數拼接起來,但這樣無法獲得全局最優解。事實上,獲得全局最優解無法在多項式時間內給出算法實現,因此我們考慮一種近似算法,通過Beam Search,一種帶剪枝的廣度優先搜索,即保證在搜索完概率樹形結構的每一層后,隊列中僅保留概率最大的不超過k個元素,以此來在推理開銷和準確程度之間取得可以調節的平衡。

后記

RNN-T雖然解決了CTC的兩個主要問題,但是它仍然面臨著訓練困難,以及輸出的一些路徑不夠合理的問題。在最新的頂會文章中,LAS和CTC仍然是最為主流的思路。

總結

以上是生活随笔為你收集整理的语音识别与 RNN-Transducer 概述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日本丰满少妇裸体自慰 | 一级国产黄色片 | 久久22 | 日本一级吃奶淫片免费 | 久月婷婷 | 日韩日b视频 | 女人的天堂网站 | 涩涩久久 | 日本一区二区三区精品 | 久久久新| 99久久婷婷国产综合精品电影 | 在线岛国 | 超碰人人搞 | 久久亚洲影视 | 日本成人高清 | 神马福利视频 | 极品蜜桃臀肥臀-x88av | 一级欧美一级日韩片 | 九色丨蝌蚪丨成人 | 一区二区精品在线观看 | 国产九九精品视频 | 在线观看免费视频一区 | 亚洲天堂男人天堂 | 99久久精品国产成人一区二区 | 亚洲情射| 亚洲精品在线观 | 丰满人妻一区二区三区免费视频 | 久久综合久色欧美综合狠狠 | 日本福利网站 | 毛片在线播放视频 | 欧美日韩国产精品一区二区三区 | 日韩美女黄色 | 黄网站免费大全入口 | 污污污污污污www网站免费 | 国产成人亚洲精品自产在线 | 中文字幕国产一区二区 | 亚洲精品久久久久久久久久久久久 | 蜜桃臀av在线 | 调教一区二区三区 | 日韩视频免费在线观看 | 动漫美女无遮挡免费 | 一级做a爰 | 精品无人国产偷自产在线 | 男人插入女人下面视频 | 9l视频自拍蝌蚪9l视频成人 | 亚洲日日日 | 全国男人的天堂网 | 精品国产aⅴ一区二区三区东京热 | 成人黄色在线观看 | 中国av在线播放 | 夜夜操狠狠干 | 国产人妖ts重口系列网站观看 | 久久久久麻豆 | 久久久久久久色 | 日韩一区二区在线观看 | 大胸美女网站 | 青草精品 | 波多野结衣精品在线 | 伊人99在线| 男人的天堂亚洲 | 97国产 | 91黑丝美女| 综合色导航 | 亚州一区二区 | 久久久久免费观看 | 免费av不卡 | 日韩国产欧美综合 | 二区在线视频 | 日韩孕交 | 欧美日韩在线视频一区二区 | 欧美一卡二卡在线 | 中文字幕一区av | 人妻一区二区三区免费 | 在线观看免费视频a | 一本到av| 国产五月婷婷 | 午夜精品一区二区三区在线视频 | 色爱av | 国产在线视频福利 | 九九综合视频 | 波多野结衣50连登视频 | 精品动漫一区二区 | 麻豆精品在线视频 | 亚洲成av人片一区二区 | 亚洲福利专区 | 亚洲色妞| 张津瑜国内精品www在线 | 成人av不卡 | 国产黄网在线观看 | 91美女视频网站 | 国产毛片毛片毛片毛片 | 久久精品视频8 | 精品av一区二区 | 四虎成人永久免费视频 | 免费在线观看黄网站 | 国产日韩一级 | 亚洲图片欧美在线 | 国产亚洲欧美一区 | 五月中文字幕 |