日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《Improving speech recognition by revising gated recurrent units》

發(fā)布時(shí)間:2024/1/1 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《Improving speech recognition by revising gated recurrent units》 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo ?, Yoshua Bengio?

來源:Interspeech 2017

摘要部分:

? ? ? ? 本文通過進(jìn)一步改進(jìn)GRU并提出一種更適合語音識(shí)別的簡化架構(gòu)。 工作分為兩部分,?首先,建議在GRU設(shè)計(jì)中移除復(fù)位門,從而實(shí)現(xiàn)更高效的單門架構(gòu)。 其次,建議使用ReLU激活函數(shù)替換狀態(tài)更新方程中的tanh函數(shù)。 結(jié)果表明,與標(biāo)準(zhǔn)GRU相比,改進(jìn)的架構(gòu)將每個(gè)epoch的訓(xùn)練時(shí)間縮短了30%以上,并且始終提高了在不同任務(wù)、輸入特征和噪聲條件下的識(shí)別性能。

補(bǔ)充:LSTM有三個(gè)門,遺忘門,輸入門和輸出們。GRU(2014年提出),LSTM的著名變種,將遺忘門和輸入門合并成更新門(update?gate),另一個(gè)門為reset gate。更新門用于控制前一時(shí)刻的狀態(tài)信息被傳入到當(dāng)前狀態(tài)中的程度,更新門的值越大說明前一時(shí)刻的狀態(tài)信息傳入更多。reset gate用于控制忽略前一時(shí)刻的狀態(tài)信息的程度,值越小說明忽略的越多。GRU參數(shù)更少,擬合能力較弱,適合小規(guī)模數(shù)據(jù)集,LSTM參數(shù)多,擬合能力強(qiáng),適合大規(guī)模復(fù)雜度高的數(shù)據(jù)。以下是GRU的的結(jié)構(gòu)定義公式:

引言部分:

? ? ? ? 啟發(fā):在手寫數(shù)字識(shí)別和情感分類任務(wù)中,去掉reset gate的GRU(minimal GRU,M-GRU)取得了與標(biāo)準(zhǔn)GRU相當(dāng)?shù)男阅堋?

2.1 移除reset gate

? ? ? ? 事實(shí)上,語音信號(hào)是一個(gè)變化相當(dāng)緩慢的序列(通常每10ms計(jì)算一次),過去的歷史信息實(shí)際上總是有用的。 即使存在強(qiáng)烈的不連續(xù)性,例如在元音和摩擦音之間的邊界處,完全重置上一個(gè)狀態(tài)的信息也是有負(fù)面作用的。 另一方面,記憶語音特征是有幫助的,因?yàn)橐恍┮羲剞D(zhuǎn)換比其他因素轉(zhuǎn)換更有可能。此外,認(rèn)為在處理語音序列時(shí)可能會(huì)發(fā)生重置門和更新門激活中的某種冗余。 例如,當(dāng)需要更加重視當(dāng)前信息時(shí),GRU模型可以設(shè)置小的r?t值(reset gate,忽略掉更多歷史信息),?通過設(shè)置較小的z?t值(update gate,獲取更少的歷史信息),僅使用更新門也可以實(shí)現(xiàn)類似的效果。 后者的影響傾向于增加候選狀態(tài)delta h?t的權(quán)重,正如所希望的那樣,它更多地依賴于當(dāng)前的輸入和更近的歷史。 類似地,可以將高值分配給r t或z t,以便更加重視過去的狀態(tài)。 該冗余也在圖1中突出顯示,其中對于在TIMIT上訓(xùn)練的GRU,可以容易地理解更新和重置門的平均激活中的時(shí)間相關(guān)性。

目的:減少參數(shù),提高計(jì)算效率。

2.2 使用ReLU激活函數(shù)

tanh屬于飽和激活函數(shù)(軟飽和:當(dāng)x趨近于無窮的時(shí)候,導(dǎo)數(shù)趨近于0,造成梯度消失,并且造成訓(xùn)練緩慢),而ReLU在x小于0時(shí)屬于硬飽和,梯度為0;當(dāng)x大于0的時(shí)候,不存在飽和問題,梯度為常數(shù),可以保持梯度不變,從而緩解梯度消失的問題。但是由于在長時(shí)間序列中應(yīng)用無界ReLU函數(shù)產(chǎn)生的數(shù)值不穩(wěn)定性,因此采用基于ReLU激活的神經(jīng)元在過去對RNN來說并不常見。 盡管如此,最近的一些研究表明ReLU激活的?RNN可以通過適當(dāng)?shù)恼怀跏蓟M(jìn)行有效訓(xùn)練。GRU修改為:

稱為M-reluGRU。

2.3 batch normalization

15年提出,(“Batch normalization: Accelerating deep network training by reducing internal covariate shift,”)用于處理internal covariate shift(內(nèi)部變量偏移)問題,通過對每個(gè)訓(xùn)練mini-batch歸一化每個(gè)層預(yù)激活的均值和方差來解決。 這種技術(shù)對于改善系統(tǒng)性能和加速訓(xùn)練過程都是至關(guān)重要的。 批歸一化可以以不同方式應(yīng)用于RNN。 在[33]中,作者建議僅將其應(yīng)用于前饋連接,而在[34]中,將歸一化步驟擴(kuò)展到循環(huán)連接,使用每個(gè)時(shí)間步的單獨(dú)統(tǒng)計(jì)。在本文工作中,嘗試了兩種方法,并且觀察到它們之間具有可比性。 還注意到,將所提出的模型與批歸一化耦合有助于避免在處理應(yīng)用于長時(shí)間序列的ReLU RNN時(shí)經(jīng)常出現(xiàn)的數(shù)值問題。 實(shí)際上,批歸一化重新調(diào)整了神經(jīng)元預(yù)激活,天然的限制了ReLU神經(jīng)元的數(shù)值。

補(bǔ)充:傳統(tǒng)機(jī)器學(xué)習(xí)假設(shè)訓(xùn)練集和測試集是獨(dú)立同分布的,即q0(x)=q1(x),即訓(xùn)練集中樣本點(diǎn)的概率密度是等于測試集中樣本點(diǎn)的概率密度的。所以可以推出訓(xùn)練集上的最優(yōu)參數(shù)依然可以保證在測試集上性能最優(yōu)。但現(xiàn)實(shí)當(dāng)中這個(gè)假設(shè)往往不成立,伴隨新數(shù)據(jù)產(chǎn)生,老數(shù)據(jù)會(huì)過時(shí),當(dāng)q0(x)不再等于q1(x)時(shí),就被稱作covariate shift。

3. 實(shí)驗(yàn)部分:

3.1 語料庫和任務(wù)。

? ? ? ? 為了準(zhǔn)確評(píng)估所提出的網(wǎng)絡(luò)結(jié)構(gòu),在不同的數(shù)據(jù)集、任務(wù)、環(huán)境條件下進(jìn)行了實(shí)驗(yàn)。

訓(xùn)練集:TIMIT,WSJ;測試集使用DIRHA-English,驗(yàn)證集包括6個(gè)說話人的310個(gè)WSJ句子。

3.2 網(wǎng)絡(luò)結(jié)構(gòu):

? ? ? ? 優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的技術(shù)和方法都使用了近年來發(fā)表的方法和技術(shù)。

正則化技術(shù):recurrent dropout,sharing the same dropout mask across all the time steps。

? ? ? ? 來源:“RNNDROP: A novel dropout for RNNS in ASR,”2015;

歸一化技術(shù):Batch normalization,

? ? ? ? 來源:G. Hinton, “A simple way to initialize recurrent networks of recti?ed linear units,” 2015

初始化技術(shù):前饋連接的初始化采用Glorot initialization,

? ? ? ? 來源:Y. Bengio, “Understanding the dif?culty of training deep feedforward neural networks,”2010,

? ? ? ? 遞歸權(quán)重初始化采用orthogonal initialization,

? ? ? ? 來源:G. Hinton, “A simple way to initialize recurrent networks of recti?ed linear units,” 2015

其它參數(shù):gain factor γ of batch normalization was initialized to γ = 0.1 and the shift parameter β was initialized to 0

? ? ? ? 來源:Y. Bengio, “Batch-normalized joint training for dnn-based distant speech recogni-tion,” in Proc. of SLT, 2016.

優(yōu)化器:Adam

? ? ? ? 沒有使用梯度截?cái)?#xff0c;允許網(wǎng)絡(luò)學(xué)習(xí)任意長度的時(shí)間依賴,對齊結(jié)果使用Kaldi s5的方法生成。特征使用39維MFCC和40維fbank特征,使用fMLLR方法進(jìn)行SAT,幀長25ms,幀移10ms。大概做了25組實(shí)驗(yàn),確定了初始學(xué)習(xí)率為0.0013,dropout factor為0.2,

4. 實(shí)驗(yàn)結(jié)果:

4.1 TIMIT結(jié)果:(NVIDIA K40 GPU,大概在5500刀)

4.2?DIRHA English WSJ結(jié)果:

結(jié)論:

未來會(huì)在更大的數(shù)據(jù)集上實(shí)驗(yàn),比如switchboard or LibriSpeech,以及在CTC及attention-based models上測試。

?

總結(jié)

以上是生活随笔為你收集整理的《Improving speech recognition by revising gated recurrent units》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。