适合用于听写的新型语音识别技术 可将单词错误率低于5%
Google最新的語(yǔ)音識(shí)別技術(shù),能直接在裝置上放置機(jī)器學(xué)習(xí)模型,讓語(yǔ)音轉(zhuǎn)文字辨識(shí)功能脫機(jī)作業(yè),以解決網(wǎng)絡(luò)限制造成的服務(wù)延遲,而且該語(yǔ)音識(shí)別模型還能依照用戶語(yǔ)音,逐字輸入字符,就像是用鍵盤(pán)輸入文字的情況一樣。
從2014年開(kāi)始,語(yǔ)音轉(zhuǎn)錄文字多使用序列到序列的方法,研究人員開(kāi)始訓(xùn)練單一神經(jīng)網(wǎng)絡(luò),將輸入的音頻波形,直接映像到輸出的句子,這種序列到序列的方法,是將給定一系列音頻特征,生成一系列單詞或是拼音系統(tǒng)中最小單位字位(Grapheme)。雖然這種模型大幅提升準(zhǔn)確性,但是系統(tǒng)必須分析完整個(gè)序列后,才能一并輸出結(jié)果,因此系統(tǒng)無(wú)法邊聽(tīng)邊輸出文字,而Google認(rèn)為這是實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄的必要功能。
Google新的語(yǔ)音識(shí)別技術(shù),采用RNN換能器(Recurrent Neural Network Transducers,RNN-T)訓(xùn)練的模型,這與之前序列對(duì)序列的生成模型不同,SBF999RNN-T可以連續(xù)處理輸入的樣本,并且串流輸出字符,是一個(gè)非常適合用于聽(tīng)寫(xiě)的技術(shù)。在Google的實(shí)作中,模型輸出的字符為子母表的字符,RNN-T辨識(shí)器會(huì)逐個(gè)輸出字符,并在適當(dāng)?shù)牡胤郊由峡崭瘛oogle表示,要有效地訓(xùn)練這樣的模型非常困難,但是他們現(xiàn)在可以讓單詞錯(cuò)誤率低于5%。
而且為了提高語(yǔ)音識(shí)別的用處,Google在裝置放上新模型,直接在裝置上進(jìn)行語(yǔ)音識(shí)別分析,以避免網(wǎng)絡(luò)的延遲和不可靠性。傳統(tǒng)語(yǔ)音識(shí)別服務(wù)的效能,部分取決于用戶裝置的網(wǎng)絡(luò)聯(lián)機(jī)狀況,語(yǔ)音識(shí)別服務(wù)必須要將用戶的語(yǔ)音或是從中萃取的數(shù)據(jù),從手機(jī)端傳輸?shù)椒?wù)器進(jìn)行分析,再將得到的結(jié)果送回手機(jī)。
Google解釋,在傳統(tǒng)的語(yǔ)音識(shí)別引擎中,聲學(xué)(Acoustic)、發(fā)音以及語(yǔ)言模型構(gòu)成了一個(gè)巨大的搜尋圖,當(dāng)語(yǔ)音識(shí)別器接受到音訊波形,便會(huì)在搜尋圖中找出最相似路徑,并讀出該路徑上的字符序列。傳統(tǒng)的搜尋圖容量非常大,盡管應(yīng)用了復(fù)雜的編碼器,生產(chǎn)用模型大小依然接近2GB,而這樣的大小無(wú)法放在行動(dòng)裝置上,因此必須要依賴聯(lián)機(jī),靠服務(wù)器分析后回傳結(jié)果。
不過(guò),現(xiàn)在Google的端到端方法不需要在大型的搜尋圖上搜尋,Google訓(xùn)練的RNN-T模型只有450MB,就能提供與傳統(tǒng)服務(wù)器模型相同的精準(zhǔn)度,但是即便是450MB,對(duì)行動(dòng)裝置來(lái)說(shuō)仍然太過(guò)龐大,Google在2016年開(kāi)發(fā)了模型參數(shù)量化以及混合核心技術(shù),再加上TensorFlow Lite函式庫(kù)中的模型優(yōu)化工具,大幅縮減模型容量。
模型參數(shù)化擁有比起訓(xùn)練的浮點(diǎn)數(shù)模型高4倍的壓縮率,執(zhí)行速度快4倍,Google最終壓縮的模型只有80MB,因此可以放在手機(jī)上,提供脫機(jī)語(yǔ)音識(shí)別服務(wù)。目前Gboard語(yǔ)音識(shí)別器僅能在Pixel手機(jī)上,使用美國(guó)英文。
轉(zhuǎn)載于:https://my.oschina.net/u/3906919/blog/3022577
總結(jié)
以上是生活随笔為你收集整理的适合用于听写的新型语音识别技术 可将单词错误率低于5%的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 原创:解放战争短短3年,国军作战单位为何
- 下一篇: 小学计算机教案 认识鼠标,认识鼠标》