當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

适合用于听写的新型语音识别技术可将单词错误率低于5％

發(fā)布時(shí)間：2024/5/8 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了适合用于听写的新型语音识别技术可将单词错误率低于5％小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Google最新的語(yǔ)音識(shí)別技術(shù)，能直接在裝置上放置機(jī)器學(xué)習(xí)模型，讓語(yǔ)音轉(zhuǎn)文字辨識(shí)功能脫機(jī)作業(yè)，以解決網(wǎng)絡(luò)限制造成的服務(wù)延遲，而且該語(yǔ)音識(shí)別模型還能依照用戶語(yǔ)音，逐字輸入字符，就像是用鍵盤(pán)輸入文字的情況一樣。

從2014年開(kāi)始，語(yǔ)音轉(zhuǎn)錄文字多使用序列到序列的方法，研究人員開(kāi)始訓(xùn)練單一神經(jīng)網(wǎng)絡(luò)，將輸入的音頻波形，直接映像到輸出的句子，這種序列到序列的方法，是將給定一系列音頻特征，生成一系列單詞或是拼音系統(tǒng)中最小單位字位（Grapheme）。雖然這種模型大幅提升準(zhǔn)確性，但是系統(tǒng)必須分析完整個(gè)序列后，才能一并輸出結(jié)果，因此系統(tǒng)無(wú)法邊聽(tīng)邊輸出文字，而Google認(rèn)為這是實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄的必要功能。

Google新的語(yǔ)音識(shí)別技術(shù)，采用RNN換能器（Recurrent Neural Network Transducers，RNN-T）訓(xùn)練的模型，這與之前序列對(duì)序列的生成模型不同，SBF999RNN-T可以連續(xù)處理輸入的樣本，并且串流輸出字符，是一個(gè)非常適合用于聽(tīng)寫(xiě)的技術(shù)。在Google的實(shí)作中，模型輸出的字符為子母表的字符，RNN-T辨識(shí)器會(huì)逐個(gè)輸出字符，并在適當(dāng)?shù)牡胤郊由峡崭瘛oogle表示，要有效地訓(xùn)練這樣的模型非常困難，但是他們現(xiàn)在可以讓單詞錯(cuò)誤率低于5％。

而且為了提高語(yǔ)音識(shí)別的用處，Google在裝置放上新模型，直接在裝置上進(jìn)行語(yǔ)音識(shí)別分析，以避免網(wǎng)絡(luò)的延遲和不可靠性。傳統(tǒng)語(yǔ)音識(shí)別服務(wù)的效能，部分取決于用戶裝置的網(wǎng)絡(luò)聯(lián)機(jī)狀況，語(yǔ)音識(shí)別服務(wù)必須要將用戶的語(yǔ)音或是從中萃取的數(shù)據(jù)，從手機(jī)端傳輸?shù)椒?wù)器進(jìn)行分析，再將得到的結(jié)果送回手機(jī)。

Google解釋，在傳統(tǒng)的語(yǔ)音識(shí)別引擎中，聲學(xué)（Acoustic）、發(fā)音以及語(yǔ)言模型構(gòu)成了一個(gè)巨大的搜尋圖，當(dāng)語(yǔ)音識(shí)別器接受到音訊波形，便會(huì)在搜尋圖中找出最相似路徑，并讀出該路徑上的字符序列。傳統(tǒng)的搜尋圖容量非常大，盡管應(yīng)用了復(fù)雜的編碼器，生產(chǎn)用模型大小依然接近2GB，而這樣的大小無(wú)法放在行動(dòng)裝置上，因此必須要依賴聯(lián)機(jī)，靠服務(wù)器分析后回傳結(jié)果。

不過(guò)，現(xiàn)在Google的端到端方法不需要在大型的搜尋圖上搜尋，Google訓(xùn)練的RNN-T模型只有450MB，就能提供與傳統(tǒng)服務(wù)器模型相同的精準(zhǔn)度，但是即便是450MB，對(duì)行動(dòng)裝置來(lái)說(shuō)仍然太過(guò)龐大，Google在2016年開(kāi)發(fā)了模型參數(shù)量化以及混合核心技術(shù)，再加上TensorFlow Lite函式庫(kù)中的模型優(yōu)化工具，大幅縮減模型容量。

模型參數(shù)化擁有比起訓(xùn)練的浮點(diǎn)數(shù)模型高4倍的壓縮率，執(zhí)行速度快4倍，Google最終壓縮的模型只有80MB，因此可以放在手機(jī)上，提供脫機(jī)語(yǔ)音識(shí)別服務(wù)。目前Gboard語(yǔ)音識(shí)別器僅能在Pixel手機(jī)上，使用美國(guó)英文。

轉(zhuǎn)載于:https://my.oschina.net/u/3906919/blog/3022577

總結(jié)

以上是生活随笔為你收集整理的适合用于听写的新型语音识别技术可将单词错误率低于5％的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：原创：解放战争短短3年，国军作战单位为何
下一篇：小学计算机教案认识鼠标,认识鼠标》

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

适合用于听写的新型语音识别技术 可将单词错误率低于5％

總結(jié)

适合用于听写的新型语音识别技术可将单词错误率低于5％