语音识别学习总结
學(xué)習(xí)總結(jié)
經(jīng)過(guò)一學(xué)期的學(xué)習(xí),對(duì)語(yǔ)音識(shí)別這個(gè)方向有了一個(gè)簡(jiǎn)單的認(rèn)識(shí),現(xiàn)在做一下總結(jié)。
語(yǔ)音識(shí)別過(guò)程
1. 傳統(tǒng)語(yǔ)音識(shí)別
首先通過(guò)麥克風(fēng)接收聲音,因?yàn)槁曇羰且环N波,通過(guò)振動(dòng)傳播,聲波會(huì)引起麥克風(fēng)振元的振動(dòng),產(chǎn)生大小不同的振幅,也就會(huì)產(chǎn)生了不同的電流值,這樣就將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào),一種時(shí)域的一維序列信號(hào),在坐標(biāo)軸中畫出來(lái)就是波形圖,然后計(jì)算機(jī)再對(duì)這個(gè)波形圖進(jìn)行處理,從中過(guò)濾掉沒(méi)用的信息,提取有用的信息,并產(chǎn)生文字序列。人耳的聽(tīng)覺(jué)機(jī)理是通過(guò)聲音的頻域來(lái)分辨聲音的,發(fā)音差不多時(shí)產(chǎn)生的波形圖可能也會(huì)有很大的差別,所以從波形圖中很難找到發(fā)音規(guī)律,需要的波形圖進(jìn)行進(jìn)一步的處理,通過(guò)傅里葉變換把時(shí)域的波形圖轉(zhuǎn)換為頻域的波形,然后再對(duì)頻域的特征進(jìn)行處理,從中學(xué)習(xí)規(guī)律。因?yàn)槁曇羰嵌虝r(shí)平穩(wěn)信號(hào),所以在處理時(shí),把聲音分成一小段一小段來(lái)處理,即一幀,可以認(rèn)為聲音在這一小段中時(shí)狀態(tài)是不變的。然后把這些幀識(shí)別成對(duì)應(yīng)的狀態(tài),然后若干個(gè)狀態(tài)組合成一個(gè)音素,再把音素組合成單詞的發(fā)音,例如在漢語(yǔ)語(yǔ)音識(shí)別中,音素對(duì)應(yīng)的就是一個(gè)字的聲母和韻母,再用單詞的發(fā)音預(yù)測(cè)對(duì)應(yīng)的文本,把識(shí)別出來(lái)的文本拼接成一個(gè)句子,就完成了一句話的語(yǔ)音識(shí)別。
完成傳統(tǒng)語(yǔ)音識(shí)別過(guò)程,需要兩個(gè)獨(dú)立的模型:
1.聲學(xué)模型,使用HMM-GMM模型,將幀識(shí)別成對(duì)應(yīng)的狀態(tài),根據(jù)狀態(tài)轉(zhuǎn)換機(jī)在狀態(tài)之間跳轉(zhuǎn),用三個(gè)狀態(tài)(或者更多)代表一個(gè)音素,幀在狀態(tài)之間轉(zhuǎn)移的路徑得到最終的音素序列,。
2.語(yǔ)言學(xué)模型,使用N-gram模型,根據(jù)音素預(yù)測(cè)對(duì)應(yīng)的文本。
這兩個(gè)模型是獨(dú)立訓(xùn)練的,訓(xùn)練的過(guò)程比較復(fù)雜,增加了語(yǔ)音識(shí)別的入門難度。
2. 端到端語(yǔ)音識(shí)別
近年來(lái),得益于神經(jīng)網(wǎng)絡(luò)的發(fā)展和軟硬件技術(shù)的提升,擁有了大量的語(yǔ)音語(yǔ)料庫(kù),產(chǎn)生了端到端系統(tǒng)。為了簡(jiǎn)化網(wǎng)絡(luò),在一個(gè)模型中直接將語(yǔ)音轉(zhuǎn)換成文字,所以將這種系統(tǒng)稱為端到端系統(tǒng)。端到端語(yǔ)音識(shí)別總的思想,是用一個(gè)統(tǒng)一優(yōu)化的模型來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別,簡(jiǎn)化語(yǔ)音識(shí)別的訓(xùn)練過(guò)程,模型的輸入是語(yǔ)音,輸出是對(duì)應(yīng)的文本,這里的文本可以是字母、子詞或者單詞。端到端語(yǔ)音識(shí)別的主要原理包括使用CTC、RNN、Attention等。
總結(jié)
- 上一篇: Verilog——格雷码和二进制码转换的
- 下一篇: 【R】语言第三课----矩阵