當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音识别学习总结

發(fā)布時(shí)間：2023/12/20 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别学习总结小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)總結(jié)

經(jīng)過(guò)一學(xué)期的學(xué)習(xí)，對(duì)語(yǔ)音識(shí)別這個(gè)方向有了一個(gè)簡(jiǎn)單的認(rèn)識(shí)，現(xiàn)在做一下總結(jié)。

語(yǔ)音識(shí)別過(guò)程

1. 傳統(tǒng)語(yǔ)音識(shí)別

首先通過(guò)麥克風(fēng)接收聲音，因?yàn)槁曇羰且环N波，通過(guò)振動(dòng)傳播，聲波會(huì)引起麥克風(fēng)振元的振動(dòng)，產(chǎn)生大小不同的振幅，也就會(huì)產(chǎn)生了不同的電流值，這樣就將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)，一種時(shí)域的一維序列信號(hào)，在坐標(biāo)軸中畫出來(lái)就是波形圖，然后計(jì)算機(jī)再對(duì)這個(gè)波形圖進(jìn)行處理，從中過(guò)濾掉沒(méi)用的信息，提取有用的信息，并產(chǎn)生文字序列。人耳的聽(tīng)覺(jué)機(jī)理是通過(guò)聲音的頻域來(lái)分辨聲音的，發(fā)音差不多時(shí)產(chǎn)生的波形圖可能也會(huì)有很大的差別，所以從波形圖中很難找到發(fā)音規(guī)律，需要的波形圖進(jìn)行進(jìn)一步的處理，通過(guò)傅里葉變換把時(shí)域的波形圖轉(zhuǎn)換為頻域的波形，然后再對(duì)頻域的特征進(jìn)行處理，從中學(xué)習(xí)規(guī)律。因?yàn)槁曇羰嵌虝r(shí)平穩(wěn)信號(hào)，所以在處理時(shí)，把聲音分成一小段一小段來(lái)處理，即一幀，可以認(rèn)為聲音在這一小段中時(shí)狀態(tài)是不變的。然后把這些幀識(shí)別成對(duì)應(yīng)的狀態(tài)，然后若干個(gè)狀態(tài)組合成一個(gè)音素，再把音素組合成單詞的發(fā)音，例如在漢語(yǔ)語(yǔ)音識(shí)別中，音素對(duì)應(yīng)的就是一個(gè)字的聲母和韻母，再用單詞的發(fā)音預(yù)測(cè)對(duì)應(yīng)的文本，把識(shí)別出來(lái)的文本拼接成一個(gè)句子，就完成了一句話的語(yǔ)音識(shí)別。
完成傳統(tǒng)語(yǔ)音識(shí)別過(guò)程，需要兩個(gè)獨(dú)立的模型：
1.聲學(xué)模型，使用HMM-GMM模型，將幀識(shí)別成對(duì)應(yīng)的狀態(tài)，根據(jù)狀態(tài)轉(zhuǎn)換機(jī)在狀態(tài)之間跳轉(zhuǎn)，用三個(gè)狀態(tài)（或者更多）代表一個(gè)音素，幀在狀態(tài)之間轉(zhuǎn)移的路徑得到最終的音素序列，。
2.語(yǔ)言學(xué)模型，使用N-gram模型，根據(jù)音素預(yù)測(cè)對(duì)應(yīng)的文本。
這兩個(gè)模型是獨(dú)立訓(xùn)練的，訓(xùn)練的過(guò)程比較復(fù)雜，增加了語(yǔ)音識(shí)別的入門難度。

2. 端到端語(yǔ)音識(shí)別

近年來(lái)，得益于神經(jīng)網(wǎng)絡(luò)的發(fā)展和軟硬件技術(shù)的提升，擁有了大量的語(yǔ)音語(yǔ)料庫(kù)，產(chǎn)生了端到端系統(tǒng)。為了簡(jiǎn)化網(wǎng)絡(luò)，在一個(gè)模型中直接將語(yǔ)音轉(zhuǎn)換成文字，所以將這種系統(tǒng)稱為端到端系統(tǒng)。端到端語(yǔ)音識(shí)別總的思想，是用一個(gè)統(tǒng)一優(yōu)化的模型來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別，簡(jiǎn)化語(yǔ)音識(shí)別的訓(xùn)練過(guò)程，模型的輸入是語(yǔ)音，輸出是對(duì)應(yīng)的文本，這里的文本可以是字母、子詞或者單詞。端到端語(yǔ)音識(shí)別的主要原理包括使用CTC、RNN、Attention等。

總結(jié)

以上是生活随笔為你收集整理的语音识别学习总结的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

语音识别

上一篇： Verilog——格雷码和二进制码转换的
下一篇：【R】语言第三课----矩阵