语音识别一、语音识别介绍
語音識別就是將包含文字信息的語音通過計算機(jī)轉(zhuǎn)化成文字的過程,也叫語音轉(zhuǎn)寫,英文叫automatic speech recognition(ASR)或者 speech to text(STT),語音識別框架一般如圖所示:
從上圖中可以看出,語音識別技術(shù)是一個復(fù)雜的多學(xué)科交叉技術(shù),涉及到信號處理、統(tǒng)計、機(jī)器學(xué)習(xí)、語言學(xué)、數(shù)據(jù)挖掘、生理學(xué)等知識。一個完整的語音識別系統(tǒng)聲學(xué)方面和語言學(xué)方面。聲學(xué)方面包括從最初的語音信號獲取(這其中包括將語音轉(zhuǎn)化成電信號)到語音信號處理(包括模數(shù)轉(zhuǎn)換,降噪、增強(qiáng)、端點(diǎn)檢測(VAD)等),再到特征提取(MFCC、FB、PLP、BN等),最后到聲學(xué)模型建模;語言學(xué)方面包括字典(詞典)構(gòu)造,語言模型建模等。通過建立的聲學(xué)模型和語言模型就可以對輸入的測試語音進(jìn)行解碼,得到相對應(yīng)的文字。
解碼原理(基于最大后驗概率MAP)
假設(shè)我們有一段語音XX(通常是提取的特征),要得到對應(yīng)的文本WW,就是求使得概率p(W|X)p(W|X)最大的WW的過程,即求
Wˉˉˉˉˉ=argmaxWp(W|X)Wˉ=argmaxWp(W|X)
利用條件概率公式和貝葉斯公式將上述公式轉(zhuǎn)化為
p(X)p(X)表示聲學(xué)觀測序列的概率,不管選擇解碼空間中的哪一條路徑,一段語音發(fā)出來后 p(X)p(X)就確定了,是一個未知的常數(shù),雖然這個概率很難估計,但是并不會影響到 WˉˉˉˉˉWˉ的取值,因此,上式可以簡化為
Wˉˉˉˉˉ=argmaxWp(X|W)p(W)Wˉ=argmaxWp(X|W)p(W)
該公式就是解碼的核心公式了,下面對該公式做一個簡單解讀
其中第一項 p(X|W)p(X|W)就是我們的聲學(xué)模型,準(zhǔn)確的說,這個概率可以通過聲學(xué)模型和詞典(Lexicon)計算得到,第二項就是我們的語言模型,該怎么理解呢?
從概率上看, p(X|W)p(X|W)表示在給定文本 WW的情況下,求“生成”語音XX的概率,就是說,我們之所以說某一句話而不會說其他話,是因為在說這句話之前,腦海里肯定有我們想表達(dá)的內(nèi)容(這里內(nèi)容就可以理解成文本 WW),然后,調(diào)動發(fā)聲器官發(fā)出語音XX,因此,語音識別的目標(biāo)就是通過發(fā)出的語音 XX去猜測說這句話到底表達(dá)什么內(nèi)容WW。
而 p(W)p(W)就是我們的先驗概率,為什么這么說,因為它不依賴于我們給定的語音 XX,而是由經(jīng)驗得出的,具體的,可以理解為人類發(fā)展到現(xiàn)在所總結(jié)出來的語法知識,更通俗一點(diǎn)就是人類的表達(dá)習(xí)慣。舉個例子,我們通常會說“上床睡覺”而不會說“上床上班”。這個概率可以由語言模型得到。
要使得p(X|W)p(W)p(X|W)p(W)最大,一方面需要文字表達(dá)盡量符合語法習(xí)慣(即 p(W)p(W)盡量大),另一方面需要識別出來的文字盡量和發(fā)出的語音相符(即 p(X|W)p(X|W)盡量大),就是說,在解碼空間里(解碼空間后續(xù)會說,簡單理解為不同詞之間有多種組合方式,不同的組合方式構(gòu)成不同的 WW),可能有很多種組合都符合語法習(xí)慣,但是有些就和發(fā)出的語音不太吻合,例如,我們說一句話“我下班坐地鐵回家”,其中有三個不同的識別結(jié)果:
1.我下班坐公交回家
2.我坐地鐵回家
3.我下班坐地鐵回家
顯然,上述三種識別結(jié)果都符合語法習(xí)慣,但是前兩種識別結(jié)果都存在誤識(替換錯誤,后續(xù)會講)或信息丟失(刪除錯誤,后續(xù)會講),即語音中所表達(dá)的信息沒有被完全識別出來,因此聲學(xué)模型的得分p(X|W)p(X|W)就沒有第3種識別結(jié)果得分高。
好了,語音識別的介紹就到這里,具體如何對聲學(xué)模型和語言模型進(jìn)行建模,以及解碼等內(nèi)容在后續(xù)進(jìn)行介紹。
ps:哪位大神能教我怎樣用LaTexLaTex把WW寫到argmaxargmax下面去嗎,這樣看著好別扭
總結(jié)
以上是生活随笔為你收集整理的语音识别一、语音识别介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Glass众叛亲离?
- 下一篇: 6款电脑必备的常用软件(办公/高效/小白