當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Chapter1-4_Speech_Recognition(HMM)

發(fā)布時間：2024/7/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Chapter1-4_Speech_Recognition(HMM) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

- 1 HMM用在哪里
- 2 HMM的state
- 3 改造成DNN
- - 3.1 Tandem
  - 3.2 DNN-HMM Hybrid

本文為李弘毅老師【Speech Recognition - HMM (optional)】的課程筆記，課程視頻youtube地址，點這里👈(需翻墻)。其中也涉及到了部分李琳山老師關(guān)于HMM的詳解（講得非常清楚，請務(wù)必先搞懂HMM，再看這篇）。

下文中用到的圖片均來自于李宏毅老師和李琳山老師的PPT，若有侵權(quán)，必定刪除。

文章索引：

上篇 - 1-3 CTC, RNN-T and more

下篇 - 1-5 Alignment of HMM, CTC and RNN-T

總目錄

1 HMM用在哪里

沒有深度學(xué)習(xí)的語音識別系統(tǒng)可以用下面這幅圖來表示，不過很多用到深度學(xué)習(xí)的也基本是把其中的一些模塊替換調(diào)成了DNN而已。要輸出一段聲音信號，得到對應(yīng)的文字，需要四個東西：

聲音特征(Feature Vectors)。這個我們之前也有提到過，忘了的可以看下這里，一般會用一個叫做MFCC的方法，把聲音信號轉(zhuǎn)化成長度為 $T$ ，特征維度為39維的向量。
聲學(xué)模型(Acoustic Models)。這里是用到HMM(Hidden Markov Model)的地方，就是輸入Feature Vectors，得到每個Feature Vector對應(yīng)的state是什么，而這里的state一般是指比Phoneme(發(fā)音的基本單元，比如th-ih-s-ih-z-s-p-ih-ch)更小的基本單元。
詞典(Lexicon)。用來把聲學(xué)模型得到的一串state轉(zhuǎn)換成對應(yīng)的單詞，比如(th-ih-s) → this。
語言模型(Language Model)。這個就是把得到的單詞變成一個完整通順的句子的模型。

我們這篇主要講的就是這個聲學(xué)模型(Acoustic Models)，其他的部分暫時不去關(guān)心。

上面這個是李琳山老師的說法，李弘毅老師講的更抽象一些，但本質(zhì)是一樣的。如下圖所示，比如我們有一個模型可以計算給定聲音信號 $X$ ，得到輸出序列 $Y$ 的概率 $P (Y ∣ X)$ ，那么我們只需要遍歷所有的 $Y$ ，然后找到使得 $P (Y ∣ X)$ 的概率最大的那個 $Y$ 就可以了。但是， $Y$ 的可能性太多了，這樣的計算消耗太大了，這個方案，這里不討論。

學(xué)過貝葉斯定理的都知道，這個條件概率是可以變一變的，經(jīng)過如下圖所示的變化后，我們只需要找到一個 $Y$ ，使得 $P (X ∣ Y) P (Y)$ 最大就可以了，而這里的 $P (X ∣ Y)$ 就是我們的聲學(xué)模型(Acoustic Models)，這里的 $P (Y)$ 就是我們的語言模型(Language Model)， $P (X)$ 和我們要找的 $Y$ 沒有關(guān)系，可以直接扔掉。有時 $P (Y)$ 也可以不用考慮。而這里的 $P (X ∣ Y)$ 可以用很機智的演算法去求解。

其實李弘毅老師講的 $P (X ∣ Y)$ 就是李琳山老師講的聲學(xué)模型(Acoustic Models)和詞典(Lexicon)的結(jié)合。

2 HMM的state

HMM里需要一個叫做state的東西，如上文所述，它在我們的聲學(xué)模型里，就是一個比Phoneme更小的東西，那它究竟有多小呢？答案就是，它可以任意小，只要我們的計算資源足夠就可以。首先，Phoneme會根據(jù)上下文被拆分成Tri-phone，Tri-phone就是說，我們今天的"uw"的這個音在不同的上下文中是不一樣的，可以是"d-uw+y"的"uw"，也可以是"y-uw+th"的"uw"，把句子中前一個Phoneme和后一個Phoneme都加進來，就變成了Tri-phone。而我們的state比Tri-phone還要小，一個Tri-phone可以拆成多個state，這個state人已經(jīng)無法分辨了，具體要拆成幾個state，就看我們的計算資源有多少了。

為什么要拆的這么小呢？因為在計算HMM的時候，我們希望人在發(fā)出每個state所對應(yīng)的音的時候，是可以用高斯混合模型(GMM)去模擬它的分布的，而不同的人說同一個詞時，發(fā)出的音時不一樣的，所以希望這個state可以代表非常細(xì)的音。

所有的 $Y$ 都可以轉(zhuǎn)換成state，所以，我們我們今天要求的 $P (X ∣ Y)$ ，就可以轉(zhuǎn)變?yōu)榍?span id="ozvdkddzhkzd" class="katex--inline"> $P (X ∣ S)$ 。

可以想象，按這種做法的話，我們的state會非常多，比如Phoneme有30個，最后把每個Tri-phone再切成3個單元的話，我們將會有 $303×330^3\times3$ 個state。這意味著什么？Emmm~這意味著我們要很多的高斯混合模型(GMM)。我們先來講下HMM的計算中需用到的幾個概率函數(shù)。

計算HMM的時候，我們需要知道三個概率，一個叫做轉(zhuǎn)移概率(Transition Probability)，一個叫做發(fā)射概率(Emission Probability)，還有一個叫做初始概率(initial state probabilities)。李弘毅老師在講的時候沒有提到初始概率，那我們就默認(rèn)是所有的state初始概率都是相等的吧。

轉(zhuǎn)移概率：從一個state變到任意另一個state的概率。
發(fā)射概率：每個state產(chǎn)生該time step對應(yīng)的特征向量的概率，如 $P(X^1|"t-d-uw1")$ 。
初始概率：最開始從某個state開始的概率。

其中的發(fā)射概率就是說我們的每個state都要有一個高斯混合模型(GMM)，也就是我們要 $303×330^3\times3$ 個GMM！更難處理的是，有些state在數(shù)據(jù)中出現(xiàn)的是很少的，我們稱為rare state，很難學(xué)好。這個時候，一種方法是把這些rare state映射到其他相近的state的GMM上，另一種就是2010年提出的Subspace GMM。Subspace GMM這里簡單說一下，就是說我們現(xiàn)在所有的state都有一個公用的池子(Pool)，每個state要計算發(fā)射概率的時候，從Pool里撈幾個GMM出來就可以了。

好，現(xiàn)在假設(shè)我們已經(jīng)有了轉(zhuǎn)移概率和發(fā)射概率，但我們?nèi)耘f無法把 $P (X ∣ S)$ 計算出來，因為我們并不知道每個 $X^i$ 是由哪個state產(chǎn)生的。李弘毅老師說，states的個數(shù)往往小于聲音特征向量 $X$ 的長度。因此，如果按順序用完所有的state的話，可以有很多條路徑，HMM做的就是把所有路徑的概率加起來。

這個從路徑對應(yīng)到特征向量的操作，就叫做對齊(alignment)。這個在下節(jié)課會詳細(xì)介紹。

3 改造成DNN

3.1 Tandem

Tandem沒有改變原來的整套方案，只是在對于輸入的特征進行了一個分類，使得每個time step的acoustic feature都有預(yù)測出來的對應(yīng)于每一個state的概率。然后把這個DNN的輸出當(dāng)作新的acoustic feature，再放進原來的模型里去跑就可以了。

3.2 DNN-HMM Hybrid

HMM里面是有一個GMM的模型的，也就是上文所說的發(fā)射概率的計算模型。DNN-HMM Hybrid就是把這個GMM模型換成了DNN去做。DNN可以是CNN或者LSTM這些。

之前GMM模型是計算出 $P (x ∣ a)$ ，也就是給定state $a$ 發(fā)射出特征 $x$ 的概率。現(xiàn)在的DNN能計算 $P (a ∣ x)$ ，也就是給定特征 $x$ ，則 $x$ 是state $a$ 的概率。然而，這兩個東西不一樣呀。于是就需要用條件概率轉(zhuǎn)換一下，得到
$P(x∣a)=P(a∣x)P(x)P(a)P(x|a)=\frac{P(a|x)P(x)}{P(a)}$

然后這里， $P (a ∣ x)$ 就是DNN的輸出， $P (a)$ 可以從數(shù)據(jù)中統(tǒng)計出來， $P (x)$ 不用去管它。。。

為什么要用DNN來替換GMM呢？有人認(rèn)為 $P (x ∣ a)$ 是generative learning，而 $P (a ∣ x)$ 是discriminative learning，然后大家認(rèn)為后者比較厲害，這樣。也有人認(rèn)為DNN的參數(shù)比較多，比較厲害，這樣。而實際證明，這種方法，很強。

我仔細(xì)想了下，感覺這個和Tandem的區(qū)別其實并不大。它們其實都是要有一個DNN的state classifier。

不過，這個state classifier怎么train呢？我們都知道，trainDNN的模型是需要標(biāo)簽的，然而我們并不知道現(xiàn)在的 $X^i$ 分別屬于哪一個state。這該咋辦？實際操作的時候，用了類似于半監(jiān)督的方法，就是利用HMM+GMM來train一個模型，然后拿這個train好的模型的結(jié)果來當(dāng)作標(biāo)簽去train這個DNN的模型。然后再把train的DNN的結(jié)果當(dāng)作標(biāo)簽，訓(xùn)練一個新的DNN，一直反復(fù)這樣下去。這樣的方法很強，train出來的模型結(jié)果和人類接近！

總結(jié)

以上是生活随笔為你收集整理的Chapter1-4_Speech_Recognition(HMM)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LeetCode 6033. 转换数字的
下一篇： LeetCode 1739. 放置盒子（