声道长度规整
在提取語種聲學特征參數時,如何消除和抑制說話人影響是一個值得考慮的 問題。首先說話人會有生理,年齡,性別等不同,這就會對聲學特征產生影響, 造成說話人發音的不同的一個主要原因是聲道形狀,尤其是受聲道長度的影響最為突出。
一般,通過在頻率域上的線性變換來實現 VTLN,它是基于聲道傳輸模型的假設分析,可認為聲道是一截面均勻的聲管:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
VTL 代表聲道長度,c 代表聲速,Fi是第 i 階的共振峰。
由上式可知,聲道長度與共振峰成反比,因此可以直接頻域線性變換:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
這一變換與實際采用的變換函數有差別,主要是由于這一變換會造成帶寬的擴展或壓縮。更普遍的是采圖用下世的變換。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
按照上述公式我們即可完成 VTLN,但是我們還需要找尋規整因子α,接下來, 我們就如何估計規整因子做一些闡述。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
A. 訓練流程?
如下圖所示,首先我們需要得到一個聲道無關的背景(UBM)模型。
提取語音特征參數(不同的 α 的特征),首先用 α=1.0 訓練一個與聲道 無關的 UBM 模型。
用這個 UBM 模型,對不同 α 所提取的特征進行測試,根據 ML 最大似 然,得到每個語音所對應的最優 α 值。
用 2 中所找到的每個語音的最優 α 值所對應的特征,重新訓練 UBM。
重復 2,這樣又可以得到每個語音的最優 α 值。
比較這一次的 α 值與上一次的 α 值是否相同,或者差異不大。如果滿足 條件,停止迭代,否則,重復(3)和(4)過程.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
B. 解碼過程?
解碼的過程十分簡單,只需要將各個規整因子對應的特征對最終訓練好的 UBM 計算似然值即可,然后值取得似然最大的特征所對應的規整因子。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其實,在估計聲道規整因子還有另一種策略,就是對于不同的規整因子分別 訓練模型,然后提取 α=1.0 時的語音特征分別對這些模型進行測試,再選取最大 的特征所對應的 α。
C. 實驗?
為了驗證VTLN的有效性,我們在NIST 2007數據庫上進行了嘗試性的實驗, 通過 NIST 2003 的數據我們得到了聲道無關的 UBM 模型,利用這一模型對 NIST 2007 的測試數據進行聲道規整(即估計∧α的值),訓練集沒有進行聲道規整,主 要是考慮到實驗的時間消耗問題,所采用的特征是 56 維的 SDC 特征,對不同時 長的測試分別作出對比,通過等錯誤率(EER)的比較(見下表),發現僅僅在 測試集上對特征進行聲道規整就可以獲得 10%左右的提升。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
所以在我們以后的實驗中,VTLN 被作為一項重要的前端處理技術,并且在 后來,我們對于訓練集數據也做了聲道規整,根據的一些已有的實驗結論,這樣可以進一步提高系統的性能。
可以關注音頻核公眾號了解更多哦
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
總結
- 上一篇: 电容麦克风测试软件,章和电气AudioE
- 下一篇: android 5.1声道,加入5.1声