声道长度规整
在提取語(yǔ)種聲學(xué)特征參數(shù)時(shí),如何消除和抑制說(shuō)話人影響是一個(gè)值得考慮的 問(wèn)題。首先說(shuō)話人會(huì)有生理,年齡,性別等不同,這就會(huì)對(duì)聲學(xué)特征產(chǎn)生影響, 造成說(shuō)話人發(fā)音的不同的一個(gè)主要原因是聲道形狀,尤其是受聲道長(zhǎng)度的影響最為突出。
一般,通過(guò)在頻率域上的線性變換來(lái)實(shí)現(xiàn) VTLN,它是基于聲道傳輸模型的假設(shè)分析,可認(rèn)為聲道是一截面均勻的聲管:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
VTL 代表聲道長(zhǎng)度,c 代表聲速,Fi是第 i 階的共振峰。
由上式可知,聲道長(zhǎng)度與共振峰成反比,因此可以直接頻域線性變換:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
這一變換與實(shí)際采用的變換函數(shù)有差別,主要是由于這一變換會(huì)造成帶寬的擴(kuò)展或壓縮。更普遍的是采圖用下世的變換。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
按照上述公式我們即可完成 VTLN,但是我們還需要找尋規(guī)整因子α,接下來(lái), 我們就如何估計(jì)規(guī)整因子做一些闡述。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
A. 訓(xùn)練流程?
如下圖所示,首先我們需要得到一個(gè)聲道無(wú)關(guān)的背景(UBM)模型。
提取語(yǔ)音特征參數(shù)(不同的 α 的特征),首先用 α=1.0 訓(xùn)練一個(gè)與聲道 無(wú)關(guān)的 UBM 模型。
用這個(gè) UBM 模型,對(duì)不同 α 所提取的特征進(jìn)行測(cè)試,根據(jù) ML 最大似 然,得到每個(gè)語(yǔ)音所對(duì)應(yīng)的最優(yōu) α 值。
用 2 中所找到的每個(gè)語(yǔ)音的最優(yōu) α 值所對(duì)應(yīng)的特征,重新訓(xùn)練 UBM。
重復(fù) 2,這樣又可以得到每個(gè)語(yǔ)音的最優(yōu) α 值。
比較這一次的 α 值與上一次的 α 值是否相同,或者差異不大。如果滿足 條件,停止迭代,否則,重復(fù)(3)和(4)過(guò)程.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
B. 解碼過(guò)程?
解碼的過(guò)程十分簡(jiǎn)單,只需要將各個(gè)規(guī)整因子對(duì)應(yīng)的特征對(duì)最終訓(xùn)練好的 UBM 計(jì)算似然值即可,然后值取得似然最大的特征所對(duì)應(yīng)的規(guī)整因子。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其實(shí),在估計(jì)聲道規(guī)整因子還有另一種策略,就是對(duì)于不同的規(guī)整因子分別 訓(xùn)練模型,然后提取 α=1.0 時(shí)的語(yǔ)音特征分別對(duì)這些模型進(jìn)行測(cè)試,再選取最大 的特征所對(duì)應(yīng)的 α。
C. 實(shí)驗(yàn)?
為了驗(yàn)證VTLN的有效性,我們?cè)贜IST 2007數(shù)據(jù)庫(kù)上進(jìn)行了嘗試性的實(shí)驗(yàn), 通過(guò) NIST 2003 的數(shù)據(jù)我們得到了聲道無(wú)關(guān)的 UBM 模型,利用這一模型對(duì) NIST 2007 的測(cè)試數(shù)據(jù)進(jìn)行聲道規(guī)整(即估計(jì)∧α的值),訓(xùn)練集沒(méi)有進(jìn)行聲道規(guī)整,主 要是考慮到實(shí)驗(yàn)的時(shí)間消耗問(wèn)題,所采用的特征是 56 維的 SDC 特征,對(duì)不同時(shí) 長(zhǎng)的測(cè)試分別作出對(duì)比,通過(guò)等錯(cuò)誤率(EER)的比較(見下表),發(fā)現(xiàn)僅僅在 測(cè)試集上對(duì)特征進(jìn)行聲道規(guī)整就可以獲得 10%左右的提升。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
所以在我們以后的實(shí)驗(yàn)中,VTLN 被作為一項(xiàng)重要的前端處理技術(shù),并且在 后來(lái),我們對(duì)于訓(xùn)練集數(shù)據(jù)也做了聲道規(guī)整,根據(jù)的一些已有的實(shí)驗(yàn)結(jié)論,這樣可以進(jìn)一步提高系統(tǒng)的性能。
可以關(guān)注音頻核公眾號(hào)了解更多哦
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
總結(jié)
- 上一篇: 电容麦克风测试软件,章和电气AudioE
- 下一篇: 音频的测试