语音质量评价
語(yǔ)音作為信息傳遞的重要載體,與其相關(guān)構(gòu)成的通信、編碼、存儲(chǔ)和處理等語(yǔ)音系統(tǒng)已成為現(xiàn)代社會(huì)信息交流的必要手段,且已廣泛應(yīng)用于社會(huì)各個(gè)領(lǐng)域。這些系統(tǒng)的性能好壞成為信息交流是否暢通的重要因素,而評(píng)價(jià)這些系統(tǒng)性能優(yōu)劣的根本標(biāo)志是在于系統(tǒng)輸出語(yǔ)音質(zhì)量的好壞。因此,研制靈活、方便、可靠的語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)自然成為國(guó)內(nèi)外研究者共同努力的目標(biāo)。
?? 語(yǔ)音質(zhì)量包括兩方面內(nèi)容:清晰度和自然度。前者是衡量語(yǔ)音中的字、單詞和句的清晰程度,而后者則是對(duì)講話人的辨識(shí)水平。語(yǔ)音質(zhì)量評(píng)價(jià)不但與語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理等學(xué)科有關(guān),而且還與心理學(xué)、生理學(xué)等學(xué)科有著密切的聯(lián)系,因此語(yǔ)音質(zhì)量評(píng)價(jià)是一個(gè)極其復(fù)雜的問(wèn)題。語(yǔ)音質(zhì)量評(píng)價(jià)從評(píng)價(jià)主體上講可分為兩大類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。
主觀評(píng)價(jià)是依靠評(píng)聽(tīng)者意見(jiàn)對(duì)通信系統(tǒng)性能做出判決,是直接反映用戶的觀點(diǎn)并與系統(tǒng)的適應(yīng)性相聯(lián)系。目前國(guó)內(nèi)外采用較多的主觀評(píng)價(jià)方法有[1]:平均意見(jiàn)分MOS(Mean Opinion Score)、下降的平均DMOS(Degradation Mean Opinion Score)、診斷押韻測(cè)試DRT(Diagnostic Rhyme Test)、滿意度判斷測(cè)量DAM(Diagnostic Acceptability Measure)等。它們的缺點(diǎn)是費(fèi)時(shí)費(fèi)力,重復(fù)性差,難以組織實(shí)施不夠靈活,而且條件不具備還無(wú)法組織實(shí)施,容易受人的主觀因素影響,不利于在生產(chǎn)過(guò)程和現(xiàn)場(chǎng)實(shí)驗(yàn)中應(yīng)用等。其中MOS分是一種廣泛使用的主觀評(píng)價(jià)方法。
?
? 客觀評(píng)價(jià)主要依據(jù)的是原始語(yǔ)音信號(hào)和失真語(yǔ)音信號(hào)的時(shí)頻域或變換域的特征參數(shù)對(duì)比。其主要是針對(duì)主觀評(píng)價(jià)方法的不足,人們?cè)缇拖M锌陀^評(píng)價(jià)方法來(lái)評(píng)價(jià)語(yǔ)音設(shè)備的音質(zhì),所以許多學(xué)者陸續(xù)提出了基于客觀測(cè)度的客觀音質(zhì)評(píng)價(jià)方法,希望采用這些方法方便、快捷地給出被測(cè)語(yǔ)音系統(tǒng)的語(yǔ)音質(zhì)量評(píng)價(jià)值,只不過(guò)評(píng)價(jià)的主體是由機(jī)器(硬件或軟件)來(lái)完成。目前國(guó)內(nèi)外采用較多的客觀評(píng)價(jià)方法有:PSQM、PAMS和PSQM+等方法,但大量研究發(fā)現(xiàn),這些方法有較大的局限性,效果與特定的編碼方式有關(guān)系,并且與MOS法的結(jié)果相差較大
,因此ITU-T標(biāo)準(zhǔn)在結(jié)合了PAMS和PSQM99方法,在2001年提出了P.862標(biāo)準(zhǔn)來(lái)對(duì)語(yǔ)音音質(zhì)進(jìn)行客觀評(píng)價(jià)。其核心算法是:PESQ(Perceptual evaluation of speech quality)。PESQ對(duì)語(yǔ)音音質(zhì)作出的評(píng)價(jià)與主客評(píng)價(jià)的相似程度達(dá)到0.935。
?
客觀音質(zhì)評(píng)估的國(guó)內(nèi)外研究的概況
客觀音質(zhì)評(píng)估最早可以追溯上個(gè)世紀(jì)四十年代,而為客觀音質(zhì)評(píng)價(jià)方法研究奠定基礎(chǔ)的應(yīng)歸功于S.R.Quackenbush和T.P. Barnwel l III,他們對(duì)二十世紀(jì)八十年代中期以前的音質(zhì)評(píng)價(jià)研究工作作了系統(tǒng)歸納,出版了一本有關(guān)客觀音質(zhì)評(píng)價(jià)的專著。兩人建立了264種失真條件,得到了11880個(gè)樣本的失真語(yǔ)音庫(kù),提出了譜距離、斜率加權(quán)譜距離、對(duì)數(shù)面積比、分段變頻信噪比等客觀評(píng)價(jià)方法。
二十世紀(jì)八十年代后期各國(guó)的研究者又提出了許多新的客觀評(píng)價(jià)方法。如BellNorthern Research提出的相關(guān)函數(shù)方法CHF(Coherence Function),它是一種加權(quán)信號(hào)失真比測(cè)度方法,通過(guò)描述人的聽(tīng)力敏感度、人對(duì)噪聲門(mén)限效果以及電話聽(tīng)筒接收的敏感度等來(lái)對(duì)電話語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià);日本NTT研究人員N. Kitawaki等人提出的倒譜距離CD(Cepstral Distance)方法,它是由原始語(yǔ)音信號(hào)和失真語(yǔ)音信號(hào)的1階LPC(Linear Predictive Coding)系數(shù)分別推導(dǎo)出各自的倒譜系數(shù)C(i),然后求出它們之間的倒譜距離,其相關(guān)度達(dá)到了0.9左右,是一種與主觀評(píng)價(jià)相關(guān)性較好的評(píng)價(jià)方法;美國(guó)電信科學(xué)研究院ITS(The Institute for Telecommunication Sciences)學(xué)者R. Kubichek和E.A. Quincy等人提出的專家模式識(shí)別EPR(Expert Pattern Recognition)方法,該方法運(yùn)用貝葉斯估計(jì)原理來(lái)尋求語(yǔ)音信號(hào)的特征參數(shù)與語(yǔ)音質(zhì)量之間的非線性關(guān)系,測(cè)試結(jié)果表明ITS法也比較令人滿意。
PESQ算法的算法介紹
?
PESQ(Perceptual Evaluation of Speech Quality),語(yǔ)音質(zhì)量的知覺(jué)評(píng)估方法,其測(cè)試的參考模型為:
?
?
PESQ總的思路是:對(duì)原始信號(hào)(參考信號(hào))和通過(guò)測(cè)試系統(tǒng)的信號(hào)進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽(tīng)覺(jué)電平,再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽(tīng)筒進(jìn)行濾波。對(duì)通過(guò)電平調(diào)整和濾波后的兩個(gè)信號(hào)在時(shí)間上對(duì)準(zhǔn),并進(jìn)行聽(tīng)覺(jué)變換,這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。 兩個(gè)聽(tīng)覺(jué)變換后的信號(hào)之間的不同作為擾動(dòng)(即差值),分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù),在頻率和時(shí)間上累積起來(lái),映射到對(duì)主觀平均意見(jiàn)分的預(yù)測(cè)值。
?
Perceptual Evaluation of Speech Quality, is a family of standards comprising a test methodology for automated assessment of the speech quality as experienced by a user of a telephony system. It is standardised as ITU-T recommendation P.862 (02/01). Today, PESQ is a worldwide applied industry standard for objective voice quality testing used by phone manufacturers, network equipment vendors and telecom operators.
總結(jié)
- 上一篇: linux 文件名带特殊符号,Linux
- 下一篇: 多线程买票案例