當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音质量评价

發(fā)布時(shí)間：2025/3/12 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了语音质量评价小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

語(yǔ)音作為信息傳遞的重要載體，與其相關(guān)構(gòu)成的通信、編碼、存儲(chǔ)和處理等語(yǔ)音系統(tǒng)已成為現(xiàn)代社會(huì)信息交流的必要手段，且已廣泛應(yīng)用于社會(huì)各個(gè)領(lǐng)域。這些系統(tǒng)的性能好壞成為信息交流是否暢通的重要因素，而評(píng)價(jià)這些系統(tǒng)性能優(yōu)劣的根本標(biāo)志是在于系統(tǒng)輸出語(yǔ)音質(zhì)量的好壞。因此，研制靈活、方便、可靠的語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)自然成為國(guó)內(nèi)外研究者共同努力的目標(biāo)。

?? 語(yǔ)音質(zhì)量包括兩方面內(nèi)容：清晰度和自然度。前者是衡量語(yǔ)音中的字、單詞和句的清晰程度，而后者則是對(duì)講話人的辨識(shí)水平。語(yǔ)音質(zhì)量評(píng)價(jià)不但與語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理等學(xué)科有關(guān)，而且還與心理學(xué)、生理學(xué)等學(xué)科有著密切的聯(lián)系，因此語(yǔ)音質(zhì)量評(píng)價(jià)是一個(gè)極其復(fù)雜的問(wèn)題。語(yǔ)音質(zhì)量評(píng)價(jià)從評(píng)價(jià)主體上講可分為兩大類：主觀評(píng)價(jià)和客觀評(píng)價(jià)。

主觀評(píng)價(jià)是依靠評(píng)聽(tīng)者意見(jiàn)對(duì)通信系統(tǒng)性能做出判決，是直接反映用戶的觀點(diǎn)并與系統(tǒng)的適應(yīng)性相聯(lián)系。目前國(guó)內(nèi)外采用較多的主觀評(píng)價(jià)方法有^[1]：平均意見(jiàn)分MOS(Mean Opinion Score)、下降的平均DMOS(Degradation Mean Opinion Score)、診斷押韻測(cè)試DRT(Diagnostic Rhyme Test)、滿意度判斷測(cè)量DAM(Diagnostic Acceptability Measure)等。它們的缺點(diǎn)是費(fèi)時(shí)費(fèi)力，重復(fù)性差，難以組織實(shí)施不夠靈活，而且條件不具備還無(wú)法組織實(shí)施，容易受人的主觀因素影響，不利于在生產(chǎn)過(guò)程和現(xiàn)場(chǎng)實(shí)驗(yàn)中應(yīng)用等。其中MOS分是一種廣泛使用的主觀評(píng)價(jià)方法。

? 客觀評(píng)價(jià)主要依據(jù)的是原始語(yǔ)音信號(hào)和失真語(yǔ)音信號(hào)的時(shí)頻域或變換域的特征參數(shù)對(duì)比。其主要是針對(duì)主觀評(píng)價(jià)方法的不足，人們?cè)缇拖Ｍ锌陀^評(píng)價(jià)方法來(lái)評(píng)價(jià)語(yǔ)音設(shè)備的音質(zhì)，所以許多學(xué)者陸續(xù)提出了基于客觀測(cè)度的客觀音質(zhì)評(píng)價(jià)方法，希望采用這些方法方便、快捷地給出被測(cè)語(yǔ)音系統(tǒng)的語(yǔ)音質(zhì)量評(píng)價(jià)值，只不過(guò)評(píng)價(jià)的主體是由機(jī)器(硬件或軟件)來(lái)完成。目前國(guó)內(nèi)外采用較多的客觀評(píng)價(jià)方法有：PSQM、PAMS和PSQM+等方法，但大量研究發(fā)現(xiàn)，這些方法有較大的局限性，效果與特定的編碼方式有關(guān)系，并且與MOS法的結(jié)果相差較大

，因此ITU-T標(biāo)準(zhǔn)在結(jié)合了PAMS和PSQM99方法，在2001年提出了P.862標(biāo)準(zhǔn)來(lái)對(duì)語(yǔ)音音質(zhì)進(jìn)行客觀評(píng)價(jià)。其核心算法是：PESQ（Perceptual evaluation of speech quality）。PESQ對(duì)語(yǔ)音音質(zhì)作出的評(píng)價(jià)與主客評(píng)價(jià)的相似程度達(dá)到0.935。

客觀音質(zhì)評(píng)估的國(guó)內(nèi)外研究的概況

客觀音質(zhì)評(píng)估最早可以追溯上個(gè)世紀(jì)四十年代，而為客觀音質(zhì)評(píng)價(jià)方法研究奠定基礎(chǔ)的應(yīng)歸功于S.R.Quackenbush和T.P. Barnwel l III，他們對(duì)二十世紀(jì)八十年代中期以前的音質(zhì)評(píng)價(jià)研究工作作了系統(tǒng)歸納，出版了一本有關(guān)客觀音質(zhì)評(píng)價(jià)的專著。兩人建立了264種失真條件，得到了11880個(gè)樣本的失真語(yǔ)音庫(kù)，提出了譜距離、斜率加權(quán)譜距離、對(duì)數(shù)面積比、分段變頻信噪比等客觀評(píng)價(jià)方法。

二十世紀(jì)八十年代后期各國(guó)的研究者又提出了許多新的客觀評(píng)價(jià)方法。如BellNorthern Research提出的相關(guān)函數(shù)方法CHF(Coherence Function)，它是一種加權(quán)信號(hào)失真比測(cè)度方法，通過(guò)描述人的聽(tīng)力敏感度、人對(duì)噪聲門(mén)限效果以及電話聽(tīng)筒接收的敏感度等來(lái)對(duì)電話語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià);日本NTT研究人員N. Kitawaki等人提出的倒譜距離CD(Cepstral Distance)方法，它是由原始語(yǔ)音信號(hào)和失真語(yǔ)音信號(hào)的1階LPC(Linear Predictive Coding)系數(shù)分別推導(dǎo)出各自的倒譜系數(shù)C(i),然后求出它們之間的倒譜距離，其相關(guān)度達(dá)到了0.9左右，是一種與主觀評(píng)價(jià)相關(guān)性較好的評(píng)價(jià)方法;美國(guó)電信科學(xué)研究院ITS(The Institute for Telecommunication Sciences)學(xué)者R. Kubichek和E.A. Quincy等人提出的專家模式識(shí)別EPR(Expert Pattern Recognition)方法，該方法運(yùn)用貝葉斯估計(jì)原理來(lái)尋求語(yǔ)音信號(hào)的特征參數(shù)與語(yǔ)音質(zhì)量之間的非線性關(guān)系，測(cè)試結(jié)果表明ITS法也比較令人滿意。

PESQ算法的算法介紹

PESQ（Perceptual Evaluation of Speech Quality），語(yǔ)音質(zhì)量的知覺(jué)評(píng)估方法，其測(cè)試的參考模型為：

PESQ總的思路是：對(duì)原始信號(hào)（參考信號(hào)）和通過(guò)測(cè)試系統(tǒng)的信號(hào)進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽(tīng)覺(jué)電平，再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽(tīng)筒進(jìn)行濾波。對(duì)通過(guò)電平調(diào)整和濾波后的兩個(gè)信號(hào)在時(shí)間上對(duì)準(zhǔn)，并進(jìn)行聽(tīng)覺(jué)變換，這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。兩個(gè)聽(tīng)覺(jué)變換后的信號(hào)之間的不同作為擾動(dòng)（即差值），分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù)，在頻率和時(shí)間上累積起來(lái)，映射到對(duì)主觀平均意見(jiàn)分的預(yù)測(cè)值。

Perceptual Evaluation of Speech Quality, is a family of standards comprising a test methodology for automated assessment of the speech quality as experienced by a user of a telephony system. It is standardised as ITU-T recommendation P.862 (02/01). Today, PESQ is a worldwide applied industry standard for objective voice quality testing used by phone manufacturers, network equipment vendors and telecom operators.

總結(jié)

以上是生活随笔為你收集整理的语音质量评价的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： linux 文件名带特殊符号,Linux
下一篇：多线程买票案例