RTC 音频质量评价和保障
導(dǎo)讀:隨著 5G 網(wǎng)絡(luò)的普及以及疫情帶來(lái)的影響,人們對(duì)實(shí)時(shí)音視頻技術(shù)的應(yīng)用場(chǎng)景會(huì)越來(lái)越多,包括會(huì)議、連麥、音視頻通話、在線教育、遠(yuǎn)程醫(yī)療等,這些實(shí)時(shí)互動(dòng)場(chǎng)景對(duì) RTC 音頻的質(zhì)量提出了越來(lái)越高的要求。如何對(duì) RTC 音頻的效果開(kāi)展測(cè)試,通過(guò)構(gòu)建客觀、標(biāo)準(zhǔn)、可重復(fù)的評(píng)價(jià)體系來(lái)保證好的音頻傳輸質(zhì)量,也成為目前比較緊急和重要的課題。
文|馬建立?網(wǎng)易云信資深音視頻測(cè)試工程師?
理想的溝通模型
日常溝通中面對(duì)面的交流一般有比較好的效果,如果在一個(gè)安靜的實(shí)驗(yàn)室內(nèi),減少環(huán)境的干擾和影響,會(huì)得到理想的溝通效果。我們?cè)侔堰@個(gè)模型抽象一下,大體可以看出有以下的特點(diǎn):
環(huán)境安靜:NR15 的底噪,相當(dāng)于在極其安靜的夜晚,人耳能不受到其他影響的干擾,集中注意力聽(tīng)目標(biāo)人聲。
適宜聽(tīng)音的混響環(huán)境:混響通常會(huì)影響聽(tīng)音者的理解程度,混響越大,語(yǔ)音的拖尾越長(zhǎng),可懂度也就越低。比如在混響較大的演唱廳,對(duì)于樂(lè)器和歌聲來(lái)說(shuō),會(huì)有一定的美化效果,但是對(duì)于人的溝通交流是不利的。
語(yǔ)音清晰、自然:講話者心理和生理都處在極佳的狀態(tài),發(fā)音清楚,頻率均衡,語(yǔ)音流暢,語(yǔ)速適中。
?
聲音大小適中:研究表明,音量對(duì)音質(zhì)的影響是顯著的,在其他條件一致的情況下,音量越大,主觀聽(tīng)感越好。講話者說(shuō)話聲音洪亮,在一定程度上能提升聽(tīng)音者的可懂度。
?
響應(yīng)及時(shí)、溝通順暢:在 RTC 的實(shí)時(shí)溝通中,延時(shí)也是一個(gè)非常重要的指標(biāo),一般來(lái)說(shuō),200ms 以內(nèi)人的延時(shí)人的主觀感覺(jué)無(wú)明顯的障礙和遲滯感,200ms-400ms 能正常溝通,超過(guò) 400ms 就會(huì)有的遲滯感,更嚴(yán)重時(shí)會(huì)出現(xiàn)搶話的現(xiàn)象,直接影響通話的體驗(yàn)。在面對(duì)面的溝通場(chǎng)景下,時(shí)延只有 3ms 左右。
RTC 音量鏈路
上圖是通過(guò) RTC 實(shí)時(shí)溝通的兩個(gè)人,從圖上可以看出,講話者 A 開(kāi)始說(shuō)話,聲音經(jīng)過(guò)空氣傳播、麥克風(fēng)采集、A/D 轉(zhuǎn)換、增強(qiáng)處理(降噪、回聲消除、音量控制、去混響)、編碼、打包傳輸、接收端解碼、NetEQ、D/A?轉(zhuǎn)換到下行播放,然后 B 聽(tīng)到聲音。這是單工狀態(tài)下的完整的聲音傳輸?shù)穆窂健?/span>
與理想的溝通模型相比,實(shí)際的 RTC 鏈路中存在多種類型的干擾和影響,比如環(huán)境影響、硬件影響、鏈路影響和網(wǎng)絡(luò)影響,每個(gè)環(huán)節(jié)都有可能引入音頻質(zhì)量的下降。這些影響綜合下來(lái),會(huì)導(dǎo)致如下幾個(gè)方面的聲音的問(wèn)題。
- 音量問(wèn)題:無(wú)聲、音量小、聲音大導(dǎo)致的削波、刺耳等、忽大忽小。
- 回聲類問(wèn)題:漏回聲、回聲殘留、語(yǔ)音損傷如壓制、剪切、斷續(xù)。
- 噪聲類問(wèn)題:噪聲殘留不平穩(wěn)。
- 系統(tǒng)引入問(wèn)題:雜音、電流音、popo音。
- 狹義的音質(zhì)問(wèn)題:語(yǔ)音模糊、語(yǔ)音失真、語(yǔ)音發(fā)悶、語(yǔ)音尖銳、機(jī)械音。
- 網(wǎng)絡(luò)問(wèn)題:卡頓、斷續(xù)、快放、慢放、機(jī)械音。
主觀測(cè)試方法
最早的主觀測(cè)試以兩個(gè)人通話為主,A 和 B 建立起 RTC 的鏈接,通過(guò)分別或者同時(shí)講話,還原真實(shí)場(chǎng)景的用戶使用場(chǎng)景,主要關(guān)注的以下 3 個(gè)維度。
Listening Quality:聽(tīng)音者的音質(zhì),是單工的使用場(chǎng)景,比如 A 在講話,B 聽(tīng)到的聲音的質(zhì)量,就是 Listening Quality,Listening Quality 描述了大部分情況下的語(yǔ)音質(zhì)量,也是最基礎(chǔ)的部分,目前業(yè)界已有的客觀評(píng)價(jià)方法和手段基本上都是基于 Listening Quality。
Talking Quality:講話者的音質(zhì),是講話人自己聽(tīng)到的聲音質(zhì)量,與回聲、側(cè)音掩蔽、本地的環(huán)境都有一定的關(guān)系。
Conversation Quality:對(duì)話音質(zhì),除了包含 A/B 兩個(gè)人的 Listening Quality 和 Talking Quality,還跟雙工通話有關(guān)系,主要的影響因素有回聲雙講和端到端延時(shí)。
?主觀測(cè)試關(guān)注的維度?
主觀測(cè)試要關(guān)注的點(diǎn)如上圖所示,分為音質(zhì)、音色、音量、延時(shí)、回聲、降噪等幾個(gè)大的方面。
音色
音色又稱之為音品,是聽(tīng)覺(jué)感到的聲音的特色,音色主要決定于聲音的頻譜。在 RTC 的鏈路中,影響聲音的頻率響應(yīng)主要是麥克風(fēng)的頻率特性、中間處理如 EQ、高低通濾波、以及音量控制的算法(DRC/AGC)、揚(yáng)聲器/耳機(jī)得到頻響等。不同人的發(fā)聲頻率分布也有差異,一般來(lái)說(shuō)男性聲音低頻多,聲音渾厚或者偏悶,女性或者小孩有更多的高頻成分,聲音明亮甚至有些尖銳。
音質(zhì):音質(zhì)分為 3 個(gè)維度,清晰度、流暢度和自然度。
- 清晰度在音頻領(lǐng)域也叫可懂度。表示對(duì)語(yǔ)義內(nèi)容的理解程度,影響可懂度的方面有很多,比如:語(yǔ)音中混入噪聲使得語(yǔ)音聽(tīng)不清楚,導(dǎo)致可懂度下降;語(yǔ)音中有大混響,導(dǎo)致語(yǔ)音拖尾,聽(tīng)不清楚。
- 流暢度表示語(yǔ)音的連續(xù)程度。直接影響的因素有:網(wǎng)絡(luò)環(huán)境差導(dǎo)致語(yǔ)音斷續(xù)、卡頓、丟字等;QoS 調(diào)整導(dǎo)致的聲音快放、慢放;回聲和降噪等算法導(dǎo)致的語(yǔ)音損傷。
- 自然度表示與原始語(yǔ)音的相似程度。影響自然度的典型問(wèn)題有:算法處理引入的失真;揚(yáng)聲器的非線性失真;聲音放大過(guò)多造成的削波、過(guò)載等。
音量
對(duì)于 RTC 的 SDK 供應(yīng)商來(lái)說(shuō),面臨的最大挑戰(zhàn)是設(shè)備多樣性,不同的平臺(tái)(Mac、Windows、Android、iOS、Web),以及不同機(jī)型和不同的外接設(shè)備,不同的機(jī)型或者設(shè)備采集、播放音量差異大。音量控制的策略在于能夠保證不同平臺(tái)設(shè)備之間的一致性,保證用戶能夠聽(tīng)到足夠大小的聲音,且不會(huì)顯性的帶來(lái)音質(zhì)損傷和下降。
噪聲
降噪算法的目的在于去除環(huán)境或者設(shè)備引入的噪聲干擾,盡可能多的還原人聲,提升信噪比。實(shí)際的降噪算法在處理噪聲的過(guò)程中,都不可避免的、或多或少的損傷音質(zhì)。因此評(píng)價(jià)降噪主要從兩個(gè)方面考慮:?
- 噪聲的抑制水平。包括收斂時(shí)間、抑制力度、殘留平穩(wěn)性等。
- 語(yǔ)音的損傷程度。好的降噪算法總是能夠在這兩者之間達(dá)到一個(gè)相對(duì)的平衡,既能有效的抑制噪聲,又沒(méi)有明顯的損傷語(yǔ)音。
回聲
回聲消除是 RTC 鏈路中比較重要的一個(gè)模塊,目的是消除設(shè)備的回聲,保證順暢的通話體驗(yàn)。評(píng)價(jià)回聲也主要從兩個(gè)點(diǎn)出發(fā):
- 回聲的抑制力度。回聲是否有殘留。
- 對(duì)近端語(yǔ)音的損傷情況。在 RTC 的應(yīng)用場(chǎng)景,回聲也與設(shè)備、平臺(tái)、機(jī)型和外接設(shè)備關(guān)系很大,因此回聲的測(cè)試需要覆蓋 TOP 機(jī)型。? ?
延時(shí)
網(wǎng)絡(luò)傳輸中音頻對(duì)抗丟包的算法如 FEC、RED、ARQ,以及對(duì)抗丟包的算法如 Jitter Buffer 等,都會(huì)產(chǎn)生額外的延時(shí),導(dǎo)致端到端的延時(shí)增大,對(duì)于實(shí)時(shí)溝通交流帶來(lái)負(fù)面的影響和體驗(yàn)下降。尤其是對(duì)于一些低時(shí)延的場(chǎng)景來(lái)說(shuō),端到端延時(shí)是一個(gè)衡量弱網(wǎng)對(duì)抗性能的重要指標(biāo)。
?主觀測(cè)試的痛點(diǎn)?
目前 RTC 音頻的主流評(píng)價(jià)方式主要依靠主觀測(cè)試和聽(tīng)音,這種方式對(duì)于人的專業(yè)能力要求比較高,而且效率比較低。主要有以下幾個(gè)方面的痛點(diǎn):
- 可重復(fù)性差:主觀測(cè)試很難保證兩次測(cè)試的一致,比如聲場(chǎng)環(huán)境的變化、說(shuō)話人發(fā)音變化、音量大小變化、與設(shè)備之間的距離差異等等,不可控因素太多,沒(méi)辦法得到準(zhǔn)確的對(duì)比測(cè)試結(jié)果。
- 測(cè)試效率低:主觀測(cè)試需要兩個(gè)人全程參與,長(zhǎng)時(shí)間的測(cè)試無(wú)論聽(tīng)音還是發(fā)聲,都會(huì)產(chǎn)生疲勞和懈怠感,且需要根據(jù)用例切換場(chǎng)景,測(cè)試效率非常低。
- 測(cè)試覆蓋率低:因?yàn)樾实膯?wèn)題,實(shí)測(cè)只能覆蓋有限的場(chǎng)景和有限的鏈路組合,通常來(lái)說(shuō)只能保證重點(diǎn)場(chǎng)景。且測(cè)試人員本身的聲音有局限性,沒(méi)有辦法覆蓋更多種類的人聲。
- 主觀因素影響大:聲音是很主觀的東西,同一段聲音在不同人的聽(tīng)感不盡相同,單個(gè)人的測(cè)試結(jié)果有可能會(huì)導(dǎo)致結(jié)論有失偏頗。且人的發(fā)聲和聽(tīng)音,與生理和心理的狀態(tài)有著極大的關(guān)系,同一個(gè)人在不同時(shí)間段會(huì)給出截然不同的判斷和結(jié)論。
針對(duì)以上的痛點(diǎn)問(wèn)題,網(wǎng)易云信目前在音頻效果的評(píng)價(jià)和測(cè)試上,打造了一套從實(shí)驗(yàn)室構(gòu)建、環(huán)境模擬、采集播放、評(píng)價(jià)方法端到端的客觀評(píng)價(jià)方法。
?標(biāo)準(zhǔn)實(shí)驗(yàn)室
上圖是網(wǎng)易云信的聲學(xué)實(shí)驗(yàn)室,主要的設(shè)備和硬件配置如下所示:
- 頭肩模擬器:內(nèi)置嘴部模擬器和經(jīng)過(guò)較準(zhǔn)的耳部模擬器(符合 IEC 60318–4/ITU‐T Rec. P.57 Type 3.3 標(biāo)準(zhǔn))的人體模型,可以真實(shí)再現(xiàn)普通成年人頭部和軀干的聲學(xué)特性,進(jìn)行精準(zhǔn)的雙耳聲學(xué)信號(hào) 采集和嘴部發(fā)聲。
- 4* 高保真音響:構(gòu)造均勻的散射聲場(chǎng),在線模擬并回放不同場(chǎng)景和信噪比的噪聲環(huán)境。
- 多路聲卡:支持同時(shí)8入8出的聲音采集和播放,滿足多種音頻測(cè)試的場(chǎng)景設(shè)置。
- 4路電信號(hào)接口:支持多人語(yǔ)音測(cè)試 和 回聲單雙講測(cè)試。
通過(guò)構(gòu)建專業(yè)的音頻測(cè)試實(shí)驗(yàn)室,滿足音頻自動(dòng)化測(cè)試/競(jìng)品分析評(píng)測(cè)/版本間基線效果快速對(duì)比測(cè)試的需求,獲得可重復(fù)的客觀測(cè)試結(jié)果,同時(shí)能夠滿足研發(fā)音頻算法仿真和原型驗(yàn)證的需求。還可以一人完成 3A 主觀測(cè)試:降噪、音質(zhì)、回聲單雙講測(cè)試。目前 AI 算法越來(lái)越多,數(shù)據(jù)是 AI 類算法的關(guān)鍵,有了聲學(xué)實(shí)驗(yàn)室和噪聲模擬系統(tǒng),通過(guò)編寫(xiě)自動(dòng)化腳本的方式,可以實(shí)現(xiàn) AI 數(shù)據(jù)自動(dòng)采集和標(biāo)注,大大降低數(shù)據(jù)購(gòu)買(mǎi)和標(biāo)記成本。目前云信的聲學(xué)實(shí)驗(yàn)室組網(wǎng)如上圖所示,實(shí)驗(yàn)室的引入提升了開(kāi)發(fā)和測(cè)試的專業(yè)度,主要有以下方面的應(yīng)用:
- 自動(dòng)化測(cè)試:客觀的 3A 自動(dòng)化測(cè)試,如回聲測(cè)試、噪聲測(cè)試,可模擬多人入會(huì)場(chǎng)景。
- AI 數(shù)據(jù)自動(dòng)化采集:開(kāi)源的語(yǔ)音、目標(biāo)噪聲分別通過(guò)人頭和噪聲回放系統(tǒng)播放,在目標(biāo)端或者平臺(tái)上回錄,錄制的過(guò)程中可以打標(biāo)簽,同時(shí)解決序列采集和標(biāo)記的問(wèn)題。
- 主觀測(cè)試:定量的播放環(huán)境和安靜的聽(tīng)音環(huán)境。
- 其它:機(jī)型覆蓋測(cè)試、機(jī)型適配、算法原型優(yōu)化驗(yàn)證。
客觀測(cè)試標(biāo)準(zhǔn)
實(shí)驗(yàn)室主要是提供了客觀可重復(fù)的測(cè)試環(huán)境,硬件設(shè)備支持自定義的采集和播放,除此之外,目前網(wǎng)易云信的音頻實(shí)驗(yàn)室還引入了客觀的測(cè)試標(biāo)準(zhǔn),作為最終數(shù)據(jù)的評(píng)價(jià)方法。音頻測(cè)試標(biāo)準(zhǔn)按照不同維度有不同的劃分。
主觀/客觀
主觀是基于人類的主觀評(píng)價(jià),客觀方法是用模型來(lái)計(jì)算和評(píng)估語(yǔ)音質(zhì)量。典型的主觀評(píng)測(cè)標(biāo)準(zhǔn)如P.800,客觀的語(yǔ)音質(zhì)量評(píng)測(cè)方法如 PESQ。
有參考/無(wú)參考
完全參考/無(wú)參考 (FR/NR) 描述所用測(cè)量算法的類型。FR 算法有兩個(gè)信號(hào):原始信號(hào)和失真信號(hào)。NR 算法只需要一個(gè)失真信號(hào)。典型的 FR 算法是例如 PESQ。典型的 NR 測(cè)量是 P.563,NR 方法也常被稱為“單端”測(cè)試。
感知/非感知
通常,此類測(cè)量算法會(huì)嘗試對(duì)人類感知進(jìn)行建模。感知建模不僅用于質(zhì)量的評(píng)估。其他著名的感知算法例如使用感知模型的 MP3 或 AAC 用于壓縮音樂(lè)。非感知指標(biāo)是一般的物理或技術(shù)指標(biāo),例如電平或信噪比。
?基于感知模型的客觀標(biāo)準(zhǔn)?
基于感知模型的客觀指標(biāo)最經(jīng)典也是應(yīng)用最廣泛的是有源客觀語(yǔ)音質(zhì)量測(cè)試標(biāo)準(zhǔn) p.86x 系列,也是就常說(shuō)的 PESQ/POLQA,是一種典型的有參考的語(yǔ)音評(píng)價(jià)標(biāo)準(zhǔn), PESQ/POLQA 總的思路是:對(duì)原始信號(hào)(參考信號(hào))和通過(guò)測(cè)試系統(tǒng)的信號(hào)進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽(tīng)覺(jué)電平,再用輸入濾波器模擬標(biāo)準(zhǔn)電話聽(tīng)筒進(jìn)行濾波。
對(duì)通過(guò)電平調(diào)整和濾波后的兩個(gè)信號(hào)在時(shí)間上對(duì)準(zhǔn),并進(jìn)行聽(tīng)覺(jué)變換,這個(gè)變換包括對(duì)系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。兩個(gè)聽(tīng)覺(jué)變換后的信號(hào)之間的不同作為擾動(dòng)(即差值),分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù),在頻率和時(shí)間上累積起來(lái),映射到對(duì)主觀平均意見(jiàn)分的預(yù)測(cè)值。POLQA 相對(duì)于 PESQ 做了大量精度的優(yōu)化,使得客觀測(cè)試結(jié)果與主觀測(cè)試結(jié)果的一致性更高,在語(yǔ)音評(píng)測(cè)方面有個(gè)非常廣泛的應(yīng)用。
自動(dòng)化測(cè)試
?POLQA 自動(dòng)化測(cè)試?
網(wǎng)絡(luò)測(cè)試中,為減少硬件采集播放和聲學(xué)鏈路的影響采用電信號(hào)鏈路的測(cè)試。發(fā)送端和接受端的兩臺(tái)設(shè)備使用 3.5mm 的音頻線與聲卡連接。此外,有一套 TC 系統(tǒng)來(lái)提供網(wǎng)損環(huán)境,被測(cè)試的兩臺(tái)設(shè)備接入 TC 的 Router,通過(guò)腳本控制兩端設(shè)備的丟包、延時(shí)、抖動(dòng)和帶寬。
如上圖所示,測(cè)試主機(jī)通過(guò)聲卡將信號(hào)發(fā)送給測(cè)試設(shè)備 A,測(cè)試設(shè)備經(jīng)過(guò)本端的 RTC 音頻處理后,經(jīng)過(guò)網(wǎng)絡(luò)傳輸發(fā)送到接收端設(shè)備 B,在這個(gè)過(guò)程中,通過(guò)弱網(wǎng)系統(tǒng)實(shí)時(shí)添加不同類型和程度的網(wǎng)損。聲卡接收到測(cè)試設(shè)備 B 的信號(hào),通過(guò)與原始信號(hào)的比對(duì)和分析,來(lái)衡量 RTC 對(duì)于弱網(wǎng)對(duì)抗模塊的性能。
- 支持 Android 端、iOS 端、Windows 端、Mac 端、Web 端的互通測(cè)試;
- 使用 TC 腳本自動(dòng)化控制網(wǎng)絡(luò)環(huán)境;
- 使用 API 自動(dòng)化控制入會(huì)、切換 profile、參數(shù)控制、離開(kāi)會(huì)議;
- 自動(dòng)化獲取測(cè)試過(guò)程中的碼率、丟包、卡頓等打點(diǎn)信息作為輔助標(biāo)準(zhǔn);
- 一鍵執(zhí)行,生成版本基線報(bào)告;
?3A 客觀自動(dòng)化?
網(wǎng)易云信目前基于實(shí)驗(yàn)室搭建了端到端的 3A 自動(dòng)化測(cè)試,架構(gòu)框圖如上圖所示,主要分為用例管理層、API/UI 控制層、采集和播放、自動(dòng)校準(zhǔn)、分析與計(jì)算、數(shù)據(jù)和報(bào)告幾個(gè)大的模塊。主要用于回聲、噪聲和音量控制的綜合評(píng)價(jià),目前在版本基線測(cè)試、版本迭代對(duì)比、競(jìng)品對(duì)比等測(cè)試環(huán)節(jié)中應(yīng)用。
?作者介紹?
馬建立,網(wǎng)易云信資深音視頻測(cè)試工程師,網(wǎng)易云信音視頻媒體實(shí)驗(yàn)室核心成員,負(fù)責(zé)音頻測(cè)試質(zhì)量體系建設(shè)和音視頻質(zhì)量保障工作。
總結(jié)
以上是生活随笔為你收集整理的RTC 音频质量评价和保障的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 资讯|WebRTC M98 更新
- 下一篇: Gitlab-ci 替代 webhook