浅谈语音质量保障:如何测试 RTC 中的音频质量?
作者|柯淮
審校|泰一
背景介紹
音頻質量是指正常網絡下的聽覺質量和音頻 3A 算法質量。聽覺質量,是在無損網絡情況下人耳對語音優劣的主觀感受。但在實際生活中,不同人對同一聲音可能會有不同的優劣判斷,另外還會受到收聽環境和收聽心理影響。在測試時,我們可以從聲音三要素:響度、音高、音色緯度出發,對一些指標進行量化評估。另外業內標準還會將這些量化指標通過一定的加權處理以期望擬合主觀感受,比如 POLQA、PESQ 等。
音頻 3A 算法是指:
AGC: Automatic gain control(自動增益控制)
ANS: Adaptive noise suppression(噪聲抑制)
AEC: Acoustic echo cancellation(回聲消除)
這部分內容公眾號中已有較多文章較詳細介紹原理及實現,這里不再贅述。
往期文章
詳解 WebRTC 高音質低延時的背后 — AGC(自動增益控制)
硬貨專欄 |深入淺出 WebRTC AEC(聲學回聲消除)
本系列文章將從音頻質量、適配測試、Qos 質量、自動化方案四個維度去介紹阿里云視頻云如何保障 RTC 語音質量,本文先介紹音頻質量部分(正常網絡下的聽覺質量和音頻 3A 算法質量)。
RTC 語音測試鏈路拆解
在正式測試前,我們先了解 RTC 語音傳輸的整個鏈路框架圖,聲音通過麥克風采集,而后上行音頻算法進行前處理,編解碼傳輸后通過揚聲器播放出來。若想測試上行音頻算法可在(1)處輸入聲音,而后在(2)處拉取輸出音頻進行分析。系統測試時,我們往往從端到端角度評估,即從(1)處輸入聲音而后在(4)拉取聲音進行分析,本文后續測試方法均基于端到端。
音頻質量測試方案
阿里云視頻云采用業內常用的客觀指標+主觀評價相結合的方法來保障音頻質量,具體指標請參考下圖:
客觀測試方法
有效頻寬
Line in 輸入掃頻文件 +48K 采樣率的人聲音頻(音頻素材參考如下),Line out 錄制輸出音頻,通過頻率分析讀取有效頻寬;
端到端延遲
方法一:使用 VQT 測試,測試結果中輸出延遲時間。
方法二:自研。Line in 測試素材,Line out 錄制未經過傳輸及輸出音頻,計算音頻延遲時間。
- 測試素材:一段連續的單音。
- 指標計算:錄制文件中讀取未經過傳輸的音頻起始時間記為 t1,讀取經過會議傳輸的音頻起始時間記為 t2,則 Delay=t2-t1。
ANS
考察 ANS 算法在純噪聲和語噪混合場景下的表現,分析指標包含:降噪一致性、信噪比提升、收斂時間、消噪后人聲音質。
測試拓撲
通過音量 Line in 或者外放輸入背景素材及語音素材,在拉流端 Line out 錄制輸出音頻進行指標分析。
測試素材
指標計算
AGC
考察AGC算法在不同音量下表現,分析指標包括:聲音平穩性、輸出響度。
測試拓撲
參考 ANS 測試拓撲圖,通過音量 Line in 或者外放輸入語音素材,在拉流端 Line out 錄制輸出音頻進行指標分析。
測試素材
指標計算
AEC
考察 AEC 算法單講和雙講場景下是否存在漏回聲、人聲抑制等問題。
測試拓撲
【單講】
推流端播放單講語音素材,拉流端默認配置放在空曠會議室中。Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲。
【雙講】
同時向推流端和拉流端播放雙講測試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。
同時向推流端和拉流端播放雙講測試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。
測試素材
指標計算
STOI
短時客觀可懂度,當前學術上比較精確,可靠的客觀評估方法來計算語音可懂度,客觀測試結果可以一定程度上反映語音可懂性和自然性。存在局限性:需降采樣到 16K 進行計算。
- 測試拓撲:參考 ANS 測試拓撲。
- 測試素材:ITU-P863 提供標準人聲素材。
- 指標計算:如下框架圖展示了 STOI 計算流程,當前業內已有 matlab 和 python 對該算法的工程實現。
POLQA
ITU-T P.863 提供測試方法,可得到 MOS 分和音頻延遲。支持 8K、16K、48K 測試,局限性是設備貴。
- 測試拓撲:參考 ANS 測試拓撲。
- 測試素材:ITU-P863 提供標準人聲素材 &VQT 內置語音測試素材。
- 指標計算:POLQA MOS 分。
PESQ
ITU-T P.862 提供測試方法,可得到 MOS 分,局限性是僅可支持 8K 和 16K。
- 測試拓撲:參考 ANS 測試拓撲。
- 測試方法:測試素材:ITU-P863 提供標準人聲素材。
- 指標計算:PESQ MOS 分
主觀測試方法
采用 “YD/T 2309 音頻質量主觀測試方法(ITU-R BS.1284)” 中提及的評分規則和維度,在不同場景下為專家和普通用戶進行打分測試。
評分方法
評價維度
測試場景
測試素材采用“惠威試音碟”和“TUT-acoustic-scenes-2017-development”。
本文為 RTC 音頻測試系列的第一篇,后續我們將從適配測試、Qos 質量、自動化方案的維度去介紹阿里云視頻云如何保障 RTC 語音質量,歡迎關注公眾號「視頻云技術」。
原文鏈接:https://developer.aliyun.com/article/792346?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的浅谈语音质量保障:如何测试 RTC 中的音频质量?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【免费下载】“后红海”时代,独家揭秘当下
- 下一篇: 云拨测助力节卡机器人,全面优化海外网站性