當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实时通信服务中的语音解混响算法实践

發布時間：2025/3/8 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了实时通信服务中的语音解混响算法实践小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

導讀：

隨著音視頻通信會議越來越普及，與會各方在不同環境中遇到了越來越明顯且差異的混響場景，譬如大會議室場景、玻璃會議室場景和小房間且隔音材料不佳場景等。為了保證更好的聽音可懂度和舒適度，通信中的語音解混響需求愈來愈重要且緊迫。本文講解了網易云信在語音解混響以及提升通信效果方面的一些研發進展和觀點，重點研究基于自適應結合雙麥信號相關性的方案，總體目標是在保真語音情況下提升解混響效果。

文｜張龍網易云信資深算法工程師

一、語音混響的相關介紹

?（一）混響介紹?

下圖描述了語音混響產生的原因和過程，信號中混響程度取決于：

房間密閉形態；
房間大小；
反射材質；
說話人距離麥克風距離等。

（注意區分回聲含義）

如下圖，根據到達時間的先后，混響一般分為：直達聲+早期混響+后期混響，他們在聲學理解上有不同的意義。

下圖展示語音混響效果：

?（二）混響和解混響研究發展歷程?

最初的研究來自對房間內聲音傳播現象的基礎研究，隨后應用于音樂廳、教室等空間的聲學設計，為了更好地傳播聲音包括音樂、人聲等；
接下來研究了混響對于語音可懂度的影響；
一些研究者關注混響帶來的正向收益：提升語音自然度、層次感和空間感等，包括可懂度提升。研究者通過人造混響感來提升多樣體驗，譬如娛樂、游戲和音樂領域；如下圖，網易云信基于 Feedback Delay Network（反饋延時網絡）方案提供人造混響感的能力；

70 年代開始，語音解混響的研究主要關注混響對通話和錄音的負面效果，提升可懂度和質量；?
04~05 年之后，免提通信和視訊通話會議興起，結合 11 年后語音助手（尤其強調遠場）的發展，語音解混響的研究和應用越來越廣泛。

我們根據語音解混響的應用將評估性能的指標進行了分類：

二、重點算法和研究進展

結合算法實踐和運算考慮，當前網易云信從傳統算法開始實現語音解混響，配合降噪算法提升通信體驗。

下圖將語音解混響算法根據信號模型和目標進行了大致分類：

本文主要關注以下重點：

線性預測類演進算法；
相關性抑制類算法；
然后討論后續結合深度學習的計劃。

（一） AWPE 算法?

模型轉換可得：

Xt^m 表示第 m 個麥克風在 t 時刻接收到的信號，Lm 表示麥克風數目；hk^m表示信源 s 到達第 m 個麥克風的沖擊響應，Lh 是沖擊響應長度；nt^m 表示第 m 個麥克風在 t 時刻接收到的加性噪聲信號成分。

其中

表示麥克風 m 在 t 時刻前的 D 時刻及之前接收到的數據。dt^m 是前述前期反射信號，即解混響的目標信號；當然也有直接將求解源信號 s 作為目標信號的模型，但不是主流，因為前期混響一般有利于聽覺和識別系統。

繼續求解上述模型可得：

對上述模型進行時頻域轉換并引入?Recursive Least Squares?轉換可得：

求解上述目標函數得到如下解：

上述求解可總結為如下步驟：

?（二）相關性降噪解混響算法介紹?

基于后期混響信號部分是散射場噪聲的假設，利用麥克間散射場噪聲相關性估計方法計算后期混響成分大小，然后采用譜減法估計增益的方式解混響。經驗表明,這一類算法在降散射場噪聲方面性能更優。

信號模型：

計算如下中間結果：

最后得到如下降噪增益，施加增益至輸入信號可解混響目標：

?（三）綜合應用?

對于通信任務，目前網易云信重點關注 AWPE 串接降噪的方案實現；同步考慮在散射場噪聲強的場景結合 CDR 抑制算法提升性能；

通信中上行必然包含降噪模塊，解混響算法需要配合降噪實現聯合調優的性能，一般通過模塊和參數調試實現。

智能語音任務，一般采用線性語音解混響作前期增強處理：

未來趨勢：

三、算法實現和運算優化

關于上述第二節中算法具體實現中的關注點：

設置好?buffer 存取機制（涉及麥克數目、歷史幀數、頻點等），降低計算耗時；RLS 算法注意使用 Woodbury matrix identity 規則替換矩陣求逆；

如公式所示，這一類統計信息可以嘗試用平滑更新機制代替；

注意部分矩陣盡量采用對角化，甚至實數化實現計算量降低；

可以通過表格化，頻率索引減少計算量。

——設定理想散射場噪聲模型。

四、結果匯報和后續展望

?（一）當前結果展示?

當前結合降噪我們設置解混響階段優先語音保真；當前算法處理混響能力約 800ms~1s，最重要的調試參數是：遺忘因子和 block 數目。

?（二）后續展望?

通信領域而言：

遺忘因子的自適應實現方案；
深度學習方案實現語音解混響和降噪的融合，替代目前結合傳統算法的方案。

網易云信當前優化：

未來：

?參考文獻?

[1] Xiang, Teng, Jing Lu, and Kai Chen. "Multi-channel adaptive dereverberation robust to abrupt change of target speaker position." The Journal of the Acoustical Society of America 145.3 (2019): EL250-EL256.

[2] Taniguchi, Toru, et al. "Generalized weighted-prediction-error dereverberation with varying source priors for reverberant speech recognition." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.

[3] Tang, Xinyu, et al. "A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation." 2020 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT). IEEE, 2020.

[4] Schwarz, Andreas. Dereverberation and Robust Speech Recognition Using Spatial Coherence Models. Diss. Friedrich-Alexander-Universit?t Erlangen-Nürnberg (FAU), 2019.

?作者介紹?

張龍，就職于網易云信音視頻實驗室，目前從事音頻信號增強和動態增益控制等研發工作。

總結

以上是生活随笔為你收集整理的实时通信服务中的语音解混响算法实践的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JDK、Spring、Dubbo SPI
下一篇： MCtalk 创业声音丨辉禹科技合伙人孔