日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿

發布時間:2023/12/4 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在剛剛結束的 I/O 大會的主題演講中,Google CEO Sundar 提出了機器學習在無障礙(Accessibility)方面的用例:有聽覺障礙的人在觀看視頻時往往需要配合字幕來完成輔助理解,但是如果你遇到了多個人同時在說話,自動生成的字幕反倒會擾亂聽障人士的思維,使得他們更不知其所云。

有了我們稱之為?Looking to Listen?的機器學習技術之后,我們通過對視頻信號的處理和分析,將正在說話的人進行語音分離,借此提高音頻的質量和準確度。

我們將這篇今年 4 月份發布在 Google Research 博客上的分享于此,借以機會讓大家可以有更多針對這方面技術的了解。小編也為大家錄制了帶有 YouTube 自動生成字幕的處理后的視頻,便于大家理解。

博客發布人:Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang

在嘈雜的環境中,人們非常善于把注意力集中在某個特定的人身上,在心理上"屏蔽"所有其他語音和聲音。這種能力被稱為雞尾酒會效應,它是我們人類與生俱來的本領。然而,盡管關于自動語音分離(將音頻信號分離為單獨的語音源)的研究已經非常深入,這個課題仍是計算機領域的一項重大挑戰。

在"Looking to Listen at the Cocktail Party"論文中,我們提出了一種深度學習音頻—視覺模型,用于將單個語音信號與背景噪聲、其他人聲等混合聲音分離開來。我們通過計算生成視頻,增強其中特定人員的語音,同時減弱其他人的聲音。此方法用在具有單個音頻軌道的普通視頻上,用戶需要做的就是在視頻中選出他們想要聽到的說話者的面部,或者結合語境用算法選出這樣的人。我們認為此方法用途廣泛,從視頻中的語音增強和識別視頻會議,到改進助聽器,不一而足,尤其適用于有多個說話人的情景


這項技術的獨特之處在于結合了輸入視頻的聽覺和視覺信號來分離語音。直觀地講人嘴部的運動應當與這個人說話時產生的聲音相關聯,這反過來又可以幫助識別音頻的哪些部分對應于這個人。視覺信號不僅可以在混合語音的情況下顯著提高語音分離質量(與僅僅使用音頻的語音分離相比,與我們的論文得出的結論相同),但是重要的是,它還能夠將分離的干凈語音軌道與視頻中的可見說話者相關聯。


在我們的方法中,輸入是具有一個或多個說話者的視頻,其中我們需要的語音受到其他說話者和(或)背景噪聲的干擾。輸出是輸入音頻軌道分解成的干凈語音軌道,其中每個語音軌道來自視頻中檢測到的每一個人。

音頻—視覺語音分離模型

為了生成訓練樣本,我們首先從 YouTube 上采集了 10 萬個高質量講座和演講視頻。然后從視頻中提取帶有清晰語音的片段(例如沒有混合音樂、觀眾聲音或其他說話者聲音的片段)和視頻幀中只有一個說話者的片段。這樣得到了大約 2000 小時的視頻剪輯,鏡頭中出現的是單個人,且說話的時候沒有背景干擾。之后,我們使用這些干凈數據生成"合成雞尾酒會",即,將人臉視頻、來自單獨視頻源的對應語音及從 AudioSet 獲取的無語音背景噪聲混合在一起。

使用這些數據,我們能夠訓練基于多流卷積神經網絡的模型,將合成雞尾酒會混合片段分割成視頻中每個說話者的單獨音頻流。網絡輸入是從每一幀檢測到的說話者臉部縮略圖中提取的視覺特征以及視頻聲道的聲譜圖表示。在訓練過程中,網絡(分別)學習視覺和聽覺信號的編碼,然后將其融合在一起,形成一個聯合音頻—視覺表示。利用這種聯合表示,網絡可以學習為每個說話者輸出時頻掩碼。輸出掩碼乘以帶噪聲的輸入聲譜圖,然后轉換成時域波形,以獲取每位說話者單獨、干凈的語音信號。如需了解完整的詳細信息,請參閱我們的論文論文鏈接:

https://arxiv.org/abs/1804.03619

基于多流神經網絡的模型架構。

以下是使用我們的方法得到的語音分離和增強結果(先播放帶混合或嘈雜語音的輸入視頻,然后播放增強結果)。所選說話者之外的另一個人的聲音可以完全消去,或被抑制到所需的音量級別。


在語音識別中的應用

我們的方法也可以作為預處理程序應用于語音識別自動視頻字幕添加。處理語音重疊的說話者對于自動字幕添加系統來說很有挑戰性,將音頻分離為不同的來源可以幫助生成更加準確、易讀的字幕。


點擊播放上面視頻,小編已經為你準備好帶有 YouTube 自動字幕的視頻。

我們的項目網頁提供了更多結果,以及此技術與最先進的純音頻語音分離和近期其他視聽語音分離工作的對比情況。事實上,隨著深度學習領域近期不斷取得進展,學術界對視聽分析的關注顯著增加。在我們進行本研究的同時,其他機構也紛紛進行了不同的研究,例如,加州大學伯克利分校的一項研究分析了如何使用自我監督的方法來分離畫面內/外說話者的語音,MIT 的一項研究則解決了如何分離屏幕上多個物體(例如樂器)的聲音,同時定位發出聲音的圖像區域這一問題。

我們認為這項技術的應用前景十分廣闊。我們目前正在探索如何將此技術整合到各種 Google 產品中。敬請期待!


Looking to Listen 項目網頁:


https://looking-to-listen.github.io/?

致謝

本文介紹的研究由 Ariel Ephrat(實習生)、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、Bill Freeman 和 Michael Rubinstein 共同完成。我們要感謝 Yossi Matias 和 Google Research Israel 對項目的支持,以及 John Hershey 提供的寶貴意見。我們還要感謝 Arkady Ziefman 在動畫和人物方面提供的幫助,感謝 Rachel Soh 幫助我們獲取文中所用視頻內容的權限。


來源:?TensorFlow


總結

以上是生活随笔為你收集整理的多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。