當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger

發布時間：2023/11/22 综合教程 67 生活家

生活随笔收集整理的這篇文章主要介紹了 AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　聽微軟小冰唱粵語歌會是一種怎樣的體驗？

　　想必你一定聽過最近大火的"AI 女團"，7 月 10 日，微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智能大會，以一首 AI 歌曲《智聯家園》正式“出道”。

　　AI 女團的首場演唱會可謂驚艷全場。從整首歌的歌詞、卡點、節奏來看，這首《智聯家園》演唱得不亞于專業音樂團隊。如果只聽音樂，恐怕很難分辨出這是 AI 生成的歌聲。

　　我們知道，歌聲不同于正常人的語音，高低音轉換，BGM 的配合，有著更復雜的模式和節奏，這對于 AI 來說并不是一件容易的事兒。

　　不過，最近一個研究團隊，卻此基礎上挑戰了更高階的 AI 技術——生成多種語言風格的 AI 系統。據了解，這個團隊成員正是來自浙江大學和微軟研究院的六名研究員，他們研發出了一款名為 DeepSinger 的 AI 模型，可以演唱中文、英文，甚至粵語歌曲。

　　目前這項研究論文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已經發表在了預印論文庫 arXiv 上。

　　中文、英文、粵語，教什么會什么的 AI

　　具體來說，DeepSinger 是一款音樂歌聲合成系統（Singing voice synthesis），該系統利用專門設計的組件可以從嘈雜的歌唱數據中捕獲歌手的音色，從而生成多種語言風格的演唱聲音。

　　論文中，研究人員用中文、英文、粵語三種語言進行了試驗，并用訓練后得出的不同音色演唱了這首《Far Away Of Home》。可以先點擊下方鏈接，聽一下演唱效果：

　　點擊鏈接收聽：https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

　　研究人員稱，對于影視從業者來說，DeepSinger 會是一個非常實用的工具。當他們完成某些語音類錄制工作后，如果發現錄制錯誤，可以用 AI 輔助語音的合成和修復，而無需再次返工。不過，這款工具也存在一些弊端。就像換臉軟件 Deepfake 可以合成不存在的人像一樣，這款 DeepSinger 同樣可以假冒歌手偽造音樂。

　　AI 多語言歌聲合成原理

　　在機器學習領域，從文本到語音（TTS）的轉換有著廣泛的使用場景，一直是研究的重點領域。如上文所說，歌曲的韻律和環境比語音更具復雜性，因此，SVS 相比于 TTS 的研究也更有挑戰性。

　　研究人員介紹，此次生成多種語言風格的歌聲合成系統 DeepSinger，采用了一種含多個數據挖掘和數據建模步驟的研究路徑，優化了現有研究的很多困境。這個路徑可以分為以下五個步驟：

數據檢索（Data crawling）負責從音樂網站抓取頂級歌手多種語言的流行音樂；這里抓取的是中、英、粵三種語言的歌曲，時長一般為1-5 分鐘。此階段，需要對數據集進行初級的過濾和清洗。
唱歌和伴奏分離（Singing and accompaniment separation）：采用開源音樂分離工具 Spleeter，從伴奏中提取歌聲，然后將音頻逐個拆分為句子；
歌詞和歌唱對齊（Lyrics-to-singing alignment）：自動提取歌詞中每個音素的持續時間（從粗粒度的句子級別到細粒度的音素級別）。
數據篩選（Data filtration）：對歌詞與演唱未對齊的歌聲進行再處理。

這里采用分離獎勵（Splitting Reward）作為過濾標準，過濾掉分離獎勵低于閾值的數據。
演唱模型（Singing modeling）：通過數據爬取，分離，對齊和過濾之后，基于 FastSpeech 對唱歌數據進行建模。該模型將歌詞，時長，音高信息以及參考音頻作為輸入來生成歌聲。

點擊鏈接：https://speechresearch.github.io/deepsinger/可收聽不同階段，AI 生成歌聲音頻。

　　從最終的測試結果可以看出，未經訓練的音頻和經過 DeepSinger 模型的音頻，在音調、振幅、持續時長上基本吻合；（GT 表示真實音頻波形圖，DeepSinger 表示經過模型訓練后的音頻波形圖）

　　論文中表明，通過歌詞，持續時間，音調信息、參考音頻等指標的驗證，DeepSinger 在合成音調準確度和“聲音自然度”方面表現出了不錯的性能。從數據來看，中英粵語三首歌曲的音高、音準都超過了 85％。而且，在一項 20 人的用戶實驗中，DeepSinger 生成的歌曲與原始培訓音頻之間的平均差距僅為 0.34-0.76。

　　另外，更值得注意的是，經過數據檢索和初級篩選，Singing 所使用數據集僅包含 89 位歌手演唱的 92 個小時的歌曲。

　　我們知道，在機器學習中數據集的質量和數量是關鍵，但也正是在這兩個方面往往存在難點。而在本次試驗中僅使用了一個小樣本即達到不錯的性能表現。另外，歌曲和歌詞的自動對齊模型在很大程度上也減少了數據標標注帶來的失誤和成本。

　　不過，研究人員表示，接下來他們計劃使用基于 WaveNet 模型等更為復雜的 AI 技術，在 DeepSinger 中訓練各種子模型，以提高語音質量。WaveNet 是 Googel 研發的一款語音驅動模型。

　　相關鏈接：

　　https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

　　https://arxiv.org/pdf/2007.04590.pdf

　　https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics

總結

以上是生活随笔為你收集整理的AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：春雨医生投资成立天津春雨医生互联网医院有
下一篇：亚马逊将推出智能购物车！无需收银员和排队