分离人声和伴奏
點擊上方“機器學習與生成對抗網絡”,關注星標
獲取有趣、好玩的前沿干貨!
博雯 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
寫歌填詞、改換風格、續寫音樂的AI,今天又來做編曲人了!
上傳一段《Stay》,一鍵按下:
伴奏和人聲就輕松分離。
人聲頗有種在空曠地帶清唱的清晰感,背景樂都能直接拿去做混剪了!
這樣驚人的效果也引發了Reddit熱議:
這項研究的主要負責人孔秋強來自字節跳動,全球最大的古典鋼琴數據集GiantMIDI-Piano,也是由他在去年牽頭發布的。
那么今天,他又帶來了怎樣的一個AI音樂家呢?
一起來看看。
基于深度殘差網絡的音源分離
這是一個包含了相位估計的音樂源分離(MSS)系統。
首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計復數理想比例掩碼(cIRM)。
其次,為了實現更靈活的幅值估計,將有界掩碼估計和直接幅值預測結合起來。
最后,為MSS系統引入一個143層的深度殘差網絡(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來增加其深度:
殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網絡的表達能力。
其中每個殘差編碼塊由4個殘差卷積塊(RCB)組成,殘差卷積塊又由兩個核大小為3×3的卷積層組成。
每個殘差解碼塊由8個卷積層和1個反卷積層組成。
實驗結果
接下來,將這一系統在MUSDB18數據集上進行實驗。
MUSDB18中的訓練/驗證集分別包含100/50個完整的立體聲音軌,包括獨立的人聲、伴奏、低音、鼓和其他樂器。
在訓練時,利用上述系統進行并行的混合音頻數據增強,隨機混合來自同一來源的兩個3秒片段,然后作為一個新的3秒片段進行訓練。
以信號失真率(SDR)作為評判標準,可以看到ResUNetDecouple系統在分離人聲、低音、其他和伴奏方面明顯優于以前的方法:
在消融實驗中,143層殘差網絡的表現也證實了,結合有界掩碼估計和直接幅值預測確實能夠改善聲音源分離系統的性能。
作者介紹
這項研究的論文一作為孔秋強,本碩都畢業于華南理工大學,博士則畢業于英國薩里大學的電子信息工程專業。
他在2019年加入字節跳動的Speech, Audio and Music Intelligence研究小組,主要負責音頻信號處理和聲音事件檢測等領域的研究。
論文:
https://arxiv.org/abs/2109.05418
試玩:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation
開源地址:
https://github.com/bytedance/music_source_separation
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/
—?完?—
猜您喜歡:
等你著陸!【GAN生成對抗網絡】知識星球!
CVPR 2021 | GAN的說話人驅動、3D人臉論文匯總
CVPR 2021 | 圖像轉換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識別的遺留難題
CVPR 2021生成對抗網絡GAN部分論文匯總
經典GAN不得不讀:StyleGAN
最新最全20篇!基于 StyleGAN 改進或應用相關論文
超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 | 《Python進階》中文版
附下載 | 經典《Think Python》中文版
附下載 | 《Pytorch模型訓練實用教程》
附下載 | 最新2020李沐《動手學深度學習》
附下載 |?《可解釋的機器學習》中文版
附下載 |《TensorFlow 2.0 深度學習算法實戰》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計算機視覺中的數學方法》分享
總結
- 上一篇: f2fs文件系统的页缓存
- 下一篇: ghost 通过docker安装