當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

只看手势动作就能完美复现音乐，MIT联合沃森实验室团队推出最新AI

發布時間：2023/11/23 综合教程 46 生活家

生活随笔收集整理的這篇文章主要介紹了只看手势动作就能完美复现音乐，MIT联合沃森实验室团队推出最新AI 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　會玩樂器的人在生活中簡直自帶光環！

　　不過，學會一門樂器也真的很難，多少人陷入過從入門到放棄的死循環。

　　但是，不會玩樂器，就真的不能演奏出好聽的音樂了嗎？

　　最近，麻省理工（MIT）聯合沃森人工智能實驗室（MIT-IBM Watson AI Lab）共同開發出了一款 AI 模型 Foley Music，它可以根據演奏手勢完美還原樂曲原聲！

　　而且還是不分樂器的那種，小提琴、鋼琴、尤克里里、吉他，統統都可以。

　　只要拿起樂器，就是一場專業演奏會！如果喜歡不同音調，還可以對音樂風格進行編輯，A調、F調、G調均可。

　　這項名為《Foley Music：Learning to Generate Music from Videos》的技術論文已被 ECCV2020 收錄。

　　接下來，我們看看 AI 模型是如何還原音樂的？

　　會玩多種樂器的 Foley Music

　　如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣，為樂器演奏者配樂，同樣需要知道其手勢、動作以及所用樂器。

　　如果給定一段演奏視頻，AI 會自動鎖定目標對象的身體關鍵點（Body Keypoints），以及演奏的樂器和聲音。

　　身體關鍵點：由 AI 系統中的視覺感知模塊（Visual Perception Model）來完成。它會通過身體姿勢和手勢的兩項指標來反饋。一般身體會提取 25 個關 2D 點，手指提起 21 個 2D 點。

　　樂器聲音提取：采用音頻表征模塊（Audio Representation Model），該模塊研究人員提出了一種樂器數字化接口（Musical Instrument Digital Interface，簡稱 MIDI）的音頻表征形式。它是 Foley Music 區別于其他模型的關鍵。

　　研究人員介紹，對于一個 6 秒中的演奏視頻，通常會生成大約 500 個 MIDI 事件，這些 MIDI 事件可以輕松導入到標準音樂合成器以生成音樂波形。

　　在完成信息提取和處理后，接下來，視-聽模塊（Visual-Audio Model）將整合所有信息并轉化，生成最終相匹配的音樂。

　　我們先來看一下它完整架構圖：主要由視覺編碼，MIDI 解碼和 MIDI 波形圖輸出三個部分構成。

　　視覺編碼：將視覺信息進行編碼化處理，并傳遞給轉換器 MIDI 解碼器。從視頻幀中提取關鍵坐標點，使用 GCN（Graph-CNN）捕獲人體動態隨時間變化產生的潛在表示。

　　MIDI 解碼器：通過 Graph-Transfomers 完成人體姿態特征和 MIDI 事件之間的相關性進行建模。Transfomers 是基于編解碼器的自回歸生成模型，主要用于機器翻譯。在這里，它可以根據人體特征準確的預測 MIDI 事件的序列。

　　MIDI 輸出：使用標準音頻合成器將 MIDI 事件轉換為最終的波形。

　　實驗結果

　　研究人員證實 Foley Music 遠優于現有其他模型。在對比試驗中，他們采用了三種數據集對 Foley Music 進行了訓練，并選擇了 9 中樂器，與其它 GAN-based、SampleRNN 和 WaveNet 三種模型進行了對比評估。

　　其中，數據集分別為 AtinPiano、MUSIC 及 URMP，涵蓋了超過 11 個類別的大約 1000 個高質量的音樂演奏視頻。樂器則為風琴，貝斯，巴松管，大提琴，吉他，鋼琴，大號，夏威夷四弦琴和小提琴，其視頻長度均為 6 秒。以下為定量評估結果：

　　可見，Foley Music 模型在貝斯（Bass）樂器演奏的預測性能最高達到了 72%，而其他模型最高僅為8%。

　　另外，從以下四個指標來看，結果更為突出：

正確性：生成的歌曲與視頻內容之間的相關性。

噪音：音樂噪音最小。

同步性：歌曲在時間上與視頻內容最一致。

　　黃色為 Foley Music 模型，它在各項指標上的性能表現遠遠超過了其他模型，在正確性、噪音和同步性三項指標上最高均超過了 0.6，其他最高不足 0.4，且 9 種樂器均是如此。

　　另外，研究人員還發現，與其他基準系統相比，MIDI 事件有助于改善聲音質量，語義對齊和時間同步。

　　說明

　　另外，該模型的優勢還在于它的可擴展性。MIDI 表示是完全可解釋和透明的，因此可以對預測的 MIDI 序列進行編輯，以生成A\G\F調不同風格音樂。如果使用波形或者頻譜圖作為音頻表示形式的模型，這個功能是不可實現的。

　　最后研究人員在論文中表明，此項研究通過人體關鍵點和 MIDI 表示很好地建立視覺和音樂信號之間的相關性，實現了音樂風格的可拓展性。為當前研究視頻和音樂聯系拓展出了一種更好的研究路徑。

　　以下為 Youtobe 視頻，一起來感受下 AI 音樂!

　　https://www.youtube.com/watch?v=bo5UzyDB80E

　　引用鏈接：

http://foley-music.csail.mit.edu/
https://arxiv.org/pdf/2007.10984.pdf
https://venturebeat.com/2020/07/23/researchers-ai-system-infers-music-from-silent-videos-of-musicians/

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。