研究人员的AI技术能够实时匹配活页乐谱与MIDI音频
正文字?jǐn)?shù):1165 ?閱讀時長:2分鐘
音樂AI技術(shù)正在快速發(fā)展。
作者 /?Kyle Wiggers
原文鏈接 / https://venturebeat.com/2020/07/22/researchers-ai-aligns-sheet-music-with-midi-audio/
在預(yù)印平臺Arxiv.org上發(fā)布的一項研究中,約翰內(nèi)斯·開普勒大學(xué)林茨計算感知研究所和奧地利人工智能研究所的研究人員介紹了一個可以預(yù)測活頁樂譜中和目標(biāo)錄音匹配度最高的的位置的AI系統(tǒng)。表面上,其對齊精度高于當(dāng)前基于圖像的最新樂譜追蹤器。
樂譜追蹤技術(shù)是很多應(yīng)用程序的基礎(chǔ)。這些應(yīng)用包括自動伴奏、翻頁以及將現(xiàn)場表演與可視化圖像同步等等。現(xiàn)有的系統(tǒng)要么依賴于固定長短的小片段樂譜圖像,要么需要光學(xué)音樂識別技術(shù)所提取出的計算機可讀的樂譜。但是這些研究人員的AI系統(tǒng)可以以獨特的方式觀察整頁樂譜,從而從頭到尾地追蹤任意長度的音樂表演。
這個研究團(tuán)隊將樂譜追蹤當(dāng)作一種圖像分割任務(wù)。根據(jù)特定時間的某個音樂表演,他們的系統(tǒng)針對當(dāng)前正在播放的音樂相對應(yīng)的樂譜預(yù)測分段蒙版(即小片段)。研究人員說,僅僅利用固定大小音頻輸入的樂譜追蹤器無法在超過特定環(huán)境的情況下區(qū)分重復(fù)的音符,然而他們提出的AI系統(tǒng)在處理較長時間的樂譜時都不會有問題。
在實驗過程中,研究人員們從多模型樂譜數(shù)據(jù)集(MSMD)中獲取了一些復(fù)音鋼琴樣本,其中包括巴赫、莫扎特、貝多芬等多個作曲家的作品。在手動識別并且糾正一些對齊上的錯誤后,他們通過353對樂譜和MIDI音頻信息訓(xùn)練了AI系統(tǒng)。
該AI系統(tǒng)的另一位作者說,除了最高的門檻以外(沒搞懂highest threshold是啥),他們的系統(tǒng)擁有比基準(zhǔn)線更高的性能,并能在時間差方面得出更精確的結(jié)果(即對于更嚴(yán)格的容錯率,百分比更高)。它偶爾也會產(chǎn)生一些錯誤,研究人員將其歸因于系統(tǒng)可能會在圖像紙上 “大幅跳躍”。但是他們斷言,種種試驗結(jié)果都表明這個AI系統(tǒng)在大多數(shù)情況下都是“非常精確的”。
“未來的工作會需要對掃描圖像或照片進(jìn)行測試,以評估該AI系統(tǒng)在視覺領(lǐng)域的泛化能力。”研究人員寫道,“成就功能更強大的系統(tǒng)的下一步是顯式或隱式地結(jié)合某種機制來處理樂譜和演奏中重復(fù)的音符。盡管我們也懷疑其性能會很大程度上取決于迄今為止音頻的隱式編碼。舉例來說,循環(huán)網(wǎng)絡(luò)中能夠存儲多大的聽覺環(huán)境將成為很重要的一個因素,但我們相信,我們所提出的方法能夠從合適的(經(jīng)受過訓(xùn)練的)的數(shù)據(jù)中很自然地獲得這種功能。”
音樂AI技術(shù)正在快速發(fā)展。OpenAI最近發(fā)布了一款叫做Jukebox的機器學(xué)習(xí)框架,它可以生成包括基本歌曲在內(nèi)的音樂作為各種音樂類型和音樂風(fēng)格的原始音頻。在2018年末,Google Brain的“Project Magenta”項目致力于“探索機器學(xué)習(xí)在創(chuàng)作過程中的作用”,提出了一個叫做“Musical Transformer”的模型。該模型能夠生成可識別的重復(fù)性歌曲。不僅如此,去年三月,谷歌發(fā)布了一種算法“Google Doodle”,讓用戶能夠創(chuàng)造向巴赫致敬的旋律。
LiveVideoStackCon 2020 SFO(線上峰會)日程發(fā)布
無需漂洋過海,我們在線上等您!
LiveVideoStackCon 2020?美國舊金山站
北京時間:2020年12月11日-12月13日
點擊【閱讀原文】了解更多日程信息
總結(jié)
以上是生活随笔為你收集整理的研究人员的AI技术能够实时匹配活页乐谱与MIDI音频的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新版SVT-AVS3发布 编码效率提升并
- 下一篇: AI视觉在教育场景中的创新应用