當前位置：首頁 >

wav2midi 音乐旋律提取算法附可执行demo

發布時間：2023/12/6 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 wav2midi 音乐旋律提取算法附可执行demo 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前面提及過，音頻指紋算法的思路。

也梳理開源了兩個比較經典的算法。

https://github.com/cpuimage/shazam

https://github.com/cpuimage/AudioFingerprinter

后來一段時間，稍微看了下這兩個算法，還有不少可以精簡優化的空間。

例如抗噪，特征有效性等優化思路。

音頻指紋切片后的hash特征信息還是太多了，

不過作為哼唱搜歌的基本應用，是足夠的了。

不過我覺得還是可以再進一步提取歌曲的旋律特征的，在音頻指紋的基礎上更進一步。

　　旋律是最重要的音樂要素之一,多應用于音樂內容分析、音樂創作、音樂教育、抄襲檢測等方面。

主旋律提取旨在從一段音樂中自動估計對應于主旋律單音音符序列的音高或基頻。

流行音樂一般屬于復雜的多音音樂,因此主旋律提取面臨著許多挑戰。

　　在這里要特別說一下，音頻處理領域碰到的問題都是相似的。首當其沖主要是噪聲，其次是音量和語速。

特別是在一些場景下的asr識別，例如實時對話，同聲傳譯之類環境下，語速和音量的干擾影響很多時候多過于噪聲。

而很多提供asr服務的廠商對這類情況支持不佳，而據我所知，訊飛的asr中是有內置前處理算法的。

好像有點偏題了，回到主題上來。

也就是說不管做音頻還是音樂上面提到的問題都會造成一定精度影響。

音頻前處理算法是非常重要的，一直在做這方面的研究工作，前面著重于降噪和增益方向，下一步應該會著重在語速方面的研究。?

而剛才提到的旋律，也可以認為是語速的一個點。

旋律，節奏，節拍，精確準確度從另一個側面就可以評估語速，以及風格內容。

所以提取旋律節奏是一個非常值得研究的課題。

也許大家最熟悉的應用場景應該是游戲節奏類app或者唱K的旋律評分系統。

關于旋律提取這方面的資料比較有限。

在這方向上面，一開始我也是有點蒙圈。

直到我看到一個思路，我突然間豁然開朗。

那就是將歌曲音頻轉換為midi電子音樂。

眾所周知，midi電子音樂體積非常非常小，在游戲領域應用非常廣，幾乎是標配。

例如超級瑪麗的背景音樂，經典中的經典。

那么是不是可以實現一種算法，將音頻轉為midi，作為此段音頻的指紋呢？

理論上，完全可行，而且剛才提到的唱K的評分系統就是類似的實現。

參照下圖：

上面是一段音樂，下面是其對于的midi。

把這個圖放大給大家感受一下。

是不是有似曾相識的感覺。

KTV 的節奏條。

所以毫無疑問，KTV的評分系統極其有可能就是采用了MIDI作為聲紋進行相似度匹配，

最后給出評分。

當然關于旋律提取有很多不同的實現，不過，大多數算法都有3個共同的目的，

分別是算法的速度性能(復雜度)，最終效果，抗噪抗干擾。

針對這三個方面，各有各的技巧。

如果能兼顧三者，無疑是最佳的。

而關于wav轉midi的資料，真的是極其稀少。

大概有:

1.?https://github.com/mrk21/wav2midi

https://mrk21.kibe.la/shared/entries/3931bfea-0f31-4aa1-9e72-b7cd6f010697

2.https://github.com/justinsalamon/audio_to_midi_melodia

http://www.justinsalamon.com/melody-extraction.html

等

仔細學習查閱之后，你會跟我一開始一樣，一臉懵逼。

首先，第三方依賴特別多，也就意味著，這個算法并不簡單。

就效果對比而言，audio_to_midi_melodia 更佳，當然深度學習大火之后

也有人在嘗試通過深度學習的方式，建立wav 到 midi的映射。以尋求新的突破。

當然還在試驗階段，暫時還沒看到有特別優秀的模型放出。

不過可以拭目以待。

而這個算法有多復雜，看下算法的流程圖:

說難也不難，說簡單也不簡單。

大部分環節是為了解決語速，音量，噪音所造成的誤差問題，使得算法更佳穩定，更魯棒。

根據這個思路，自行實現算法并不困難。

改進算法思路的首要前提，理解算法的核心思想，

所以至少你要把整個算法思路實現一遍，加深理解，不管能否理解到精髓。

然后站在巨人的肩膀上，繼續改進。

這個算法花了我一段時間去實現，原本預計幾個星期可以搞定，

但是后來因為其他原因擱置了。

趁國慶假期，撿起來，把一些工作繼續推進，復現了該算法。

這個過程挺漫長的，有不少環節還可以進一步改進優化。

不過這是后面的工作了。

算法暫沒有開源計劃，放出demo 供大家評測。

預處理算法,等響度濾波已經開源:

項目地址:

https://github.com/cpuimage/EqualLoudness

其他相關算法也將陸續開源.

這個方向的算法，

有一個專用名詞叫做mir, 全稱為 music/audio information retrieval/signal processing 。

有興趣的朋友，可以查閱一下相關資料。

基本上都是dsp(數字信號處理)。

學習dsp必須把傅里葉變換好好理解一下。

為了理解傅里葉變換的算法思路，我把市面上能找到的實現，都過了一遍。

用純c 進行學習復現，也足足花了我1個多月的業余時間，

就差噴一口老血出來。

可執行demo下載地址:

https://files.cnblogs.com/files/cpuimage/wav2midi.zip

使用方法：拖放wav文件到可執行文件上即可。

或者采用命令行?wav2midi.exe demo.wav

執行后生成 demo.mid 文件。

目前僅支持wav的1通道和2通道格式，其他的格式暫沒做支持。

在學習音頻算法的時候，經常會聯系到圖像方面的算法，進行類比，舉一反三。

都有共通的地方，就看你怎么應用了，溫故而知新。

用以前說過的一句話來總結就是，

任何算法都有缺點，但是一定要用它最優秀的思路。

就好比說，用人只要用其長處，天下皆是可用之才。

若有其他相關問題或者需求也可以郵件聯系俺探討。

郵箱地址是:?
gaozhihan@vip.qq.com

轉載于:https://www.cnblogs.com/cpuimage/p/9747247.html

總結

以上是生活随笔為你收集整理的wav2midi 音乐旋律提取算法附可执行demo的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：电商行业运维实践
下一篇：面对峰值响应冲击，解决高并发的三大策略

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

wav2midi 音乐旋律提取算法 附可执行demo

總結

wav2midi 音乐旋律提取算法附可执行demo