音乐推荐初步
哈嘍,你們還好嗎?是否有想起我呢?
假期前我面臨的問題是音頻特征提取的問題,也就是特征工程。業(yè)務(wù)是視頻中的音頻場景分類,為視頻分類、視頻推薦做準(zhǔn)備,這個(gè)看似簡單的問題其實(shí)做起來一點(diǎn)也不簡單,因此,賦閑期間實(shí)在無聊透頂,終于撿起來了昨日的黃花,重新開始,閱讀一些相關(guān)文獻(xiàn),期望有所收獲。
【悟已往之不諫,知來者之可追】
主要方面:
1.音頻場景分類/分割問題;
2.音樂推薦系統(tǒng);
本篇博文先說音頻場景分類,其實(shí)這個(gè)問題由來已久,也有相關(guān)的比賽DCASE,但沒來得及認(rèn)真看下dcase2019就放假了,誰知道假期還這么長,一時(shí)半會(huì)兒也接不上了,因而不表。
這里提一點(diǎn)分割的問題,和端點(diǎn)檢測類似,場景分割也需要檢測跳變點(diǎn)(可能比較基礎(chǔ),不要笑),目前所見的一些之前的畢業(yè)論文仍舊是以低級(jí)特征來區(qū)分,比如熵、能量、MFCC,而且需要設(shè)定閾值等經(jīng)驗(yàn)參數(shù),這是有很大的弊端,不可能放之四海而皆準(zhǔn),可能只會(huì)對(duì)實(shí)驗(yàn)數(shù)據(jù)效果較好。
有論文提到結(jié)合BIC來做的模型效果不錯(cuò),這里也說下BIC,這個(gè)貝葉斯信息準(zhǔn)則是用來模型選擇的,BIC=kln(n)-2ln(L)
另外論文中說懲罰因子關(guān)系到什么跳變點(diǎn)的檢出?讓我一臉懵逼,上面這個(gè)公式里面有懲罰因子?尋根究底后發(fā)現(xiàn)是BIC距離,是計(jì)算向量X和Y的對(duì)數(shù)似然距離。
論文所提的方法是聚類后生成的字典,然后將MFCC向字典投影作為特征,然后用SVM分類,這是啥特征操作???
?關(guān)于音樂推薦,目前有基于內(nèi)容、協(xié)同過濾、語境、圖模型的推薦?;趦?nèi)容過濾的容易理解,就是音頻特征,用的大多數(shù)還是低級(jí)特征,比如MFCC、能量、pitch、頻帶包絡(luò),然后進(jìn)行特征拼接,計(jì)算相似性(測度/距離),當(dāng)然也有其他特征參與,比如音樂節(jié)奏、節(jié)拍、音色、體裁。舉個(gè)例子,某篇博文以短時(shí)譜模糊表示音樂內(nèi)容,每幀選取最大的k個(gè)頻率從大到小排序,構(gòu)成k*n矩陣,n是總的幀數(shù),然后計(jì)算同shape矩陣相似度,假設(shè)矩陣A和B,那么A點(diǎn)除以B,如果商落在[0.95,1.05]范圍外,那么該元素視為偏差元素,最后的相似度為1-m/(k*n),m為偏差元素個(gè)數(shù)。這里面有個(gè)查詢/搜索問題,當(dāng)前過來的矩陣n可能與數(shù)據(jù)庫中的不同,作者也給出了方法,假設(shè)數(shù)據(jù)庫中n值大,將第一個(gè)元素與匹配的矩陣最接近的位置作為查詢起始點(diǎn),也可將查詢片段刪除幾列(幀數(shù)),再次查詢,最后選擇相似度最大的作為結(jié)果。根據(jù)作者top1
?
待續(xù)吧。。
另外有相關(guān)問題可以加入QQ群討論,不設(shè)微信群
QQ群:868373192?
語音圖像視頻深度-學(xué)習(xí)群
總結(jié)
- 上一篇: mysql起止时间怎么写_【Mysql
- 下一篇: AA记账表