睡眠音频分割及识别问题(一)
問題描述
通過手機App的錄音功能,獲得用戶一整夜的睡眠音頻,對睡眠音頻進(jìn)行分割,并對睡眠階段進(jìn)行判定。
(1)假設(shè)條件一:用戶在相對安靜的環(huán)境下進(jìn)行睡眠,背景音可能會出現(xiàn)風(fēng)聲、雨聲、汽車噪音、空調(diào)聲音等,背景音微弱;
(2)假設(shè)條件二:一個人睡眠,不考慮多人同時睡眠產(chǎn)生的音頻;
(3)睡眠音頻主要分割出鼾聲、夢話及睡眠靜音,手機App只保存鼾聲和夢話音頻片段;
(4)將睡眠階段分為Deep Sleep, Light Sleep, REM Sleep, Awake,并繪制出如下波形圖:
主要方案
目前采用了兩套方案來實現(xiàn),方案一利用語音分離技術(shù),方案二利用語音編碼技術(shù)。
方案一:語音分離技術(shù)
(1)對語音進(jìn)行編碼,目前主流的方法有: frequency-domain(基于頻域的方法) or time-domain(基于時域的方法) methods;
(2)語音分離:構(gòu)建算法獲取分離的掩碼矩陣(mask);
(3)對分離后的信息進(jìn)行反編碼,得到分離后的語音信息。
主流的語音分離技術(shù)有:TasNet, TasNet++等網(wǎng)絡(luò)。
方案二:語音編碼技術(shù)
(1)完成音頻到向量的轉(zhuǎn)換,1s的音頻轉(zhuǎn)換為96*64的向量;
(2)進(jìn)行編碼,目前采用的是VGG網(wǎng)絡(luò),后續(xù)可以嘗試用其它網(wǎng)絡(luò)來進(jìn)行編碼,編碼過后1s的音頻轉(zhuǎn)為128的向量;
(3)設(shè)置3類標(biāo)簽,0類標(biāo)簽:鼾聲,1類標(biāo)簽:夢話(使用Google的’Music’,‘Singing’,‘singing’,‘speech’,'speaking’這5個標(biāo)簽的數(shù)據(jù)作為夢話標(biāo)簽的訓(xùn)練集,Google原有100類樣本),2類標(biāo)簽:其它(使用Google的其他標(biāo)簽的數(shù)據(jù)作為其他標(biāo)簽的訓(xùn)練集)。
(4)鼾聲識別在測試集上有80%正確率(訓(xùn)練集比例2:1:1,2是鼾聲樣本,1是其他樣本與夢話樣本),夢話識別由于沒有找到合適的數(shù)據(jù)集,目前識別效果不好,測試發(fā)現(xiàn)鼾聲樣本識別正確接近百分百,而夢話類與其他類識別準(zhǔn)確只有2/3。
面臨的問題
(1)把鼾聲和夢話分離出來后,目前還不知道怎么將睡眠分為如下四個階段:深度睡眠、淺度睡眠、REM期、清醒。我們查閱到REM期(快速動眼期)的定義為:快速眼動睡眠,眼球在此階段時會快速移動。在這個階段,大腦的神經(jīng)元的活動與清醒的時候相同。多數(shù)在醒來后能夠回憶的栩栩如生的夢都是在REM睡眠發(fā)生的。它是全部睡眠階段中最淺的。但如何利用鼾聲、夢話、靜默階段的統(tǒng)計數(shù)據(jù)來將睡眠定義為深度睡眠、淺度睡眠、REM期、清醒沒有思路;
(2)目前的代碼都是基于深度學(xué)習(xí)框架(如Tensorflow、Pytorch等),這些代碼植入APP會導(dǎo)致安裝包過大。
總結(jié)
以上是生活随笔為你收集整理的睡眠音频分割及识别问题(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器人电焊电流电压怎么调_【华光】HG1
- 下一篇: k近邻推荐用到的各种距离