利用自己构建的网络进行鼾声识别
1 目前的工作
1.1 數(shù)據(jù)
5692條3s且采集率為8000hz的鼾聲與6824條3s且采集率為8000hz的其他類音頻。通過FFT頻譜轉(zhuǎn)換為300個(gè)(30,513,1)的矩陣。訓(xùn)練集與測(cè)試集的比例為9:1。數(shù)據(jù)集來源為google開源的數(shù)據(jù)集。
1.2 模型
圖1. The proposed deep neural network architecture for snore detection. layer1: Conv2D(1, (3, 3), strides=(1, 1), input_shape=(30, 513, 1))。第一層為卷積核為3,步長為1的卷積層,輸入為(30,513,1)的矩陣,輸出為(28,511,1)的矩陣。layer2: Conv2D(1, (3, 3), strides=(1, 1))。第二層為卷積核為3,步長為1的卷積層,輸入為(28,511,1)的矩陣,輸出為(26,509,1)的矩陣。
layer3: Conv2D(1, (3, 3), strides=(1, 1))。第三層為卷積核為3,步長為1的卷積層,輸入為(26,509,1)的矩陣,輸出為(24,507,1)的矩陣。
layer4: Reshape((24, 507),通過reshape給矩陣降維,將(24,507,1)轉(zhuǎn)換為(24,507)。
Layer5: LSTM(2).輸出為(2)的長短期記憶網(wǎng)絡(luò),輸入為(24,507)的矩陣,輸出為(2)的矩陣,再接一個(gè)softmax激活函數(shù)。
1.3 優(yōu)化器與損失函數(shù)
優(yōu)化器:選擇的是學(xué)習(xí)率為0.0001的Adam優(yōu)化器。
損失函數(shù):二分類交叉熵。
1.4 評(píng)價(jià)指標(biāo)
預(yù)測(cè)正確的個(gè)數(shù)/總的測(cè)試樣本個(gè)數(shù)。
1.5 測(cè)試結(jié)果
訓(xùn)練輪數(shù)為500輪,采用10倍交叉驗(yàn)證得到最終測(cè)試結(jié)果為0.75。
2 下一步工作
2.1 數(shù)據(jù)
按鼾聲、咳嗽、夢(mèng)話、噴嚏收集數(shù)據(jù)(負(fù)責(zé)人:梁翔宇,彭子峰,最后梁翔宇匯總,完成時(shí)間:2021.10.26)
2.2 語音預(yù)處理
調(diào)研語音事件檢測(cè)方法,對(duì)收集好的語音進(jìn)行分割。(方法調(diào)研并完成測(cè)試:樊俊,完成時(shí)間2021.10.26)
2.3 模型優(yōu)化
對(duì)現(xiàn)有模型進(jìn)一步完善和優(yōu)化(比如將現(xiàn)在的FFT模型改為Q轉(zhuǎn)換,并能對(duì)網(wǎng)絡(luò)有一定物理解釋),并思考Android端代碼的開發(fā)。(負(fù)責(zé)人:容斌元,完成時(shí)間:2021.10.26)
總結(jié)
以上是生活随笔為你收集整理的利用自己构建的网络进行鼾声识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 通过一个例子来理解二维码纠错机制
- 下一篇: 和大家谈谈数学模型之美