声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。搜集一些資料,方便查閱學習:http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。開源語音數據查詢?http://yqli.tech/page/data.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。
Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?
本文為哈爾濱工業大學和微軟在2022.04.27更新的文章,主要研究無監督訓練的模型對聲紋識別的影響因素,具體的文章鏈接
https://arxiv.org/pdf/2204.12765.pdf
(本文章主要實驗論證,我盡可能的寫的短,讓讀者2分鐘知道該論文做了什么,效果怎樣即可)
自監督訓練的模型不僅僅使語音識別系統的準確率提升,該模型同樣可以使聲紋識別受益。使用自監督模型進行聲紋識別的架構如圖1所示。為了探究自監督學習的模型如何影響聲紋識別,該文章主要圍繞以下三個問題進行試驗總結
1,?有監督的 ASR 模型是否也可以使?聲紋識別SV 任務受益嗎?
2.? ?自監督學習SSL 對 SV 任務有什么好處?
3.? ?SV?任務的最佳 SSL 設置是什么?
???
1,?有監督的 ASR 模型是否也可以使?聲紋識別SV 任務受益嗎?
答:本部分實驗對比直接預訓練模型HuBERT和使用CTC訓練有監督的ASR模型提取的特征與FBank特征作為聲紋識別輸入的結果可知(table 1),有監督訓練的ASR模型不能使聲紋識別任務受益。
2.? ?自監督學習SSL 對 SV 任務有什么好處?
答:由table 1和 table 2實驗可知,自監督模型HuBert和wav2vec2.0都好于Fbank,因此自監督學習利于聲紋識別?。
3. SV?任務的最佳 SSL 設置是什么?
?答?:??剩余實驗都是尋找自監督學習模型影響聲紋識別的因素
? ?? ? ? ??a)?table 2主要對比訓練自監督學習模型的目標函數對結果的影響,其結果顯示Bubert的pseudo?label?prediction loss 比?contrastive loss 和?MSE loss好。
? ? ? ???b)?自監督模型HuBERT使用不同方法生成pseudo?label對結果的影響,不同的聚類算法對最終聲紋?結果不同。
? ? ? ? c)?table 4對比數據規模大小和自監督學習模型大小對聲紋任務的影響?。數據多和參數多效果也會?變好。
?? ? ? ? ??d )?圖2展示了自監督模型每層輸出對聲紋?識別的影響。其中(a)顯示不做微調的自監督模型淺層對聲紋識別較大。語音識別模型淺層關注speaker信息,深層關注語義內容信息。?自監督的模型相比監督學習的模型,較深層也關注speaker信息,因此自監督模型利于聲紋識別任務;(b)更新聲紋模型的同時更新自監督模型,可以使深層關注speaker?信息。?圖3展示無監督模型對聲紋識別任務的loss?可視化。
??
?
總結
以上是生活随笔為你收集整理的声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 莴苣姑娘
- 下一篇: 索尼xz1c 日版融卡扩容经验分享(无需