當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni

發布時間：2024/1/8 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。搜集一些資料，方便查閱學習：http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。開源語音數據查詢?http://yqli.tech/page/data.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?

本文為哈爾濱工業大學和微軟在2022.04.27更新的文章，主要研究無監督訓練的模型對聲紋識別的影響因素，具體的文章鏈接

https://arxiv.org/pdf/2204.12765.pdf

(本文章主要實驗論證，我盡可能的寫的短，讓讀者2分鐘知道該論文做了什么，效果怎樣即可）

自監督訓練的模型不僅僅使語音識別系統的準確率提升，該模型同樣可以使聲紋識別受益。使用自監督模型進行聲紋識別的架構如圖1所示。為了探究自監督學習的模型如何影響聲紋識別，該文章主要圍繞以下三個問題進行試驗總結

1，?有監督的 ASR 模型是否也可以使?聲紋識別SV 任務受益嗎？

2.? ?自監督學習SSL 對 SV 任務有什么好處？

3.? ?SV?任務的最佳 SSL 設置是什么？

???

1，?有監督的 ASR 模型是否也可以使?聲紋識別SV 任務受益嗎？

答：本部分實驗對比直接預訓練模型HuBERT和使用CTC訓練有監督的ASR模型提取的特征與FBank特征作為聲紋識別輸入的結果可知（table 1)，有監督訓練的ASR模型不能使聲紋識別任務受益。

2.? ?自監督學習SSL 對 SV 任務有什么好處？

答：由table 1和 table 2實驗可知，自監督模型HuBert和wav2vec2.0都好于Fbank，因此自監督學習利于聲紋識別?。

3. SV?任務的最佳 SSL 設置是什么？

?答?：??剩余實驗都是尋找自監督學習模型影響聲紋識別的因素

? ?? ? ? ??a)?table 2主要對比訓練自監督學習模型的目標函數對結果的影響，其結果顯示Bubert的pseudo?label?prediction loss 比?contrastive loss 和?MSE loss好。

? ? ? ???b)?自監督模型HuBERT使用不同方法生成pseudo?label對結果的影響，不同的聚類算法對最終聲紋?結果不同。

? ? ? ? c）?table 4對比數據規模大小和自監督學習模型大小對聲紋任務的影響?。數據多和參數多效果也會?變好。

?? ? ? ? ??d )?圖2展示了自監督模型每層輸出對聲紋?識別的影響。其中（a)顯示不做微調的自監督模型淺層對聲紋識別較大。語音識別模型淺層關注speaker信息，深層關注語義內容信息。?自監督的模型相比監督學習的模型，較深層也關注speaker信息，因此自監督模型利于聲紋識別任務；（b)更新聲紋模型的同時更新自監督模型，可以使深層關注speaker?信息。?圖3展示無監督模型對聲紋識別任務的loss?可視化。

總結

以上是生活随笔為你收集整理的声纹识别：自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：莴苣姑娘
下一篇：索尼xz1c 日版融卡扩容经验分享（无需