语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。搜集一些資料,方便查閱學習:http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。
Towards Measuring?Fairness?in?Speech Recognition: Casual Conversations Dataset Transcriptions
本文為facebook在2021.11.18更新的文章,主要開源一個帶諸多metadata屬性(性別,年齡,膚色等等)的閑聊Casual Conversations語音測試集,并使用該測試集對ASR系統進行fairness評估,發掘更多影響ASR效果的諸多因素,為開發更加?魯棒的ASR系統做貢獻,具體的文章鏈接
https://arxiv.org/pdf/2111.09983.pdf
1 研究背景
機器學習系統中的算法偏差問題廣為人知并得到充分研究,諸如面部視覺系統受到膚色、年齡等等因素的影響,但對于ASR模型的偏差研究的關注度非常低,因此本文提供了帶諸多metadata屬性(性別,年齡,膚色等等)的閑聊Casual Conversations語音測試集,并進行ASR偏差實驗和影響因素的探索,為探索更加魯棒的識別系統做貢獻,省卻搜集大量的特定目標人的訓練語料。
2 詳細實驗
數據從846小時數據整理和標注572小時,數據包括音頻、對應的標注文本、說話人的性別、年齡、膚色等信息。
對比的四個系統RNN-T
1)LibriSpeech Model:使用LibriSpeech訓練的模型
2)video model, supervised: 使用帶標注的14k小時的數據訓練新型模型
3)video model, semi-supervised: 使用帶標注的14k小時的數據和2百萬無標簽的數據訓練新型模型
4)video model, semi-supervised teacher: 使用10億參數的teacher模型
對比影響因素:性別,年齡,膚色。其中膚色看起來不會直接影響ASR,但它代表隱含因素對系統影響。
實驗結果:
先看table1的結果,每種系統的WER不一樣,這個不在本文的探索之內??梢杂^測到性別和膚色影響因素對系統的影響很大,整體偏向女性效果較好。另外,年齡之間影響差別較小。Fig.1展示了各種膚色的測CI,如果包括零則差別不大,如黑色線。紅色線代表差別大。LibriSpeech的膚色影響較重,Video semi-supervised稍微好一些,可能跟2百萬的數據覆蓋更多屬性有關。Table2是使用本文閑聊數據劃分部分數據進行微調,即使wer整體下降,但不能降低各因素之間的偏差,需要研究更深層次的影響因素。
3 總結
對于ASR模型的偏差研究,因此本文提供了帶諸多metadata屬性的閑聊Casual Conversations語音測試集,并進行ASR偏差實驗和影響因素的探索,為探索更加魯棒的識別系統做貢獻?。
總結
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国佛学66句震撼世界的禅语(转贴)
- 下一篇: 如何在Windows平台用Java代码暴