當前位置：首頁 > 运维知识 > windows >内容正文

windows

语音识别(ASR)论文优选：关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition

發布時間：2024/1/8 windows 37 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别(ASR)论文优选：关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：平時看些文章做些筆記分享出來，文章中難免存在錯誤的地方，還望大家海涵。搜集一些資料，方便查閱學習：http://yqli.tech/page/speech.html。語音合成領域論文列表請訪問http://yqli.tech/page/tts_paper.html，語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有轉載，請注明出處。歡迎關注微信公眾號：低調奮進。

Towards Measuring?Fairness?in?Speech Recognition: Casual Conversations Dataset Transcriptions

本文為facebook在2021.11.18更新的文章，主要開源一個帶諸多metadata屬性(性別，年齡，膚色等等）的閑聊Casual Conversations語音測試集，并使用該測試集對ASR系統進行fairness評估，發掘更多影響ASR效果的諸多因素，為開發更加?魯棒的ASR系統做貢獻，具體的文章鏈接

https://arxiv.org/pdf/2111.09983.pdf

1 研究背景

機器學習系統中的算法偏差問題廣為人知并得到充分研究，諸如面部視覺系統受到膚色、年齡等等因素的影響，但對于ASR模型的偏差研究的關注度非常低，因此本文提供了帶諸多metadata屬性(性別，年齡，膚色等等）的閑聊Casual Conversations語音測試集，并進行ASR偏差實驗和影響因素的探索，為探索更加魯棒的識別系統做貢獻，省卻搜集大量的特定目標人的訓練語料。

2 詳細實驗

數據從846小時數據整理和標注572小時，數據包括音頻、對應的標注文本、說話人的性別、年齡、膚色等信息。

對比的四個系統RNN-T

1）LibriSpeech Model：使用LibriSpeech訓練的模型

2）video model, supervised: 使用帶標注的14k小時的數據訓練新型模型

3）video model, semi-supervised: 使用帶標注的14k小時的數據和2百萬無標簽的數據訓練新型模型

4）video model, semi-supervised teacher: 使用10億參數的teacher模型

對比影響因素：性別，年齡，膚色。其中膚色看起來不會直接影響ASR，但它代表隱含因素對系統影響。

實驗結果：

先看table1的結果，每種系統的WER不一樣，這個不在本文的探索之內?？梢杂^測到性別和膚色影響因素對系統的影響很大，整體偏向女性效果較好。另外，年齡之間影響差別較小。Fig.1展示了各種膚色的測CI，如果包括零則差別不大，如黑色線。紅色線代表差別大。LibriSpeech的膚色影響較重，Video semi-supervised稍微好一些，可能跟2百萬的數據覆蓋更多屬性有關。Table2是使用本文閑聊數據劃分部分數據進行微調，即使wer整體下降，但不能降低各因素之間的偏差，需要研究更深層次的影響因素。

3 總結

對于ASR模型的偏差研究，因此本文提供了帶諸多metadata屬性的閑聊Casual Conversations語音測試集，并進行ASR偏差實驗和影響因素的探索，為探索更加魯棒的識別系統做貢獻?。

總結

以上是生活随笔為你收集整理的语音识别(ASR)论文优选：关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：中国佛学66句震撼世界的禅语（转贴）
下一篇：如何在Windows平台用Java代码暴