Mozilla发布最大公共语音数据集Common Voice
近日,Mozilla發布了當前可使用的,規模最大的公共語音數據集Common Voice,數據集涵蓋18種語言,由42000多名貢獻者提供的近1400小時的語音數據構成。
文 / George Roter
翻譯 / 咪寶
原文
https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
Mozilla發布了可供使用的最大人類語音數據集,包括18種不同的語言,累計記錄了超過42,000多名貢獻者的近1,400小時的語音數據。
從一開始,我們對Common Voice的愿景就是構建世界上最多樣化的語音數據集,為構建語音技術進行優化。我們還做出了開放的承諾:向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高質量語音數據。
今天,我們很高興與大家分享我們的第一個多語種數據集,其中包含18種語言。包括英語、法語、德語和普通話(繁體),以及威爾士語和卡比爾語。總的來說,新的數據集囊括了超過42000人的大約1400個小時的語音片段。
在這個版本中,不斷增長的Common Voice數據集目前是同類數據集中規模最大的,成千上萬的人將他們的聲音和原始的手寫文字貢獻給公共領域(CC0)。完整的數據集可以在Common Voice站點上(https://voice.mozilla.org/zh-CN/datasets)進行下載。
數據質量
Common Voice數據集不僅在其大小和許可模型(https://github.com/JRMeyer/open-speech-corpora)方面是獨一無二的,而且在其多樣性上也是獨一無二的。它代表了一個由語音貢獻者組成的全球社區。貢獻者可以選擇提供諸如他們的年齡、性別和口音等元數據,這樣他們的語音片段就會被標記上在訓練語音引擎中有用的信息。
這是一種不同于其他可公開獲取的數據集的方法,這些數據集要么是手工制作的多樣性數據集(即男性和女性數量相等),要么是語料庫與“已發現”的數據集一樣的多樣性數據集(例如,TED演講中的TEDLIUM語料庫是男性和女性的3倍)。
更常見的聲音:8個月內從3種語言到22種語言
自2018年6月啟用多語言支持以來,Common Voice已變得更加全球化,更具包容性。這已經超出了我們的預期:在過去的8個月中,社區積極響應該項目,以22種語言開展數據收集工作,在Common Voice網站上,還有70種語言正在進行中,令人難以置信。
作為一個社區驅動的項目,世界各地關心用自己的語言建立語音數據集的人們負責每一個新項目的啟動——有些是熱情的志愿者,有些是作為語言學家或技術專家日常工作的一部分。每一項工作都需要翻譯網站,以允許投稿和添加句子閱讀。
我們最新增加的語言包括荷蘭語、Hakha-Chin語、世界語、波斯語、巴斯克語和西班牙語。在某些情況下,Common Voice上發布一種新語言代表著該語言在互聯網上出現的開始。這些社區的努力證明了:所有語言,不僅僅是那些能夠為科技公司帶來高收入的語言都值得成為代表。
我們將繼續與這些社區合作,確保他們的聲音成為代表,甚至幫助他們自己開發語音技術。本著這種精神,我們最近與Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在基加利聯合主辦了一場創意黑客馬拉松,為Kinyarwanda創建了一個語音語料庫,為盧旺達當地的技術人員開發基于他們自己語言的開源語音技術奠定了基礎。
改進貢獻者的體驗,包括可選配置文件
Common Voice網站是我們構建語音數據集的主要工具之一,這些數據集對語音交互技術非常有用。它今天的樣子是一個不斷迭代的過程產生的結果。我們聽取了社區對有關貢獻者痛點的反饋,同時也進行了可用性研究,以使得貢獻、投稿更容易、更有吸引力、更有趣。
參與貢獻的人不僅可以在錄制和驗證中看到每種語言的進度,而且還改進了不同片段之間的提示; 新的功能,以審查,重新記錄,并跳過剪輯作為一個集成部分的經驗;在說話與傾聽之間快速切換; 以及選擇退出會話的功能。
我們還添加了創建已保存配置文件的選項,允許參與者跟蹤多種語言的進度和指標。提供一些可選的人口統計信息同時改善了用于訓練語音識別準確度的音頻數據。
?
Common Voice最初作為概念證明原型,在過去的一年中一直在協作迭代。
授權去中心化的產品創新:馬拉松而非沖刺
Mozilla的目標是建立一個更加多樣化和創新的語音技術生態系統。我們的目標是既發布自己的語音產品,同時也支持研究人員和小型玩家。通過Common Voice提供數據只是其中的一部分,開源的語音到文本和文本到語音引擎以及由我們的機器學習小組驅動的、經過訓練的DeepSpeech項目模型也是其中的一部分。
我們知道這需要時間,我們相信盡早發布和公開工作能夠吸引技術人員、組織和公司的參與和反饋,從而使這些項目更加健壯。目前,這兩個項目都處于研究階段,DeepSpeech在產品化方面取得了很大的進步。
到目前為止,有了來自普通語音和其他來源的數據,DeepSpeech在技術上能夠“實時”地將語音精確地轉換為文本,即在流式傳輸音頻時實時轉換。這允許當講座、電話交談、電視節目、廣播節目和其他直播流發生時進行轉錄。
DeepSpeech引擎已經被許多非mozilla項目所使用:例如,在Mycroft中,一個開源的基于語音的助手;在利昂,一個開源的個人助理;在電話內線交換機(FusionPBX)中,安裝在私人機構并為其服務的一種電話交換機,用于記錄電話信息。在未來,Deep Speech將針對更小的平臺設備,如智能手機和車載系統,開啟Mozilla內外的產品創新。
對于Common Voice,我們在2018年的重點是構建概念,使其成為能夠被任何語言社區使用、優化網站和構建強大后端(例如,帳戶系統)的工具。在接下來的幾個月里,我們將集中精力嘗試不同的方法,通過社區努力和新的合作伙伴關系來增加我們能夠收集的數據的數量和質量。
我們的總體目標仍然是:為世界上所有尋求構建和使用語音技術的人提供更多、更好的數據。因為競爭和開放有利于創新。因為較小的語言是一個訪問和公平的問題。因為隱私和控制很重要,尤其是對你的聲音。
點擊【閱讀原文】或掃描圖中二維碼了解更多LiveVideoStackCon 2019 上海 音視頻技術大會 講師信息。
總結
以上是生活随笔為你收集整理的Mozilla发布最大公共语音数据集Common Voice的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI+AR如何提升花椒直播的体验?
- 下一篇: 音视频技术开发周刊 88期