中文语音语料调研
中文語音數據集小調研
許多開源語音語料庫都可以從openslr下載。
一、ST-CMDS
簡介:ST-CMDS是由一個AI數據公司發布的中文語音數據集,包含10萬余條語音文件,大約100余小時的語音數據。數據內容以平時的網上語音聊天和智能語音控制語句為主,855個不同說話者,同時有男聲和女聲,適合多種場景下使用。
下載:http://openslr.org/38/
二、thchs30
簡介:thchs30是由清華大學語音與語言技術中心2015年發布的開源中文語音數據集。一共30 小時, 完全免費使用。
thchs30 還提供 217 個帶有音調的中文音素作為標簽和與中文漢字對應的字典,根據字典,每條語句都可以生成其音素標注
涉及領域:主要是新聞
下載:http://openslr.org/18/
三、zhvoice
來源github網址:zhvoice
簡介:zhvoice語料由8個開源數據集,經過降噪和去除靜音處理而成,說話人約3200個,音頻約900小時,文本約113萬條,共有約1300萬字。
zhvoice語料比較原始數據而言,更加清晰和自然,減少了噪聲的干擾,減少了因說話人說話不連貫造成的不自然。
zhvoice語料包含文本、語音和說話人3個方面的信息,可適用于多種語音相關的任務。
zhvoice語料由智浪淘沙清洗和處理。
應用場景 :
(1)用于語音編碼器模型,即把語音編碼到預定維度的向量空間。
(2)用于聲紋識別模型,用語音和對應的說話人標簽。
(3)用于語音識別模型,用語音和文本,可以適當加噪聲。
百度網盤下載:
鏈接:?https://pan.baidu.com/s/1uHXE2WIt0kdm_dPSej-TtA
提取碼: i5b3
四、AISHELL1:
簡介:?2017 年,北京希爾貝殼科技有限責任公司發布了當時最大規模的用于語音識別研究和構建語音識別系統的中文普通話數據集 aishell-1,一共178小時,采樣率16khz,量化精度16bit,400人錄制,涉及智能家居、無人駕駛、工業生產等11個領域。
?
下載鏈接:http://cn-mirror.openslr.org/33/
五、Mandarin Chinese Read Speech Corpus
簡介:Magic Data技術有限公司的語料庫,語料庫包含755小時的語音數據,其主要是移動終端的錄音數據。邀請來自中國不同重點區域的1080名演講者參與錄制。句子轉錄準確率高于98%。錄音在安靜的室內環境中進行。數據庫分為訓練集,驗證集和測試集,比例為51:1:2。諸如語音數據編碼和說話者信息的細節信息被保存在元數據文件中。
涉及領域:錄音文本領域多樣化,包括互動問答,音樂搜索,SNS信息,家庭指揮和控制等。還提供了分段的成績單。
應用:該語料庫旨在支持語音識別,機器翻譯,說話人識別和其他語音相關領域的研究人員。因此,語料庫完全免費用于學術用途。
百度網盤下載:https://pan.baidu.com/share/init?surl=P0m2eicMaYZoMQe8zjjZxA??提取碼:s61o
Reference:
[1]?https://zhuanlan.zhihu.com/p/351502454
[2]?https://github.com/KuangDD/zhvoice
[3]?https://www.bilibili.com/read/cv3992691/
[4]?https://blog.ailemon.net/2018/11/21/free-open-source-chinese-speech-datasets/
總結
- 上一篇: 一台计算机数据丢失与恢复,如何在不丢失数
- 下一篇: Python实现栈及其简单应用