當(dāng)前位置：首頁 >

常用音频数据库记录

發(fā)布時(shí)間：2025/7/14 39 豆豆

生活随笔收集整理的這篇文章主要介紹了常用音频数据库记录小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

記錄一下常用的數(shù)據(jù)庫。

TIMIT
也忘記當(dāng)時(shí)從哪下的了，網(wǎng)上也沒看到好一點(diǎn)的鏈接。
TIMIT全稱The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州儀器(TI)、麻省理工學(xué)院(MIT)和坦福研究院(SRI)合作構(gòu)建的聲學(xué)-音素連續(xù)語音語料庫。TIMIT數(shù)據(jù)集的語音采樣頻率為16kHz，一共包含6300個(gè)句子，由來自美國八個(gè)主要方言地區(qū)的630個(gè)人每人說出給定的10個(gè)句子，所有的句子都在音素級別(phone level)上進(jìn)行了手動(dòng)分割，標(biāo)記。70%的說話人是男性；大多數(shù)說話者是成年白人。

THCHS30
THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang這幾位大神發(fā)布的開放語音數(shù)據(jù)集，可用于開發(fā)中文語音識別系統(tǒng)。
CSTR VCTK Corpus?

Google Wavenet用到的數(shù)據(jù)庫。
This CSTR VCTK Corpus includes speech data uttered by 109 native speakers of English with various accents. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

All speech data was recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, were downsampled to 48 kHz based on STPK, and were manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies.

VoxForge(開源的識別庫)

VoxForge創(chuàng)建的初衷是為免費(fèi)和開源的語音識別引擎收集標(biāo)注錄音（在Linux／Unix，Windows以及Mac平臺上）。
我們以GPL協(xié)議開放所有提交的錄音文件，并制作聲學(xué)模型，以供開源語音識別引擎使用，如CMUSphinx，ISIP，Julias（github）和HTK（注意：HTK有分發(fā)限制）。

OpenSL

OpenSLR是一個(gè)有聲書數(shù)據(jù)集。

OpenSLR is a site devoted to hosting speech and language resources, such as training corpora for speech recognition, and software related to speech recognition. We intend to be a convenient place for anyone to put resources that they have created, so that they can be downloaded publicly.

其他：

來自論文?Zhang et al., 2015。這是有八個(gè)文字分類數(shù)據(jù)集組成的大型數(shù)據(jù)庫。對于新的文字分類基準(zhǔn)，它是最常用的。樣本大小為 120K 到 3.6M，包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的數(shù)據(jù)集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

標(biāo)簽：實(shí)用學(xué)術(shù)基準(zhǔn)

源自高品質(zhì)維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護(hù)。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

標(biāo)簽：實(shí)用

Quora 發(fā)布的第一個(gè)數(shù)據(jù)集，包含副本/語義近似值標(biāo)記。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

標(biāo)簽：實(shí)用學(xué)術(shù)基準(zhǔn)

斯坦福的問答社區(qū)數(shù)據(jù)集——適用范圍較廣的問題回答和閱讀理解數(shù)據(jù)集。每一個(gè)回答都被作為一個(gè) span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

標(biāo)簽：無

人工創(chuàng)建的仿真陳述問題/回答組合，還有維基百科文章的難度評分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

標(biāo)簽：實(shí)用

為 NLP 研究人工創(chuàng)建的復(fù)雜數(shù)據(jù)集。

地址：https://datasets.maluuba.com/

Billion Words

標(biāo)簽：實(shí)用學(xué)術(shù)基準(zhǔn)

大型、通用型建模數(shù)據(jù)集。時(shí)常用來訓(xùn)練散布音（distributed）的詞語表達(dá)，比如 word2vec 或 ?GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

標(biāo)簽：實(shí)用學(xué)術(shù)基準(zhǔn)

PB（拍字節(jié)）級別的網(wǎng)絡(luò)爬蟲。最經(jīng)常被用來學(xué)習(xí)詞語嵌入。可從 Amazon S3 免費(fèi)獲取。對于 WWW 萬維網(wǎng)的信息采集，是一個(gè)比較有用的網(wǎng)絡(luò)數(shù)據(jù)集。

地址：http://commoncrawl.org/the-data/

bAbi

標(biāo)簽：學(xué)術(shù)基準(zhǔn)?經(jīng)典

Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數(shù)據(jù)集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

標(biāo)簽：學(xué)術(shù)基準(zhǔn)

Project Gutenberg（一項(xiàng)正版數(shù)字圖書免費(fèi)分享工程）兒童圖書里提取的成對數(shù)據(jù)（問題加情境，回答）基準(zhǔn)。對問答、閱讀理解、仿真陳述（factoid）查詢比較有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

標(biāo)簽：學(xué)術(shù)基準(zhǔn) 經(jīng)典較舊

標(biāo)準(zhǔn)的情緒數(shù)據(jù)集，對每一句話每一個(gè)節(jié)點(diǎn)的語法樹，都有細(xì)致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

標(biāo)簽：經(jīng)典較舊

一個(gè)較經(jīng)典的文本分類數(shù)據(jù)集。通常作為純粹分類或者對 IR / indexing 算法驗(yàn)證的基準(zhǔn)，在這方面比較有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

標(biāo)簽：經(jīng)典較舊

較老的、基于純粹分類的數(shù)據(jù)集。文本來自于路透社新聞專線。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

?IMDB

標(biāo)簽：經(jīng)典較舊

較老的、相對比較小的數(shù)據(jù)集。用于情緒分類。但在文學(xué)基準(zhǔn)方面逐漸失寵，讓位于更大的數(shù)據(jù)集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

標(biāo)簽：經(jīng)典較舊

較老的、經(jīng)典垃圾郵件數(shù)據(jù)集，源自于 UCI Machine Learning Repository。由于數(shù)據(jù)集的管理細(xì)節(jié)，在學(xué)習(xí)私人訂制垃圾信息過濾方面，這會(huì)是一個(gè)有趣的基準(zhǔn)。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

語音

大多數(shù)語音識別數(shù)據(jù)庫都是專有的——這些數(shù)據(jù)對其所有公司而言有巨大價(jià)值。絕大部分該領(lǐng)域的公共數(shù)據(jù)集已經(jīng)很老了。

2000 HUB5 English

標(biāo)簽：學(xué)術(shù)基準(zhǔn) 較舊

只包含英語的語音數(shù)據(jù)。最近一次被使用是百度的深度語音論文。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

標(biāo)簽：學(xué)術(shù)基準(zhǔn)

有聲圖書數(shù)據(jù)集，包含文字和語音。接近 500 個(gè)小時(shí)的清楚語音，來自于多名朗讀者和多個(gè)有聲讀物，根據(jù)圖書章節(jié)來組織。

地址：http://www.openslr.org/12/

VoxForge

標(biāo)簽：實(shí)用學(xué)術(shù)基準(zhǔn)

帶口音英語的清晰語音數(shù)據(jù)集。如果你需要有強(qiáng)大的不同口音、語調(diào)識別能力，會(huì)比較有用。

地址：http://www.voxforge.org/

TIMIT

標(biāo)簽：學(xué)術(shù)基準(zhǔn) 經(jīng)典

只含英語的語音識別數(shù)據(jù)集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME

標(biāo)簽：實(shí)用

含大量噪音的語音識別挑戰(zhàn)杯數(shù)據(jù)集。它包含真實(shí)、模擬和清晰的錄音：真實(shí)，是因?yàn)樵摂?shù)據(jù)集包含四個(gè)說話對象在四個(gè)不同吵鬧環(huán)境下接近 9000 段的錄音；模擬，是通過把多個(gè)環(huán)境與語音結(jié)合來生成；清晰，是指沒有噪音的清楚錄音。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

標(biāo)簽：無

TED 演講的音頻轉(zhuǎn)錄。包含 1495 場 TED 演講，以及它們的完整字幕文本。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

其他

語音合成

1-HTS：HMM-based Speech Synthesis System (HTS)?

2-Wavenet，Google的大殺器，后邊打算單獨(dú)寫文介紹

語音識別

1-HTK

2-Kaldi

3-Juicer

4-Julius

語音增強(qiáng)

1-Loizou教授, 主要貢獻(xiàn)在于從聽覺上把握/分析/優(yōu)化語音增強(qiáng)，工作做的比較細(xì)

2-I. Cohen,此人灌水了一大批文章，看他的文章抓住一點(diǎn)就行了， speech presence probability, 說水是比較而言，此人算是高手了

3-Y.Ephraim，此人大牛，可以說開啟/總結(jié) 了語音增強(qiáng)的三個(gè)方向，statiscial model based, HMM training based, subspace based.?

4-R.Martin，主要貢獻(xiàn)在于noise power estimation 和 super-Guassian model based speech enhancement?

其他：

1）手機(jī) 音頻延遲測試：http://superpowered.com/latency

2）語音課程：

　　a)課件：http://llcao.net/cu-deeplearning17/schedule.html

　　b)有視頻：https://telecombcn-dl.github.io/2017-dlsl/

3）Hinton-deep_learning課程：https://www.youtube.com/watch?v=cbeTc-Urqak&list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9

4）NLP，stanford講義：https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

https://web.stanford.edu/~jurafsky/slp3/

NLP方向：http://web.stanford.edu/class/cs224s/

參考：

http://www.cnblogs.com/AriesQt/articles/6742721.html

轉(zhuǎn)載于:https://www.cnblogs.com/xingshansi/p/6819532.html

總結(jié)

以上是生活随笔為你收集整理的常用音频数据库记录的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：出差第一天
下一篇： Host 'XXX' is not al

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

常用音频数据库记录

WikiText

Question Pairs

CMU Q/A Dataset

Billion Words

Common Crawl

bAbi

20 Newsgroups

Reuters

語音

LibriSpeech

CHIME

TED-LIUM

總結(jié)