日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

常用音频数据库记录

發布時間:2025/7/14 数据库 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 常用音频数据库记录 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

記錄一下常用的數據庫。

  • TIMIT
    也忘記當時從哪下的了,網上也沒看到好一點的鏈接。
    TIMIT全稱The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州儀器(TI)、麻省理工學院(MIT)和坦福研究院(SRI)合作構建的聲學-音素連續語音語料庫。TIMIT數據集的語音采樣頻率為16kHz,一共包含6300個句子,由來自美國八個主要方言地區的630個人每人說出給定的10個句子,所有的句子都在音素級別(phone level)上進行了手動分割,標記。70%的說話人是男性;大多數說話者是成年白人。
  • THCHS30
    THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang這幾位大神發布的開放語音數據集,可用于開發中文語音識別系統。
  • CSTR VCTK Corpus?

Google Wavenet用到的數據庫。
This CSTR VCTK Corpus includes speech data uttered by 109 native speakers of English with various accents. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

All speech data was recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, were downsampled to 48 kHz based on STPK, and were manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies.

  • VoxForge(開源的識別庫)

VoxForge創建的初衷是為免費和開源的語音識別引擎收集標注錄音(在Linux/Unix,Windows以及Mac平臺上)。
我們以GPL協議開放所有提交的錄音文件,并制作聲學模型,以供開源語音識別引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分發限制)。

  • OpenSL

OpenSLR是一個有聲書數據集。

OpenSLR is a site devoted to hosting speech and language resources, such as training corpora for speech recognition, and software related to speech recognition. We intend to be a convenient place for anyone to put resources that they have created, so that they can be downloaded publicly.

其他:

來自論文?Zhang et al., 2015。這是有八個文字分類數據集組成的大型數據庫。對于新的文字分類基準,它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問題。來自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數據集。

地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

標簽:實用 學術基準

源自高品質維基百科文章的大型語言建模語料庫。Salesforce MetaMind 維護。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

標簽:實用

Quora 發布的第一個數據集,包含副本/語義近似值標記。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

標簽:實用 學術基準

斯坦福的問答社區數據集——適用范圍較廣的問題回答和閱讀理解數據集。每一個回答都被作為一個 span,或者一段文本。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

標簽:無

人工創建的仿真陳述問題/回答組合,還有維基百科文章的難度評分。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

標簽:實用

為 NLP 研究人工創建的復雜數據集。

地址:https://datasets.maluuba.com/

Billion Words

標簽:實用 學術基準

大型、通用型建模數據集。時常用來訓練散布音(distributed)的詞語表達,比如 word2vec 或 ?GloVe。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl

標簽:實用 學術基準

PB(拍字節)級別的網絡爬蟲。最經常被用來學習詞語嵌入。可從 Amazon S3 免費獲取。對于 WWW 萬維網的信息采集,是一個比較有用的網絡數據集。

地址:http://commoncrawl.org/the-data/

bAbi

標簽:學術基準?經典

Facebook AI Research (FAIR) 推出的合成閱讀理解和問題回答數據集。

地址:https://research.fb.com/projects/babi/

The Children's Book Test

標簽:學術基準

Project Gutenberg(一項正版數字圖書免費分享工程)兒童圖書里提取的成對數據(問題加情境,回答)基準。對問答、閱讀理解、仿真陳述(factoid)查詢比較有用。

地址:https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

標簽:學術基準 經典 較舊

標準的情緒數據集,對每一句話每一個節點的語法樹,都有細致的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

標簽:經典 較舊

一個較經典的文本分類數據集。通常作為純粹分類或者對 IR / indexing 算法驗證的基準,在這方面比較有用。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters

標簽:經典 較舊

較老的、基于純粹分類的數據集。文本來自于路透社新聞專線。常被用于教程之中。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

?IMDB

標簽:經典 較舊

較老的、相對比較小的數據集。用于情緒分類。但在文學基準方面逐漸失寵,讓位于更大的數據集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

標簽:經典 較舊

較老的、經典垃圾郵件數據集,源自于 UCI Machine Learning Repository。由于數據集的管理細節,在學習私人訂制垃圾信息過濾方面,這會是一個有趣的基準。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

語音

大多數語音識別數據庫都是專有的——這些數據對其所有公司而言有巨大價值。絕大部分該領域的公共數據集已經很老了。

2000 HUB5 English

標簽:學術基準 較舊

只包含英語的語音數據。最近一次被使用是百度的深度語音論文。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

標簽:學術基準

有聲圖書數據集,包含文字和語音。接近 500 個小時的清楚語音,來自于多名朗讀者和多個有聲讀物,根據圖書章節來組織。

地址:http://www.openslr.org/12/

VoxForge

標簽:實用 學術基準

帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力,會比較有用。

地址:http://www.voxforge.org/

TIMIT

標簽:學術基準 經典

只含英語的語音識別數據集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

標簽:實用

含大量噪音的語音識別挑戰杯數據集。它包含真實、模擬和清晰的錄音:真實,是因為該數據集包含四個說話對象在四個不同吵鬧環境下接近 9000 段的錄音;模擬,是通過把多個環境與語音結合來生成;清晰,是指沒有噪音的清楚錄音。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

標簽:無

TED 演講的音頻轉錄。包含 1495 場 TED 演講,以及它們的完整字幕文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

?

其他

  • 語音合成

1-HTS:HMM-based Speech Synthesis System (HTS)?

2-Wavenet,Google的大殺器,后邊打算單獨寫文介紹

  • 語音識別

1-HTK

2-Kaldi

3-Juicer

4-Julius

  • 語音增強

1-Loizou教授, 主要貢獻在于從聽覺上把握/分析/優化 語音增強, 工作做的比較細

2-I. Cohen,此人灌水了一大批文章, 看他的文章抓住一點就行了, speech presence probability, 說水是比較而言,此人算是高手了

3-Y.Ephraim, 此人大牛, 可以說開啟/總結 了語音增強的三個方向,statiscial model based, HMM training based, subspace based.?

4-R.Martin,主要貢獻在于noise power estimation 和 super-Guassian model based speech enhancement?

?

其他:

1)手機 音頻延遲測試:http://superpowered.com/latency

2)語音課程:

  a)課件:http://llcao.net/cu-deeplearning17/schedule.html

  b)有視頻:https://telecombcn-dl.github.io/2017-dlsl/

3)Hinton-deep_learning課程:https://www.youtube.com/watch?v=cbeTc-Urqak&list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9

4)NLP,stanford講義:https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

https://web.stanford.edu/~jurafsky/slp3/

NLP方向:http://web.stanford.edu/class/cs224s/

?

參考:

http://www.cnblogs.com/AriesQt/articles/6742721.html

轉載于:https://www.cnblogs.com/xingshansi/p/6819532.html

總結

以上是生活随笔為你收集整理的常用音频数据库记录的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。