语音识别发展史与入门书籍简介
概述
雖然現(xiàn)在的語(yǔ)音識(shí)別中,DL已經(jīng)應(yīng)用的非常廣泛了,但是語(yǔ)音識(shí)別終究還是有一些領(lǐng)域知識(shí)的,將之歸類(lèi)為DL或者M(jìn)L,似乎都不妥當(dāng)。特形成本系列文章,用以描述automatic speech recognition的領(lǐng)域知識(shí)和傳統(tǒng)方法。
說(shuō)起來(lái)還是要感謝DL,不然按照傳統(tǒng)的行業(yè)劃分,幾乎不會(huì)有人同時(shí)研究CV和ASR。DL的出現(xiàn),實(shí)際上大大降低了算法的領(lǐng)域遷移成本,領(lǐng)域知識(shí)的重要性相對(duì)下降了。
歷史
早在電子計(jì)算機(jī)出現(xiàn)之前,人們就有了讓機(jī)器識(shí)別語(yǔ)音的夢(mèng)想。1920年生產(chǎn)的“Radio Rex”玩具狗可能是世界上最早的語(yǔ)音識(shí)別器,當(dāng)有人喊“Rex”的時(shí)候,這只狗能夠從底座上彈出來(lái)。
但實(shí)際上它所用到的技術(shù)并不是真正的語(yǔ)音識(shí)別,而是通過(guò)一個(gè)彈簧,這個(gè)彈簧在接收到500赫茲的聲音時(shí)會(huì)自動(dòng)釋放,而500赫茲恰好是人們喊出“Rex”中元音的第一個(gè)共振峰。
學(xué)校
SR領(lǐng)域最牛的高校主要是美國(guó)的CMU、Johns Hopkins University、英國(guó)的Cambridge University和日本的東京大學(xué)。
書(shū)籍
《Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition》,Daniel Jurafsky & James H. Martin著。
Daniel Jurafsky,1962年生,UCB本科(1983)+博士(1992)。斯坦福大學(xué)教授。?
個(gè)人主頁(yè):?
https://web.stanford.edu/~jurafsky/
James H. Martin,哥倫比亞大學(xué)本科+UCB博士。University of Colorado Boulder教授。?
個(gè)人主頁(yè):?
http://www.cs.colorado.edu/~martin/
這本書(shū)比較老了(1999年),但畢竟是本1000頁(yè)左右的書(shū),傳統(tǒng)方法該說(shuō)的基本都說(shuō)了。主要問(wèn)題在于NLP和語(yǔ)義學(xué)的內(nèi)容較多,相對(duì)來(lái)說(shuō)ASR的內(nèi)容就少了些。
這本書(shū)在2008年出了第2版(改動(dòng)較小),如今第3版也在醞釀中,草稿可在如下網(wǎng)頁(yè)獲得:
https://web.stanford.edu/~jurafsky/slp3/
新版大幅增加了深度學(xué)習(xí)的內(nèi)容。
《Spoken Language Processing-A Guide to Theory, Algorithm and System Development》,黃學(xué)東等著。
這本書(shū)基本上是ASR傳統(tǒng)方法的大全了,無(wú)論理論還是工程實(shí)踐都有相當(dāng)大的篇幅,但也有些老了(2001年)。
《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》,俞棟、鄧力著。
這本書(shū)算是中文寫(xiě)的比較好的教程了,而且DL的篇幅很大,內(nèi)容非常新。(2016年)
教程
http://tts.speech.cs.cmu.edu/courses/11492/schedule.html
Speech Processing。CMU的這個(gè)教程主要包含ASR(Automatic Speech Recognition)、TTS(Text To Speech)和SDS(Spoken Dialog Systems)等三方面的內(nèi)容。
Alan W Black,蘇格蘭計(jì)算機(jī)科學(xué)家。Coventry University本科(1984)+University of Edinburgh碩博(1984,1993)。CMU教授。語(yǔ)音處理專(zhuān)家。?
個(gè)人主頁(yè):?
http://www.cs.cmu.edu/~awb/?
他的主頁(yè)上有好多Speech、NLP方面的教程。他本人長(zhǎng)得太像Java之父James Gosling了。
http://web.stanford.edu/class/cs224s/index.html
CS224S / LINGUIST285 - Spoken Language Processing。Stanford的教程相對(duì)比較新,DL涉及的比較多。
http://www.inf.ed.ac.uk/teaching/courses/asr/index.html
Automatic Speech Recognition。這個(gè)課程至少?gòu)?012年就開(kāi)始了,每年都有更新。
http://speech.ee.ntu.edu.tw/DSP2018Spring/
國(guó)立臺(tái)灣大學(xué)李琳山教授的課程。
李琳山,國(guó)立臺(tái)灣大學(xué)本科(1974)+Stanford博士(1977)。國(guó)立臺(tái)灣大學(xué)教授。
http://www.cs.cmu.edu/afs/cs/user/bhiksha/WWW/courses/11-756.asr/spring2014/
Theory and practice of speech recognition systems。CMU的Bhiksha Raj教授的課程,只有ASR的內(nèi)容。
順便說(shuō)一句,Bhiksha Raj的主頁(yè)上還有好多其他課程。
https://cs.nyu.edu/~eugenew/asr13/
這是MIT博士Eugene Weinstein在NYU當(dāng)助教的時(shí)候(2013年)開(kāi)的課程。
http://berlin.csie.ntnu.edu.tw/Courses/Speech%20Processing/Speech%20Processing_Main_2016S.htm
Speech Processing。國(guó)立臺(tái)灣師范大學(xué)的陳柏琳教授的課程。陳教授教學(xué)多年,主頁(yè)上還有好多其他課程。
https://www.isip.piconepress.com/courses/msstate/ece_8463/lectures/current/index.html
Mississippi State University:ECE 8463: fundamentals of speech recognition
https://www.isip.piconepress.com/courses/msstate/ece_7000_speech/index.html
ECE 8000: special topics in speech recognition
https://www.isip.piconepress.com/courses/msstate/ece_8990_info/index.html
ECE 8990: Information Theory。這門(mén)課偏重?cái)?shù)學(xué)理論,包括Entropy、Markov Processes、Kolmogorov Complexity等內(nèi)容,適合用于補(bǔ)數(shù)學(xué)基礎(chǔ)。
http://courses.cs.tamu.edu/rgutier/csce630_f14/
CSCE 630: Speech Processing
http://courses.cs.tamu.edu/rgutier/cpsc689_s07/
CPSC 689-604: Special topics in Speech and Face Recognition
https://mp.weixin.qq.com/s/oaOkla9gnUKr2C6PSjE2BA
語(yǔ)音識(shí)別中的End-to-End模型教程(附178頁(yè)P(yáng)DF全文下載)
https://mp.weixin.qq.com/s/i7JaDoU2L7uRYsw8FTR3jA
語(yǔ)音研究進(jìn)階指南
blog
http://www.cnblogs.com/welen/
https://blog.csdn.net/weiqiwu1986
上面兩個(gè)都是welen的blog,而且內(nèi)容貌似還不重復(fù)。。。
http://blog.csdn.net/xmdxcsj
一個(gè)語(yǔ)音識(shí)別的blog
https://blog.csdn.net/shichaog
一個(gè)語(yǔ)音識(shí)別+Kaldi的blog
https://blog.csdn.net/quhediegooo/
一個(gè)語(yǔ)音識(shí)別的blog
https://blog.csdn.net/dearwind153/article/category/6506891
這哥們的blog很雜,這是語(yǔ)音相關(guān)的專(zhuān)欄
http://www.cnblogs.com/JarvanWang/
一個(gè)語(yǔ)音識(shí)別+Kaldi的blog
https://www.zhihu.com/question/65516424
語(yǔ)音識(shí)別kaldi該如何學(xué)習(xí)?
http://vsooda.github.io/archive/
一個(gè)語(yǔ)音識(shí)別+DL的blog
https://zhuanlan.zhihu.com/codingmath
一個(gè)語(yǔ)音識(shí)別的blog
https://blog.csdn.net/jojozhangju
一個(gè)Kaldi+聲源定位的blog
項(xiàng)目
https://en.wikipedia.org/wiki/List_of_speech_recognition_software
List of speech recognition software
https://mp.weixin.qq.com/s/LsVhMaHrh8JgfpDra6KSPw
橫向?qū)Ρ?大開(kāi)源語(yǔ)音識(shí)別工具包
https://github.com/lingochamp/kaldi-ctc
英語(yǔ)流利說(shuō)開(kāi)源的kaldi-ctc
https://zhuanlan.zhihu.com/p/23177950
kaldi-ctc: CTC End-to-End ASR
https://mp.weixin.qq.com/s/VkKFQ0fOOHJw0p7Z4EDugQ
絕佳的ASR學(xué)習(xí)方案:這是一套開(kāi)源的中文語(yǔ)音識(shí)別系統(tǒng)
HTK
Hidden Markov Model Toolkit是Cambridge University開(kāi)發(fā)的語(yǔ)音識(shí)別的工具包。它是GMM-HMM時(shí)代最為流行的語(yǔ)音識(shí)別工具,但近來(lái)流行度不如Kaldi。
官網(wǎng):
http://htk.eng.cam.ac.uk/
HTK Book不僅是使用手冊(cè),也是一本介紹原理的書(shū)。
http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf
CMU Sphinx
CMU Sphinx是李開(kāi)復(fù)的博士課題項(xiàng)目,后來(lái)成為了CMU的長(zhǎng)期項(xiàng)目。洪小文、黃學(xué)東也先后參與過(guò)。該項(xiàng)目比較早的將HMM應(yīng)用于語(yǔ)音識(shí)別,這在當(dāng)時(shí)算是一個(gè)重大創(chuàng)新。
李開(kāi)復(fù),1961年生,Columbia University本科(1983)+CMU博士(1988)。先后供職于Apple、SGI、Microsoft、Google。現(xiàn)為創(chuàng)新工場(chǎng)董事長(zhǎng)。
洪小文,1963年生,臺(tái)灣大學(xué)本科+CMU博士。先后供職于Apple、Microsoft,現(xiàn)為微軟亞洲研究院院長(zhǎng)。
黃學(xué)東,1962年生,湖南大學(xué)本科(1982)+清華大學(xué)碩士(1984)+University of Edinburgh博士(1989)。現(xiàn)為微軟首席語(yǔ)音科學(xué)家。
Raj Reddy,1937年生,印度裔美國(guó)計(jì)算機(jī)科學(xué)家。印度University of Madras本科(1958)+澳大利亞University of New South Wales碩士(1960)+Stanford University博士。CMU教授,首位亞裔圖靈獎(jiǎng)得主(1994)。?
他還是印度Rajiv Gandhi University of Knowledge Technologies創(chuàng)始人和International Institute of Information Technology, Hyderabad主席。?
他是李開(kāi)復(fù)、洪小文的博士導(dǎo)師,黃學(xué)東的博士后導(dǎo)師。
官網(wǎng):
https://cmusphinx.github.io/
注意:還有一個(gè)類(lèi)似Elasticsearch的文本搜索引擎也叫Sphinx。它的官網(wǎng)是:
http://sphinxsearch.com/
SPTK
The Speech Signal Processing Toolkit是日本的幾個(gè)科學(xué)家開(kāi)發(fā)的語(yǔ)音識(shí)別工具庫(kù)。
官網(wǎng):
http://sp-tk.sourceforge.net/
Julius
Julius是另一個(gè)日本人開(kāi)發(fā)的語(yǔ)音識(shí)別工具庫(kù)。
官網(wǎng):
http://julius.osdn.jp/en_index.php
HTS
HMM/DNN-based Speech Synthesis System也是日本人開(kāi)發(fā)的工具庫(kù),主要用于語(yǔ)音合成。
官網(wǎng):
http://hts.sp.nitech.ac.jp
Praat
Praat是一款跨平臺(tái)的多功能語(yǔ)音學(xué)專(zhuān)業(yè)軟件,由University of Amsterdam的Paul Boersma和David Weenink開(kāi)發(fā)。主要用于對(duì)數(shù)字化的語(yǔ)音信號(hào)進(jìn)行分析、標(biāo)注、處理及合成等實(shí)驗(yàn),同時(shí)生成各種語(yǔ)圖和文字報(bào)表。
官網(wǎng):
http://www.fon.hum.uva.nl/praat/
公司
http://www.aispeech.com/
思必馳
http://www.soundai.com/
聲智科技。偏重于語(yǔ)音信號(hào)處理。
https://zhuanlan.zhihu.com/chenxl
聲智科技創(chuàng)始人陳孝良的專(zhuān)欄
數(shù)據(jù)集
http://www.speech.cs.cmu.edu/databases/an4/
The CMU Audio Databases。這個(gè)數(shù)據(jù)集非常老了(1991年),只有64M。
http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
TensorFlow提供的Speech Commands Datasets
還有相關(guān)的工具:
https://github.com/petewarden/extract_loudest_section
抽取一段wav文件中聲音最大的那部分
https://www.kaggle.com/davids1992/speech-representation-and-data-exploration/notebook
包含對(duì)Speech Commands Datasets的數(shù)據(jù)處理過(guò)程的blog
https://catalog.ldc.upenn.edu/LDC93S1
TIMIT數(shù)據(jù)集(收費(fèi))
https://mp.weixin.qq.com/s/w9_D1_VVhk9md4RANaipDg
Mozilla開(kāi)源語(yǔ)音識(shí)別模型和世界第二大語(yǔ)音數(shù)據(jù)集
http://www.voxforge.org/
VoxForge是一個(gè)非常活躍的眾包語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)和經(jīng)過(guò)訓(xùn)練的模型庫(kù)
http://pan.baidu.com/s/1dEhUghz
清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)研究中心(CSLT)公開(kāi)的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集除了包含thchs30之外,還包含了其他幾個(gè)小語(yǔ)種的數(shù)據(jù)集。
http://cn-mirror.openslr.org/18/
單獨(dú)的thchs30數(shù)據(jù)集
http://blog.csdn.net/sut_wj/article/details/70662181
THCHS-30:一個(gè)免費(fèi)的中文語(yǔ)料庫(kù)
http://cn-mirror.openslr.org/33/
AISHELL數(shù)據(jù)庫(kù)是THCHS-30之后,目前中文語(yǔ)音數(shù)據(jù)開(kāi)源最大的數(shù)據(jù)庫(kù)。
它是由北京希爾貝殼科技有限公司(http://www.aishelltech.com)錄制的中文普通話數(shù)據(jù)。由400名來(lái)自不同方言區(qū)的發(fā)音人錄制,男女比例均衡。按照設(shè)計(jì)好的文本,在相對(duì)安靜環(huán)境中使用手機(jī)(Android和IOS系統(tǒng))錄制格式為16kHz、16bit單聲道數(shù)據(jù)和高保真麥克風(fēng)錄制格式為44.1kHz、16bit單聲道數(shù)據(jù)同時(shí)采集。
http://www.aishelltech.com/aishell_2
AISHELL-2的數(shù)據(jù)規(guī)模達(dá)到1000小時(shí)和更優(yōu)秀的系統(tǒng)級(jí)recipe。數(shù)據(jù)目前以硬盤(pán)和網(wǎng)盤(pán)形式免費(fèi)開(kāi)放給高校科研教育機(jī)構(gòu)。商用似乎還是要錢(qián)的。
另外本人還開(kāi)設(shè)了個(gè)人公眾號(hào):JiandaoStudio ,會(huì)在公眾號(hào)內(nèi)定期發(fā)布行業(yè)信息,以及各類(lèi)免費(fèi)代碼、書(shū)籍、大師課程資源。
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
掃碼關(guān)注本人微信公眾號(hào),有驚喜奧!公眾號(hào)每天定時(shí)發(fā)送精致文章!回復(fù)關(guān)鍵詞可獲得海量各類(lèi)編程開(kāi)發(fā)學(xué)習(xí)資料!
例如:想獲得Python入門(mén)至精通學(xué)習(xí)資料,請(qǐng)回復(fù)關(guān)鍵詞Python即可。
總結(jié)
以上是生活随笔為你收集整理的语音识别发展史与入门书籍简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数字人正走进现实!AI大脑+高颜值
- 下一篇: java的类是什么_java类是什么意思