日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音识别发展史与入门书籍简介

發(fā)布時(shí)間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语音识别发展史与入门书籍简介 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

概述

雖然現(xiàn)在的語(yǔ)音識(shí)別中,DL已經(jīng)應(yīng)用的非常廣泛了,但是語(yǔ)音識(shí)別終究還是有一些領(lǐng)域知識(shí)的,將之歸類(lèi)為DL或者M(jìn)L,似乎都不妥當(dāng)。特形成本系列文章,用以描述automatic speech recognition的領(lǐng)域知識(shí)和傳統(tǒng)方法。

說(shuō)起來(lái)還是要感謝DL,不然按照傳統(tǒng)的行業(yè)劃分,幾乎不會(huì)有人同時(shí)研究CV和ASR。DL的出現(xiàn),實(shí)際上大大降低了算法的領(lǐng)域遷移成本,領(lǐng)域知識(shí)的重要性相對(duì)下降了。

歷史

早在電子計(jì)算機(jī)出現(xiàn)之前,人們就有了讓機(jī)器識(shí)別語(yǔ)音的夢(mèng)想。1920年生產(chǎn)的“Radio Rex”玩具狗可能是世界上最早的語(yǔ)音識(shí)別器,當(dāng)有人喊“Rex”的時(shí)候,這只狗能夠從底座上彈出來(lái)。

但實(shí)際上它所用到的技術(shù)并不是真正的語(yǔ)音識(shí)別,而是通過(guò)一個(gè)彈簧,這個(gè)彈簧在接收到500赫茲的聲音時(shí)會(huì)自動(dòng)釋放,而500赫茲恰好是人們喊出“Rex”中元音的第一個(gè)共振峰。

學(xué)校

SR領(lǐng)域最牛的高校主要是美國(guó)的CMU、Johns Hopkins University、英國(guó)的Cambridge University和日本的東京大學(xué)。

書(shū)籍

《Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition》,Daniel Jurafsky & James H. Martin著。

Daniel Jurafsky,1962年生,UCB本科(1983)+博士(1992)。斯坦福大學(xué)教授。?
個(gè)人主頁(yè):?
https://web.stanford.edu/~jurafsky/

James H. Martin,哥倫比亞大學(xué)本科+UCB博士。University of Colorado Boulder教授。?
個(gè)人主頁(yè):?
http://www.cs.colorado.edu/~martin/

這本書(shū)比較老了(1999年),但畢竟是本1000頁(yè)左右的書(shū),傳統(tǒng)方法該說(shuō)的基本都說(shuō)了。主要問(wèn)題在于NLP和語(yǔ)義學(xué)的內(nèi)容較多,相對(duì)來(lái)說(shuō)ASR的內(nèi)容就少了些。

這本書(shū)在2008年出了第2版(改動(dòng)較小),如今第3版也在醞釀中,草稿可在如下網(wǎng)頁(yè)獲得:

https://web.stanford.edu/~jurafsky/slp3/

新版大幅增加了深度學(xué)習(xí)的內(nèi)容。

《Spoken Language Processing-A Guide to Theory, Algorithm and System Development》,黃學(xué)東等著。

這本書(shū)基本上是ASR傳統(tǒng)方法的大全了,無(wú)論理論還是工程實(shí)踐都有相當(dāng)大的篇幅,但也有些老了(2001年)。

《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》,俞棟、鄧力著。

這本書(shū)算是中文寫(xiě)的比較好的教程了,而且DL的篇幅很大,內(nèi)容非常新。(2016年)

教程

http://tts.speech.cs.cmu.edu/courses/11492/schedule.html

Speech Processing。CMU的這個(gè)教程主要包含ASR(Automatic Speech Recognition)、TTS(Text To Speech)和SDS(Spoken Dialog Systems)等三方面的內(nèi)容。

Alan W Black,蘇格蘭計(jì)算機(jī)科學(xué)家。Coventry University本科(1984)+University of Edinburgh碩博(1984,1993)。CMU教授。語(yǔ)音處理專(zhuān)家。?
個(gè)人主頁(yè):?
http://www.cs.cmu.edu/~awb/?
他的主頁(yè)上有好多Speech、NLP方面的教程。他本人長(zhǎng)得太像Java之父James Gosling了。

http://web.stanford.edu/class/cs224s/index.html

CS224S / LINGUIST285 - Spoken Language Processing。Stanford的教程相對(duì)比較新,DL涉及的比較多。

http://www.inf.ed.ac.uk/teaching/courses/asr/index.html

Automatic Speech Recognition。這個(gè)課程至少?gòu)?012年就開(kāi)始了,每年都有更新。

http://speech.ee.ntu.edu.tw/DSP2018Spring/

國(guó)立臺(tái)灣大學(xué)李琳山教授的課程。

李琳山,國(guó)立臺(tái)灣大學(xué)本科(1974)+Stanford博士(1977)。國(guó)立臺(tái)灣大學(xué)教授。

http://www.cs.cmu.edu/afs/cs/user/bhiksha/WWW/courses/11-756.asr/spring2014/

Theory and practice of speech recognition systems。CMU的Bhiksha Raj教授的課程,只有ASR的內(nèi)容。

順便說(shuō)一句,Bhiksha Raj的主頁(yè)上還有好多其他課程。

https://cs.nyu.edu/~eugenew/asr13/

這是MIT博士Eugene Weinstein在NYU當(dāng)助教的時(shí)候(2013年)開(kāi)的課程。

http://berlin.csie.ntnu.edu.tw/Courses/Speech%20Processing/Speech%20Processing_Main_2016S.htm

Speech Processing。國(guó)立臺(tái)灣師范大學(xué)的陳柏琳教授的課程。陳教授教學(xué)多年,主頁(yè)上還有好多其他課程。

https://www.isip.piconepress.com/courses/msstate/ece_8463/lectures/current/index.html

Mississippi State University:ECE 8463: fundamentals of speech recognition

https://www.isip.piconepress.com/courses/msstate/ece_7000_speech/index.html

ECE 8000: special topics in speech recognition

https://www.isip.piconepress.com/courses/msstate/ece_8990_info/index.html

ECE 8990: Information Theory。這門(mén)課偏重?cái)?shù)學(xué)理論,包括Entropy、Markov Processes、Kolmogorov Complexity等內(nèi)容,適合用于補(bǔ)數(shù)學(xué)基礎(chǔ)。

http://courses.cs.tamu.edu/rgutier/csce630_f14/

CSCE 630: Speech Processing

http://courses.cs.tamu.edu/rgutier/cpsc689_s07/

CPSC 689-604: Special topics in Speech and Face Recognition

https://mp.weixin.qq.com/s/oaOkla9gnUKr2C6PSjE2BA

語(yǔ)音識(shí)別中的End-to-End模型教程(附178頁(yè)P(yáng)DF全文下載)

https://mp.weixin.qq.com/s/i7JaDoU2L7uRYsw8FTR3jA

語(yǔ)音研究進(jìn)階指南

blog

http://www.cnblogs.com/welen/

https://blog.csdn.net/weiqiwu1986

上面兩個(gè)都是welen的blog,而且內(nèi)容貌似還不重復(fù)。。。

http://blog.csdn.net/xmdxcsj

一個(gè)語(yǔ)音識(shí)別的blog

https://blog.csdn.net/shichaog

一個(gè)語(yǔ)音識(shí)別+Kaldi的blog

https://blog.csdn.net/quhediegooo/

一個(gè)語(yǔ)音識(shí)別的blog

https://blog.csdn.net/dearwind153/article/category/6506891

這哥們的blog很雜,這是語(yǔ)音相關(guān)的專(zhuān)欄

http://www.cnblogs.com/JarvanWang/

一個(gè)語(yǔ)音識(shí)別+Kaldi的blog

https://www.zhihu.com/question/65516424

語(yǔ)音識(shí)別kaldi該如何學(xué)習(xí)?

http://vsooda.github.io/archive/

一個(gè)語(yǔ)音識(shí)別+DL的blog

https://zhuanlan.zhihu.com/codingmath

一個(gè)語(yǔ)音識(shí)別的blog

https://blog.csdn.net/jojozhangju

一個(gè)Kaldi+聲源定位的blog

項(xiàng)目

https://en.wikipedia.org/wiki/List_of_speech_recognition_software

List of speech recognition software

https://mp.weixin.qq.com/s/LsVhMaHrh8JgfpDra6KSPw

橫向?qū)Ρ?大開(kāi)源語(yǔ)音識(shí)別工具包

https://github.com/lingochamp/kaldi-ctc

英語(yǔ)流利說(shuō)開(kāi)源的kaldi-ctc

https://zhuanlan.zhihu.com/p/23177950

kaldi-ctc: CTC End-to-End ASR

https://mp.weixin.qq.com/s/VkKFQ0fOOHJw0p7Z4EDugQ

絕佳的ASR學(xué)習(xí)方案:這是一套開(kāi)源的中文語(yǔ)音識(shí)別系統(tǒng)

HTK

Hidden Markov Model Toolkit是Cambridge University開(kāi)發(fā)的語(yǔ)音識(shí)別的工具包。它是GMM-HMM時(shí)代最為流行的語(yǔ)音識(shí)別工具,但近來(lái)流行度不如Kaldi。

官網(wǎng):

http://htk.eng.cam.ac.uk/

HTK Book不僅是使用手冊(cè),也是一本介紹原理的書(shū)。

http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf

CMU Sphinx

CMU Sphinx是李開(kāi)復(fù)的博士課題項(xiàng)目,后來(lái)成為了CMU的長(zhǎng)期項(xiàng)目。洪小文、黃學(xué)東也先后參與過(guò)。該項(xiàng)目比較早的將HMM應(yīng)用于語(yǔ)音識(shí)別,這在當(dāng)時(shí)算是一個(gè)重大創(chuàng)新。

李開(kāi)復(fù),1961年生,Columbia University本科(1983)+CMU博士(1988)。先后供職于Apple、SGI、Microsoft、Google。現(xiàn)為創(chuàng)新工場(chǎng)董事長(zhǎng)。

洪小文,1963年生,臺(tái)灣大學(xué)本科+CMU博士。先后供職于Apple、Microsoft,現(xiàn)為微軟亞洲研究院院長(zhǎng)。

黃學(xué)東,1962年生,湖南大學(xué)本科(1982)+清華大學(xué)碩士(1984)+University of Edinburgh博士(1989)。現(xiàn)為微軟首席語(yǔ)音科學(xué)家。

Raj Reddy,1937年生,印度裔美國(guó)計(jì)算機(jī)科學(xué)家。印度University of Madras本科(1958)+澳大利亞University of New South Wales碩士(1960)+Stanford University博士。CMU教授,首位亞裔圖靈獎(jiǎng)得主(1994)。?
他還是印度Rajiv Gandhi University of Knowledge Technologies創(chuàng)始人和International Institute of Information Technology, Hyderabad主席。?
他是李開(kāi)復(fù)、洪小文的博士導(dǎo)師,黃學(xué)東的博士后導(dǎo)師。

官網(wǎng):

https://cmusphinx.github.io/

注意:還有一個(gè)類(lèi)似Elasticsearch的文本搜索引擎也叫Sphinx。它的官網(wǎng)是:

http://sphinxsearch.com/

SPTK

The Speech Signal Processing Toolkit是日本的幾個(gè)科學(xué)家開(kāi)發(fā)的語(yǔ)音識(shí)別工具庫(kù)。

官網(wǎng):

http://sp-tk.sourceforge.net/

Julius

Julius是另一個(gè)日本人開(kāi)發(fā)的語(yǔ)音識(shí)別工具庫(kù)。

官網(wǎng):

http://julius.osdn.jp/en_index.php

HTS

HMM/DNN-based Speech Synthesis System也是日本人開(kāi)發(fā)的工具庫(kù),主要用于語(yǔ)音合成。

官網(wǎng):

http://hts.sp.nitech.ac.jp

Praat

Praat是一款跨平臺(tái)的多功能語(yǔ)音學(xué)專(zhuān)業(yè)軟件,由University of Amsterdam的Paul Boersma和David Weenink開(kāi)發(fā)。主要用于對(duì)數(shù)字化的語(yǔ)音信號(hào)進(jìn)行分析、標(biāo)注、處理及合成等實(shí)驗(yàn),同時(shí)生成各種語(yǔ)圖和文字報(bào)表。

官網(wǎng):

http://www.fon.hum.uva.nl/praat/

公司

http://www.aispeech.com/

思必馳

http://www.soundai.com/

聲智科技。偏重于語(yǔ)音信號(hào)處理。

https://zhuanlan.zhihu.com/chenxl

聲智科技創(chuàng)始人陳孝良的專(zhuān)欄

數(shù)據(jù)集

http://www.speech.cs.cmu.edu/databases/an4/

The CMU Audio Databases。這個(gè)數(shù)據(jù)集非常老了(1991年),只有64M。

http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz

TensorFlow提供的Speech Commands Datasets

還有相關(guān)的工具:

https://github.com/petewarden/extract_loudest_section

抽取一段wav文件中聲音最大的那部分

https://www.kaggle.com/davids1992/speech-representation-and-data-exploration/notebook

包含對(duì)Speech Commands Datasets的數(shù)據(jù)處理過(guò)程的blog

https://catalog.ldc.upenn.edu/LDC93S1

TIMIT數(shù)據(jù)集(收費(fèi))

https://mp.weixin.qq.com/s/w9_D1_VVhk9md4RANaipDg

Mozilla開(kāi)源語(yǔ)音識(shí)別模型和世界第二大語(yǔ)音數(shù)據(jù)集

http://www.voxforge.org/

VoxForge是一個(gè)非常活躍的眾包語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)和經(jīng)過(guò)訓(xùn)練的模型庫(kù)

http://pan.baidu.com/s/1dEhUghz

清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)研究中心(CSLT)公開(kāi)的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集除了包含thchs30之外,還包含了其他幾個(gè)小語(yǔ)種的數(shù)據(jù)集。

http://cn-mirror.openslr.org/18/

單獨(dú)的thchs30數(shù)據(jù)集

http://blog.csdn.net/sut_wj/article/details/70662181

THCHS-30:一個(gè)免費(fèi)的中文語(yǔ)料庫(kù)

http://cn-mirror.openslr.org/33/

AISHELL數(shù)據(jù)庫(kù)是THCHS-30之后,目前中文語(yǔ)音數(shù)據(jù)開(kāi)源最大的數(shù)據(jù)庫(kù)。

它是由北京希爾貝殼科技有限公司(http://www.aishelltech.com)錄制的中文普通話數(shù)據(jù)。由400名來(lái)自不同方言區(qū)的發(fā)音人錄制,男女比例均衡。按照設(shè)計(jì)好的文本,在相對(duì)安靜環(huán)境中使用手機(jī)(Android和IOS系統(tǒng))錄制格式為16kHz、16bit單聲道數(shù)據(jù)和高保真麥克風(fēng)錄制格式為44.1kHz、16bit單聲道數(shù)據(jù)同時(shí)采集。

http://www.aishelltech.com/aishell_2

AISHELL-2的數(shù)據(jù)規(guī)模達(dá)到1000小時(shí)和更優(yōu)秀的系統(tǒng)級(jí)recipe。數(shù)據(jù)目前以硬盤(pán)和網(wǎng)盤(pán)形式免費(fèi)開(kāi)放給高校科研教育機(jī)構(gòu)。商用似乎還是要錢(qián)的。



另外本人還開(kāi)設(shè)了個(gè)人公眾號(hào):JiandaoStudio ,會(huì)在公眾號(hào)內(nèi)定期發(fā)布行業(yè)信息,以及各類(lèi)免費(fèi)代碼、書(shū)籍、大師課程資源。

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

掃碼關(guān)注本人微信公眾號(hào),有驚喜奧!公眾號(hào)每天定時(shí)發(fā)送精致文章!回復(fù)關(guān)鍵詞可獲得海量各類(lèi)編程開(kāi)發(fā)學(xué)習(xí)資料!

例如:想獲得Python入門(mén)至精通學(xué)習(xí)資料,請(qǐng)回復(fù)關(guān)鍵詞Python即可。

總結(jié)

以上是生活随笔為你收集整理的语音识别发展史与入门书籍简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。