语音识别:前言
早在計算機發(fā)明之前,自動語音識別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語音識別器,當(dāng)這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。
1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼Linear Predictive Coding (LPC), 及動態(tài)時間規(guī)整Dynamic Time Warp技術(shù)。
語音識別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴格來說語音識別技術(shù)并沒有脫離HMM框架。
盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術(shù)在目前還無法支持無限領(lǐng)域,無限說話人的聽寫機應(yīng)用。
?
上述段落摘自維基,語音識別歷史章節(jié)。
?
觸屏手機非常流行,但是在觸屏上打字很費勁。所以近期國內(nèi)外都加大了對語音識別的研究。本人對語音識別非常著迷所以希望可以借著CSDN這個人才濟濟的平臺和大家交流。
你還能回憶起剛剛接觸計算機時練習(xí)盲打嗎?那時候你是不是想過如果能通過說話代替打字該多好。當(dāng)時我就有種非常強烈的愿望要讓人們從打字中解放出來。就是這個強烈的愿望驅(qū)使我加入了程序員隊伍。因為我知道只有成為了程序員才有機會實現(xiàn)讓人們通過聲音控制計算機的夢想。
常言道機遇與挑戰(zhàn)并存。在語音識別領(lǐng)域也一樣,技術(shù)風(fēng)險非常很高:如果你有了成績可能功成名就,但是也有可能永遠默默無聞。所以我建議,而且我也是這么做的:不要在此語音識別上下注太多,合理安排時間。
我會繼續(xù)寫后續(xù)文章同大家分享這些年積累下的知識和代碼。
作為程序員把人們從打字中解放出來是我們的使命,如果這些事情我們不做那等誰來做?
總結(jié)
- 上一篇: NumPy学习笔记前言
- 下一篇: 快速批量修改文件名