语音识别:前言
早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。
1960年代,人工神經網絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間規整Dynamic Time Warp技術。
語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。
盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。
?
上述段落摘自維基,語音識別歷史章節。
?
觸屏手機非常流行,但是在觸屏上打字很費勁。所以近期國內外都加大了對語音識別的研究。本人對語音識別非常著迷所以希望可以借著CSDN這個人才濟濟的平臺和大家交流。
你還能回憶起剛剛接觸計算機時練習盲打嗎?那時候你是不是想過如果能通過說話代替打字該多好。當時我就有種非常強烈的愿望要讓人們從打字中解放出來。就是這個強烈的愿望驅使我加入了程序員隊伍。因為我知道只有成為了程序員才有機會實現讓人們通過聲音控制計算機的夢想。
常言道機遇與挑戰并存。在語音識別領域也一樣,技術風險非常很高:如果你有了成績可能功成名就,但是也有可能永遠默默無聞。所以我建議,而且我也是這么做的:不要在此語音識別上下注太多,合理安排時間。
我會繼續寫后續文章同大家分享這些年積累下的知識和代碼。
作為程序員把人們從打字中解放出來是我們的使命,如果這些事情我們不做那等誰來做?
總結
- 上一篇: NumPy学习笔记前言
- 下一篇: 快速批量修改文件名