数字语音信号处理学习笔记——绪论(2)
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。?? ?https://blog.csdn.net/u013538664/article/details/25060123
1.2.2 語音編碼
語音編碼的目的是在保證一定語音質(zhì)量的前提下,盡可能降低編碼比特率,以節(jié)省頻率資源。
????????語音編碼技術(shù)的鼻祖:
????????研究開始于1939年軍事保密通信的需要,貝爾電話實(shí)驗(yàn)室的Homer Dudley提出并實(shí)現(xiàn)了在低頻帶寬電話電報電纜上傳輸語音信號的通道聲碼器。
????????20世紀(jì)70年代:國際電聯(lián)(ITU-T,原CCITT)64kbit/s脈沖編碼調(diào)制(PCM)語音編碼算法的G.711建議,它被廣泛應(yīng)用于數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,從而占據(jù)統(tǒng)治地位。
????????1980年:美國政府公布了一種2.4kbit/s的線性預(yù)測編碼標(biāo)準(zhǔn)算法LPC-10,這使得在普通電話帶寬中傳輸數(shù)字電話成為可能。ITU-T也于20世紀(jì)80年代初著手研究低于64kbit/s的非PCM編碼算法,并于1984年通過了32kbit/s ADPCM語音編碼G.721建議,它不僅可以達(dá)到與PCM相同的語音質(zhì)量,而且具有更優(yōu)良的抗誤碼性能。1988年美國又公布了一個4.8kbit/s的碼激勵線性預(yù)測(CELP)編碼算法。與此同時,歐洲也推出了一個16kbit/s的規(guī)則脈沖激勵線性預(yù)測(RPE-LPC)編碼算法。
???????20世紀(jì)90年代:隨著因特網(wǎng)在全球范圍的興起,人們對能在網(wǎng)絡(luò)上傳輸語音的VoIP技術(shù)興趣大增,由此,IP分組語音通信技術(shù)獲得了突破性進(jìn)展和實(shí)際應(yīng)用。
???????20世紀(jì)90年代中期到現(xiàn)在,第三代移動通信技術(shù)逐漸成熟并走向商用,變速率語音編碼和帶寬語音編碼得到了迅速的發(fā)展,不斷有新的國際標(biāo)準(zhǔn)和地區(qū)標(biāo)準(zhǔn)公布。
???????語音編碼技術(shù)主要有兩個努力的方向:一是中低速率的語音編碼的實(shí)用化及如何在實(shí)用化過程中進(jìn)一步提高其抗干擾、抗噪聲能能力;另一個是如何進(jìn)一步降低其編碼速率。
1.2.3 語音識別
???????與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以往夢寐以求的事情。而語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究研究領(lǐng)域。這些領(lǐng)域包括:
???????1) 根據(jù)對說話人說話方式的要求,可以分為孤立字語音識別系統(tǒng)、連續(xù)字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)
???????2) 根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)
???????3) 根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量及無限詞匯量語音識別系統(tǒng)
???????語音識別工作開始:
???????20世紀(jì)50年代:AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個可以識別10個英語數(shù)字的語音識別系統(tǒng)。
???????1956年:RAC實(shí)驗(yàn)室的Olson等人也獨(dú)立地研制出了10個單音節(jié)詞的識別系統(tǒng),系統(tǒng)采用從帶通濾波器組獲得的 ??????????????????????頻譜參數(shù)作為語音的特征。
???????1959年:Fry和Denes等人采用頻譜分析和模式匹配進(jìn)行識別決策構(gòu)建音素識別器來辨別4個元音和9個輔音。
??????????????????????MIT林肯實(shí)驗(yàn)室采用聲道的時變估計技術(shù)研究10個元音的識別
???????20世紀(jì)60年代末:重要成果是提出了動態(tài)規(guī)劃(DP)和線性預(yù)測編碼(LPC)分析技術(shù),其中后者較好地解決 ???????????????????????????????????????了語音信號產(chǎn)生模型的問題,對整個語音識別、語音合成、語音分析、語音編碼的研究發(fā)展產(chǎn) ?????????????????????????????????????生了深遠(yuǎn)影響。
???????20世紀(jì)70年代:在理論上,LPC技術(shù)得到進(jìn)一步發(fā)展,動態(tài)時間規(guī)整(DTW)技術(shù)基本成熟,特別是提出了矢 ???????????????????????????????????量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上,首先在孤立詞識別方面,由日本學(xué)
?????????????????????????????????者Sakoe給出了使用動態(tài)規(guī)劃方法(DP)進(jìn)行語音識別的途徑——DP算法。Itakura基于語音編 ???????????????????????????????????碼中廣泛使用的LPC技術(shù),通過定義基于LPC頻譜參數(shù)的合適的距離測度,成功地將其應(yīng)用到語 ?????????????????????????????????音識別中。同時,以IBM為首的一些語音研究單位還著手開展了連續(xù)語音識別的研究。
???????20世紀(jì)70年代末到20世紀(jì)80年代初:Linda、Buzo、Gray等人解決了矢量量化碼本生成的方法,并將矢量量化成 ??????????????????????????????????????????????????????????????????功地應(yīng)用到語音編碼中,從此矢量量化技術(shù)很快被推廣應(yīng)用到其他領(lǐng)域。
???????20世紀(jì)80年代開始:語音識別研究進(jìn)一步走向深入,就是識別算法從模式匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計模型的技術(shù),更 ????????????????????????????????????????多地追求從整體統(tǒng)計的角度來建立最佳的語音識別系統(tǒng)。HMM技術(shù)就是其中的一個典型技 ??????????????????????????????????????????術(shù)。
???????20世紀(jì)80年代中期:重新開始的人工神經(jīng)網(wǎng)絡(luò)(ANN)研究,也給語音識別帶來一片新的生機(jī)。
???????20世紀(jì)90年代初期:許多發(fā)達(dá)國家如美國、日本以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統(tǒng)的 ????????????????????????????????????????實(shí)用化開發(fā)研究投以巨資。
???????如今,深度神經(jīng)網(wǎng)絡(luò)(DNN)在語音領(lǐng)域的應(yīng)用,使得語音識別性能又上了一個新的臺階。
1.3 語音信號處理過程的總體結(jié)構(gòu)
---------------------?
作者:JameJuZhang?
來源:CSDN?
原文:https://blog.csdn.net/jojozhangju/article/details/25060123?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請附上博文鏈接!
總結(jié)
以上是生活随笔為你收集整理的数字语音信号处理学习笔记——绪论(2)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: swfupload 实例 php,文件上
- 下一篇: 详解 ConcurrentHashMap