當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数字语音信号处理学习笔记——绪论（2）

發(fā)布時間：2025/3/12 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了数字语音信号处理学习笔记——绪论（2）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。?? ?https://blog.csdn.net/u013538664/article/details/25060123
1.2.2 語音編碼

語音編碼的目的是在保證一定語音質(zhì)量的前提下，盡可能降低編碼比特率，以節(jié)省頻率資源。

????????語音編碼技術(shù)的鼻祖：

????????研究開始于1939年軍事保密通信的需要，貝爾電話實(shí)驗(yàn)室的Homer Dudley提出并實(shí)現(xiàn)了在低頻帶寬電話電報電纜上傳輸語音信號的通道聲碼器。

????????20世紀(jì)70年代：國際電聯(lián)（ITU-T，原CCITT）64kbit/s脈沖編碼調(diào)制（PCM）語音編碼算法的G.711建議，它被廣泛應(yīng)用于數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域，從而占據(jù)統(tǒng)治地位。

????????1980年：美國政府公布了一種2.4kbit/s的線性預(yù)測編碼標(biāo)準(zhǔn)算法LPC-10，這使得在普通電話帶寬中傳輸數(shù)字電話成為可能。ITU-T也于20世紀(jì)80年代初著手研究低于64kbit/s的非PCM編碼算法，并于1984年通過了32kbit/s ADPCM語音編碼G.721建議，它不僅可以達(dá)到與PCM相同的語音質(zhì)量，而且具有更優(yōu)良的抗誤碼性能。1988年美國又公布了一個4.8kbit/s的碼激勵線性預(yù)測（CELP）編碼算法。與此同時，歐洲也推出了一個16kbit/s的規(guī)則脈沖激勵線性預(yù)測（RPE-LPC）編碼算法。

???????20世紀(jì)90年代：隨著因特網(wǎng)在全球范圍的興起，人們對能在網(wǎng)絡(luò)上傳輸語音的VoIP技術(shù)興趣大增，由此，IP分組語音通信技術(shù)獲得了突破性進(jìn)展和實(shí)際應(yīng)用。

???????20世紀(jì)90年代中期到現(xiàn)在，第三代移動通信技術(shù)逐漸成熟并走向商用，變速率語音編碼和帶寬語音編碼得到了迅速的發(fā)展，不斷有新的國際標(biāo)準(zhǔn)和地區(qū)標(biāo)準(zhǔn)公布。

???????語音編碼技術(shù)主要有兩個努力的方向：一是中低速率的語音編碼的實(shí)用化及如何在實(shí)用化過程中進(jìn)一步提高其抗干擾、抗噪聲能能力；另一個是如何進(jìn)一步降低其編碼速率。

1.2.3 語音識別

???????與機(jī)器進(jìn)行語音交流，讓機(jī)器明白你說什么，這是人們長期以往夢寐以求的事情。而語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。根據(jù)在不同限制條件下的研究任務(wù)，產(chǎn)生了不同的研究研究領(lǐng)域。這些領(lǐng)域包括：

???????1) 根據(jù)對說話人說話方式的要求，可以分為孤立字語音識別系統(tǒng)、連續(xù)字語音識別系統(tǒng)及連續(xù)語音識別系統(tǒng)

???????2) 根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)

???????3) 根據(jù)詞匯量大小，可以分為小詞匯量、中等詞匯量、大詞匯量及無限詞匯量語音識別系統(tǒng)

???????語音識別工作開始：

???????20世紀(jì)50年代：AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng)，它是第一個可以識別10個英語數(shù)字的語音識別系統(tǒng)。

???????1956年：RAC實(shí)驗(yàn)室的Olson等人也獨(dú)立地研制出了10個單音節(jié)詞的識別系統(tǒng)，系統(tǒng)采用從帶通濾波器組獲得的 ??????????????????????頻譜參數(shù)作為語音的特征。

???????1959年：Fry和Denes等人采用頻譜分析和模式匹配進(jìn)行識別決策構(gòu)建音素識別器來辨別4個元音和9個輔音。

??????????????????????MIT林肯實(shí)驗(yàn)室采用聲道的時變估計技術(shù)研究10個元音的識別

???????20世紀(jì)60年代末：重要成果是提出了動態(tài)規(guī)劃（DP）和線性預(yù)測編碼（LPC）分析技術(shù)，其中后者較好地解決 ???????????????????????????????????????了語音信號產(chǎn)生模型的問題，對整個語音識別、語音合成、語音分析、語音編碼的研究發(fā)展產(chǎn) ?????????????????????????????????????生了深遠(yuǎn)影響。

???????20世紀(jì)70年代：在理論上，LPC技術(shù)得到進(jìn)一步發(fā)展，動態(tài)時間規(guī)整（DTW）技術(shù)基本成熟，特別是提出了矢 ???????????????????????????????????量量化（VQ）和隱馬爾可夫模型（HMM）理論。在實(shí)踐上，首先在孤立詞識別方面，由日本學(xué)

?????????????????????????????????者Sakoe給出了使用動態(tài)規(guī)劃方法（DP）進(jìn)行語音識別的途徑——DP算法。Itakura基于語音編 ???????????????????????????????????碼中廣泛使用的LPC技術(shù)，通過定義基于LPC頻譜參數(shù)的合適的距離測度，成功地將其應(yīng)用到語 ?????????????????????????????????音識別中。同時，以IBM為首的一些語音研究單位還著手開展了連續(xù)語音識別的研究。

???????20世紀(jì)70年代末到20世紀(jì)80年代初：Linda、Buzo、Gray等人解決了矢量量化碼本生成的方法，并將矢量量化成 ??????????????????????????????????????????????????????????????????功地應(yīng)用到語音編碼中，從此矢量量化技術(shù)很快被推廣應(yīng)用到其他領(lǐng)域。

???????20世紀(jì)80年代開始：語音識別研究進(jìn)一步走向深入，就是識別算法從模式匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計模型的技術(shù)，更 ????????????????????????????????????????多地追求從整體統(tǒng)計的角度來建立最佳的語音識別系統(tǒng)。HMM技術(shù)就是其中的一個典型技 ??????????????????????????????????????????術(shù)。

???????20世紀(jì)80年代中期：重新開始的人工神經(jīng)網(wǎng)絡(luò)（ANN）研究，也給語音識別帶來一片新的生機(jī)。

???????20世紀(jì)90年代初期：許多發(fā)達(dá)國家如美國、日本以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統(tǒng)的 ????????????????????????????????????????實(shí)用化開發(fā)研究投以巨資。

???????如今，深度神經(jīng)網(wǎng)絡(luò)（DNN）在語音領(lǐng)域的應(yīng)用，使得語音識別性能又上了一個新的臺階。

1.3 語音信號處理過程的總體結(jié)構(gòu)

---------------------?
作者：JameJuZhang?
來源：CSDN?
原文：https://blog.csdn.net/jojozhangju/article/details/25060123?
版權(quán)聲明：本文為博主原創(chuàng)文章，轉(zhuǎn)載請附上博文鏈接！

總結(jié)

以上是生活随笔為你收集整理的数字语音信号处理学习笔记——绪论（2）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： swfupload 实例 php,文件上
下一篇：详解 ConcurrentHashMap

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数字语音信号处理学习笔记——绪论（2）

總結(jié)