日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别的端点检测

發(fā)布時間:2023/12/20 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语音识别的端点检测 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

端點檢測的概念

端點檢測,也叫語音活動檢測,Voice Activity Detection,VAD,它的目的是對語音和非語音的區(qū)域進(jìn)行區(qū)分。通俗來理解,端點檢測就是為了從帶有噪聲的語音中準(zhǔn)確的定位出語音的開始點,和結(jié)束點,去掉靜音的部分,去掉噪聲的部分,找到一段語音真正有效的內(nèi)容。

在噪聲環(huán)境下使用語音識別系統(tǒng),或者講話人產(chǎn)生情緒或心里上的變化,導(dǎo)致發(fā)音失真、發(fā)音速度和音調(diào)改變,都會產(chǎn)生Lombard/Loud效應(yīng)。研究表明,即使在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的識別錯誤來自端點檢測器。

?

端點檢測的分類

VAD 算法可以粗略的分為三類:基于閾值的 VAD、作為分類器的 VAD、模型 VAD。

基于閾值的 VAD:通過提取時域(短時能量、短期過零率等)或頻域(MFCC、譜熵等)特征,通過合理的設(shè)置門限,達(dá)到區(qū)分語音和非語音的目的。這是傳統(tǒng)的 VAD 方法。

作為分類器的 VAD:可以將語音檢測視作語音/非語音的兩分類問題,進(jìn)而用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,達(dá)到檢測語音的目的。

模型 VAD:可以利用一個完整的聲學(xué)模型(建模單元的粒度可以很粗),在解碼的基礎(chǔ),通過全局信息,判別語音段和非語音段。

VAD 作為整個流程的最前端,需要在本地實時的完成。由于計算資源非常有限,因此,VAD 一般會采用閾值法中某種算法;經(jīng)過工程優(yōu)化的分類法也可能被利用;而模型 VAD 目前難以在本地部署應(yīng)用。

?

端點檢測處理的好,不僅將處理的時間序列變小,還能消除無聲段道噪聲。

?

端點檢測的原理

為了能更清楚說明端點檢測的原理,錄制了一段音頻,并且將語音信號截取了幾部分。

開始,有片刻的準(zhǔn)備工作,并未發(fā)出聲音

?

第一次講”你好”

?

第二次講”你好”

?

第三次偽裝了聲音講”你好”

?

可以看到如下特點:

  • 首尾的靜音部分聲波的振幅很小,而有效語音”你好”部分的振幅比較大。
  • 一個信號的振幅表示了信號能量的大小,從直觀上明顯看出靜音的部分能量值較小,有效語音部分的能量值較大。
  • 首尾沒有講話,缺依然有能量值,并且能量值有變化。
  • 在沒有特別的偽裝和干擾的情況下,兩次講你好的振幅,即信號是一樣的。
  • 第三次由于偽裝了聲音,所以導(dǎo)致振幅同上面兩次不一樣,并且由于刻意的偽裝,導(dǎo)致第三次的波長度和前兩次明顯不一樣。
  • ?

    由此可以了解到端點檢測中涉及到的一些概念:

    噪聲:背景音稱之為噪聲。有外界環(huán)境的噪聲,也有設(shè)備本身的噪聲。在實際使用中,如果出現(xiàn)長時間的靜默,會使用戶感到很不自然。因此接收端常常會在靜音期間發(fā)送一些分組,從而生成使用戶感覺舒服一些的背景噪聲,即所謂的舒適噪聲。

    靜音:連續(xù)若干幀能量值持續(xù)維持在低水平。理想情況下靜音能量值為0,但實際無法做到,因為一般有背景音,而背景音有基礎(chǔ)能量值。

    端點:靜音和有效語音信號變化臨界點。

    在實際應(yīng)用中,比如說電話通話時,用戶沒有講話時,就沒有語音分組的發(fā)送,從而可以進(jìn)一步降低語音比特率。當(dāng)用戶的語音信號能量低于一定門限值時就認(rèn)為是靜默狀態(tài),也不發(fā)送語音分組。當(dāng)檢測到突發(fā)的活動聲音時才生成語音信號,并加以傳輸。運(yùn)用這種技術(shù)能夠獲得大于50%的帶寬。

    同理,在實際測試過程中我們也需要考慮非連續(xù)性說話,比如口吃、猶豫、吞吞吐吐時,語言的識別準(zhǔn)確性,避免斷點檢測環(huán)節(jié)處理出現(xiàn)異常或者不合理的情況。

    總結(jié)

    以上是生活随笔為你收集整理的语音识别的端点检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。