利用函数wavread对语音信号进行采样_AI大语音(一)——语音识别基础(深度解析)...
1 聲音特性?
聲音(sound)是由物體振動(dòng)產(chǎn)生的聲波。是通過介質(zhì)傳播并能被人或動(dòng)物聽覺器官所感知的波動(dòng)現(xiàn)象。最初發(fā)出振動(dòng)的物體叫聲源。聲音以波的形式振動(dòng)傳播。聲音是聲波通過任何介質(zhì)傳播形成的運(yùn)動(dòng)。
頻率:是每秒經(jīng)過一給定點(diǎn)的聲波數(shù)量,它的測量單位為赫茲,1千赫或1000赫表示每秒經(jīng)過一給定點(diǎn)的聲波有1000個(gè)周期,1兆赫就是每秒鐘有1,000,000個(gè)周期,等等。
音節(jié):就是聽覺能夠自然察覺到的最小語音單位,音節(jié)有聲母、韻母、聲調(diào)三部分組成。一個(gè)漢字的讀音就是一個(gè)音節(jié),一個(gè)英文單詞可能有一個(gè)或多個(gè)音節(jié)構(gòu)成,并且按照音節(jié)的不同,可以分為不同的種類。
音素:它是從音節(jié)中分析出來的最小語音單位,語音分析到音素就不能再分了。比如,“她穿紅衣服”是5個(gè)音節(jié),而“紅”又可進(jìn)一步分為3個(gè)音素--h,o,ng。音素的分析需要一定的語音知識(shí),但是,如果我們讀的慢一點(diǎn)是還可以體會(huì)到的。
音位:是指能夠區(qū)分意義的音素,比如bian,pian,bu,pu就是靠b,p兩個(gè)音素來區(qū)分的,所以b,p就是兩個(gè)音位。
人耳能聽到的音頻范圍:20HZ--20KHZ。人說話的聲音頻率:300HZ--3.4KHZ。樂器的音頻范圍:20HZ--20KHZ。
2 語音時(shí)域特性
語音信號(hào)有時(shí)變特性,是一個(gè)非平穩(wěn)的隨機(jī)過程。但在一個(gè)短時(shí)間范圍內(nèi)其特性基本 保持不變,即語音的“短時(shí)平穩(wěn)性”。
在時(shí)域,語音信號(hào)可以直接用它的時(shí)間波形表示出來。其中,清音段類似于白噪聲,具有較高的頻率,但振幅很小,沒有明顯的周期性;而濁音都具有明顯的周期性,且幅值較大,頻率相對較低。語音信號(hào)的這些時(shí)域特征可以通過短時(shí)能量、短時(shí)過零率等方法來分析。
2.1 短時(shí)能量
由于語音信號(hào)的能量隨時(shí)間而變化,清音和濁音之間的能量差別相當(dāng)顯著。因此,對短時(shí)能量和短時(shí)平均幅度進(jìn)行分析,可以描述語音的這種特征變化情況。
定義n時(shí)刻某語音信號(hào)的短時(shí)平均能量為:
式中,N為窗長,可見短時(shí)能量為一幀樣點(diǎn)值的加權(quán)平方和。特殊地,當(dāng)窗函數(shù)為矩形窗時(shí),有
2.2 短時(shí)幅度
短時(shí)能量的一個(gè)主要問題是對信號(hào)電平值過于敏感。由于需要計(jì)算信號(hào)樣值的平方和,在定點(diǎn)實(shí)現(xiàn)時(shí)很容易產(chǎn)生溢出。為了克服這個(gè)缺點(diǎn),可以定義一個(gè)短時(shí)平均幅度函數(shù)來衡量語音幅度的變化:
上式可以理解為w(n)對|x(n)|的線性濾波運(yùn)算,實(shí)現(xiàn)框圖如下。與短時(shí)能量比較,短時(shí)平均幅度相當(dāng)于用絕對值之后代替了平方和,簡化了運(yùn)算。
2.3 短時(shí)過零率
短時(shí)平均過零率是語音信號(hào)時(shí)域分析中的一種特征參數(shù)。它是指每幀內(nèi)信號(hào)通過零值的次數(shù)。
①對有時(shí)間橫軸的連續(xù)語音信號(hào),可以觀察到語音的時(shí)域波形通過橫軸的情況。
②在離散時(shí)間語音信號(hào)情況下,如果相鄰的采樣具有不同的代數(shù)符號(hào)就稱為發(fā)生了過零,因此可以計(jì)算過零的次數(shù)。
單位時(shí)間內(nèi)過零的次數(shù)就稱為過零率。一段長時(shí)間內(nèi)的過零率稱為平均過零率。如果是正弦信號(hào),其平均過零率就是信號(hào)頻率的兩倍除以采樣頻率,而采樣頻率是固定的。因此過零率在一定程度上可以反映信號(hào)的頻率信息。短時(shí)平均過零率的定義為:
3 語音頻域特性
3.1 信號(hào)分類
計(jì)算信號(hào)能量(作用在單位電阻上的電壓信號(hào) 釋放的能量)可以將信號(hào)分為:
功率信號(hào):能量無限,不能用能量表示,所以用平均功率表示;
能量信號(hào):能量有限,平均功率為0;
3.2 頻譜
功率信號(hào)的頻譜(離散):
含義: 周期功率信號(hào)幅值(頻率為f0)經(jīng)過傅里葉級(jí)數(shù)展開,被多個(gè)離散倍頻nf0表征,各頻點(diǎn)的幅值C(nf0)也即該頻點(diǎn)的貢獻(xiàn)權(quán)系數(shù)。
3.3 功率譜密度
功率信號(hào)的功率譜密度(連續(xù)):
含義:
將信號(hào)的功率按照頻點(diǎn)貢獻(xiàn)鋪在頻譜之上;
因其能量是無窮的,所以不能把能量鋪上去,只能用有限的功率;
對功率譜密度進(jìn)行積分,能得到局部頻段承載的功率;
相比功率信號(hào)的頻譜突出各頻點(diǎn)對功率信號(hào)的信號(hào)幅值的貢獻(xiàn),功率譜密度突出各頻點(diǎn)對功率信號(hào)的功率的貢獻(xiàn)。
3.4 頻譜密度
能量信號(hào)的頻譜密度(連續(xù)):
含義:
通過傅里葉變換將能量信號(hào)轉(zhuǎn)換到連續(xù)頻域上;
但因能量有限,不能使用離散貢獻(xiàn)頻點(diǎn)權(quán)系數(shù)(幾乎為0),只能使用頻譜密度來表征。
3.5 能量譜密度
能量信號(hào)的能量譜密度(連續(xù)):
含義:
將信號(hào)能量鋪在頻譜之上;
對能量譜密度進(jìn)行局部積分,能得到局部頻段承載的能量;
相比能量信號(hào)的頻譜密度突出連續(xù)頻點(diǎn)對功率信號(hào)的信號(hào)幅值的貢獻(xiàn),能量譜密度突出連續(xù)頻點(diǎn)對能量信號(hào)的能量的貢獻(xiàn)。
(AI大語音:語音信號(hào)時(shí)間上有限,且幅值有限,即是能量有限,頻率為0,應(yīng)該是能量信號(hào),不能計(jì)算功率譜。我們實(shí)際上做了一個(gè)假設(shè),把語音分幀,每一幀都是某一個(gè)周期信號(hào)的一個(gè)周期,所以它是周期信號(hào),周期信號(hào)就是功率信號(hào)。也就是在未分幀之前的確是能量信號(hào)。分幀后在做FFT的時(shí)候又在負(fù)無窮到正無窮上進(jìn)行了周期擴(kuò)長,所以才是功率信號(hào)。)
4 語音識(shí)別過程
所謂語音識(shí)別,就是將一段語音信號(hào)轉(zhuǎn)換成相對應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分,此外為了更有效地提取特征往往還需要對所采集到的聲音信號(hào)進(jìn)行濾波、分幀等音頻數(shù)據(jù)預(yù)處理工作,將需要分析的音頻信號(hào)從原始信號(hào)中合適地提取出來;特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語言模型則根據(jù)語言學(xué)相關(guān)的理論,計(jì)算該聲音信號(hào)對應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進(jìn)行解碼,得到最后可能的文本表示。
預(yù)處理:1. 首尾端的靜音切除,降低對后續(xù)步驟造成的干擾,靜音切除的操作一般稱為VAD。2. 聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀,使用移動(dòng)窗函數(shù)來實(shí)現(xiàn),不是簡單的切開,各幀之間一般是有交疊的。
特征提取:主要算法有線性預(yù)測倒譜系數(shù)(LPCC)和Mel 倒譜系數(shù)(MFCC),目的是把每一幀波形變成一個(gè)包含聲音信息的多維向量。
聲學(xué)模型(AM):通過對語音數(shù)據(jù)進(jìn)行訓(xùn)練獲得,輸入是特征向量,輸出為音素信息。
字典:字或者詞與音素的對應(yīng), 簡單來說, 中文就是拼音和漢字的對應(yīng),英文就是音標(biāo)與單詞的對應(yīng)。
語言模型(LM):通過對大量文本信息進(jìn)行訓(xùn)練,得到單個(gè)字或者詞相互關(guān)聯(lián)的概率。
解碼:就是通過聲學(xué)模型,字典,語言模型對提取特征后的音頻數(shù)據(jù)進(jìn)行文字輸出。
語音識(shí)別流程的舉例(只是形象表述,不是真實(shí)數(shù)據(jù)和過程):
1. 語音信號(hào):PCM文件等(我是機(jī)器人)
2. 特征提取:提取特征向量[1 2 3 4 56 0 ...]
3. 聲學(xué)模型:[1 2 3 4 56 0]-> w o s i j i q i r n
4. 字典:窩:w o;我:w o;是:s i;機(jī):j i;器:q i;人:r n;級(jí):j i;忍:r n;
5. 語言模型:我:0.0786, 是:0.0546,我是:0.0898,機(jī)器:0.0967,機(jī)器人:0.6785;
6. 輸出文字:我是機(jī)器人;
附錄(魔鬼寫手)
——————
淺談則止,細(xì)致入微AI大道理
掃描下方“AI大道理”,選擇“關(guān)注”公眾號(hào)
歡迎加入!
▼下期預(yù)告▼AI大語音——預(yù)處理
往期精彩回顧▼
留你心,言你想
總結(jié)
以上是生活随笔為你收集整理的利用函数wavread对语音信号进行采样_AI大语音(一)——语音识别基础(深度解析)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html中心对齐,html – 对齐内联
- 下一篇: qtcreator下拉列表怎么制作_设置