语音编码分类及编解码标准
制定者:ITU-T
所需頻寬:64Kbps
特性:算法復雜度小,音質一般
優點:算法復雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:占用的帶寬較高
應用領域:voip
版稅方式:Free
備注:70年代CCITT公布的G.711 64kb/s脈沖編碼調制PCM。
G.721類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:相對于PCMA和PCMU,其壓縮比較高,可以提供2:1的壓縮比。
優點:壓縮比大
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備注:子帶ADPCM(SB-ADPCM)技術。G.721標準是一個代碼轉換系統。它使用ADPCM轉換技術,實現64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換。
G.722類型:Audio
制定者:ITU-T
所需頻寬:64Kbps
特性:G722能提供高保真的語音質量
優點:音質好
缺點:帶寬要求高
應用領域:voip
版稅方式:Free
備注:子帶ADPCM(SB-ADPCM)技術
G.723(低碼率語音編碼算法)類型:Audio
制定者:ITU-T
所需頻寬:5.3Kbps/6.3Kbps
特性:語音質量接近良,帶寬要求低,高效實現,便于多路擴展,可利用C5402片內16kRAM實現53coder。達到ITU-TG723要求的語音質量,性能穩定。可用于IP電話語音信源編碼或高效語音壓縮存儲。
優點:碼率低,帶寬要求較小。并達到ITU-TG723要求的語音質量,性能穩定。
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備注:G.723語音編碼器是一種用于多媒體通信,編碼速率為5.3kbits/s和6.3kbit/s的雙碼率編碼方案。G.723標準是國際電信聯盟(ITU)制定的多媒體通信標準中的一個組成部分,可以應用于IP電話等系統中。其中,5.3kbits/s碼率編碼器采用多脈沖最大似然量化技術(MP-MLQ),6.3kbits/s碼率編碼器采用代數碼激勵線性預測技術。
G.723.1(雙速率語音編碼算法)類型:Audio
制定者:ITU-T
所需頻寬:5.3Kbps(22.9)
特性:能夠對音樂和其他音頻信號進行壓縮和解壓縮,但它對語音信號來說是最優的。G.723.1采用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的比特流中加入了人為的噪聲。除了預留帶寬之外,這種技術使發信機的調制解調器保持連續工作,并且避免了載波信號的時通時斷。
優點:碼率低,帶寬要求較小。并達到ITU-TG723要求的語音質量,性能穩定,避免了載波信號的時通時斷。
缺點:語音質量一般
應用領域:voip
版稅方式:Free
備注:G.723.1算法是 ITU-T建議的應用于低速率多媒體服務中語音或其它音頻信號的壓縮算法,其目標應用系統包括H.323、H.324等多媒體通信系統 。目前該算法已成為IP電話系統中的必選算法之一。
G.728類型:Audio
制定者:ITU-T
所需頻寬:16Kbps/8Kbps
特性:用于IP電話、衛星通信、語音存儲等多個領域。G.728是一種低時延編碼器,但它比其它的編碼器都復雜,這是因為在編碼器中必須重復做50階LPC分析。G.728還采用了自適應后置濾波器來提高其性能。
優點:后向自適應,采用自適應后置濾波器來提高其性能
缺點:比其它的編碼器都復雜
應用領域:voip
版稅方式:Free
備注:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP)。1996年ITU公布了G.728 8kb/s的CS-ACELP算法,可以用于IP電話、衛星通信、語音存儲等多個領域。16 kbps G.728低時延碼激勵線性預測。
G.728是低比特線性預測合成分析編碼器(G.729和G.723.1)和后向ADPCM編碼器的混合體。G.728是LD-CELP編碼器,它一次只處理5個樣點。對于低速率(56~128kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議采用的語音編碼器。由于其后向自適應特性,因此G.728是一種低時延編碼器,但它比其它的編碼器都復雜,這是因為在編碼器中必須重復做50階LPC分析。G.728還采用了自適應后置濾波器來提高其性能。
G.729類型:Audio
制定者:ITU-T
所需頻寬:8Kbps
特性:在良好的信道條件下要達到長話質量,在有隨機比特誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等。這種語音壓縮算法可以應用在很廣泛的領域中,包括IP電話、無線通信、數字衛星系統和數字專用線路。
G.729算法采用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)算法。這種算法綜合了波形編碼和參數編碼的優點,以自適應預測編碼技術為基礎,采用了矢量量化、合成分析和感覺加權等技術。
G.729編碼器是為低時延應用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延為25ms,比特率為8 kbps。
優點:語音質量良,應用領域很廣泛,采用了矢量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:在處理隨機比特錯誤方面性能不好。
應用領域:voip
版稅方式:Free
備注:國際電信聯盟(ITU-T)于1995年11月正式通過了G.729。ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準。G.729是由美國、法國、日本和加拿大的幾家著名國際電信實體聯合開發的。
G.729A類型:Audio
制定者:ITU-T
所需頻寬:8Kbps(34.4)
特性:復雜性較G.729低,性能較G.729差。
優點:語音質量良,降低了計算的復雜度以便于實時實現,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:性能較G.729差
應用領域:voip
版稅方式:Free
備注:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的復雜度以便于實時實現,因此目前使用的都是G.729A。
GIPS
類型:Audio
制定者:瑞典Global IP Sound公司
所需頻寬:
特性:GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網絡自適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。
優點:很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果
缺點: 不是Free
應用領域:voip
版稅方式:每年支付一筆使用權費用
備注:GIPS音頻技術是由來自瑞典的全球頂尖的語音處理高科技公司--"GLOBAL IPSOUND"提供的專用于互聯網的語音壓縮引擎系統。GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網絡自適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。
Apt-X
類型:Audio
制定者:Audio Processing Technology 公司
所需頻寬:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用于專業音頻領域,提供高品質的音頻。其特點是:
①采用4:1:4的壓縮與放大方案;
②硬件低復雜度;
③極低的編碼延遲;
④由單芯片實現;
⑤單聲道或立體聲編解碼;
⑥只需單設備即可實現22.5kHz的雙通道立體聲;
⑦高達48kHz的采樣頻率;
⑧容錯性好;
⑨完整的AUTOSYNC?編解碼同步方案;
⑩低功率消耗
優點:高品質的音頻,硬件復雜度低,設備要求低
缺點:不是Free
應用領域:voip
版稅方式:一次性付費
備注:子帶ADPCM(SB-ADPCM)技術
NICAM
NICAM(Near Instantaneous Companded Audio Multiplex 準瞬時壓擴音頻復用)
類型:Audio
制定者:英國BBC廣播公司
所需頻寬:728Kbps
特性:應用范圍及其廣泛,可用它進行立體聲或雙語廣播
優點:應用范圍及其廣泛,信噪比高,動態范圍寬、音質同CD相媲美,故名麗音,因此NICAM又稱為麗音
缺點:不是Free,頻寬要求高
應用領域:voip
版稅方式:一次性付費
備注:NICAM也稱麗音,它是英文Near-Instantaneously Companded Audio Multiplex的縮寫,其含義為準瞬時壓擴音頻復用,是由英國BBC廣播公司開發研究成功的。
通俗地說NICAM技術實際上就是雙聲道數字聲技術,其應用范圍及其廣泛,最典型的應用便是電視廣播附加雙聲道數字聲技術,利用它進行立體聲或雙語廣播,以充分利用電視頻道的頻譜資源。這是在常規電視廣播的基礎上無需增加許多投資就可以實現的。在進行立體聲廣播時,它提高了音頻的信號質量,使其接近CD的質量。而且還可以利用NICAM技術進行高速數據廣播及其他數據傳輸的增殖服務,這在當今的信息化社會中似乎就顯得尤為重要了!
MPEG-1 audio layer 1
類型:Audio
制定者:MPEG
所需頻寬:384kbps(壓縮4倍)
特性:編碼簡單,用于數字盒式錄音磁帶,2聲道,VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備注:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用于數字盒式錄音磁帶
--層2(Layer 2):算法復雜度中等,用于數字音頻廣播(DAB)和VCD等
--層3(Layer 3):編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍
MUSICAM(MPEG-1 audio layer 2,即MP2)
類型:Audio
制定者:MPEG
所需頻寬:256~192kbps(壓縮6~8倍)
特性:算法復雜度中等,用于數字音頻廣播(DAB)和VCD等,2聲道,而MUSICAM由于其適當的復雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的制作、交換、存儲、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
MP3(MPEG-1 audio layer 3)
類型:Audio
制定者:MPEG
所需頻寬:128~112kbps(壓縮10~12倍)
特性:編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的復雜度顯得相對較高,編碼不利于實時,但由于MP3在低碼率條件下高水準的聲音質量,使得它成為軟解壓及網絡廣播的寵兒。
優點:壓縮比高,適合用于互聯網上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
MPEG-2 audio layer
類型:Audio
制定者:MPEG
所需頻寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。
優點:支持5.1聲道和7.1聲道的環繞立體聲
缺點:
應用領域:voip
版稅方式:按個收取
備注:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。
AAC(Advanced Audio Coding,先進音頻編碼)
類型:Audio
制定者:MPEG
所需頻寬:96-128 kbps
特性:AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路數據。它可同時傳送16套節目,每套節目的音頻及數據結構可任意規定。
AAC主要可能的應用范圍集中在因特網網絡傳播、數字音頻廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜數據。具有48 個主要音頻通道,16 個低頻增強通道,16 個集成數據流, 16 個配音,16 種編排。
優點:支持多種音頻聲道組合,提供優質的音質
缺點:
應用領域:voip
版稅方式:一次性收費
備注:AAC于1997年形成國際標準ISO 13818-7。先進音頻編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音頻標準(ISO/IEC13818-3)之后的新一代音頻壓縮標準。
在MPEG-2制訂的早期,本來是想將其音頻編碼部分保持與MPEG-1兼容的。但后來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲道音頻標準。理所當然地,這個標準是不兼容MPEG-1的,因此被稱為MPEG-2AAC。換句話說,從表面上看,要制作和播放AAC,都需要使用與MP3完全不同的工具。
Dolby AC-3
類型:Audio
制定者:美國杜比公司
所需頻寬:64kbps
特性:提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的信息在制作和還原過程中全部數字化,信息損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。
優點:環繞立體聲,信息損失很少,細節豐富,具有真正的立體聲效果
缺點:
應用領域:voip
版稅方式:按個收取
備注:杜比數字AC-3(Dolby DigitalAC-3):美國杜比公司開發的多聲道全頻帶聲音編碼系統,它提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的信息在制作和還原過程中全部數字化,信息損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。
PCM編碼(原始數字音頻信號流)
類型:Audio
制定者:ITU-T
所需頻寬:1411.2 Kbps
特性:音源信息完整,但冗余度過大
優點:音源信息保存完整,音質好
缺點:信息量大,體積大,冗余度過大
應用領域:voip
版稅方式:Free
備注:在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數據速率則為 44.1K×16×2=1411.2 Kbps。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WMA(Windows Media Audio)
類型:Audio
制定者:微軟公司
所需頻寬:320~112kbps(壓縮10~12倍)
特性:當Bitrate小于128K時,WMA幾乎在同級別的所有有損編碼格式中表現得最出色,但似乎128k是WMA一個檻,當Bitrate再往上提升時,不會有太多的音質改變。
優點:當Bitrate小于128K時,WMA最為出色且編碼后得到的音頻文件很小。
缺點:當Bitrate大于128K時,WMA音質損失過大。WMA標準不開放,由微軟掌握。
應用領域:voip
版稅方式:按個收取
備注:WMA的全稱是Windows MediaAudio,它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由于WMA在壓縮比和音質方面都超過了MP3,更是遠勝于RA(RealAudio),即使在較低的采樣頻率下也能產生較好的音質,再加上WMA有微軟的Windows MediaPlayer做其強大的后盾,所以一經推出就贏得一片喝彩。
PCMU(G.711U)
類型:Audio
制定者:ITU-T
所需頻寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們占用的帶寬較高,需要64kbps。
優點:語音質量優
缺點:占用的帶寬較高
應用領域:voip
版稅方式:Free
備注:PCMU andPCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps)。如果網絡帶寬比較低,可以選用低比特速率的編碼方法,如G.723或G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶寬足夠并且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質。
PCMA(G.711A)
類型:Audio
制定者:ITU-T
所需頻寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們占用的帶寬較高,需要64kbps。
優點:語音質量優
缺點:占用的帶寬較高
應用領域:voip
版稅方式:Free
備注:PCMU andPCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps)。如果網絡帶寬比較低,可以選用低比特速率的編碼方法,如G.723或G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶寬足夠并且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質。
ADPCM(自適應差分PCM)
Adpcm是自適應差分脈沖編碼調制的簡稱,最早使用于數字通信系統中。該算法利用了語音信號樣點間的相關性,并針對語音信號的非平穩特點,使用了自適應預測和自適應量化,在32kbps◎8khz速率上能夠給出網絡等級話音質量。現在我們使用的是IMA ADPCM算法,該算法中對量化步長的調整使用了簡單的查表方法,對于一個輸入的PCM值X(n),將其與前一時刻的X(n-1)預測值做差值 得到d(n),然后根據當前的量化步長對d(n)進行編碼,再用此sample點的編碼值調整量化步長,同時還要得到當前sample點的預測值供下一sample點編碼使用。通過此算法可將樣點編碼成4bit的碼流,一個符號位和三個幅度位。該算法較簡單,通過查表簡化了運算。對于編碼后的數據我們采用了wav文件格式,該格式對編碼后的數據流進行了包裝,由文件頭和數據碼流組成,文件頭中指出了音頻數據所采用格式、采樣率、比特率、塊長度、比特數及聲道數等信息。數據碼流以塊為單位,塊頭指出了該塊起始的預測值和index值,碼流中每byte的高四位和低四位分別對應一個PCM。當前該算法以其簡單實用的特點廣泛應用到數字音樂盒和數字錄音筆中。
?
類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心想法是:
①利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
優點:算法復雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形數據的一種有損壓縮算法, 它將聲音流中每次采樣的 16bit 數據以 4bit 存儲, 所以壓縮比1:4. 而壓縮/解壓縮算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。
LPC
LPC(Linear Predictive Coding,線性預測編碼)
類型:Audio
制定者:
所需頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
備注:參數編碼又稱為聲源編碼,是將信源信號在頻率域或其它正交變換域提取特征參數,并將其變換成數字代碼進行傳輸。譯碼為其反過程,將收到的數字序列經變換恢復特征參量,再根據特征參量重建語音信號。具體說,參數編碼是通過對語音信號特征參數的提取和編碼,力圖使重建語音信號具有盡可能高的準確性,但重建信號的波形同原語音信號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬于參數編碼。該編碼比特率可壓縮到2Kbit/s-4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。
CELP
CELP(Code Excited Linear Prediction,碼激勵線性預測編碼)
類型:Audio
制定者:歐洲通信標準協會(ETSI)
所需頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
②用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音周期延遲的外形更為平滑;
④根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量; ⑤ 使用基于信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。
結論:
① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
②使用快速算法,可以有效地降低CELP算法的復雜度,使它完全可以實時地實現;
③CELP可以成功地對各種不同類型的語音信號進行編碼,這種適應性對于真實環境,尤其是背景噪聲存在時更為重要。
優點:用很低的帶寬提供了較清晰的語音
缺點:
應用領域:voip
版稅方式:Free
備注:1999年歐洲通信標準協會(ETSI)推出了基于碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標準自適應多速率語音編碼器(AMR),其中最低速率為4.75kb/s,達到通信質量。CELP 碼激勵線性預測編碼是Code Excited LinearPrediction的縮寫。CELP是近10年來最成功的語音編碼算法。
CELP語音編碼算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作為激勵參數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所采用,美國聯邦標準FS1016就是采用CELP的編碼方法,主要用于高質量的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法,以其低比特率著稱(4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。
總結
以上是生活随笔為你收集整理的语音编码分类及编解码标准的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡临时额度到期能不能延期
- 下一篇: 网络编程模型综述 之 成熟的IO框架介绍