當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

即时通讯音视频开发（七）：音频基础及编码原理入门

發(fā)布時間：2025/3/8 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了即时通讯音视频开发（七）：音频基础及编码原理入门小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

即時通訊應(yīng)用中的實時音視頻技術(shù)，幾乎是IM開發(fā)中的最后一道高墻。原因在于：實時音視頻技術(shù) = 音視頻處理技術(shù) + 網(wǎng)絡(luò)傳輸技術(shù) 的橫向技術(shù)應(yīng)用集合體，而公共互聯(lián)網(wǎng)不是為了實時通信設(shè)計的。

系列文章

《即時通訊音視頻開發(fā)（五）：認識主流視頻編碼技術(shù)H.264》
《即時通訊音視頻開發(fā)（六）：如何開始音頻編解碼技術(shù)的學習》

基礎(chǔ)概念

比特率：
表示經(jīng)過編碼（壓縮）后的音頻數(shù)據(jù)每秒鐘需要用多少個比特來表示，單位常為kbps。

響度和強度：
聲音的主觀屬性響度表示的是一個聲音聽來有多響的程度。響度主要隨聲音的強度而變化，但也受頻率的影響。總的說，中頻純音聽來比低頻和高頻純音響一些。

采樣和采樣率：
采樣是把連續(xù)的時間信號，變成離散的數(shù)字信號。采樣率是指每秒鐘采集多少個樣本。

常見音頻格式

1.?WAV格式，是微軟公司開發(fā)的一種聲音文件格式，也叫波形聲音文件，是最早的數(shù)字音頻格式，被Windows平臺及其應(yīng)用程序廣泛支持，壓縮率低。

2.?MIDI是Musical Instrument Digital Interface的縮寫，又稱作樂器數(shù)字接口，是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標準。它定義了計算機音樂程序、數(shù)字合成器及其它電子設(shè)備交換音樂信號的方式，規(guī)定了不同廠家的電子樂器與計算機連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)議，可以模擬多種樂器的聲音。MIDI文件就是MIDI格式的文件，在MIDI文件中存儲的是一些指令。把這些指令發(fā)送給聲卡，由聲卡按照指令將聲音合成出來。

3.?MP3全稱是MPEG-1 Audio Layer 3，它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進行壓縮。應(yīng)用最普遍。

4.?MP3Pro是由瑞典Coding科技公司開發(fā)的，其中包含了兩大技術(shù)：一是來自于Coding科技公司所特有的解碼技術(shù)，二是由MP3的專利持有者法國湯姆森多媒體公司和德國Fraunhofer集成電路協(xié)會共同研究的一項譯碼技術(shù)。MP3Pro可以在基本不改變文件大小的情況下改善原先的MP3音樂音質(zhì)。它能夠在用較低的比特率壓縮音頻文件的情況下，最大程度地保持壓縮前的音質(zhì)。

5.?WMA?(Windows Media Audio)是微軟在互聯(lián)網(wǎng)音頻、視頻領(lǐng)域的力作。WMA格式是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達到更高的壓縮率目的，其壓縮率一般可以達到1:18。此外，WMA還可以通過DRM（Digital Rights Management）保護版權(quán)。

6.?RealAudio是由Real Networks公司推出的一種文件格式，最大的特點就是可以實時傳輸音頻信息，尤其是在網(wǎng)速較慢的情況下，仍然可以較為流暢地傳送數(shù)據(jù)，因此RealAudio主要適用于網(wǎng)絡(luò)上的在線播放。現(xiàn)在的RealAudio文件格式主要有RA(RealAudio)、RM（RealMedia，RealAudio G2）、RMX(RealAudio Secured)等三種，這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量，在保證大多數(shù)人聽到流暢聲音的前提下，令帶寬較寬敞的聽眾獲得較好的音質(zhì)。

7.?Audible擁有四種不同的格式：Audible1、2、3、4。Audible.com網(wǎng)站主要是在互聯(lián)網(wǎng)上販賣有聲書籍，并對它們所銷售商品、文件通過四種Audible.com 專用音頻格式中的一種提供保護。每一種格式主要考慮音頻源以及所使用的收聽的設(shè)備。格式1、2和 3采用不同級別的語音壓縮，而格式4采用更低的采樣率和MP3相同的解碼方式，所得到語音吐辭更清楚，而且可以更有效地從網(wǎng)上進行下載。Audible 所采用的是他們自己的桌面播放工具，這就是Audible Manager，使用這種播放器就可以播放存放在PC或者是傳輸?shù)奖銛y式播放器上的Audible格式文件。

8.?AAC實際上是高級音頻編碼的縮寫。AAC是由Fraunhofer IIS-A、杜比和AT&T共同開發(fā)的一種音頻格式，它是MPEG-2規(guī)范的一部分。AAC所采用的運算法則與MP3的運算法則有所不同，AAC通過結(jié)合其他的功能來提高編碼效率。AAC的音頻算法在壓縮能力上遠遠超過了以前的一些壓縮算法（比如MP3等）。它還同時支持多達48個音軌、15個低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率。總之，AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。

9.?Ogg Vorbis?是一種新的音頻壓縮格式，類似于MP3等現(xiàn)有的音樂格式。但有一點不同的是，它是完全免費、開放和沒有專利限制的。Vorbis 是這種音頻壓縮機制的名字，而Ogg則是一個計劃的名字，該計劃意圖設(shè)計一個完全開放性的多媒體系統(tǒng)。VORBIS也是有損壓縮，但通過使用更加先進的聲學模型去減少損失，因此，同樣位速率(Bit Rate)編碼的OGG與MP3相比聽起來更好一些。

10.?APE是一種無損壓縮音頻格式,在音質(zhì)不降低的前提下，大小壓縮到傳統(tǒng)無損格式 WAV 文件的一半。

11.?FLAC即是Free Lossless Audio Codec的縮寫，是一套著名的自由音頻無損壓縮編碼，其特點是無損壓縮。

（與以上用于存儲和回放非實時壓縮協(xié)議的標準不同，常見的實時音頻通訊的編碼標準具體請見：《即時通訊音視頻開發(fā)（八）：常見的實時音頻通訊編碼標準》）

音頻編碼的基本原理講解

1概述

語音編碼致力于：降低傳輸所需要的信道帶寬，同時保持輸入語音的高質(zhì)量。
語音編碼的目標在于：設(shè)計低復(fù)雜度的編碼器以盡可能低的比特率實現(xiàn)高品質(zhì)數(shù)據(jù)傳輸。
?

2靜音閾值曲線

指在安靜環(huán)境下，人耳在各個頻率能聽到聲音的閾值。

臨界頻帶

由于人耳對不同頻率的解析度不同，MPEG1/Audio將22khz內(nèi)可感知的頻率范圍，依不同編碼層，不同取樣頻率，劃分成23~26個臨界頻帶。下圖列出理想臨界頻帶的中心頻率與頻寬。圖中可看到，人耳對低頻的解析度較好。

頻域上的掩蔽效應(yīng)

幅值較大的信號會掩蔽頻率相近的幅值較小的信號，如下圖：

時域上的遮蔽效應(yīng)

在一個很短的時間內(nèi)，若出現(xiàn)了2個聲音，SPL（sound pressure level）較大的聲音會掩蔽SPL較小的聲音。時域掩蔽效應(yīng)分前向掩蔽（pre-masking）和后向掩蔽(post-masking),其中post-masking的時間會比較長，約是pre-masking的10倍。

編碼基本手段(1)：量化和量化器

基本概念：

量化和量化器：量化是把離散時間上的連續(xù)信號，轉(zhuǎn)化成離散時間上的離散信號。
常見的量化器有：均勻量化器，對數(shù)量化器，非均勻量化器。
量化過程追求的目標是：最小化量化誤差，并盡量減低量化器的復(fù)雜度（這2者本身就是一個矛盾）。

常見的量化器的優(yōu)缺點：

（a）均勻量化器：最簡單，性能最差，僅適應(yīng)于電話語音。
（b）對數(shù)量化器：比均勻量化器復(fù)雜，也容易實現(xiàn)，性能比均勻量化器好。
（c）非均勻(Non-uniform)量化器：根據(jù)信號的分布情況，來設(shè)計量化器。信號密集的地方進行細致的量化，稀疏的地方進行粗略量化。

編碼基本手段(2)：語音編碼器

1基本概念

語音編碼器分為三種類形：（a）波形編器、（b）聲碼器、（c）混合編碼器。

波形編碼器以構(gòu)造出背景噪單在內(nèi)的模擬波形為目標。作用于所有輸入信號，因此會產(chǎn)生高質(zhì)量的樣值并且耗費較高的比特率。而聲碼器（vocoder）不會再生原始波形。這組編碼器會提取一組參數(shù) ，這組參數(shù)被送到接收端，用來導(dǎo)出語音產(chǎn)生模形。聲碼器語音質(zhì)量不夠好。混合編碼器，它融入了波形編碼器和聲器的長處。
?

2波形編碼器

波形編碼器的設(shè)計常獨立于信號。所以適應(yīng)于各種信號的編碼而不限于語音。

時域編碼：

a）PCM：pulse code modulation,是最簡單的編碼方式。僅僅是對信號的離散和量化，常采用對數(shù)量化。
b）DPCM：differential pulse code modulation，差分脈沖編碼，只對樣本之間的差異進行編碼。前一個或多個樣本用來預(yù)測當前樣本值。用來做預(yù)測的樣本越多，預(yù)測值越精確。真實值和預(yù)測值之間的差值叫殘差，是編碼的對象。

c）ADPCM：adaptive differential pulse code modulation，自適應(yīng)差分脈沖編碼。即在DPCM的基礎(chǔ)上，根據(jù)信號的變化，適當調(diào)整量化器和預(yù)測器，使預(yù)測值更接近真實信號，殘差更小，壓縮效率更高。

頻域編碼：
? ?? ?? ? 頻域編碼是把信號分解成一系列不同頻率的元素，并進行獨立編碼。

a）sub-band coding：子帶編碼是最簡單的頻域編碼技術(shù)。是將原始信號由時間域轉(zhuǎn)變?yōu)轭l率域，然后將其分割為若干個子頻帶，并對其分別進行數(shù)字編碼的技術(shù)。它是利用帶通濾波器(BPF)組把原始信號分割為若干(例如m個)子頻帶(簡稱子帶)。將各子帶通過等效于單邊帶調(diào)幅的調(diào)制特性，將各子帶搬移到零頻率附近，分別經(jīng)過BPF(共m個)之后，再以規(guī)定的速率(奈奎斯特速率)對各子帶輸出信號進行取樣，并對取樣數(shù)值進行通常的數(shù)字編碼，其設(shè)置m路數(shù)字編碼器。將各路數(shù)字編碼信號送到多路復(fù)用器，最后輸出子帶編碼數(shù)據(jù)流。對不同的子帶可以根據(jù)人耳感知模型，采用不同量化方式以及對子帶分配不同的比特數(shù)。
b）transform coding：DCT編碼。

3聲碼器

channel vocoder: 利用人耳對相位的不敏感。
homomorphic vocoder：能有效地處理合成信號。
formant vocoder: 以用語音信號的絕大部分信息都位于共振峰的位置與帶寬上。
linear predictive vocoder：最常用的聲碼器。
?

4混合編碼器

波形編碼器試圖保留被編碼信號的波形，能以中等比特率（32kbps）提供高品質(zhì)語音，但無法應(yīng)用在低比特率場合。聲碼器試圖產(chǎn)生在聽覺上與被編碼信號相似的信號，能以低比特率提供可以理解的語音，但是所形成的語音聽起來不自然。

混合編碼器結(jié)合了2者的優(yōu)點：

RELP:?在線性預(yù)測的基礎(chǔ)上，對殘差進行編碼。機制為：只傳輸小部分殘差，在接受端重構(gòu)全部殘差（把基帶的殘差進行拷貝）。
MPC:?multi-pulse coding,對殘差去除相關(guān)性，用于彌補聲碼器將聲音簡單分為voiced和unvoiced，而沒有中間狀態(tài)的缺陷。
CELP:?codebook excited linear prediction，用聲道預(yù)測其和基音預(yù)測器的級聯(lián)，更好逼近原始信號。
MBE:?multiband excitation，多帶激勵，目的是避免CELP的大量運算，獲得比聲碼器更高的質(zhì)量。

網(wǎng)易云信，你身邊的即時通訊和音視頻技術(shù)專家，了解我們，請戳網(wǎng)易云信官網(wǎng)

想要行業(yè)洞察和技術(shù)干貨，請關(guān)注網(wǎng)易云信博客

本文轉(zhuǎn)載自52im,作者：JackJiang

總結(jié)

以上是生活随笔為你收集整理的即时通讯音视频开发（七）：音频基础及编码原理入门的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：即时通讯音视频开发（六）：如何开始音频编
下一篇：即时通讯音视频开发（八）：常见的实时语音