多媒体表示、描述、编码以及通信的相关规定和标准课程总结
- 時(shí)間:2016.10.11-2016. 11.3
- 注意關(guān)注會(huì)議
機(jī)構(gòu)
ITU(國(guó)際電信聯(lián)盟)
MPEG: Moving Picture Experts Group,動(dòng)態(tài)圖像專家組, 是ISO(International Standardization Organization,國(guó)際標(biāo)準(zhǔn)化組織)與IEC(International Electrotechnical Commission,國(guó)際電工委員會(huì))于1988年成立的專門針對(duì)運(yùn)動(dòng)圖像和語(yǔ)音壓縮制定國(guó)際標(biāo)準(zhǔn)的組織。每年舉辦三次會(huì)議。
3GPP: 3GPP的目標(biāo)是實(shí)現(xiàn)由2G網(wǎng)絡(luò)到3G網(wǎng)絡(luò)的平滑過(guò)渡,保證未來(lái)技術(shù)的后向兼容性,支持輕松建網(wǎng)及系統(tǒng)間的漫游和兼容性。 其職能: 3GPP主要是制訂以GSM核心網(wǎng)為基礎(chǔ),UTRA(FDD為W-CDMA技術(shù),TDD為TD-CDMA技術(shù))為無(wú)線接口的第三代技術(shù)規(guī)范。
標(biāo)準(zhǔn)
MPEG標(biāo)準(zhǔn):
- MPEG-1/1993:11172,VCD
- MPEG-2/1995:13818,DVD
- MPEG-4/1999:.mp4格式的視頻,目前仍在使用
- MPEG-4 AAC/2003 /H.264
- MPEG-7/2001:15938,檢索標(biāo)準(zhǔn),較老了
- HEVC(2013)/H.265
- MPEG-21
Dolby AC3標(biāo)準(zhǔn)
AVS標(biāo)準(zhǔn)
兩種向量差值的表示:
歐氏距離:|F1-F2|^2; 歐幾里得度量(euclidean metric)(也稱歐氏距離)是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
馬氏距離: 馬氏距離(Mahalanobis distance)是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系(例如:一條關(guān)于身高的信息會(huì)帶來(lái)一條關(guān)于體重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的)并且是尺度無(wú)關(guān)的(scale-invariant),即獨(dú)立于測(cè)量尺度。對(duì)于一個(gè)均值為μ,協(xié)方差矩陣為Σ的多變量向量,其馬氏距離為(x-μ)’Σ^(-1)(x-μ)。
JPEG2000 圖像檢索
問(wèn)題:描述、匹配、視角問(wèn)題、手機(jī)搜索
拍照過(guò)程(信息有損失):
3D——>2D;
成像輸入——>攝像頭——>去噪——>對(duì)應(yīng)RGB不同的通道對(duì)圖像采樣——>DSP處理——>輸出
描述:
Globle Feature:
- 顏色
- 結(jié)構(gòu)
- 輪廓
Local Feature :
- keypoint(特征點(diǎn)、關(guān)鍵點(diǎn))
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋轉(zhuǎn)、尺度等變換可重復(fù)檢測(cè))
SIFT
SIFT概念:
尺度不變特征變換(Scale-invariant feature transform,SIFT),是用于圖像處理領(lǐng)域的一種描述。
這種描述具有尺度不變性,可在圖像中檢測(cè)出關(guān)鍵點(diǎn),是一種局部特征描述子。
- keypoint(特征點(diǎn)、關(guān)鍵點(diǎn))
- Interesting content
- precise localization
- repeatable detection under variations of scale rotation(旋轉(zhuǎn)、尺度等變換可重復(fù)檢測(cè))
該方法于1999年由David Lowe首先發(fā)表于計(jì)算機(jī)視覺國(guó)際會(huì)議(International Conference on Computer Vision,ICCV),2004年再次經(jīng)David Lowe整理完善后發(fā)表于International journal of computer vision(IJCV)。截止2014年8月,該論文單篇被引次數(shù)達(dá)25000余次。
SIFT實(shí)現(xiàn)方法:
金字塔形狀分解(pyramids);逐級(jí)檢測(cè)
尺度空間(scale space);DOG method
仿射(Affin Transform, AT)
包括:旋轉(zhuǎn)、傾斜、平移、縮放
第二課
MPEG-1
CD11172-1,音頻(A、B、C、D、E、F、G)
幀同步:CD11172-2,視頻。
注意:encoder issue編碼器問(wèn)題,只要編碼后的碼流符合標(biāo)準(zhǔn)即可,對(duì)編解碼器并沒有規(guī)定,其中涉及優(yōu)化問(wèn)題。
MPEG-1 :13818(視頻標(biāo)準(zhǔn))
幀內(nèi)編碼:
audio(聽覺)
- Bn=20KHZ,Fs=44.1KHZ,或是48KHZ Bps=16bit
voice(語(yǔ)音)
- Bn=3.4KHZ->4KHZ ,Fs=8KHZ Bps=8bit
MPEG Audio
Audio layout2 ——MP2:時(shí)域上編碼
Audio layout3 ——MP2:濾波器組,切割成32個(gè)子帶
AAC MP3有更大的采樣率:8-96KHZ,更大的比特?cái)?shù)和更長(zhǎng)的幀長(zhǎng)
編碼器
- CELP:較有名的編碼器, 基于模型的編碼
- MIDI
三基色:RGB
16777216種顏色
4096/2048 量化,取最大值
描述圖像,用于檢索的指標(biāo)有
- PBC
- SRC
- Edge histogram
注意:旋轉(zhuǎn)不變性,解決的是角度問(wèn)題。
總結(jié)
以上是生活随笔為你收集整理的多媒体表示、描述、编码以及通信的相关规定和标准课程总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 确善能日本宣布两支徕卡 M 卡口镜头停产
- 下一篇: AD制图相关问题总结