日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

6DoF视频:通往下一代高自由度视频体验

發(fā)布時間:2024/4/11 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 6DoF视频:通往下一代高自由度视频体验 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

5G,8K時代的加速到來,將極大緩解視頻傳輸帶寬和終端解碼能力的約束。 而6DoF視頻則在360度VR視頻基礎(chǔ)上更進(jìn)一步,可以將傳統(tǒng)平面視頻在分辨率維度的清晰度提升轉(zhuǎn)化為高自由度的空間信息量提升,并且通過可交互式視頻體驗突破移動端顯示分辨率對5G時代視頻體驗的約束,為5G時代視頻體驗提升提供了新的無限可能。本文由阿里巴巴 高級算法專家 盛驍杰在LiveVideoStackCon 2019上海 的分享內(nèi)容整理而成。


文 / 盛驍杰

整理 / LiveVideoStack


本次分享的主題是關(guān)于6DoF視頻的標(biāo)準(zhǔn)和實踐,通往下一代的高自由度視頻體驗。主要內(nèi)容包括四個方面:第一,介紹什么是6DoF視頻;第二,介紹目前國內(nèi)和國際的標(biāo)準(zhǔn)組織,例如國際的MPEG標(biāo)準(zhǔn)組和國內(nèi)的AVS標(biāo)準(zhǔn)組以及這些組織在6DoF視頻上的一些進(jìn)展;第三,介紹優(yōu)酷在6DoF技術(shù)方面的實踐以及后續(xù)業(yè)務(wù)價值的探索, 最后是對本次分享的總結(jié)以及6DoF技術(shù)未來的展望。

?


1. 6DoF視頻:從平面視頻到高自由度視頻

?


就傳統(tǒng)平面視頻技術(shù)而言,簡單來說,它是從三個維度不斷提升用戶的視頻體驗。第一個維度是分辨率,也就是清晰度方面的提升,比如說從540p時代過渡到1080p的時代,再到現(xiàn)在的4K和8K。第二個維度是亮度和色域,因為隨著分辨率的上升,對于視頻本身的顏色的還原度,包括亮度的對比度也提出了更高的要求。最近比較火的HDR也就是從亮度和色域這兩個維度給用戶帶來更好的感知。第三個維度則是幀率,所謂的幀率即是說視頻每秒鐘有多少幀的圖像來組成視頻。目前普通的幀率,像電影是24幀,電視劇一般是30幀或者25幀。在這種情況我們使用手機(jī)觀看屏幕還是會出現(xiàn)卡頓感和物體的運動模糊,這就是幀率不夠高的問題。


以上就是平面視頻的發(fā)展,我們可以看到在現(xiàn)在這個時間點上,平面視頻在這三個維度里是在不斷推進(jìn)的,這也就是傳統(tǒng)視頻與平面視頻改善用戶體驗的三個主要方向。


?

除了平面視頻以外,我們怎樣過渡高自由度的視頻?VR360度視頻是其中第一步,所謂VR360度視頻就是用戶可以在觀看的過程當(dāng)中實時改變觀看的視角,但是用戶三維空間中的位置是不能動的,只是能夠在空間某個點上向周圍的不同視角進(jìn)行觀看。所以,VR 360度視頻也可以被稱為是3DoF視頻,因為它在空間中只有3個自由度。


?

可以看到上圖左側(cè),這是一個OZO的360度視頻采集設(shè)備,OZO上包含8個魚眼相機(jī),通過這8個魚眼相機(jī)把空間360度的視頻內(nèi)容采集下來以后進(jìn)行圖像的拼接,最終形成一個360度視頻,這就是VR360視頻的采集設(shè)備。下一步,我們要從360度的3DoF視頻過渡到6DoF視頻,如上圖右側(cè)。其實6DoF的采集設(shè)備非常的靈活,可以理解為在空間當(dāng)中想要為用戶提供怎樣的自由度,都可以通過自由組合相應(yīng)相機(jī)的拍攝和采集策略來實現(xiàn)。

?


以上四張圖分別是6DoF視頻不同的四種采集方式。第一種是在某條路徑上的采集。即在某一場景下設(shè)置一圈固定路徑的攝像機(jī),每個攝像機(jī)以一定的延時進(jìn)行拍攝,最終實現(xiàn)在某一瞬間環(huán)繞觀看特定場景的效果。右上角是由美國公司Lytro提出的光場采集方案。通過密集的在小面積中布滿多個相機(jī)的采集設(shè)備。這些采集設(shè)備能夠復(fù)原人在當(dāng)前位置上下左右移動的觀看體驗。左下角展示是6DoF采集在更大場景下的應(yīng)用,這是Intel提出的FreeD技術(shù)方案,例如在橄欖球或者籃球比賽的場館,通過在場館頂端部署了50多個高分辨率的高清相機(jī)進(jìn)行采集,可實現(xiàn)將比賽通過點云重建并在虛擬場景中展示,從而可以在任意位置觀看比賽的效果。右下角展示的是由我們提出的一種方案,即通過二維的攝像機(jī)陣列采集大范圍的六自由度體驗,具體實現(xiàn)效果會在后面詳細(xì)介紹。



大家都知道,普通的視頻就是圖片的集合,而360度視頻則是各個角度的視頻拼成的全景視頻,看起來也是普通的2D視頻,但在渲染的時候可以根據(jù)一定的模型來展現(xiàn)出360度的效果。那么6DoF視頻該如何表達(dá)?從技術(shù)上看,它是通過3D表達(dá)與3DoF表達(dá)兩個分支融合而成,既有高自由度視頻的特性,又有立體視覺的特性,是視頻技術(shù)和視覺技術(shù)的結(jié)合。它的表達(dá)方式主要有三種,一種是點云,第二種是深度,第三種就是密集光場。



點云簡單地說就是空間當(dāng)中任意點的坐標(biāo)(XYZ)的(YUV)數(shù)據(jù)。左上角展示的就是一個人的點云表達(dá),當(dāng)我們拉近觀看的時候(右上角圖),發(fā)現(xiàn)其實它是非密集的,拉到最近以后人臉會出現(xiàn)一些空洞,因為其點云表達(dá)從三維上講是可以無限放縮的。所以點云其實就是表達(dá)了XYZ點上的YUV數(shù)據(jù)。點云不僅可以用來表達(dá)三維的模型還可以用來表達(dá)三維的場景,例如最下面圖片展示的自動駕駛場景。在自動駕駛場景中使用較多的主要是通過三維建模的技術(shù),建立街道的點云,這樣在車輛自動行駛過程中就可以提前了解到周圍的立體環(huán)境,優(yōu)化自動駕駛技術(shù)。關(guān)于點云數(shù)據(jù),將空間當(dāng)中的XYZ和與YUV數(shù)據(jù)進(jìn)行壓縮,是一種專業(yè)性非常強(qiáng)的技術(shù),目前MPEG PCC標(biāo)準(zhǔn)組在做的就是關(guān)于點云壓縮的研究。


那么點云如何與6DoF進(jìn)行關(guān)聯(lián)?其實很簡單,假設(shè)一個三維模型可以通過點云重建出來,那么我們就可以從各個角度進(jìn)行觀看,因為這就表示我們已經(jīng)有了空間當(dāng)中任意點XYZ的YUV信息。



第二種6DoF的表達(dá)方式就是深度,點云和深度看上去非常地接近,但其原理其實不一樣,所謂的深度圖就是每一個相機(jī)拍到的信息,相機(jī)當(dāng)中每個像素點到相機(jī)的距離就叫做深度圖。其實點云是一個完整的三維表達(dá)(唯一的),但是深度圖可以是多樣的,可以理解為如果三維重建一個物體,通過點云表達(dá),得到的結(jié)果只有一份,但如果說使用深度從不同的角度拍攝物體則可以得到不同的深度,得到的結(jié)果與相機(jī)位置有關(guān)。左邊展示的是16張從不同角度采集的籃球場景的紋理圖,右邊的是紋理所對應(yīng)的深度圖,深度圖當(dāng)中較亮的部分表示離相機(jī)比較近的物體,其它較暗的地方就表明那些像素離相機(jī)的位置越遠(yuǎn)。所以說深度圖也是一種6DoF的表達(dá)方式。



第三種表達(dá)方式更前沿一些,前兩種表達(dá)方式在工業(yè)界都有一定的應(yīng)用,但是第三種表達(dá)則還處于實驗和探索階段。從上圖中可以看到為了拍攝非常小的一個區(qū)域,通過密集光場可以達(dá)到8K*6K的分辨率,但能夠通過焦距和空間位置的變化完全采集到像素的景深信息和XYZ信息。我們可以將8K的光場圖像分解成16*13張,也就是兩百多張常規(guī)的二維圖片。但由于光場的數(shù)據(jù)量太大,要表達(dá)一個非常小的三維或者6DoF的場景,必須要更好地實現(xiàn)對大量數(shù)據(jù)進(jìn)行壓縮,因此密集光場表達(dá)目前還處于實驗探索階段。


2. MPEG和AVS的6DoF標(biāo)準(zhǔn)進(jìn)展

?


接下來介紹目前國際上包括MPEG,AVS標(biāo)準(zhǔn)組在在6DoF方面的進(jìn)展,來幫助大家理解6DoF在產(chǎn)業(yè)化,標(biāo)準(zhǔn)化過程中具體的作用。以上是MPEG標(biāo)準(zhǔn)組未來五年的路標(biāo),涵蓋了當(dāng)前視頻技術(shù)發(fā)展的方向,大致可分為兩層,綠色的代表系統(tǒng)層,紅色是最核心的MediaCoding層。在MediaCoding層當(dāng)中,未來的視頻編碼技術(shù)在其中作為一條分支就只有一種VVC(Versatile Video Coding),俗稱H.266。而關(guān)于6DoF技術(shù)則在其中占據(jù)了很多的部分,比如說6DoF Audio;3DoF+Video,也就是6DoF Video的第一階段;Video Point Cloud Compression(視頻點云壓縮);Geometry Point Cloud Compression(基于幾何的點云壓縮)。大家可以看到在這部分當(dāng)中,未來的平面視頻編碼H.266技術(shù)其實只是其中的一小部分,更多的部分則是圍繞著未來下一代高自由度視頻技術(shù)怎樣定義標(biāo)準(zhǔn)的問題。

?


MPEG對于標(biāo)準(zhǔn)的6DoF體驗的發(fā)展定義為:逐步從3DoF(360度視頻)作為基礎(chǔ)過渡到完全6DoF視頻,下面幾張圖很清晰的表達(dá)了其發(fā)展的路徑。3DoF就是人坐在椅子上可以到處看,但不能動。3DoF+則是它的第二階段,3DoF+就是人同樣是坐在椅子上可以到處看,但是在前后左右增加了一定的自由度,可以進(jìn)行移動而不是固定在一個位置。從3DoF+再進(jìn)一步過渡到Windowed 6DoF,所謂Windowed 6DoF就是模擬一個人站在窗前面,能夠看外面的景色,在窗前面能夠自由移動或者說能夠往后退,但是不能把頭伸出窗外觀看的一種體驗。從Windowed 6DoF最終再過渡到完全6DoF,達(dá)到可以在一個場景當(dāng)中任意自由移動觀看的效果。從現(xiàn)在的技術(shù)要過渡到6DoF技術(shù)當(dāng)中要經(jīng)過很長的一段路程,MPEG的完全6DoF的標(biāo)準(zhǔn)定義基本都要到2022年以后文本才能夠成型。



接下來是MPEG細(xì)化到時間點上的一個路徑,首先就是MPEG-I如何定義沉浸式的視頻體驗,它分為兩個階段,分別是Phase 1和Phase 2,Phase 1當(dāng)中還分為Phase 1a和Phase 1b。Phase 1a就是360度視頻,這項標(biāo)準(zhǔn)已經(jīng)完成;, Phase 1b就是前面說到的3DoF+視頻,就是在360度視頻的基礎(chǔ)上有一定的自由度來上下左右移動,這項標(biāo)準(zhǔn)將會在今年完成。另外一個Phase 2就是從Windowed 6DoF過渡到完全6DoF,大約將在2022年左右完成。同時MPEG-I標(biāo)準(zhǔn)在點云壓縮方面也設(shè)置了兩個專題組,一個是G-PCP(基于Graphic的點云壓縮標(biāo)準(zhǔn)),另外一個就是V-PCC,就是將三維的點云映射到二維再用視頻壓縮方式進(jìn)行壓縮的一種方法。

?


接下去再簡單介紹下國內(nèi)的AVS標(biāo)準(zhǔn)組在6DoF標(biāo)準(zhǔn)方面的進(jìn)展。AVS標(biāo)準(zhǔn)組是國內(nèi)非常強(qiáng)大的視頻標(biāo)準(zhǔn)組織,擁有包括AVS2標(biāo)準(zhǔn)以及現(xiàn)在的AVS3標(biāo)準(zhǔn),其在壓縮率上已經(jīng)超過了現(xiàn)在的H.265標(biāo)準(zhǔn),并且AVS2標(biāo)準(zhǔn)在廣電系統(tǒng)中已經(jīng)得到廣泛的使用。目前AVS標(biāo)準(zhǔn)對于6DoF也已經(jīng)有了明確的進(jìn)展。第一在標(biāo)準(zhǔn)文檔方面,AVS 6DoF標(biāo)準(zhǔn)文檔 WD1.0已經(jīng)完成;第二在測試用例方面,已經(jīng)擁有兩段20s/30個相機(jī)的紋理圖+深度圖的6DoF的測試用例;第三在參考軟件方面,AVS標(biāo)準(zhǔn)已經(jīng)將6DoF視頻在手機(jī)端重建的軟件標(biāo)準(zhǔn)化,并完全開源。通過這個參考軟件結(jié)合測試用例就可以實現(xiàn)6DoF場景效果。


下面是6DoF視頻的標(biāo)準(zhǔn)框架,首先由多相機(jī)采集的紋理圖和深度圖生成6DoF視頻的表達(dá),在通過平面視頻的壓縮技術(shù)之后,在終端進(jìn)行基于深度圖的實時渲染,最終呈現(xiàn)出6DoF的視頻體驗。


3. 6DoF技術(shù)實踐和業(yè)務(wù)價值探索


在這里簡單介紹一下6DoF視頻體驗三種典型的產(chǎn)品技術(shù)形態(tài)。

?

?

第一種技術(shù)形態(tài)是子彈時間視頻,子彈時間視頻是最初級的一種形態(tài)。是在一個場景當(dāng)中能夠讓用戶通過自定義的一條路徑觀看的高自由度的體驗。例如在籃球比賽中,我希望在球員灌籃的時候可以在籃架繞一圈觀看灌籃的動作,或者說在籃球比賽當(dāng)中出現(xiàn)球員犯規(guī)但從當(dāng)前角度不能確定其是否犯規(guī)時,希望可以換一個觀看角度來進(jìn)行觀看,這些都是子彈時間視頻能夠達(dá)到的效果。

?


第二個產(chǎn)品形態(tài)即2D視頻+6DoF,即在普通2D視頻播放的過程中,在任意時間點,用戶都可以選擇進(jìn)入那一時間點的6DoF自由視角交互式體驗。在普通平面視頻上做6DoF交互式體驗的加法,這就是第二種產(chǎn)品形態(tài)。



第三種產(chǎn)品形態(tài)是完全顛覆性的,目前的實際應(yīng)用還受制于一些基礎(chǔ)設(shè)施,就是前面所說的帶寬、計算能力以及算法效果。這種體驗離現(xiàn)實的工業(yè)界的生產(chǎn)或者說工業(yè)界的用戶能夠接受還有一定的距離,但是在一些小型的場景下已經(jīng)具有一定的落地價值和可能。后續(xù)5G/8K時代的到來將大大加速完全6DoF視頻體驗的落地。


4. 6DoF技術(shù)未來展望


前面介紹了高自由度視頻目前可以達(dá)到的效果,以及對于現(xiàn)在視頻行業(yè)可能的變革,接下來展望一下6DoF技術(shù)未來的發(fā)展。

?


在前面曾提到過,如何看視頻的分辨率與自由度之間的關(guān)系,如上所示這里存在一個簡單的換算關(guān)系。視頻分辨率可以從540p、1080p到4K再到8K,手機(jī)的分辨率一般為1080p,達(dá)到1080p以上用戶在手機(jī)上已經(jīng)幾乎沒有辦法分辨其差別,那么如果到了4K、8K時代,手機(jī)端的視頻發(fā)展以及高分辨率存在的意義也就成為一個問題。但如果從高自由度的維度來看,完全的6DoF視頻,如果要呈現(xiàn)出像前面所示的大角度的高自由度體驗,對于視頻分辨率要求至少在8K以上。對于高自由度視頻來說,目前視頻的所能達(dá)到的分辨率遠(yuǎn)遠(yuǎn)不夠用,這對于現(xiàn)在的視頻行業(yè)來說可能是一個新的變革。


在這里可以換算一下,如果我們采用了32個相機(jī)來采集高自由度視頻,每個相機(jī)分辨率是540P,算上深度圖的傳輸,整體數(shù)據(jù)傳輸量就要達(dá)到8K級別,如果說需要在手機(jī)端看到1080P的高自由度圖像,同樣自由度就需要16K的分辨率。這就為視頻的體驗提升打開了新的可能,也回答了以后視頻的發(fā)展方向以及更高分辨率到底有什么用的問題。



在新的技術(shù)時代我們要做到更好的視頻體驗,需要哪幾個方面的突破?


第一就是5G, 5G技術(shù)能夠較好的解決傳輸帶寬的問題,在當(dāng)前網(wǎng)絡(luò)環(huán)境下對于4K的視頻,并不能流暢的進(jìn)行播放。而對于高自由度視頻來說,對帶寬的需求更大。


第二個是終端的約束,手機(jī)端目前最大的解碼能力(硬解碼)是4K,目前最新的手機(jī)都可以支持,但是8K的解碼現(xiàn)在只有很少的手機(jī)可以支持,但是我們?nèi)绻胍龅礁玫?DoF視頻體驗,8K只是一個基礎(chǔ)門檻。那么我們需要的就是等待手機(jī)端能夠?qū)崿F(xiàn)更好的解碼支持。


最后一個瓶頸也是目前來說很大的技術(shù)問題,龐大的數(shù)據(jù)量要在云端實現(xiàn)三維的重建,算法效率非常低的。從當(dāng)前我們的研究的結(jié)果來看,AI在3D方面已經(jīng)能夠達(dá)到傳統(tǒng)算法類似的效果,但是也有其缺陷,即非常依賴于不同場景的數(shù)據(jù)集,這方面還需要算法的不斷優(yōu)化。



總結(jié)


以下是我個人的展望,總的來說就是通過5G對于下行帶寬約束的放松,8K對于解碼的能力約束的放松,還有AI對于計算量約束的放松。可以預(yù)見的是高自由度視頻能夠帶來越來越多技術(shù)上的突破和用戶價值。


最后總結(jié)下今天演講的主要內(nèi)容,我們面對的是平面視頻顯示分辨率的極限,無論是在手機(jī)還是在電視上都會面臨達(dá)到4K和8K后,視頻體驗發(fā)展極限的問題。而6DoF視頻則提供了高自由度視頻體驗的多種可能。


第二,現(xiàn)在無論是國外的MPEG標(biāo)準(zhǔn),還是國內(nèi)的AVS標(biāo)準(zhǔn),在6DoF視頻方面已經(jīng)有了非常清晰的布局目標(biāo),只是要到達(dá)完全6DoF視頻體驗的水平可能還會有一段時間。


第三點, 6DoF在不同的產(chǎn)品形態(tài)上已經(jīng)逐步展現(xiàn)出來價值,特別是目前已經(jīng)探索出的比較好的落地點,如體育場景、綜藝場景等會非常適合采用高自由度的技術(shù),因為它強(qiáng)調(diào)的是單位時間的信息密度和空間信息量,高自由度技術(shù)是在給用戶提供的信息增量和信息密度上的價值,使用戶可以感受到更多有價值的信息。


最后一點是前面總結(jié)的,5G、8K和AI,包括異構(gòu)計算能力的提升,未來將極大的改善6DoF視頻在各個業(yè)務(wù)方面的瓶頸,使得用戶的體驗?zāi)軌蛟絹碓胶谩?/span>



LiveVideoStack? 招募

LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒及技術(shù)專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術(shù)生態(tài)發(fā)展。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。


點擊【閱讀原文】或掃描圖中二維碼,了解更多大會講師及分享內(nèi)容信息!

總結(jié)

以上是生活随笔為你收集整理的6DoF视频:通往下一代高自由度视频体验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。