【线上圆桌整理 - 腾讯会议】进化中的视频会议
本次分享將聚焦在進行中的視頻會議,針對視頻會議新技術做探討。視頻會議不是單純的編解碼和網絡傳輸應用,它背后的數據支撐以及新能力引入都會帶來新的可能和機遇。本次演講邀請到騰訊會議產品部網絡技術組許景禧分享騰訊會議最近在網絡質量分析方面的工作(本文略過),以及探討近期熱門的光場會議,與大家交流視頻會議潛在的進化方向。
內容源自騰訊會議產品部高級研究員?許景禧在視頻會議下半場圓桌上的分享。
我是來自騰訊會議產品部網絡技術組許景禧。本次想與大家討論視頻會議方面最近有哪些新的技術有可能落地。
我們今天會聊一下最近比較感興趣的視頻會議新形式——光場會議,希望可以拋磚引玉與大家做討論。光場會議主要會討論其核心模塊,目前使用相關技術有哪些種類?
1
騰訊會議關注行業前沿
1.1 先進視頻技術
事實上,騰訊會議一直關注業界和學術界的新進展,落地了大量前沿技術,例如提高共享屏幕高保真度的特殊YUV4:4:4編碼,“Tencent Screen Encoder” TSE技術,還有喜聞樂見的虛擬背景、美顏方面技術。
1.2 優秀音頻體驗
值得一提的是騰訊會議在音頻方面花了很大力氣,設立了專門的天籟實驗室,投入大量研發,推出超寬帶語言的編解碼器、智能降噪、回音檢測消除技術。我們最近還推出騰訊會議天籟模組給合作伙伴,讓他們結合自己的硬件實現,提供與騰訊會議一樣高質量拾音能力。
2
依托騰訊云 騰訊會議助力企業協作轉型
目前騰訊會議在全球超過一百多個地區上架海外版,讓企業與全世界各地的人做實時音視頻會議交流。
3
更多客戶選擇
大量政府企業、教育企業已經使用了我們的產品,同時我們也保證了很多重要會議的召開。我們致力于持續增加騰訊會議的穩定性以及極端網絡抗性。
4
企業運營管理平臺
騰訊會議有大量企業用戶,對內部會議有較高要求,需要為它提供完整的管理工具和問題定位系統,讓企業IT方便了解整體資源消耗,查看目前會議進行狀態,或讓企業會服在不參與會議情況下配置會議相關細節闡述。
5
新一代的視頻會議探討——光場會議
騰訊會議一直關注著最新技術進展,因為我們知道新技術都有為客戶提供更好會議體驗的潛力。最新關注的光場會議是比較熱門方向,這里我們分享一些觀察和看法。
說到光場會議,大家首先想到的是Google Starline項目,系統比較大的賣點是做到讓參會者有共處一室的體驗,最關鍵的一點是,讓多個參會者能在多個不同角度看到遠程會人的不同側面。
5.1 顯示
此技術最讓人關注的點是,遠端參會者是通過什么方式在本地展示出三維效果的,所以我們優先討論這點。事實上,有很多技術可以實現這一點。例如我們可以通過佩戴VR/AR設備,如Valve Index,或者是微軟的Hololens,看到參會者虛擬形象。又或者,如果不想佩戴此種設備就直接看到三維的效果,SONY有硬件可以通過追蹤人眼觀察角度讓用戶看到畫面多個角度:從這邊看,就顯示這邊的視角;從另一邊看,就顯示另一邊的視角,進而感受到三維效果。如果想要像Google Starline一樣,能讓多個人同時觀看到三維效果,那就需要用到光場顯示器。比較有代表性的是Looking Glass 8K這個設備。
5.2 多人同時觀看多角度顯示器
LookingGlass廠商設備具體怎么做的呢?事實上這個技術看起來很高深,但本質很簡單:每個像素提供45個觀看角度,當用戶從相應角度觀看就可以看到相應畫面。45個角度其實是45個不同的畫面,將這些畫面按一定順序輸入至設備上,就可以如右下角那樣,搖擺顯示器就能看到不同的側面。事實上,這里有45個不同角度的視頻在同時顯示。不同廠商有不同實踐形式,LookingGlass應該是使用棱鏡的形式,還有一些會采用納米膜。不同廠商的設備提供的可視角度會有一定區別。Looking Glass 8K這個產品只能從水平50度角的范圍內,平分成45個角度觀看,上下移動時是不能看到對方的頭頂的,這點和Google的演示還有點類似。我們覺得Google有可能會用類似技術的硬件做展示,但也留意到Looking Glass暫時沒有這么大尺寸的顯示器,這里推測他們用的是定制設備。
5.3 采集
那我們怎么提供這45個視角的視頻呢?最簡單的方式,就是用扇形排布的45個攝像頭拍攝人物,并將得到的45個角度視頻實時傳到硬件上,這樣就可以完成最粗暴的光場會議。這里可能會存在一些問題,如攝像頭要怎樣做標定和同步。同時,傳輸45個視頻雖然不是不能做到,但還是比較浪費帶寬。Google有篇論文(上圖左下角)講到它如何通過攝像頭陣列做到類似事情,感興趣的同學可以看一下如何減少攝像頭的數目做到同樣效果。
看回Google Project Starline的宣傳圖片,它的上下方看起來都有攝像頭陣列。我們猜測它的本質還是用這種多攝像頭整列做重建。
5.4 重建
事實上,有三種不同的方式做重建。
一是采用虛擬人或者是Avatar的形式(如左上騰訊虛擬人)。用虛擬人可以事先采集人的整體特征,建立模型,再在實時會議上把人的動作表情映射到虛擬人上。缺點是要做大量前處理工作,用起來不方便。?
二是零幾年到一幾年一直流行的“點云”以及面重建技術(右上)。微軟對這一技術有很多研究,也有消息說微軟的Holoportation團隊出來創業后被Google收購了,所以Google也是可能用到類似技術的。
三是最近比較新的基于深度學習的多視角合成技術。多視角合成(左下)技術認為我們采集和傳輸45個視角太多了。事實上只需要用少量的,例如12個視角,通過一些方式生成剩下視角,就可以重建出這45個視角。這個技術的好處是泛用性較好,比較有代表性的是一個叫NeRF的工作,相關論文講到如何能通過神經輻射場做到這點。然而,采用該論文的方案,在我們的測試環境上,每次更換場景和人員的時候都需要進行7-8小時的訓練,渲染一幀圖像也要用超過1分鐘的時間,很難在實時會議中落地。在新一點的論文上,會有增加泛用性的一些方案,可以做到場景更普適,渲染時間更短,各位可以留意一下相關的進展。
以上是三套不同的方式來做的重建方案。這邊目前不確定Starline用的是哪種方案,也許是三者兼有,歡迎各位討論。目前比較明確的只有光場顯示器是必需品。
以上就是我的全部分享,謝謝大家。
詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。
總結
以上是生活随笔為你收集整理的【线上圆桌整理 - 腾讯会议】进化中的视频会议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【线上圆桌整理 - 微软】后疫情时代现代
- 下一篇: 视频压缩标准简史:从1929到2020