高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁
LiveVideoStack通過郵件專訪了騰訊音視頻實驗室專家高孟平,他聊起了自己的成長與從業經歷,并暢談了帶領AI、視頻處理、編解碼、質量等團隊打造人眼視覺為標準的視頻服務平臺——麗影平臺的前前后后。在4月19-20日舉行的LiveVideoStackCon上海2019上,邀請了騰訊高級工程師李凱和王詩濤介紹騰訊音視頻實驗室在視頻前后處理及Codec方面的探索。點擊【閱讀原文】了解大會最新信息。
文 / 高孟平
策劃 / LiveVideoStack
如果你對多媒體技術和生態有話要說,輸出觀點與實踐經驗,歡迎聯系 contribute@livevideostack.com。
LiveVideoStack:高孟平你好,向LiveVideoStack的讀者介紹下自己的經歷,以及目前的工作內容與感興趣的領域。在眾多的前沿科技領域中,為什么選擇多媒體技術這一方向,有特別的魅力嗎?或對你有特別的意義?
高孟平:LiveVideoStack的朋友們大家好,我是高孟平,2008年加州大學圣地牙哥分校電腦電機博士,研究領域主要在視頻編解碼的Scalable Video Coding (SVC), 其中 motion vector,residual coding以及scalable bitstream selector發表了十多篇IEEE期刊及會議論文。博士畢業后加入美國高通公司,負責H.264行動編解碼芯片的系統設計。2012年加入美國蘋果公司,負責FaceTime實時視訊通信以及iTunes高品質視頻處理編解碼系統,并研發了高效且質量無損的分布式編碼架構。2018年初加入騰訊,擔任音視頻實驗室專家,帶領AI、視頻處理、編解碼、質量以及后臺團隊,打造全新以人眼視覺為標準的視頻服務平臺–騰訊麗影,在人工智慧與云端數據的助力下,規劃出新世代多媒體服務的創新之路。
多媒體技術是互聯網連接一切最自然的媒介,從文字、圖片、語音、視頻到人機互動,人與人的連結越發親密,人與機器的互動則越發直覺。我本身踏入多媒體領域,最早始自研究生階段加入的數位影像實驗室,二十年來,從影像、視頻到AI電腦視覺,從硬件、軟件到服務,經歷了無數多媒體技術的盛衰興廢,深深體悟到任何成功的多媒體技術都離不開人,唯有擁抱創新,以人為本,才能打造出觸動人心的多媒體現象級產品,這也是麗影誕生的初衷。
LiveVideoStack:接下來聊聊麗影平臺吧,SIGGRAPH Asia我看到關于麗影平臺的分享——對視頻進行修復和增強,看上去效果很不錯。能否介紹下麗影平臺?
高孟平:麗影平臺是一個以人眼視覺為標準的視頻服務平臺,在視頻理解,處理與評估領域大量引入日益成熟的人工智慧及云端大數據能力,并與傳統的視頻處理及編解碼技術深度結合, 各個環節以人眼視覺為指標最優化, 進而達到視頻“更小更漂亮”的用戶最佳體驗。
另一方面, 麗影平臺在快速發展的同時,也認知到多媒體服務各個面向的不可分割性,在開放音頻及圖片引擎以及多模態整合的能力后,一個以人體觀感為標準的多媒體服務平臺或許更適合描述麗影。 無論從哪個面向來描述,麗影都希望成為一個以人為本的平臺,乘載多媒體創新技術的各種可能。
LiveVideoStack:能否就麗影平臺在視頻分析,修復,處理,編碼,傳輸,解碼,評估(有參考或無參考)方面實現的方法與策略做些介紹?
高孟平:麗影的視頻技術模塊分為四大類, 視頻理解,視頻處理,視頻編解碼,視頻評估。以傳統視頻技術為基礎貫穿各模塊,并在視頻理解、處理與評估模塊中引入多項深度學習的能力 (括弧內)。
視頻理解
人眼關注區檢測 (ResNet-34 + Feature Pyramid)
場景檢測 (ResNet-50)
精彩視頻 (BSN)
視頻指紋 (MobileNet)
視頻源分析 – 人眼遮蔽效應, 質量, 噪聲
視頻處理
去壓縮失真 (DenseNet)
超分辨率 (DRRN)
人眼視覺銳化增強?
防抖
視頻編解碼
降噪器
自動碼率判斷
Region of Interest
各式編碼器
視頻評估
有參考 – PSNR, SSIM, VMAF
無參考 – 塊效應, 銳化, 增強 (RankIQA)
在各個模塊的開發環節, 我們以人眼視覺為衡量標準。 值得說明的是, 深度學習是視頻技術與人眼視覺間連結的重要橋梁,在許多視頻增強的訓練集中,都是人工將人眼喜好的程度標注下來, 直接以人眼視覺為黃金標準。?
LiveVideoStack:麗影平臺處理的延遲是多少?能否處理直播視頻流或實時交互場景下的視頻(如視頻會議)?
高孟平:麗影v1.1版的處理速度,在 720p 30fps,H.264的環境下,約為 0.5x real-time (一分鐘視頻耗時兩分鐘),這是在 Nvidia P40 單卡,8-CPU (2.4GHz,avx2) 機器上測得的數據。
同時麗影也提供分布式轉碼能力,可以在5臺上述機器上達到80%的效率,將速度提升到 2x real-time。 由于目前采取多遍分析編碼的策略,麗影暫時不支持實時場景(直播或會議),預計2019下半年才會開始提供實時服務。
LiveVideoStack:麗影平臺的能力是通過服務端實現的,有沒有可能在客戶端(如手機)上也實現部分能力?(比如在手機上實現超分。)現在手機的CPU/GPU性能不斷增強,一些高端手機還配有AI計算芯片。
高孟平:將部分麗影能力由服務端移植到客戶端是2019年Q3的重點規劃,建立麗影平臺的端云閉環能力,將重要能力放在最適合的地方,達到帶寬與計算資源的最佳利用。具體而言,包含去壓縮失真及超分辨率等后處理能力會率先上客戶端,其他如精彩視頻等視頻理解能力,落地采集端也能有效節省許多不必要的上傳帶寬。
LiveVideoStack:麗影平臺在服務端實現底層硬件是什么平臺,CPU,GPU、FPGA還是ASIC?
高孟平:麗影服務騰訊微視的大量視頻是基于 CPU + GPU 的架構。目前我們也正在分析ASIC的使用可能性。
LiveVideoStack:麗影平臺使用了哪些Codec,可以輸出哪些Codec流?(H.264、HEVC,VP9,AV1等)
高孟平:麗影目前支持 H.264 及 HEVC 的編碼, 其余暫時還不支持。
LiveVideoStack:播放麗影平臺輸出的視頻流,對客戶端(Web或手機)有特別的要求嗎?對CDN網絡有定制要求嗎?
高孟平:麗影輸出的都是標準視頻流,對客戶端沒有特別要求,也不需要對 CDN網絡有特別的定制。
LiveVideoStack:麗影平臺服務了騰訊內部和外部哪些產品?
高孟平:麗影提供服務給騰訊微視(100%頭部PGC內容),騰訊云CDN加速中心,以及Now直播。
LiveVideoStack:未來麗影平臺還會做哪些工作?有哪些迭代或新功能值得期待?
高孟平:2019年下半年麗影將會提供實時服務,包含直播及視頻通信,同時也會解放許多手機端的人眼視覺AI技術,我們非常興奮能將最先進的人眼視覺技術賦能于更多更廣的多媒體應用,從云端到手機端,由高品質邁向實時應用。
同時,麗影平臺在音視頻圖片文字等多模態整合,無參考視頻增強質量評估,以及大規模視頻檢索方面的能力也是我們目前的重點,希望在未來的多媒體創新上,跟大家一起深度合作,改變這個世界。
LiveVideoStack:數據量的爆發以及計算力的增長讓AI得以應用,未來幾年您看好哪些技術有廣泛的應用?
Immersive video applications
virtual reality
point cloud
volumetric video
multi-modal transformation
video-to-text journalism
text-to-video creation
multi-model search
video search by video, by image, by text (description)
智能安防 - 行為識別,可疑行為,準確率如何有效提升
LiveVideoStack:5G對于麗影平臺會有哪些機會和挑戰呢?
高孟平:帶寬的成本降低會讓一些成熟應用的技術成本更低廉,更看不出技術的差異性。然而帶寬的增加,卻更可以讓新興的應用加速普及,例如 8K virtual reality 以及 volumetric video。掌握人眼視覺的技術與標準,是視頻服務的不變準則,也是麗影未來會持續投入與堅持的方向。
點擊【閱讀原文】,了解更多LiveVideoStackCon 上海 2019 講師信息。
總結
以上是生活随笔為你收集整理的高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源声码器WORLD在语音合成中的应用
- 下一篇: LiveVideoStack线上交流分享