音视频技术开发周刊 | 213
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
?
聲學(xué)照相機(jī)——讓聲音“眼見(jiàn)為實(shí)”
日常生活中,總有各種各樣的聲音圍繞著我們,無(wú)時(shí)無(wú)刻不在通過(guò)振動(dòng)敲擊著我們的耳膜,并通過(guò)內(nèi)耳毛細(xì)胞將振動(dòng)轉(zhuǎn)變?yōu)殡娦盘?hào)傳輸至大腦。然而,在獲取信息時(shí),人類(lèi)通過(guò)聽(tīng)覺(jué)捕獲的信息量不足視覺(jué)的四分之一,且聽(tīng)覺(jué)在空間定位方面遠(yuǎn)遜于視覺(jué)。那么,有什么技術(shù)手段可以讓我們看見(jiàn)聲音呢?答案就是——聲學(xué)照相機(jī)。
詳情見(jiàn)>>???????聲學(xué)照相機(jī)——讓聲音“眼見(jiàn)為實(shí)”
?
極致流暢體驗(yàn)的密碼:網(wǎng)易云信 QoS 策略介紹 | 體驗(yàn)共享技術(shù)專(zhuān)題
近日,艾媒咨詢(xún)發(fā)布了《2021年中國(guó)泛娛樂(lè)行業(yè)體驗(yàn)共享專(zhuān)題報(bào)告》,首次提出「體驗(yàn)共享」將成為泛娛樂(lè)行業(yè)日后發(fā)展的重要方向。針對(duì)該趨勢(shì),網(wǎng)易云信推出「體驗(yàn)共享」技術(shù)專(zhuān)題,從 QoS 策略、WE-CAN 全球智能路由網(wǎng)絡(luò)、視頻、音頻等維度解讀一起聽(tīng)、一起看、一起唱、一起玩等場(chǎng)景背后的技術(shù)支持。本篇文章是該系列的第一篇。
詳情見(jiàn)>>極致流暢體驗(yàn)的密碼:網(wǎng)易云信 QoS 策略介紹 | 體驗(yàn)共享技術(shù)專(zhuān)題
?
未來(lái)流媒體工作流的核心技術(shù)
本文作者以行業(yè)內(nèi)資深大佬的眼光,首先概述了當(dāng)下 OTT 領(lǐng)域的關(guān)鍵技術(shù),然后展望了未來(lái)有前景的新技術(shù),內(nèi)容豐富,涵蓋廣泛。原文中有大量推薦閱讀及參考鏈接,感興趣的讀者請(qǐng)進(jìn)原文觀看。
詳情見(jiàn)>>未來(lái)流媒體工作流的核心技術(shù)
?
DeepMind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)
NLP 基準(zhǔn)測(cè)試所面臨的挑戰(zhàn)、機(jī)遇和一些改進(jìn)的建議。我們希望這篇文章可以讓讀者了解這方面科研的最新進(jìn)展,也要讓初學(xué)者全面了解NLP。文中還涉及到最近的論文、ACL 2021 演講以及ACL 2021 基準(zhǔn)測(cè)試研討會(huì)的觀點(diǎn),其中許多觀點(diǎn)涉及到了過(guò)去、現(xiàn)在和未來(lái)。
詳情見(jiàn)>>Mind研究科學(xué)家:NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)
?
????【競(jìng)賽小匯】NTIRE2021 視頻超分競(jìng)賽
TIRE2021的視頻超分競(jìng)賽仍然延續(xù)NTIRE2020以及AIM2019/20采用了REDS數(shù)據(jù)集,它的訓(xùn)練集、測(cè)試集以及驗(yàn)證機(jī)分別包含24000,3000,3000高清()視頻序列,每個(gè)序列包含100連續(xù)幀(命名為:'00000000.png'-'00000099.png')。本文對(duì)NTIRE2021視頻超分競(jìng)賽進(jìn)行了簡(jiǎn)單的介紹,總而言之一句話:BasicVSR是最大贏家。
詳情見(jiàn)>>【競(jìng)賽小匯】NTIRE2021 視頻超分競(jìng)賽
ITU簡(jiǎn)史(三)
自1865年起的一個(gè)半世紀(jì)以來(lái), ITU(國(guó)際電信聯(lián)盟)一直處于通信發(fā)展的核心地位,無(wú)論是從電報(bào)問(wèn)世還是到以衛(wèi)星、移動(dòng)電話和互聯(lián)網(wǎng)為標(biāo)志的現(xiàn)代世界。ITU講述的是政府、私營(yíng)公司和其他利益攸關(guān)方之間開(kāi)展國(guó)際合作的故事。我們的持續(xù)使命是,在新技術(shù)發(fā)展的過(guò)程中,找到整合新技術(shù)的最佳實(shí)際解決方案,使所有人均能享受新技術(shù)的好處。(進(jìn)入文章后,文末含ITU簡(jiǎn)史(一)、(二)部分鏈接可點(diǎn)擊瀏覽)
詳情見(jiàn)>>ITU簡(jiǎn)史(三)
如何實(shí)現(xiàn) iOS 短視頻跨頁(yè)面的無(wú)痕續(xù)播?
在一切皆可視頻化的今天,短視頻內(nèi)容作為移動(dòng)端產(chǎn)品新的促活點(diǎn),受到了越來(lái)越多的重視與投入。盒馬在秒播、卡頓率、播放成功率等基礎(chǔ)優(yōu)化之外,在用戶(hù)使用體驗(yàn)上引入了無(wú)痕續(xù)播能力,提升用戶(hù)觀看視頻內(nèi)容的延續(xù)性。本篇將分享盒馬在 iOS 短視頻方面的實(shí)踐干貨。
詳情見(jiàn)>>如何實(shí)現(xiàn)iOS短視頻跨頁(yè)面的無(wú)痕續(xù)播
?
用于VVC質(zhì)量增強(qiáng)和超分辨率的多任務(wù)學(xué)習(xí)
本次演講主要對(duì)論文《Multitask learning for VVC Quality Enhancement and Super-Resolution》進(jìn)行了介紹。論文中介紹了一種多任務(wù)的訓(xùn)練方式,可以使用單個(gè)模型分別進(jìn)行超分和壓縮視頻質(zhì)量增強(qiáng),并且取得相比于單個(gè)模型更好的效果。
詳情見(jiàn)>>???????用于VVC質(zhì)量增強(qiáng)和超分辨率的多任務(wù)學(xué)習(xí)
三星電子推出X-net架構(gòu)用于語(yǔ)音通話
近日,三星電子推出X-net,這是一種聯(lián)合學(xué)習(xí)的Scale-down和Scale-up架構(gòu),用于語(yǔ)音編碼中的預(yù)處理和后處理,作為在帶寬受限的語(yǔ)音通話信道上擴(kuò)展帶寬的一種手段。其中,在發(fā)送端和接收端分別部署Scale-down和Scale-up,以進(jìn)行下采樣和上采樣處理。并對(duì)子模塊進(jìn)行單獨(dú)監(jiān)督訓(xùn)練,這樣即使缺少一個(gè)子模塊,X-net也能夠正常工作。在三星電子發(fā)表的X-net論文中(X-net: A Joint Scale Down and Scale Up Method for Voice Call),有結(jié)果表明,聯(lián)合訓(xùn)練的 X-net 在客觀和主觀指標(biāo)上,比常見(jiàn)的音頻超分辨率方法有明顯改進(jìn),即使在只有 1k 參數(shù)量級(jí)的輕量級(jí)網(wǎng)絡(luò)上也是如此。
詳情見(jiàn)>>三星電子推出X-net架構(gòu)用于語(yǔ)音通話
Easy Tech:什么是I幀、P幀和B幀?
I幀、P幀和B幀(I-frames、P-frames and B-frames)的概念是視頻壓縮領(lǐng)域的基礎(chǔ)。這三種幀類(lèi)型在特定情況下用于提高編解碼器的壓縮效率、壓縮流的視頻質(zhì)量,以及使得流去應(yīng)對(duì)傳輸和存儲(chǔ)時(shí)候的錯(cuò)誤和故障。
詳情見(jiàn)>>Easy Tech:什么是I幀、P幀和B幀?
關(guān)于幀內(nèi)預(yù)測(cè)技術(shù)的一些梳理和思考
預(yù)測(cè)在中文的解釋是:預(yù)先測(cè)定或推測(cè),即為在所有已知條件下,推測(cè)未知的信息。在視頻編碼里的預(yù)測(cè)技術(shù)分為兩種,如果預(yù)測(cè)過(guò)程信息源來(lái)自當(dāng)前幀,則稱(chēng)之為幀內(nèi)預(yù)測(cè)(intra prediction),如果預(yù)測(cè)信息源來(lái)自其他幀,則稱(chēng)之為幀間預(yù)測(cè)(inter prediction)。對(duì)編碼器來(lái)講,它們都有著一樣的輸入、輸出和結(jié)果目標(biāo)。
詳情見(jiàn)>>關(guān)于幀內(nèi)預(yù)測(cè)技術(shù)的一些梳理和思考???????
ICASSP2021:AV1幀內(nèi)模式編碼改進(jìn)
本文來(lái)自ICASSP2021論文IMPROVED INTRA MODE CODING BEYOND AV1。在AV1中幀內(nèi)預(yù)測(cè)模式分為角度幀內(nèi)預(yù)測(cè)模式和非角度幀內(nèi)預(yù)測(cè)模式,和VP9一樣有8種角度幀內(nèi)預(yù)測(cè)模式,在每種方向上還有7個(gè)delta角度(-3~+3)用于擴(kuò)展方向的粒度,總共56個(gè)方向模式。
詳情見(jiàn)>>ICASSP2021:AV1幀內(nèi)模式編碼改進(jìn)
基于線性預(yù)測(cè)的語(yǔ)音編碼原理解析
早期的音頻系統(tǒng)都是基于聲音的模擬信號(hào)實(shí)現(xiàn)的,在聲音的錄制、編輯和播放過(guò)程中很容易引入各種噪聲,從而導(dǎo)致信號(hào)的失真。隨著信息技術(shù)的發(fā)展,數(shù)字信號(hào)處理技術(shù)在越來(lái)越多領(lǐng)域得到了應(yīng)用,數(shù)字信號(hào)更是具備了易于存儲(chǔ)和遠(yuǎn)距離傳輸、沒(méi)有累積失真、抗干擾能力強(qiáng)等等,信號(hào)和信號(hào)處理都往數(shù)字化發(fā)展。為了使得數(shù)字音頻可以被高效地壓縮存儲(chǔ)并高品質(zhì)地還原,數(shù)字音頻的編碼技術(shù)就變成至關(guān)重要的一個(gè)部分了。本篇文章會(huì)介紹當(dāng)今的音頻的編碼器(傳統(tǒng)算法非深度學(xué)習(xí))的兩大主流陣營(yíng)之一的基于線性預(yù)測(cè)的語(yǔ)音編碼器的原理。
詳情見(jiàn)>>基于線性預(yù)測(cè)的語(yǔ)音編碼原理解析
?
大話ion系列(一)
ion-sfu作為ion分布式架構(gòu)里的核心模塊,SFU是選擇轉(zhuǎn)發(fā)單元的簡(jiǎn)稱(chēng),可以分發(fā)WebRTC的媒體流。ion-sfu從pion/ion拆分出來(lái),經(jīng)過(guò)社區(qū)打磨,是目前GO方案中最成熟且使用最廣的SFU。
詳情見(jiàn)>>大話ion系列(一)
詳解 WebRTC 傳輸安全機(jī)制:一文讀懂 DTLS 協(xié)議
DTLS(Datagram Transport Layer Security) 是基于 UDP 場(chǎng)景下數(shù)據(jù)包可能丟失或重新排序的現(xiàn)實(shí)情況下,為 UDP 定制和改進(jìn)的 TLS 協(xié)議。在 WebRTC 中使用 DTLS 的地方包括兩部分: 協(xié)商和管理 SRTP 密鑰和為 DataChannel 提供加密通道。
詳情見(jiàn)>>詳解 WebRTC 傳輸安全機(jī)制:一文讀懂 DTLS 協(xié)議
?
YangWebRTC,全新的客戶(hù)端開(kāi)源項(xiàng)目
yangwebrtc是一個(gè)自主研發(fā)的支持Webrtc/Srt/Rtmp的rtc架構(gòu),包含多種視音頻編解碼和處理等。支持視頻會(huì)議、高清錄播直播、直播互動(dòng)等多種視音頻應(yīng)用。可用于遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療、指揮調(diào)度、安防監(jiān)控、影視錄播、協(xié)同辦公、直播互動(dòng)等多種行業(yè)應(yīng)用。
詳情見(jiàn)>>YangWebRTC,全新的客戶(hù)端開(kāi)源項(xiàng)目???????
?
DECA:基于單張靜態(tài)圖像,進(jìn)行 3D 人臉建模
3D 建模是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)關(guān)鍵問(wèn)題,其中 3D 人臉建模,在游戲、影視特效、VR 等領(lǐng)域應(yīng)用廣泛。但是由于人臉的復(fù)雜性、易變性,建立逼真的 3D 人臉模型,成為眾多研究者不得不面對(duì)的一大挑戰(zhàn)。本文羅列了 3D 人臉建模常用的 3 大方法,以及基于靜態(tài)圖像進(jìn)行人臉建模的 3 個(gè)方法。文末分享了一個(gè) DECA 教程。
詳情見(jiàn)>>DECA:基于單張靜態(tài)圖像,進(jìn)行 3D 人臉建模
ICCV2021 盲圖像超分 MANet:ETH團(tuán)隊(duì)提出空間可變模糊核估計(jì)新思路
這篇文章是ETH團(tuán)隊(duì)在盲圖像超分之空間可變模糊核估計(jì) 方面的工作,已被ICCV2021接收。針對(duì)實(shí)際應(yīng)用場(chǎng)景中模糊核的空間可變性,提出一種新的空間可變模糊核估計(jì)方案MANet。從退化的局部性角度發(fā)出,對(duì)現(xiàn)有方案的局限性進(jìn)行了分析,同時(shí)提出MAConv解決小模型的弱表達(dá)能力問(wèn)題。相比已有模糊核估計(jì)方案,所提方案取得了顯著性能提升;當(dāng)與非盲圖像超分方案組合后,將盲圖像超分性能推到了新的高度。
詳情見(jiàn)>>ICCV2021 盲圖像超分 MANet:ETH團(tuán)隊(duì)提出空間可變模糊核估計(jì)新思路
神經(jīng)渲染最新進(jìn)展與算法(二):NeRF及其演化
基于神經(jīng)輻射場(chǎng)(NeRF)的場(chǎng)景表征與容積渲染無(wú)疑是近兩年神經(jīng)渲染方向的爆點(diǎn)工作之一。在提出后的短短一年左右時(shí)間內(nèi),NeRF以簡(jiǎn)潔優(yōu)美的實(shí)現(xiàn)思路吸引了大量學(xué)者進(jìn)行深入和拓展研究。本文主要介紹了NeRF方法的基本思想與實(shí)現(xiàn),分析了該方法的優(yōu)點(diǎn)和局限,探討了它在計(jì)算加速和可編輯渲染方向的一些最新進(jìn)展。相信NeRF方法會(huì)進(jìn)一步推進(jìn)神經(jīng)渲染的發(fā)展。我們將持續(xù)關(guān)注這一領(lǐng)域,并不定期分享我們的認(rèn)識(shí)。
詳情見(jiàn)>>神經(jīng)渲染最新進(jìn)展與算法(二):NeRF及其演化
?
在元宇宙中絕對(duì)需要的雙手!AI算法實(shí)現(xiàn)手指重建,倒酒沏茶不在話下,甚至可以搖花手!
AI算法實(shí)現(xiàn)手指重建這項(xiàng)研究由來(lái)自愛(ài)丁堡大學(xué)的He Zhang和Facebook Reality Labs的幾位合作者共同完成。與其他類(lèi)似研究相比,這項(xiàng)研究幾乎擁有目前效果最好的手指動(dòng)作建模。這一切都是依靠團(tuán)隊(duì)提出的ManipNet深度神經(jīng)網(wǎng)絡(luò)算法。ManipNet利用手-物體對(duì)象的空間之間的關(guān)系特征,直接從數(shù)據(jù)中學(xué)習(xí)手部的自然動(dòng)作。
詳情見(jiàn)>>在元宇宙中絕對(duì)需要的雙手!AI算法實(shí)現(xiàn)手指重建,倒酒沏茶不在話下,甚至可以搖花手!???????
?
Tobii CEO:AR/VR的未來(lái)形態(tài)將廣泛結(jié)合眼球追蹤
作為眼球追蹤方案的主流廠商之一,Tobii的技術(shù)在AR/VR領(lǐng)域取得多項(xiàng)應(yīng)用,比如Vive Pro Eye、惠普Reverb G2 Omnicept版本等頭顯均采用其眼球追蹤系統(tǒng)。近期,Tobii宣布將收購(gòu)汽車(chē)系統(tǒng)公司Phasya,規(guī)模高達(dá)470萬(wàn)美元。Phasya提供的技術(shù)包括:通過(guò)眼球追蹤來(lái)監(jiān)控司機(jī)精力的可穿戴解決方案Drowsimeter,以及識(shí)別司機(jī)壓力、視覺(jué)干擾、認(rèn)知負(fù)荷等技術(shù)。
詳情見(jiàn)>>Tobii CEO:AR/VR的未來(lái)形態(tài)將廣泛結(jié)合眼球追蹤
?
慕尼黑國(guó)際車(chē)展:自動(dòng)駕駛技術(shù)再“上新”
智能汽車(chē)是未來(lái)汽車(chē)發(fā)展的方向,而自動(dòng)駕駛是其中最重要的技術(shù)之一。在2021年德國(guó)慕尼黑國(guó)際汽車(chē)展(IAA)上,自動(dòng)駕駛成為各廠商展示創(chuàng)新技術(shù)的重要領(lǐng)域。德國(guó)大眾集團(tuán)CEO迪斯在車(chē)展的論壇上表示:“自動(dòng)駕駛將會(huì)徹底改變世界,因?yàn)樗淖兞巳藗儗?duì)車(chē)的使用方法。”
詳情見(jiàn)>>慕尼黑國(guó)際車(chē)展:自動(dòng)駕駛技術(shù)再“上新”
車(chē)輛聯(lián)網(wǎng)后,下一步是「駕駛員聯(lián)網(wǎng)」?
如果將數(shù)據(jù)比喻為新形態(tài)的石油,那么遠(yuǎn)程通信行業(yè)就正在為鉆機(jī)配備人員、操作管道和提煉原油產(chǎn)品。盡管這是一個(gè)充滿(mǎn)爭(zhēng)議的比喻,但隨著互聯(lián)汽車(chē)的出現(xiàn),移動(dòng)領(lǐng)域確實(shí)有許多參與者希望通過(guò)車(chē)輛數(shù)據(jù)來(lái)實(shí)現(xiàn)更安全的道路狀況、更健康的車(chē)輛、得到強(qiáng)化的車(chē)內(nèi)體驗(yàn)和新的收入來(lái)源。
詳情見(jiàn)>>車(chē)聯(lián)網(wǎng)后,下一步是"駕駛員聯(lián)網(wǎng)"?
激光雷達(dá)的強(qiáng)度標(biāo)定及路標(biāo)提取
自動(dòng)駕駛對(duì)高精地圖的需求日益重要,本文主要是研究3D激光雷達(dá)傳感器如何進(jìn)行強(qiáng)度標(biāo)定,能夠利用標(biāo)定后的強(qiáng)度信息實(shí)現(xiàn)路標(biāo)的提取和識(shí)別, 典型的激光雷達(dá)傳感器測(cè)量值包含了距離信息和強(qiáng)度信息,所謂的強(qiáng)度信息即是從物體表面反射的強(qiáng)度,在物理上分析,強(qiáng)度的值取決于三個(gè)因素:物體反射率,到物體表面的距離,以及入射角,因此相同反射率的路標(biāo)值相對(duì)于傳感器的不同的距離和入射角,將得到不同的強(qiáng)度值。通過(guò)對(duì)激光雷達(dá)的強(qiáng)度標(biāo)定,確保對(duì)同一物體的具有相同的強(qiáng)度值。為了解決這一問(wèn)題,利用了傳感器相對(duì)于參考物體表面的強(qiáng)度特性,估算了物體表面的反射率,利用Ostu閾值法進(jìn)行道路路標(biāo)線的提取,驗(yàn)證標(biāo)定結(jié)果的可行性。
詳情見(jiàn)>>激光雷達(dá)的強(qiáng)度標(biāo)定及路標(biāo)提取
活動(dòng)推薦
?
【免費(fèi)參與】從多維度出發(fā) 保障&提升實(shí)時(shí)音視頻質(zhì)量
10月30日 | 北京?LiveVideoStack將攜手七牛云共邀4位技術(shù)大咖,圍繞著實(shí)時(shí)音視頻場(chǎng)景下,七牛云如何從多個(gè)維度來(lái)保障和提升音畫(huà)質(zhì)量展開(kāi)。我們所理解的音畫(huà)質(zhì)量,不僅包括最基礎(chǔ)的服務(wù)質(zhì)量,還包括我們的觀感體驗(yàn),本場(chǎng)將會(huì)從服務(wù)端、客戶(hù)端、編解碼等多個(gè)領(lǐng)域展開(kāi),對(duì)保障和提升音視頻質(zhì)量相關(guān)的經(jīng)驗(yàn)進(jìn)行分享。
?
掃碼?👆🏻👆🏻👆🏻立即報(bào)名
? 活動(dòng)時(shí)間:2021/10/30?9:00-12:00
🚀 參與方式:掃描上方二維碼,免費(fèi)參與線下活動(dòng)(現(xiàn)場(chǎng)還會(huì)有精美禮品喲~)
?
掃描上方二維碼,限時(shí)免費(fèi)報(bào)名LiveVideoStack Meet | 北京沙龍!
插圖源自Pexels
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 213的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【媒体服务质量监控与QoE】
- 下一篇: 【推荐】技术人必看的音视频学习资源清单