當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 213

發(fā)布時(shí)間：2024/4/11 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 213 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

每周一期，縱覽音視頻技術(shù)領(lǐng)域的干貨。

新聞投稿：contribute@livevideostack.com。

聲學(xué)照相機(jī)——讓聲音“眼見(jiàn)為實(shí)”

日常生活中，總有各種各樣的聲音圍繞著我們，無(wú)時(shí)無(wú)刻不在通過(guò)振動(dòng)敲擊著我們的耳膜，并通過(guò)內(nèi)耳毛細(xì)胞將振動(dòng)轉(zhuǎn)變?yōu)殡娦盘?hào)傳輸至大腦。然而，在獲取信息時(shí)，人類(lèi)通過(guò)聽(tīng)覺(jué)捕獲的信息量不足視覺(jué)的四分之一，且聽(tīng)覺(jué)在空間定位方面遠(yuǎn)遜于視覺(jué)。那么，有什么技術(shù)手段可以讓我們看見(jiàn)聲音呢？答案就是——聲學(xué)照相機(jī)。

詳情見(jiàn)>>???????聲學(xué)照相機(jī)——讓聲音“眼見(jiàn)為實(shí)”

極致流暢體驗(yàn)的密碼：網(wǎng)易云信 QoS 策略介紹 | 體驗(yàn)共享技術(shù)專(zhuān)題

近日，艾媒咨詢(xún)發(fā)布了《2021年中國(guó)泛娛樂(lè)行業(yè)體驗(yàn)共享專(zhuān)題報(bào)告》，首次提出「體驗(yàn)共享」將成為泛娛樂(lè)行業(yè)日后發(fā)展的重要方向。針對(duì)該趨勢(shì)，網(wǎng)易云信推出「體驗(yàn)共享」技術(shù)專(zhuān)題，從 QoS 策略、WE-CAN 全球智能路由網(wǎng)絡(luò)、視頻、音頻等維度解讀一起聽(tīng)、一起看、一起唱、一起玩等場(chǎng)景背后的技術(shù)支持。本篇文章是該系列的第一篇。

詳情見(jiàn)>>極致流暢體驗(yàn)的密碼：網(wǎng)易云信 QoS 策略介紹 | 體驗(yàn)共享技術(shù)專(zhuān)題

未來(lái)流媒體工作流的核心技術(shù)

本文作者以行業(yè)內(nèi)資深大佬的眼光，首先概述了當(dāng)下 OTT 領(lǐng)域的關(guān)鍵技術(shù)，然后展望了未來(lái)有前景的新技術(shù)，內(nèi)容豐富，涵蓋廣泛。原文中有大量推薦閱讀及參考鏈接，感興趣的讀者請(qǐng)進(jìn)原文觀看。

詳情見(jiàn)>>未來(lái)流媒體工作流的核心技術(shù)

DeepMind研究科學(xué)家：NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

NLP 基準(zhǔn)測(cè)試所面臨的挑戰(zhàn)、機(jī)遇和一些改進(jìn)的建議。我們希望這篇文章可以讓讀者了解這方面科研的最新進(jìn)展，也要讓初學(xué)者全面了解NLP。文中還涉及到最近的論文、ACL 2021 演講以及ACL 2021 基準(zhǔn)測(cè)試研討會(huì)的觀點(diǎn)，其中許多觀點(diǎn)涉及到了過(guò)去、現(xiàn)在和未來(lái)。

詳情見(jiàn)>>Mind研究科學(xué)家：NLP基準(zhǔn)測(cè)試的現(xiàn)在、過(guò)去和未來(lái)

????【競(jìng)賽小匯】NTIRE2021 視頻超分競(jìng)賽

TIRE2021的視頻超分競(jìng)賽仍然延續(xù)NTIRE2020以及AIM2019/20采用了REDS數(shù)據(jù)集，它的訓(xùn)練集、測(cè)試集以及驗(yàn)證機(jī)分別包含24000，3000，3000高清()視頻序列，每個(gè)序列包含100連續(xù)幀(命名為：'00000000.png'-'00000099.png')。本文對(duì)NTIRE2021視頻超分競(jìng)賽進(jìn)行了簡(jiǎn)單的介紹，總而言之一句話：BasicVSR是最大贏家。

詳情見(jiàn)>>【競(jìng)賽小匯】NTIRE2021 視頻超分競(jìng)賽

ITU簡(jiǎn)史（三）

自1865年起的一個(gè)半世紀(jì)以來(lái)， ITU（國(guó)際電信聯(lián)盟）一直處于通信發(fā)展的核心地位，無(wú)論是從電報(bào)問(wèn)世還是到以衛(wèi)星、移動(dòng)電話和互聯(lián)網(wǎng)為標(biāo)志的現(xiàn)代世界。ITU講述的是政府、私營(yíng)公司和其他利益攸關(guān)方之間開(kāi)展國(guó)際合作的故事。我們的持續(xù)使命是，在新技術(shù)發(fā)展的過(guò)程中，找到整合新技術(shù)的最佳實(shí)際解決方案，使所有人均能享受新技術(shù)的好處。（進(jìn)入文章后，文末含ITU簡(jiǎn)史（一）、（二）部分鏈接可點(diǎn)擊瀏覽）

詳情見(jiàn)>>ITU簡(jiǎn)史（三）

如何實(shí)現(xiàn) iOS 短視頻跨頁(yè)面的無(wú)痕續(xù)播？

在一切皆可視頻化的今天，短視頻內(nèi)容作為移動(dòng)端產(chǎn)品新的促活點(diǎn)，受到了越來(lái)越多的重視與投入。盒馬在秒播、卡頓率、播放成功率等基礎(chǔ)優(yōu)化之外，在用戶(hù)使用體驗(yàn)上引入了無(wú)痕續(xù)播能力，提升用戶(hù)觀看視頻內(nèi)容的延續(xù)性。本篇將分享盒馬在 iOS 短視頻方面的實(shí)踐干貨。

詳情見(jiàn)>>如何實(shí)現(xiàn)iOS短視頻跨頁(yè)面的無(wú)痕續(xù)播

用于VVC質(zhì)量增強(qiáng)和超分辨率的多任務(wù)學(xué)習(xí)

本次演講主要對(duì)論文《Multitask learning for VVC Quality Enhancement and Super-Resolution》進(jìn)行了介紹。論文中介紹了一種多任務(wù)的訓(xùn)練方式，可以使用單個(gè)模型分別進(jìn)行超分和壓縮視頻質(zhì)量增強(qiáng)，并且取得相比于單個(gè)模型更好的效果。

詳情見(jiàn)>>???????用于VVC質(zhì)量增強(qiáng)和超分辨率的多任務(wù)學(xué)習(xí)

三星電子推出X-net架構(gòu)用于語(yǔ)音通話

近日，三星電子推出X-net，這是一種聯(lián)合學(xué)習(xí)的Scale-down和Scale-up架構(gòu)，用于語(yǔ)音編碼中的預(yù)處理和后處理，作為在帶寬受限的語(yǔ)音通話信道上擴(kuò)展帶寬的一種手段。其中，在發(fā)送端和接收端分別部署Scale-down和Scale-up，以進(jìn)行下采樣和上采樣處理。并對(duì)子模塊進(jìn)行單獨(dú)監(jiān)督訓(xùn)練，這樣即使缺少一個(gè)子模塊，X-net也能夠正常工作。在三星電子發(fā)表的X-net論文中（X-net: A Joint Scale Down and Scale Up Method for Voice Call），有結(jié)果表明，聯(lián)合訓(xùn)練的 X-net 在客觀和主觀指標(biāo)上，比常見(jiàn)的音頻超分辨率方法有明顯改進(jìn)，即使在只有 1k 參數(shù)量級(jí)的輕量級(jí)網(wǎng)絡(luò)上也是如此。

詳情見(jiàn)>>三星電子推出X-net架構(gòu)用于語(yǔ)音通話

Easy Tech：什么是I幀、P幀和B幀？

I幀、P幀和B幀（I-frames、P-frames and B-frames）的概念是視頻壓縮領(lǐng)域的基礎(chǔ)。這三種幀類(lèi)型在特定情況下用于提高編解碼器的壓縮效率、壓縮流的視頻質(zhì)量，以及使得流去應(yīng)對(duì)傳輸和存儲(chǔ)時(shí)候的錯(cuò)誤和故障。

詳情見(jiàn)>>Easy Tech：什么是I幀、P幀和B幀？

關(guān)于幀內(nèi)預(yù)測(cè)技術(shù)的一些梳理和思考

預(yù)測(cè)在中文的解釋是：預(yù)先測(cè)定或推測(cè)，即為在所有已知條件下，推測(cè)未知的信息。在視頻編碼里的預(yù)測(cè)技術(shù)分為兩種，如果預(yù)測(cè)過(guò)程信息源來(lái)自當(dāng)前幀，則稱(chēng)之為幀內(nèi)預(yù)測(cè)（intra prediction），如果預(yù)測(cè)信息源來(lái)自其他幀，則稱(chēng)之為幀間預(yù)測(cè)（inter prediction）。對(duì)編碼器來(lái)講，它們都有著一樣的輸入、輸出和結(jié)果目標(biāo)。

詳情見(jiàn)>>關(guān)于幀內(nèi)預(yù)測(cè)技術(shù)的一些梳理和思考???????

ICASSP2021：AV1幀內(nèi)模式編碼改進(jìn)

本文來(lái)自ICASSP2021論文IMPROVED INTRA MODE CODING BEYOND AV1。在AV1中幀內(nèi)預(yù)測(cè)模式分為角度幀內(nèi)預(yù)測(cè)模式和非角度幀內(nèi)預(yù)測(cè)模式，和VP9一樣有8種角度幀內(nèi)預(yù)測(cè)模式，在每種方向上還有7個(gè)delta角度（-3~+3）用于擴(kuò)展方向的粒度，總共56個(gè)方向模式。

詳情見(jiàn)>>ICASSP2021：AV1幀內(nèi)模式編碼改進(jìn)

基于線性預(yù)測(cè)的語(yǔ)音編碼原理解析

早期的音頻系統(tǒng)都是基于聲音的模擬信號(hào)實(shí)現(xiàn)的，在聲音的錄制、編輯和播放過(guò)程中很容易引入各種噪聲，從而導(dǎo)致信號(hào)的失真。隨著信息技術(shù)的發(fā)展，數(shù)字信號(hào)處理技術(shù)在越來(lái)越多領(lǐng)域得到了應(yīng)用，數(shù)字信號(hào)更是具備了易于存儲(chǔ)和遠(yuǎn)距離傳輸、沒(méi)有累積失真、抗干擾能力強(qiáng)等等，信號(hào)和信號(hào)處理都往數(shù)字化發(fā)展。為了使得數(shù)字音頻可以被高效地壓縮存儲(chǔ)并高品質(zhì)地還原，數(shù)字音頻的編碼技術(shù)就變成至關(guān)重要的一個(gè)部分了。本篇文章會(huì)介紹當(dāng)今的音頻的編碼器(傳統(tǒng)算法非深度學(xué)習(xí))的兩大主流陣營(yíng)之一的基于線性預(yù)測(cè)的語(yǔ)音編碼器的原理。

詳情見(jiàn)>>基于線性預(yù)測(cè)的語(yǔ)音編碼原理解析

大話ion系列（一）

ion-sfu作為ion分布式架構(gòu)里的核心模塊，SFU是選擇轉(zhuǎn)發(fā)單元的簡(jiǎn)稱(chēng)，可以分發(fā)WebRTC的媒體流。ion-sfu從pion/ion拆分出來(lái)，經(jīng)過(guò)社區(qū)打磨，是目前GO方案中最成熟且使用最廣的SFU。

詳情見(jiàn)>>大話ion系列（一）

詳解 WebRTC 傳輸安全機(jī)制：一文讀懂 DTLS 協(xié)議

DTLS(Datagram Transport Layer Security) 是基于 UDP 場(chǎng)景下數(shù)據(jù)包可能丟失或重新排序的現(xiàn)實(shí)情況下，為 UDP 定制和改進(jìn)的 TLS 協(xié)議。在 WebRTC 中使用 DTLS 的地方包括兩部分: 協(xié)商和管理 SRTP 密鑰和為 DataChannel 提供加密通道。

詳情見(jiàn)>>詳解 WebRTC 傳輸安全機(jī)制：一文讀懂 DTLS 協(xié)議

YangWebRTC，全新的客戶(hù)端開(kāi)源項(xiàng)目

yangwebrtc是一個(gè)自主研發(fā)的支持Webrtc/Srt/Rtmp的rtc架構(gòu)，包含多種視音頻編解碼和處理等。支持視頻會(huì)議、高清錄播直播、直播互動(dòng)等多種視音頻應(yīng)用。可用于遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療、指揮調(diào)度、安防監(jiān)控、影視錄播、協(xié)同辦公、直播互動(dòng)等多種行業(yè)應(yīng)用。

詳情見(jiàn)>>YangWebRTC，全新的客戶(hù)端開(kāi)源項(xiàng)目???????

DECA：基于單張靜態(tài)圖像，進(jìn)行 3D 人臉建模

3D 建模是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)關(guān)鍵問(wèn)題，其中 3D 人臉建模，在游戲、影視特效、VR 等領(lǐng)域應(yīng)用廣泛。但是由于人臉的復(fù)雜性、易變性，建立逼真的 3D 人臉模型，成為眾多研究者不得不面對(duì)的一大挑戰(zhàn)。本文羅列了 3D 人臉建模常用的 3 大方法，以及基于靜態(tài)圖像進(jìn)行人臉建模的 3 個(gè)方法。文末分享了一個(gè) DECA 教程。

詳情見(jiàn)>>DECA：基于單張靜態(tài)圖像，進(jìn)行 3D 人臉建模

ICCV2021 盲圖像超分 MANet：ETH團(tuán)隊(duì)提出空間可變模糊核估計(jì)新思路

這篇文章是ETH團(tuán)隊(duì)在盲圖像超分之空間可變模糊核估計(jì) 方面的工作，已被ICCV2021接收。針對(duì)實(shí)際應(yīng)用場(chǎng)景中模糊核的空間可變性，提出一種新的空間可變模糊核估計(jì)方案MANet。從退化的局部性角度發(fā)出，對(duì)現(xiàn)有方案的局限性進(jìn)行了分析，同時(shí)提出MAConv解決小模型的弱表達(dá)能力問(wèn)題。相比已有模糊核估計(jì)方案，所提方案取得了顯著性能提升；當(dāng)與非盲圖像超分方案組合后，將盲圖像超分性能推到了新的高度。

詳情見(jiàn)>>ICCV2021 盲圖像超分 MANet：ETH團(tuán)隊(duì)提出空間可變模糊核估計(jì)新思路

神經(jīng)渲染最新進(jìn)展與算法（二）：NeRF及其演化

基于神經(jīng)輻射場(chǎng)(NeRF)的場(chǎng)景表征與容積渲染無(wú)疑是近兩年神經(jīng)渲染方向的爆點(diǎn)工作之一。在提出后的短短一年左右時(shí)間內(nèi)，NeRF以簡(jiǎn)潔優(yōu)美的實(shí)現(xiàn)思路吸引了大量學(xué)者進(jìn)行深入和拓展研究。本文主要介紹了NeRF方法的基本思想與實(shí)現(xiàn)，分析了該方法的優(yōu)點(diǎn)和局限，探討了它在計(jì)算加速和可編輯渲染方向的一些最新進(jìn)展。相信NeRF方法會(huì)進(jìn)一步推進(jìn)神經(jīng)渲染的發(fā)展。我們將持續(xù)關(guān)注這一領(lǐng)域，并不定期分享我們的認(rèn)識(shí)。

詳情見(jiàn)>>神經(jīng)渲染最新進(jìn)展與算法（二）：NeRF及其演化

在元宇宙中絕對(duì)需要的雙手！AI算法實(shí)現(xiàn)手指重建，倒酒沏茶不在話下，甚至可以搖花手！

AI算法實(shí)現(xiàn)手指重建這項(xiàng)研究由來(lái)自愛(ài)丁堡大學(xué)的He Zhang和Facebook Reality Labs的幾位合作者共同完成。與其他類(lèi)似研究相比，這項(xiàng)研究幾乎擁有目前效果最好的手指動(dòng)作建模。這一切都是依靠團(tuán)隊(duì)提出的ManipNet深度神經(jīng)網(wǎng)絡(luò)算法。ManipNet利用手-物體對(duì)象的空間之間的關(guān)系特征，直接從數(shù)據(jù)中學(xué)習(xí)手部的自然動(dòng)作。

詳情見(jiàn)>>在元宇宙中絕對(duì)需要的雙手！AI算法實(shí)現(xiàn)手指重建，倒酒沏茶不在話下，甚至可以搖花手！???????

Tobii CEO：AR/VR的未來(lái)形態(tài)將廣泛結(jié)合眼球追蹤

作為眼球追蹤方案的主流廠商之一，Tobii的技術(shù)在AR/VR領(lǐng)域取得多項(xiàng)應(yīng)用，比如Vive Pro Eye、惠普Reverb G2 Omnicept版本等頭顯均采用其眼球追蹤系統(tǒng)。近期，Tobii宣布將收購(gòu)汽車(chē)系統(tǒng)公司Phasya，規(guī)模高達(dá)470萬(wàn)美元。Phasya提供的技術(shù)包括：通過(guò)眼球追蹤來(lái)監(jiān)控司機(jī)精力的可穿戴解決方案Drowsimeter，以及識(shí)別司機(jī)壓力、視覺(jué)干擾、認(rèn)知負(fù)荷等技術(shù)。

詳情見(jiàn)>>Tobii CEO：AR/VR的未來(lái)形態(tài)將廣泛結(jié)合眼球追蹤

慕尼黑國(guó)際車(chē)展：自動(dòng)駕駛技術(shù)再“上新”

智能汽車(chē)是未來(lái)汽車(chē)發(fā)展的方向，而自動(dòng)駕駛是其中最重要的技術(shù)之一。在2021年德國(guó)慕尼黑國(guó)際汽車(chē)展（IAA）上，自動(dòng)駕駛成為各廠商展示創(chuàng)新技術(shù)的重要領(lǐng)域。德國(guó)大眾集團(tuán)CEO迪斯在車(chē)展的論壇上表示：“自動(dòng)駕駛將會(huì)徹底改變世界，因?yàn)樗淖兞巳藗儗?duì)車(chē)的使用方法。”

詳情見(jiàn)>>慕尼黑國(guó)際車(chē)展：自動(dòng)駕駛技術(shù)再“上新”

車(chē)輛聯(lián)網(wǎng)后，下一步是「駕駛員聯(lián)網(wǎng)」？

如果將數(shù)據(jù)比喻為新形態(tài)的石油，那么遠(yuǎn)程通信行業(yè)就正在為鉆機(jī)配備人員、操作管道和提煉原油產(chǎn)品。盡管這是一個(gè)充滿(mǎn)爭(zhēng)議的比喻，但隨著互聯(lián)汽車(chē)的出現(xiàn)，移動(dòng)領(lǐng)域確實(shí)有許多參與者希望通過(guò)車(chē)輛數(shù)據(jù)來(lái)實(shí)現(xiàn)更安全的道路狀況、更健康的車(chē)輛、得到強(qiáng)化的車(chē)內(nèi)體驗(yàn)和新的收入來(lái)源。

詳情見(jiàn)>>車(chē)聯(lián)網(wǎng)后，下一步是"駕駛員聯(lián)網(wǎng)"？

激光雷達(dá)的強(qiáng)度標(biāo)定及路標(biāo)提取

自動(dòng)駕駛對(duì)高精地圖的需求日益重要，本文主要是研究3D激光雷達(dá)傳感器如何進(jìn)行強(qiáng)度標(biāo)定，能夠利用標(biāo)定后的強(qiáng)度信息實(shí)現(xiàn)路標(biāo)的提取和識(shí)別, 典型的激光雷達(dá)傳感器測(cè)量值包含了距離信息和強(qiáng)度信息，所謂的強(qiáng)度信息即是從物體表面反射的強(qiáng)度，在物理上分析，強(qiáng)度的值取決于三個(gè)因素：物體反射率，到物體表面的距離，以及入射角，因此相同反射率的路標(biāo)值相對(duì)于傳感器的不同的距離和入射角，將得到不同的強(qiáng)度值。通過(guò)對(duì)激光雷達(dá)的強(qiáng)度標(biāo)定，確保對(duì)同一物體的具有相同的強(qiáng)度值。為了解決這一問(wèn)題，利用了傳感器相對(duì)于參考物體表面的強(qiáng)度特性，估算了物體表面的反射率，利用Ostu閾值法進(jìn)行道路路標(biāo)線的提取，驗(yàn)證標(biāo)定結(jié)果的可行性。

詳情見(jiàn)>>激光雷達(dá)的強(qiáng)度標(biāo)定及路標(biāo)提取

活動(dòng)推薦

【免費(fèi)參與】從多維度出發(fā) 保障&提升實(shí)時(shí)音視頻質(zhì)量

10月30日 | 北京?LiveVideoStack將攜手七牛云共邀4位技術(shù)大咖，圍繞著實(shí)時(shí)音視頻場(chǎng)景下，七牛云如何從多個(gè)維度來(lái)保障和提升音畫(huà)質(zhì)量展開(kāi)。我們所理解的音畫(huà)質(zhì)量，不僅包括最基礎(chǔ)的服務(wù)質(zhì)量，還包括我們的觀感體驗(yàn)，本場(chǎng)將會(huì)從服務(wù)端、客戶(hù)端、編解碼等多個(gè)領(lǐng)域展開(kāi)，對(duì)保障和提升音視頻質(zhì)量相關(guān)的經(jīng)驗(yàn)進(jìn)行分享。

掃碼?👆🏻👆🏻👆🏻立即報(bào)名

? 活動(dòng)時(shí)間：2021/10/30?9:00-12:00

🚀 參與方式：掃描上方二維碼，免費(fèi)參與線下活動(dòng)（現(xiàn)場(chǎng)還會(huì)有精美禮品喲～）

掃描上方二維碼，限時(shí)免費(fèi)報(bào)名LiveVideoStack Meet | 北京沙龍！

插圖源自Pexels

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 | 213的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【媒体服务质量监控与QoE】
下一篇：【推荐】技术人必看的音视频学习资源清单