當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 240

發(fā)布時間：2024/4/11 编程问答 125 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 240 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術(shù)領(lǐng)域的干貨。

新聞投稿：contribute@livevideostack.com。

使用體積視頻創(chuàng)建數(shù)字人

本文介紹了如何使用體積視頻創(chuàng)建數(shù)字人，體積視頻的后處理方法和傳輸方式等。

iOS AVDemo（7）：視頻采集，視頻系列來了丨音視頻工程示例

在音視頻工程示例這個欄目，我們將通過拆解采集 → 編碼 → 封裝 → 解封裝 → 解碼 → 渲染流程并實現(xiàn) Demo 來向大家介紹如何在 iOS/Android 平臺上手音視頻開發(fā)。這里是第七篇：iOS 視頻采集 Demo。

音視頻開發(fā)之旅（四）Camera視頻采集

音視頻開發(fā)之旅系列之四，本期主要介紹Camera視頻采集，包括Camera基礎(chǔ)知識，視頻采集的流程，以及采集中遇到的問題等。

W3C/SMPTE 專業(yè)媒體制作 Web 技術(shù)聯(lián)合研討會總結(jié)報告

W3C 和 SMPTE 舉辦的專業(yè)媒體制作 Web 技術(shù)研討會于2021年10-11月舉行。該研討會旨在連接 Web 平臺社區(qū)和專業(yè)媒體制作社區(qū)，探索 Web 平臺技術(shù)變革以滿足專業(yè)媒體制作的需求。本報告總結(jié)線上主題討論的話題，回顧因時間關(guān)系而沒有進(jìn)行線上討論的話題，并提出下一步計劃。

https://www.w3.org/2021/03/media-production-workshop/zh.report.html

Smell-O-Vision: 將嗅覺體驗加入視頻中

本文講述了將嗅覺體驗加入視頻中的技術(shù)發(fā)展歷史，從早期的人們在電影院安裝復(fù)雜的氣味發(fā)生裝置，到簡易便攜的氣味卡片，再到利用流媒體視頻數(shù)據(jù)控制氣味釋放的裝置，演講者介紹了不同時期裝置的特點(diǎn)和對應(yīng)的視頻作品。

Arcturus on Volumetric Videos

在這篇采訪中，主講人主要介紹了 Arcturus 公司所開發(fā)的集成平臺 HoloSuite。該工具可以對捕獲后的三維模型進(jìn)行縮放、編輯和處理以滿足實際的藝術(shù)或生產(chǎn)需求。此外，主講人還表達(dá)了自己對體積視頻未來發(fā)展的看法。

短視頻中解決音視頻混音出現(xiàn)雜音的問題

現(xiàn)在抖音快手各種短視頻也算是深入人心了，短視頻剪輯中有一個非常重要的功能，就是音視頻合成，選擇一段視頻和一段音頻，然后將它們合成一個新的視頻，新生成的視頻中會有兩個音頻的混音。

使用FFmpeg添加、刪除、替換和提取視頻中的音頻

FFmpeg是一個超級強(qiáng)大的工具，它可以在視頻文件中添加、刪除、提取或者替換音頻。如果你的電腦上已經(jīng)安裝了FFmpeg，那么你就擁有了可以給電影添加或刪除音頻的工具！我們一起來看看FFmpeg是如何做到的。

房間均衡 | 如何給房間調(diào)音？

在過去的40年中，許多學(xué)者對房間均衡進(jìn)行了深入的研究，提出了許多有效的技術(shù)來應(yīng)對不同均衡問題。這篇文章旨在介紹一些常用的均衡方法，并討論每種方法的利弊。

汽車聲學(xué)

汽車聲學(xué)作為人車交互核心載體，有望成為下一類車燈屬性賽道，至少可看10年以上長期發(fā)展，空間巨大。構(gòu)成上看，汽車聲學(xué)硬件主要包含車載揚(yáng)聲器、功放及行人警示器AVAS，軟件主要包括整車調(diào)音技術(shù)、聲學(xué)信號處理技術(shù)。

機(jī)器學(xué)習(xí)助力實現(xiàn)更準(zhǔn)確的語音識別能力

研究人員開發(fā)了一個機(jī)器學(xué)習(xí)模型，該模型確定聽眾所經(jīng)歷的聲學(xué)條件，然后估計聽眾在該環(huán)境中識別單詞的能力。為了進(jìn)行此估計，該模型使用基于機(jī)器學(xué)習(xí)的自動語音識別系統(tǒng)。

蘋果又出空間音頻新專利，適用于FaceTime等應(yīng)用

在iOS和iPadOS 14中，蘋果首次引入了空間音頻，現(xiàn)應(yīng)用于Apple TV、Mac和 HomePod中?，F(xiàn)在，一項新的專利申請顯示，蘋果正在為FaceTime開發(fā)空間音頻。

VVC怎么了？

VVC作為國際標(biāo)準(zhǔn)于2020年7月首次發(fā)布，現(xiàn)在時間已經(jīng)過去了18個月，讓我們來看看VVC迄今為止的進(jìn)展（包括許可、性能、芯片開發(fā)和測試等）。

編碼VS轉(zhuǎn)碼：有什么區(qū)別？

如果您正在嘗試流式傳輸視頻，那么您無疑已經(jīng)聽說過“編碼”和“轉(zhuǎn)碼”這兩個術(shù)語——但它們有什么區(qū)別，又有什么關(guān)系呢？

https://www.wowza.com/blog/encoding-vs-transcoding

視頻編解碼芯片設(shè)計原理----08 環(huán)路濾波

本系列主要介紹視頻編解碼芯片的設(shè)計，以HEVC視頻編碼標(biāo)準(zhǔn)為基礎(chǔ)，簡要介紹編解碼芯片的整體硬件架構(gòu)設(shè)計以及各核心模塊的算法優(yōu)化與硬件流水線設(shè)計。本文將首先介紹環(huán)路濾波的基礎(chǔ)知識，對H.265/HEVC標(biāo)準(zhǔn)的兩種濾波器進(jìn)行概述。然后分別給出兩種濾波器的硬件實現(xiàn)方案，并與已有的硬件實現(xiàn)工作進(jìn)行對比。

FFmpeg 源碼分析-轉(zhuǎn)碼總結(jié)

本系列以 FFmpeg4.2 源碼為準(zhǔn)，FFmpeg 源碼分析系列以一條簡單的命令開始，ffmpeg -i a.mp4 b.flv，分析其內(nèi)部邏輯。本文主要分析 process_input_packet() 的內(nèi)部邏輯。

https://juejin.cn/post/7052339186958860296

査勇：華為云在視頻AI轉(zhuǎn)碼領(lǐng)域的技術(shù)實踐

華為云媒體處理服務(wù)研發(fā)負(fù)責(zé)人查勇結(jié)合華為云在超高清視頻轉(zhuǎn)碼領(lǐng)域的實踐經(jīng)驗，詳細(xì)介紹了云上使用AI技術(shù)提升視頻視聽體驗的關(guān)鍵技術(shù)，以及如何助力行業(yè)實現(xiàn)音視頻體驗升級。

CVPR2022：局部和全局知識蒸餾用于目標(biāo)檢測（源代碼開源）

在今天分享中，研究者進(jìn)一步探討了前景和背景的知識蒸餾對目標(biāo)檢測的影響。通過分離蒸餾過程中的前景背景來設(shè)計實驗。

玩轉(zhuǎn)HLS

HLS是由蘋果公司提出基于HTTP的流媒體網(wǎng)絡(luò)傳輸協(xié)議。是蘋果公司QuickTime X和iPhone軟件系統(tǒng)的一部分。它的工作原理是把整個流分成一個個小的基于HTTP的文件來下載，每次只下載一些。

面向未來的移動寬帶音視頻傳輸協(xié)議

本報告從視頻制作域和傳輸域的需求入手，分別總結(jié)了不同場景下傳輸協(xié)議的需求和關(guān)鍵指標(biāo)，并給予技術(shù)分析。最后在此基礎(chǔ)上，本報告對面向未來移動通信技術(shù)的新型視頻制作和分發(fā)給予了展望。

1024x1024 分辨率，效果驚人！InsetGAN：全身圖像生成 (CVPR 2022)

作者提出了一種組合多個預(yù)訓(xùn)練的GAN的新方法，其中一個GAN生成一個全局人體圖像和一組專門生成特定人體部分的GAN，然后將部分人體圖像無縫插入到全體人體圖像中。論文中大量的實驗結(jié)果也表明該方法的有效性。

GNN落地不再難，一文總結(jié)高效GNN和可擴(kuò)展圖表示學(xué)習(xí)最新進(jìn)展

本文旨在概述關(guān)于高效圖神經(jīng)網(wǎng)絡(luò)和可擴(kuò)展圖表示學(xué)習(xí)的關(guān)鍵思想，并將介紹數(shù)據(jù)準(zhǔn)備、GNN 架構(gòu)和學(xué)習(xí)范式方面的關(guān)鍵進(jìn)展，這些最新進(jìn)展讓圖神經(jīng)網(wǎng)絡(luò)能夠擴(kuò)展到現(xiàn)實世界，并應(yīng)用于實時場景。

OpenAI的DALL·E迎來升級，不止文本生成圖像，還可二次創(chuàng)作

去年 1 月 6 日，OpenAI 發(fā)布了新模型 DALL·E，不用跨界也能從文本生成圖像，打破了自然語言與視覺次元壁，引起了 AI 圈的一陣歡呼。時隔一年多后，DALL·E 迎來了升級版本——DALL·E 2。

保姆級教程：深度學(xué)習(xí)環(huán)境配置指南！（Windows、Mac、Ubuntu全講解）

如果你正在面臨配置環(huán)境的痛苦，不管你是Windows用戶、Ubuntu用戶還是蘋果死忠粉，這篇文章都是為你量身定制的。接下來就依次講下Windows、Mac和Ubuntu的深度學(xué)習(xí)環(huán)境配置問題。

VR行業(yè)數(shù)據(jù)&&VR未來發(fā)展路線分析

近期給大家?guī)砹恕竀R領(lǐng)域」分享，主要大綱如下：VR發(fā)展史 - VR技術(shù)介紹 - VR行業(yè)數(shù)據(jù) - VR未來發(fā)展路線 - 更全面了解VR。今天我們帶來的是VR行業(yè)數(shù)據(jù)&&VR未來發(fā)展路線分析，歡迎關(guān)注，留言交流學(xué)習(xí)。

【嘮嘮】VR技術(shù)介紹

今天我們帶來的是VR技術(shù)介紹，歡迎關(guān)注，留言交流學(xué)習(xí)。其實VR眼鏡的概念很簡單：把一個顯示器罩在人的眼睛上，人向哪里看，就在顯示器里顯示對應(yīng)方向的景物，從而讓人感覺自己身處一個無限大的虛擬空間中。

未來已來！汽車AR導(dǎo)航正式上路（視頻）

今天早些時候，全息AR公司W(wǎng)ayRay發(fā)布了一段新視頻，展示了其True AR HUD在真實道路上的應(yīng)用，為AR技術(shù)在駕駛引導(dǎo)和安全領(lǐng)域的應(yīng)用開啟全新的時代。

使 Android 相機(jī)上傳功能更快、更可靠

相機(jī)上傳是我們的 Android 和 iOS 應(yīng)用程序中的一項功能，可自動將用戶的照片和視頻從他們的移動設(shè)備備份到 Dropbox。這篇文章是關(guān)于在為 Android 構(gòu)建新的相機(jī)上傳功能時做出的一些設(shè)計、驗證和發(fā)布決定。該項目成功交付，沒有中斷或重大問題；錯誤率下降，上傳性能大大提高。

https://dropbox.tech/mobile/making-camera-uploads-for-android-faster-and-more-reliable

圖像信號處理芯片設(shè)計原理----01 概論

本系列主要介紹圖像信號處理器 (ISP, Image Signal Processor) 中各核心算法模塊的設(shè)計以及相關(guān)的前沿研究，以典型的相機(jī)成像系統(tǒng)為基礎(chǔ)，涉及的內(nèi)容包括各類缺陷校正，去馬賽克，去噪，3A算法（自動對焦，自動曝光，自動白平衡），超分，HDR，風(fēng)格遷移等主題。

超級干貨 | 用萬字文章總結(jié)25種正則化方法（值得收藏）

一些圖像處理任務(wù)，如圖像分類和目標(biāo)檢測，已經(jīng)通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能得到了顯著的改進(jìn)。訓(xùn)練中的一個關(guān)鍵因素是網(wǎng)絡(luò)的正則化，它可以防止模型在訓(xùn)練的過程中出現(xiàn)過擬合的現(xiàn)象。

工業(yè)相機(jī)參數(shù)之幀率相關(guān)知識詳解

工業(yè)相機(jī)已經(jīng)被廣泛應(yīng)用于工業(yè)生產(chǎn)線在線檢測、智能交通,機(jī)器視覺,科研,軍事科學(xué),航天航空等眾多領(lǐng)域。工業(yè)相機(jī)的主要參數(shù)包括:分辨率、幀率、像素、像元尺寸、光譜響應(yīng)特性等。下面我們來對工業(yè)相機(jī)幀率的相關(guān)知識進(jìn)行講解。

無人駕駛時代指日可待？2035年將取代傳統(tǒng)汽車

無人駕駛技術(shù)的“美夢”始于20世紀(jì)80年代，近年來，無人駕駛技術(shù)突飛猛進(jìn)，各大整車企業(yè)、無人駕駛系統(tǒng)解決方案提供商（如百度阿波羅、景馳）也在不斷推動無人駕駛商業(yè)化。如今，無人駕駛已經(jīng)不再是遙不可及的“未來科技”。

自動駕駛前沿綜述：基于深度強(qiáng)化學(xué)習(xí)的自動駕駛算法

這是 21 年的一篇綜述文章，可以算得上是最前沿的自動駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展，強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會對目前最先進(jìn)的自動駕駛 DRL 算法進(jìn)行匯總和分類。

一文了解車載攝像頭創(chuàng)新應(yīng)用

攝像頭作為汽車感知的核心傳感器，主要是獲取圖像信息為ADAS各種功能所服務(wù)。下面，智駕最前沿就帶大家一起來了解下車載攝像頭的一大革命性應(yīng)用：電子后視鏡CMS。

閱讀推薦

IEEE INFOCOM2022權(quán)威論文｜PPIO邊緣云“EdgeMatrix”云邊資源優(yōu)化框架

PPIO云邊資源優(yōu)化框架“EdgeMatrix”可以解決資源異構(gòu)、資源競爭和網(wǎng)絡(luò)系統(tǒng)動態(tài)等諸多挑戰(zhàn)，使邊緣云系統(tǒng)在復(fù)雜網(wǎng)絡(luò)環(huán)境下為用戶服務(wù)提供強(qiáng)有力的SLA（服務(wù)等級協(xié)議Service Level Agreement）保證，所需求解時間降低了數(shù)十倍。

Meta 的 AI 頂尖人才都不干了？

大公司人員的流失并不是什么新鮮事，但是扎堆離職事件還是較為罕見。據(jù)外媒CNBC報道，這幾個月來，Meta（前身Facebook） AI部門失去了至少四位頂尖科學(xué)家。

CVPR 2022 論文/代碼分類匯總！持續(xù)更新中！

CVPR 2022 的論文官方還沒有完全公布，但有作者陸續(xù)公布出來一些。為方便大家跟進(jìn)論文，了解最新技術(shù)，CV君在Github建了一個倉庫，對已經(jīng)出來的論文(目前是340多篇)進(jìn)行了按類別匯總。對于Oral或有公布代碼的論文也鏈接了代碼，方便大家查找。

深度學(xué)習(xí)深陷困境！

AI 領(lǐng)域充滿了炒作和虛張聲勢。在過去的幾十年間，AI一次又一次掀起熱浪，雖然給出了各種承諾，但能夠兌現(xiàn)的承諾卻非常罕見。

CVPR2022 | 京東探索研究院CVPR再突破，34篇入選論文合集解讀

近日，CVPR 2022官方公布了接收論文列表，本屆大會大約 2067 篇論文被接收，其中京東探索研究院共34篇論文被CVPR收錄，論文涵蓋包括目標(biāo)檢測與識別、表征學(xué)習(xí)、知識蒸餾、圖像生成、文本語義識別等領(lǐng)域。以下為京東探索研究院本次入選論文的亮點(diǎn)介紹。

活動推薦

【城市沙龍】LiveVideoStack Meet深圳：元宇宙與音視頻

去年底，元宇宙一詞入選了《柯林斯詞典》2021年度熱詞，雖然外界對于元宇宙概念和屬性的看法仍在變化，但對其未來的良好前景已基本達(dá)成共識。元宇宙又會給音視頻互動帶來哪些新玩法與新場景？4月23日LiveVideoStack Meet將在深圳與大家見面，共聊元宇宙與音視頻發(fā)展！

活動時間：2022年4月23日? 14:00-17:00

活動地點(diǎn)：深圳市南山區(qū)卓越前海壹號T3寫字樓38層培訓(xùn)室

報名方式：點(diǎn)擊「閱讀原文」立即報名。

騰訊云音視頻專業(yè)能力認(rèn)證火熱上線

騰訊云音視頻與騰訊云產(chǎn)業(yè)互聯(lián)網(wǎng)學(xué)堂攜手打造“騰訊云音視頻從業(yè)者認(rèn)證”以及“騰訊云音視頻開發(fā)工程師認(rèn)證”兩大認(rèn)證能力，助力全方位的音視頻行業(yè)人才培養(yǎng)，主為音視頻行業(yè)打造知原理，擅推廣、懂技術(shù)、會操作的專業(yè)人才，一起提升音視頻產(chǎn)品和解決方案能力。

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 | 240的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

音视频技术开发周刊 | 240

總結(jié)