音视频技术开发周刊 | 240
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
使用體積視頻創(chuàng)建數(shù)字人
本文介紹了如何使用體積視頻創(chuàng)建數(shù)字人,體積視頻的后處理方法和傳輸方式等。
iOS AVDemo(7):視頻采集,視頻系列來了丨音視頻工程示例
在音視頻工程示例這個欄目,我們將通過拆解采集 → 編碼 → 封裝 → 解封裝 → 解碼 → 渲染流程并實現(xiàn) Demo 來向大家介紹如何在 iOS/Android 平臺上手音視頻開發(fā)。這里是第七篇:iOS 視頻采集 Demo。
音視頻開發(fā)之旅(四)Camera視頻采集
音視頻開發(fā)之旅系列之四,本期主要介紹Camera視頻采集,包括Camera基礎(chǔ)知識,視頻采集的流程,以及采集中遇到的問題等。
W3C/SMPTE 專業(yè)媒體制作 Web 技術(shù)聯(lián)合研討會總結(jié)報告
W3C 和 SMPTE 舉辦的專業(yè)媒體制作 Web 技術(shù)研討會于2021年10-11月舉行。該研討會旨在連接 Web 平臺社區(qū)和專業(yè)媒體制作社區(qū),探索 Web 平臺技術(shù)變革以滿足專業(yè)媒體制作的需求。本報告總結(jié)線上主題討論的話題,回顧因時間關(guān)系而沒有進(jìn)行線上討論的話題,并提出下一步計劃。
https://www.w3.org/2021/03/media-production-workshop/zh.report.html
Smell-O-Vision: 將嗅覺體驗加入視頻中
本文講述了將嗅覺體驗加入視頻中的技術(shù)發(fā)展歷史,從早期的人們在電影院安裝復(fù)雜的氣味發(fā)生裝置,到簡易便攜的氣味卡片,再到利用流媒體視頻數(shù)據(jù)控制氣味釋放的裝置,演講者介紹了不同時期裝置的特點(diǎn)和對應(yīng)的視頻作品。
Arcturus on Volumetric Videos
在這篇采訪中,主講人主要介紹了 Arcturus 公司所開發(fā)的集成平臺 HoloSuite。該工具可以對捕獲后的三維模型進(jìn)行縮放、編輯和處理以滿足實際的藝術(shù)或生產(chǎn)需求。此外,主講人還表達(dá)了自己對體積視頻未來發(fā)展的看法。
短視頻中解決音視頻混音出現(xiàn)雜音的問題
現(xiàn)在抖音快手各種短視頻也算是深入人心了,短視頻剪輯中有一個非常重要的功能,就是音視頻合成,選擇一段視頻和一段音頻,然后將它們合成一個新的視頻,新生成的視頻中會有兩個音頻的混音。
使用FFmpeg添加、刪除、替換和提取視頻中的音頻
FFmpeg是一個超級強(qiáng)大的工具,它可以在視頻文件中添加、刪除、提取或者替換音頻。如果你的電腦上已經(jīng)安裝了FFmpeg,那么你就擁有了可以給電影添加或刪除音頻的工具!我們一起來看看FFmpeg是如何做到的。
房間均衡 | 如何給房間調(diào)音?
在過去的40年中,許多學(xué)者對房間均衡進(jìn)行了深入的研究,提出了許多有效的技術(shù)來應(yīng)對不同均衡問題。這篇文章旨在介紹一些常用的均衡方法,并討論每種方法的利弊。
汽車聲學(xué)
汽車聲學(xué)作為人車交互核心載體,有望成為下一類車燈屬性賽道,至少可看10年以上長期發(fā)展,空間巨大。構(gòu)成上看,汽車聲學(xué)硬件主要包含車載揚(yáng)聲器、功放及行人警示器AVAS,軟件主要包括整車調(diào)音技術(shù)、聲學(xué)信號處理技術(shù)。
機(jī)器學(xué)習(xí)助力實現(xiàn)更準(zhǔn)確的語音識別能力
研究人員開發(fā)了一個機(jī)器學(xué)習(xí)模型,該模型確定聽眾所經(jīng)歷的聲學(xué)條件,然后估計聽眾在該環(huán)境中識別單詞的能力。為了進(jìn)行此估計,該模型使用基于機(jī)器學(xué)習(xí)的自動語音識別系統(tǒng)。
蘋果又出空間音頻新專利,適用于FaceTime等應(yīng)用
在iOS和iPadOS 14中,蘋果首次引入了空間音頻,現(xiàn)應(yīng)用于Apple TV、Mac和 HomePod中?,F(xiàn)在,一項新的專利申請顯示,蘋果正在為FaceTime開發(fā)空間音頻。
VVC怎么了?
VVC作為國際標(biāo)準(zhǔn)于2020年7月首次發(fā)布,現(xiàn)在時間已經(jīng)過去了18個月,讓我們來看看VVC迄今為止的進(jìn)展(包括許可、性能、芯片開發(fā)和測試等)。
編碼VS轉(zhuǎn)碼:有什么區(qū)別?
如果您正在嘗試流式傳輸視頻,那么您無疑已經(jīng)聽說過“編碼”和“轉(zhuǎn)碼”這兩個術(shù)語——但它們有什么區(qū)別,又有什么關(guān)系呢?
https://www.wowza.com/blog/encoding-vs-transcoding
視頻編解碼芯片設(shè)計原理----08 環(huán)路濾波
本系列主要介紹視頻編解碼芯片的設(shè)計,以HEVC視頻編碼標(biāo)準(zhǔn)為基礎(chǔ),簡要介紹編解碼芯片的整體硬件架構(gòu)設(shè)計以及各核心模塊的算法優(yōu)化與硬件流水線設(shè)計。本文將首先介紹環(huán)路濾波的基礎(chǔ)知識,對H.265/HEVC標(biāo)準(zhǔn)的兩種濾波器進(jìn)行概述。然后分別給出兩種濾波器的硬件實現(xiàn)方案,并與已有的硬件實現(xiàn)工作進(jìn)行對比。
FFmpeg 源碼分析-轉(zhuǎn)碼總結(jié)
本系列 以 FFmpeg4.2 源碼為準(zhǔn),FFmpeg 源碼分析系列以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv,分析其內(nèi)部邏輯。本文主要分析 process_input_packet() 的內(nèi)部邏輯。
https://juejin.cn/post/7052339186958860296
査勇:華為云在視頻AI轉(zhuǎn)碼領(lǐng)域的技術(shù)實踐
華為云媒體處理服務(wù)研發(fā)負(fù)責(zé)人查勇 結(jié)合華為云在超高清視頻轉(zhuǎn)碼領(lǐng)域的實踐經(jīng)驗,詳細(xì)介紹了云上使用AI技術(shù)提升視頻視聽體驗的關(guān)鍵技術(shù),以及如何助力行業(yè)實現(xiàn)音視頻體驗升級。
CVPR2022:局部和全局知識蒸餾用于目標(biāo)檢測(源代碼開源)
在今天分享中,研究者進(jìn)一步探討了前景和背景的知識蒸餾對目標(biāo)檢測的影響。通過分離蒸餾過程中的前景背景來設(shè)計實驗。
玩轉(zhuǎn)HLS
HLS是由蘋果公司提出基于HTTP的流媒體網(wǎng)絡(luò)傳輸協(xié)議。是蘋果公司QuickTime X和iPhone軟件系統(tǒng)的一部分。它的工作原理是把整個流分成一個個小的基于HTTP的文件來下載,每次只下載一些。
面向未來的移動寬帶音視頻傳輸協(xié)議
本報告從視頻制作域和傳輸域的需求入手,分別總結(jié)了不同場景下傳輸協(xié)議的需求和關(guān)鍵指標(biāo),并給予技術(shù)分析。最后在此基礎(chǔ)上,本報告對面向未來移動通信技術(shù)的新型視頻制作和分發(fā)給予了展望。
1024x1024 分辨率,效果驚人!InsetGAN:全身圖像生成 (CVPR 2022)
作者提出了一種組合多個預(yù)訓(xùn)練的GAN的新方法,其中一個GAN生成一個全局人體圖像和一組專門生成特定人體部分的GAN,然后將部分人體圖像無縫插入到全體人體圖像中。論文中大量的實驗結(jié)果也表明該方法的有效性。
GNN落地不再難,一文總結(jié)高效GNN和可擴(kuò)展圖表示學(xué)習(xí)最新進(jìn)展
本文旨在概述關(guān)于高效圖神經(jīng)網(wǎng)絡(luò)和可擴(kuò)展圖表示學(xué)習(xí)的關(guān)鍵思想,并將介紹數(shù)據(jù)準(zhǔn)備、GNN 架構(gòu)和學(xué)習(xí)范式方面的關(guān)鍵進(jìn)展,這些最新進(jìn)展讓圖神經(jīng)網(wǎng)絡(luò)能夠擴(kuò)展到現(xiàn)實世界,并應(yīng)用于實時場景。
OpenAI的DALL·E迎來升級,不止文本生成圖像,還可二次創(chuàng)作
去年 1 月 6 日,OpenAI 發(fā)布了新模型 DALL·E,不用跨界也能從文本生成圖像,打破了自然語言與視覺次元壁,引起了 AI 圈的一陣歡呼。時隔一年多后,DALL·E 迎來了升級版本——DALL·E 2。
保姆級教程:深度學(xué)習(xí)環(huán)境配置指南!(Windows、Mac、Ubuntu全講解)
如果你正在面臨配置環(huán)境的痛苦,不管你是Windows用戶、Ubuntu用戶還是蘋果死忠粉,這篇文章都是為你量身定制的。接下來就依次講下Windows、Mac和Ubuntu的深度學(xué)習(xí)環(huán)境配置問題。
VR行業(yè)數(shù)據(jù)&&VR未來發(fā)展路線分析
近期給大家?guī)砹恕竀R領(lǐng)域」分享,主要大綱如下:VR發(fā)展史 - VR技術(shù)介紹 - VR行業(yè)數(shù)據(jù) - VR未來發(fā)展路線 - 更全面了解VR。今天我們帶來的是VR行業(yè)數(shù)據(jù)&&VR未來發(fā)展路線分析,歡迎關(guān)注,留言交流學(xué)習(xí)。
【嘮嘮】VR技術(shù)介紹
今天我們帶來的是VR技術(shù)介紹,歡迎關(guān)注,留言交流學(xué)習(xí)。其實VR眼鏡的概念很簡單:把一個顯示器罩在人的眼睛上,人向哪里看,就在顯示器里顯示對應(yīng)方向的景物,從而讓人感覺自己身處一個無限大的虛擬空間中。
未來已來!汽車AR導(dǎo)航正式上路(視頻)
今天早些時候,全息AR公司W(wǎng)ayRay發(fā)布了一段新視頻,展示了其True AR HUD在真實道路上的應(yīng)用,為AR技術(shù)在駕駛引導(dǎo)和安全領(lǐng)域的應(yīng)用開啟全新的時代。
使 Android 相機(jī)上傳功能更快、更可靠
相機(jī)上傳是我們的 Android 和 iOS 應(yīng)用程序中的一項功能,可自動將用戶的照片和視頻從他們的移動設(shè)備備份到 Dropbox。這篇文章是關(guān)于在為 Android 構(gòu)建新的相機(jī)上傳功能時做出的一些設(shè)計、驗證和發(fā)布決定。該項目成功交付,沒有中斷或重大問題;錯誤率下降,上傳性能大大提高。
https://dropbox.tech/mobile/making-camera-uploads-for-android-faster-and-more-reliable
圖像信號處理芯片設(shè)計原理----01 概論
本系列主要介紹圖像信號處理器 (ISP, Image Signal Processor) 中各核心算法模塊的設(shè)計以及相關(guān)的前沿研究,以典型的相機(jī)成像系統(tǒng)為基礎(chǔ),涉及的內(nèi)容包括各類缺陷校正,去馬賽克,去噪,3A算法(自動對焦,自動曝光,自動白平衡),超分,HDR,風(fēng)格遷移等主題。
超級干貨 | 用萬字文章總結(jié)25種正則化方法(值得收藏)
一些圖像處理任務(wù),如圖像分類和目標(biāo)檢測,已經(jīng)通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能得到了顯著的改進(jìn)。訓(xùn)練中的一個關(guān)鍵因素是網(wǎng)絡(luò)的正則化,它可以防止模型在訓(xùn)練的過程中出現(xiàn)過擬合的現(xiàn)象。
工業(yè)相機(jī)參數(shù)之幀率相關(guān)知識詳解
工業(yè)相機(jī)已經(jīng)被廣泛應(yīng)用于工業(yè)生產(chǎn)線在線檢測、智能交通,機(jī)器視覺,科研,軍事科學(xué),航天航空等眾多領(lǐng)域。工業(yè)相機(jī)的主要參數(shù)包括:分辨率、幀率、像素、像元尺寸、光譜響應(yīng)特性等。下面我們來對工業(yè)相機(jī)幀率的相關(guān)知識進(jìn)行講解。
無人駕駛時代指日可待?2035年將取代傳統(tǒng)汽車
無人駕駛技術(shù)的“美夢”始于20世紀(jì)80年代,近年來,無人駕駛技術(shù)突飛猛進(jìn),各大整車企業(yè)、無人駕駛系統(tǒng)解決方案提供商(如百度阿波羅、景馳)也在不斷推動無人駕駛商業(yè)化。如今,無人駕駛已經(jīng)不再是遙不可及的“未來科技”。
自動駕駛前沿綜述:基于深度強(qiáng)化學(xué)習(xí)的自動駕駛算法
這是 21 年的一篇綜述文章,可以算得上是最前沿的自動駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會對目前最先進(jìn)的自動駕駛 DRL 算法進(jìn)行匯總和分類。
一文了解車載攝像頭創(chuàng)新應(yīng)用
攝像頭作為汽車感知的核心傳感器,主要是獲取圖像信息為ADAS各種功能所服務(wù)。下面,智駕最前沿就帶大家一起來了解下車載攝像頭的一大革命性應(yīng)用:電子后視鏡CMS。
閱讀推薦
IEEE INFOCOM2022權(quán)威論文|PPIO邊緣云“EdgeMatrix”云邊資源優(yōu)化框架
PPIO云邊資源優(yōu)化框架“EdgeMatrix”可以解決資源異構(gòu)、資源競爭和網(wǎng)絡(luò)系統(tǒng)動態(tài)等諸多挑戰(zhàn),使邊緣云系統(tǒng)在復(fù)雜網(wǎng)絡(luò)環(huán)境下為用戶服務(wù)提供強(qiáng)有力的SLA(服務(wù)等級協(xié)議Service Level Agreement)保證,所需求解時間降低了數(shù)十倍。
Meta 的 AI 頂尖人才都不干了?
大公司人員的流失并不是什么新鮮事,但是扎堆離職事件還是較為罕見。據(jù)外媒CNBC報道,這幾個月來,Meta(前身Facebook) AI部門失去了至少四位頂尖科學(xué)家。
CVPR 2022 論文/代碼分類匯總!持續(xù)更新中!
CVPR 2022 的論文官方還沒有完全公布,但有作者陸續(xù)公布出來一些。為方便大家跟進(jìn)論文,了解最新技術(shù),CV君在Github建了一個倉庫,對已經(jīng)出來的論文(目前是340多篇)進(jìn)行了按類別匯總。對于Oral或有公布代碼的論文也鏈接了代碼,方便大家查找。
深度學(xué)習(xí)深陷困境!
AI 領(lǐng)域充滿了炒作和虛張聲勢。在過去的幾十年間,AI一次又一次掀起熱浪,雖然給出了各種承諾,但能夠兌現(xiàn)的承諾卻非常罕見。
CVPR2022 | 京東探索研究院CVPR再突破,34篇入選論文合集解讀
近日,CVPR 2022官方公布了接收論文列表,本屆大會大約 2067 篇論文被接收,其中京東探索研究院共34篇論文被CVPR收錄,論文涵蓋包括目標(biāo)檢測與識別、表征學(xué)習(xí)、知識蒸餾、圖像生成、文本語義識別等領(lǐng)域。以下為京東探索研究院本次入選論文的亮點(diǎn)介紹。
活動推薦
【城市沙龍】LiveVideoStack Meet深圳:元宇宙與音視頻
去年底,元宇宙一詞入選了《柯林斯詞典》2021年度熱詞,雖然外界對于元宇宙概念和屬性的看法仍在變化,但對其未來的良好前景已基本達(dá)成共識。元宇宙又會給音視頻互動帶來哪些新玩法與新場景?4月23日LiveVideoStack Meet將在深圳與大家見面,共聊元宇宙與音視頻發(fā)展!
活動時間:2022年4月23日? 14:00-17:00
活動地點(diǎn):深圳市南山區(qū)卓越前海壹號T3寫字樓38層培訓(xùn)室
報名方式:點(diǎn)擊「閱讀原文」立即報名。
騰訊云音視頻專業(yè)能力認(rèn)證火熱上線
騰訊云音視頻與騰訊云產(chǎn)業(yè)互聯(lián)網(wǎng)學(xué)堂攜手打造“騰訊云音視頻從業(yè)者認(rèn)證”以及“騰訊云音視頻開發(fā)工程師認(rèn)證”兩大認(rèn)證能力,助力全方位的音視頻行業(yè)人才培養(yǎng),主為音視頻行業(yè)打造知原理,擅推廣、懂技術(shù)、會操作的專業(yè)人才,一起提升音視頻產(chǎn)品和解決方案能力。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 240的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VVC怎么了?
- 下一篇: 【专题介绍】开源与创新