音视频技术开发周刊 | 195
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉(zhuǎn)僅支持公眾號相關(guān)鏈接
基于深度學(xué)習(xí)的實時噪聲抑制——深度學(xué)習(xí)落地移動端的范例
在實時通訊技術(shù)迅猛發(fā)展的今天,人們對通話時的降噪要求也不斷提高。深度學(xué)習(xí)也被應(yīng)用于實時的噪聲抑制。本次LiveVideoStackCon 2021 上海站中,我們邀請到了聲網(wǎng)Agora音頻算法負(fù)責(zé)人馮建元老師為我們分享深度學(xué)習(xí)落地移動端的范例,遇到的問題和未來的展望。
當(dāng)我們擴(kuò)張時——技術(shù)商業(yè)策略圓桌第一彈
在 LiveVideoStackCon 2021 上海站當(dāng)中,我們策劃了一個由三場圓桌組成的“技術(shù)商業(yè)策略”專題,并邀請到微幀科技的聯(lián)合創(chuàng)始人&CEO 朱政作為專題出品人,與來自工業(yè)界、學(xué)術(shù)界,甚至是投資領(lǐng)域的嘉賓聊了聊未來的多媒體技術(shù)、大廠們深耕與擴(kuò)張的阻礙,以及音視頻新創(chuàng)的生存境遇。
AV1硬件采用及未來發(fā)展
在開放媒體聯(lián)盟(Alliance for Open Media,AOMedia,AOM)中,硬件和軟件開發(fā)人員共同創(chuàng)建了AV1標(biāo)準(zhǔn)規(guī)范。本次分享我們邀請來自谷歌的高級產(chǎn)品經(jīng)理Roshan Baliga,他將從什么是AV1、AV1硬件的采用、AV1的開發(fā)以及商業(yè)測試、軟件解碼,以及其對AV1生態(tài)系統(tǒng)的重要性等方面來介紹AV1的硬件。
即構(gòu)科技廖念波:構(gòu)建產(chǎn)品矩陣,加快音視頻技術(shù)全面開花
音視頻技術(shù)在直播、語聊、游戲等泛娛樂領(lǐng)域早已有了大量深度應(yīng)用,在互聯(lián)網(wǎng)教育領(lǐng)域也已成為標(biāo)配,到金融行業(yè)的視頻雙錄、線上營業(yè)廳,保險行業(yè)的視頻開戶、用來開早會,隨著各行業(yè)信息化的不斷深入,音視頻技術(shù)的數(shù)字化程度越來越完善。LiveVideoStack特別采訪了即構(gòu)科技技術(shù)副總裁廖念波,請他以后臺技術(shù)老兵的角度,講述了他對視頻云PaaS服務(wù)后臺架構(gòu)、運營,以及音視頻行業(yè)的理解。
GB28181協(xié)議簡介及實踐
GB28181協(xié)議是視頻監(jiān)控領(lǐng)域的國家標(biāo)準(zhǔn),本文將解析如何在FFmpeg中增加對GB28181協(xié)議的支持,使其可以與支持GB28181協(xié)議的設(shè)備進(jìn)行通信與控制,實現(xiàn)設(shè)備的注冊、保活以及流媒體的傳輸。
使?云函數(shù)和 Headless Chrome 進(jìn)行實時渲染錄制合流
Chrome 不只是?個瀏覽器,還可以是?個渲染引擎和混流器,而 Headless ?Chrome 更是打開了瀏覽器在服務(wù)器中使?的場景,讓我們不僅可以把多個 WebRTC 的視頻畫?錄制下來,還可以把?板,各種動畫?起同步的錄制下來,完成?個所見即所得的頁面錄制合流?案。?
2021年15個流媒體直播趨勢
在這篇文章中,我們將談?wù)撛?021年掀起波瀾的15大流媒體直播趨勢,討論直播如何影響幾個不同的行業(yè),以及直播技術(shù)如何演進(jìn)。
音頻采集:Android 基于 OpenSL ES 的實現(xiàn)
這篇文章簡單介紹下移動端Android系統(tǒng)下利用OpenSL ES進(jìn)行音頻采集方法。
深入淺出,Andorid 端屏幕采集技術(shù)實踐
隨著全球產(chǎn)業(yè)鏈線上化和數(shù)字化的加速,移動端實時屏幕共享在各行各業(yè)場景下都有了廣泛的應(yīng)用,比如在線教育、視頻會議、遠(yuǎn)程業(yè)務(wù)咨詢、手游直播。而屏幕采集則是實現(xiàn)實時屏幕共享流程中的第一步,本篇技術(shù)分享就來跟大家講講拍樂云在 Andorid 端屏幕采集的經(jīng)驗實踐。
僅需2張圖,AI便可生成完整運動過程
先給一張側(cè)臉圖(關(guān)鍵幀1),再給一張正臉圖(關(guān)鍵幀2),然后僅僅根據(jù)這兩張圖片,AI處理了一下,便能生成整個運動過程。而且不只是簡單的那種,連在運動過程中的眨眼動作也“照顧”得很到位。效果一出,便在Reddit上引發(fā)了不少熱議。
TensorFlow 助力:AI 語音降噪打造 QQ 音視頻通話新體驗
本文基于 TensorFlow 平臺搭建了一個 AI 降噪與噪聲場景分類的并行訓(xùn)練框架。借助 TensorFlow Lite 的量化功能減小模型尺寸,在模型的降噪效果基本不受影響的前提下,極大提升了性能優(yōu)勢并成功部署到產(chǎn)品中上線。
WebRTC要不要從0開始?PION/ION閑述
作為在IT行業(yè)里搬磚的打工人,自始至終都持有一個疑問:別人造的輪子圓,還是自己造的輪子更圓?。大部分IT人正是在這種極度自卷的,違反人性的懷疑與自我懷疑中艱難度日,不斷地創(chuàng)造著屬于自己的輪子,并努力地分享出來,以求與別人家的輪子相比較,一爭高下。即便窮盡所有頭發(fā),只為他人的一顆顆小星星。所以才有了GitHub這種對社會向前滾動進(jìn)步有巨大促進(jìn)意義的網(wǎng)站的存在。也間接促進(jìn)了IT內(nèi)卷人,跨國界的進(jìn)行同性交友、比拼技術(shù)。
量化策略再思考,數(shù)據(jù)壓縮新技巧
在本文中,我們首先分析了之前常用于端到端訓(xùn)練的三類量化方案所遇到的問題:加性均值噪聲會受到訓(xùn)練測試不一致問題的影響,直接梯度回傳和從軟到硬的退火方案由于在訓(xùn)練過程中缺少正則項,以及訓(xùn)練會遇到例如偏移梯度或者不穩(wěn)定梯度的影響,最終會削弱編碼網(wǎng)絡(luò)隱層空間的表達(dá)能力。
CSIG 3DV專委會 [成果速覽] 2021年第11期
上海交通大學(xué)發(fā)表在TPAMI2020上的論文從圖信號處理的角度出發(fā),提出基于圖信號梯度特征的點云質(zhì)量評價模型,其性能明顯優(yōu)于現(xiàn)有基于點的質(zhì)量評價模型。
視頻云系列 - 談?wù)刋R關(guān)鍵技術(shù)及VR/AR/MR/XR關(guān)系
虛擬現(xiàn)實(Virtual Reality,VR)、增強現(xiàn)實(Augmented Reality,AR)等業(yè)務(wù)以其三維化、自然交互、空間計算等完全不同于當(dāng)前移動互聯(lián)網(wǎng)的特性,被認(rèn)為將是下一代通用計算平臺。自 2012 年谷歌發(fā)布 AR 眼鏡 Google Glass, 2014 年 Facebook 收購 VR 頭顯廠商 Oculus 以來,VR/AR 行業(yè)歷經(jīng)了 2015 年至 2017 年的創(chuàng)業(yè)和資本的狂熱,2018 年的行業(yè)退潮。隨著 2019 年底全球 5G 正式展開部署,VR/AR 作為 5G 核心的商業(yè)場景重新被認(rèn)識和重視,行業(yè)重回升勢。
“意念打字”速度接近常人手機(jī)聊天,專家:這比馬斯克的“猴子玩游戲”難多了
5月12日,《Nature》發(fā)布最新一期封面研究:斯坦福大學(xué)的研究人員開發(fā)了一項新的腦機(jī)接口技術(shù),能夠使癱瘓患者直接將腦海里的“想法”轉(zhuǎn)換為電腦屏幕上的手寫文字,“打字”速度突飛猛進(jìn)!
AI應(yīng)用,隔空打開-放大-關(guān)閉圖片
這是由外國小哥分享的項目,通過手勢打開圖片,將選擇區(qū)域放置在圖片上,切換手勢即可隔空將屏幕中的窗口打開-放大-關(guān)閉。
MPEG第134次會議進(jìn)展
MPEG第134次會議于2021-04-26至2021-04-30在線舉行。MPEG視頻組批準(zhǔn)了第一個用于多媒體應(yīng)用的神經(jīng)網(wǎng)絡(luò)壓縮國際標(biāo)準(zhǔn)。
聲網(wǎng)Agora 與 HTC 達(dá)成合作,賦能下一代 AR 與 XR 技術(shù)創(chuàng)新
全球?qū)崟r互動云服務(wù)開創(chuàng)者和引領(lǐng)者聲網(wǎng)Agora(納斯達(dá)克股票代碼:API)宣布與 HTC 達(dá)成合作。作為 HTC VIVE?獨立軟件供應(yīng)商(ISV)計劃的一部分,此次合作將加速在實時互動應(yīng)用中實現(xiàn) VR 技術(shù)的創(chuàng)新。HTC VIVE 持續(xù)打造領(lǐng)先的虛擬現(xiàn)實(VR)平臺與生態(tài),致力于為企業(yè)和消費者創(chuàng)造身臨其境的沉浸式 VR 體驗。ISV 合作伙伴計劃能夠幫助開發(fā)者在 HTC VIVE 的 VR 和 XR 生態(tài)系統(tǒng)中創(chuàng)建應(yīng)用程序和平臺,并無縫集成聲網(wǎng)Agora 的實時音視頻、實時消息、互動直播等技術(shù)。
插圖源自Pexels
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 195的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Rethink Technology预测
- 下一篇: 多媒体技术 PI 第二期:OSS 圆桌预