音视频技术开发周刊 80期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團隊出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第80期內(nèi)容,祝您閱讀愉快。
架構(gòu)
DeepFocus,基于AI實現(xiàn)更逼真的VR圖像
DeepFocus是一種基于AI的渲染系統(tǒng),用于在VR中渲染自然逼真的人眼聚焦效果。本文來自Facebook工程博客,LiveVideoStack進行了翻譯。感謝阿里巴巴高級算法專家盛驍杰提供的技術(shù)審校。
WebRTC直播課堂實踐:實時互動是核心
隨著低延時流媒體技術(shù)的不斷進步,在線教育行業(yè)持續(xù)升溫。本文來自七牛云在線教育行業(yè)解決方案專家 徐晶在LiveVideoStackCon2018大會中的演講。在演講中他闡述了基于WebRTC架構(gòu)的低延時直播技術(shù)突破以及其在教育行業(yè)中的實踐與思考。本文由LiveVideoStack整理而成。
CoNEXT 2018:在Facebook上部署IETF QUIC
在12月初舉行的CoNEXT 2018 EPIQ研討會上來自Facebook的Subodh Iyengar詳細介紹了Facebook如何在其基礎(chǔ)設(shè)施中使用IETF-QUIC,并且通過Android和iOS設(shè)備上的Facebook應(yīng)用程序在移動客戶端上進行實驗。本文來自QUIC-Tracker的博客,LiveVideoStack進行了翻譯。
P2P技術(shù)詳解(三):P2P技術(shù)之STUN、TURN、ICE詳解
很多時候,我們希望網(wǎng)絡(luò)中的兩臺主機能夠直接進行通信,即所謂的P2P通信,而不需要其他公共服務(wù)器的中轉(zhuǎn)。由于主機可能位于防火墻或NAT之后,在進行P2P通信之前,我們需要進行檢測以確認它們之間能否進行P2P通信以及如何通信。這種技術(shù)通常稱為NAT穿透(NAT Traversal)。最常見的NAT穿透是基于UDP的技術(shù),如RFC3489中定義的STUN協(xié)議。
基于CPU的深度學(xué)習(xí)推理部署優(yōu)化實踐
隨著人工智能技術(shù)在愛奇藝視頻業(yè)務(wù)線的廣泛應(yīng)用,深度學(xué)習(xí)算法在云端的部署對計算資源,尤其是 GPU 資源的需求也在飛速增長。如何提高深度學(xué)習(xí)應(yīng)用部署效率,降低云平臺運行成本,幫助算法及業(yè)務(wù)團隊快速落地應(yīng)用和服務(wù),讓 AI 發(fā)揮真正的生產(chǎn)力,是深度學(xué)習(xí)云平臺團隊努力的目標 。
音頻/視頻技術(shù)
視頻采集:iOS平臺基于AVCaptureDevice的實現(xiàn)
本篇文章簡單介紹了移動端iOS系統(tǒng)下利用AVCaptureDevice進行視頻數(shù)據(jù)采集的方法。
優(yōu)化短視頻實現(xiàn)“秒播”技術(shù)分析
在短視頻的體驗中,起播速度無疑是最影響體驗的指標之一,因為短視頻很短,十幾秒到幾分鐘不等,如果一個十幾秒的視頻,加載時間都要3秒,肯定是一個很壞的體驗;所以在產(chǎn)品定義之初,起播速度就設(shè)定了控制在1秒左右,大部分在1秒內(nèi),也就是業(yè)內(nèi)說的“秒播”,這需要對播放流程進行優(yōu)化。
視頻會議的開發(fā)與探索(一):WebRTC的狂野世界
Facebook,WhatsApp,FaceTime和Signal是其中幾種用戶可以用來在網(wǎng)絡(luò)中進行視頻,音頻通話的方式。盡管很多研究已經(jīng)開始轉(zhuǎn)為對視頻會議的加密和隱私保護,關(guān)于這些平臺的易受攻擊程度的信息卻很少。我們查閱了三個最為廣泛使用的視頻會議實現(xiàn)方式。在本文中,我們會對此描述。
anyRTC Zoom模式多人音視頻開發(fā)教程-iOS [附源碼]
本文介紹了如何使用anyRTC多人視頻sdk來模仿Zoom多人視頻樣式。
編解碼
2018:視頻標準混戰(zhàn)的元年序幕
在寸土必爭的Codec市場,幾股力量正面交鋒,格外精彩。HEVC(H.265)壯志雄心,H.264老當益壯,AV1來勢洶洶(據(jù)說AV2也在計劃中了),Codec展現(xiàn)出一場激烈與繁榮的景象。本文來自李大龍的投稿,文章總結(jié)了幾大Codec陣營的狀態(tài)與策略。對于B端用戶和C端消費者而言,競爭是件好事情。
VP9如何給Twitch的電競直播帶來價值?
本文來自Twitch的科技博客,詳細解讀了該平臺如何將VP9用于其電競賽事的直播。通過FPGA硬件加速,VP9能極大提升視頻直播服務(wù)的質(zhì)量。LiveVideoStack對原文進行了摘譯,感謝Twitch的首席研發(fā)工程師沈悅時博士提供的技術(shù)審校。
FFmpeg解碼MP4文件為YUV文件
前面我學(xué)了編譯FFmpeg的Android庫,寫了一個命令行使用FFmpeg的Android Demo,C文件都在虛擬機實現(xiàn),然后ndk編譯成so庫,再導(dǎo)入Android studio使用,Android代碼中沒有C / C ++文件,很純凈的樣子。但是,在虛擬機寫C代碼的時候,沒有自動補全功能,很不方便。所以這次用Cmake編譯JNI,直接在Android工作室中使用代碼補全功能!
AI智能
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
圖是一種數(shù)據(jù)結(jié)構(gòu),它對一組對象(節(jié)點)及其關(guān)系(邊)進行建模。近年來,由于圖結(jié)構(gòu)的強大表現(xiàn)力,用機器學(xué)習(xí)方法分析圖的研究越來越受到重視。圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類基于深度學(xué)習(xí)的處理圖域信息的方法。由于其較好的性能和可解釋性,GNN 最近已成為一種廣泛應(yīng)用的圖分析方法。
圖片語義分割深度學(xué)習(xí)算法要點回顧
在這篇博文中,將詳細介紹了一些關(guān)于圖像語義分割挑戰(zhàn)的最新模型。注意,研究人員使用不同的數(shù)據(jù)集(PASCAL VOC、PASCAL Context、COCO、Cityscapes)測試他們的算法,這些數(shù)據(jù)集在不同年份之間不同,并且使用不同的評估度量。
何愷明等最新突破:視頻識別快慢結(jié)合,取得人體動作AVA數(shù)據(jù)集最佳水平
繼圖像領(lǐng)域之后,現(xiàn)在的 CV 領(lǐng)域,大家都在研究哪些內(nèi)容?近日,Facebook AI 實驗室的 Christoph Feichtenhofer、何愷明等人發(fā)表一篇論文,在視頻識別領(lǐng)域提出了一種 SlowFast 網(wǎng)絡(luò),并且在沒有預(yù)訓(xùn)練模型情況下,此網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得79.0% 的準確率,是當前該數(shù)據(jù)集上的最佳表現(xiàn)。在 AVA 動作檢測數(shù)據(jù)集上,同樣實現(xiàn)了 28.3 mAP 的最佳水準。
基于PyTorch的GAN框架TorchGAN:可輕松定制GAN項目
TorchGAN 是基于 PyTorch 的 GAN 設(shè)計開發(fā)框架。該框架旨在為流行的 GAN 提供構(gòu)造模塊,且允許為前沿研究進行定制化。
圖像
圖像特征提取之(一)HOG特征
方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 80期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStackCon上海2
- 下一篇: Netflix:我们是如何评估Codec