音视频技术开发周刊 55期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第55期內容,祝您閱讀愉快。
策劃 / LiveVideoStack
架構
展曉凱:“零經驗”的我與唱吧從零到四億
正如展曉凱總結的那樣,一個技術人或團隊的成功離不開業務打下的基礎,業務高層的高瞻遠矚以及對技術的敬畏,以及技術人的學習與探索精神。LiveVideoStack對全民快樂研發高級總監展曉凱進行了郵件采訪,他總結了在與唱吧從零成長的歷程。作為一個“零”多媒體基礎的技術人,展曉凱的經驗也許是你成長路上的參考。
低延遲音視頻傳輸技術在直播領域的應用
本文來自陌陌視頻流媒體技術負責人吳濤在WebRTCon 2018上的分享,他詳解了陌陌從傳統直播過渡到1對1到多人互動模式的演進,架構的優化保證了用戶體驗與業務需求。
與高清卡頓說拜拜 一招根治視頻云頑疾
本文介紹了英特爾新至強平臺的新技術及其對媒體云計算性能提升,闡釋了新型 SIMD(單一指令多數據流)AVX-512 指令集如何幫助視頻、圖像處理以及視頻深度學習的應用提升性能。
支付寶如何優化移動端深度學習引擎?
移動端深度學習在增強體驗實時性、降低云端計算負載、保護用戶隱私等方面具有天然的優勢,在圖像、語音、安全等領域具有越來越廣泛的業務場景。考慮到移動端資源的限制,深度學習引擎的落地面臨著性能、機型覆蓋、SDK尺寸、內存使用、模型尺寸等多個方面的嚴峻挑戰。本文介紹如何從模型壓縮和引擎實現兩個方面的聯合優化,應對上述挑戰,最終實現技術落地。
測量和優化HLS性能 Measuring and Optimizing HLS Performance
本文詳細介紹了確定HLS性能的幾種關鍵性指標以及如何正確使用HLS的Master Playlists提高用戶觀看體驗。
音頻/視頻技術
高清視頻點播-AI讓你看片更絲滑
本文簡要介紹了基于強化學習的碼率自適應算法,在實踐預研驗證和分析的基礎上,將該AI算法模型應用于實際項目。
Android 音頻錄制 的三種方式
對于錄制音頻,Android系統就都自帶了一個小小的應用,可是使用起來可能不是特別的靈活。所以有提供了另外的兩種。
MacOS、iOS的Metal 2開發爬坑記錄:攝像頭、Capture GPU Frame、Shader調試與GPUImage存在的問題
本文章記錄Metal 2配合Xcode 9在macOS High Serria、iOS 8+開發過程遇到的攝像頭、Capture GPU Frame與Shader編譯調試問題及解決辦法。
編解碼
視頻編碼末日將至?
Netflix的視頻算法主管Anne Aaron撰文對視頻編解碼的未來發展方向,基于塊的混合編碼,畫質評定新方法,以及創新思維。LiveVideoStack對本文進行了摘譯。
基于MCMC的X265編碼參數優化方法
X265是當今最廣泛使用的HEVC視頻編碼器,它由于自己并行的編碼模式和一些提前終止算法的使用能夠在家用計算機上實現720P 30FPS的實時編碼,十分具有實用價值。
IEEE ISCAS 2018 相關研究進展
ISCAS 2018于2018年5月26日到5月30日在意大利佛羅倫薩舉行,會議主題為Art of Circuits and Systems。本文主要介紹了會議中提出的兩個與視頻編碼耦合更緊的基于機器學習的視頻編碼方法:基于CNN的運動補償優化、基于強化學習的碼率控制。
H.264的去塊濾波算法
去塊濾波器(Deblocking Filter)是視頻編解碼器中的重要組成部分,其核心作用在于消除編碼過程中產生的圖像塊效應。圖像中的塊效應主要因為以宏塊為基本單元的編碼結構而產生。
AI智能
目標檢測算法之YOLO
YOLO作為基于深度學習的第一個one-stage的方法做快可以在TitanX GPU上做到45幀每秒的檢測速度,輕量版的可以做到155幀每秒,相比于R-CNN精確度也有非常大的提升。
圖鴨科技TNGcnn4P壓縮算法在CVPR圖像壓縮挑戰賽獲得優勝
據圖鴨科技圖片壓縮團隊介紹:Tucodec TNGcnn4p 算法是基于端到端深度學習的算法,在該算法中使用了層次特征融合的網絡結構,并結合新的量化方法、碼字估計等技術對整體網絡進行設計。
OpenAI NLP最新進展:通過無監督學習提升語言理解
近日,OpenAI 在其官方博客發文介紹了他們最新的自然語言處理(NLP)系統。這個系統是可擴展的、與任務無關的,并且在一系列不同的 NLP 任務中都取得了亮眼的成績。但該方法在計算需求等方面仍存在改進的空間。
AI從入門到放棄:CNN的導火索,用MLP做圖像分類識別?
在沒有CNN以及更先進的神經網絡的時代,樸素的想法是用多層感知機(MLP)做圖片分類的識別;但殘酷的現實是,MLP做這事的效果并不理想。
圖像
在WebRTC上實現ML Kit笑容檢測
本文來自Houseparty的WebRTC視頻專家Gustavo Garcia Bernardo和TokBox的WebRTC移動端專家Roberto Perez,他們通過Google的ML Kit在WebRTC通話中實現了簡單的笑容檢測,期間考慮到了檢測準確率、延時以及檢測頻度與CPU占用率的平衡等,實際結果表明ML Kit的檢測結果令人滿意。
TensorFlow Lite+OpenCV實現移動端水印的檢測與去除
本篇文章介紹了TensorFlow Lite與OpenCV配合使用的一個應用場景,并詳細介紹了其中用到的SSD模型從訓練到端上使用的整個鏈路流程。在APP中的使用場景為,用戶在發布圖片時,在端上實現水印的檢測和定位,并提供去水印的功能。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 55期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 别光看世界杯 7月还有一场音视频技术盛
- 下一篇: 基于镜头的编码