當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 86期

發布時間：2024/4/11 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 86期小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

『音視頻技術開發周刊』由LiveVideoStack團隊出品，專注在音視頻技術領域，縱覽相關技術領域的干貨和新聞投稿，每周一期。點擊『閱讀原文』，瀏覽第86期內容，祝您閱讀愉快。

架構

2019年低延遲直播技術展望

低延遲視頻直播是2018年的熱門話題之一。本文通過多個實際用例詳細介紹了不同場景下，影響用戶體驗的延遲范圍，降低延遲的策略并探索可以為用戶提供最佳體驗的不斷發展的技術。本文來自Mux博客，LiveVideoStack進行了翻譯。

iOS 直播架構以及知識點

AVFoundation:AVFoundation是用來播放和創建實時的視聽媒體數據的框架，同時提供Objective-C接口來操作這些視聽數據，比如編輯，旋轉，重編碼。

開源視頻播放框架學習——AndroidVideoCache

AndroidVideoCache框架的思想就是在本地構建一個ServerSocket作為代理服務器，將對Mp4地址進行封裝，從而攔截到本地ServerSocket，攔截之后解析出url和請求頭進行真正的網絡請求。

基于WASM的H265 Web播放器

本文介紹了在Web環境下使用WASM、WebGL、Web Audio、FFmpeg等技術實現在瀏覽器上播放H265視頻的核心技術，并給出代碼，以作參考。

WebRTC 開發實踐：為什么你需要 SFU 服務器

當你入門 WebRTC 之后，很快就會接觸到一個名詞，叫做：SFU，你可能很容易就在網上尋找到很多 SFU 的開源實現，并并興致勃勃地開始編譯、部署和測試這些服務器，但是可曾想過，為啥我們的 WebRTC 應用需要 SFU 服務器？

WebRTC自適應網絡帶寬的記錄和思考

本篇文章的主要目的是記錄一下搜索到的有關”WebRTC自適應網絡帶寬“的文章。

傳輸網絡

優化延遲的最佳視頻傳輸方案（三）

之前的兩篇文章《優化延遲的最佳視頻傳輸方案（一）》和《優化延遲的最佳視頻傳輸方案（二）》介紹了視頻傳輸系統中分發鏈前端、媒體內容準備、內容傳輸和播放端優化方面的最佳方案，本文將對后續整體的性能測試進行介紹。

《圖解TCP/IP》之TCP與UDP

TCP/IP中有兩個具有代表性的傳輸層協議，它們分別是TCP和UDP。TCP提供可靠的通信傳輸，而UDP則常被用于讓廣播和細節調控交給應用的通信傳輸。

音頻/視頻技術

B站Up主上傳質量調優實踐

Up主上傳的大量優質視頻內容使得bilibili（B站）深受年輕用戶的喜愛。bilibili視頻云高級研發經理唐君行在LiveVideoStack線上交流分享中詳細介紹了B站為提供更流暢、穩定用戶體驗，努力優化上傳系統架構，建立質量體系以及質量調優中的實踐經驗。

Android音視頻點/直播模塊開發

隨著音視頻領域的火熱，在很多領域（教育，游戲，娛樂，體育，跑步，餐飲，音樂等）嘗試做音視頻直播/點播功能，那么作為開發一個小白，如何快速學習音視頻基礎知識，了解音視頻編解碼的傳輸協議，編解碼方式，以及如何技術選型，如何解決遇到的坑。

Android 音視頻開發(三)：使用 AudioTrack 播放PCM音頻

AudioTrack 類可以完成Android平臺上音頻數據的輸出任務。AudioTrack有兩種數據加載模式（MODE_STREAM和MODE_STATIC），對應的是數據加載模式和音頻流類型，對應著兩種完全不同的使用場景。

YY視頻直播體驗優化實踐

YY音視頻算法中心負責人林緒虹在LiveVideoStackCon 2018音視頻技術大會的演講中介紹了YY如何實現全平臺差異化直播能力，以及視頻畫質、流暢度、音視頻同步、弱網條件下開播，連麥質量等直播體驗核心技術指標的優化策略。LiveVideoStack對演講內容進行了整理。

編解碼

MPEG會議最新進展

第125屆MPEG會議于2019年1月14日至18日在摩洛哥馬拉喀什成功舉行，會議成果主要包括：MPEG將基于網絡的媒體處理（NBMP）的規范推廣到委員會草案階段，發布了關于3DoF+ Visual的提案征集，開始研究新的編碼標準MPEG-5 EVC，基于ISOBMFF格式的規范文檔和參考軟件的開發進入國際標準草案階段和第二版MPEG-21用戶描述規范定稿等。本文總結自MPEG第125次會議報告。

Intel MSDK 硬解碼

Intel MSDK 是 Intel 公司提供的基于硬件加速功能的多媒體開發框架，通過 Intel 顯卡的硬件加速功能（Intel? Quick Sync Video），可實現快速視頻轉碼和圖像處理。

iOS視頻開發（三）：視頻H264硬解碼

VideoToolBox的硬編碼器編碼出來的H264數據第一幀為I幀，我們也可以手動告訴編碼器編一個I幀給我們。按照H264的數據格式，I幀前面必須有sps和pps數據，解碼的第一步初始化解碼器正是需要sps和pps數據來對編碼器進行初始化。

AI智能

Facebook實時人體姿態估計：Dense Pose及其應用展望

Facebook 和 Inria France 的研究人員分別在 CVPR 2018 和 ECCV 2018 相繼發表了兩篇有關「人體姿態估計」(human pose estimation) 的文章 [1] [2]，用于介紹他們提出的 Dense Pose 系統以及一個應用場景「密集姿態轉移」（dense pose transfer）。

絕佳的ASR學習方案：這是一套開源的中文語音識別系統

ASRT 是一套基于深度學習實現的語音識別系統，全稱為 Auto Speech Recognition Tool，由 AI 檸檬博主開發并在 GitHub 上開源（GPL 3.0 協議）。本項目聲學模型通過采用卷積神經網絡（CNN）和連接性時序分類（CTC）方法，使用大量中文語音數據集進行訓練，將聲音轉錄為中文拼音，并通過語言模型，將拼音序列轉換為中文文本。

目前最強性能的人臉檢測算法（Wider Face Dataset）

隨著人臉檢測基準數據集的廣泛應用，近年來各種算法都取得了很大的進展。其中，Selective Refinement Network（SRN）人臉檢測器有選擇地將分類和回歸操作引入到anchor-based的人臉檢測器中，以減少假陽性同時提高定位精度。此外，它還設計了一個感受野增強塊，以提供更多樣化的感受野。

圖像

Python 實現 Canny 邊緣檢測算法

Canny 邊緣檢測算法由計算機科學家 John F. Canny 于 1986 年提出的。其不僅提供了算法，還帶來了一套邊緣檢測的理論，分階段的解釋如何實現邊緣檢測。

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 86期的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LiveVideoStack上海2019
下一篇：如何优化WebRTC提升直播体验？