當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 75期

發布時間：2024/4/11 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 75期小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

『音視頻技術開發周刊』由LiveVideoStack團隊出品，專注在音視頻技術領域，縱覽相關技術領域的干貨和新聞投稿，每周一期。點擊『閱讀原文』，瀏覽第75期內容，祝您閱讀愉快。

架構

Netflix媒體數據庫：媒體時間線數據模型

如何設計高效的視頻數據庫，Netflix的NMDB給出了答案。本文是系列文章的第二篇，感謝Hulu的小伙伴們的技術審校。

教育場景下的實時音頻解決方案

本文來自網易云信資深音頻算法工程師李備在LiveVideoStackCon 2018講師熱身分享，并由LiveVideoStack整理而成。在分享中李備詳細分析了在線教育的音頻需求，以及一般軟件音頻框架，和行業的挑戰。

WebRTC中音頻相關的netEQ（五）：DSP處理

MCU發給DSP的主要的控制命令有正常播放（normal）、加速播放（accelerate）、減速播放（preemptive expand）、丟包補償（PLC,代碼中叫expand）、融合（merge）等。

精致前處理，精準碼控 — 極致視覺效果

編碼時采用精準碼控，在碼率受限的情況下，將有限的資源合理分配，提高整體畫質；編碼前，對圖像進行精致的前處理，營造更加極致的視覺效果，提升畫質。本文來自騰訊視頻視頻編碼團隊負責人汪亮在LiveVideoStackCon 2018大會上的分享，并由LiveVideoStack整理而成。

WebRTC 點對點會話建立過程分析

關于 WebRTC 建立點對點連接的文章很多，其中都提到了如何利用 STUN 服務器獲取本機的公網地址，本文側重局域網(兩臺設備之間可以直接ping通)下WebRTC點對點連接建立問題分析。

WebRTC 的 CreateOffer 過程分析

通過 WebRTC 點對點會話建立過程分析可以知道 CreateOffer 的具體實現位置在 src\third_party\webrtc\pc\mediasession.cc ，但是 CreateOffer 執行過程中具體經歷了什么，還沒有進行介紹，接下來將介紹 CreateOffer 究竟創建了什么內容。

《周四橄欖球之夜》流媒體視頻拆解：Twitch VS Amazon Prime

最近，亞馬遜開始在Prime Video和Twitch上直播大型體育賽事。流媒體專家Phil Cluff從編解碼器、包裝格式、DRM策略及CDN等方面對兩種平臺的流媒體架構進行了分析、推測。LiveVideoStack對原文進行了翻譯。

音頻/視頻技術

基于HLS格式的低延時互動直播技術

在不犧牲服務質量（卡頓率、畫面清晰度）的前提下，越低的延時能帶來越好的互動性用戶體驗。為達成可擴展性、服務質量、互動性的三贏，Twitch團隊研發了基于HLS格式的低延時互動直播技術。本文來自Twitch Principal Research Engineer沈悅時在LiveVideoStackCon 2018大會上的分享，并由LiveVideoStack整理而成。

SRT : 開源的視頻傳輸協議

SRT（Secure Reliable Transport）是新一代低延遲視頻傳輸協議，是一種開源、免費和應用靈活的規范，它的性能與專用的協議一樣優秀，同時能夠在不同制造商生產的產品之間工作。本文主要參考Haivision的SRT白皮書，概述了SRT的一些關鍵特性，并將SRT與常見傳輸格式及新一代傳輸協議QUIC進行比較，最后簡述SRT的發展現狀。

WebRTC：音頻QoS中的前向糾錯 (FEC) 技術解析

WebRTC語音傳輸中保證傳輸質量的主要措施分為丟包重傳 (NACK) 和前向糾錯 (FEC)，其中NACK主要是接收端在檢測到數據包RTP序列號不連續的時候，發送重傳請求，發送端接收到重傳請求后重新向接收端發送丟失的數據。

直播首屏耗時400ms以下的優化實踐

直播行業的競爭越來越激烈，進過18年這波洗牌后，已經度過了蠻荒暴力期，剩下的都是在不斷追求體驗。最近在幫做直播優化首開，通過多種方案并行，把首開降到500ms以下，希望能對大家有借鑒。

阿里云邊緣節點ENS助力淘寶構建音視頻通信網絡

淘寶的音視頻通訊基礎團隊與阿里云邊緣計算技術團隊合作，通過邊緣節點收流、合流、構建低延時音視頻通信鏈路，完美地解決由于地域分布廣泛、網絡質量不穩定帶來的體驗問題和延時問題。

編解碼

語音編解碼技術演進和應用選型

本文來自現網易云音樂音視頻實驗室負責人劉華平在LiveVideoStackCon 2017大會上的分享，并由LiveVideoStack整理而成。分享中劉華平以時間為主線，講述了語音編解碼技術的演進路線及實際應用中的技術選型。

基于機器學習技術的非迭代內容自適應分布式編碼

分布式編碼是縮短內容準備云工作流程的周轉時間的一種有效方法。本文提出了一種非迭代的代碼同義方法，它采用機器學習技術來實現平均比特率的節省，同時保證目標質量。

幀間預測相關信息獲取

獲取幀間編碼模式調用getPartitionSize(UInt uiIdx)，uiIdx=0表示當前深度CU eg.如果編碼塊是Inter2Nx2N模式，即遍歷xCheckRDCostInter( rpcBestCU, rpcTempCU, SIZE_2Nx2N DEBUG_STRING_...

AV1解碼器dav1d性能提升100%

11月21日，VideoLAN的主席Jean-Baptiste Kempf在其博客上透露了AV1解碼器dav1d的最新進展，和libaom相比，dav1d性能普遍提升100%，最高提升400%。

AI智能

中國團隊“霸屏”全球權威人臉識別競賽，依圖奪冠！

美國國家標準與技術研究院（NIST）剛剛公布了有工業界“黃金標準”之稱的全球人臉識別算法測試（FRVT）結果，依圖科技以千萬分之一誤報下的識別準確率超過99%，繼續保持全球人臉識別競賽冠軍，中國公司商湯科技摘得第三名和第四名。

NR V2X最新總結，快來一起看看吧~

3GPP工作組在2018年6月RAN#80全會上啟動了NR V2X技術研究，在之后的RAN1 94/94b/95次會議中工作組成員針對V2X課題進行了大量的討論。

利用卷積神經網絡對座頭鯨進行聲學探測

在過去幾年中，Google AI Perception 團隊開發出音頻事件分析技術，并將其應用于 YouTube 上的非語言字幕、視頻分類和檢索。此外，為了進一步推動社區中的研究，我們還發布了 AudioSet 評估集，并開源了部分模型代碼。

人臉識別|人證比對《DocFace+: ID Document to Selfie Matching》論文解讀（附代碼）

本文中，我們提出了DocFace++來解決這問題。我們首先展示了基于梯度的優化方法在每個類別只有很少樣本的時候，收斂的很慢。為了克服這個缺點，我們提出了一種方法，叫做動態權值imprint（不知道怎么該翻譯這個imprint），來更新分類的權值，這樣可以收斂的更快，特征表達更加的泛化。

圖像

Android開發之圖像處理那點事——濾鏡

在 Android 開發中，一般對圖像的處理就是 Bitmap（位圖），它包含了圖像的全部數據，即點陣和顏色值，點陣就是包含像素點的矩陣，而顏色值就是ARGB，分別代表透明、紅色、綠色、藍色通道，它們共同決定了像素點的顏色，今天我們來講講關于改變圖像顏色的相關知識點。

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 75期的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Demuxed：编解码器和压缩的未来
下一篇： LiveVideoStack线上交流分享