當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 237

發(fā)布時(shí)間：2024/4/11 编程问答 97 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 237 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

每周一期，縱覽音視頻技術(shù)領(lǐng)域的干貨。

新聞投稿：contribute@livevideostack.com。

瘦臉、瘦腿太初級(jí)，揭秘「亞洲秘術(shù)」美顏美體特效

在機(jī)器之心最新一期技術(shù)分享中，機(jī)器之心機(jī)動(dòng)組以「揭秘人體美化技術(shù)」為主題，邀請(qǐng)到了快手、淘寶、火山引擎的技術(shù)專(zhuān)家，為大家解密這些特效背后的相關(guān)技術(shù)。

UGC 視頻質(zhì)量評(píng)價(jià)

由于內(nèi)容和質(zhì)量的高度多樣性，用戶生成內(nèi)容 (UGC) 的視頻質(zhì)量非常難以評(píng)估，傳統(tǒng)測(cè)量和評(píng)估視頻質(zhì)量的算法和模型不能很好起作用，在這樣的情況，亟需針對(duì) UGC 視頻的視頻質(zhì)量評(píng)價(jià)方法。

使用 Puppeteer + canvas + WebCodecs 來(lái)代替 FFmpeg

技術(shù)團(tuán)隊(duì)將 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg（final muxing）結(jié)合在一起，創(chuàng)建了一個(gè)管道，為網(wǎng)絡(luò)開(kāi)發(fā)者提供熟悉的 canvas 圖形 API，而不犧牲 FFmpeg 的性能。

低延遲體育中的內(nèi)容感知播放

主講人主要介紹了在直播體育的場(chǎng)景下，他們提出的內(nèi)容感知速率控制算法，以避免直播重要時(shí)刻的卡頓。

音視頻開(kāi)發(fā)之旅（一）三種方式繪制圖片

在Android開(kāi)發(fā)中我們最常使用的繪制圖片的方式就是ImageView，設(shè)置src。那么有沒(méi)有其他方案可以實(shí)現(xiàn)圖片的繪制吶？有三種方案！

iOS AVDemo（4）：音頻解封裝，從 MP4 中解封裝出 AAC丨音視頻工程示例

這里是第四篇：iOS 音頻解封裝 Demo。這個(gè) Demo 里包含以下內(nèi)容：1、實(shí)現(xiàn)一個(gè)音頻解封裝模塊；2、實(shí)現(xiàn)對(duì) MP4 文件中音頻部分的解封裝邏輯并將解封裝后的編碼數(shù)據(jù)存儲(chǔ)為 AAC 文件；3、詳盡的代碼注釋，幫你理解代碼邏輯和原理。

人工智能語(yǔ)音識(shí)別幫助識(shí)別機(jī)器故障

聲音提供有關(guān)計(jì)算機(jī)運(yùn)行情況的重要信息。ETH研究人員現(xiàn)在已經(jīng)開(kāi)發(fā)出一種新的機(jī)器學(xué)習(xí)方法，可以自動(dòng)檢測(cè)機(jī)器是否“健康”或是否需要維護(hù)。

如何基于實(shí)時(shí)聲紋變聲實(shí)現(xiàn)對(duì)聲音的“克隆”

「實(shí)時(shí)聲紋變聲」將顛覆傳統(tǒng)的變聲音效軟件與AI實(shí)時(shí)變聲體驗(yàn)，通過(guò)提取語(yǔ)音的音素特征與聲紋特征等一系列技術(shù)手段，在實(shí)時(shí)音視頻互動(dòng)中可以將任意用戶的語(yǔ)音實(shí)時(shí)變換成指定或任意一個(gè)他人的語(yǔ)音，實(shí)現(xiàn)像柯南變聲器那樣對(duì)聲音的真正“克隆”，接下來(lái)我們將分別介紹傳統(tǒng)主流變聲方法與實(shí)時(shí)聲紋變聲背后的技術(shù)原理。

自回歸解碼加速64倍，谷歌提出圖像合成新模型MaskGIT

來(lái)自谷歌研究院的研究者提出了一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT，在性能和速度上都獲得了大幅改進(jìn)。實(shí)驗(yàn)表明，MaskGIT 在 ImageNet 數(shù)據(jù)集上顯著優(yōu)于 SOTA transformer 模型，并將自回歸解碼的速度提高了 64 倍。

視頻編解碼芯片設(shè)計(jì)原理--05 整像素運(yùn)動(dòng)估計(jì)

本系列主要介紹視頻編解碼芯片的設(shè)計(jì)，以HEVC視頻編碼標(biāo)準(zhǔn)為基礎(chǔ)，簡(jiǎn)要介紹編解碼芯片的整體硬件架構(gòu)設(shè)計(jì)以及各核心模塊的算法優(yōu)化與硬件流水線設(shè)計(jì)。

實(shí)時(shí)通訊中的擁塞控制算法

實(shí)時(shí)通訊的需求不斷增長(zhǎng)，低延時(shí)的擁塞控制就顯得由為重要。這樣就有一個(gè)組織叫RMCAT專(zhuān)門(mén)來(lái)負(fù)責(zé)制定用于實(shí)時(shí)通訊的擁塞控制的標(biāo)準(zhǔn)。

馬普所開(kāi)源ICON，顯著提高單張圖像重建三維數(shù)字人的姿勢(shì)水平

本文介紹了馬普所二年級(jí) CS 博士生修宇亮（Yuliang Xiu）入選 CVPR 2022 的一項(xiàng)三維數(shù)字人姿態(tài)重建新研究 ——ICON[1]。在本文中，他將詳述這項(xiàng)工作的來(lái)龍去脈，包括厘清本研究的動(dòng)機(jī)及思維起點(diǎn) (motivation)、梳理出這二十多頁(yè)論文的主線、論文中沒(méi)提及的洞見(jiàn) (insight)，并著重講一下 ICON 的局限及改進(jìn)思路。

字節(jié)跳動(dòng)開(kāi)源大模型訓(xùn)練框架 veGiantModel

字節(jié)跳動(dòng) AML 團(tuán)隊(duì)內(nèi)部開(kāi)發(fā)了火山引擎大模型訓(xùn)練框架 veGiantModel。基于 PyTorch 框架，veGiantModel 是以 Megatron 和 DeepSpeed 為基礎(chǔ)的高性能大模型訓(xùn)練框架。

使用 FFmpeg 對(duì)直播流媒體進(jìn)行內(nèi)容分類(lèi)

首先介紹了 FFmpeg 現(xiàn)有的濾波器，比如超分濾波器或者去雨濾波器。然后討論了自定義創(chuàng)建場(chǎng)景分類(lèi)器的過(guò)程，介紹了一些訓(xùn)練模型、使用 tensorflow 后端以及利用 GPU 運(yùn)行模型的經(jīng)驗(yàn)，該項(xiàng)目已完全開(kāi)源。

FFmpeg 源碼分析-轉(zhuǎn)碼4

本系列以 FFmpeg4.2 源碼為準(zhǔn)，本文主要分析 transcode_step() 的內(nèi)部邏輯，以一條簡(jiǎn)單的命令開(kāi)始，ffmpeg -i a.mp4 b.flv。

https://juejin.cn/post/7052338143004983303

星球?qū)Ｏ?| 播放器 FFmpeg 依賴庫(kù)的配置

眾所周知，FFmpeg 是有很多編譯選項(xiàng)和依賴選項(xiàng)的，打開(kāi)工程之后，接下來(lái)就要添加 FFmpeg 的依賴了。這里并不打算講要如何編譯 FFmpeg ，因?yàn)橐婚_(kāi)始就被編譯困住了，很難接下來(lái)的學(xué)習(xí)，反而有一種簡(jiǎn)單的方式直接拿編譯好的庫(kù)就行了。

公網(wǎng)傳輸技術(shù)之SRT協(xié)議解析（上）

本文將從SRT協(xié)議的原理分析入手，嘗試定義出一個(gè)衡量SRT鏈路可靠性高低的指標(biāo)：鏈路安全冗余量(Secure-Margin)，并詳細(xì)介紹如何依照這個(gè)指標(biāo)來(lái)部署一個(gè)可靠的SRT傳輸鏈路，并分析在不同的直播場(chǎng)景中的參數(shù)調(diào)整策略。

基于 QUIC 的低延時(shí)視頻

QUIC (RFC 9000) 是一種新的網(wǎng)絡(luò)協(xié)議，將視頻映射到 QUIC API 有多種方法，具體取決于目標(biāo)延遲和用戶體驗(yàn)。在 Twitch/IVS，一個(gè)新的分發(fā)協(xié)議 (Warp) 被構(gòu)建來(lái)替換原來(lái)的 HLS 堆棧，利用獨(dú)特的優(yōu)先級(jí)方案來(lái)最大限度地減少面對(duì)擁塞時(shí)的延遲。

FaceShifter：一秒換臉的人臉交換模型

如今，深度學(xué)習(xí)已近在圖像合成、圖像處理領(lǐng)域中取得驚人的成果。FaceShifter 便是其中之一，它是一種深度學(xué)習(xí)模型，可以非常先進(jìn)的技術(shù)實(shí)現(xiàn)人臉交換。在本文中，我們將了解它是如何工作的。

Transformer將在AI領(lǐng)域一統(tǒng)天下？現(xiàn)在下結(jié)論還為時(shí)過(guò)早！

從自然語(yǔ)言處理任務(wù)起家，又在圖像分類(lèi)和生成領(lǐng)域大放異彩，所向披靡的 Transformer 會(huì)成為下一個(gè)神話嗎？

2022斯坦福AI指數(shù)報(bào)告出爐！中國(guó)霸榜AI頂會(huì)，但引用量最低

2022年人工智能指數(shù)報(bào)告發(fā)布了！這份報(bào)告中，中國(guó)在AI頂會(huì)論文上表現(xiàn)不凡，但在引用數(shù)量方面卻低于美國(guó)、歐盟和英國(guó)。

人工智能的學(xué)習(xí)經(jīng)驗(yàn)總結(jié)！

在現(xiàn)在這個(gè)時(shí)代，我們以前的學(xué)習(xí)方式不太適用了，如果想高效率的學(xué)習(xí)，需要轉(zhuǎn)換一種學(xué)習(xí)方式，不妨從實(shí)用的角度出發(fā)，遇到不會(huì)的再去查漏補(bǔ)缺，這樣效率更高。

什么是AR衍射光波導(dǎo)？

衍射光波導(dǎo)是較為主流的AR眼鏡光學(xué)顯示方案，很多AR眼鏡采用的都是這種顯示方案，為什么各大AR硬件廠商如此青睞衍射光波導(dǎo)？衍射光波導(dǎo)究竟是什么？今天小編就帶大家了解一下什么是衍射光波導(dǎo)。

分享 | 建筑設(shè)計(jì)師不可錯(cuò)過(guò)的3款增強(qiáng)現(xiàn)實(shí)(AR)軟件

ARki、Fologram、Twinbuild和Gamma AR為設(shè)計(jì)師、承包商和業(yè)主提供了從制造、施工到運(yùn)營(yíng)和維護(hù)在真實(shí)世界中精確參考數(shù)字模型的能力。

AR技術(shù)在物理實(shí)驗(yàn)教學(xué)中的應(yīng)用與實(shí)踐

將AR技術(shù)與傳統(tǒng)紙質(zhì)教材和實(shí)驗(yàn)儀器或?qū)嶒?yàn)裝置實(shí)物進(jìn)行結(jié)合，學(xué)生通過(guò)手機(jī)等移動(dòng)端就可以觀看實(shí)驗(yàn)儀器或裝置的內(nèi)部三維模型和三維動(dòng)畫(huà)等內(nèi)容，實(shí)現(xiàn)了儀器或?qū)嶒?yàn)現(xiàn)象的可視化和交互化操作。

2022：AR邁入新紀(jì)元丨深度

增強(qiáng)現(xiàn)實(shí)可以說(shuō)是迎來(lái)了發(fā)展的春天，不論是從硬件角度來(lái)看，還是從技術(shù)上的發(fā)展來(lái)看2022年，盡管AR技術(shù)發(fā)展依舊長(zhǎng)路漫漫，但或許已經(jīng)到了能夠?yàn)槭澜缃?jīng)濟(jì)和科技的下一步發(fā)展提供可靠動(dòng)力的關(guān)鍵節(jié)點(diǎn)。

圖像分類(lèi)的主要難點(diǎn)

圖像分類(lèi)是根據(jù)圖像的類(lèi)型（類(lèi)別）為圖像分配標(biāo)簽的過(guò)程。考慮我們有以下類(lèi)別的圖像：貓和狗因此，當(dāng)我們將給定類(lèi)別的圖像提供給圖像分類(lèi)系統(tǒng)時(shí)，系統(tǒng)會(huì)根據(jù)類(lèi)別為圖像分配標(biāo)簽。

騰訊老照片修復(fù)算法開(kāi)源，細(xì)節(jié)到頭發(fā)絲，3種預(yù)訓(xùn)練模型可下載

還記得能將老照片修復(fù)到纖毫畢現(xiàn)的GFPGAN嗎？現(xiàn)在，它的代碼正式開(kāi)源了！官方已經(jīng)在GitHub上傳了3個(gè)預(yù)訓(xùn)練模型。

自動(dòng)駕駛的第五大感知技術(shù)：“聽(tīng)覺(jué)”+自動(dòng)駕駛

回顧2021，各大互聯(lián)網(wǎng)、科技巨頭紛紛涉足自動(dòng)駕駛產(chǎn)業(yè)，加速自動(dòng)駕駛產(chǎn)業(yè)的布局。隨著資本的不斷涌入，以及相關(guān)法規(guī)政策的完善，自動(dòng)駕駛產(chǎn)業(yè)駛?cè)肓税l(fā)展的快車(chē)道。

聊聊未來(lái)自動(dòng)駕駛必須解決哪些感知問(wèn)題

對(duì)于研究下一代智能汽車(chē)的系統(tǒng)設(shè)計(jì)、軟件開(kāi)發(fā)而言，需要解決包含架構(gòu)設(shè)計(jì)、功能開(kāi)發(fā)、車(chē)輛控制等方面的諸多問(wèn)題，而以上問(wèn)題的根源都在于環(huán)境感知的能力研究。

閱讀推薦

Web音視頻應(yīng)用開(kāi)發(fā)趨勢(shì)

互聯(lián)網(wǎng)上的視頻應(yīng)用越來(lái)越普及，音視頻方面的技術(shù)也越來(lái)越成熟，單從局部上做出技術(shù)創(chuàng)新已經(jīng)非常之難。曾經(jīng)“很難”的音視頻技術(shù)逐步被人們所克服，“折疊”成一個(gè)個(gè)具體的模塊、組件、SDK和云服務(wù)。接下來(lái)我們就看看Web端給音視頻應(yīng)用開(kāi)發(fā)者帶來(lái)了哪些新的東西與能力。

M3U8 文件格式詳解

M3U8 是 Unicode 版本的 M3U，用 UTF-8 編碼。"M3U" 和 "M3U8" 文件都是蘋(píng)果公司使用的 HTTP Live Streaming（HLS）協(xié)議格式的基礎(chǔ)，這種協(xié)議格式可以在 iPhone 和 Macbook 等設(shè)備播放。

VVC采用緣何頻頻受阻？

VVC正在進(jìn)入一個(gè)競(jìng)爭(zhēng)激烈的編解碼器市場(chǎng)，身在其中，它的未來(lái)將更依賴專(zhuān)利費(fèi)用成本，而非它的技術(shù)標(biāo)準(zhǔn)。最近，Charles River Associates 在Unified Patents 上發(fā)布了一份VVC economic report ，其中詳述了VVC正在面臨來(lái)自MPEG的EVC、現(xiàn)存的HEVC、AVC以及AOM聯(lián)盟AV1的激烈競(jìng)爭(zhēng)。

人物專(zhuān)訪 | 首都在線助力中國(guó)企業(yè)出海，提供全球云網(wǎng)服務(wù)一體化方案

近日，有幸采訪了首都在線的首席網(wǎng)絡(luò)架構(gòu)師劉錚，聊一聊首都在線目前提供的服務(wù)、在音視頻行業(yè)關(guān)注的重點(diǎn)以及如何助力中國(guó)企業(yè)出海等話題。

構(gòu)建DRM系統(tǒng)的重要基石——EME、CDM、AES、CENC和密鑰

任何想要理解DRM的人都要遇到AES、CDM、CENC、EME等縮略詞。對(duì)于初學(xué)者來(lái)說(shuō)，這些詞很容易混淆，但只有理解了它們，才能真正地理解DRM。我們將在本文中簡(jiǎn)單介紹DRM的基本構(gòu)成：EME、CDM、AES、CENC以及密鑰和密鑰服務(wù)器的使用。

大視場(chǎng)全息AR顯示：錐形全息光學(xué)元件

近期，元宇宙概念的興起，極大的推進(jìn)了增強(qiáng)現(xiàn)實(shí)（AR）和虛擬現(xiàn)實(shí)（VR）技術(shù)的發(fā)展。為了進(jìn)一步提升 AR 顯示中用戶與現(xiàn)實(shí)場(chǎng)景交互的 3D 沉浸式體驗(yàn)，解決輻輳和調(diào)節(jié)沖突以及視疲勞等問(wèn)題，人們引入了全息顯示技術(shù)，該技術(shù)可以完整的重建出3D物體的波前信息，獲得雙眼視差和連續(xù)運(yùn)動(dòng)視差，被認(rèn)為是理想的 3D 顯示技術(shù)之一。

活動(dòng)推薦

LiveVideoStackCon 2022 上海站

LiveVideoStackCon 音視頻技術(shù)大會(huì)是多媒體技術(shù)領(lǐng)域的盛會(huì)，分享技術(shù)創(chuàng)新與最佳實(shí)踐，至今已在北京、上海等多地成功舉辦九屆大會(huì)。歷經(jīng)半年多的時(shí)空隔閡，我們將于5月20日-5月21日在上海舉行一場(chǎng)音視頻領(lǐng)域的線下聚會(huì)。點(diǎn)擊「閱讀原文」了解更多大會(huì)詳情。

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 | 237的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：构建DRM系统的重要基石——EME、CD
下一篇：【专题介绍】音视频+