日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 73期

發(fā)布時(shí)間:2024/4/11 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 音视频技术开发周刊 73期 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第73期內(nèi)容,祝您閱讀愉快。


架構(gòu)


下一代低延時(shí)直播CDN:HLS、RTMP 與UDP +WebRTC

在上月落幕帷幕的多媒體領(lǐng)域技術(shù)盛會(huì)——LiveVideoStackCon2018音視頻技術(shù)大會(huì)上,阿里云的高級(jí)技術(shù)專家李剛進(jìn)行了《下一代低延時(shí)的直播CDN》技術(shù)分享。本文由云棲社區(qū)整理,并授權(quán)LiveVideoStack發(fā)布。


機(jī)器學(xué)習(xí)幫助WebRTC視頻質(zhì)量評(píng)價(jià)

本文來自CosMos Software創(chuàng)始人Alex. Gouaillard的博客,他同時(shí)為WebRTC、QUIC等標(biāo)準(zhǔn)組織工作。LiveVideoStack對(duì)原文進(jìn)行了摘譯。


Zoom的Web客戶端與WebRTC有何不同?

Zoom是非常出色的視頻會(huì)議平臺(tái),拿Zoom的web客戶端和WebRTC對(duì)比似乎有失公允。重要的是,未來WebRTC還會(huì)不斷做明智的改進(jìn)。


自建及商用CDN之間的多維度比較

在選擇自建CDN或者商用CDN時(shí),需要結(jié)合業(yè)務(wù)實(shí)踐,從成本、質(zhì)量、業(yè)務(wù)定制化能力等維度進(jìn)行綜合評(píng)判。本文來自歡聚時(shí)代直播部負(fù)責(zé)人林正顯在LiveVideoStackCon 2017大會(huì)上的分享,并由LiveVideoStack整理而成。


2018年是VR的新機(jī)會(huì)嗎?

本文綜合了ITU、IDG最新報(bào)告以及Harmonic VP Thierry Fautier的對(duì)VR內(nèi)容與技術(shù)成熟度的觀點(diǎn)。包括高效的編碼技術(shù)、點(diǎn)播內(nèi)容都是VR行業(yè)的不錯(cuò)的切入點(diǎn)。但大規(guī)模的賽事VR直播看上去并不成熟。LiveVideoStack對(duì)原文進(jìn)行了摘譯。


Netty學(xué)習(xí)之路(五)-TCP粘包/拆包問題

TCP是個(gè)“流協(xié)議”,所謂流,就是沒有界限的一串?dāng)?shù)據(jù)。TCP底層并不了解上層業(yè)務(wù)數(shù)據(jù)的具體含義,它會(huì)根據(jù)TCP緩沖區(qū)的實(shí)際情況進(jìn)行包的劃分,所以一個(gè)完整的包可能會(huì)被TCP拆分成多個(gè)包進(jìn)行發(fā)送,也有可能吧多個(gè)小的包封裝成一個(gè)大的數(shù)據(jù)包發(fā)送,這就是TCP粘包和拆包問題。


音頻/視頻技術(shù)


全平臺(tái)硬件解碼渲染方法與優(yōu)化實(shí)踐

硬件解碼后不恰當(dāng)?shù)厥褂肙penGL渲染會(huì)導(dǎo)致性能下降,甚至不如軟解。本文來自PPTV移動(dòng)端研發(fā)經(jīng)理王斌在LiveVideoStackCon 2017大會(huì)上的分享,并由LiveVideoStack整理而成。分享中王斌詳細(xì)解析了Windows、Linux、macOS、Android、iOS等多種平臺(tái)下硬件解碼的渲染方法及優(yōu)化實(shí)踐。


Android上實(shí)現(xiàn)頻域均衡器

本文主要分為三個(gè)部分:1、現(xiàn)有的音控貼紙的創(chuàng)建以及渲染流程;2、從時(shí)域信息轉(zhuǎn)化成頻域信息的FFT算法實(shí)現(xiàn);3、將生成的均衡器貼在3D眼鏡的鏡片上。


Ubuntu18.04 從頭開始編譯 Android Native WebRTC

本文詳細(xì)記錄Mac下使用PD虛擬機(jī)安裝ubuntu18.4桌面版,編譯Android Native WebRTC的過程。


視頻采集:Android平臺(tái)基于Camera 1的實(shí)現(xiàn)

本篇文章簡單介紹下移動(dòng)端Android系統(tǒng)下利用Camera1進(jìn)行視頻數(shù)據(jù)采集的方法。Camera1調(diào)用攝像頭采集視頻的核心實(shí)現(xiàn)在CameraCapture.java。


編解碼


高吞吐量JPEG 2000(HTJ2K):新的算法和機(jī)會(huì)

本文參考D. S. Taubman等人發(fā)表在SMPTE Motion Imaging Journal上的文章High Throughput JPEG 2000 (HTJ2K): New Algorithms and Opportunities,描述了一種聯(lián)合圖像專家組(JPEG)2000(J2K)塊編碼器的直接替代品,它提供了極高的吞吐量,編碼效率略有降低,但同時(shí)保留了除質(zhì)量可拓展性之外J2K的所有功能。


M-JPEG和H.264壓縮性能比較(V4L2采集+編碼壓縮)

Linux下,一般的普通USB攝像頭V4L2視頻采集有兩種方式:V4L2_PIX_FMT_MJPEG和V4L2_PIX_FMT_YUYV。V4L2_PIX_FMT_MJPEG采集方式得到的是經(jīng)過MJPEG壓縮的圖片,圖片格式是jpeg/jpg,后綴為.jpg或.jpeg。直接將采集到的.jpeg數(shù)據(jù)依序循環(huán)寫入一個(gè)文件,得到的流并不能直接播放,需要封裝成avi等視頻格式才能正常播放...


使用FFmpeg將音頻PCM數(shù)據(jù)生成WAV和MP3文件

WAV音頻封裝格式可以存儲(chǔ)無編碼的PCM數(shù)據(jù),而MP3封裝格式中不能直接存儲(chǔ)PCM數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行編碼。


Affine motion compensated prediction

在HEVC中,運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)(MCP)僅采用平移運(yùn)動(dòng)模型。而在現(xiàn)實(shí)世界中,有很多種運(yùn)動(dòng),比如放大/縮小、旋轉(zhuǎn)、透視等不規(guī)則運(yùn)動(dòng)。在VTM中,采用了基于塊的仿射變換運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)方法。


AI智能


基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述:常見問題及解決方案

目標(biāo)檢測(cè)(Object Detection)是計(jì)算機(jī)視覺領(lǐng)域的基本任務(wù)之一,學(xué)術(shù)界已有將近二十年的研究歷史。近些年隨著深度學(xué)習(xí)技術(shù)的火熱發(fā)展,目標(biāo)檢測(cè)算法也從基于手工特征的傳統(tǒng)算法轉(zhuǎn)向了基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)技術(shù)。


NIPS 2018 | 將RNN內(nèi)存占用縮小90%:多倫多大學(xué)提出可逆循環(huán)神經(jīng)網(wǎng)絡(luò)

本文首先展示了不需要存儲(chǔ)隱藏激活的完全可逆 RNN 從根本上是有限制的,因?yàn)樗鼈儾荒芡涬[藏狀態(tài)的信息。然后,研究人員提供了一個(gè)存儲(chǔ)少量比特的方案,使遺忘信息實(shí)現(xiàn)完全逆轉(zhuǎn)。本文的方法實(shí)現(xiàn)了與傳統(tǒng)模型相當(dāng)?shù)男阅?#xff0c;但所需內(nèi)存只占傳統(tǒng)模型的 1/10 到 1/15。


唇語識(shí)別技術(shù)的開源教程,聽不見聲音我也能知道你說什么!

唇語識(shí)別系統(tǒng)使用機(jī)器視覺技術(shù),從圖像中連續(xù)識(shí)別出人臉,判斷其中正在說話的人,提取此人連續(xù)的口型變化特征,隨即將連續(xù)變化的特征輸入到唇語識(shí)別模型中,識(shí)別出講話人口型對(duì)應(yīng)的發(fā)音,隨后根據(jù)識(shí)別出的發(fā)音,計(jì)算出可能性最大的自然語言語句。


實(shí)例詳解貝葉斯推理的原理

貝葉斯推理是一種精確的數(shù)據(jù)預(yù)測(cè)方式。在數(shù)據(jù)沒有期望的那么多,但卻想毫無遺漏地,全面地獲取預(yù)測(cè)信息時(shí)非常有用。


SFFAI分享 | 黃懷波 :自省變分自編碼器理論及其在圖像生成上的應(yīng)用

以生成對(duì)抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)等為代表的深度生成模型已經(jīng)成為當(dāng)前人工智能研究的熱點(diǎn)問題和重要前沿方向。目前的各種深度生成模型都各有其優(yōu)點(diǎn)和缺點(diǎn),比如生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練穩(wěn)定性和模式崩潰(mode collapse)問題等,變分自編碼器生成圖像比較模糊等。針對(duì)這些問題,我們提出了一種新的生成模型——自省變分自編碼器,用于實(shí)現(xiàn)穩(wěn)定訓(xùn)練和生成高分辨率真實(shí)圖像。


圖像


DeOldify:用GAN為黑白照片重新著色

一位reddit網(wǎng)友分享了自己近期的一個(gè)項(xiàng)目,他訓(xùn)練了一個(gè)用于著色和恢復(fù)舊圖像的深度學(xué)習(xí)模型,效果很不錯(cuò)。雖然是未完成品,我們?cè)谶@里先把這個(gè)項(xiàng)目簡單介紹給大家,感興趣的讀者可以去Github上繼續(xù)圍觀。


人臉識(shí)別 相關(guān)論文閱讀(2)

通過深層網(wǎng)絡(luò)學(xué)習(xí)high-level的特征表達(dá),利用深層網(wǎng)絡(luò),泛化能力強(qiáng),容易拓展到未見過的新身份類別。

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 73期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。