音视频技术开发周刊 67期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第67期內(nèi)容,祝您閱讀愉快。
架構(gòu)
展曉凱:短視頻APP架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)
本文來自全民快樂研發(fā)高級(jí)總監(jiān)展曉凱在LiveVideoStackCon 2018講師熱身分享,并由LiveVideoStack整理而成。分享中展曉凱詳細(xì)介紹了短視頻APP場(chǎng)景中視頻錄制、編輯、保存模塊的相關(guān)技術(shù),以及變速不變調(diào)算法W-SOLA的實(shí)現(xiàn)。
相機(jī)+激光雷達(dá)重繪3D場(chǎng)景
將激光雷達(dá)與相機(jī)結(jié)合,再通過深度學(xué)習(xí)的方式獲得場(chǎng)景的3D模型——Ouster首席執(zhí)行官在博客中介紹了相機(jī)OS-1,并裝有激光雷達(dá)。LiveVideoStack對(duì)原文進(jìn)行了摘譯。
馮迅:YY多媒體實(shí)時(shí)傳輸系統(tǒng)演進(jìn)
本文來自YY基礎(chǔ)架構(gòu)部負(fù)責(zé)人馮迅在LiveVideoStackCon 2017上的分享,并由LiveVideoStack社區(qū)整理而成。馮迅重點(diǎn)介紹了,YY直播平臺(tái)的架構(gòu)演進(jìn),包括技術(shù)棧選擇權(quán)衡,自建網(wǎng)絡(luò)與采購CDN協(xié)作等。
常青:小程視頻能力再升級(jí)序音
LiveVideoStack采訪了騰訊云音視頻業(yè)務(wù)終端研發(fā)團(tuán)隊(duì)負(fù)責(zé)人常青,針對(duì)小程序音視頻能力技術(shù)升級(jí)、場(chǎng)景支持、政策審核以及未來演進(jìn)趨勢(shì)進(jìn)行了詳細(xì)的探討。
即構(gòu)科技金健忠:回顧20年音視頻技術(shù)演進(jìn)
多媒體技術(shù)是一個(gè)傳統(tǒng)行業(yè),從模擬到數(shù)字,VCD到藍(lán)光,從窄帶到寬帶,標(biāo)清到高清,技術(shù)演進(jìn)讓人的視聽體驗(yàn)發(fā)生了顛覆式的改變。LiveVideoStack采訪了即構(gòu)科技CTO金健忠,他回顧了過去20年多媒體技術(shù)的發(fā)展,并展望了未來的技術(shù)趨勢(shì)。
音視頻--SDP協(xié)議
SDP:會(huì)話描述協(xié)議,是一種會(huì)話描述格式,為描述多媒體數(shù)據(jù)而設(shè)計(jì)。 SDP協(xié)議介紹 SDP 完全是一種會(huì)話描述格式(對(duì)應(yīng)的RFC2327 , RFC4566) 它不屬于傳輸協(xié)議 ,它只使用不同的適當(dāng)?shù)膫鬏攨f(xié)議,包括會(huì)話通知協(xié)議(SAP)、會(huì)話初始協(xié)議(SIP)、實(shí)時(shí)流協(xié)議(RTSP)、MIME 擴(kuò)展協(xié)議的電子郵件以及超文本傳輸協(xié)議(HTTP)。
WebRTC降低直播延遲——Limelight方案
曾經(jīng)點(diǎn)播在視頻傳輸中占據(jù)很大的比例,但如今越來越多的平臺(tái)希望能夠通過直播的方式增加觀眾的興奮程度和參與度,同時(shí)直播時(shí)的延遲成為了一個(gè)關(guān)鍵的挑戰(zhàn)。在音視頻傳輸?shù)倪^程中,在不同階段都會(huì)產(chǎn)生延時(shí),有設(shè)備端上的延時(shí),設(shè)備端與服務(wù)器之間的延時(shí),服務(wù)器之間的延時(shí),但是,不同的行業(yè)對(duì)于實(shí)時(shí)音視頻的延遲也有不同的要求,需要找到畫質(zhì)、音質(zhì)、延時(shí)和功耗等方面的平衡點(diǎn)。
5G接入網(wǎng)的架構(gòu)
本文首先結(jié)合5G愿景與需求,闡明了5G接入網(wǎng)絡(luò)架構(gòu)的特點(diǎn)和重要性;然后從學(xué)術(shù)界和產(chǎn)業(yè)界兩個(gè)角度詳細(xì)介紹了5G接入網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)原理和具體組成,分析了優(yōu)點(diǎn)和不足;最后,探討了接入網(wǎng)絡(luò)架構(gòu)的挑戰(zhàn)和未來的可能發(fā)展方向。
音頻/視頻技術(shù)
Android下AudioRecord采集音頻寫入PCM和WAV文件中
本文主要介紹如何將采集到的音頻數(shù)據(jù)保存到PCM和WAV文件中。其實(shí)保存PCM數(shù)據(jù)不難,只要直接寫入文件即可,而保存數(shù)據(jù)至WAV文件只需要將WAV文件格式頭補(bǔ)上即可。
基于Qt、FFmpeg的音視頻播放器設(shè)計(jì)
本篇文章主要介紹視頻處理的原理以及實(shí)現(xiàn)。對(duì)于視頻的處理我們這里對(duì)它分開總結(jié),不然看起來會(huì)顯得很冗余復(fù)雜,不易理解,主要分為以下幾方面。1、打開視頻獲取視頻信息;2、讀取視頻分析視頻包;3、打開視頻解碼器;4、視頻解碼并分析H264解碼;5、打開格式轉(zhuǎn)換和縮放;6、視頻轉(zhuǎn)RGB并縮放。
快速搭建自己的直播服務(wù)器,完成屬于你的直播服務(wù)
通過本文您能學(xué)到以下內(nèi)容: 1、動(dòng)手搭建直播服務(wù)器,完成一次對(duì)移動(dòng)端支持的直播。2、使用OBS推流。3、使用HTML5網(wǎng)頁播放M3U8流媒體文件。
音視頻通話:小議音頻處理技術(shù)與壓縮
在視頻或者音頻通話過程中,一方面為了減小原始聲音數(shù)據(jù)的傳輸碼率,需要進(jìn)行音頻壓縮,另一方面為了得到更高質(zhì)量的音質(zhì),需要進(jìn)行音頻處理。那么,如何處理好這兩方面,保證聲音傳播的高真性?本篇文章將會(huì)結(jié)合網(wǎng)易云信在音視頻技術(shù)方面的實(shí)戰(zhàn)和經(jīng)驗(yàn),小議音頻處理與壓縮技術(shù)。
編解碼
FFmpeg 中AVPacket的使用
AVPacket保存的是解碼前的數(shù)據(jù),也就是壓縮后的數(shù)據(jù)。該結(jié)構(gòu)本身不直接包含數(shù)據(jù),其有一個(gè)指向數(shù)據(jù)域的指針,FFmpeg中很多的數(shù)據(jù)結(jié)構(gòu)都使用這種方法來管理數(shù)據(jù)。
X264實(shí)現(xiàn)H264編碼以及MediaMuxer的另類用法
本系列文章涉及的項(xiàng)目HardwareVideoCodec已經(jīng)開源到Github,支持軟編和硬編。使用它你可以很容易的實(shí)現(xiàn)任何分辨率的視頻編碼,無需關(guān)心攝像頭預(yù)覽大小。
FFmpeg解碼視頻文件并播放
最近學(xué)習(xí)了一下如何使用FFmpeg解碼音視頻,網(wǎng)上的教程挺多但是也挺雜的,搞了好幾天,明白了FFmpeg解碼音視頻的大體流程,這里記錄一下FFmpeg解碼視頻并播放音視頻的例子,但并沒有做音頻、視頻播放 的同步處理。
Netty編解碼框架
Netty提供了一套完善的編解碼框架,不論是公有協(xié)議/私有協(xié)議,我們都可以在這個(gè)框架的基礎(chǔ)上,非常容易的實(shí)現(xiàn)相應(yīng)的編碼/解碼器。輸入的數(shù)據(jù)是在ChannelInboundHandler中處理的,數(shù)據(jù)輸出是在ChannelOutboundHandler中處理的。因此編碼器/解碼器實(shí)際上是這兩個(gè)接口的特殊實(shí)現(xiàn)類,不過它們的作用僅僅是編碼/解碼。
AI智能
人臉檢測(cè)算法綜述
人臉檢測(cè)是目前所有目標(biāo)檢測(cè)子方向中被研究的最充分的問題之一,它在安防監(jiān)控,人證比對(duì),人機(jī)交互,社交和娛樂等方面有很強(qiáng)的應(yīng)用價(jià)值,也是整個(gè)人臉識(shí)別算法的第一步。本文將和大家一起回顧人臉檢測(cè)算法的整個(gè)發(fā)展歷史。
卷積神經(jīng)網(wǎng)絡(luò)的壓縮和加速
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的壓縮,最早提出的方法應(yīng)該是網(wǎng)絡(luò)裁枝,LeCun在1989年就提出根據(jù)損失函數(shù)對(duì)各個(gè)參數(shù)的二階導(dǎo),來估計(jì)各個(gè)參數(shù)的重要性,再刪去不重要的參數(shù)。后來又是到2012年之后,壓縮方法更加多樣,總體大約分為4種:網(wǎng)絡(luò)裁枝、模型量化、低秩估計(jì)、模型蒸餾。下面SIGAI將對(duì)4種方法進(jìn)行逐一介紹。
如何優(yōu)雅地從四個(gè)方面加深對(duì)深度學(xué)習(xí)的理解
在今年的 ICML 上,深度學(xué)習(xí)理論成為最大的主題之一。會(huì)議第一天,Sanjeev Arora 就展開了關(guān)于深度學(xué)習(xí)理論理解的教程,并從四個(gè)方面分析了關(guān)于該領(lǐng)域的研究:非凸優(yōu)化、超參數(shù)和泛化、深度的意義以及生成模型。
短視頻如何做到千人千面?FM+GBM排序模型深度解析
信息流短視頻能夠滿足用戶的碎片化閱讀需求,目前已是移動(dòng)互聯(lián)網(wǎng)流量風(fēng)暴的中心。各互聯(lián)網(wǎng)大廠紛紛涉足此領(lǐng)域,推出自己的短視頻產(chǎn)品,群雄爭(zhēng)霸,逐鹿短視頻市場(chǎng)。今天,UC事業(yè)部國際研發(fā)團(tuán)隊(duì),將為大家介紹排序?qū)拥哪P脱葸M(jìn)過程,帶你深入了解模型創(chuàng)新部分。
【ECCV 2018】Facebook開發(fā)姿態(tài)轉(zhuǎn)換模型,只需一張照片就能讓它跳舞(視頻)
DensePose 是 Facebook 研究員 Natalia Neverova、Iasonas Kokkinos 和法國 INRIA 的 R?za Alp Guler 開發(fā)的一個(gè)令人驚嘆的人體實(shí)時(shí)姿勢(shì)識(shí)別系統(tǒng),它在 2D 圖像和人體3D 模型之間建立映射,最終實(shí)現(xiàn)密集人群的實(shí)時(shí)姿態(tài)識(shí)別。
圖像
深度學(xué)習(xí)AI美顏系列----AI人臉自動(dòng)美型算法
人臉智能美型技術(shù)主要用于智能美顏,對(duì)用戶的照片進(jìn)行自動(dòng)智能調(diào)整,而不需要用戶手工調(diào)整,該技術(shù)在美顏相機(jī)、天天P圖等app中都已應(yīng)用。本文在這里對(duì)人臉智能美型進(jìn)行詳解。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 67期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 容联CTO许志强:AI、5G让通讯更智能
- 下一篇: LiveVideoStackCon讲师热