音视频技术开发周刊 | 231
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
面向在線教育業(yè)務的流媒體分發(fā)演進
幾年前,很多人對在線網課還非常陌生。隨著移動設備的普及和音視頻技術的發(fā)展,如今在線教育產品百花齊放。而在線教育產品能服務千萬學子離不開流媒體分發(fā)技術的支撐。本次LiveVideoStackCon 2021 音視頻技術大會北京站邀請到了網易有道研發(fā)工程師周曉天,為我們分享網易有道在線教育業(yè)務的流媒體分發(fā)相關內容。
音視頻中的語音信號處理技術
語音信號處理是以語音語言學和數(shù)字信號處理技術相結合的交叉學科,它和認知科學、心理學、語言學、計算機科學、信號與信息處理、聲學、模式識別和人工智能等學科聯(lián)系緊密。
RTMP 協(xié)議:為什么直播推流協(xié)議都愛用它?
RTMP 在兩個對等的通信端之間通過可靠的傳輸協(xié)議(例如 TCP)提供雙向的消息多路服務,用來傳輸帶有時間信息的并行的視頻、音頻和數(shù)據(jù)。通常的協(xié)議的實現(xiàn)會給不同類型的消息賦予不同的優(yōu)先級,當傳輸能力受到限制時它會影響消息下層流發(fā)送的隊列順序。
KCP 協(xié)議:為流速和低延時設計的協(xié)議
KCP 是一個開源的快速可靠協(xié)議,KCP 能以比 TCP 浪費 10%-20% 帶寬的代價,換取平均延遲降低 30%-40%,最大延遲降低 3 倍的傳輸速度。KCP 是一層純算法實現(xiàn),并不負責底層協(xié)議(如 UDP)的收發(fā),需要使用者自己定義下層數(shù)據(jù)包的發(fā)送方式,并以 callback 的方式提供給 KCP。
Dialog+ : 基于深度學習的音頻對話增強技術
研究者通過調研發(fā)現(xiàn),現(xiàn)今觀眾經常會受到聽不清音頻中人物對話的困擾,為給觀眾提供個性化的聲平衡方案,這篇文章主要提出了一種利用深度學習改善音頻中人物對話和環(huán)境聲相對水平的聲平衡方案 Dialog+,并通過線上調研和實地廣播測試驗證了該方案的有效性。
掌握量化技術是視頻壓縮的關鍵
演講首先回顧了關于標量量化和率失真理論的基礎知識,然后討論了如何聯(lián)合優(yōu)化不同級別的量化以提高編碼效率的方法。介紹了兩個量化技術:時空依賴自適應量化(STAQ)與局部量化細化(LQR),這些方法可以在 HM 和 X265 上帶來約 30% 的壓縮性能。
DSCT:一種數(shù)據(jù)驅動的圖像編碼框架
基于塊的 DCT 變換和量化在 JPEG 等眾多圖像編碼標準中起著重要作用。本文提出了一種名為 'DSCT' 的圖像編碼框架,它采用數(shù)據(jù)驅動的機器學習方法,基于像素的統(tǒng)計特性進行色彩變換和空間變換。
ffmpeg 源碼分析-命令行1
本文章以 FFMpeg 4.2.5版本的源碼為準,一定要對著源碼看本文章,很多地方采用 cmdutils.c:778行 之類的寫法。本系列主要分析 ffmpeg_parse_options() 轉碼的內部邏輯。
https://juejin.cn/post/7052332931062169608
ffmpeg 源碼分析-命令行2
ffmpeg 源碼分析系列以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv,分析其內部邏輯。本文主要分析 parse_optgroup() 的內部邏輯,函數(shù)調用用流程圖如下。
https://juejin.cn/post/7052333158460555301
AR發(fā)展簡史
隨著技術的不斷發(fā)展,如今AR已經成為人盡皆知的行業(yè)熱點,受到國內外巨頭競相追捧。那么一路走來,AR都經歷了哪些鮮為人知的重要事件呢?下面小編整理了一份AR發(fā)展簡史,帶大家了解一下AR從無到有的發(fā)展歷程。
虛擬現(xiàn)實多模態(tài)操作技能研究
隨著人工智能的發(fā)展,對機器人復雜技能的教學需求增加。如何通過人工演示讓機器人了解復雜的操作技能,是人工智能領域的一個重要課題。現(xiàn)階段多采用編程和動覺教學來獲得演示。這些方法的缺點是需要大量的人工和調試,并且不能很容易地初始化裝配場景。因此,在 VR(虛擬現(xiàn)實)中進行演示可能是解決這些困難的關鍵。
中國數(shù)字經濟時代人工智能生態(tài)白皮書2021,41頁pdf
白皮書圍繞一個主題“ AI 生態(tài)”,三個關鍵詞“技術、產業(yè)、開放平臺”,統(tǒng)觀 AI 技術在多行業(yè)落地情況,剖析開放平臺對于 AI 產業(yè)生態(tài)繁榮的效能與價值,解析典型公司在 AI 產業(yè)生態(tài)建設方面的創(chuàng)新實踐,并結合技術、產業(yè)和平臺發(fā)展現(xiàn)狀,研判 AI 生態(tài)發(fā)展趨勢。
2022年人工智能全球最具影響力學者榜單出爐
人工智能全球最具影響力學者榜單(簡稱“AI 2000”),由清華大學計算機系AMiner團隊聯(lián)合智譜AI、清華-中國工程科技知識中心知識智能聯(lián)合研究中心共同發(fā)布,旨在通過AMiner學術數(shù)據(jù),在全球范圍內遴選過去十年人工智能(AI)學科最有影響力、最具活力的頂級學者。
利用AI技術釋放網絡應用創(chuàng)新
英特爾在AI領域推動芯片和軟件技術的進步,降低了網絡應用開發(fā)者進入AI新領域的技術門檻,從而釋放了開發(fā)者在商業(yè)化產品中部署AI高級技術的創(chuàng)新力,充分實現(xiàn)網絡應用創(chuàng)新。
B站開源自研動漫超分辨率模型,助力動漫UGC視頻高清化
人類對于視頻畫質的升級是一個永無止盡的過程。從馬賽克到高清畫質,從720P到4K,視頻平臺正在不斷提升畫質,但目前各大視頻平臺的超高清內容還并不是很多,其關鍵在于超高清視頻的制作難度遠超普通視頻制作,對設備以及后期技術的要求,為視頻內容貢獻者帶來了很大的阻礙。
OpenCV的實用圖像處理操作案例分享
圖像處理適用于圖像和視頻。良好的圖像處理結果會為后續(xù)的進一步處理帶來很大的幫助,例如提取到圖像中的直線有助于對圖像中物體的結構進行分析,良好的特征提取會優(yōu)化深度學習的結果等。今天我們來回顧一下圖像處理中的最基礎的,但是卻非常實用的一些操作。
綜述:當醫(yī)學影像遇上深度學習
近年來,隨著深度學習的發(fā)展,醫(yī)學影像逐漸成為人工智能最有潛力的落地領域之一。在這里我們將對醫(yī)學影像遇上深度學習后的當前行業(yè)應用進行介紹和分析,希望能夠幫助對人工智能在醫(yī)學影像上的研究和應用感興趣的同學們更好地了解行業(yè)的現(xiàn)狀和發(fā)展方向。
GAN--提升GAN訓練的技巧匯總
GAN模型相比較于其他網絡一直受困于三個問題的掣肘:1.不收斂;模型訓練不穩(wěn)定,收斂的慢,甚至不收斂;2. mode collapse; 生成器產生的結果模式較為單一;3. 訓練緩慢;出現(xiàn)這個原因大多是發(fā)生了梯度消失的問題。本文主要以下幾個方面入手,聚焦于解決以上三個問題的一些技巧。
自動駕駛仿真測試工具鏈示例
沒有一種仿真工具可以用于測試ADS自動駕駛系統(tǒng)軟件的所有方面,這就是為什么制造商將利用各種仿真工具的屬性來建立對整個系統(tǒng)安全性的信心。
自動駕駛中的毫米波雷達——何去何從?
在激光雷達的量產元年,各大造車新勢力公司逐步上線自研視覺感知算法,特斯拉宣布徹底拋棄毫米波雷達之際,毫米波雷達在自動駕駛中應何去何從,是最近一直在思考的一個問題,利用這篇文章記錄下一些觀點與相關從業(yè)者分享,也希望更多的人投身到自動駕駛毫米波雷達相關技術的研發(fā)中。
2022年智能駕駛行業(yè)研究報告(附下載)
電動化開啟汽車革命上半場,而智能化將引領下半場,在此交替過程中:核心競爭力轉移:性能指標轉變:燃油車以內燃機馬力為指標;電動車以動力電池續(xù)航為目標;智能汽車時代,算力成為影響汽車性能的核心要素。
閱讀推薦
對話王晶:音頻人才亟待培養(yǎng),高水平研究人員尤其欠缺
在此次與LiveVideoStack的對話中,王教授分享了過去幾年音頻領域的重要發(fā)展和創(chuàng)新、音頻編解碼器的獨特之處、AI與音頻編碼技術結合的突破以及目前音頻領域人才培養(yǎng)和輸出所面臨的困境等。
活動推薦
LiveVideoStackCon 專題評審團活動報名
為了更加完善LiveVideoStackCon 音視頻技術大會的演講內容,如:準確性、邏輯性、可閱讀性、內容的干貨程度、以及對參會者的受益情況等,保證內容對外輸出的準確&嚴謹;其次,對演講者的自我提升(輸出內容更加專業(yè)、降低錯誤、增加演講自信、多方溝通促進交流);而對參與審校人員來說,在評審內容時可以了解到業(yè)內的最新動態(tài),與評審團成員相互交流,分享心得。
因此我們特別成立LiveVideoStackCon 評審團機制,點擊閱讀原文了解更多詳情,報名參與:
http://livevideostack.mikecrm.com/mVxofCi
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 231的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: B站开源自研动漫超分辨率模型,助力动漫U
- 下一篇: LiveVideoStack年终技术盘点