當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 231

發(fā)布時間：2024/4/11 编程问答 114 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 231 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

面向在線教育業(yè)務的流媒體分發(fā)演進

幾年前，很多人對在線網課還非常陌生。隨著移動設備的普及和音視頻技術的發(fā)展，如今在線教育產品百花齊放。而在線教育產品能服務千萬學子離不開流媒體分發(fā)技術的支撐。本次LiveVideoStackCon 2021 音視頻技術大會北京站邀請到了網易有道研發(fā)工程師周曉天，為我們分享網易有道在線教育業(yè)務的流媒體分發(fā)相關內容。

音視頻中的語音信號處理技術

語音信號處理是以語音語言學和數(shù)字信號處理技術相結合的交叉學科，它和認知科學、心理學、語言學、計算機科學、信號與信息處理、聲學、模式識別和人工智能等學科聯(lián)系緊密。

RTMP 協(xié)議：為什么直播推流協(xié)議都愛用它？

RTMP 在兩個對等的通信端之間通過可靠的傳輸協(xié)議（例如 TCP）提供雙向的消息多路服務，用來傳輸帶有時間信息的并行的視頻、音頻和數(shù)據(jù)。通常的協(xié)議的實現(xiàn)會給不同類型的消息賦予不同的優(yōu)先級，當傳輸能力受到限制時它會影響消息下層流發(fā)送的隊列順序。

KCP 協(xié)議：為流速和低延時設計的協(xié)議

KCP 是一個開源的快速可靠協(xié)議，KCP 能以比 TCP 浪費 10%-20% 帶寬的代價，換取平均延遲降低 30%-40%，最大延遲降低 3 倍的傳輸速度。KCP 是一層純算法實現(xiàn)，并不負責底層協(xié)議（如 UDP）的收發(fā)，需要使用者自己定義下層數(shù)據(jù)包的發(fā)送方式，并以 callback 的方式提供給 KCP。

Dialog+ : 基于深度學習的音頻對話增強技術

研究者通過調研發(fā)現(xiàn)，現(xiàn)今觀眾經常會受到聽不清音頻中人物對話的困擾，為給觀眾提供個性化的聲平衡方案，這篇文章主要提出了一種利用深度學習改善音頻中人物對話和環(huán)境聲相對水平的聲平衡方案 Dialog+，并通過線上調研和實地廣播測試驗證了該方案的有效性。

掌握量化技術是視頻壓縮的關鍵

演講首先回顧了關于標量量化和率失真理論的基礎知識，然后討論了如何聯(lián)合優(yōu)化不同級別的量化以提高編碼效率的方法。介紹了兩個量化技術：時空依賴自適應量化（STAQ）與局部量化細化（LQR），這些方法可以在 HM 和 X265 上帶來約 30% 的壓縮性能。

DSCT：一種數(shù)據(jù)驅動的圖像編碼框架

基于塊的 DCT 變換和量化在 JPEG 等眾多圖像編碼標準中起著重要作用。本文提出了一種名為 'DSCT' 的圖像編碼框架，它采用數(shù)據(jù)驅動的機器學習方法，基于像素的統(tǒng)計特性進行色彩變換和空間變換。

ffmpeg 源碼分析-命令行1

本文章以 FFMpeg 4.2.5版本的源碼為準，一定要對著源碼看本文章，很多地方采用 cmdutils.c:778行之類的寫法。本系列主要分析 ffmpeg_parse_options() 轉碼的內部邏輯。

https://juejin.cn/post/7052332931062169608

ffmpeg 源碼分析-命令行2

ffmpeg 源碼分析系列以一條簡單的命令開始，ffmpeg -i a.mp4 b.flv，分析其內部邏輯。本文主要分析 parse_optgroup() 的內部邏輯，函數(shù)調用用流程圖如下。

https://juejin.cn/post/7052333158460555301

AR發(fā)展簡史

隨著技術的不斷發(fā)展，如今AR已經成為人盡皆知的行業(yè)熱點，受到國內外巨頭競相追捧。那么一路走來，AR都經歷了哪些鮮為人知的重要事件呢？下面小編整理了一份AR發(fā)展簡史，帶大家了解一下AR從無到有的發(fā)展歷程。

虛擬現(xiàn)實多模態(tài)操作技能研究

隨著人工智能的發(fā)展，對機器人復雜技能的教學需求增加。如何通過人工演示讓機器人了解復雜的操作技能，是人工智能領域的一個重要課題。現(xiàn)階段多采用編程和動覺教學來獲得演示。這些方法的缺點是需要大量的人工和調試，并且不能很容易地初始化裝配場景。因此，在 VR（虛擬現(xiàn)實）中進行演示可能是解決這些困難的關鍵。

中國數(shù)字經濟時代人工智能生態(tài)白皮書2021,41頁pdf

白皮書圍繞一個主題“ AI 生態(tài)”，三個關鍵詞“技術、產業(yè)、開放平臺”，統(tǒng)觀 AI 技術在多行業(yè)落地情況，剖析開放平臺對于 AI 產業(yè)生態(tài)繁榮的效能與價值，解析典型公司在 AI 產業(yè)生態(tài)建設方面的創(chuàng)新實踐，并結合技術、產業(yè)和平臺發(fā)展現(xiàn)狀，研判 AI 生態(tài)發(fā)展趨勢。

2022年人工智能全球最具影響力學者榜單出爐

人工智能全球最具影響力學者榜單（簡稱“AI 2000”），由清華大學計算機系AMiner團隊聯(lián)合智譜AI、清華-中國工程科技知識中心知識智能聯(lián)合研究中心共同發(fā)布，旨在通過AMiner學術數(shù)據(jù)，在全球范圍內遴選過去十年人工智能（AI）學科最有影響力、最具活力的頂級學者。

利用AI技術釋放網絡應用創(chuàng)新

英特爾在AI領域推動芯片和軟件技術的進步，降低了網絡應用開發(fā)者進入AI新領域的技術門檻，從而釋放了開發(fā)者在商業(yè)化產品中部署AI高級技術的創(chuàng)新力，充分實現(xiàn)網絡應用創(chuàng)新。

B站開源自研動漫超分辨率模型，助力動漫UGC視頻高清化

人類對于視頻畫質的升級是一個永無止盡的過程。從馬賽克到高清畫質，從720P到4K，視頻平臺正在不斷提升畫質，但目前各大視頻平臺的超高清內容還并不是很多，其關鍵在于超高清視頻的制作難度遠超普通視頻制作，對設備以及后期技術的要求，為視頻內容貢獻者帶來了很大的阻礙。

OpenCV的實用圖像處理操作案例分享

圖像處理適用于圖像和視頻。良好的圖像處理結果會為后續(xù)的進一步處理帶來很大的幫助，例如提取到圖像中的直線有助于對圖像中物體的結構進行分析，良好的特征提取會優(yōu)化深度學習的結果等。今天我們來回顧一下圖像處理中的最基礎的，但是卻非常實用的一些操作。

綜述：當醫(yī)學影像遇上深度學習

近年來，隨著深度學習的發(fā)展，醫(yī)學影像逐漸成為人工智能最有潛力的落地領域之一。在這里我們將對醫(yī)學影像遇上深度學習后的當前行業(yè)應用進行介紹和分析，希望能夠幫助對人工智能在醫(yī)學影像上的研究和應用感興趣的同學們更好地了解行業(yè)的現(xiàn)狀和發(fā)展方向。

GAN--提升GAN訓練的技巧匯總

GAN模型相比較于其他網絡一直受困于三個問題的掣肘：1.不收斂；模型訓練不穩(wěn)定，收斂的慢，甚至不收斂；2. mode collapse; 生成器產生的結果模式較為單一；3. 訓練緩慢；出現(xiàn)這個原因大多是發(fā)生了梯度消失的問題。本文主要以下幾個方面入手，聚焦于解決以上三個問題的一些技巧。

自動駕駛仿真測試工具鏈示例

沒有一種仿真工具可以用于測試ADS自動駕駛系統(tǒng)軟件的所有方面，這就是為什么制造商將利用各種仿真工具的屬性來建立對整個系統(tǒng)安全性的信心。

自動駕駛中的毫米波雷達——何去何從？

在激光雷達的量產元年，各大造車新勢力公司逐步上線自研視覺感知算法，特斯拉宣布徹底拋棄毫米波雷達之際，毫米波雷達在自動駕駛中應何去何從，是最近一直在思考的一個問題，利用這篇文章記錄下一些觀點與相關從業(yè)者分享，也希望更多的人投身到自動駕駛毫米波雷達相關技術的研發(fā)中。

2022年智能駕駛行業(yè)研究報告（附下載）

電動化開啟汽車革命上半場，而智能化將引領下半場，在此交替過程中：核心競爭力轉移：性能指標轉變：燃油車以內燃機馬力為指標；電動車以動力電池續(xù)航為目標；智能汽車時代，算力成為影響汽車性能的核心要素。

閱讀推薦

對話王晶：音頻人才亟待培養(yǎng)，高水平研究人員尤其欠缺

在此次與LiveVideoStack的對話中，王教授分享了過去幾年音頻領域的重要發(fā)展和創(chuàng)新、音頻編解碼器的獨特之處、AI與音頻編碼技術結合的突破以及目前音頻領域人才培養(yǎng)和輸出所面臨的困境等。

活動推薦

LiveVideoStackCon 專題評審團活動報名

為了更加完善LiveVideoStackCon 音視頻技術大會的演講內容，如：準確性、邏輯性、可閱讀性、內容的干貨程度、以及對參會者的受益情況等，保證內容對外輸出的準確&嚴謹；其次，對演講者的自我提升（輸出內容更加專業(yè)、降低錯誤、增加演講自信、多方溝通促進交流）；而對參與審校人員來說，在評審內容時可以了解到業(yè)內的最新動態(tài)，與評審團成員相互交流，分享心得。

因此我們特別成立LiveVideoStackCon 評審團機制，點擊閱讀原文了解更多詳情，報名參與：

http://livevideostack.mikecrm.com/mVxofCi

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 231的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： B站开源自研动漫超分辨率模型，助力动漫U
下一篇： LiveVideoStack年终技术盘点

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

音视频技术开发周刊 | 231

總結