當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

优酷在多模态内容理解上的研究及应用

發布時間：2024/4/13 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了优酷在多模态内容理解上的研究及应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作為4G、5G時代最豐富的信息承載媒介，視頻可以傳達出的信息量遠遠超過聲音、圖像等單一渠道，浩如煙海的視頻資源中蘊含的大量信息也還遠未被充分挖掘。對于視頻公司來說，如何將AI技術與海量視頻資源結合，將成為一個潛力巨大的研發方向，帶來的價值不可估量。在國內AI領域，多模態技術的研發歷史雖然不久，但其帶來的價值早已得到了充分驗證。

本文中，來自優酷算法中心負責人王曉博將為我們解析，優酷是如何利用多模態技術，最大限度地挖掘視頻信息，創造更大的價值。剪片子又快又好、還能制作鬼畜視頻的AI視頻剪輯師到底是如何做到的呢？讓我們來一探究竟。

優酷作為一家超過12年的視頻網站，其最大的數字資產便是存量數億的視頻，這不僅包括平臺購買的版權OGC視頻，更多的是用戶上傳的UGC視頻。視頻作為4G、5G時代信息最便捷的載體，給用戶帶來極大便利的同時也給各個互聯網廠商帶去了更大的挑戰，富媒體信息的存儲、計算以及分發對比單一的文字信息要困難很多。
?

圖 1視頻處理流程如圖1?所示，不論是優愛騰這樣的長視頻網站還是抖音、快手、西瓜這樣的短視頻APP，其視頻內容的處理都要經歷類似的幾個階段。如何讓機器理解視頻內容信息是各個廠商都要面對的技術問題，內容理解并沒有標準定義，但將視頻本身作為處理單元的能力已經無法滿足用戶日益增長的內容需求。?優酷在多媒體信息處理方面積累了多年，為了更好的支持視頻內容理解及智能生產的需要，我們在2018年從算法中心抽調核心骨干力量組建認知實驗室，主要聚焦在計算機視覺、視頻結構分析與智能生成、智能影像處理以及視頻質量四個方向。這篇文章將從優酷這一企業級應用的視角來介紹多模態內容理解在我們實際線上系統中的應用，文章結構如下：首先介紹簡要多模態分析技術，然后結合優酷給出若干主要應用場景，接下來對多模態技術中一些難點做些剖析，最后是對未來的展望。

1?多模態分析技術簡介

模態是個專有名詞，在計算機信息處理的場景下，專指人接受信息的方式，包括視頻、圖像、文字、語音等不同的手段。多模態學習按照其所研究的問題大致分為如下幾個方向：

表達學習：實際用途很廣，主要將多個模態的信息轉換為實值的向量，多用于召回、相關性計算以及預估特征
模態映射：影視劇中的劇情詳細描述如何能與視頻切片對應起來，在跨模態檢索中應用較多
模態對齊：將圖像中的實體與文字中的實體對應起來，這在視頻語義檢索中十分有用
協同學習：每個模態的標注任務都很挑戰且成本高企，相對而言，文字模態的標注成本是比較低的，而如何能夠在缺乏標注信息的模態數據上利用其它模態的數據進行訓練對于節省成本共享信息非常有幫助

2?典型應用場景問題及挑戰

2.1?視頻搜索

信息檢索的技術發展已經走過了幾十年，而視頻內容檢索在企業里之前一直停留在關鍵字層面，主要檢索的信息來源是視頻的標題和描述，與文章、網頁的檢索架構區別不大，其原因除了技術上的挑戰外，還有用戶的需求通過關鍵字檢索基本能夠滿足。

圖 2優酷業務構成

圖2呈現了目前優酷的主要業務模塊構成以及其搜索索引庫的內容類型及品類，單純的基于標題和描述作為被檢索文本會遇到如下困難：

用戶在上傳UGC內容時，常會寫“test“、”呵呵“這類無明確表意的詞，或者文字信息與視頻內容不相符
用戶查詢詞意圖呈現出多元化，即使是版權視頻的搜索也不再集中于節目名字的搜索，社交與互動的需求逐漸增長
內容二次創作型的的用戶對于視頻內容語義檢索的訴求顯著增加，獨立檢索詞數量近兩年增長迅速

圖3是一個比較典型的視頻素材尋找類的查詢詞，圖中給出的搜索結果是基于文字模態來進行的，明顯可以看出這與用戶的預期之間的差異，索引的內容并沒有體現出對視頻內容本身的理解。

圖 3語義搜索示例圖4中展示了多模態搜素問題的定義，被檢索的對象是視頻集合及其附屬的meta信息，而輸入的模態可以是文本、圖像、音頻或者視頻，甚至哼唱影視劇中的主題曲片段或者講出經典的臺詞都可以用于做檢索query。

圖 4多模態搜索示意圖圖5展示了更多的搜索示例，從搜索結果中我們可以看出，更深入的用機器去理解視頻內容信息可以顯著的提升用戶搜索的滿意度。圖6是多模態搜索在影響的query集合上對搜索命中率以及點擊率CTR的提升效果，數字結果也證實了在視頻搜索中應用內容理解相關技術能夠帶來的作用。

圖 5多模態檢索示例

圖 6多模態搜索實驗效果近兩年深度學習在搜索推薦領域中得到了廣泛的應用，我們不禁問自己一個問題，深度模型加向量化檢索是否可以解決掉多模態/跨模態的檢索問題呢？這里做過多年搜索的老兵都有一個清晰的認知，搜索不單是一個技術，更是一個業務，用戶對于每一次搜索都有比較清晰的預期。學術界比較喜歡端到端的解決方案，但受制于可解釋性和可控性的問題，企業級視頻搜索引擎很少采用單一方案，比較可行的做法是將其它模態的信息通過降維轉換到文本模態。圖7是優酷視頻搜索引擎的主體架構，主要包括以下幾個關鍵部分：

視頻理解與分析，對視頻內容做細顆粒度拆解，將圖像、視頻動作、人物、聲音、背景音樂等信息通過檢測和識別等手段做標簽化，通過上述手段完成對視頻內容降維到文字模態的轉換
視頻內容逐幀向量化，為保證召回兜底，采用query、視頻向量化處理，作為文字模態召回的有益補充
搜索查詢意圖識別，用戶在使用搜索時是有狀態的，不同上下文環境下同一個查詢詞表達的意圖不盡相同
搜索排序，排序對于搜索引擎是個至關重要的模塊，既有算法技術的一面，更有業務屬性的一面，這里要兼顧平臺視角和用戶視角，單純的CTR優先或者業務干預優先都是不可取的，需要排序的設計者能夠從機制設計的視角來思考

圖 7視頻搜索引擎

2.2?視頻推薦

視頻網站對標國際一線廠商的話，諸如Netflix和YouTube這些網站，推薦在其中都扮演著至關重要的作用，以Netflix為例，推薦系統貢獻了超過70%的視頻播放量，而在國內的三家長視頻網站卻不盡然，推薦的占比都在三分之一以下。中國大陸的用戶和歐美的用戶不同，國內的觀眾在電視劇上呈現出頭部過于集中的現象，這與內容的供給方工業化程度低以及電視劇粗制濫造現象泛濫有直接關系，同時還受到主要電視臺、視頻網站的排播和宣推策略的影響。推薦和搜索類似，最擅長的是在信息爆炸的情境中解決信息過載的問題，如果視頻節目候選集合比較小的情況下，推薦是否就失去了用武之地呢？回答是否定的，如抖音、快手這樣的短視頻APP，因每天上傳量都超過百萬，甚至千萬，人力所不能及，只能采用機器算法分發；但一部電視劇的宣發要面對的用戶也是超過億的量級，從貨找人的維度，人力也無法處理，如何高效的利用數據產生生產力對于長視頻網站也是一項核心競爭力。

圖8是目前優酷推薦的算法架構，在視頻推薦的問題上如何提升用戶和推薦系統之間的信任度是我們面臨的核心問題，因此推薦系統的智能化在去年被提到很高的優先級。從圖中我們可以看出，目前的主要召回方式分為如下幾種：

行為協同過濾，目前最主要的召回方式，由于版權視頻的頭部效應，這會導致更為嚴重的哈利波特現象
向量召回，也是一種被視頻網站廣泛應用的算法，不論是深度網絡模型還是圖嵌入方法都能夠有效的緩解推薦冷啟動的問題，但模型的可解釋性以及有監督學習label的熱度集中效應仍然是很有挑戰性的問題
標簽召回，以前用途比較廣泛，但受制于準確性的問題，目前多家廠商都在弱化這一路匹配；Netflix對于版權長視頻雇傭專業內容運營來標注content codes，在候選集不大的情況下比較好的解決了標簽準確性的問題

圖 8視頻推薦架構視頻推薦系統由于其基于統計機器學習算法的局限性，不可避免的出現頭部過熱甚至明顯違背常識的推薦結果，推薦理由和交互式推薦都是緩解這一現象的有效方法。而運營的經驗知識與數據算法間的有機結合將是國內視頻網站推薦系統的重要演化方向，單純的效率優先與頭部新熱劇集中的情況會形成較大的沖突，而推薦系統的智能化對于視頻內容的理解提出了明確的需求；因為每個人喜歡同一個視頻或者同一部電視劇的原因不盡相同，或者是某流量明星的粉絲、或者是喜愛某種題材、甚至是某種場景氛圍。

圖9給出了基于多模態分析技術的視頻打標簽示例，從這個例子我們可以看出，基于視頻、音頻、文字多個模態可以顯著的提升標簽分類的準確率，其缺點就是計算量較大，多個模態端到端的融合學習是一個技術難點。

圖 9多模態視頻打標簽?

2.3?視頻數字資產化

目前各個視頻網站處理視頻數據的顆粒度多數情況下都是video本身，能通過深度模型、圖模型等方法學習出一個video vector來刻畫視頻特征空間是近年來新興起的一種向量化方法。然而這對于視頻媒資庫的智能化需求而言是遠遠不夠的，內容的二次創作、三次創作對于視頻內容的解構有很高的要求，內容理解和拆解的顆粒度決定了智能媒資庫對于視頻業務的新價值。

圖 10視頻解構分析及再生產

上圖給出了智能媒資系統的兩個主要技術應用，分別是視頻多維解構分析和視頻智能生產。

2.3.1?元素級解構

這里推薦大家閱讀《STORY故事：材質結構風格和銀幕劇作的原理》這本書，好的視頻內容，無論形式是長還是短，其拍攝的時候都是有邏輯洞現的。而視頻內容解構在一定程度上可以看做是拍攝過程的逆過程，即逆向工程（Reverse Engineering）。從一個完整的視頻且分出不同的片段，進而到鏡頭、關鍵幀、關鍵元素，這些能夠形成一個樹形結構（或者網狀結構），每個圖中的元素都是一個節點。針對視頻形式、題材的區別，內容運營產品會構建不同的領域模型來指導解構，常用的模式如時間、地點、場景、任務、動作等等。

圖 11元素級解構分析

圖 12接吻動作分析圖11和圖12分別給出了元素結構分析的框架示意圖以及動作識別的例子，以表情識別為例，單純的依賴圖像這個模態是很難將準確率提升上去的，這也是人維度相關識別算法的一個難點，而引入聲音這個模態就可以比較有效的幫助算法模型提升精度。

2.3.2?視頻自動生成

當視頻內容被拆解為細顆粒度的要素之后，智能媒資庫才可能賦能視頻生產，甚至視頻原生廣告。視頻的全自動生成是一件很有挑戰的事情，而內容的剪輯創作是機器目前比較難于勝任的工作，但是素材的搜索和推薦卻是提效視頻創作的有效手段。我們很多PGC合作伙伴在進行影劇綜漫周邊視頻制作時都苦于視頻元素的尋找和剪輯，而視頻解構技術恰好可以賦能這一過程。

Netflix于2018年公布了一項很有意思的工作，即電影個性化海報推薦，其原理就是針對不同的用戶、不同的上下文選擇不同的海報素材來呈現同一部電影的推薦結果，他們利用了強化學習相關的策略來做分發提效，目的是提升視頻的點擊率。而優酷這邊碰到的缺是新的問題，全站有上萬部存量電視劇、電影，為它們專門制作海報投入太大，網上能夠抓取到的海報圖往往比較陳舊，對用戶的吸引力也大幅度減弱。因此，能否自動給這些視頻生成海報圖變成為了一項很有業務和技術挑戰的課題，優酷算法中心的工程師和達摩院的科學家一起進行了深入研究，初步拿到了一些結果。

圖 13產生封面圖的方法

圖 14自動生成封面圖問題約束

圖13、圖14都來自于優酷和達摩院在NeurIPS 2018 Workshop of Video Understanding in Youku的分享，封面圖的生成來源于對內容的準確分析和解構。

3?對未來的展望

優酷未來在多模態方面的規劃

視頻內容的理解對于采、制、宣、發、播這五個核心業務環節，視頻的搜索交互形態也會呈現出多元化的模態，且視頻本身的元素化結構將會極大的助力內容再次創作，賦能給PGC生態。我們將在如下幾個方向上持續加大投入：

視頻解構分析與智能生產
交互式動態視頻技術
端到端的多模態視頻理解與分發算法
基于視頻理解的內容評估技術
多模態對話式搜索技術

多模態技術未來發展

好的視頻內容是能夠激發觀眾的情感共鳴的，而很多用戶追劇、看電影的動力之一就是分享感動和快樂，如何能夠在移動時代抓住用戶的碎片化時間和整塊娛樂時間是各個視頻網站爭奪的焦點之一。近年來深度學習在多媒體數據上的突破性進展給多模態內容理解帶來了新的機會，如何能夠讓機器“看懂“視頻內容將會是視頻網站核心技術的制高點之一。

多模態搜索推薦會成為視頻信息獲取的重要趨勢，而向單一的文字模態做降維僅僅是開始，探索更為通用的端到端檢索模型仍是需要解決的難題
隨著互聯網電視走入越來越多的家庭，圍繞電視這個共享屏幕，更自然的多媒體交互方式將會極大的促進跨模態信息檢索的研究
基于多模態內容分析解構技術的智能媒資庫逐漸會成為視頻網站、電視臺、甚至企業內部平臺的標配，這將會是一個很大的to?B市場空間
目前短視頻網站中占比較高的PGC二創視頻生產逐漸會被AI取代，甚至智能算法可以生產出類似鬼畜類這樣的視頻，極大地提高生產效率

多模態內容理解作為一項逐漸走出學術象牙塔的技術，未來會在視頻業務中扮演著越來越重要的角色。

作者介紹

王曉博，阿里大文娛集團資深算法專家，優酷算法中心負責人。2010年博士畢業于北京航空航天大學計算機學院數據挖掘方向，先后在百度、搜狗商務搜索部門從事算法策略研發工作。2015年加入阿里組建猜你喜歡算法團隊，將猜你喜歡打造為手淘第一大導購場景，成為淘寶平臺導購流量分發的核心入口。2018年起負責優酷算法中心，組建認知實驗室，推出了多模態搜索推薦引擎、視頻理解與智能生成平臺等系列產品。主要研究方向為大規模分布式機器學習算法、多模態交互搜索推薦系統、算法博弈論。

福利推薦

王曉博老師將在 QCon北京2019 的**“人工智能技術”專題做題為“結構化視頻分析算法與應用”**的演講。該專題還有多位行業內人工智能場景落地的專家，他們將多維度為大家呈現 AI 對行業的改造，以及AI 升級帶來的產業碩果。目前大會門票 9 折火熱預定中，現在報名立減 880 元，團購還可享受更多優惠！點擊 「閱讀原文」或識別二維碼即可查看大會完整日程。席位有限，馬上拿起電話聯系票務小姐姐 Ring 吧：電話/微信：17310043226

總結

以上是生活随笔為你收集整理的优酷在多模态内容理解上的研究及应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MySQL 复制 - 性能与扩展性的基石
下一篇： React Native 蓝牙4.0 B