视频内容理解在手淘逛逛中的应用与落地
隨著多媒體技術的發展,直播、短視頻、AR等多媒體內容表現形式層出不窮,異彩紛呈。視頻內容的理解在視頻生產感知,理解分發中有哪些應用,為淘寶電商帶來哪些影響?本次LiveVideoStackCon 2021上海站我們邀請到了阿里巴巴淘系技術算法專家李曉波(籬悠)分享視頻內容理解在手淘逛逛中的應用與落地。
文 / 李曉波(籬悠)
整理 / LiveVideoStack
# 淘寶探索人貨場新形式的發展歷程
手淘一直在做商品的展示,這幾年,手淘商品展示模式一直在變化。1998年做文本,2005年進入圖文時代,2017年進入淘寶直播時代。發展到今天,手淘新的業務增長點在哪里?這里會涉及到以下幾件事:首先電商的表現形式也在不斷發展變化。友商像抖音、快手等內容廠商的DUA規模、用戶時長都有快速增長;技術方面目前多媒體技術向內容化、社區化方向蓬勃發展。基于以上幾個方面,手淘下一步要做以下幾個方向:升級傳統RGB直播的形式,從2.5D到3D再到AR形式做升級;手淘會探索內容業務的的增長點,從原來商品介紹轉至對內容的介紹。當然萬變不離其中就是通過多媒體形式做商品的表征。
# 逛逛的愿景
逛逛想要傳達的理念,第一傳達生活方式,例如構造真實消費的場景進行購物;第二由于是真實的人,每個人都有自己的人設,有自身人格化,希望逛逛產品傳遞人格化;第三逛逛產品不希望是高不可攀的,而希望是每個人都消費得起、性價比高的產品。上述就是逛逛的愿景。
# 逛逛內容業務面臨的問題
首先要有愿景做產品,最后落到技術上來看,面臨技術挑戰有以下幾個部分:
生產者角度上的問題是:一是逛逛以短視頻拍攝為主的產品,原來拍圖片生產成本低,拍視頻生產成本較高,需要選標題、封面圖,做轉場使視頻生動有趣,做特效玩法(例如:張嘴、眨眼、口吐蓮花);二是視頻生產可以是視頻內容的二次加工得來,那商品、場景、特效素材從哪里獲取?
平臺的角度上的問題是:所有生產的視頻匯集成在平臺側,每日生產的視頻量是一個海量的數據。一是海量內容參差不齊,如何對內容的快速審核、挑出優質視頻內容;二是內容具有一定時效性。商品可以春夏秋冬賣一年,內容也會有熱點信息,以及海量信息該如何進行快速處理?三是手淘商品有完整的結構化信息供運營,視頻內容的raw data信息如何進行精細化運營?
消費者的角度上的問題是:每個人時間有限,除了工作,休閑時間刷刷抖音,看看逛逛的時間更加有限。另外對消費者而言,信息海量,例如,手淘每天產生幾百萬短視頻,一個個看無法看完,如何形成消費者內容畫像、根據消費者內容畫像匹配合適內容就是我們要解決的問題。
面臨上述三個問題,在算法上總結起來三句話:幫生產,加快生產效率;提效率,在平臺上完成海量內容的結構化語義理解;促分發,讓合適同學看見合適內容。后續我將圍繞這些問題分享算法上解決上述問題的方式。
# 逛逛內容視覺算法的整體技術架構
內容視覺算法分成兩塊:互動視覺和互動玩法來幫助內容分發;在內容理解方面拆成四部分:智能生產,智能審核,智能解鎖,內容語義。本次分享重點講的是智能生產、智能審核、智能解鎖、智能語義。
01
智能生產
第一部分是內容生產面臨的問題。
1.1 智能創作
智能生產上述提到了一些問題,在問題之下,分享一下解決方案。解決方案分為兩部分。
第一部分是提高視頻的發布效率,如何讓發布者更高效發布內容,生產短視頻。自動生產一些濾鏡、標題,自動生成一些可以打動人心的話題、自動調節色彩空間,提升視頻發布的成功率。
第二部分是素材再加工。將原始拍攝的視頻內容拆散開來,將商品、人物從原始視頻中抽出。與智能模板,智能濾鏡等結合,二次加工成短視頻。
以上是智能生產這兩部分要做的整體介紹。其中涉及內容很多,后續會挑選關鍵點講一下具體如何來做到。
1.2 視覺元素解構
首先講到關于智能生產中視覺元素解構。對內容重新編輯需要將原始內容從原有視頻中拆出來。為了做到這些,我們構建了一套完整分割體系,從最簡單的純色分割、類目分割到頭發分割、固定人像分割,到指甲、身體分割都可以將其分割出來。也就是說我們將商品或人從RGB信息中分離出來,后續根據商品的顏色和分發主題來搭配相應顏色空間(智能濾鏡)等將其二次加工,快速生產想要的視頻。那么完整的分割體系是保證視覺元素分拆的重要一步。
1.3 話題生產
一是一個視頻在分發過程中如何打動別人。對于話題(這個視頻的內容),可以用深度學習方案將用戶特征提取出來,打上個性化話題。
1.4 智能封面圖
二是在拍攝視頻過程中,如果沒有封面圖,那么視頻首幀就是封面圖。但會有幾個問題:視頻首幀無法完整表達視頻的整體含義;首幀容易黑屏、花屏。此時如何在拍攝的視頻中精選最能夠代表視頻含義的幀就是我們所要做的事情。
1.5 互動玩活
三是如果有了封面圖,并賦予它語義含義后,要將視頻變好玩,需要互動玩法。例如,在友商的一些產品中,有眨一下眼睛就會出眼淚;一笑就會出桃花。這些互動玩法就可以快速將短視頻變得生動有趣。而在這一板塊,我們提供了一整套2D、3D的特效玩法。
02
智能審核
講完了關于智能生產部分,第二部分分享智能審核。
2.1 OCR
一是OCR。整個視頻審核過程中是跨模態的,有語音信息、文本信息、視覺信息。在整個過程中,我們會把所有視頻、圖片含有的文字信息摘出,有了它可以做很多事情。上圖是整個OCR鏈路體系。基本流程和普通圖片OCR相似。
2.2 內容去劣
二是有了跨模態信息,智能審核分為兩大步驟,第一步是內容去劣,第二部是內容擇優。在整個視頻中出現抖動、二維碼LOGO不符合場景分發等情況時,則會對內容進行降權。這一塊有60多種模型來解決內容去劣的問題。
2.3 內容擇優
第二步是內容擇優。所有短視頻分發前都需要進行人工審核,在有限人力下,如何將好視頻快速分發?內容擇優就是通過算法優先找出相應的優質視頻,找出后并不是直接分發,而是優先將其分配給人工進行審核,保證優質視頻時效性,在最短時間在公域中流轉。上述就是內容擇優的內容。封面圖不都是自己生成,會有用戶上傳封面圖,但其與內容完全沒有關系。那么可以在擇優模型中,從商品人物一致性,商品調性出發,使用美學模型方法將優質視頻挑選出來。
03
內容檢索
第三部分是關于內容檢索方面。
3.1 原子能力
第一需要構建完整內容檢索的原子能力。最早在深度學習之前,運用SIFT特征(SLAM中運用ORB特征使之更快)把局部特征構建成全局特征做檢索。深度學習后,全局特征很好提,那么局部特征怎么提呢?我們構建了局部特征算子,整個檢索有局部和全局特征。構建后做整個上層檢索,以文本搜圖片或視頻,以圖像搜視頻,以視頻搜視頻等各種應用。檢索技術是通用的,但運用場景不同,則上層會形成幾種產品:直播看點,解決商品搜索過程;內容去重,在整個視頻中會有很多重復,調整分辨率幀率或是輕微裁剪,顏色空間變化,本質上內容一致,如何做內容去重;明星識別,識別視頻中出現的人物,人物關系;視頻推薦,如何與視頻檢索結合。上述是內容檢索中的原子能力。后續會圍繞著上層能力做詳細介紹。
3.2 內容看點
第二是直播看點,內容看點。有很多用過淘寶直播的用戶知道回放時會有看點。它是在小的閉集上做商品檢索。過程如上圖:第一步是數據預處理,一段視頻中不是每幀信息都是有用的,將有用幀挑選出來;第二步是通用物體檢測,檢測出每段具體賣的商品,;第三步是時空軌跡/tracklet,在直播商品的過程中,主播賣的商品與時間前后和空間有關,例如賣手機,左手展示,商品展示與物理空間有關;第四步是Query提取,從音頻信息到OCR信息;第五步是文本信息與視覺信息結合,進行多模態提商品特征。第六步是在閉環內對商品特征做檢索處理。
3.3 明星檢索
第三是明星檢索。在拍短視頻或整個直播過程中,出現哪些人,這些人是誰。也許不知道這個人的名字,但我們會給他Face ID,不管在哪個視頻中出現,都會被完整提取出來。其核心在于一方面是多域聯合,另一方面現在支持的是千萬級別到億級別的,在lost function這一塊去做arcface loss。
3.4 內容去重
第四是內容去重。分享一下內容去重需要解決的問題,淘寶有分傭機制。當一個視頻可以返利時,會有人盜取視頻并加入自己的商品鏈接。視頻中會進行裁幀處理,分辨率變化等形變。我們需要將作弊的視頻檢索出來,以上是內容去重需要做的事情。叫內容不叫視頻的原因是現在我們對文本、圖片、視頻、帖子等形式的去重都支持。
04
內容語義
講完了內容檢索后,第四部分來分享一下我們在內容語義方面做的事。
4.1 視頻分類
第一個最常用的是視頻分類。無論長視頻或短視頻都要進行分類,這事情說簡單也簡單,說難也難,是因為有很多視頻在分類過程中,不一定是視覺可分。因此整個分類過程中是跨模態的,會把ASR信息或整個OCR信息聯合去做分類。往往分類不是分一級類目(搞笑、美食),一級類目下還有二級類目(美食下有潮汕美食、浙江美食、上海美食),在整個分類過程中,一級類目與二級類目聯合進行分類,借助兩個分類之間的相關性,盡量減少不一致性。如果一級分類與二級分類相差過大,認為這是有問題的,則會重新調整。通過兩級分類聯合相互監督使之準確率更高。
4.2 視頻標簽
????
第二個是視頻標簽。在整個視頻中分類比較有限,一般來說一級類目幾十種,二級類目一兩百種,除了分類信息,還可以打大量標簽。這些標簽如何產生,判別什么樣的標簽是有意義的需要與各自業務結合起來(比如說說視頻中有一瓶水,里面有兩個人。打這樣的標簽不一定是有意義的)。這需要和各自業務域結合產出有意義的標簽。如果是安防產品,會對人或刀具或打架行為關心;如果是電商,則會對商品和出現的人比較關心。這里會有業務上的設計,而有了業務上的設計,跨模態理解最終會把想要的標簽生產出來。
4.3 內容向量化
第三個是內容向量化。把語義理解后,需要與最終的搜索推薦系統結合,在結合時會有很多結合點。第一步將類目信息或Face ID整個傳輸給搜推,讓其做后續推薦。推薦時那一頁不可能都是你喜歡的那件商品,例如我喜歡手機,但我打開搜推系統這一頁,不可能一屏全是手機或是我喜歡某個信息。這樣做的原因是搜推的需要有多樣性和新穎性。如果用戶搜了一個洗衣機,那么如何將推薦打散?比如視覺方面,當用戶輸入文本信息時,會將視頻中的洗衣機標簽提取,使洗衣機類目打散。
4.4 興趣圖譜
第四部分是興趣圖譜。每個視頻獨立成體系,這些海量視頻之間標簽的關聯性是維度,可以匯集成視頻與視頻標簽之間的關聯關系,是標簽圖譜。另外一方面,一個人看了許多視頻,中間的關聯性和共通性可以通過標簽、屬性形成基于個人內容興趣圖譜。針對這一方面,由單個視頻上升到群體行為構成整個視頻之間的標簽圖譜或興趣圖譜,上述就是做興趣圖譜的事情。
4.5 認識推理
第五部分是認識推理。興趣圖譜構建是個體與群體行為,群體行為分為兩個方面,看過的視頻與看視頻人之間的關系。
05
訓練體系
逛逛算法模型不少。第五部分來分享一下訓練體系。
5.1 訓練體系
講訓練體系的原因是在做標簽、內容時,如果類別上到千萬級別,會遇到長尾問題,解決現有數據問題時會遇到小樣本問題。舉個例子,手淘中最不缺的是商品樣本;逛逛是做內容的,不一定是商品。我們會發現內容生產者為了點擊率生產軟色情內容,在手淘中屬于小樣本。如果要做軟色情的識別分類器,會發現手淘中沒有很多樣本(因為我們不是社區)。所以我們需要有一套體系根據樣本分布,如果有海量樣本,就需要用監督學習來解決。把所有樣本花錢進行標注,標的樣本越多,越精準。但另一方面如果標注的都是簡單的樣本,不一定可以隨著樣本量上升,精度會線性增長。找出難樣本有主動學習方式,同時也能節省標注的經費。長尾的東西多半是小樣本,會有半監督、自監督方法、無監督方法做體系,將整體分布訓練做起來,會形成自己的訓練體系去解決整個在逛逛中遇到的各種問題。
以上就是我關于逛逛算法分享的全部內容,謝謝。
The cover from?creativeboom.com
講師招募?LiveVideoStackCon 2021 北京站
LiveVideoStackCon 2021 北京站(9月3-4日)正在面向社會公開招募講師,歡迎通過?speaker@livevideostack.com?提交個人及議題資料,無論你的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的,我們將會在24小時內給予反饋。
總結
以上是生活随笔為你收集整理的视频内容理解在手淘逛逛中的应用与落地的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时音视频技术的演进与应用
- 下一篇: 广播IP转型报告:远程制作持续崛起