让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘
背景
隨著4G的普及和5G的推出,內(nèi)容消費的訴求越來越受到人們的重視。2019年互聯(lián)網(wǎng)趨勢報告指出在移動互聯(lián)網(wǎng)行業(yè)整體增速放緩的大背景下,短視頻行業(yè)異軍突起,成為“行業(yè)黑洞”搶奪用戶時間,盡管移動互聯(lián)網(wǎng)人口紅利見頂,新的增長點難以尋覓,但中國短視頻人均使用時長及頭部短視頻平臺日均活躍用戶均持續(xù)增常(如圖1所示)。
圖一
在淘寶,短視頻業(yè)務(wù)一直以來都是非常重要的業(yè)務(wù),是淘寶app從單一的商品導(dǎo)購app走向商品導(dǎo)購+內(nèi)容消費的多元化app的關(guān)鍵所在。相較于單一的商品導(dǎo)購,商品導(dǎo)購+內(nèi)容消費的模式有效增加用戶粘性,提高用戶的停留時長,最終獲得GMV的持續(xù)增長。不僅如此,2019年視頻營銷發(fā)展趨勢白皮書指出目前視頻內(nèi)容的轉(zhuǎn)發(fā)量已達(dá)到圖文的12倍,視頻營銷已經(jīng)成為品牌最愛的營銷方式,使用視頻營銷比不使用視頻營銷收入增長速度快49%,且從搜索獲得的網(wǎng)站流量多41%?,F(xiàn)如今淘寶每年新增內(nèi)容數(shù)達(dá)數(shù)十億,其中視頻數(shù)占比持續(xù)提升,預(yù)計到2022年視頻的占比會超過50%。如何對規(guī)模如此龐大的視頻進行內(nèi)容化理解,高效賦能視頻運營和個性化分發(fā)變得極為關(guān)鍵。
視頻類目體系
視頻內(nèi)容化理解的首要問題是構(gòu)建一個完備的、層次化的類目體系,相比于傳統(tǒng)的淘寶商品類目體系,視頻類目體系需要解決兩大問題。
- 一是提高運營的精細(xì)化能力,提供內(nèi)容的盤貨和定向生產(chǎn)、以及快速搭建會場的能力;
- 二是針對新生產(chǎn)的視頻提供冷啟動能力,提升分發(fā)的效率。
雖然淘寶的商品類目體系可以部分代替視頻類目體系的功能,但會導(dǎo)致短視頻業(yè)務(wù)的用戶心智和商品導(dǎo)購業(yè)務(wù)同質(zhì)化,因此構(gòu)建一套屬于短視頻業(yè)務(wù)自己的視頻類目體系已經(jīng)迫在眉睫。有了構(gòu)建完成的視頻類目體系,另外一個更重要的問題是產(chǎn)出高效的視頻分類算法,用于對海量的視頻進行標(biāo)簽生成。為了獲得好的點擊效果,視頻生產(chǎn)者往往會采用吸引眼球的封面圖或者標(biāo)題,但是和視頻本身的內(nèi)容關(guān)聯(lián)性很弱。此外,淘寶的視頻天然和商品有強關(guān)聯(lián)性,如何利用好商品的信息也非常關(guān)鍵。
不同于抖音美拍等其他視頻的內(nèi)容體系從新聞、科技、金融等領(lǐng)域做分類劃分,淘寶的視頻類目體系從商品導(dǎo)購、產(chǎn)品功能展示、商品知識獲取等角度出發(fā),由行業(yè)經(jīng)驗豐富的運營進行設(shè)計,包含了30+一級類目和150+二級類目,其中一級類目是對視頻的領(lǐng)域的劃分,例如服飾/家居日用/美食/萌寵等,二級類目是在一級類目的基礎(chǔ)之上對視頻的子領(lǐng)域的劃分,例如一級類目服飾下的熟女穿搭/少女穿搭/兒童服飾/中老年穿搭等,圖2是視頻類目體系的幾個案例。在這個體系之上多媒體算法團隊投入近半年的時間提出了基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法。
圖二
多模態(tài)分層視頻分類算法
? 視頻分類的難點
多模態(tài):淘寶短視頻的信息是非常豐富的,有視頻/封面圖/文本/音頻/商品等模態(tài),分別刻畫了短視頻不同維度的信息,這些信息的展示形式都是非結(jié)構(gòu)化的,如何將非結(jié)構(gòu)化的信息轉(zhuǎn)化成結(jié)構(gòu)化的特征是一大難點。不同模態(tài)的信息在不同的視頻中對類別的貢獻度也是不一樣的,小部分視頻通過標(biāo)題就可以簡單地推測出類別,但大部分視頻的標(biāo)題有效信息過少,需要兼顧其他模態(tài)信息才能推測出類別,因此在算法的訓(xùn)練中如何協(xié)同不同模態(tài)的特征,達(dá)到不同模態(tài)特征互補的效果又是另一個難點。
層次化label:單獨使用二級類目的label雖然也可以進行算法的訓(xùn)練,但是無法使算法達(dá)到最優(yōu)的效果,因為不同一級類目下面的二級類目之間的差距是遠(yuǎn)大于同一個一級類目下面的二級類目之間的差距的,單獨使用二級類目的label無法學(xué)習(xí)到這個信息。因此如何在算法的訓(xùn)練中充分利用一級類目+二級類目的層次化label同樣是一個難點。
模態(tài)信息缺失:淘寶視頻包含多種不同的模態(tài)信息,然而這些視頻不一定包含全部的模態(tài)信息,有些視頻沒有外掛商品,有些視頻沒有對應(yīng)的視頻標(biāo)題或者摘要,還有的視頻沒有封面圖。如何讓算法能夠自適應(yīng)模態(tài)缺失的情況也是一個難點。
? 多模態(tài)分層視頻分類算法框架圖
針對建立高效準(zhǔn)確的視頻分類算法的迫切需求,解決視頻分類中存在的諸多挑戰(zhàn),我們提出了基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法,算法總體框架如圖3所示。算法的核心主要分為3個部分:
(1) 預(yù)訓(xùn)練模型的選擇,
(2) 模態(tài)融合方法的設(shè)計,
(3) 多目標(biāo)的分類器的設(shè)計。
圖三
? 預(yù)訓(xùn)練模型的選擇
隨著硬件水平的提高以及大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集的推出,遷移學(xué)習(xí)在深度學(xué)習(xí)任務(wù)中扮演的角色越來越重要。尤其是在缺乏訓(xùn)練數(shù)據(jù)的情況下,使用預(yù)訓(xùn)練模型進行遷移學(xué)習(xí)能夠加速loss收斂并顯著提升下游任務(wù)的準(zhǔn)確率。
(1)?視覺模態(tài):視頻和封面圖共同構(gòu)成了視覺模態(tài)信息,視頻是視頻內(nèi)容的主體,包含了主要的內(nèi)容信息,封面圖是視頻內(nèi)容的精華,兩者可以互相補充。在VGG16、Inception 系列模型、ResNet等經(jīng)典的圖像分類模型中,我們選擇了Inception-Resnet v2[1]作為視覺特征提取的模型。這個模型是2016年Google推出的大規(guī)模圖像分類模型,既具有Inception系列模型的優(yōu)勢,能夠通過堆疊不同的Inception Block增加網(wǎng)絡(luò)的寬度提高算法的準(zhǔn)確率,還加入了Resnet的殘差學(xué)習(xí)單元(如圖4所示),殘差學(xué)習(xí)單元的輸出由多個卷積層級聯(lián)的輸出和輸入元素間相加,能夠緩解網(wǎng)絡(luò)退化的問題,增加深度網(wǎng)絡(luò)的層數(shù),有效提高視覺特征的的泛化性。
視頻特征序列相較于普通的圖像特征包含了更加豐富的信息,不同特征之間具有時序相關(guān)性。我們采用NetVLAD(如圖3所示)作為視頻特征的聚合網(wǎng)絡(luò)。NetVLAD常出現(xiàn)在近幾年國內(nèi)外視頻分類大賽的top方案中,以CNN的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)VLAD算法,構(gòu)成了新生成的VLAD層,VLAD算法(如公式1所示)統(tǒng)計的是特征x和其相應(yīng)的聚類中心c的殘差和,a決定c是否是特征x距離最近的聚類中心。相比于Average Pooling,NetVLAD[2]可以通過聚類中心將視頻序列特征轉(zhuǎn)化為多個視頻鏡頭特征,然后通過可以學(xué)習(xí)的權(quán)重對多個視頻鏡頭加權(quán)求和獲得全局特征向量。
公式 1
(2) 音頻模態(tài):淘寶視頻中包含大量的教程類視頻,這些視頻內(nèi)容的關(guān)鍵信息通過音頻表現(xiàn)出來,因此在淘寶視頻分類中音頻模態(tài)至關(guān)重要。我們首先從淘寶視頻中分離音頻信號,通過計算MFCC特征將音頻信號轉(zhuǎn)換為圖像輸入,然后使用VGGish[3]提取音頻特征序列。音頻特征序列與視頻特征序列類似,使用NetVLAD提取不同鏡頭對應(yīng)的音頻特征,然后通過可學(xué)習(xí)的權(quán)重融合生成音頻模態(tài)的全局特征向量。
(3)文本模態(tài):視頻內(nèi)容中的文本包含了視頻標(biāo)題和視頻摘要,是視頻描述內(nèi)容的大致概括,對視頻分類起到指導(dǎo)性的作用。文本模態(tài),我們使用Bert模型生成視頻標(biāo)題和視頻摘要的全局特征向量。Bert是18年Google推出的大規(guī)模文本預(yù)訓(xùn)練模型,可謂是nlp領(lǐng)域大力出奇跡的代表,Bert用12層的transformer encoder將nlp任務(wù)的benchmark提高了一大截。相較于普通的word2vec,經(jīng)過海量文本預(yù)訓(xùn)練的Bert能夠在視頻分類算法中引入更多的遷移知識,提供更精準(zhǔn)的文本特征。
(4) 商品模態(tài):商品模態(tài)是淘寶視頻區(qū)別于站外視頻的標(biāo)志,是體現(xiàn)我們的視頻分類算法優(yōu)勢的關(guān)鍵所在。我們沿用文本模態(tài)的Bert模型生成商品模態(tài)的全局特征向量。商品模態(tài)在推薦領(lǐng)域常用item_id lookup到商品的embedding矩陣再接入下游網(wǎng)絡(luò),然而我們的視頻分類算法是離線學(xué)習(xí)的,對于新發(fā)現(xiàn)的item_id不能很迅速地獲得它的embedding特征,因此我們使用Bert模型提取商品的標(biāo)題和類目名稱的文本特征,作為商品模態(tài)的全局特征向量。
圖四
? 模態(tài)融合方法的設(shè)計
淘寶視頻的多模態(tài)信息十分豐富,不同模態(tài)之間提供的信息內(nèi)容并不是完全一致的。如何設(shè)計優(yōu)秀的多模態(tài)特征融合方法,充分利用非結(jié)構(gòu)化的多模態(tài)信息,將不同模態(tài)間的特征對齊到同一特征空間,使得不同模態(tài)信息之間取長補短,這是視頻分類算法模型中最關(guān)鍵的模塊。我們比較了多種不同的多模態(tài)特征融合方法,實驗結(jié)果如圖表格1所示。
(1) TFN和LMF(如圖5所示)都是將多模態(tài)特征映射到不同模態(tài)間外積的高維特征空間進行特征融合。TFN[6]通過模態(tài)之間的外積計算不同模態(tài)的元素之間的相關(guān)性,但會極大的增加特征向量的維度,造成模型過大,難以訓(xùn)練。而LMF[7]是TFN的等價形式,利用低秩矩陣的分解,將原本的各模態(tài)間的先外積再全連接變換過程,等價為各個模態(tài)先單獨線性變換到輸出維度,之后多個維度點積,可以看作是多個低秩向量的結(jié)果的和,LMF相比TFN減少了很多參數(shù)量,是TFN的優(yōu)化版本。但在視頻分類的算法中,這2種方法的效果都不及預(yù)期,分析原因在于視頻分類的模態(tài)特征長度都在千維左右,即使是LMF也會出現(xiàn)參數(shù)數(shù)量爆炸的情況,為了保證參數(shù)量不爆炸就必須先將每個模態(tài)特征降維,然而降維本身是有損的,導(dǎo)致降維后的模態(tài)特征再外積不如直接利用不同模態(tài)間特征拼接。
圖五
(2) 淘寶視頻不同模態(tài)之間信息通常是不一致的,這些不一致的模態(tài)信息之間有些內(nèi)容和類別標(biāo)簽息息相關(guān),有些內(nèi)容則相關(guān)性較低。為了關(guān)注那些與類別標(biāo)簽相關(guān)性更高的模態(tài)信息,降低對于不重要模態(tài)信息的關(guān)注程度,我們提出了基于Modal Attention的多模態(tài)特征融合方法。Modal Attention基于融合的特征向量預(yù)測一個模態(tài)個數(shù)維度的基于多模態(tài)聯(lián)合特征的對于不同模態(tài)的重要性分布概率,這個模態(tài)分布概率與多模態(tài)融合特征做點積,得到對于不同模態(tài)特征重要性重新加權(quán)過后的新的多模態(tài)融合特征。從表格1可以看出,基于Modal Attention的多模態(tài)特征融合方法的準(zhǔn)確率顯著超過了TFN和LMF,驗證了基于Modal Attention的多模態(tài)特征融合方法的優(yōu)勢。
(3) 為了應(yīng)對淘寶視頻中出現(xiàn)的模態(tài)缺失情況,我們使用了modal級別的dropout,在訓(xùn)練的時候以一定比例隨機性去除某個模態(tài)信息,增加模型對于模態(tài)缺失的魯棒性。在不添加modal dropout時,測試數(shù)據(jù)如果缺失10%的模態(tài)信息,測試精度會下降3.5%左右;在添加了modal dropout后,測試集精度下降不到0.5%,幾乎可以忽略。同時添加modal dropout后,就算模態(tài)信息不缺失的情況下,還能夠提升測試集精度,提高約0.4%。
表格一
? 層次化的分類器的設(shè)計
一般來說,分類任務(wù)只有單一的分類目標(biāo),然而,淘寶視頻的標(biāo)簽體系是一種結(jié)構(gòu)化的分層分類任務(wù),同時具有一級類目和二級類目,一級類目和二級類目之間有依存關(guān)系,構(gòu)成了一種樹狀的分類體系結(jié)構(gòu),例如:二級類目的熟女穿搭、少女穿搭、男士休閑等都屬于一級類目的服飾類。針對這個任務(wù),我們提出了分層多標(biāo)簽分類器(HMC)。
(1) 我們將HMC分類器與非常經(jīng)典的MLP分類器做對比。MLP分類器直接預(yù)測淘寶視頻的二級類目標(biāo)簽,然后根據(jù)一二級類目之間的對應(yīng)關(guān)系獲得一級類目標(biāo)簽。HMC分類器同時構(gòu)建了一二級類目各自的分類通道,能夠同時預(yù)測一二級類目標(biāo)簽,結(jié)構(gòu)圖如圖2所示。這種分類器相比于MLP,能夠隱形的學(xué)習(xí)一二級類目的依賴關(guān)系,能夠互相促進,提高分類精度,表格1的實驗結(jié)果證明了這一點。
(2) 基于HMC分類器,我們添加了基于類別不匹配的多目標(biāo)損失函數(shù),具體公式見公式2。損失函數(shù)L由三部分構(gòu)成,分別是一級類目損失L1,二級類目損失L2,以及一二級類別不匹配損失LH。一級類目損失和二級類目損失是一二級類目的交叉熵?fù)p失,能夠使得網(wǎng)絡(luò)同時學(xué)習(xí)到多模態(tài)特征與一二級類目的條件概率分布,同時能夠隱形的學(xué)習(xí)到一二級類目之間的依賴關(guān)系。然而,僅僅使用一二級類目損失無法保證一二級類目之間的依賴關(guān)系,為了緩解這個問題,我們加入了類別不匹配損失,用于懲罰一二級類目不匹配的情況。參數(shù) λ 用來控制一級類目損失和二級類目損失之間的重要性相對程度,因為二級類目數(shù)量更多,學(xué)習(xí)更加困難,需要添加更大的權(quán)重去學(xué)習(xí)。參數(shù) β 用來調(diào)節(jié)類別不匹配損失對于總體損失函數(shù)的重要性。添加類別不匹配損失之后,一二級類目不匹配的情況大幅度下降,同時分類準(zhǔn)確率也獲得了提升。
公式二
總結(jié)
Google AI掌門人Jeff Dean在NeurIPS舉辦期間指出在2020年多模態(tài)學(xué)習(xí)將會有很大的發(fā)展,能夠解決更多單模態(tài)無法解決的問題。我們提出的基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法方案為淘寶的視頻內(nèi)容化理解奠定了堅實的基礎(chǔ),為淘寶視頻的精細(xì)化運營能力和冷啟動能力做出了應(yīng)有的貢獻。與此同時,我們的方案還根據(jù)業(yè)務(wù)需求提供了無成本的可擴展能力,不僅能夠助力圖文內(nèi)容化理解,提升圖文的理解深度,同時還能通過精細(xì)的視頻向量化表達(dá)來解決相似視頻召回、視頻抄襲檢測的問題。
基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法方案為淘寶的視頻內(nèi)容化理解開了一個好頭,后續(xù)我們還會在視頻內(nèi)容化理解的領(lǐng)域內(nèi)繼續(xù)耕耘。目前我們正在嘗試更細(xì)粒度的多模態(tài)視頻標(biāo)簽算法,力圖將目前的2級視頻類目體系推向2級視頻類目+多級視頻標(biāo)簽的體系,通過視頻類目+視頻標(biāo)簽的組合形式持續(xù)提升淘寶視頻的精細(xì)化運營能力和冷啟動能力。在多模態(tài)技術(shù)上,我們會繼續(xù)關(guān)注如何更高效地進行模態(tài)融合,嘗試將預(yù)訓(xùn)練技術(shù)引入多模態(tài)中,通過誤差重建的方法讓多個模態(tài)相互學(xué)習(xí),提升模態(tài)融合的能力。
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 唱吧基于 MaxCompute 弥补自建
- 下一篇: 【人工智能】AI如何把招人效率提高四成