當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘

發(fā)布時間：2024/8/23 ChatGpt 39 豆豆

生活随笔收集整理的這篇文章主要介紹了让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

背景

隨著4G的普及和5G的推出，內(nèi)容消費的訴求越來越受到人們的重視。2019年互聯(lián)網(wǎng)趨勢報告指出在移動互聯(lián)網(wǎng)行業(yè)整體增速放緩的大背景下，短視頻行業(yè)異軍突起，成為“行業(yè)黑洞”搶奪用戶時間，盡管移動互聯(lián)網(wǎng)人口紅利見頂，新的增長點難以尋覓，但中國短視頻人均使用時長及頭部短視頻平臺日均活躍用戶均持續(xù)增常(如圖1所示)。

圖一

在淘寶，短視頻業(yè)務(wù)一直以來都是非常重要的業(yè)務(wù)，是淘寶app從單一的商品導(dǎo)購app走向商品導(dǎo)購+內(nèi)容消費的多元化app的關(guān)鍵所在。相較于單一的商品導(dǎo)購，商品導(dǎo)購+內(nèi)容消費的模式有效增加用戶粘性，提高用戶的停留時長，最終獲得GMV的持續(xù)增長。不僅如此，2019年視頻營銷發(fā)展趨勢白皮書指出目前視頻內(nèi)容的轉(zhuǎn)發(fā)量已達(dá)到圖文的12倍，視頻營銷已經(jīng)成為品牌最愛的營銷方式，使用視頻營銷比不使用視頻營銷收入增長速度快49%，且從搜索獲得的網(wǎng)站流量多41%?，F(xiàn)如今淘寶每年新增內(nèi)容數(shù)達(dá)數(shù)十億，其中視頻數(shù)占比持續(xù)提升，預(yù)計到2022年視頻的占比會超過50%。如何對規(guī)模如此龐大的視頻進行內(nèi)容化理解，高效賦能視頻運營和個性化分發(fā)變得極為關(guān)鍵。

視頻類目體系

視頻內(nèi)容化理解的首要問題是構(gòu)建一個完備的、層次化的類目體系，相比于傳統(tǒng)的淘寶商品類目體系，視頻類目體系需要解決兩大問題。

一是提高運營的精細(xì)化能力，提供內(nèi)容的盤貨和定向生產(chǎn)、以及快速搭建會場的能力；
二是針對新生產(chǎn)的視頻提供冷啟動能力，提升分發(fā)的效率。

雖然淘寶的商品類目體系可以部分代替視頻類目體系的功能，但會導(dǎo)致短視頻業(yè)務(wù)的用戶心智和商品導(dǎo)購業(yè)務(wù)同質(zhì)化，因此構(gòu)建一套屬于短視頻業(yè)務(wù)自己的視頻類目體系已經(jīng)迫在眉睫。有了構(gòu)建完成的視頻類目體系，另外一個更重要的問題是產(chǎn)出高效的視頻分類算法，用于對海量的視頻進行標(biāo)簽生成。為了獲得好的點擊效果，視頻生產(chǎn)者往往會采用吸引眼球的封面圖或者標(biāo)題，但是和視頻本身的內(nèi)容關(guān)聯(lián)性很弱。此外，淘寶的視頻天然和商品有強關(guān)聯(lián)性，如何利用好商品的信息也非常關(guān)鍵。

不同于抖音美拍等其他視頻的內(nèi)容體系從新聞、科技、金融等領(lǐng)域做分類劃分，淘寶的視頻類目體系從商品導(dǎo)購、產(chǎn)品功能展示、商品知識獲取等角度出發(fā)，由行業(yè)經(jīng)驗豐富的運營進行設(shè)計，包含了30+一級類目和150+二級類目，其中一級類目是對視頻的領(lǐng)域的劃分，例如服飾/家居日用/美食/萌寵等，二級類目是在一級類目的基礎(chǔ)之上對視頻的子領(lǐng)域的劃分，例如一級類目服飾下的熟女穿搭/少女穿搭/兒童服飾/中老年穿搭等，圖2是視頻類目體系的幾個案例。在這個體系之上多媒體算法團隊投入近半年的時間提出了基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法。

圖二

多模態(tài)分層視頻分類算法

? 視頻分類的難點

多模態(tài)：淘寶短視頻的信息是非常豐富的，有視頻/封面圖/文本/音頻/商品等模態(tài)，分別刻畫了短視頻不同維度的信息，這些信息的展示形式都是非結(jié)構(gòu)化的，如何將非結(jié)構(gòu)化的信息轉(zhuǎn)化成結(jié)構(gòu)化的特征是一大難點。不同模態(tài)的信息在不同的視頻中對類別的貢獻度也是不一樣的，小部分視頻通過標(biāo)題就可以簡單地推測出類別，但大部分視頻的標(biāo)題有效信息過少，需要兼顧其他模態(tài)信息才能推測出類別，因此在算法的訓(xùn)練中如何協(xié)同不同模態(tài)的特征，達(dá)到不同模態(tài)特征互補的效果又是另一個難點。

層次化label：單獨使用二級類目的label雖然也可以進行算法的訓(xùn)練，但是無法使算法達(dá)到最優(yōu)的效果，因為不同一級類目下面的二級類目之間的差距是遠(yuǎn)大于同一個一級類目下面的二級類目之間的差距的，單獨使用二級類目的label無法學(xué)習(xí)到這個信息。因此如何在算法的訓(xùn)練中充分利用一級類目+二級類目的層次化label同樣是一個難點。

模態(tài)信息缺失：淘寶視頻包含多種不同的模態(tài)信息，然而這些視頻不一定包含全部的模態(tài)信息，有些視頻沒有外掛商品，有些視頻沒有對應(yīng)的視頻標(biāo)題或者摘要，還有的視頻沒有封面圖。如何讓算法能夠自適應(yīng)模態(tài)缺失的情況也是一個難點。

? 多模態(tài)分層視頻分類算法框架圖

針對建立高效準(zhǔn)確的視頻分類算法的迫切需求，解決視頻分類中存在的諸多挑戰(zhàn)，我們提出了基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法，算法總體框架如圖3所示。算法的核心主要分為3個部分：

(1) 預(yù)訓(xùn)練模型的選擇，

(2) 模態(tài)融合方法的設(shè)計，

(3) 多目標(biāo)的分類器的設(shè)計。

圖三

? 預(yù)訓(xùn)練模型的選擇

隨著硬件水平的提高以及大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集的推出，遷移學(xué)習(xí)在深度學(xué)習(xí)任務(wù)中扮演的角色越來越重要。尤其是在缺乏訓(xùn)練數(shù)據(jù)的情況下，使用預(yù)訓(xùn)練模型進行遷移學(xué)習(xí)能夠加速loss收斂并顯著提升下游任務(wù)的準(zhǔn)確率。

(1)?視覺模態(tài)：視頻和封面圖共同構(gòu)成了視覺模態(tài)信息，視頻是視頻內(nèi)容的主體，包含了主要的內(nèi)容信息，封面圖是視頻內(nèi)容的精華，兩者可以互相補充。在VGG16、Inception 系列模型、ResNet等經(jīng)典的圖像分類模型中，我們選擇了Inception-Resnet v2[1]作為視覺特征提取的模型。這個模型是2016年Google推出的大規(guī)模圖像分類模型，既具有Inception系列模型的優(yōu)勢，能夠通過堆疊不同的Inception Block增加網(wǎng)絡(luò)的寬度提高算法的準(zhǔn)確率，還加入了Resnet的殘差學(xué)習(xí)單元(如圖4所示)，殘差學(xué)習(xí)單元的輸出由多個卷積層級聯(lián)的輸出和輸入元素間相加，能夠緩解網(wǎng)絡(luò)退化的問題，增加深度網(wǎng)絡(luò)的層數(shù)，有效提高視覺特征的的泛化性。

視頻特征序列相較于普通的圖像特征包含了更加豐富的信息，不同特征之間具有時序相關(guān)性。我們采用NetVLAD(如圖3所示)作為視頻特征的聚合網(wǎng)絡(luò)。NetVLAD常出現(xiàn)在近幾年國內(nèi)外視頻分類大賽的top方案中，以CNN的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)VLAD算法，構(gòu)成了新生成的VLAD層，VLAD算法(如公式1所示)統(tǒng)計的是特征x和其相應(yīng)的聚類中心c的殘差和，a決定c是否是特征x距離最近的聚類中心。相比于Average Pooling，NetVLAD[2]可以通過聚類中心將視頻序列特征轉(zhuǎn)化為多個視頻鏡頭特征，然后通過可以學(xué)習(xí)的權(quán)重對多個視頻鏡頭加權(quán)求和獲得全局特征向量。

公式 1

(2) 音頻模態(tài)：淘寶視頻中包含大量的教程類視頻，這些視頻內(nèi)容的關(guān)鍵信息通過音頻表現(xiàn)出來，因此在淘寶視頻分類中音頻模態(tài)至關(guān)重要。我們首先從淘寶視頻中分離音頻信號，通過計算MFCC特征將音頻信號轉(zhuǎn)換為圖像輸入，然后使用VGGish[3]提取音頻特征序列。音頻特征序列與視頻特征序列類似，使用NetVLAD提取不同鏡頭對應(yīng)的音頻特征，然后通過可學(xué)習(xí)的權(quán)重融合生成音頻模態(tài)的全局特征向量。

(3)文本模態(tài)：視頻內(nèi)容中的文本包含了視頻標(biāo)題和視頻摘要，是視頻描述內(nèi)容的大致概括，對視頻分類起到指導(dǎo)性的作用。文本模態(tài)，我們使用Bert模型生成視頻標(biāo)題和視頻摘要的全局特征向量。Bert是18年Google推出的大規(guī)模文本預(yù)訓(xùn)練模型，可謂是nlp領(lǐng)域大力出奇跡的代表，Bert用12層的transformer encoder將nlp任務(wù)的benchmark提高了一大截。相較于普通的word2vec，經(jīng)過海量文本預(yù)訓(xùn)練的Bert能夠在視頻分類算法中引入更多的遷移知識，提供更精準(zhǔn)的文本特征。

(4) 商品模態(tài)：商品模態(tài)是淘寶視頻區(qū)別于站外視頻的標(biāo)志，是體現(xiàn)我們的視頻分類算法優(yōu)勢的關(guān)鍵所在。我們沿用文本模態(tài)的Bert模型生成商品模態(tài)的全局特征向量。商品模態(tài)在推薦領(lǐng)域常用item_id lookup到商品的embedding矩陣再接入下游網(wǎng)絡(luò)，然而我們的視頻分類算法是離線學(xué)習(xí)的，對于新發(fā)現(xiàn)的item_id不能很迅速地獲得它的embedding特征，因此我們使用Bert模型提取商品的標(biāo)題和類目名稱的文本特征，作為商品模態(tài)的全局特征向量。

圖四

? 模態(tài)融合方法的設(shè)計

淘寶視頻的多模態(tài)信息十分豐富，不同模態(tài)之間提供的信息內(nèi)容并不是完全一致的。如何設(shè)計優(yōu)秀的多模態(tài)特征融合方法，充分利用非結(jié)構(gòu)化的多模態(tài)信息，將不同模態(tài)間的特征對齊到同一特征空間，使得不同模態(tài)信息之間取長補短，這是視頻分類算法模型中最關(guān)鍵的模塊。我們比較了多種不同的多模態(tài)特征融合方法，實驗結(jié)果如圖表格1所示。

(1) TFN和LMF(如圖5所示)都是將多模態(tài)特征映射到不同模態(tài)間外積的高維特征空間進行特征融合。TFN[6]通過模態(tài)之間的外積計算不同模態(tài)的元素之間的相關(guān)性，但會極大的增加特征向量的維度，造成模型過大，難以訓(xùn)練。而LMF[7]是TFN的等價形式，利用低秩矩陣的分解，將原本的各模態(tài)間的先外積再全連接變換過程，等價為各個模態(tài)先單獨線性變換到輸出維度，之后多個維度點積，可以看作是多個低秩向量的結(jié)果的和，LMF相比TFN減少了很多參數(shù)量，是TFN的優(yōu)化版本。但在視頻分類的算法中，這2種方法的效果都不及預(yù)期，分析原因在于視頻分類的模態(tài)特征長度都在千維左右，即使是LMF也會出現(xiàn)參數(shù)數(shù)量爆炸的情況，為了保證參數(shù)量不爆炸就必須先將每個模態(tài)特征降維，然而降維本身是有損的，導(dǎo)致降維后的模態(tài)特征再外積不如直接利用不同模態(tài)間特征拼接。

圖五

(2) 淘寶視頻不同模態(tài)之間信息通常是不一致的，這些不一致的模態(tài)信息之間有些內(nèi)容和類別標(biāo)簽息息相關(guān)，有些內(nèi)容則相關(guān)性較低。為了關(guān)注那些與類別標(biāo)簽相關(guān)性更高的模態(tài)信息，降低對于不重要模態(tài)信息的關(guān)注程度，我們提出了基于Modal Attention的多模態(tài)特征融合方法。Modal Attention基于融合的特征向量預(yù)測一個模態(tài)個數(shù)維度的基于多模態(tài)聯(lián)合特征的對于不同模態(tài)的重要性分布概率，這個模態(tài)分布概率與多模態(tài)融合特征做點積，得到對于不同模態(tài)特征重要性重新加權(quán)過后的新的多模態(tài)融合特征。從表格1可以看出，基于Modal Attention的多模態(tài)特征融合方法的準(zhǔn)確率顯著超過了TFN和LMF，驗證了基于Modal Attention的多模態(tài)特征融合方法的優(yōu)勢。

(3) 為了應(yīng)對淘寶視頻中出現(xiàn)的模態(tài)缺失情況，我們使用了modal級別的dropout，在訓(xùn)練的時候以一定比例隨機性去除某個模態(tài)信息，增加模型對于模態(tài)缺失的魯棒性。在不添加modal dropout時，測試數(shù)據(jù)如果缺失10%的模態(tài)信息，測試精度會下降3.5%左右；在添加了modal dropout后，測試集精度下降不到0.5%，幾乎可以忽略。同時添加modal dropout后，就算模態(tài)信息不缺失的情況下，還能夠提升測試集精度，提高約0.4%。

表格一

? 層次化的分類器的設(shè)計

一般來說，分類任務(wù)只有單一的分類目標(biāo)，然而，淘寶視頻的標(biāo)簽體系是一種結(jié)構(gòu)化的分層分類任務(wù)，同時具有一級類目和二級類目，一級類目和二級類目之間有依存關(guān)系，構(gòu)成了一種樹狀的分類體系結(jié)構(gòu)，例如：二級類目的熟女穿搭、少女穿搭、男士休閑等都屬于一級類目的服飾類。針對這個任務(wù)，我們提出了分層多標(biāo)簽分類器（HMC）。

(1) 我們將HMC分類器與非常經(jīng)典的MLP分類器做對比。MLP分類器直接預(yù)測淘寶視頻的二級類目標(biāo)簽，然后根據(jù)一二級類目之間的對應(yīng)關(guān)系獲得一級類目標(biāo)簽。HMC分類器同時構(gòu)建了一二級類目各自的分類通道，能夠同時預(yù)測一二級類目標(biāo)簽，結(jié)構(gòu)圖如圖2所示。這種分類器相比于MLP，能夠隱形的學(xué)習(xí)一二級類目的依賴關(guān)系，能夠互相促進，提高分類精度，表格1的實驗結(jié)果證明了這一點。

(2) 基于HMC分類器，我們添加了基于類別不匹配的多目標(biāo)損失函數(shù)，具體公式見公式2。損失函數(shù)L由三部分構(gòu)成，分別是一級類目損失L1，二級類目損失L2，以及一二級類別不匹配損失LH。一級類目損失和二級類目損失是一二級類目的交叉熵?fù)p失，能夠使得網(wǎng)絡(luò)同時學(xué)習(xí)到多模態(tài)特征與一二級類目的條件概率分布，同時能夠隱形的學(xué)習(xí)到一二級類目之間的依賴關(guān)系。然而，僅僅使用一二級類目損失無法保證一二級類目之間的依賴關(guān)系，為了緩解這個問題，我們加入了類別不匹配損失，用于懲罰一二級類目不匹配的情況。參數(shù) λ 用來控制一級類目損失和二級類目損失之間的重要性相對程度，因為二級類目數(shù)量更多，學(xué)習(xí)更加困難，需要添加更大的權(quán)重去學(xué)習(xí)。參數(shù) β 用來調(diào)節(jié)類別不匹配損失對于總體損失函數(shù)的重要性。添加類別不匹配損失之后，一二級類目不匹配的情況大幅度下降，同時分類準(zhǔn)確率也獲得了提升。

公式二

總結(jié)

Google AI掌門人Jeff Dean在NeurIPS舉辦期間指出在2020年多模態(tài)學(xué)習(xí)將會有很大的發(fā)展，能夠解決更多單模態(tài)無法解決的問題。我們提出的基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法方案為淘寶的視頻內(nèi)容化理解奠定了堅實的基礎(chǔ)，為淘寶視頻的精細(xì)化運營能力和冷啟動能力做出了應(yīng)有的貢獻。與此同時，我們的方案還根據(jù)業(yè)務(wù)需求提供了無成本的可擴展能力，不僅能夠助力圖文內(nèi)容化理解，提升圖文的理解深度，同時還能通過精細(xì)的視頻向量化表達(dá)來解決相似視頻召回、視頻抄襲檢測的問題。

基于模態(tài)注意力機制的多模態(tài)分層視頻分類算法方案為淘寶的視頻內(nèi)容化理解開了一個好頭，后續(xù)我們還會在視頻內(nèi)容化理解的領(lǐng)域內(nèi)繼續(xù)耕耘。目前我們正在嘗試更細(xì)粒度的多模態(tài)視頻標(biāo)簽算法，力圖將目前的2級視頻類目體系推向2級視頻類目+多級視頻標(biāo)簽的體系，通過視頻類目+視頻標(biāo)簽的組合形式持續(xù)提升淘寶視頻的精細(xì)化運營能力和冷啟動能力。在多模態(tài)技術(shù)上，我們會繼續(xù)關(guān)注如何更高效地進行模態(tài)融合，嘗試將預(yù)訓(xùn)練技術(shù)引入多模態(tài)中，通過誤差重建的方法讓多個模態(tài)相互學(xué)習(xí)，提升模態(tài)融合的能力。

原文鏈接
本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：唱吧基于 MaxCompute 弥补自建
下一篇：【人工智能】AI如何把招人效率提高四成

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ChatGpt

让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘

背景

視頻類目體系

多模態(tài)分層視頻分類算法

總結(jié)

總結(jié)