内容 AI:建立统一的跨媒体多模态内容理解内核
作者:zixunsun@tencent.com
Jeff Dean 談 2020 年機器學(xué)習(xí)趨勢:多任務(wù)和多模式學(xué)習(xí)將成為突破口
2019 年下半年,CDG 廣告、 CSIG 音視頻,IEG 內(nèi)容推薦、PCG 信息流、TEG 數(shù)平廣告推薦和 AI 平臺部團隊、WXG 看一看團隊內(nèi)容技術(shù)專家溝通,大家在處理內(nèi)容理解任務(wù)時候,都有融合多模態(tài)特征進行內(nèi)容理解需求,同時大家具有很好的技術(shù)能力和研發(fā)經(jīng)驗。
我們希望能建立統(tǒng)一的跨媒體多模態(tài)內(nèi)容理解內(nèi)核,對新增內(nèi)容理解任務(wù),快速完成 0-1 步積累,提升模型實踐加速度、降低試錯成本,通過 Oteam 運行機制,擴大知識圈,共享公司內(nèi)容算法團隊之間的經(jīng)驗。(如果大家有興趣可以加入一起交流討論)。
技術(shù)背景
我們身處的環(huán)境本身多模態(tài)環(huán)境,人工智能要更好的理解環(huán)境,則需要具備解析多模態(tài)信息的能力。通過模態(tài)學(xué)習(xí)可以搭建能處理和連接多模態(tài)信息的模型。在內(nèi)容理解領(lǐng)域,需要分析的模態(tài)有文本,圖片,視頻,語音對應(yīng)的不同級別特征;其他輔助描述特征等。
當(dāng)前多模態(tài)的技術(shù)落地和具體任務(wù)是強相關(guān)的。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,不同的研究人員在進行內(nèi)容理解任務(wù)的時候,會加上更多模態(tài)的特征,并且嘗試通過網(wǎng)絡(luò)結(jié)構(gòu)的改進獲得更好的數(shù)據(jù)表現(xiàn)。然而針對最近幾年不同任務(wù)上多模態(tài)學(xué)習(xí)的論文研究發(fā)現(xiàn),學(xué)者們更多關(guān)注多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,而較少關(guān)注不同動作下的模型學(xué)習(xí)能力與任務(wù)、數(shù)據(jù)集之間的關(guān)聯(lián)性研究(如游戲視頻和體育視頻的動作序列識別任務(wù)上,語音特征與光流特征融合方式如何選擇)。
多模態(tài)學(xué)習(xí)研究的各個方向都可能對最終的任務(wù)表現(xiàn)產(chǎn)生作用,這些方向之間的影響和聯(lián)系需要進一步分析。當(dāng)前各個方向之間沒有在一個統(tǒng)一模型下進行實驗挖掘或者自動分析,難以充分復(fù)用其他任務(wù)上的研究成果進行改進。
技術(shù)方向
內(nèi)容團隊內(nèi)容理解算法應(yīng)不斷提升,多模態(tài)學(xué)習(xí)技術(shù)也需要不斷升級,通用框架技術(shù)具備必要的研究性和很好的落地價值,可以做到提升模型技術(shù)和業(yè)務(wù)指標(biāo)表現(xiàn),同時提升基于內(nèi)容理解能力構(gòu)建效率。模型層面可以在如下幾個方向深入:1.表征:多個模態(tài)同時存在的情況下,針對具體任務(wù)動態(tài)進行模態(tài)內(nèi)不同級別特征信息使用(如文本中句義、句法、字詞特征;視覺中語義、邊緣、色彩特征),利用注意力機制選擇特征;利用生成對抗網(wǎng)絡(luò)對形式和內(nèi)容進行表征解耦的能力。2.融合:支持不同融合策略的對比,融合動作本身可以支持動態(tài)適配;研究時序特征和非時序特征的映射對齊策略。3.協(xié)同:通過協(xié)同學(xué)習(xí),做到多模態(tài)之間的有效信息傳遞;結(jié)合多任務(wù)學(xué)習(xí),增強原模型的表征能力,降低過擬合風(fēng)險,適應(yīng)隨機噪聲。
相關(guān)任務(wù)
(1)內(nèi)容結(jié)構(gòu)化分析:視頻類:視頻分類[15-18],視頻語義標(biāo)簽,片段重要性/高光評價[25-27],視頻質(zhì)量評價,視頻動作序列分析;圖文類:
圖文標(biāo)簽,圖文分類,圖文主題詞提取,文本情感分析[19,20]。
(2)內(nèi)容質(zhì)量評價:圖文質(zhì)量評級,假新聞檢測[21-23],標(biāo)題黨檢測[28,29]。
(3)內(nèi)容創(chuàng)作生成:視頻與圖像描述[11,12,14],視頻 VQA[13],問答生成[32]。等場景任務(wù)作為內(nèi)容平臺任務(wù)的底層框架。
尤其是內(nèi)容質(zhì)量評價領(lǐng)域:色情、賭博、迷信、暴力、低俗等內(nèi)容識別檢測任務(wù)之間具有相近聯(lián)系,單一內(nèi)容可能具備多個維度特征。在一個多模態(tài)框架下通過結(jié)合多任務(wù)訓(xùn)練方式提升整體表現(xiàn)。
多模態(tài)研究方向分析
多模態(tài)學(xué)習(xí)目前主要有以下五個研究方向:?表征(Representation), 轉(zhuǎn)化(Translation),對齊(Alignment),融合(Fusion),協(xié)同學(xué)習(xí)(Co-learning)
表征(Representation)
單模態(tài)的表征負責(zé)將信息表示為計算機可以處理的數(shù)值向量或者進一步抽象為更高層的特征向量,而多模態(tài)表征是指通過利用多模態(tài)之間的互補性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示。
研究方向:
聯(lián)合表征(Joint Representation),將多個模態(tài)的信息一起映射到一個統(tǒng)一的多模態(tài)向量空間;
協(xié)同表征(Coordinated Representation),將多模態(tài)中的每個模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束(例如線性相關(guān))
(聯(lián)合表征)Multimodal learning with deep boltzmann machines (NIPS 2012) 提出將 deep boltzmann machines(DBM) 結(jié)構(gòu)擴充到多模態(tài)領(lǐng)域,通過 Multimodal DBM,可以學(xué)習(xí)到多模態(tài)的聯(lián)合概率分布。
在獲得圖像與文本間的聯(lián)合概率分布后,我們在應(yīng)用階段,輸入圖片,利用條件概率 P(文本|圖片),生成文本特征,可以得到圖片相應(yīng)的文本描述;而輸入文本,利用條件概率 P(圖片|文本),可以生成圖片特征,通過檢索出最靠近該特征向量的兩個圖片實例,可以得到符合文本描述的圖片。
(協(xié)同表征)Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)
利用協(xié)同學(xué)習(xí)到的特征向量之間滿足加減算數(shù)運算這一特性,可以搜索出與給定圖片滿足“指定的轉(zhuǎn)換語義”的圖片。
300 維的文字與圖像特征 PCA 投影
難點:
如何結(jié)合異質(zhì)性的來源的數(shù)據(jù),比如文字是符號性的,圖片是一個 RGB 矩陣,視頻是時序的 RGB 矩陣,聲音需要采樣成一個一位數(shù)組;如何處理不同級別的噪音,原因是不同模態(tài)產(chǎn)生的噪聲是不同的;如何處理數(shù)據(jù)缺失的問題。
技術(shù)方案:
轉(zhuǎn)化(Translation)
多模態(tài)轉(zhuǎn)化也可稱為映射(Mapping),主要是將一個模態(tài)的信息轉(zhuǎn)化或映射為另一個模態(tài)的信息。
相關(guān)任務(wù):
機器翻譯(Machine Translation):將輸入的語言 A(即時)翻譯為另一種語言 B。類似的還有唇讀(Lip Reading)和語音翻譯 (Speech Translation),分別將唇部視覺和語音信息轉(zhuǎn)換為文本信息。
圖片描述(Image Captioning)與視頻描述(Video Captioning):對給定的圖片/視頻形成一段文字描述,以表達圖片/視頻的內(nèi)容。
語音合成(Speech Synthesis):根據(jù)輸入的文本信息,自動合成一段語音信號。
難點:
1.未知結(jié)束位(Open-ended),例如實時翻譯中,在還未得到句尾的情況下,必須實時對句子進行翻譯;
2.主觀評判性(Subjective),很多模態(tài)轉(zhuǎn)換問題的效果沒有一個比較客觀的評判標(biāo)準(zhǔn),目標(biāo)函數(shù)的確定非常主觀。
技術(shù)方案:
對齊(Alignment):
從來自同一個實例的兩個甚至多個模態(tài)中尋找子成份之間的關(guān)系和聯(lián)系。
相關(guān)任務(wù):
給定一張圖片和圖片的描述,找到圖中的某個區(qū)域以及這個區(qū)域在描述中對應(yīng)的表述。給定一個美食制作視頻和對應(yīng)的菜譜,實現(xiàn)菜譜中的步驟描述與視頻分段的對應(yīng)。
例如下圖中的 Temporal sequence alignment,將一組動作對應(yīng)的視頻流同骨骼圖片對齊。
類似的還有電影畫面-語音-字幕的自動對齊,對于空間維度上的,比如圖像語義分割(Image Semantic Segmentation),將每個像素對應(yīng)到某一類型標(biāo)簽,實現(xiàn)視覺-詞匯對齊。
方向:
對齊分為兩類:顯式對齊和隱式對齊。顯式對齊即應(yīng)用的主要任務(wù)就是對齊,而隱式對齊是指應(yīng)用在完成主要任務(wù)時需要用到對齊的技術(shù)。
顯式對齊的技術(shù)方法主要分為:無監(jiān)督方法 Unsupervised,(弱)監(jiān)督方法 (Weakly)Supervised。
隱式對齊的技術(shù)方法主要分為:圖模型 Graphical models,神經(jīng)網(wǎng)絡(luò) Neural networks。
難點:
很少有顯式對齊標(biāo)注的數(shù)據(jù)集;2. 很難建模不同模態(tài)之間相似度計算;3.存在多個可能的對齊方案并且不是一個模態(tài)的所有元素在另一個模態(tài)中都存在對應(yīng)。
相關(guān)方案:
融合(Fusion):
多模態(tài)融合指從多個模態(tài)信息中整合信息來完成分類或回歸任務(wù),不過在深度神經(jīng)網(wǎng)絡(luò)方法下,融合和表征這兩個方向是很難區(qū)分的。多模態(tài)融合是目前應(yīng)用最廣的方向,存在其他常見的別名,例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)等。
按照融合的層次,可以將多模態(tài)融合分為 pixel level,feature level (early)和 decision level (late)
三類,分別對應(yīng)對原始數(shù)據(jù)進行融合、對抽象的特征進行融合和對決策結(jié)果進行融合。
按照融合的類型又可分為:
(a)數(shù)據(jù)級別融合;(b)判定級別融合;(c)組合融合
常見的機器學(xué)習(xí)方法都可以應(yīng)用于多模態(tài)融合
相關(guān)任務(wù):
視覺-音頻識別(Visual-Audio Recognition):綜合源自同一個實例的視頻信息和音頻信息,進行識別工作。
手機身份認證(Mobile Identity Authentication):綜合利用手機的多傳感器信息,認證手機使用者是否是注冊用戶。
難點:
信號可能并不是時序?qū)R的(temporally aligned)。很可能是密集的連續(xù)信號和稀疏的事件(比如一大段視頻只對應(yīng)一個詞,然后整個視頻只對應(yīng)稀少的幾個詞);
每一個模態(tài)在不同的時間點可能表現(xiàn)出不同的形式和不同等級的噪聲。
技術(shù)方案:
協(xié)同學(xué)習(xí)(Co-learning):
協(xié)同學(xué)習(xí)是指通過利用資源豐富(比如數(shù)據(jù)量大)的模態(tài)的知識來輔助資源稀缺(比如較小數(shù)據(jù))的模態(tài)建立模型。根據(jù)訓(xùn)練資源(數(shù)據(jù))形式可以將協(xié)同學(xué)習(xí)進行如下劃分:
parallel:Co-training, Transfer learning
non-parallel:Transfer learning, Concept grounding, Zero-shot learning
hybrid:Bridging
其中,常用的遷移學(xué)習(xí)(Transfer Learning)也屬于協(xié)同學(xué)習(xí)的范疇,例如將 ImageNet 數(shù)據(jù)集上學(xué)習(xí)到的權(quán)重,在自己的目標(biāo)數(shù)據(jù)集上進行微調(diào)。
協(xié)同訓(xùn)練(Co-training)
則負責(zé)研究如何在多模態(tài)數(shù)據(jù)中將少量的標(biāo)注進行擴充,得到更多的標(biāo)注信息。
相關(guān)方案:
多模態(tài)在內(nèi)容理解的應(yīng)用
描述類任務(wù)(表示,轉(zhuǎn)換,對齊,融合)
視頻描述
Predicting Visual Features from Text for Image and Video Caption Retrieval:輸入原始圖像,圖像標(biāo)題和眾多描述圖像的句子,將它們映射到隱空間并合成視頻描述。
Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning:輸入原始視頻和視頻的文字索引來進行視頻描述工作。
Multimodal Dual Attention Memory for Video Story Question Answering:這是一個 VQA 任務(wù),把原始視頻,視頻的描述和問題輸入最終得到答案。
Dual-Stream Recurrent Neural Network for Video Captioning:
將原始的視頻和靜態(tài)的圖像(用來描述視頻)一起輸入,得到對視頻的描述。
醫(yī)療問答
Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把圖像和問題輸入得到答案。
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence:把 VQA 框架用于關(guān)于健康問題的問答。
分析類任務(wù)(表征,融合)
視頻分類
分類框架:
Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
這是一個較為通用的多模態(tài)視頻分類任務(wù)網(wǎng)絡(luò),將特征組合成矩陣,采用 outer-product 計算任意組合的乘積,為避免外積太長,用滑動窗對自向量求外積。
視頻分類:
Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 將視頻和代表性的音頻文件一起輸入進行視頻分類。
Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition:將視頻,代表性圖片,farneback 流和音頻信息一起輸入,對視頻進行分類。
Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 將空間視頻、運動視頻、音頻和原視頻一起輸入,得到結(jié)果。
Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同樣還是將圖像、視頻和音頻異構(gòu)信息一起輸入,得到視頻分類的結(jié)果。
文本分類:
下面幾篇雖然用于的文本理解任務(wù)不同,但是其實網(wǎng)絡(luò)結(jié)構(gòu)都可以用于文本分類
諷刺檢測:
Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model:對在融合是考慮每個模塊的 low-level
feature,而不是直接采用全局特征。模態(tài)間的 local feature 用 concat 連接,同一模態(tài)的 local feature 采用加權(quán)和,最終融合時各模態(tài)特征同樣采用加權(quán)和。
情感分類:
Contextual Inter-modal Attention for Multi-modal Sentiment Analysis:將文字,視頻和聲音輸入來對人的情感進行分類。
Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling:將圖像、標(biāo)題和文字放入模型進行情感分類。
假新聞識別
Exploiting Multi-domain Visual Information for Fake News Detection:將圖像和對圖像詞頻的統(tǒng)計輸入來進行假新聞分類。
EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:將圖像和文字輸入來對假新聞進行檢測。
A Deep Learning Approach for Multimodal Deception Detection:將視頻、音頻、文字和高頻詞放入模型進行假新聞識別。
圖像/視頻質(zhì)量評價
A deep learning framework for quality assessment and restoration in video endoscopy:將視頻和視頻檢測結(jié)果輸入來進行質(zhì)量評價。
片段重要性評分
Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos:將視頻和提出的問題輸入而后定位和問題相關(guān)的片段。
Give ear to my face: modelling multimodal attention to social interactions:將視頻和音頻信息一起輸入來定位視頻相關(guān)的位置。
Overview of ImageCLEFlifelog 2019: Solve My Life Puzzle and Lifelog Moment Retrieval:根據(jù)文字信息來定位視頻中相關(guān)片段的比賽。
標(biāo)題黨檢測
SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection:將文章標(biāo)題和內(nèi)容片段輸入來分類是否是標(biāo)題黨。
Characterizing Clickbaits on Instagram:將圖像、標(biāo)題和文字描述輸入模型來分類是否是標(biāo)題黨。
社交網(wǎng)絡(luò)的實體匹配
Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用圖像和相關(guān)文字注釋對個體進行分類分組。
From content to links: Social image embedding with deep multimodal model:跟上一篇文章類似,也是利用相關(guān)圖像和文字進行社交群體分類。
檢索類任務(wù) (表示,轉(zhuǎn)換,對齊,融合)
1 .Deep Multimodal Learning for Affective Analysis and Retrieval: 作者采用深度波爾茨曼機來做多模態(tài)的聯(lián)合表征。
事實上該框架得到的多模態(tài)表征后續(xù)可用于視頻排重等任務(wù)。
2.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks :
作者提出了修改的 Bert 框架,聯(lián)合了文本和圖片特征 co-attention 來獲得多模態(tài)描述特征,進行下一步的 VQA 等任務(wù)。
//合成類任務(wù)(表示,轉(zhuǎn)換,對齊,融合)內(nèi)容生成類任務(wù)暫不涉及
開源協(xié)同
內(nèi)容理解能力成熟度
(1)初始級(initial):
針對具體的業(yè)務(wù)問題,具體開發(fā)人員,選擇合理成熟模型進行開發(fā)。效果依賴訓(xùn)練樣本的質(zhì)量。
(2)可重復(fù)級(Repeatable):
有約定的流程制度。初步實現(xiàn)標(biāo)準(zhǔn)化,新業(yè)務(wù)場景的開發(fā)可以使用過去的團隊實的踐經(jīng)驗,具有重復(fù)以前特征算法的環(huán)境和條件。任務(wù)中開始嘗試引入更多的內(nèi)容特征,進行不同模型直接實驗對比工作。對模型的工作特性,badcase 的邊界有不斷的掌握。
(3)已定義級(Defined):
開發(fā)過程實現(xiàn)標(biāo)準(zhǔn)化、文檔化,有沉淀。有完善的經(jīng)驗制度和評審制度,模型和工程開發(fā)遵循團隊流程。針對任務(wù)有大家統(tǒng)一具有共識的原型模型處理方式,并且在不同內(nèi)容領(lǐng)域進行問題的針對性建模,獲得可復(fù)用的經(jīng)驗。數(shù)據(jù)集有良好規(guī)范的沉淀。
(4)已管理級(Managed):
業(yè)務(wù)任務(wù)可以充分的進行特征和模型實驗,綜合得到多個技術(shù)評價指標(biāo),業(yè)務(wù)評價指標(biāo)。構(gòu)建團隊統(tǒng)一的內(nèi)容理解模型框架。建立了完善的算法工程體系(樣本標(biāo)注管理,內(nèi)容實驗,模型自動化訓(xùn)練升級)。
(5)優(yōu)化級(Optimizing):
已可集中精力改進模型,針對業(yè)務(wù)場景優(yōu)化。引入新算法、新工程架構(gòu)。可取得過程有效性的統(tǒng)計數(shù)據(jù),并可據(jù)進行分析挖掘,從而得出最佳 state-of-the-art 方法。
內(nèi)容理解場景的問題,伴隨業(yè)務(wù)自身需求特點。具有特征多源,多目標(biāo)且目標(biāo)之間有邏輯關(guān)聯(lián),定義邊界主觀等特點。早期的解決方式是針對業(yè)務(wù)問題收集樣本測試單一模型,中期開始測試更多特征模型組合(2),后期開始完善算法工程 workflow 積累沉淀(4),每個業(yè)務(wù)任務(wù)都經(jīng)歷這個流程,能否快速降低問題解決成本。當(dāng)前存在任務(wù)之間技術(shù)較少聯(lián)動復(fù)用與任務(wù)之前特征模型客觀算法上高度關(guān)聯(lián)的矛盾。因此進行新任務(wù),新問題研究時需要重復(fù)整個流程,效率低;還不能充分受益于公司兄弟團隊已有的經(jīng)驗資源。新的內(nèi)容業(yè)務(wù)團隊沒有足夠的算法人員想要解決實際業(yè)務(wù)場景想要從初始級開始。
方案簡述
通過對上訴論文的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)分析,我們希望設(shè)計具有領(lǐng)域通用性、可擴展、可編程結(jié)構(gòu)的多模態(tài)內(nèi)容理解框架。該框架能統(tǒng)一把當(dāng)前各類多模態(tài)內(nèi)容理解模型放在一個可編程的架構(gòu)下進行構(gòu)建分析。框架包括以下必備的組件:
(1)數(shù)據(jù)和特征表征模塊:多源圖像、文本、視頻,語音的特征表示模塊。支持通用的特征提取算法;特定 CV、NLP、Audio 任務(wù)提取模型;圖表示學(xué)習(xí)方法等算法模型對各個模態(tài)單獨和聯(lián)合特征表示。支持可編程接口進行選擇。
(2)特征融合對齊模塊:針對各模態(tài)數(shù)據(jù)特征,支持適用于內(nèi)容理解的融合算法,如特定模態(tài)算法提取的向量特征;顯式屬性值特征;外部編碼特征之間的融合對齊。支持多種編碼表示。特征之間可選擇不同的方式進行融合,或選擇不同階段進行融合。
(3)任務(wù)決策模塊:通過分析論文中多模態(tài)學(xué)習(xí)的目標(biāo)優(yōu)化方案,對目標(biāo)決策方法進行抽象。做到可編程的支持多類損失函數(shù);各類梯度下降算法;多種集成學(xué)習(xí)技術(shù);支持轉(zhuǎn)化和對齊的多模態(tài)學(xué)習(xí)任務(wù)(如通過對抗性損失函數(shù)解耦表征,反向優(yōu)化特征,分離出內(nèi)容結(jié)構(gòu)特征和內(nèi)容語義特征)。
(4)功能性模塊:采用自動機器學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,參數(shù)量化壓縮等技術(shù)對框架學(xué)習(xí)能力進行優(yōu)化。使其更好的面向內(nèi)容理解任務(wù),提高訓(xùn)練運行效率,支持(1)(2)(3)層之間的各種自動化組合方式實驗。
通過一個框架體系和編程接口構(gòu)建多模態(tài)學(xué)習(xí)模型。對多模態(tài)學(xué)習(xí)的各個研究方向進行抽象,支持不同方向獨立和聯(lián)合的進行優(yōu)化,支持多任務(wù)聯(lián)合學(xué)習(xí)。通過集成神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,模型壓縮,實驗框架等功能將其做成一個完整的開源產(chǎn)品來打磨,把模塊結(jié)構(gòu)優(yōu)化和算法模型改進緊密結(jié)合,方案具有較強的技術(shù)先進性。
圖 1:可擴展通用多模態(tài)內(nèi)容理解框架圖圖 2:框架在視頻分類任務(wù)中嘗試不同特征融合實驗
意義價值:
通過合理的多模態(tài)內(nèi)容理解框架設(shè)計,抽象多模態(tài)學(xué)習(xí)各個研究任務(wù)成為獨立的系統(tǒng)模塊,模塊之間的交互符合軟件工程模塊化設(shè)計的思想。框架本身支持常見的文本、圖片、語音、視頻等特征描述,支持多種表征、對齊、融合方式的選擇,支持針對目標(biāo)任務(wù)的各個層次實驗,支持自定義接口形式擴展。
將參與團隊&個人積累的內(nèi)容模型經(jīng)驗進行沉淀,通過開源項目創(chuàng)造可伸縮可擴展可實驗的內(nèi)容理解內(nèi)核,不斷嘗試新特征,新模型框架如何在業(yè)務(wù)場景有效。對于新業(yè)務(wù),新內(nèi)容理解的場景,可以通過該微內(nèi)核快速完成過去重復(fù)積累建設(shè)工作,更快進入業(yè)務(wù)實際挑戰(zhàn)的攻堅。
參考文獻:
參考文獻:
[1] Baltrusaitis T , Ahuja C , Morency L P . Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018:1-1.
[2] Wu M, Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.
[3] Krishnamurthy G, Majumder N, Poria S, et al. A deep learning approach for multimodal deception detection[J]. arXiv preprint arXiv:1803.00344, 2018.
[4] Song G, Wang S, Huang Q, et al. Harmonized Multimodal Learning with Gaussian Process Latent Variable Models[J]. IEEE transactions on pattern analysis and machine intelligence, 2019.
[5] Huang P Y, Chang X, Hauptmann A. Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations[J]. arXiv preprint arXiv:1910.00058, 2019.
[6] Wu M, Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.
[7] HUK PARK D, ANNE HENDRICKS L, AKATA Z, et al. Multimodal explanations: Justifying decisions and pointing to the evidence; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
F, 2018 [C].
[8] Wang X, Wang Y F, Wang W Y. Watch, listen, and describe: Globally and locally aligned cross-modal attentions for video captioning[J]. arXiv preprint arXiv:1804.05448, 2018.
[9] Kim K M, Choi S H, Kim J H, et al. Multimodal dual attention memory for video story question answering[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 673-688.
[10] Xu N, Liu A A, Wong Y, et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018.
[11] Dong J, Li X, Snoek C G M. Predicting visual features from text for image and video caption retrieval[J]. IEEE Transactions on Multimedia, 2018, 20(12):3377-3388.
[12] WANG X, WANG Y-F, WANG W Y. Watch, listen, and describe: Globally and locally aligned cross-modal attentions for video captioning [J]. arXiv preprint arXiv:180405448, 2018.
[13] KIM K-M, CHOI S-H, KIM J-H, et al. Multimodal dual attention memory for video story question answering; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV), F, 2018 [C].
[14] XU N, LIU A-A, WONG Y, et al. Dual-stream recurrent neural network for video captioning [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018.
[15] LIU J, YUAN Z, WANG C. Towards good practices for multi-modal fusion in large-scale video classification; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV), F, 2018 [C].
[16] HE D, LI F, ZHAO Q, et al. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition [J]. arXiv preprint arXiv:180610319, 2018.
[17] JIANG Y-G, WU Z, TANG J, et al. Modeling multimodal clues in a hybrid deep learning framework for video classification [J]. IEEE Transactions on Multimedia, 2018, 20(11): 3137-47.
[18] LONG X, GAN C, DE MELO G, et al. Attention clusters: Purely attention based local feature integration for video classification; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,F, 2018 [C].
[19] GHOSAL D, AKHTAR M S, CHAUHAN D, et al. Contextual inter-modal attention for multi-modal sentiment analysis; proceedings of the Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, F, 2018 [C].
[20] MAJUMDER N, HAZARIKA D, GELBUKH A, et al. Multimodal sentiment analysis using hierarchical fusion with context modeling [J]. Knowledge-Based Systems,2018, 161(124-33.
[21] QI P, CAO J, YANG T, et al. Exploiting Multi-domain Visual Information for Fake News Detection [J]. arXiv preprint arXiv:190804472, 2019.
[22] WANG Y, MA F, JIN Z, et al. Eann: Event adversarial neural networks for multi-modal fake news detection; proceedings of the Proceedings of the 24th acm sigkdd international conference on knowledge discovery & data mining, F, 2018 [C]. ACM.
[23] KRISHNAMURTHY G, MAJUMDER N, PORIA S, et al. A deep learning approach for multimodal deception detection [J]. arXiv preprint arXiv:180300344, 2018.
[24] ALI S, ZHOU F, BAILEY A, et al. A deep learning framework for quality assessment and restoration in video endoscopy [J]. arXiv preprint arXiv:190407073, 2019.
[25] ZHANG Z, LIN Z, ZHAO Z, et al. Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos [J]. arXiv preprint arXiv:190602497,2019.
[26] BOCCIGNONE G, CUCULO V, D'AMELIO A, et al. Give ear to my face: modelling multimodal attention to social interactions; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV), F, 2018 [C].
[27] DANG-NGUYEN D-T, PIRAS L, RIEGLER M, et al. Overview of ImageCLEFlifelog 2019: solve my life puzzle and lifelog moment retrieval; proceedings of the CLEF2019 Working Notes CEUR Workshop Proceedings, F, 2019 [C].
[28] KUMAR V, DHAR M, KHATTAR D, et al. SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection [J]. arXiv preprint arXiv:180800957, 2018.
[29] HA Y, KIM J, WON D, et al. Characterizing clickbaits on instagram; proceedings of the Twelfth International AAAI Conference on Web and Social Media, F, 2018 [C].
[30] HUANG F, ZHANG X, XU J, et al. Multimodal Learning of Social Image Representation by Exploiting Social Relations [J]. IEEE transactions on cybernetics, 2019.
[31] HUANG F, ZHANG X, LI Z, et al. From content to links: Social image embedding with deep multimodal model [J]. Knowledge-Based Systems, 2018,160(251-64.
[32] VU M, SZNITMAN R, NYHOLM T, et al. Ensemble of streamlined bilinear visual question answering models for the imageclef 2019 challenge in the medical domain [J]. Working Notes of CLEF, 2019.
總結(jié)
以上是生活随笔為你收集整理的内容 AI:建立统一的跨媒体多模态内容理解内核的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 写 Python 到底用什么编辑器好?鹅
- 下一篇: 腾讯AI Lab造出中国第一台临床应用智