當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

内容 AI：建立统一的跨媒体多模态内容理解内核

發(fā)布時間：2024/2/28 ChatGpt 42 豆豆

生活随笔收集整理的這篇文章主要介紹了内容 AI：建立统一的跨媒体多模态内容理解内核小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：zixunsun@tencent.com

Jeff Dean 談 2020 年機器學(xué)習(xí)趨勢：多任務(wù)和多模式學(xué)習(xí)將成為突破口

2019 年下半年，CDG 廣告、 CSIG 音視頻，IEG 內(nèi)容推薦、PCG 信息流、TEG 數(shù)平廣告推薦和 AI 平臺部團隊、WXG 看一看團隊內(nèi)容技術(shù)專家溝通，大家在處理內(nèi)容理解任務(wù)時候，都有融合多模態(tài)特征進行內(nèi)容理解需求，同時大家具有很好的技術(shù)能力和研發(fā)經(jīng)驗。

我們希望能建立統(tǒng)一的跨媒體多模態(tài)內(nèi)容理解內(nèi)核，對新增內(nèi)容理解任務(wù)，快速完成 0-1 步積累，提升模型實踐加速度、降低試錯成本，通過 Oteam 運行機制，擴大知識圈，共享公司內(nèi)容算法團隊之間的經(jīng)驗。（如果大家有興趣可以加入一起交流討論）。

技術(shù)背景

我們身處的環(huán)境本身多模態(tài)環(huán)境，人工智能要更好的理解環(huán)境，則需要具備解析多模態(tài)信息的能力。通過模態(tài)學(xué)習(xí)可以搭建能處理和連接多模態(tài)信息的模型。在內(nèi)容理解領(lǐng)域，需要分析的模態(tài)有文本，圖片，視頻，語音對應(yīng)的不同級別特征；其他輔助描述特征等。

當(dāng)前多模態(tài)的技術(shù)落地和具體任務(wù)是強相關(guān)的。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，不同的研究人員在進行內(nèi)容理解任務(wù)的時候，會加上更多模態(tài)的特征，并且嘗試通過網(wǎng)絡(luò)結(jié)構(gòu)的改進獲得更好的數(shù)據(jù)表現(xiàn)。然而針對最近幾年不同任務(wù)上多模態(tài)學(xué)習(xí)的論文研究發(fā)現(xiàn)，學(xué)者們更多關(guān)注多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計，而較少關(guān)注不同動作下的模型學(xué)習(xí)能力與任務(wù)、數(shù)據(jù)集之間的關(guān)聯(lián)性研究（如游戲視頻和體育視頻的動作序列識別任務(wù)上，語音特征與光流特征融合方式如何選擇）。

多模態(tài)學(xué)習(xí)研究的各個方向都可能對最終的任務(wù)表現(xiàn)產(chǎn)生作用，這些方向之間的影響和聯(lián)系需要進一步分析。當(dāng)前各個方向之間沒有在一個統(tǒng)一模型下進行實驗挖掘或者自動分析，難以充分復(fù)用其他任務(wù)上的研究成果進行改進。

技術(shù)方向

內(nèi)容團隊內(nèi)容理解算法應(yīng)不斷提升，多模態(tài)學(xué)習(xí)技術(shù)也需要不斷升級，通用框架技術(shù)具備必要的研究性和很好的落地價值，可以做到提升模型技術(shù)和業(yè)務(wù)指標(biāo)表現(xiàn)，同時提升基于內(nèi)容理解能力構(gòu)建效率。模型層面可以在如下幾個方向深入：1.表征：多個模態(tài)同時存在的情況下，針對具體任務(wù)動態(tài)進行模態(tài)內(nèi)不同級別特征信息使用（如文本中句義、句法、字詞特征；視覺中語義、邊緣、色彩特征），利用注意力機制選擇特征；利用生成對抗網(wǎng)絡(luò)對形式和內(nèi)容進行表征解耦的能力。2.融合：支持不同融合策略的對比，融合動作本身可以支持動態(tài)適配；研究時序特征和非時序特征的映射對齊策略。3.協(xié)同：通過協(xié)同學(xué)習(xí)，做到多模態(tài)之間的有效信息傳遞；結(jié)合多任務(wù)學(xué)習(xí)，增強原模型的表征能力，降低過擬合風(fēng)險，適應(yīng)隨機噪聲。

多模態(tài)研究方向分析

多模態(tài)學(xué)習(xí)目前主要有以下五個研究方向：?表征(Representation), 轉(zhuǎn)化(Translation),對齊(Alignment),融合(Fusion),協(xié)同學(xué)習(xí)(Co-learning)

表征(Representation)

單模態(tài)的表征負責(zé)將信息表示為計算機可以處理的數(shù)值向量或者進一步抽象為更高層的特征向量，而多模態(tài)表征是指通過利用多模態(tài)之間的互補性，剔除模態(tài)間的冗余性，從而學(xué)習(xí)到更好的特征表示。

研究方向：

聯(lián)合表征(Joint Representation)，將多個模態(tài)的信息一起映射到一個統(tǒng)一的多模態(tài)向量空間；

協(xié)同表征(Coordinated Representation)，將多模態(tài)中的每個模態(tài)分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關(guān)性約束（例如線性相關(guān)）

（聯(lián)合表征）Multimodal learning with deep boltzmann machines (NIPS 2012) 提出將 deep boltzmann machines（DBM）結(jié)構(gòu)擴充到多模態(tài)領(lǐng)域，通過 Multimodal DBM，可以學(xué)習(xí)到多模態(tài)的聯(lián)合概率分布。

在獲得圖像與文本間的聯(lián)合概率分布后，我們在應(yīng)用階段，輸入圖片，利用條件概率 P(文本|圖片)，生成文本特征，可以得到圖片相應(yīng)的文本描述；而輸入文本，利用條件概率 P(圖片|文本)，可以生成圖片特征，通過檢索出最靠近該特征向量的兩個圖片實例，可以得到符合文本描述的圖片。

（協(xié)同表征）Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

利用協(xié)同學(xué)習(xí)到的特征向量之間滿足加減算數(shù)運算這一特性，可以搜索出與給定圖片滿足“指定的轉(zhuǎn)換語義”的圖片。

300 維的文字與圖像特征 PCA 投影

難點：

如何結(jié)合異質(zhì)性的來源的數(shù)據(jù)，比如文字是符號性的，圖片是一個 RGB 矩陣，視頻是時序的 RGB 矩陣，聲音需要采樣成一個一位數(shù)組；如何處理不同級別的噪音，原因是不同模態(tài)產(chǎn)生的噪聲是不同的；如何處理數(shù)據(jù)缺失的問題。

技術(shù)方案：

轉(zhuǎn)化(Translation)

多模態(tài)轉(zhuǎn)化也可稱為映射(Mapping)，主要是將一個模態(tài)的信息轉(zhuǎn)化或映射為另一個模態(tài)的信息。

難點：

1.未知結(jié)束位(Open-ended)，例如實時翻譯中，在還未得到句尾的情況下，必須實時對句子進行翻譯；

2.主觀評判性(Subjective)，很多模態(tài)轉(zhuǎn)換問題的效果沒有一個比較客觀的評判標(biāo)準(zhǔn)，目標(biāo)函數(shù)的確定非常主觀。

技術(shù)方案：

對齊(Alignment)：

從來自同一個實例的兩個甚至多個模態(tài)中尋找子成份之間的關(guān)系和聯(lián)系。

方向：

對齊分為兩類：顯式對齊和隱式對齊。顯式對齊即應(yīng)用的主要任務(wù)就是對齊，而隱式對齊是指應(yīng)用在完成主要任務(wù)時需要用到對齊的技術(shù)。

顯式對齊的技術(shù)方法主要分為：無監(jiān)督方法 Unsupervised，(弱)監(jiān)督方法 (Weakly)Supervised。

隱式對齊的技術(shù)方法主要分為：圖模型 Graphical models，神經(jīng)網(wǎng)絡(luò) Neural networks。

難點：

很少有顯式對齊標(biāo)注的數(shù)據(jù)集；2. 很難建模不同模態(tài)之間相似度計算；3.存在多個可能的對齊方案并且不是一個模態(tài)的所有元素在另一個模態(tài)中都存在對應(yīng)。

融合(Fusion)：

多模態(tài)融合指從多個模態(tài)信息中整合信息來完成分類或回歸任務(wù)，不過在深度神經(jīng)網(wǎng)絡(luò)方法下，融合和表征這兩個方向是很難區(qū)分的。多模態(tài)融合是目前應(yīng)用最廣的方向，存在其他常見的別名，例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)等。

按照融合的層次，可以將多模態(tài)融合分為 pixel level，feature level (early)和 decision level (late)
三類，分別對應(yīng)對原始數(shù)據(jù)進行融合、對抽象的特征進行融合和對決策結(jié)果進行融合。

按照融合的類型又可分為：

(a)數(shù)據(jù)級別融合；（b）判定級別融合；(c)組合融合

常見的機器學(xué)習(xí)方法都可以應(yīng)用于多模態(tài)融合

難點：

信號可能并不是時序?qū)R的（temporally aligned）。很可能是密集的連續(xù)信號和稀疏的事件（比如一大段視頻只對應(yīng)一個詞，然后整個視頻只對應(yīng)稀少的幾個詞）；

每一個模態(tài)在不同的時間點可能表現(xiàn)出不同的形式和不同等級的噪聲。

技術(shù)方案：

協(xié)同學(xué)習(xí)(Co-learning):

協(xié)同學(xué)習(xí)是指通過利用資源豐富（比如數(shù)據(jù)量大）的模態(tài)的知識來輔助資源稀缺（比如較小數(shù)據(jù)）的模態(tài)建立模型。根據(jù)訓(xùn)練資源（數(shù)據(jù)）形式可以將協(xié)同學(xué)習(xí)進行如下劃分：

parallel：Co-training, Transfer learning

non-parallel：Transfer learning, Concept grounding, Zero-shot learning

hybrid：Bridging

其中，常用的遷移學(xué)習(xí)(Transfer Learning)也屬于協(xié)同學(xué)習(xí)的范疇，例如將 ImageNet 數(shù)據(jù)集上學(xué)習(xí)到的權(quán)重，在自己的目標(biāo)數(shù)據(jù)集上進行微調(diào)。

協(xié)同訓(xùn)練(Co-training)

則負責(zé)研究如何在多模態(tài)數(shù)據(jù)中將少量的標(biāo)注進行擴充，得到更多的標(biāo)注信息。

多模態(tài)在內(nèi)容理解的應(yīng)用

描述類任務(wù)（表示，轉(zhuǎn)換，對齊，融合）

視頻描述

Predicting Visual Features from Text for Image and Video Caption Retrieval：輸入原始圖像，圖像標(biāo)題和眾多描述圖像的句子，將它們映射到隱空間并合成視頻描述。

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning：輸入原始視頻和視頻的文字索引來進行視頻描述工作。

Multimodal Dual Attention Memory for Video Story Question Answering：這是一個 VQA 任務(wù)，把原始視頻，視頻的描述和問題輸入最終得到答案。

Dual-Stream Recurrent Neural Network for Video Captioning:

將原始的視頻和靜態(tài)的圖像（用來描述視頻）一起輸入，得到對視頻的描述。

醫(yī)療問答

Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把圖像和問題輸入得到答案。

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence：把 VQA 框架用于關(guān)于健康問題的問答。

分析類任務(wù)（表征，融合）

視頻分類

分類框架：

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:

這是一個較為通用的多模態(tài)視頻分類任務(wù)網(wǎng)絡(luò)，將特征組合成矩陣，采用 outer-product 計算任意組合的乘積，為避免外積太長，用滑動窗對自向量求外積。

視頻分類：

Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 將視頻和代表性的音頻文件一起輸入進行視頻分類。

圖1:工作1框架圖

Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition：將視頻，代表性圖片，farneback 流和音頻信息一起輸入，對視頻進行分類。

圖2:工作2框架圖

Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 將空間視頻、運動視頻、音頻和原視頻一起輸入，得到結(jié)果。

圖3:工作3框架圖

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同樣還是將圖像、視頻和音頻異構(gòu)信息一起輸入，得到視頻分類的結(jié)果。

圖4:工作4框架圖

文本分類：

下面幾篇雖然用于的文本理解任務(wù)不同，但是其實網(wǎng)絡(luò)結(jié)構(gòu)都可以用于文本分類

諷刺檢測：

Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model：對在融合是考慮每個模塊的 low-level
feature，而不是直接采用全局特征。模態(tài)間的 local feature 用 concat 連接，同一模態(tài)的 local feature 采用加權(quán)和，最終融合時各模態(tài)特征同樣采用加權(quán)和。

情感分類：

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis：將文字，視頻和聲音輸入來對人的情感進行分類。

圖1:工作1框架圖

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling：將圖像、標(biāo)題和文字放入模型進行情感分類。

圖2:工作2框架圖

假新聞識別

Exploiting Multi-domain Visual Information for Fake News Detection：將圖像和對圖像詞頻的統(tǒng)計輸入來進行假新聞分類。

圖1:工作1框架圖

EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:將圖像和文字輸入來對假新聞進行檢測。

圖2:工作2框架圖

A Deep Learning Approach for Multimodal Deception Detection：將視頻、音頻、文字和高頻詞放入模型進行假新聞識別。

圖3:工作3框架圖

圖像/視頻質(zhì)量評價

A deep learning framework for quality assessment and restoration in video endoscopy:將視頻和視頻檢測結(jié)果輸入來進行質(zhì)量評價。

圖1:工作1框架圖

片段重要性評分

Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos:將視頻和提出的問題輸入而后定位和問題相關(guān)的片段。

圖1:工作1框架圖

Give ear to my face: modelling multimodal attention to social interactions:將視頻和音頻信息一起輸入來定位視頻相關(guān)的位置。

圖2:工作2框架圖

Overview of ImageCLEFlifelog 2019: Solve My Life Puzzle and Lifelog Moment Retrieval:根據(jù)文字信息來定位視頻中相關(guān)片段的比賽。

圖3:工作3框架圖

標(biāo)題黨檢測

SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection:將文章標(biāo)題和內(nèi)容片段輸入來分類是否是標(biāo)題黨。

圖1:工作1框架圖

Characterizing Clickbaits on Instagram:將圖像、標(biāo)題和文字描述輸入模型來分類是否是標(biāo)題黨。

圖2:工作2框架圖

社交網(wǎng)絡(luò)的實體匹配

Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用圖像和相關(guān)文字注釋對個體進行分類分組。

圖1:工作1框架圖

From content to links: Social image embedding with deep multimodal model：跟上一篇文章類似，也是利用相關(guān)圖像和文字進行社交群體分類。

圖2:工作2框架圖

檢索類任務(wù) （表示，轉(zhuǎn)換，對齊，融合）

1 .Deep Multimodal Learning for Affective Analysis and Retrieval: 作者采用深度波爾茨曼機來做多模態(tài)的聯(lián)合表征。

事實上該框架得到的多模態(tài)表征后續(xù)可用于視頻排重等任務(wù)。

2.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks ：
作者提出了修改的 Bert 框架，聯(lián)合了文本和圖片特征 co-attention 來獲得多模態(tài)描述特征，進行下一步的 VQA 等任務(wù)。

//合成類任務(wù)（表示，轉(zhuǎn)換，對齊，融合）內(nèi)容生成類任務(wù)暫不涉及

開源協(xié)同

內(nèi)容理解能力成熟度

(1)初始級(initial):
針對具體的業(yè)務(wù)問題，具體開發(fā)人員，選擇合理成熟模型進行開發(fā)。效果依賴訓(xùn)練樣本的質(zhì)量。

(2)可重復(fù)級(Repeatable):
有約定的流程制度。初步實現(xiàn)標(biāo)準(zhǔn)化，新業(yè)務(wù)場景的開發(fā)可以使用過去的團隊實的踐經(jīng)驗，具有重復(fù)以前特征算法的環(huán)境和條件。任務(wù)中開始嘗試引入更多的內(nèi)容特征，進行不同模型直接實驗對比工作。對模型的工作特性，badcase 的邊界有不斷的掌握。

(3)已定義級(Defined):
開發(fā)過程實現(xiàn)標(biāo)準(zhǔn)化、文檔化，有沉淀。有完善的經(jīng)驗制度和評審制度，模型和工程開發(fā)遵循團隊流程。針對任務(wù)有大家統(tǒng)一具有共識的原型模型處理方式，并且在不同內(nèi)容領(lǐng)域進行問題的針對性建模，獲得可復(fù)用的經(jīng)驗。數(shù)據(jù)集有良好規(guī)范的沉淀。

(4)已管理級(Managed):
業(yè)務(wù)任務(wù)可以充分的進行特征和模型實驗，綜合得到多個技術(shù)評價指標(biāo)，業(yè)務(wù)評價指標(biāo)。構(gòu)建團隊統(tǒng)一的內(nèi)容理解模型框架。建立了完善的算法工程體系（樣本標(biāo)注管理，內(nèi)容實驗，模型自動化訓(xùn)練升級）。

(5)優(yōu)化級(Optimizing):
已可集中精力改進模型，針對業(yè)務(wù)場景優(yōu)化。引入新算法、新工程架構(gòu)。可取得過程有效性的統(tǒng)計數(shù)據(jù)，并可據(jù)進行分析挖掘，從而得出最佳 state-of-the-art 方法。

內(nèi)容理解場景的問題，伴隨業(yè)務(wù)自身需求特點。具有特征多源，多目標(biāo)且目標(biāo)之間有邏輯關(guān)聯(lián)，定義邊界主觀等特點。早期的解決方式是針對業(yè)務(wù)問題收集樣本測試單一模型，中期開始測試更多特征模型組合(2),后期開始完善算法工程 workflow 積累沉淀(4)，每個業(yè)務(wù)任務(wù)都經(jīng)歷這個流程，能否快速降低問題解決成本。當(dāng)前存在任務(wù)之間技術(shù)較少聯(lián)動復(fù)用與任務(wù)之前特征模型客觀算法上高度關(guān)聯(lián)的矛盾。因此進行新任務(wù)，新問題研究時需要重復(fù)整個流程，效率低；還不能充分受益于公司兄弟團隊已有的經(jīng)驗資源。新的內(nèi)容業(yè)務(wù)團隊沒有足夠的算法人員想要解決實際業(yè)務(wù)場景想要從初始級開始。

方案簡述

通過對上訴論文的多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)分析，我們希望設(shè)計具有領(lǐng)域通用性、可擴展、可編程結(jié)構(gòu)的多模態(tài)內(nèi)容理解框架。該框架能統(tǒng)一把當(dāng)前各類多模態(tài)內(nèi)容理解模型放在一個可編程的架構(gòu)下進行構(gòu)建分析。框架包括以下必備的組件：

（1）數(shù)據(jù)和特征表征模塊：多源圖像、文本、視頻，語音的特征表示模塊。支持通用的特征提取算法；特定 CV、NLP、Audio 任務(wù)提取模型；圖表示學(xué)習(xí)方法等算法模型對各個模態(tài)單獨和聯(lián)合特征表示。支持可編程接口進行選擇。

（2）特征融合對齊模塊：針對各模態(tài)數(shù)據(jù)特征，支持適用于內(nèi)容理解的融合算法，如特定模態(tài)算法提取的向量特征；顯式屬性值特征；外部編碼特征之間的融合對齊。支持多種編碼表示。特征之間可選擇不同的方式進行融合，或選擇不同階段進行融合。

（3）任務(wù)決策模塊：通過分析論文中多模態(tài)學(xué)習(xí)的目標(biāo)優(yōu)化方案，對目標(biāo)決策方法進行抽象。做到可編程的支持多類損失函數(shù)；各類梯度下降算法；多種集成學(xué)習(xí)技術(shù)；支持轉(zhuǎn)化和對齊的多模態(tài)學(xué)習(xí)任務(wù)（如通過對抗性損失函數(shù)解耦表征，反向優(yōu)化特征，分離出內(nèi)容結(jié)構(gòu)特征和內(nèi)容語義特征）。

（4）功能性模塊：采用自動機器學(xué)習(xí)：神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索，參數(shù)量化壓縮等技術(shù)對框架學(xué)習(xí)能力進行優(yōu)化。使其更好的面向內(nèi)容理解任務(wù)，提高訓(xùn)練運行效率，支持（1）（2）（3）層之間的各種自動化組合方式實驗。

通過一個框架體系和編程接口構(gòu)建多模態(tài)學(xué)習(xí)模型。對多模態(tài)學(xué)習(xí)的各個研究方向進行抽象，支持不同方向獨立和聯(lián)合的進行優(yōu)化，支持多任務(wù)聯(lián)合學(xué)習(xí)。通過集成神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索，模型壓縮，實驗框架等功能將其做成一個完整的開源產(chǎn)品來打磨，把模塊結(jié)構(gòu)優(yōu)化和算法模型改進緊密結(jié)合，方案具有較強的技術(shù)先進性。

圖 1:可擴展通用多模態(tài)內(nèi)容理解框架圖
圖 2:框架在視頻分類任務(wù)中嘗試不同特征融合實驗

意義價值：

通過合理的多模態(tài)內(nèi)容理解框架設(shè)計，抽象多模態(tài)學(xué)習(xí)各個研究任務(wù)成為獨立的系統(tǒng)模塊，模塊之間的交互符合軟件工程模塊化設(shè)計的思想。框架本身支持常見的文本、圖片、語音、視頻等特征描述，支持多種表征、對齊、融合方式的選擇，支持針對目標(biāo)任務(wù)的各個層次實驗，支持自定義接口形式擴展。

將參與團隊&個人積累的內(nèi)容模型經(jīng)驗進行沉淀，通過開源項目創(chuàng)造可伸縮可擴展可實驗的內(nèi)容理解內(nèi)核，不斷嘗試新特征，新模型框架如何在業(yè)務(wù)場景有效。對于新業(yè)務(wù)，新內(nèi)容理解的場景，可以通過該微內(nèi)核快速完成過去重復(fù)積累建設(shè)工作，更快進入業(yè)務(wù)實際挑戰(zhàn)的攻堅。

參考文獻：

[1] Baltrusaitis T , Ahuja C , Morency L P . Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018:1-1.

[2] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.

[3] Krishnamurthy G， Majumder N， Poria S， et al. A deep learning approach for multimodal deception detection[J]. arXiv preprint arXiv:1803.00344， 2018.

[4] Song G， Wang S， Huang Q， et al. Harmonized Multimodal Learning with Gaussian Process Latent Variable Models[J]. IEEE transactions on pattern analysis and machine intelligence， 2019.

[5] Huang P Y， Chang X， Hauptmann A. Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations[J]. arXiv preprint arXiv:1910.00058， 2019.

[6] Wu M， Goodman N. Multimodal generative models for scalable weakly-supervised learning[C]//Advances in Neural Information Processing Systems. 2018: 5575-5585.

[7] HUK PARK D， ANNE HENDRICKS L， AKATA Z， et al. Multimodal explanations: Justifying decisions and pointing to the evidence; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，
F， 2018 [C].

[8] Wang X， Wang Y F， Wang W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning[J]. arXiv preprint arXiv:1804.05448， 2018.

[9] Kim K M， Choi S H， Kim J H， et al. Multimodal dual attention memory for video story question answering[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 673-688.

[10] Xu N， Liu A A， Wong Y， et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.

[11] Dong J， Li X， Snoek C G M. Predicting visual features from text for image and video caption retrieval[J]. IEEE Transactions on Multimedia， 2018， 20(12):3377-3388.

[12] WANG X， WANG Y-F， WANG W Y. Watch， listen， and describe: Globally and locally aligned cross-modal attentions for video captioning [J]. arXiv preprint arXiv:180405448， 2018.

[13] KIM K-M， CHOI S-H， KIM J-H， et al. Multimodal dual attention memory for video story question answering; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[14] XU N， LIU A-A， WONG Y， et al. Dual-stream recurrent neural network for video captioning [J]. IEEE Transactions on Circuits and Systems for Video Technology， 2018.

[15] LIU J， YUAN Z， WANG C. Towards good practices for multi-modal fusion in large-scale video classification; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[16] HE D， LI F， ZHAO Q， et al. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition [J]. arXiv preprint arXiv:180610319， 2018.

[17] JIANG Y-G， WU Z， TANG J， et al. Modeling multimodal clues in a hybrid deep learning framework for video classification [J]. IEEE Transactions on Multimedia， 2018， 20(11): 3137-47.

[18] LONG X， GAN C， DE MELO G， et al. Attention clusters: Purely attention based local feature integration for video classification; proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，F， 2018 [C].

[19] GHOSAL D， AKHTAR M S， CHAUHAN D， et al. Contextual inter-modal attention for multi-modal sentiment analysis; proceedings of the Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing， F， 2018 [C].

[20] MAJUMDER N， HAZARIKA D， GELBUKH A， et al. Multimodal sentiment analysis using hierarchical fusion with context modeling [J]. Knowledge-Based Systems，2018， 161(124-33.

[21] QI P， CAO J， YANG T， et al. Exploiting Multi-domain Visual Information for Fake News Detection [J]. arXiv preprint arXiv:190804472， 2019.

[22] WANG Y， MA F， JIN Z， et al. Eann: Event adversarial neural networks for multi-modal fake news detection; proceedings of the Proceedings of the 24th acm sigkdd international conference on knowledge discovery & data mining， F， 2018 [C]. ACM.

[23] KRISHNAMURTHY G， MAJUMDER N， PORIA S， et al. A deep learning approach for multimodal deception detection [J]. arXiv preprint arXiv:180300344， 2018.

[24] ALI S， ZHOU F， BAILEY A， et al. A deep learning framework for quality assessment and restoration in video endoscopy [J]. arXiv preprint arXiv:190407073， 2019.

[25] ZHANG Z， LIN Z， ZHAO Z， et al. Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos [J]. arXiv preprint arXiv:190602497，2019.

[26] BOCCIGNONE G， CUCULO V， D'AMELIO A， et al. Give ear to my face: modelling multimodal attention to social interactions; proceedings of the Proceedings of the European Conference on Computer Vision (ECCV)， F， 2018 [C].

[27] DANG-NGUYEN D-T， PIRAS L， RIEGLER M， et al. Overview of ImageCLEFlifelog 2019: solve my life puzzle and lifelog moment retrieval; proceedings of the CLEF2019 Working Notes CEUR Workshop Proceedings， F， 2019 [C].

[28] KUMAR V， DHAR M， KHATTAR D， et al. SWDE: A Sub-Word And Document Embedding Based Engine for Clickbait Detection [J]. arXiv preprint arXiv:180800957， 2018.

[29] HA Y， KIM J， WON D， et al. Characterizing clickbaits on instagram; proceedings of the Twelfth International AAAI Conference on Web and Social Media， F， 2018 [C].

[30] HUANG F， ZHANG X， XU J， et al. Multimodal Learning of Social Image Representation by Exploiting Social Relations [J]. IEEE transactions on cybernetics， 2019.

[31] HUANG F， ZHANG X， LI Z， et al. From content to links: Social image embedding with deep multimodal model [J]. Knowledge-Based Systems， 2018，160(251-64.

[32] VU M， SZNITMAN R， NYHOLM T， et al. Ensemble of streamlined bilinear visual question answering models for the imageclef 2019 challenge in the medical domain [J]. Working Notes of CLEF， 2019.

總結(jié)

以上是生活随笔為你收集整理的内容 AI：建立统一的跨媒体多模态内容理解内核的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：写 Python 到底用什么编辑器好？鹅
下一篇：腾讯AI Lab造出中国第一台临床应用智

ChatGpt

内容 AI：建立统一的跨媒体多模态内容理解内核

技術(shù)背景

技術(shù)方向

相關(guān)任務(wù)

多模態(tài)研究方向分析

表征(Representation)

研究方向：

難點：

技術(shù)方案：

轉(zhuǎn)化(Translation)

相關(guān)任務(wù)：

難點：

技術(shù)方案：

對齊(Alignment)：

相關(guān)任務(wù)：

方向：

難點：

相關(guān)方案：

融合(Fusion)：

相關(guān)任務(wù)：

難點：

技術(shù)方案：

協(xié)同學(xué)習(xí)(Co-learning):

協(xié)同訓(xùn)練(Co-training)

相關(guān)方案：

多模態(tài)在內(nèi)容理解的應(yīng)用

描述類任務(wù)（表示，轉(zhuǎn)換，對齊，融合）

視頻描述

醫(yī)療問答

分析類任務(wù)（表征，融合）

視頻分類

文本分類：

情感分類：

假新聞識別

圖像/視頻質(zhì)量評價

片段重要性評分

標(biāo)題黨檢測

社交網(wǎng)絡(luò)的實體匹配

檢索類任務(wù) （表示，轉(zhuǎn)換，對齊，融合）

開源協(xié)同

內(nèi)容理解能力成熟度

方案簡述

意義價值：

參考文獻：

總結(jié)