日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多模态学习(Multimodal Deep Learning)研究进展综述(转载)

發布時間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多模态学习(Multimodal Deep Learning)研究进展综述(转载) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載: AI綜述專欄——多模態學習研究進展綜述
https://zhuanlan.zhihu.com/p/39878607

文章目錄

  • 一、引言
  • 二、主要研究方向及研究進展
    • (一)多模態表示學習
    • (二)模態間映射
    • (三)對齊
    • (四)融合
    • (五)協同學習
  • 三、未來研究展望
    • (一)表示學習
    • (二)模態間映射
    • (三)對齊
    • (四)融合
    • (五)協同學習
  • 四、結束語
  • 參考文獻

一、引言

模態是指人接受信息的特定方式。由于多媒體數據往往是多種信息的傳遞媒介(例如一段視頻中往往會同時使得文字信息、視覺信息和聽覺信息得到傳播),多模態學習(Multimodal Deep Learning)已逐漸發展為多媒體內容分析與理解的主要手段,國內外研究者也逐步在多模態學習領域取得了顯著的研究成果。鑒于多模態學習的重要性,本文將重點介紹近年來多模態學習領域的主要研究方向、相關研究進展和未來研究趨勢。

二、主要研究方向及研究進展

多模態學習主要包括以下幾個研究方向:

  • 多模態表示學習(Multimodal Representation):主要研究如何將多個模態數據所蘊含的語義信息數值化為實值向量。

  • 模態間映射:主要研究如何將某一特定模態數據中的信息映射至另一模態。

  • 對齊(Alignment):主要研究如何識別不同模態之間的部件、元素的對應關系。

  • 多模態融合(Multimodal Fusion):主要研究如何整合不同模態間的模型與特征。

  • 協同學習(Co-learning):主要研究如何將信息富集的模態上學習的知識遷移到信息匱乏的模態,使各個模態的學習互相輔助。典型的方法包括多模態的零樣本學習、領域自適應等。

  • (一)多模態表示學習

    表示學習的目的是將被研究對象(結構化數據、圖像、視頻、語音、文本等)中所蘊含的語義信息抽象為實值向量。當多個模態共存時,我們需要同時從多個異質信息源提取被研究對象的特征。在單模態表示學習的基礎上,多模態的表示學習還要考慮多個模態信息的一致性和互補性。

    下面對近年來多模態表示學習的最新成果進行簡要介紹。清華大學朱文武教授團隊在多模態學習的理論和應用方法研究上均取得了相應進展。在理論方面,[1]提出了一種面向多模態表達的緊致哈希編碼方法。該工作首先基于模態內和模態間的相關性約束,提出了一種新的深度學習(Deep Learning)模型生成哈希編碼。在此基礎上又提出了一種正交正則化方法降低哈希編碼特征的冗余性,并給出了理論分析。在應用方面,[2]提出了一個面向情感檢測的多模態字典學習方法及相關標準數據集。

    浙江大學莊越挺教授團隊從若干新視角對多模態表示學習進行了改進。[3]中提出了一種基于層級復合語義的深度多模態嵌入方法。[4]則以點擊圖上的隨機游走為基礎,提出了一種多模態表示學習方法。該方法將用戶點擊信息引入到多媒體信息檢索中,并以圖像、文本查詢作為節點,以點擊關系作為邊構造了點擊圖。在此基礎上,以點擊圖中節點關系作為約束構造了相應的多模態表達學習模型。[5]考慮了由于數據稀疏性造成的部分模態數據缺失問題,提出了一種基于自適應相似結構正則化的部分多模態稀疏編碼模型。[6]中基于模態內和模態間的相關關系,提出了一種基于棧式自編碼器的高效多模態檢索模型。[7]提出了一種稀疏的多模態哈希編碼方法。該方法首先利用超圖建模模態間和模態內的相關關系,隨后采用超圖拉普拉斯稀疏編碼方法同時學習多個模態的字典。

    中國科學院西安光學精密機械研究所李學龍研究員團隊也在多模態表示學習領域取得了一系列成果。[8]基于對不同模態的相關性矩陣的譜分析,提出了一種譜哈希編碼方法并將其應用于跨模態檢索問題中,實現了基于哈希編碼的快速跨模態檢索。[9]提出了一種面向大規模跨模態檢索的判別性二值編碼學習方法。該工作中提出的跨模態哈希編碼方法直接保留了求解二值編碼時的離散約束。特別地,該方法可通過學習模態特異的哈希函數得到統一的二值編碼,并可將所得到的二值編碼作為判別性特征用于后續分類。
    西安電子科技大學高新波教授團隊在多模態表示學習領域也取得了豐碩的成果。[10]提出了一種基于成對關系導向的端對端深度哈希編碼方法,并將其應用于跨模態檢索問題中。[11]中提出了一種基于層次化多模態LSTM的密集視覺-語義嵌入方法。具體而言,該工作首先提出了一種層級化的遞歸神經網絡,該網絡可以建模句子與詞以及圖像與圖像中局部區域的層次化關系,然后利用該網絡學習詞、句子、圖像以及圖像區域的特征。

    中科院自動化所徐常勝研究員團隊近年來在多模態表示領域成果匯總如下。[12]中通過從互聯網獲取有監督數據,提出了一種多模態知識表示學習方法。該方法具有以下優點:1)可自動從互聯網平臺獲得可表征文本-視覺兩模態關聯關系的相關數據,并借此挖掘多模態數據中潛在的知識;2)可構造模態無關、任務無關的公共知識表示空間;3)通過遷移從已知節點和關系中所學的知識,能夠表示在已知樣本上未觀測到的多模態關系。[13]中提出了一種面向跨模態檢索的一致表示學習方法。特別地,該方法可同時學習多個模態的基矩陣。另外,該方法還采用了局部組稀疏的正則項以保證多模態特征的一致性。

    (二)模態間映射

    多模態機器學習中另一個重要的問題是發現知識在不同模態間的映射關系。給定實體在一種模態下的表示,模態間映射是將該表示轉換成其它模態下表示的過程。例如,給定一幅圖像,我們希望得到一個描述該圖像的句子,或者給出一段文字描述來生成一幅與之相匹配的圖像。模態間映射一直是學術界研究的熱點問題,早期工作包括語音合成、圖像視頻描述以及跨模態檢索等。

    最近,學術界對模態間映射的主要興趣集中在如何將計算機視覺和自然語言處理領域最新的研究成果結合起來,并應用在大規模數據庫上得到合理的視覺場景描述,其中微軟發布的COCO是目前圖像視頻標注任務公認的數據集。特別地,電子科技大學的申恒濤教授研究組取得了一系列研究成果。比如,[14]提出一種基于注意力機制的LSTM來完成視頻標注,該方法利用語義一致性,能夠捕捉視頻的顯著結構,探索多模態表示之間的關系,以生成具有豐富語義內容的句子來描述視頻內容;[15]提出一種可以調整時序注意力的層次LSTM結構,利用時間注意力選擇特定的幀來預測相關詞,而調整后的時間注意力可以用于決定相關詞是否依賴于視覺信息或語言上下文信息;[16]提出一種能夠基于語言知識選擇性地關注視覺屬性的標注方法,該方法將神經網絡中的隱藏狀態映射到潛在嵌入空間,并采用注意機制獲得語言知識表示,從而獲得語言與視覺屬性的對應關系。此外,微軟亞洲研究院梅濤研究員研究組在圖像視頻標注領域也取得了很多研究成果。比如,[17]提出一種包含屬性的LSTM和RNN網絡來發現圖像視覺屬性與語義表達之間的復雜關系;[18]提出一種基于拷貝機制的圖像標注方法,該方法通過將檢測到的物體與拷貝機制相結合來預測圖像標題中的新物體;他們還關注了如何從句子獲得對應視頻的問題,提出時序生成對抗網絡[19],利用語義標注作為條件來建模視頻中物體的時空關系;與計算所張勇東研究員合作提出一種具有多模態注意力機制的LSTM[20],該方法設計了一個多層次的注意力機制來獲取關于時間序列和多模態流數據中的關鍵線索。

    清華大學的張長水教授研究組提出了基于區域注意力機制和場景特異上下文信息的圖像標注方法[21],該方法能夠協調生成描述和注意力在視覺區域之間的轉移,同時將場景特定的上下文引入到LSTM中,獲得特定場景類型下的語言模型用于詞匯生成。浙江大學的吳飛教授和莊越挺教授提出一種能夠獲得更具有多樣性的圖像標注方法[22],該方法能夠同時學習多種語言描述的分布,同時模仿人類撰寫圖像標注的多樣性。復旦大學的姜育剛教授和薛向陽教授提出了一種弱監督視頻標注方法[23],該方法能夠在訓練過程中為視頻剪輯生成多個不同的視頻標注,所使用的監督信息僅僅是視頻級別的描述語句。

    清華大學孫富春教授和微軟亞洲研究院芮勇研究員提出了名為“Image2Text”的多模態標注生成算法,該算法將輸入圖像表達為被檢測物體的序列輸入卷積神經網絡中并獲得最終的圖像標注。山東大學聶禮強教授和騰訊AI實驗室劉威研究員提出基于空間和通道注意力機制的圖像標注算法[24],該方法能夠在卷積神經網絡中對生成標注的上下文進行動態建模,從而確定注意力機制關注的位置和對象。中科院計算所蔣樹強研究員提出一種利用物體和場景信息的圖像標注方法,該方法同時關注了圖片中的物體信息和場景信息,從而獲得更好的標注結果。清華大學丁廣貴教授提出基于訓練樣本作為參考的LSTM模型,能夠有效解決在圖像標注問題中詞匯重要性被錯誤對待及物體或場景被錯誤識別的問題。

    (三)對齊

    對齊旨在挖掘不同模態之間子部件的相關或對應關系,從而促使學習到的多模態表示更加精確,并且也為多媒體檢索提供更細致的檢索線索。浙江大學的莊越挺教授團隊提出了一種利用最大邊距學習方式結合局部對齊(即視覺對象和詞匯對齊)和全局對齊(即圖片和語句對齊)方法來學習共同嵌入表示空間[25],對齊后的跨語義表示可以較好地提高跨模態檢索的質量。西安電子科技大學的高新波教授團隊提出了一種基于判別性字典學習的跨模態檢索方法[26],該方法學習判別性字典來解釋每種模態,不僅增強了來自不同類別的模態內數據的辨別能力,而且增強了同一類中的模態間數據的相關性,而后將編碼映射到特征空間,通過標簽對齊方法進一步增強跨模態數據的區分性和相關性。上海交通大學的楊小康教授團隊提出了一種深層跨模態對齊網絡[27],聯合行人序列與圖像數據來訓練得到多次行人重識別模型,網絡中將行人圖像映射到序列數據空間并進行對齊,從而盡可能消除模態間的不匹配問題。

    (四)融合

    多模態融合旨在將多個模態信息整合以得到一致、公共的模型輸出,是多模態領域的一個基本問題。多模態信息的融合能獲得更全面的特征,提高模型魯棒性,并且保證模型在某些模態缺失時仍能有效工作。浙江大學的莊越挺教授團隊設計了一種隱含條件隨機場[28],假設不同模態的數據共享潛在的結構,通過多模態數據間的聯系來學習這種潛在共享結構,同時挖掘該結構與監督類別信息間的相互作用,從而應用于分類任務。中國科學院自動化所的徐常勝研究員團隊提出了一種新的多模態事件主題模型來建模社交媒體文檔[29],通過學習文本和視覺特征間的相關性,以區分視覺代表性主題和非視覺代表性話題,并采用增量式學習策略以幫助理解社交事件的演變趨勢;同時還提出了一種多模態多視角的主題-意見挖掘模型[30],有效結合多模態和多視角的特征用于社交事件分析,該方法不僅能挖掘多模態數據中的共同主題,還能總結出它們在每個特定主題上的異同,并且挖掘對不同主題的多視角意見集合。中國科學院西安光學精密機械研究所的李學龍研究員團隊提出了一種新型哈希算法[31],將弱監督方式提取出的多模態特征統一整合為二進制編碼,從而使用核函數配合SVM進行分類。北京航空航天大學的毛峽教授團隊通過多層線性融合雙頻GPS定位與多個參考接收天線運動信息來檢測系統的定位誤差[32]。西安交通大學的徐宗本院士團隊提出一種新型端到端的深度融合卷積神經網絡[33],將二維與三維數據輸入網絡進行特征提取和融合,進而獲得高度集中的特征表示,進行人臉表情識別。中國科學院計算技術研究所的張勇東研究員和羅徹斯特大學的羅杰波教授合作提出了一種帶注意力機制的遞歸神經網絡[34],利用LSTM網絡融合文本和社交上下文特征,再利用注意力機制將其與圖像特征融合,進行端到端的謠言預測。

    (五)協同學習

    在缺乏標注數據、樣本存在大量噪聲以及數據收集質量不可靠時,可通過不同模態間的知識遷移提高質量較差模態的性能。北京大學的彭宇新教授團隊提出了一種跨模態知識遷移網絡將跨模態數據轉換為共同表示用于檢索[34],其中模態共享遷移子網絡利用源域和目標域的模式作為橋梁,將知識同時遷移到兩種模態,而層共享相關子網絡保留固有的跨模態語義相關性以進一步適應跨模式檢索任務。

    三、未來研究展望

    (一)表示學習

    從本文綜述的相關研究成果來看,按多模態表示共享的方式可將多模態表示學習分為兩類:一類方法將所有模態的特征均投影到同一個表示空間,我們稱此類方法為公共表示學習;另一類方法則為不同模態學習不同的特征表示空間,我們稱此類方法為特異性表示學習。公共表示學習方法適用于所有模態數據在測試階段都可使用的情況。相對而言,特異性表示學習由于分別學習不同模態的特征,更加適合測試階段僅提供單模態數據或部分模態數據可用的情況,例如零次學習、模態間映射、跨模態檢索等任務。對于特異性表示學習,相關工作往往僅限于兩個模態的情況,對于更多模態同時存在的情況下的特異性表示學習則有待進一步研究。此外,表示學習的主流方法往往只局限于靜態條件下,而使用多模態數據,如何進行動態學習是一個很有價值的研究點。

    (二)模態間映射

    多模態映射問題面臨的一大問題是難以設計評價指標來度量模型的優劣。尤其是在某些生成式的任務中,如對圖像進行描述和標注,往往不存在唯一正確的“標準答案”,映射過程容易受到主觀影響,使得最終結果無法確認同一實體在不同模態間的表示。盡管我們也可以通過人工評分或兩兩比較來評價模型的映射質量以獲得最接近人類認知的質量評價,但這類人工方式往往頗為耗時,且成本較高,標注結果受測試者性別、年齡、文化背景等偏差的影響而導致評價失準。因此,學界提出了一系列相關的自動評價指標,如BLEU、ROUGE、Meteor、CIDEr等。但相關研究指出這類自動指標尚不能很好地刻畫映射結果的主觀性。綜上所述,解決映射過程中的主觀評價問題不僅可以更好地評價不同方法,而且可以輔助設計更好的優化目標函數,從而全面提升模型性能。

    (三)對齊

    早期的多模態對齊主要依靠基于概率圖模型、動態規劃等無監督學習方法進行不同模態間的元素匹配。近年來,雖然已陸續有學者進行有監督的對齊方法研究,但現階段的對齊方法仍然存在以下幾點主要問題有待進一步研究:

  • 顯式標注對齊信息的數據較少,不利于進行實驗分析。

  • 設計不同模態之間的相似度度量指標較為困難,且人工設計費時費力。

  • 不同模態間元素的對齊過程往往存在一對多的關系,甚至還可能存在無法匹配的情況。

  • 受噪聲影響大,尤其是當元素的匹配錯位時模型性能下降嚴重。

  • 目前,隨著度量學習的發展,直接采用有監督學習方法確定有效的模態間相似度度量已成為可能。在未來的工作中,研究者可以通過設計同時進行度量學習和對齊的方法提高相關模型的性能。

    (四)融合

    近年來,多模態融合問題被國內外學者廣泛關注,已經陸續提出基于模型無關、圖模型、神經網絡的多種多模態融合方法。盡管學術界在多模態融合領域已經取得了諸多進展,但現階段的研究仍存在一些問題。每一種模態會受到不同類型和不同程度的噪聲影響,導致融合得到的信息不能準確表達出應有的特征,并且在包含時序關系的多模態學習(如一段有聲視頻)中,每種模態可能遭受噪聲干擾的時刻也可能不同。此外,模態與模態之間在時序上沒有對齊,如視頻的音畫不同步,也可能對多模態的融合造成較大的影響。

    (五)協同學習

    由于不同模態所包含的信息不盡相同,多模態協同學習主要利用從一種模態中學到的信息來補充完善另一種模態數據的訓練。其中協同訓練、零次學習等問題在視覺分類、音聲識別等方面得到廣泛的應用。同時,協同學習方法是與需要解決的任務無關的,因此它可以用于輔助多模態映射、融合及對齊等問題的研究?;趨f同學習本身的特點,如何挖掘得到盡可能多的模態間的不同信息來促進模型的學習是一個很有價值的研究方向。

    四、結束語

    多模態學習是一個充滿活力的多學科交叉領域,其主要目的在于建立可以處理和關聯來自多個模態信息的模型。本文綜述了近年來在表示學習、映射、對齊、融合和協同學習這五個子研究方向上取得的主要進展。此外,我們還針對每個子問題討論了未來需要解決的難點及其發展方向。希望本文能夠為多模態學習領域帶來一些新的啟發,促使多模態學習這個方向更加蓬勃發展。

    參考文獻

    [1]Daixin Wang, Peng Cui, Mingdong Ou, Wenwu Zhu: Learning Compact Hash Codes for Multimodal Representations Using Orthogonal Deep Structure. IEEE Trans. Multimedia 17(9): 1404-1416 (2015)

    [2]Guangyao Shen, Jia Jia, Liqiang Nie, Fuli Feng, Cunjun Zhang, Tianrui Hu, Tat-Seng Chua, Wenwu Zhu:Depression Detection via Harvesting Social Media: A Multimodal Dictionary Learning Solution. IJCAI 2017: 3838-3844

    [3]Yueting Zhuang, Jun Song, Fei Wu, Xi Li, Zhongfei Zhang, Yong Rui: Multimodal Deep Embedding via Hierarchical Grounded Compositional Semantics. IEEE Trans. Circuits Syst. Video Techn. 28(1): 76-89 (2018)

    [4]Fei Wu, Xinyan Lu, Jun Song, Shuicheng Yan, Zhongfei (Mark) Zhang, Yong Rui, Yueting Zhuang: Learning of Multimodal Representations With Random Walks on the Click Graph. IEEE Trans. Image Processing 25(2): 630-642 (2016)

    [5]Zhou Zhao, Hanqing Lu, Deng Cai, Xiaofei He, Yueting Zhuang: Partial Multi-Modal Sparse Coding via Adaptive Similarity Structure Regularization. ACM Multimedia 2016: 152-156

    [6]Wei Wang, Beng Chin Ooi, Xiaoyan Yang, Dongxiang Zhang, Yueting Zhuang: Effective Multi-Modal Retrieval based on Stacked Auto-Encoders. PVLDB 7(8): 649-660 (2014)

    [7]Fei Wu, Zhou Yu, Yi Yang, Siliang Tang, Yin Zhang, Yueting Zhuang: Sparse Multi-Modal Hashing. IEEE Trans. Multimedia 16(2): 427-439 (2014)

    [8]Yi Zhen, Yue Gao, Dit-Yan Yeung, Hongyuan Zha, Xuelong Li: Spectral Multimodal Hashing and Its Application to Multimedia Retrieval. IEEE Trans. Cybernetics 46(1): 27-38 (2016)

    [9]Xing Xu, Fumin Shen, Yang Yang, Heng Tao Shen, Xuelong Li: Learning Discriminative Binary Codes for Large-scale Cross-modal Retrieval. IEEE Trans. Image Processing 26(5): 2494-2507 (2017)

    [10]Erkun Yang, Cheng Deng, Wei Liu, Xianglong Liu, Dacheng Tao, Xinbo Gao: Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval. AAAI 2017: 1618-1625

    [11]Zhenxing Niu, Mo Zhou, Le Wang, Xinbo Gao, Gang Hua: Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding. ICCV 2017: 1899-1907

    [12]Fudong Nian, Bing-Kun Bao, Teng Li, Changsheng Xu: Multi-Modal Knowledge Representation Learning via Webly-Supervised Relationships Mining. ACM Multimedia 2017: 411-419

    [13]Cuicui Kang, Shiming Xiang, Shengcai Liao, Changsheng Xu, Chunhong Pan: Learning Consistent Feature Representation for Cross-Modal Multimedia Retrieval. IEEE Trans. Multimedia 17(3): 370-381 (2015)

    [14]Lianli Gao, Zhao Guo, Hanwang Zhang, Xing Xu, Heng Tao Shen: Video Captioning With Attention-Based LSTM and Semantic Consistency. IEEE Trans. Multimedia 19(9): 2045-2055 (2017)

    [15]Jingkuan Song, Lianli Gao, Zhao Guo, Wu Liu, Dongxiang Zhang, Heng Tao Shen: Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning. IJCAI 2017: 2737-2743

    [16]Yi Bin, Yang Yang, Jie Zhou, Zi Huang, Heng Tao Shen: Adaptively Attending to Visual Attributes and Linguistic Knowledge for Captioning. ACM Multimedia 2017: 1345-1353

    [17]Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, Tao Mei: Boosting Image Captioning with Attributes. ICCV 2017: 4904-4912

    [18]Ting Yao, Yingwei Pan, Yehao Li, Tao Mei: Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects. CVPR 2017: 5263-5271

    [19]Yingwei Pan, Zhaofan Qiu, Ting Yao, Houqiang Li, Tao Mei: To Create What You Tell: Generating Videos from Captions. ACM Multimedia 2017: 1789-1798

    [20]Jun Xu, Ting Yao, Yongdong Zhang, Tao Mei: Learning Multimodal Attention LSTM Networks for Video Captioning. ACM Multimedia 2017: 537-545

    [21]Kun Fu, Junqi Jin, Runpeng Cui, Fei Sha, Changshui Zhang: Aligning Where to See and What to Tell: Image Captioning with Region-Based Attention and Scene-Specific Contexts. IEEE Trans. Pattern Anal. Mach. Intell. 39(12): 2321-2334 (2017)

    [22]Zhuhao Wang, Fei Wu, Weiming Lu, Jun Xiao, Xi Li, Zitong Zhang, Yueting Zhuang: Diverse Image Captioning via GroupTalk. IJCAI 2016: 2957-2964

    [23]Zhiqiang Shen, Jianguo Li, Zhou Su, Minjun Li, Yurong Chen, Yu-Gang Jiang, Xiangyang Xue: Weakly Supervised Dense Video Captioning. CVPR 2017: 5159-5167

    [24]Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, Tat-Seng Chua: SCA-CNN: Spatial and Channel-Wise Attention in Convolutional Networks for Image Captioning. CVPR 2017: 6298-6306

    [25]Xinyang Jiang, Fei Wu, Xi Li, Zhou Zhao, Weiming Lu, Siliang Tang, Yueting Zhuang: Deep Compositional Cross-modal Learning to Rank via Local-Global Alignment. ACM Multimedia 2015: 69-78

    [26]Cheng Deng, Xu Tang, Junchi Yan, Wei Liu, Xinbo Gao: Discriminative Dictionary Learning With Common Label Alignment for Cross-Modal Retrieval. IEEE Trans. Multimedia 18(2): 208-218 (2016)

    [27]Zhichao Song, Bingbing Ni, Yichao Yan, Zhe Ren, Yi Xu, Xiaokang Yang: Deep Cross-Modality Alignment for Multi-Shot Person Re-IDentification. ACM Multimedia 2017: 645-653

    [28]Xinyang Jiang, Fei Wu, Yin Zhang, Siliang Tang, Weiming Lu, Yueting Zhuang: The classification of multi-modal data with hidden conditional random field. Pattern Recognition Letters 51: 63-69 (2015)

    [29]Shengsheng Qian, Tianzhu Zhang, Changsheng Xu, Jie Shao: Multi-Modal Event Topic Model for Social Event Analysis. IEEE Trans. Multimedia 18(2): 233-246 (2016)

    [30]Shengsheng Qian, Tianzhu Zhang, Changsheng Xu: Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis. ACM Multimedia 2016: 2-11

    [31]Yingjie Xia, Luming Zhang, Zhenguang Liu, Liqiang Nie, Xuelong Li: Weakly Supervised Multimodal Kernel for Categorizing Aerial Photographs. IEEE Trans. Image Processing 26(8): 3748-3758 (2017)

    [32]Tao Feng, Xia Mao: Multimodal data fusion for SB-JPALS status prediction under antenna motion fault mode. Neurocomputing 259: 46-54 (2017)

    [33]Huibin Li, Jian Sun, Zongben Xu, Liming Chen: Multimodal 2D+3D Facial Expression Recognition With Deep Fusion Convolutional Neural Network. IEEE Trans. Multimedia 19(12): 2816-2831 (2017)

    [34]Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, Jiebo Luo: Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs. ACM Multimedia 2017: 795-816

    [35]Xin Huang, Yuxin Peng, Mingkuan Yuan: Cross-modal Common Representation Learning by Hybrid Transfer Network. IJCAI 2017: 1893-1900

    總結

    以上是生活随笔為你收集整理的多模态学习(Multimodal Deep Learning)研究进展综述(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。