日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视觉与听觉相结合的深度跨域情绪识别

發(fā)布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视觉与听觉相结合的深度跨域情绪识别 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|張瑋瑋

單位|東北大學(xué)碩士生

研究方向|情緒識別


論文標(biāo)題:Joint Deep Cross-Domain Transfer Learning for Emotion Recognition

論文地址:https://arxiv.org/abs/2003.11136

引言

1.1 論文動機(jī)

眾所周知,自動情感識別的挑戰(zhàn)是缺乏足夠的標(biāo)記數(shù)據(jù)來訓(xùn)練穩(wěn)健的情緒分類模型。大型數(shù)據(jù)集準(zhǔn)確地標(biāo)注情感類別不僅成本高昂而且耗時,還需要具體的技能和知識。為了解決情感分類中數(shù)據(jù)缺乏的問題,遷移學(xué)習(xí)方法被廣泛采用 。

然而,在不同的領(lǐng)域(例如,從視覺領(lǐng)域到聽覺領(lǐng)域,反之亦然)傳遞知識是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。當(dāng)在不同的數(shù)據(jù)集上執(zhí)行訓(xùn)練/測試時,對遷移學(xué)習(xí)也提出了更大的挑戰(zhàn),由于數(shù)據(jù)集之間的分布變化,常常會引起性能的顯著下降。

1.2 論文工作

為了在不受分布變化影響的情況下,完成在多個數(shù)據(jù)集和多個資源貧乏的數(shù)據(jù)集上傳遞情感知識的任務(wù),作者提出了一種聯(lián)合的深度跨域?qū)W習(xí)方法,旨在學(xué)習(xí)跨域知識,并將學(xué)習(xí)到的知識從龐大的數(shù)據(jù)集中聯(lián)合轉(zhuǎn)移到數(shù)據(jù)量貧乏的數(shù)據(jù)集中,提高了情感識別的性能。

算法旨在學(xué)習(xí)跨越視覺和聽覺領(lǐng)域的情感知識,并將跨領(lǐng)域的知識轉(zhuǎn)移到多個缺乏源的數(shù)據(jù)集。

論文方法

表示視覺數(shù)據(jù)的源數(shù)據(jù)集, 是音頻數(shù)據(jù)的源數(shù)據(jù)集 ,N 個可視化目標(biāo)數(shù)據(jù)集表示為 ,所有的目標(biāo)數(shù)據(jù)集都是資源貧乏的,并且包含少量帶注釋的數(shù)據(jù)。

如圖所示,作者首先使用可視化數(shù)據(jù)集 訓(xùn)練一個初始模型 。該初始模型也被認(rèn)為是預(yù)訓(xùn)練模型,然后使用目標(biāo)數(shù)據(jù)集 進(jìn)行微調(diào)。

這一步的結(jié)果是一個跨數(shù)據(jù)的微調(diào)模型 ,我們將 應(yīng)用于個目標(biāo)數(shù)據(jù)集 產(chǎn)生 個跨域微調(diào)模型。為了遷移所有目標(biāo)域共享的知識,最后的 個跨域微調(diào)模型被聯(lián)合訓(xùn)練。

在預(yù)先訓(xùn)練的模型中獲得的情感知識可以在跨域遷移步驟中重復(fù)使用。進(jìn)行這種跨域遷移的原因是,在進(jìn)行聯(lián)合學(xué)習(xí)之前,將學(xué)習(xí)到的情緒知識從預(yù)先訓(xùn)練好的模型中,從視覺域遷移到聽覺情緒域,是因?yàn)橐曈X域和聽覺域之間存在互補(bǔ)信息。

因此,它可以為當(dāng)前的模型積累有用的情感知識。利用我們提出的聯(lián)合學(xué)習(xí)算法,在這些資源貧乏的數(shù)據(jù)集上同時最小化類內(nèi)情緒方差和最大化類間情緒方差,將學(xué)習(xí)到的該模型的情緒知識遷移到多個數(shù)據(jù)集。

給定輸入特征向量 及其對應(yīng)的標(biāo)簽 ,交叉熵?fù)p失公式如下 :

, 與 分別表示目標(biāo)域類別和 softmax 層參數(shù); 是目標(biāo)概率分布 , 是預(yù)測的概率分布。通過同時優(yōu)化兩個交叉熵?fù)p失,我們在最終域上的模型微調(diào)的累積參數(shù)集現(xiàn)在被傳輸和重用,作為我們在兩個不同的視覺域上的聯(lián)合學(xué)習(xí)的初始知識。

對比損失計(jì)算如下:

,,, 分別來自于 ,,, 來自于同一類情緒,=1,否則 =0。

因此,聯(lián)合學(xué)習(xí)算法的訓(xùn)練損失函數(shù) 定義如下:

算法的目標(biāo)是學(xué)習(xí)特征提取函數(shù)中的參數(shù) 。,, 參數(shù)引入傳播兩個情感分類信號和一個情感匹配信號。聯(lián)合學(xué)習(xí)算法在測試過程中的偽代碼如算法1所示。

結(jié)果

視頻情感識別模型的實(shí)驗(yàn)結(jié)果分別如表 2 和表 4 所示 : V_eNTER_Model 在視頻數(shù)據(jù)集 eNTERFACE 上進(jìn)行預(yù)訓(xùn)練,V_SAV_Model (Fine-tuned) 微調(diào)全連接層的 V eNTER Model 預(yù)訓(xùn)練模型。

如表 3 結(jié)果所示,在 audio SAVEE 數(shù)據(jù)集上,不斷微調(diào) V_SAV_Model 的所有層。同樣,與其他最先進(jìn)的語音情感識別模型相比,A_EMO_Model (Fine-tuned) 表現(xiàn)最佳 (89%),明顯優(yōu)于 A_EMO_Model (67%),如表 5 所示。

如表 7 所示,盡管通過簡單地結(jié)合 visual eNTERFACE 和 visual SAVEE 來擴(kuò)大多個數(shù)據(jù)集進(jìn)行學(xué)習(xí),V_SAV_eNTER_Model 在識別精度上并沒有顯著的提高。雖然通過聯(lián)合優(yōu)化兩個交叉熵?fù)p失來學(xué)習(xí) V_SAV_eNTER_Model,該模型仍然存在跨數(shù)據(jù)集分布偏移的問題。

相比之下,從表 7 中可以看出,采用表 1 中詳細(xì)描述的聯(lián)合學(xué)習(xí)算法進(jìn)行學(xué)習(xí)時,模型的性能得到了極大的提高,同時優(yōu)化了兩個交叉熵?fù)p失和一個對比損失。?這說明模型可以很好地泛化多個數(shù)據(jù)集,從而成功地解決了數(shù)據(jù)集之間的分布移位問題。

結(jié)論

在這篇論文中,作者開發(fā)了一個框架,這個框架能夠通過同時最小化類內(nèi)方差和最大化類間方差,來很好地學(xué)習(xí)多個資源貧乏且互不關(guān)聯(lián)的情感數(shù)據(jù)集。

通過使用連續(xù)的微調(diào)策略整合跨域遷移,提出的框架成功地將情感學(xué)習(xí)知識在不同的模式間遷移,例如從一個視覺領(lǐng)域遷移到另一個視覺領(lǐng)域,從視覺領(lǐng)域遷移到聽覺領(lǐng)域,然后再遷移到多個領(lǐng)域。

據(jù)我們所知,本文提出的聯(lián)合學(xué)習(xí)算法是第一個旨在解決多個資源貧乏的情緒數(shù)據(jù)集的訓(xùn)練問題的研究。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • 變分推斷(Variational Inference)最新進(jìn)展簡述

  • 變分自編碼器VAE:原來是這么一回事

  • 圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE

  • 如何快速理解馬爾科夫鏈蒙特卡洛法?

  • 深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽

  • ICLR 2020:從去噪自編碼器到生成模型

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請?jiān)谕陡鍟r提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨(dú)在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的视觉与听觉相结合的深度跨域情绪识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。