當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

MultiModel：跨领域多任务机器学习

發(fā)布時(shí)間：2024/2/28 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 MultiModel：跨领域多任务机器学习小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

發(fā)布人：Google Brain 團(tuán)隊(duì)高級(jí)研究員 ?ukasz Kaiser 和多倫多大學(xué)計(jì)算機(jī)科學(xué)系機(jī)器學(xué)習(xí)小組研究員 Aidan N. Gomez

近十年來(lái)，雖然深度學(xué)習(xí)的應(yīng)用和性能均取得了飛速進(jìn)步，但其面臨的現(xiàn)狀是神經(jīng)網(wǎng)絡(luò)架構(gòu)的應(yīng)用領(lǐng)域非常專一化。一個(gè)重要的問(wèn)題依然懸而未決：如果將跨專業(yè)領(lǐng)域的深度學(xué)習(xí)聚合形成統(tǒng)一的模型，是否能夠同時(shí)在多個(gè)領(lǐng)域取得優(yōu)異表現(xiàn)呢？

今天，我們隆重推出融匯了視覺、語(yǔ)言和語(yǔ)音網(wǎng)絡(luò)研發(fā)成果的神經(jīng)網(wǎng)絡(luò)架構(gòu)? MultiModel 。這套模型能夠同時(shí)解決跨多個(gè)領(lǐng)域的大量問(wèn)題，包括圖像識(shí)別、翻譯和語(yǔ)音識(shí)別等。雖然我們此前已在這一方向取得重大進(jìn)步（即 Google 翻譯使用的? Google 多語(yǔ)言神經(jīng)翻譯系統(tǒng) ），但 MultiModel 是我們?cè)趩我痪W(wǎng)絡(luò)中整合視覺、語(yǔ)音和語(yǔ)言理解邁出的第一步。

MultiModel 多領(lǐng)域處理方式的靈感來(lái)自于大腦如何將不同模態(tài)（如聲音、視覺或味覺）的感官輸入轉(zhuǎn)化為單一的共性表現(xiàn)，并以語(yǔ)言或動(dòng)作形式作為反應(yīng)。作為對(duì)這些模態(tài)及其轉(zhuǎn)換過(guò)程的模擬，MultiModel 擁有大量特定的小模態(tài)語(yǔ)音、圖像或文本子網(wǎng)絡(luò)，以及由編碼器、輸入/輸出混合器和解碼器組成的共享模型（如下圖所示）。

MultiModel 架構(gòu)：特定小模態(tài)子網(wǎng)絡(luò)搭配共享編碼器、I/O 混合器和解碼器。每個(gè)分支代表一種模態(tài)，通過(guò)內(nèi)部表征相互轉(zhuǎn)換。

我們證明了 MultiModel 能夠同時(shí)進(jìn)行 8 種不同的學(xué)習(xí)任務(wù)：辨識(shí)圖像中的對(duì)象、提供字幕、識(shí)別語(yǔ)音、四對(duì)語(yǔ)言互譯，同時(shí)進(jìn)行語(yǔ)法分析。模型會(huì)接收輸入以及一個(gè)非常簡(jiǎn)單的信號(hào)，該信號(hào)將決定我們所需的輸出結(jié)果。下面舉例說(shuō)明 MultiModel 同時(shí)針對(duì)這 8 項(xiàng)任務(wù)的訓(xùn)練 ¹ ：
在設(shè)計(jì) MultiModel 時(shí)，我們清楚認(rèn)識(shí)到，每個(gè)研究領(lǐng)域（視覺、語(yǔ)言和語(yǔ)音）的某些要素對(duì)這個(gè)模型成功執(zhí)行相關(guān)任務(wù)不可或缺。我們通過(guò)試驗(yàn)證明，這些計(jì)算原語(yǔ)（例如卷積、注意力或?qū)＜一旌蠈?#xff09;不僅能明顯提升其最初目標(biāo)應(yīng)用領(lǐng)域的性能表現(xiàn)，而且不會(huì)影響 MultiModel 執(zhí)行其他任務(wù)時(shí)的性能表現(xiàn)。這樣，不僅可以在多任務(wù)訓(xùn)練時(shí)取得良好的性能表現(xiàn)，在數(shù)據(jù)量有限的任務(wù)中，其性能表現(xiàn)也會(huì)有實(shí)質(zhì)性的提升。令我們感到驚訝的是，即使這些任務(wù)來(lái)自鮮有共性的不同領(lǐng)域，亦是如此。例如，圖像識(shí)別任務(wù)也可以提升語(yǔ)言任務(wù)中的性能表現(xiàn)。

值得重視的是，雖然 MultiModel 并沒有創(chuàng)造新的性能紀(jì)錄，但卻幫助我們深入了解了神經(jīng)網(wǎng)絡(luò)中多領(lǐng)域多任務(wù)學(xué)習(xí)的動(dòng)態(tài)進(jìn)展，以及通過(guò)引入輔助任務(wù)來(lái)促進(jìn)有限數(shù)據(jù)任務(wù)學(xué)習(xí)的潛力。機(jī)器學(xué)習(xí)領(lǐng)域有一個(gè)流傳很久的觀念：“最佳的正則項(xiàng)是更多的數(shù)據(jù)。”MultiModel 能夠跨領(lǐng)域獲取數(shù)據(jù)，因而比之前設(shè)想的方案更容易獲取數(shù)據(jù)。MultiModel 證明，與其他任務(wù)聯(lián)合訓(xùn)練可以提升有限數(shù)據(jù)任務(wù)的性能表現(xiàn)，取得良好的結(jié)果。

關(guān)于多領(lǐng)域機(jī)器學(xué)習(xí)，有許多問(wèn)題仍待研究，我們將繼續(xù)優(yōu)化 Multimodel，提升其性能表現(xiàn)。為了快速推進(jìn)這項(xiàng)研究，我們?cè)? Tensor2Tensor ?庫(kù)中開放了 MultiModel 的源代碼。我們相信，這類采用多領(lǐng)域數(shù)據(jù)訓(xùn)練的協(xié)作模型將成為深度學(xué)習(xí)的下一發(fā)展方向，并最終攻克當(dāng)前窄領(lǐng)域訓(xùn)練網(wǎng)絡(luò)所無(wú)法解決的任務(wù)。

致謝
這項(xiàng)研究由 Google 員工 ?ukasz Kaiser、Noam Shazeer、Ashish Vaswani、Niki Parmar、Llion Jones、Jakob Uszkoreit 以及多倫多大學(xué)研究員 Aidan N. Gomez 共同開展。Aidan 當(dāng)時(shí)正與? Google Brain 團(tuán)隊(duì) 合作。

1?這 8 項(xiàng)任務(wù)包括：(1) 語(yǔ)音識(shí)別 (WSJ corpus)；(2) 圖像識(shí)別 (ImageNet)；(3) 圖像字幕制作 (MS COCO)；(4) 語(yǔ)法分析 (Penn Treebank)；(5) 英德翻譯；(6) 德英翻譯；(7) 英法翻譯；(8) 法英翻譯（全部使用 WMT 數(shù)據(jù)集）。^?

總結(jié)

以上是生活随笔為你收集整理的MultiModel：跨领域多任务机器学习的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：计算机视觉实时目标检测 TensorFl
下一篇： OracleDB 12cR2 架构 (强

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

MultiModel：跨领域多任务机器学习

總結(jié)