MultiModel:跨领域多任务机器学习
生活随笔
收集整理的這篇文章主要介紹了
MultiModel:跨领域多任务机器学习
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
近十年來(lái),雖然深度學(xué)習(xí)的應(yīng)用和性能均取得了飛速進(jìn)步,但其面臨的現(xiàn)狀是神經(jīng)網(wǎng)絡(luò)架構(gòu)的應(yīng)用領(lǐng)域非常專一化。一個(gè)重要的問(wèn)題依然懸而未決:如果將跨專業(yè)領(lǐng)域的深度學(xué)習(xí)聚合形成統(tǒng)一的模型,是否能夠同時(shí)在多個(gè)領(lǐng)域取得優(yōu)異表現(xiàn)呢?
今天,我們隆重推出融匯了視覺、語(yǔ)言和語(yǔ)音網(wǎng)絡(luò)研發(fā)成果的神經(jīng)網(wǎng)絡(luò)架構(gòu)? MultiModel 。這套模型能夠同時(shí)解決跨多個(gè)領(lǐng)域的大量問(wèn)題,包括圖像識(shí)別、翻譯和語(yǔ)音識(shí)別等。雖然我們此前已在這一方向取得重大進(jìn)步(即 Google 翻譯使用的? Google 多語(yǔ)言神經(jīng)翻譯系統(tǒng) ),但 MultiModel 是我們?cè)趩我痪W(wǎng)絡(luò)中整合視覺、語(yǔ)音和語(yǔ)言理解邁出的第一步。
MultiModel 多領(lǐng)域處理方式的靈感來(lái)自于大腦如何將不同模態(tài)(如聲音、視覺或味覺)的感官輸入轉(zhuǎn)化為單一的共性表現(xiàn),并以語(yǔ)言或動(dòng)作形式作為反應(yīng)。作為對(duì)這些模態(tài)及其轉(zhuǎn)換過(guò)程的模擬,MultiModel 擁有大量特定的小模態(tài)語(yǔ)音、圖像或文本子網(wǎng)絡(luò),以及由編碼器、輸入/輸出混合器和解碼器組成的共享模型(如下圖所示)。
| MultiModel 架構(gòu):特定小模態(tài)子網(wǎng)絡(luò)搭配共享編碼器、I/O 混合器和解碼器。每個(gè)分支代表一種模態(tài),通過(guò)內(nèi)部表征相互轉(zhuǎn)換。 |
在設(shè)計(jì) MultiModel 時(shí),我們清楚認(rèn)識(shí)到,每個(gè)研究領(lǐng)域(視覺、語(yǔ)言和語(yǔ)音)的某些要素對(duì)這個(gè)模型成功執(zhí)行相關(guān)任務(wù)不可或缺。我們通過(guò)試驗(yàn)證明,這些計(jì)算原語(yǔ)(例如卷積、注意力或?qū)<一旌蠈?#xff09;不僅能明顯提升其最初目標(biāo)應(yīng)用領(lǐng)域的性能表現(xiàn),而且不會(huì)影響 MultiModel 執(zhí)行其他任務(wù)時(shí)的性能表現(xiàn)。這樣,不僅可以在多任務(wù)訓(xùn)練時(shí)取得良好的性能表現(xiàn),在數(shù)據(jù)量有限的任務(wù)中,其性能表現(xiàn)也會(huì)有實(shí)質(zhì)性的提升。令我們感到驚訝的是,即使這些任務(wù)來(lái)自鮮有共性的不同領(lǐng)域,亦是如此。例如,圖像識(shí)別任務(wù)也可以提升語(yǔ)言任務(wù)中的性能表現(xiàn)。
值得重視的是,雖然 MultiModel 并沒有創(chuàng)造新的性能紀(jì)錄,但卻幫助我們深入了解了神經(jīng)網(wǎng)絡(luò)中多領(lǐng)域多任務(wù)學(xué)習(xí)的動(dòng)態(tài)進(jìn)展,以及通過(guò)引入輔助任務(wù)來(lái)促進(jìn)有限數(shù)據(jù)任務(wù)學(xué)習(xí)的潛力。機(jī)器學(xué)習(xí)領(lǐng)域有一個(gè)流傳很久的觀念:“最佳的正則項(xiàng)是更多的數(shù)據(jù)。”MultiModel 能夠跨領(lǐng)域獲取數(shù)據(jù),因而比之前設(shè)想的方案更容易獲取數(shù)據(jù)。MultiModel 證明,與其他任務(wù)聯(lián)合訓(xùn)練可以提升有限數(shù)據(jù)任務(wù)的性能表現(xiàn),取得良好的結(jié)果。
關(guān)于多領(lǐng)域機(jī)器學(xué)習(xí),有許多問(wèn)題仍待研究,我們將繼續(xù)優(yōu)化 Multimodel,提升其性能表現(xiàn)。為了快速推進(jìn)這項(xiàng)研究,我們?cè)? Tensor2Tensor ?庫(kù)中開放了 MultiModel 的源代碼。我們相信,這類采用多領(lǐng)域數(shù)據(jù)訓(xùn)練的協(xié)作模型將成為深度學(xué)習(xí)的下一發(fā)展方向,并最終攻克當(dāng)前窄領(lǐng)域訓(xùn)練網(wǎng)絡(luò)所無(wú)法解決的任務(wù)。
致謝
這項(xiàng)研究由 Google 員工 ?ukasz Kaiser、Noam Shazeer、Ashish Vaswani、Niki Parmar、Llion Jones、Jakob Uszkoreit 以及多倫多大學(xué)研究員 Aidan N. Gomez 共同開展。Aidan 當(dāng)時(shí)正與? Google Brain 團(tuán)隊(duì) 合作。
1?這 8 項(xiàng)任務(wù)包括:(1) 語(yǔ)音識(shí)別 (WSJ corpus);(2) 圖像識(shí)別 (ImageNet);(3) 圖像字幕制作 (MS COCO);(4) 語(yǔ)法分析 (Penn Treebank);(5) 英德翻譯;(6) 德英翻譯;(7) 英法翻譯;(8) 法英翻譯(全部使用 WMT 數(shù)據(jù)集)。?
總結(jié)
以上是生活随笔為你收集整理的MultiModel:跨领域多任务机器学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机视觉实时目标检测 TensorFl
- 下一篇: OracleDB 12cR2 架构 (强