MultiModel:跨领域多任务机器学习
生活随笔
收集整理的這篇文章主要介紹了
MultiModel:跨领域多任务机器学习
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
近十年來,雖然深度學習的應用和性能均取得了飛速進步,但其面臨的現狀是神經網絡架構的應用領域非常專一化。一個重要的問題依然懸而未決:如果將跨專業領域的深度學習聚合形成統一的模型,是否能夠同時在多個領域取得優異表現呢?
今天,我們隆重推出融匯了視覺、語言和語音網絡研發成果的神經網絡架構? MultiModel 。這套模型能夠同時解決跨多個領域的大量問題,包括圖像識別、翻譯和語音識別等。雖然我們此前已在這一方向取得重大進步(即 Google 翻譯使用的? Google 多語言神經翻譯系統 ),但 MultiModel 是我們在單一網絡中整合視覺、語音和語言理解邁出的第一步。
MultiModel 多領域處理方式的靈感來自于大腦如何將不同模態(如聲音、視覺或味覺)的感官輸入轉化為單一的共性表現,并以語言或動作形式作為反應。作為對這些模態及其轉換過程的模擬,MultiModel 擁有大量特定的小模態語音、圖像或文本子網絡,以及由編碼器、輸入/輸出混合器和解碼器組成的共享模型(如下圖所示)。
| MultiModel 架構:特定小模態子網絡搭配共享編碼器、I/O 混合器和解碼器。每個分支代表一種模態,通過內部表征相互轉換。 |
在設計 MultiModel 時,我們清楚認識到,每個研究領域(視覺、語言和語音)的某些要素對這個模型成功執行相關任務不可或缺。我們通過試驗證明,這些計算原語(例如卷積、注意力或專家混合層)不僅能明顯提升其最初目標應用領域的性能表現,而且不會影響 MultiModel 執行其他任務時的性能表現。這樣,不僅可以在多任務訓練時取得良好的性能表現,在數據量有限的任務中,其性能表現也會有實質性的提升。令我們感到驚訝的是,即使這些任務來自鮮有共性的不同領域,亦是如此。例如,圖像識別任務也可以提升語言任務中的性能表現。
值得重視的是,雖然 MultiModel 并沒有創造新的性能紀錄,但卻幫助我們深入了解了神經網絡中多領域多任務學習的動態進展,以及通過引入輔助任務來促進有限數據任務學習的潛力。機器學習領域有一個流傳很久的觀念:“最佳的正則項是更多的數據。”MultiModel 能夠跨領域獲取數據,因而比之前設想的方案更容易獲取數據。MultiModel 證明,與其他任務聯合訓練可以提升有限數據任務的性能表現,取得良好的結果。
關于多領域機器學習,有許多問題仍待研究,我們將繼續優化 Multimodel,提升其性能表現。為了快速推進這項研究,我們在? Tensor2Tensor ?庫中開放了 MultiModel 的源代碼。我們相信,這類采用多領域數據訓練的協作模型將成為深度學習的下一發展方向,并最終攻克當前窄領域訓練網絡所無法解決的任務。
致謝
這項研究由 Google 員工 ?ukasz Kaiser、Noam Shazeer、Ashish Vaswani、Niki Parmar、Llion Jones、Jakob Uszkoreit 以及多倫多大學研究員 Aidan N. Gomez 共同開展。Aidan 當時正與? Google Brain 團隊 合作。
1?這 8 項任務包括:(1) 語音識別 (WSJ corpus);(2) 圖像識別 (ImageNet);(3) 圖像字幕制作 (MS COCO);(4) 語法分析 (Penn Treebank);(5) 英德翻譯;(6) 德英翻譯;(7) 英法翻譯;(8) 法英翻譯(全部使用 WMT 數據集)。?
總結
以上是生活随笔為你收集整理的MultiModel:跨领域多任务机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机视觉实时目标检测 TensorFl
- 下一篇: OracleDB 12cR2 架构 (强