NLP多任务学习:一种层次增长的神经网络结构 | PaperDaily #16
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?16?篇文章由于神經網絡強大的表達能力,在 NLP 領域研究者們開始研究基于神經網絡的多任務學習。大多數方法通過網絡參數共享來學習任務間的關聯,提升各任務效果。
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @robertdlut。這篇文章介紹了一個聯合的多任務(joint many-task)模型,通過逐步加深層數來解決復雜任務。
與傳統的并行多任務學習不一樣的地方在于,該文是根據任務的層次關系構建層次(POS->CHUNK->DEP->Related->Entailment)的模型進行學習。每個任務有自己的目標函數,最后取得了不錯的效果。該論文最后發表在了 EMNLP2017。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關于作者:羅凌,大連理工大學博士生,研究方向為深度學習,文本分類,實體識別和關系抽取。
■?論文 | A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks
■ 鏈接 | https://www.paperweekly.site/papers/1049
■ 作者 | robertdlut
該論文一作來自于東京大學,是他在 Salesforce Research 實習時完成的工作,最后發表在 EMNLP2017。
1. 論文動機
在 NLP 領域,各個任務之間有著相互聯系。研究者們通過多任務學習(Multiple-Task Learning)來促進任務間互相聯系,提高各個任務的性能。目前現存的主流多任務框架多使用同樣深度的模型,通過參數共享的方式并行地進行多任務學習,如下圖。
而在 NLP 領域中,各個任務間經常是有層級關系的,例如從詞法分析到句法分析到上層的實際應用任務(例如具體任務:詞性分析 POS->語塊分析 CHUNK->依存句法分析 DEP->文本語義相關 Relatedness->文本蘊涵 Entailment)。
現存的多數多任務學習模型忽視了 NLP 任務之間的語言學層次關系,針對這一問題,該論文提出了一種層次增長的神經網絡模型,考慮了任務間的語言學層次關系。
2. 論文方法
該論文模型的整體框架圖如下所示,相比傳統的并行多任務學習模型,該模型框架是依據語言學層次關系,將不同任務棧式的疊加,越層次的任務具有更深的網絡結構。當前層次的任務會使用下一層次的任務輸出。
在詞和句法層級,每個任務分別是使用一個雙向的 LSTM 進行建模。語義層級,根據前面層級任務學習到的表示,使用 softmax 函數進行分類。在訓練階段,每個任務都有自己相應的目標函數,使用所有任務訓練數據,按照模型從底至頂的層次順序,依次聯合訓練。
除此之外,在具體實現上,每層雙向 LSTM 都用了詞向量(Shortcut Connection)和前面任務的標簽向量(Label Embedding)。在各個任務的目標函數里加入了級聯正則化項(Successive Regularization)來使得模型不要忘記之前學習的信息。
3. 論文實驗?
各任務數據集:POS(WSJ),CHUNK(WSJ),DEP(WSJ),Relatedness(SICK),Entailment(SICK)。
多任務vs單任務(測試集上)
論文給出了多任務和單任務的實驗結果(由于一些任務數據集存在重疊,所以沒有結果 n/a),還有具體使用全部任務和任意任務的結果。可以看到相比單任務,多任務學習在所有任務上效果都得到了提升。
和主流方法進行比較(測試集上)
每個具體任務和目前主流方法(包含了并行的多任務學習方法)的比較,可以看到該論文每個任務的結果基本可以達到目前最優結果。
模型結構分析(在開發集上)
(1) shortcut 連接,輸出標簽向量和級聯正則化項的效果
可以看到使用 shortcut 連接(Shortcut Connections, SR),輸出標簽向量(Label Embeddings, LE)和級聯正則化(Successive Regularization, SR)能夠提升任務的效果,特別是在高層的任務。
(2) 層次和平行結構的對比
ALL-3 表示的是各個任務都用三層結構,只是輸出不同,相當于平行多任務學習。可以看到該文層次的結構效果更好。?
(3) 任務訓練順序的影響
通過隨機順序和按照從底至頂的訓練順序結果進行比較,可以看出,從底層任務往高層任務順序訓練很重要,特別是對于高層任務。
4. 總結
該論文針對語言學層次結構,提出了層次結構的多任務學習框架。相比平行的多任務結構有更好的效果。這樣的框架也可以擴展到更多高層任務應用上(例如關系抽取等)。
可以看到雖然框架思路簡單,但是在實現要取得好的效果,我感覺很多論文中的細節需要注意(例如:Shortcut connections,Label Embeddings 和級聯正則化項等)。論文的實驗做得很詳細,有些訓練細節也在附加材料中給出,利于大家學習。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發布?
請添加小助手微信(pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的NLP多任务学习:一种层次增长的神经网络结构 | PaperDaily #16的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 构想:中文文本标注工具(内附多个开源文本
- 下一篇: 直播预告:基于强化学习的关系抽取和文本分