日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations

發布時間:2024/7/5 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [ACL2020]Generalizing Natural Language Analysis through Span-relation Representations 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1 介紹
  • 2 span-relation representations
    • 2.1未涉及句子級任務
  • 3.span-relation model
    • 3.1 span representation
    • 3.2 span and relation label prediction
    • 3.3 應用到不同任務
    • 3.5 多任務學習MTL
  • 4 GLAD Benchmark基準 and Results
    • 4.1 實驗
    • 4.2 證明通用模型有效
    • 4.3 MTL
      • 4.3.2 任務之間的關系分析
      • 4.3.3 相似和區別
      • 4.3.4 MTL under different settings
      • 4.4.4 模型復雜度

1 介紹

  • nlp任務

    • span標記
    • span之間的關系標記
  • 希望用統一的框架處理nlp任務

  • 假設:人類可以用相同的格式標注數據,機器也可以

    • 人類標注:已經有統一的標準BRAT
  • 貢獻

    • span標記和span之間的關系標記聯合模型
      • 已經有端到端的共指消解模型(Lee et al. (2017))–本文對它進行少量修改
    • 預訓練一個上下文的模型(Bert,Elmo)
    • 驗證單一模型的適用性和通用性
      • 在10個任務上
        • named entity recognition(NER),
        • relation extraction (RE),
        • coreference resolution (Coref.),
        • open information extraction (OpenIE),
        • part-of-speech tagging (POS),
        • dependency parsing (Dep.),
        • constituency parsing (Consti.),
        • semantic role labeling (SRL),
        • aspect based sentiment analysis (ABSA),
        • and opinion role labeling (ORL)
      • 功能:
        • 一個模型可以處理多個任務
        • MTL:很方便,可以幫助數據量少的相關模型(相互協助)
          • 有的任務會互相幫助
          • 也有的任務會相互阻礙:因為不同的任務表現出不同的注意模式(attention)
  • 預訓練模型

    • 使用相同的表示,通過預訓練的embedding
  • 本文

    • 完全統一的模型,去處理所有任務

2 span-relation representations

  • 解釋BRAT如何標注大量任務
    • span標注–span-oriented tasks
    • relation標注 --relation-oriented tasks

2.1未涉及句子級任務

  • 注意
    • 未涉及句子級別的任務(情感分類。。)
      • 可以將整個句子當作一個span
      • 但因為之前的通用模型中已經有很好的表現了,就不做了
        • 通用模型(Lan and Xu, 2018)、
        • 多任務學習 (Devlin et al.,2019; Liu et al., 2019)

3.span-relation model

  • base(Lee et al., 2017)–一個端到端的共指消解模型,span標注
    • 擴展到其他任務
    • 模型核心:用一個任意長度的向量表示span–用以預測label或span-pair的label

3.1 span representation

  • 條件:可以任意長度
  • 內容表示zicz_i^czic?
  • 邊界表示ziuz_i^uziu?
  • 句子的tokenw1,w2,...,wnw_1,w_2,...,w_nw1?,w2?,...,wn?
  • span:si=[(bbi,bbi+1,...,bei]s_i=[(b_{b_i},b_{b_i+1},...,b_{e_i}]si?=[(bbi??,bbi?+1?,...bei??]
  • c1,c2,...,cn=TokenRepr(w1,w2,...,wn)u1,u2,...,un=BiLSTM(c1,c2,...,cn)zic=SelfAttn(cbi,cbi+1,...,cei)ziu=[ubi;uei]zi=[zic;ziu]c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...,c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]c1?,c2?,...,cn?=TokenRepr(w1?,w2?,...,wn?)u1?,u2?,...,un?=BiLSTM(c1?,c2?,...,cn?)zic?=SelfAttn(cbi??,cbi?+1?,...cei??)ziu?=[ubi??;uei??]zi?=[zic?;ziu?]
    • tokenRepr:Glove or Bert

3.2 span and relation label prediction

  • invalid label
    • NEG_SPAN
    • NEG_REL
  • Model
  • 預測所有的span(長度<l):MLP(多層感知機)softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}softmax(MLPspan(zi?))ΔL
  • 剪枝:保留前K=n?τK=n\cdot \tauK=n?τ個span,剩下的為NEG_SPAN(閾值τ\tauτ低,則剪枝更多)
  • 預測關系的感知機MLP:ojk=MLPrel([zj;zk;zj?zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}ojk?=MLPrel([zj?;zk?;zj??zk?])RR

3.3 應用到不同任務

  • 最大化真實關系的概率

  • 具體到不同任務上需求不同

    • 關心前后順序:關系抽取
    • 不關心順序:
      • eg:共指消解:
        • 連接相同概念的span–cluster
        • 多個也只要連上了就好
  • 為此,提供兩種loss–最大化

    • pairwise loss:softmax(ojk)rjk,rjk是實際答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexessoftmax(ojk?)rjk??,rjk?indexes–其他所有任務
      • 預測一對
    • head loss:Σk∈head(sj)softmax([oj1,oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1},o_{j1},...,o_{jK})_kΣkhead(sj?)?softmax([oj1?oj1?,...,ojK?)k?–用于共指消解
      • 預測一堆
      • (?多元關系?怎么樣)
  • 這兩個loss,僅在如何normalize時有區別,其他并無區別

  • test

    • 共指消解:把span連接到得分最高的前件上e (Lee et al., 2017)
    • consti:constituency parsing:貪婪的從上到下的解碼,去產生有效的解析樹
    • dep:依賴解析:每個詞鏈接到一個父節點(最高關系得分的)
    • other:對每對實體預測關系,沒關系的預測為NEG_REL
  • 核心觀點

    • 我們的模型任務無關
      • 只要能建模為span標注任務和span關系預測任務即可

3.5 多任務學習MTL

  • SpanRel實現MTL
    • 共享參數,除了MLPs的
    • 問題:
      • 不同的任務,關注點不同(在語言方面)
      • 所以對于所有任務不是獲得相同的增益的、
        • 在相關任務上聯合訓練是增益的
        • 而不相關的任務是hurt
      • 如何選擇任務?
        • 任務數目多時,手動選擇難
    • 解決:
      • SpanRel提供了一個系統的方式/基于attetion的方式–選擇任務對(互相有增益的)–4.3

4 GLAD Benchmark基準 and Results

  • 提出GLAD基準和evaluation metrics
  • 證明SpanRel
    • 有效
    • 對MTL有益

4.1 實驗

  • metrics
    • F1,P,R–for span and relation
  • token representation:Glove,ELMo,Span-Bert,Bert
  • BiLSTM 256 hidden\
  • MLP:2 layers,128hidden

4.2 證明通用模型有效

  • 在相同條件下與SOTA模型相比較
    • token representation(Bert or Glove…)相同
    • settings
  • 通用模型有效
    • 和sota差不多

4.3 MTL

  • MTL和STL(單任務學習),FT(finetune)
    • 有Bert好于沒有Bert
    • 有Finetune好于無FT
    • 下降的比較多:
      • 大多數任務數據稀疏
      • 不同的任務關注點不同,相互之間可能有助益也有阻礙

4.3.2 任務之間的關系分析

  • 假設:語言模型預訓練在理論上與MTL正交,實際上benefit是重疊的
  • 分析
    • (1)對于OpenIE和ORL來說,使用SRL進行多任務學習可以顯著提高性能,而其他任務的提高則很少或根本沒有。
    • (2)依賴解析和SRL是對大多數目標任務有益的通用源任務。
    • SpanREL可以很容易地進行MTL,并且看出誰是有益的源任務

4.3.3 相似和區別

  • 證明SpanRel提供分析不同任務相似性和區別的平臺
    • 猜測,與attention有關
      • attention反應內部焦點
      • 公式:simk(t,t′)=?1∣Xt∣Σx∈Xt∣∣Akt(x)?Akt′(x)∣∣F′Akt(x)是第k個頭的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k個頭的attention mapsimk?(t,t)=?Xt?1?ΣxXt??Akt?(x)?Akt?(x)F?Akt?(x)kattentionmap
      • 下圖證明這個公式確實反映了相似度

4.3.4 MTL under different settings

  • token representation 越強大,improvement越少

    • MTL和預訓練模型都傾向于學習通用表達,benefit重疊了
    • 5中glove訓練了所有模型,所以效果差了–超出能力范圍
  • 數據稀疏的時候模型有用

4.4.4 模型復雜度

  • 主要在bert
  • span O(l?n)O(l\cdot n)O(l?n)
  • relation O(K2)=O(τ2?n2)O(K^2)=O(\tau^2\cdot n^2)O(K2)=O(τ2?n2)

總結

以上是生活随笔為你收集整理的[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。