日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2019 | 面向远程监督关系抽取的模式诊断技术

發布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2019 | 面向远程监督关系抽取的模式诊断技术 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨鄭順

學校丨清華大學交叉信息研究院五年級博士生

研究方向丨機器學習和信息抽取




研究動機


遠程監督(Distant Supervision)可以為關系抽取任務自動地快速生成大量訓練集。具體來說,遠程監督是將知識庫中的關系實例匹配到文本中,進而直接對實體對的文本描述賦予相應的關系類別。盡管能快速創建大量訓練數據,這種“遠程”的監督方式也引入了不可忽視的標注錯誤,比如下面這個的例子:



1. 第一個句子的確描述了實體間具有“出生地”的關系,然而由于知識庫的不完整性,相應的遠程監督標簽(DS Label)是一個假陰性(FN)的錯誤;?


2. 第二個句子其實并沒有顯示描述“出生地”這個關系,卻因為“遠程”的監督,而發生了假陽性(FP)的錯誤。?


近年來的一個研究熱點是弱監督融合(Weak Label Fusion),即通過融合多種不同的弱監督信號來生成更高質量的訓練標簽,這些弱監督信號可以由遠程監督、基于模式的標注等等產生。


盡管弱監督融合既能生成更高質量的標注又有較好的可解釋性,但也存在一定的局限性:通常假定由人(領域專家)來提供具有關系指向性的模式規則,比如:符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子傾向于與“出生地”關系無關。


這種人工撰寫模式的方式既有著較高的技能要求(學習模板撰寫的語法,調試程序等),又需要較大的工作量(搜索關系描述的典型樣例,查驗模板的覆蓋率、準確性、臨界情況等),而且當遷移到一個新的關系領域時,這些繁雜的工作又需要相應的領域專家們再重復一遍。?


那么如何既能降低領域專家的技能要求和工作量,又能實現高效可解釋的基于弱監督融合的訓練數據生成呢??


本文就是沿著此方向的一次探索,我們對這個問題的核心觀察是:1)遠程監督可以讓模型學到大致的關系指向信息;2)對領域專家來說,相對于編寫模式,判斷樣本是否符合特定的關系類別是更加簡單高效的。


基于這些觀察,我們提出了一套神經模式診斷框架(DIAG-NRE)來橋接遠程監督與弱監督融合,其大體流程如下圖所示。



神經模式診斷框架


我們提出的神經模式診斷框架包含兩個核心模塊:模式抽取模式精煉。?


模式抽取?


模式抽取部分的核心想法是通過強化學習訓練一個代理網絡(Agent Network)來獲得關系相關的模式。



具體地,我們從關系分類模型中取出輸入表征,作為輸入狀態(State),通過代理網絡(Agent Network)獲得針對每個詞項的決策(Action,1:擦除,0:保留),進而生成新的狀態,通過關系模型對新舊狀態的不同預測概率計算決策的獎勵(Reward),這里獎勵設計的核心想法是鼓勵在最大限度的保持預測概率的同時盡可能多地擦除無關詞項。?


在代理網絡學會做最大化獎勵的決策后,我們可以按照既定的規則保留實體信息、相對位置信息和關鍵詞項從而得到相應的關系模式。?


模式精煉?


在模式精煉部分,我們首先構建一個模式層級結構用于高效遍歷有代表性的模式,接著遍歷模式層級結構(選取指定數量的模式)并采樣出少量模式覆蓋的樣本用于人工標注。整體流程如下圖所示,通過模式層級結構輔助模式選擇以及人工標注來評估模式質量,我們可以得到具有高置信度的模式以及極少量的人工標注數據。



在弱監督融合部分,我們沿用了斯坦福大學提出的 Data Programming 方案,唯一的區別在于這里有很強的先驗——DIAG-NRE 可輸出高置信度的模式。因此,不同于原始方案中的無監督參數估計,我們基于前序的少量標注數據來估計弱監督融合部分的參數。


實驗及分析


我們在兩個大型公開的遠程監督數據集(NYT、UW)的 14 種關系上驗證神經模式診斷框架的有效性。為了評估對訓練標簽的降噪效果,我們對比不同的訓練標簽對應的模型在測試集上預測性能的差異,對比基線包括:?


  • 純遠程監督(Distant Supervision)?

  • 將少量人工標注標簽混入遠程監督集合(Gold Label Mix)?

  • 一種基于強化學習的訓練標簽自動調整(RLRE)?


總體對比結果如下表所示:



可以看出,在大部分的關系任務上,DIAG-NRE 相對于遠程監督以及其他基線均取得了很大的提升,其原因主要來自于對如下兩種標簽噪聲的抑制。


假陰性標簽:典型的例子是任務(“國家-行政區域-地區”關系),由于知識庫覆蓋有限,很多正確描述關系的樣本都被賦予了 NA 標簽(無已知關系)。因此訓練出來的模型具有高準確率,低覆蓋率的特點。


假陽性標簽:典型的例子包括(“人-出生地-地區”關系),有很多模式并不能表示此關系,但是在遠程監督的過程卻頻繁的出現,從而導致模型認為這些模式與關系相關。從下面這組例子,我們可以直觀地理解 DIAG-NRE 是如何診斷及抑制這兩種噪聲標簽的。



關系任務,模式“in ENTITY2:CITY PAD{1, 3} ENTITY1:COUNTRY”,可以覆蓋 2072 個樣本,但是其中只有 382 個樣本被遠程監督賦予了正確的標簽,因而存在大量假陰性標簽。關系任務,模式“mayor ENTITY1:PER PAD{1, 3} ENTITY2:CITY”其實并不能表示“出生地”關系,但遠程監督卻給 21 個此類型樣本標注了“出生地”關系,這也就是所謂的假陽性標簽。?


其他的關系類型也或多或少存在類似的錯誤標簽,然而無人工干預的自動調整方法并不能有效抑制這樣的標簽噪聲,同時只加入少量人工糾正過的正確標簽也難以覆蓋到海量的噪聲樣本。與之相比,DIAG-NRE 輔助生成高置信度較高覆蓋率的模式,再結合弱監督融合機制,從而高效地以可解釋的方式減少標簽噪聲。


總結及展望


在這個工作中,我們在遠程監督與弱監督融合兩種技術之間搭建起了一座橋梁,既通過自動生成模式減輕了對領域專家在技能和工作量上的要求,又通過主動式的少量人工標注自動精煉高質量模式,從而賦能在新關系領域上的快速泛化。此外,DIAG-NRE 不僅能有效抑制標簽噪聲,同時可以診斷不同關系類型上噪聲類型、嚴重程度等方面,進而直觀解釋了噪聲標簽因何而起,又是如何得到抑制。


由于具備快速構建訓練數據的特性,遠程監督近年來被廣泛應用到其他領域,比如:問答系統、事件抽取等等,因此如何將 DIAG-NRE 的思路和優點引入到這些領域是值得研究的方向之一。




點擊以下標題查看更多往期內容:?


  • 基于DGCNN和概率圖的輕量級信息抽取模型

  • 圖神經網絡綜述:模型與應用

  • 一文詳解Google最新NLP模型XLNet

  • 自然語言處理中的語言模型預訓練方法

  • 一大批中文(BERT等)預訓練模型等你認領!

  • ACL 2019 | 基于上下文感知的向量優化

  • NAACL 2019最佳論文:量子概率驅動的神經網絡

  • 基于小樣本學習的意圖識別冷啟動




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 下載論文 & 源碼

總結

以上是生活随笔為你收集整理的ACL 2019 | 面向远程监督关系抽取的模式诊断技术的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。