日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于平行新闻的Bootstrapping关系抽取

發布時間:2024/7/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于平行新闻的Bootstrapping关系抽取 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理:吳銳,東南大學大四本科生,研究方向為自然語言處理。




CitationMichael Glass, K. B. . (2012). Bootstrapping relation extraction using parallel news articles. Retrieved from https://pdfs.semanticscholar.org/bfa5/1cf7fa3e0b10893908d909cd8932d76bb7ae.pdf?

?

動機

近年來,針對關系抽取的 bootstrapping 方法得到了廣泛的關注,一個簡單的 bootstrapping 可以用下圖表示。這些方法都基于同一個假設,那就是如果句中的兩個詞在某種情況下具有特定的關系,則包含這兩個詞的句子很可能會表達出這種關系。本文在考慮該假設在平行語料庫中更可能成立的情況下,探索了在平行與非平行語料庫下,分別使用 Bootstrapping 進行關系抽取的實驗效果。在實驗中發現,基于平行語料庫的實驗效果普遍更好。

1

方法

本文所采取的方法大致如下:

1、構建平行語料庫

該文章主要針對NFLIC領域建立了大型的平行語料庫,由于前者領域中關系在各類運動中均較為普遍,文中直接將其當做運動領域。文中使用了谷歌新聞來對描述同一事件的新聞進行定位以及分組。每一組只描述一個新聞故事,通常指一個事件,例如一場游戲或者一次恐怖襲擊。文中表示,通過在谷歌新聞上搜索領域相關的關鍵詞,可以得到一系列類似于下圖的結果。通過單擊鏈接“all 285 news articles”,可以收集到一組均在描述同一個事件的文檔。由于組內文檔的相關性以及新聞的質量都會隨著檢索排序的上升而下降,所以文中只取前三分之一,或者最多100篇文章。

2


最終運動語料庫總共包含3861組,合計145000個文檔,大約每一組有37.5個文檔。IC語料庫與之類似,共3114組,合計130000個文檔,平均每一組約41.5個文檔。

2、具體實驗

為了判定平行語料庫對于bootstrapping關系抽取的潛在價值,該實驗度量了兩個具有一定關系的種子實體分別在平行與非平行語料庫中的關系的持久性。下圖列出了文中所進行實驗的5種關系。Gloss是為關系的解釋,xy是兩個有關系的實體,Search Pattern則用來定位語料庫相關的文本。

3

通過使用這些Search Pattern,作者首先收集到了一些可能表達這些關系的句子,然后手動從這些句子中找到部分確實表達目標關系的句子,并在其中定位出有關聯的實體,最后將定位出來的這些實體對作為種子數據,即圖1算法的初始集合R。

該文章主要針對實驗及評估算法1中的LABELOCCURRENCES函數,其中針對平行語料庫的具體的實驗過程如下圖所示。對于每一個種子實例對,它都會在單個組中挑選十個句子來評估LABELOCCURRENCES的精確率,這些句子稱之為叫做組內”(inside cluster)語句。函數SENTENCESRELATING(si, c)能夠找到文檔簇c中與種子實例si相關的所有句子。

4

針對非平行語料庫,我們同樣選擇了另外十個分布在不同組中的句子,來測試LABELOCCURRENCES的精確率,叫做組外”(outside cluster)語句。具體的實驗過程如下圖

5

3、結果評估

為了評估LABELOCCURRENCES函數分別在有文檔組和沒有文檔組下的精確率,文中使用了亞馬遜Mechanical Turk服務上的工作者。其他研究表明[Snow 等人, 2008]對于自然語言處理領域的一些簡單工作,包括文本蘊涵,Mechanical Turk的非專家可以提供與專家建立的黃金標準同等質量的標注。

??????????? 下圖表現了工作人員的工作方式。工作人員被要求將句子標記為正確或者不正確(且如果不正確,需選擇一個原因)。作者提供了示例來說明三種不同類型的錯誤摘要。

6


實驗結論

7

上圖表明,至少對部分關系來說,使用平行語料庫是很重要的??偟膩碚f,組內的精確率為0.7,組外的精確率為0.39,說明平行語料庫可能會為LABELOCCURRENCES函數帶來50%的錯誤率的下降。

作者預計平行語料庫對gameDate、teamInGameinjuringHumanAgent關系的影響很小,而對其他關系影響很大。他的推理是這樣的,當這些關系的典型實例出現在同一句話中時,它們很少會有除目標關系之外的關聯。雖然無法對一些關系進行有效的測試,但作者通過該實驗證實了對于gameDateisLedBy關系的假設。

從組內到組外,hasCitizenship關系的精確率發生了急劇的下降,這可以解釋為一個國家的公民往往與這個國家有著各種各樣的聯系。對于teamScore關系,我們可以看到,在一個組(通常是一場游戲)內,如果一個隊伍和一個比分有這種關系,那么在所有其他的語義相關的相同實體之間,非常有可能保持這種關系。然而在組外,這種可能性要低于50%。通常情況下,這個得分其實是其他隊伍的得分。

總而言之,在很多情況下,種子實體對之間只含一種關系的假設是不成立的,但是在描述單個故事的文檔組內是可靠的。關系抽取的Bootstrapping方法可以通過使用能從中受益的關系的平行語料庫來讓結果得到一定的提升。

?



OpenKG


開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于平行新闻的Bootstrapping关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。