日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

OpenNRE 2.0:可一键运行的开源关系抽取工具包

發布時間:2024/10/8 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 OpenNRE 2.0:可一键运行的开源关系抽取工具包 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


OpenNRE(https://github.com/thunlp/OpenNRE.git)是清華大學自然語言處理實驗室推出的一款開源的神經網絡關系抽取工具包,包括了多款常用的關系抽取模型,發布僅一年即在 Github 上獲得了 1700+ 星標。

現在這款工具包已經悄悄更新到了 2.0 版本!在原版 TensorFlow 實現的基礎上,不僅采用了現在大熱的 PyTorch 作為基礎,設計了更加模塊化的框架,還囊括了句子級別關系抽取、遠監督關系抽取和少次學習關系抽取等豐富設定,可以說是加量不加價,值得你擁有!

?OpenNRE框架圖

同時,該工作也以 DEMO Paper 的形式發表在了 EMNLP 2019 上,這里是 paper 的地址:?

OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction
https://arxiv.org/abs/1909.13078

作者在介紹文檔中還寫道,相比于原版主要面對關系抽取研究者的設定,新版的 OpenNRE 受眾更加廣泛:

  • 對于初學者:OpenNRE 提供了詳盡的介紹文檔,可以快速幫助入門

  • 對于開發者:提供了簡潔易用的 API 和若干預訓練模型,可方便調用

  • 對于研究者:模塊化設計、多種任務設定、state-of-the-art 模型,可以幫助研究者更快更高效的進行探索

  • 想要在 NLP 課上交一份滿意大作業的同學:這個項目里的模型絕對能讓你的教授眼前一亮



什么是關系抽取

關系抽取是自然語言處理當中的一項重要任務,致力于從文本中抽取出實體之間的關系。比如從句子“達芬奇繪制了蒙娜麗莎”中,我們可以抽取出(達芬奇,畫家,蒙娜麗莎)這樣一個關系三元組。

關系抽取技術是自動構建知識圖譜的重要一環。知識圖譜是由真實世界中的實體和實體間復雜關系構成的結構化表示,是幫助機器理解人類知識的重要工具,在問答系統、搜索引擎、推薦系統中都有著重要的應用。

?關系圖譜示例

關系抽取十八變


由于數據和需求的不同,關系抽取這一任務也發展出了許多不同的任務場景。下面簡單介紹幾種,他們也都被包括在了 OpenNRE 這一工具包中。句子級別關系抽取:顧名思義,句子級別的關系抽取,就是對每一個給定的句子,和在句子中出現的實體,判斷他們之間的關系。在這樣的設定下,通常會使用人工精標的數據進行訓練和測試,如 SemEval 2010 Task8,TACRED,ACE2005 等。OpenNRE 中還提供了一個新的數據集 Wiki80,包含 80 種 Wikidata 關系和 56,000 個句子,與以往的數據集相比,規模更大。包級別關系抽取:包級別的關系抽取產生于遠程監督(Distant Supervision)的設定中。我們都知道,傳統的機器學習方法需要大量數據,而標注數據費時費力,因此研究者們提出了遠程監督這一方法,通過將知識圖譜中的關系三元組與文本對齊,自動進行標注。然而這一方法也帶來了大量的噪聲數據,為了減小噪聲的影響,多樣本多標簽(multi-instance multi-label)的方法被引入,模型不再對單個句子進行分類,而是對包含相同實體對的句子集(稱為包)進行分類。少次學習關系抽取:少次學習(Few-Shot)是一種探索如何讓模型快速適應新任務的設定,通過學習少量的訓練樣本,即可獲得對新類型事物的分類能力。劉知遠老師組發布的數據集?FewRel 正是進行了這方面的探索。篇章級別的關系抽取:相比于針對句子的關系抽取,篇章級別的關系抽取難度更大,但包含的信息也更豐富。要想在這方面做的更好,就需要模型具有一定的推理、指代消解的能力。這一領域的代表數據集是同樣來自劉知遠老師組的DocRED(https://github.com/thunlp/DocRED)。上述任務場景基本涵蓋了目前關系抽取領域的最新進展,OpenNRE 也提供了較為便利的接口以支持上述場景的進一步工作研究。

上手教程:如何使用OpenNRE


OpenNRE 的使用十分簡單,首先 git clone 項目并安裝依賴:

git?clone?https://github.com/thunlp/OpenNRE.git pip?install?-r?requirements.txt

隨后在目錄下打開 Python,并 import opennre:

>>>?import?opennre

可以使用 get_model 命令加載預訓練模型:

>>>?model?=?opennre.get_model('wiki80_cnn_softmax')

這是一個在 wiki80 數據集上進行訓練的句子級別的 CNN 模型,可以在 80 個關系上對句子進行分類。隨后我們可以用 infer 函數進行預測:

>>>?model.infer({'text':?'He?was?the?son?of?Máel?Dúin?mac?Máele?Fithrich,?and?grandson?of?the?high?king?áed?Uaridnach?(died?612).',?'h':?{'pos':?(18,?46)},?'t':?{'pos':?(78,?91)}}) ('father',?0.5108704566955566)

可以看到模型正確推理出了關系 father,并給出了模型預測的置信度。

關于 OpenNRE 更詳細的說明,可以查看項目主頁:

https://github.com/thunlp/OpenNRE

或文檔:


https://opennre-docs.readthedocs.io/en/latest/

關于作者


OpenNRE 由孫茂松教授領導的清華大學自然語言處理實驗室(THUNLP)師生研發維護。目前 THUNLP 的 Github 主頁(https://github.com/thunlp)已有 92 個項目,其中有許多高星項目。


OpenNRE 項目的兩位主要作者——高天宇(https://gaotianyu.xyz/about/)和韓旭(https://thucsthanxu13.github.io/)都是 THUNLP 實驗室劉知遠老師的學生。

其中,高天宇是大四的本科生,韓旭是博士三年級的學生。從主頁上可以看出,兩人的研究方向均為自然語言處理、信息抽取、圖譜表示和機器學習。其中,高天宇作為大四的本科生,已經在相關領域國際會議上發表了三篇論文;而韓旭除了在相關領域發表多篇論文外,也是 OpenNRE、OpenKE 和 FewRel 等多個開源項目的主要開發者與參與者,在開源社區十分活躍。更多的信息可以參考作者個人主頁以及項目文檔。


點擊以下標題查看更多往期內容:?

#投 稿 通 道#

?讓你的論文被更多人看到?


如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

?

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 訪問項目主頁

總結

以上是生活随笔為你收集整理的OpenNRE 2.0:可一键运行的开源关系抽取工具包的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。