當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS

發布時間：2025/3/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文：?https://blog.heuritech.com/2016/04/15/knowledge-extraction-from-unstructured-texts/

前言

從互聯網上公開表達的人的信息中可以獲得不合理的信息量。?在Heuritech，我們使用這些信息來更好地了解人們的需求，他們喜歡哪些產品以及為什么。?這篇文章從科學角度解釋了什么是知識提取，并詳細介紹了一些最新的方法。

什么是知識提取？

高度結構化的數據庫可以很容易推理并用于推斷。?例如在WikiData或YAGO中?，實體被隔離并且與關系鏈接在一起。?然而，大多數人類的知識表達形式都是非結構化的文本，從中很難推理和獲得智慧。?考慮這里的例子：

左側的原始文本以非結構化的方式包含大量有用的信息，例如生日，國籍，活動等。?提取這些信息對應于自然語言處理中的一個具有挑戰性的領域，其可能需要句子解析（將自然語言映射到機器可解釋的表示），實體檢測和多參考解析來聚合關于同一實體的信息。例如，通過能夠執行問題回答任務的意愿來指導知識提取：在結構化的知識庫中，可以進行查詢，然后獲取所需的信息。?另一個應用是通過在提取的知識圖中找到路徑來執行任意復雜的推理。?在知識提取中，人們可以對超實體感興趣，其中實體包含在其他實體中，并且人們也可以對關系提取感興趣。

這篇博文的目的是回顧從原始文本或從已有的知識圖譜中獲取和提取結構化信息的方法。更確切地說，我們旨在語義解析文本以提取實體和/或關系。?我們在句子中將三元組定義為兩個實體e1和e2之間的關系r?：（?e1，r，e2?）。?知識圖?（KG）表示繪制圖的三元組的集合：頂點是實體并且邊是關系。?以下大多數文章都假定實體被識別和消歧。?實際上，這可以使用FACTORIE或斯坦福NER解析器等工具來實現。

知識圖完成：鏈接預測

盡管在Heuritech，我們更感興趣的是從原始文本中提取知識，但我們首先快速回顧一下僅依賴KG的技術（不提供額外的文本語料庫）。?我們要執行的任務是填寫一個不完整的KG。?在2013年之前，鏈接充滿了圖論理論技術，忽略了我們的圖是KG的事實。

Bordes等人翻譯用于建模多關系數據的嵌入?。?在2013年是KG完成專用方法的第一次嘗試。?它學習實體和關系在同一個低維向量空間中的嵌入。?目標函數是這樣的，它約束實體e2接近e1?+?r?。?這個做完了給現有的三元組賦予更高的分數，而不是使用負抽樣獲得的隨機三元組。?上述模型被稱為TransE?，這項工作與Mikolov的工作有關，其中概念之間的關系在嵌入空間中自然采用翻譯形式，如圖所示。

然后增加了一些改進，讓TransH和TransR模型成為例子。?最先進的技術由通過深度學習：神經關聯模型進行概率推理?。

從原始文本中提取三元組

我們專注于從原始文本中提取三元組（?e1，r，e2?）。?根據所使用的監督類型，這項任務有幾種不同的形式。

三元組提取可以以純粹無監督的方式完成?。?通常首先用幾個工具（如TreeBank解析器，MiniPar或OpenNLP解析器）分析文本，然后對實體之間的文本（以及解析器中的注釋）進行聚類并最終簡化。?盡管第一眼看起來很有吸引力，因為不需要監督，但有一些缺點。?首先，它需要很多繁瑣的工作來手工制定依賴于所使用的解析器的規則。?而且，所發現的集群包含語義上相關的關系，但它們不會給我們帶來細粒度的影響。?通常，集群可能包含?is-capital-of?和?is-city-of?，它們是語義上的封閉關系。?然而，通過無監督的方法，我們將不會發現?is-capital-of?意味著關系?is-city-of?而不是相反。

我們將更多地關注其他類型的監督：?監督學習?，?遠程監督和普遍模式?。?我們首先給出一些定義。?固定模式關系提取意味著要找到的關系處于可能關系的固定列表中。?相反，在開放域關系抽取中，關系不受約束。?在這種情況下，如果不是完全合適的話，就沒有固定模式會限制知識提取。?然而，在用開放域關系構建的圖中推廣和推斷新關系要困難得多，因為與各種風格有很多關系。?OpenIE?（開放信息抽取）是一種對實體間原始文本進行過濾和規范化以獲得開放域關系的工具。

基于模式的監督式學習

在這種情況下，可用數據是一個句子集合，每個句子用從中提取的三元組進行注釋。?這意味著原始文本與文本的KG一致。?最近兩篇論文（均發表于2016年）為這一問題提供了尖端的解決方案。

在序列和樹結構上使用LSTM進行端到端關系抽取?Miwa和Bansal的文章展示了一種使用兩個堆疊網絡的方法：用于實體檢測的雙向LSTM?（它創建實體的嵌入）和基于樹的LSTM用于檢測鏈接找到的實體的關系。?原始紙張的下圖顯示了使用的架構。

他們的方法在原始文本上使用POS標記?，該原始文本提供了與雙字原始文本一起饋入雙向LSTM的附加信息。?這種方法的優勢在于端到端，因為模型共同學習檢測實體和關系。架構非常沉重，作者使用許多技巧來進行培訓（如時間表采樣和實體預培訓?）。?這些技巧顯著提高了訓練模型的性能。?此方法優于ACE04和ACE05數據集上的關系抽取任務以及SemEval-2010任務8開發集的關系分類方面的最新技術結果。?超過80％的實體和60％的關系可以被發現。

語言到邏輯形式的神經注意由董和拉帕塔描述了序列到序列模型。?它將原始語句作為輸入（不需要POS標記）并輸出所需的信息。?在我們的例子中，所需的信息是三元組（?e1?，?r?，?e2?），但原始紙張的模型不限于這種特殊情況。?該模型是編碼器 - 解碼器架構。?更確切地說，LSTM單元分布在兩個堆疊層中，并且使用了關注機制（?有關注意機制的更多細節，請參閱我們的其他博客文章?）。?關注機制可以學習自然語言表達式和固定模式關系之間的軟對齊。?在后處理步驟中處理罕見的單詞和數字：在訓練過程中，他們在罕見單詞標記或數字標記以及唯一標識中被屏蔽。?推斷時，令牌+ ID由單詞或數字的真實值代替。?這個技巧恰巧可以避免有太大的字典。?實驗結果達到了最新的結果，有時甚至超過它們。?請注意，這些實驗并不是專門針對三元組提取的，因此我們無法將此方法與Miwa和Bansal的模型進行比較。

關系抽取的監督式學習與端到端方法很好地結合（在第二篇文章的情況下，他們甚至不需要POS標記）。?然而，這種學習受限于標簽數據的數量，而網絡上的原始文本幾乎是無限的。

基于模式的遠程監督

遠程監督也稱為弱監督?，即我們希望從文本中提取關系，并且初始KG可用作三重提取任務的種子。?我們認為，一對實體由連接兩個實體中的兩個KG的每個關系弱監督?。?當然，這種監督是非常嘈雜的，例如，“巴拉克奧巴馬比米歇爾奧巴馬大3歲”這句話將被（巴拉克奧巴馬，結婚，米歇爾奧巴馬）與KG（和米歇爾奧巴馬結婚）所有其他情況都將奧巴馬與他的妻子聯系在一起），但這兩種關系明顯不同。?如果我們有很多文本和一個足夠大的KG（與文本中的實體具有相同的實體），我們可以學習從KG的原始文本到固定模式關系的映射。

將語言和知識庫與用于關系提取的嵌入模型連接起來?，Weston，Bordes等人。?（2013年）是一個遠程監督模式。?它假定實體被發現并消除歧義，實體之間的文本使用OpenIE工具以開放域關系轉換。?實體和關系的嵌入是在同一個低維空間中創建的。?openIE文本到固定模式的最可能關系的映射是通過對openIE文本的嵌入和固定模式的關系的相似性度量來計算的。?該系統受到排名損失的培訓（如此處所述）。?給定一個openIE關系，這個想法是給一對弱標簽配對分配一個較高的分數，而不是一個帶有隨機關系的KB（負向采樣）。?文章更進一步：一旦從文本中提取三元組，模型就會學習實體和關系的嵌入。在該嵌入中，我們希望關系r對應于從e1到e2的翻譯。?這種嵌入不僅可以使用找到的三元組創建，也可以與原始KG的所有可用三元組一起創建。

在上面介紹的所有例子中，所發現的關系都在最初提出的固定模式中。?然而，正如前面提到的那樣，不存在固定模式，它完全適合文本在兩個實體之間可能表達的所有可能的關系。

通用模式

通用模式通過嵌入種子KG（固定模式關系）和包含在語料庫中的開放域關系的關系來構建KG。?通用模式的一大優點是它不需要遠程監督。?通過學習嵌入來為實體和關系構建語義空間。?固定模式關系的嵌入對于開放域關系是相同的：關于這兩種關系的推論成為可能，并且可以改進KG完成。

第一篇介紹通用模式的文章是Riedel等人的關系抽取與矩陣分解和通用模式?。?在本文中，Open-domain關系是使用OpenIE工具計算的。?然后創建一個二進制矩陣，其中行對應于實體和列的對，以連接固定模式關系和開放域關系;?矩陣中的1表示實體之間是否存在關系。?我們希望預測矩陣中的缺失值，并產生一個置信度值（介于0和1之間），如原始論文中的圖片所示。?對矩陣的考慮使關系提取的問題接近另一個領域：協作過濾。然后可以使用協作過濾的方法來推斷新的關系。

可以考慮幾種嵌入方法的參數化：潛在特征模型，鄰域模型和實體模型，甚至是它們的組合。?對于訓練，使用貝葉斯個人排名（BPR）?;?它是一種排名程序，它使觀察到的事實得分高于隨機事實（通過負面抽樣獲得）。

上述方法的一個問題是，每個openIE文本都嵌入到不同的向量中，因此不可能推廣到訓練集中缺少的新的openIE文本。

通用模式與深度學習

Toutanova等人為文本和知識庫的聯合嵌入表示文本?。?（2015）通過在具有卷積神經網絡（ConvNet）的實體之間嵌入文本來解決推廣到新的開放領域關系的問題。?而不是使用openIE工具?正如在上面介紹的文章中那樣，ConvNet被用來參數化兩個實體之間的文本（在單詞級別）。語法依賴分析被用作額外的輸入。?在這里的圖片中，黃色矢量是開放域關系的嵌入。?請注意，嵌入相似的開放域關系也可以避免協同過濾中的冷啟動問題。

Verga等人使用Compositional Universal Schema的多語言關系提取?（2016年）使用同一種架構。?他們嘗試了ConvNet和LSTM遞歸神經網絡，結果發現LSTM網絡勝過ConvNet。?他們的模型與Toutanova之間還有兩點不同之處。?第一個原因是開放域關系的編碼器網絡被用于推理時，當我們想對文本進行概括而不重新訓練模型時。?其次，Verga et al。?不要在原始文本中使用語法依賴分析信息。?Verga等人?更進一步，因為他們的模型與多語言數據一起工作。?重要的是，他們的方法執行多語言轉移學習，通過在文本語料庫中學習共享實體的相同表示，為在KG中沒有實體的語言提供預測模型。?下圖給出了要填充的矩陣和參數化模型的概述。?請注意，不同的編碼器（帶有捆綁重量）用于不同的語言。?有趣的是，聯合學習英語和西班牙語模型提高了英語模式的分數。

文章還強調，通過對實體之間的原始文本進行過濾和規范化所獲得的開放領域關系對于習慣表達式也具有優勢，例如當文本片段的含義不是它所包含的單詞的組合時。?在這種情況下，我們不想將慣用表達式提供給LSTM網絡，但更好地了解它的獨特嵌入。?在實踐中，文章表明，由于充分利用了互補方法，所以嵌入參數化（LSTM在詞匯和獨特嵌入）詞匯的集合非常好。

結論

我們在這里回顧了各種技術來推斷知識圖中的新關系并從文檔中提取關系。?我們專注于最近的技術，這些技術依賴于關系和實體的嵌入，深度學習，協作過濾......對于我們來說，進一步的工作是考慮并不總是提供絕對和時間不變的知識的文本。?例如在社交媒體中，當人們表達自己的意見時，事實可能會因人而異，導致知識庫中的矛盾。?此外，在Heuritech，我們對多模態數據感興趣，所以我們希望能夠從圖像中提取相關信息，并將其與文本中的信息放在同一個KG中。

總結

以上是生活随笔為你收集整理的【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【译】Build Knowledge G
下一篇：【译】zkSNARKs in a nut