當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ESWA | 知识图谱的自动扩充方法

發布時間：2024/7/5 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ESWA | 知识图谱的自动扩充方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士。

來源：ESWA141(2020)

鏈接：https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

為了使計算機理解人類語言，并且實現推理，人類知識需要被表示并儲存為能夠被計算機處理的形式。知識圖譜（KG）被設計為一種反應詞及詞間關系的結構形式。但是目前的知識圖譜存在兩個限制因素：其一是對于大部分人類語言來說，圖譜的規模和范圍存在局限性；其二則是新詞跟進。為了解決這些問題，本文提出PolarisX，一種通過實時抓取分析網絡新聞和社交媒體實現自動擴展的知識圖譜，利用微調的BERT模型構建無語言依賴性的知識圖譜。基于BERT的關系抽取模型被用來抽取新的關系，并將它們添加到知識圖譜中。作者驗證了PolarisX的novelty與準確性，確認其新詞處理能力以及“無語言依賴性”。

動機與貢獻

如上文所屬，現有KG存在（大多數語言上的）規模不足，無法跟進新詞等兩個局限性。

如表1所示，這里的新詞分為兩種：1.新詞新意；2.舊詞新意。

對于這兩個問題，作者認為解決的關鍵在于KG的構建需要跟上新詞出現的節奏（考慮到新詞出現的頻率以及開放域等特點，顯然依賴人工跟進解決不了這個問題），一種合理的方式是爬取社交媒體獲取新詞，而后抽取新的知識（尤其是關系），并添加到知識圖譜中。

因此，本文提出了一種自動成長的知識圖譜PolarisX（大數據處理平臺Polaris的一個部分），通過爬取新聞網站以及社交媒體，抽取新的關系，生成對應的知識子圖，然后添加到知識圖譜中，并采用ConceptNet驗證了它的有效性。

作者認為本文的主要貢獻為：

1.處理新詞：PolarisX能夠利用已有數據生成KG并通過新聞和社交媒體實時跟進新詞的涵蓋

2.無語言依賴性：使用multilingual BERT模型通用的處理各種語言

模型與算法

下圖是PolarisX的自動構建框架，主要包含三個部分：

1.Social Crawler用于擴充知識資源（社交媒體/新聞），并做關鍵詞抽取

2.Semantic Analyzer的主要作用是確定新的關系

3.Knowledge Miner負責構建和擴充知識圖譜

Social Crawler：

這里主要實時爬取Twitter和新聞數據，這些數據被作為擴充KG的原始資源，推特數據利用Apache AsterixDB系統的 Feed Adapter function實現實時收集，新聞數據則來自NewsAPI（https://newsapi.org/.），對于獲取的資源使用LDA（Latent Dirichlet Allocation）抽取其中的關鍵詞。

Semantic analyzer：

新關系（主要指關鍵詞之間的關系）的抽取是通過BERT模型實現的（作者在這里使用的是BERT-base，Multilingual Cased預訓練模型，支持104種語言），微調使用TACRED數據集實現。

Knowledge Miner

如下圖，knowledge miner利用字符串匹配將新發現的關系鏈接到現有知識圖譜上

實驗與結果

為了驗證自動擴充KG方法的效果，作者提出了四個實驗方式：

1.驗證處理新詞的能力

使用ConceptNet 5.5（英語/韓語）以及使用PolarisX擴充的ConceptNet 5.5對比其中一詞“Sonata”（一般視作一個音樂術語，在韓國則還有相同名字的汽車品牌）

從效果上看，使用PolarisX擴充的ConceptNet涵蓋了許多Sonata汽車的信息，下表展示了ConceptNet及ConceptNet+PolarisX兩者的一個對比：

2.知識圖譜擴充

與DBpedia，YAGO等現有KG的對比來看，ConceptNet+PolarisX具有更多的邊，作者認為這粗略的表明具有更加豐富的知識（A higher total number of edges roughly means a richer knowledge base）

3.語義解析準確率

作者驗證BERT-based關系抽取模型的效果如下表所示：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - ESWA | 知识图谱的自动扩充方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记 | Counterfactua
下一篇：论文浅尝 | LightRNN：存储和计