论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法
來源:ISWC 2017
鏈接:https://link.springer.com/content/pdf/10.1007%2F978-3-319-68288-4.pdf
?
本文主要關注基于RDF數據的多語言問答任務中,對不同語言問句的語義分析工作。作者提出一種基于DUDES(Dependency-based Underspecified Discourse Representation Structures)的因子圖推理方法,對多語言問句中的詞進行角色定義和識別,并根據獲取到的語義解析結果,規則生成問題的SPARQL。文中表示,使用因子圖進行推理對語言類型的敏感程度較低,是一種有效的多語言語義解析方法。模型的性能評測基于QALD-6發布的英語,德語以及西班牙語數據。
動機
多語言問答是 QALD 提出的一個問答子任務,目標是將給定的多語言問題映射到知識庫中或是得到對應的SPARQL。
?
例如:問句“Who createdWikipedia?” 目標生成的SPARQL為
SELECT DISTINCT ?uri WHERE { dbr:Wikipedia dbo:author ?uri .}
?
多語言問答的一個主要難點在于“語義鴻溝”,當問題語言與知識庫語言不相同的時候,就無法直接生成有效的映射。雖然機器翻譯模型可以實現語言之間的轉換,但是存在兩個明顯局限:其一,現有的雙語或者多語言平行問答語料數量不足以訓練出高質量的機器翻譯模型;其二,基于QALD定義的跨語言問答任務,語言的轉換完全取決于對問題句子的轉換,然而問句中可能包含部分噪聲信息,影響翻譯的效果。
為了解決語義鴻溝,作者提出了AMUSE——一個基于因子圖推理的跨語言解析模型。
方法
AMUSE的方法主要由兩步推理構成:
1.????L2KB
這一步以實體鏈接為目標,將問題中的局部與知識庫相關聯
2.????QC
利用 L2KB 的鏈接結果,以及問題中的主要關鍵詞的詞類/詞性等因素,構建問句的邏輯表達形式(SPARQL)
關鍵技術:DUDES(Dependency-based Underspecified Discourse Representation Structures),一種用于指定意義表示及構成的結構化方式。
模型流程如圖 2 所示,這里為了方便讀者閱讀,作者以英語問題為例子來表現推理過程,使用其他語言的過程也是一樣。
描述如下:
1.????輸入問句為“Who created Wikipedia”,首先得到對應的依存解析樹
2. 對問句中的詞進行 L2KB 推理過程,找到 Wikipedia 鏈接到的知識庫中實體:Wikipedia,以及 created 鏈接到知識庫中的屬性:author,細節如圖3,此時的結果構成的部分SPARQL成分為:
3. ?? 進入 QC 推理過程,根據問句中各詞的詞性,及依存關系,給出問句中疑問詞的推理標簽,此時完成 SPARQL 構成如:
SELECT DISTINCT ?y WHERE { dbr:Wikipedia dbo:author ?y .}
對于問題語言與知識庫不相同的案例,作者提出的處理方式是利用多語言詞典 Dict.cc 的詞級別翻譯配合 word embedding 檢索找到知識庫中可能的目標實體。
?
實驗
文章表示,由于本工作是首個多語言語義解析器,為了測試模型性能,作者構建了多種詞典+word embedding 的組合,分別在英,德,西班牙語上進行 Linking 與 QA 的兩組實驗,評價指標為 F1 值,結果如表 1:
總結
文章的主要貢獻在于提出了一個具備語言通用性的語義解析方法,并且在QALD的定義下,提出了一種詞典+embedding相似性檢索的方式應對語義鴻溝(用于應對沒有平行語料訓練翻譯模型的情況)。
?
?
論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識問答,自然語言處理,機器翻譯
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:什么是缓存雪崩?服务器
- 下一篇: 论文浅尝 | Iterative Cro