论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析
來源:NAACL 2018
鏈接:http://aclweb.org/anthology/N18-2047
?
本文關注任務為面向簡單問題的知識庫問答(僅用KB中的一個事實就能回答問題)。作者將任務劃分為實體檢測,實體鏈接,關系預測與證據整合,探究了簡單的強基線。通過基于SIMPLEQUEST IONS數據集上的實驗,作者發現基本的LSTM或者GRU加上一些啟發式方法就能夠在精確度上接近當前最優,并且在沒有使用神經網絡的情況下依然取得相當不錯的性能。這些結果反映出前人工作中,某些基于復雜神經網絡方法表現出不必要的復雜性。
動機
近期的簡單知識庫問答工作中,隨著神經網絡模型復雜性的增加,性能也隨之提升。作者認為這種趨勢可能帶來對網絡結構有效性理解的缺失, Melis等人的研究也佐證了這一點。他們發現,標準的LSTM通過適當的調參,就可以得到堪比最新網絡模型的性能。
從這一觀點出發,作者嘗試去除不必要的復雜結構,直到獲得一個盡可能簡單但是性能優異的模型
方法
實體檢測(Entity Detection)
實體檢測的目標是確認問題相關的實體,可以抽象為序列標注問題,即識別問題中的每個字符是否是實體。考慮到涉及序列處理,采用RNN是相對流行的做法。
在神經網絡策略上,作者以問句的詞嵌入矩陣作為輸入,在雙向LSTM和GRU上進行實驗。(因為是構建baseline,作者并未在網絡模型上添加CRF層)
非神經網絡方法則選用CRF(特征包括:詞位置信息,詞性標注,n-gram等等)
通過實體檢測,可以得到表達實體的一系列關鍵詞(字符)
?
實體鏈接(Entity Linking)
作者將實體鏈接抽象為模糊字符串匹配問題,并未使用神經網絡方法。
對于知識庫中的所有實體,作者預先構造了知識庫實體名稱n-gram的倒排索引,在實體鏈接時,作者生成所有候選實體文本相應的n-gram,并在倒排索引中查找和匹配它們(策略是優先匹配較大粒度的n-gram)。
獲取到可能的實體列表后,采用Levenshtein Distance進行排序篩選。
?
關系預測(Relation Prediction)
關系預測的目標是確定問題所問的關系信息,作者將其抽象為句子分類問題。對于這個子任務,作者在神經網絡方法分別嘗試了RNN與CNN兩種。
RNNs:與實體檢測類似,作者也采用雙向RNN與GRU構建模型,并僅依據隱狀態作為證據進行分類,其他與目標檢測模型一致。
CNNs:這里引用Kim等人(2014)的工作,簡化為單通道,使用2-4寬度做特征映射。
非神經網絡方法則采用了邏輯回歸策略(Logistic Regression),特征方面選擇了兩組,其一是tfidf與bi-gram,其二是詞嵌入與關系詞。
?
證據整合(Evidence Integration)
該任務的目標是從前面生成的m個候選實體與n個關系中選出(m!=n)一個實體-關系組合。
作者首先生成m*n個候選組合,考慮到實體檢測和關系預測是相對獨立的模型,這意味著很多組合意義不大,可以做初步消除。
在組合打分策略上,考慮到知識庫中相同的共享節點,比如所有姓名為“亞當斯密”的人,作者對出現頻率過高的實體進行打分限制。
實驗
對比實驗基于 SIMPLEQUESTIONS數據集,并劃分數據規模:訓練集75.9K,驗證集10.8K,測試集21.7K。
作者進行了實體鏈接,關系預測和end2end問答三組實驗:
從各組實驗的結果可以發現,本文建立的基礎結構模型所得到的baseline在三個任務中,均超過了部分較新的工作。
總結
實驗結果有效驗證了作者的觀點,基本的LSTM或者GRU通過有效的調試,能夠在精確度上接近當前最優,而非神經網絡方法配合新的特征組合也能夠取得相當不錯的性能。
?
論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識庫問答、自然語言處理。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 神经网络与非神经网络简单知识问答方法的强基线分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于SpringBoot2.x、Spri
- 下一篇: 论文浅尝 | 六篇2020年知识图谱预训