日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识图谱 Embedding 的问答

發布時間:2024/7/5 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于知识图谱 Embedding 的问答 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識圖譜問答。


來源:WSDM 2019

鏈接:https://dl.acm.org/citation.cfm?doid=3289600.3290956

?

目前知識圖譜問答(本文簡寫為QA-KG,question answering over knowledge graph)存在的一個主要問題在于圖譜與自然語言之間的gap,具體表現為:命名實體再自然語言問句中的模糊描述及不完整描述,謂詞具有多種自然語言表述形式等,從而使得圖譜中搜索的候選答案規模較大,影響問答系統的性能。為了解決該問題,本文作者提出了一種基于知識圖譜Embedding的問答框架(KEQA),該框架關注了大部分常見的問題類型,以簡單問題為例(該問題的答案可由一個頭實體及一個謂詞定義得到),不同于直接從頭實體和謂詞進行推理的過程,該方法的目標是在圖譜Embedding空間中聯合得找到問題的頭實體,謂詞及尾實體。基于一個精心設計的聯合距離評價方法,圖譜中與上述三個向量最接近的fact作為問題的答案返回。

?

貢獻

作者認為本文主要研究貢獻如下:

  • 正式的定義了基于問答的知識圖譜embedding問題

  • 建立了一個有效的KEQA框架,通過從圖譜embedding空間聯合地找到頭實體,謂詞和尾實體,實現自然語言問題的回答

  • 設計了一個聯合距離評價方法,該方法在embedding表示中保留了圖譜的結構和關系信息

  • 在SimpleQuestion上進行的測試取得了非常優質的性能表現

  • ?

    方法

    KEQA的框架的整體思路如圖1所示:

    圖譜被embedding到兩個低維空間中(實體空間和謂詞空間),每個事實(即圖譜中的三元組)可由三個潛在的向量表示(即兩個實體向量和一個謂詞向量)。對于一個給定的問題,模型首先預測它所對應事實的頭實體和謂詞,接下來就可以準確給出該問題的答案。

    因此,上述框架的過程可以描述為三步:

  • 基于問題庫及其問題對應的謂詞embedding表示,學習一個謂詞學習模型,以問題為輸入,輸出其對應的謂詞向量表示(對應到圖譜的Embedding空間中)

  • 考慮到圖譜中的實體規模較大,KEQA提供了一個頭實體識別模型,用于減少候選頭實體的數量。主要的目標是找到問題中的一個/多個token預測頭實體命名,從而通過找到相同或相似的命名減少候選規模。

  • 給定一個relation函數(由KG embedding算法定義),KEQA利用頭實體和謂詞的表示預測計算尾實體,構成事實三元組,而后將圖譜中與之最近的事實輸出為問題的答案

  • ?

    圖譜 embedding 方法

    本文使用現有的圖譜 embedding 算法 TransE 學習 entity embedding 及 predicatee mbedding,

    ?

    頭實體/謂詞學習模型

    圖2描述了謂詞和頭實體的學習模型,可以看到,經過word embedding之后,問題中的token以向量的形式輸入到雙向LSTM中,而后將兩個方向LSTM的輸出直接拼接合并,通過一個Attention層對原始詞向量,變換之后的文本向量等進行加權,而后用于預測對應到圖譜實體/謂詞embedding的向量表示。

    ?

    頭實體識別模型

    圖3描述了本文提出的頭實體識別模型,本模型的目標是從問題中選出一個或多個tokens作為頭實體的命名,從而減少獲取頭實體的搜索空間。網絡構成不再贅述,相對謂詞學習模型減少了attention層,模型的訓練數據由問題及其頭實體構成,輸出結果表示當前word是否是頭實體。

    Embedding 空間的聯合搜索

    對于每個新的樣本問題,模型已經預測它的謂詞和頭實體表示,接下來的目標是從圖譜中找到與之最為匹配的事實。

    作者提出了一種聯合距離評價機制用于完成上述匹配,其定義如公式9所示:

    C表示候選事實集合,函數n(·)返回實體命名或者謂詞,HED表示token是否是頭實體(由Detection模型給定),sim[·,·]表示衡量兩個字符串的相似性,β表示平衡權值,用以調整函數各部分的貢獻程度。

    ?

    整合上述模塊,得到KEQA框架的整體算法如下:

    ?

    實驗部分

    數據集

    本文實驗使用的數據集及統計信息如表2所示:

    主要包含FB2M/FB5M知識庫,問答語料來自SimpleQuestion

    ?

    實驗結果

    相關實驗模型參數在論文中均有明確說明,這里不再贅述,表三給出了模型的實驗結果如下:

    ?


    ?

    OpenKG

    開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

    點擊閱讀原文,進入 OpenKG 博客。

    總結

    以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱 Embedding 的问答的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。