日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 | 用于链接预测的开放知识图谱嵌入

發(fā)布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2020 | 用于链接预测的开放知识图谱嵌入 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|舒意恒

學(xué)校|南京大學(xué)碩士生

研究方向|知識圖譜

當(dāng)前大量的知識圖譜都是通過文本直接構(gòu)建的。由于當(dāng)前的知識圖譜構(gòu)建方法的局限性,其中難免包含對同一實體或關(guān)系的多種表述。

知識圖譜嵌入模型的發(fā)展,長期關(guān)注于如何設(shè)計更好的評分函數(shù)、如何反映知識圖譜的內(nèi)在結(jié)構(gòu),但非常少的研究關(guān)注于知識圖譜的實體和關(guān)系本身具有多種描述形式。本文提出的嵌入方法和基準(zhǔn)測試,針對當(dāng)前知識圖譜構(gòu)建的特點,提供了值得關(guān)注的見解。


論文標(biāo)題:Can We Predict New Facts with Open Knowledge Graph Embeddings: A Benchmark for Open Link Prediction

論文來源:ACL 2020

論文鏈接:https://www.aclweb.org/anthology/2020.acl-main.209/

介紹

知識圖譜是三元組的集合,其中,主語或賓語以結(jié)點表示,關(guān)系以帶標(biāo)簽的邊表示。當(dāng)前知識圖譜的構(gòu)建通常需要豐富的文本鏈接和信息框,但它們并不是在每個領(lǐng)域都可用。因此,作者想要探索通過原始文本而沒有中間步驟構(gòu)建起來的知識圖譜上,是否能夠做鏈接預(yù)測,例如藥物發(fā)現(xiàn)等領(lǐng)域。

開放信息提取系統(tǒng)自動地從非結(jié)構(gòu)化數(shù)據(jù)中提取三元組,例如文本是一種非結(jié)構(gòu)化數(shù)據(jù)。作者將這樣提取出的數(shù)據(jù)稱為開放知識圖譜。作者嘗試探索在沒有規(guī)范和監(jiān)督的情況下,如何在開放知識圖譜上推理出潛在的事實知識。

鏈接預(yù)測是知識圖譜上需要推理的一個常見任務(wù)。它的目標(biāo)是預(yù)測知識圖譜上缺失的事實。而當(dāng)前知識圖譜嵌入模型已成功用于預(yù)測知識圖譜中的缺失事實。

開放知識圖譜

開放知識圖譜可以完全自動地被構(gòu)建。它們不需要實體和關(guān)系的詞典,因此他們能夠捕捉更多信息。例如,不同的實體描述在不同的時間段指的是不同的實體版本。類似地,關(guān)系的描述也可能是多變的。

相比于一般的知識圖譜,開放知識圖譜包含豐富的概念知識。開放知識圖譜可能包含更多的噪聲,并且事實知識可能更加不確定。

如圖,一般的知識圖譜(curated KGs)對比開放知識圖譜(open KGs)。

開放鏈接預(yù)測

在開放鏈接預(yù)測中,模型對一個有序的陳述進行預(yù)測。但是問題可能有多個等價的正確答案,即多個答案可能指代的是同一個實體,但有不同的表述。作者將其評估準(zhǔn)則稱為指代排序準(zhǔn)則(mention-ranking protocol)。

作者的評估準(zhǔn)則基于正確答案描述的最高排名。在過濾的設(shè)置上,除了被評價的實體外,已知答案實體的多種表述都將從排名中被過濾。該準(zhǔn)則使用評價三元組實體的不同表述的知識來獲得合適的排名,消除一個實體多種表述對排序的影響。

因此,該準(zhǔn)則需要(1)待評價三元組的頭實體和尾實體的注解,以及(2)這些實體的全面的表述集合。

構(gòu)建開放鏈接預(yù)測的基準(zhǔn)測試

4.1 數(shù)據(jù)源

作者將其提出的基準(zhǔn)測試,稱為 OLPBENCH,它基于 OPIEC [1] 構(gòu)建,后者是一個最近發(fā)布的數(shù)據(jù)集,它從英文維基百科的文本構(gòu)建得到。

4.2 評估數(shù)據(jù)

數(shù)據(jù)質(zhì)量 從數(shù)據(jù)集中,作者構(gòu)建了滿足以下要求的驗證集和測試集。評估數(shù)據(jù)中的噪聲應(yīng)該盡量的被限制,作者選擇了一種簡單有效的準(zhǔn)則。在采樣評估數(shù)據(jù)中的候選項中,不考慮 token 數(shù)量小于 3 的非常短的關(guān)系。作者給出了三個理由:

  • 短關(guān)系通常歸屬于長關(guān)系。

  • 長關(guān)系更少地被簡單的應(yīng)用于知識圖譜構(gòu)建方法的模式所捕捉。

  • 自動提取的實體注解,對于短關(guān)系來說略顯嘈雜。

數(shù)據(jù)構(gòu)建中的人為干預(yù) 為了保證數(shù)據(jù)的質(zhì)量,作者認為,對于規(guī)模較小的驗證數(shù)據(jù),人類經(jīng)驗的干預(yù)是必要的。因此,作者將驗證數(shù)據(jù)分為三類。

  • VALID-ALL:沒有人類的工作

  • VALID-MENTION:其中有部分人類的工作。

  • VALID-LINKED:大多數(shù)是人類的工作。

如圖是 OLPBENCH 中鏈接數(shù)據(jù)與非鏈接數(shù)據(jù)的樣例。

4.3 訓(xùn)練數(shù)據(jù)

為了評估知識圖譜上的鏈接預(yù)測模型,評估事實通常通過對知識圖譜的三元組進行采樣生成。最簡單的避免訓(xùn)練數(shù)據(jù)泄露到測試數(shù)據(jù)中的方法是直接刪除評估三元組的訓(xùn)練數(shù)據(jù)。

但這種簡單的方法可能并不能完全避免泄露,訓(xùn)練三元組仍然可能直接被推斷到。例如,評估三元組 (a, siblingOf, b) 可以輕松地被訓(xùn)練三元組 (b, siblingOf, a) 回答到。

在開放知識圖譜中,關(guān)系的轉(zhuǎn)述導(dǎo)致了另外一種泄漏。例如,關(guān)系 “is in” 和 “l(fā)ocated in” 可能包含許多相同的實體對。

作者使用了三個級別的泄漏移除方法,稱為 SIMPLE、BASIC 和 THOROUGH,即簡單的、基本的和徹底的泄漏移除。例如,訓(xùn)練數(shù)據(jù)中存在三元組 (i, k, j) 的情況:

  • 簡單移除:只有三元組 (i, k, j) 被移除,i 和 j 的其他表述不被移除。

  • 基本移除:三元組 (i, k, j) 和 (j, k, i) 都被移除,i 和 j 的其他表述也都被移除。

  • 徹底移除:在基本移除的基礎(chǔ)上,按以下模式移除評估數(shù)據(jù)中的三元組:

    • (i, *, j) 和 (j, * i),即刪掉兩實體間任何方向的任何形式的關(guān)系,例如,三元組 (“J. Smith”, “is player of”, “Liverpool”).

    • (i, k + j,?) 和 (?, k + i, j),例如,三元組,(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).

    • (i + k + j, ?, ?) 和 (?, ?, i + k + j),例如,三元組 (“Liverpool defender J. Smith”, “kicked”, “the ball”).

這三種移除方式將生成三個不同的訓(xùn)練集。

開放知識圖譜嵌入

知識圖譜嵌入模型已經(jīng)成功地應(yīng)用于知識圖譜的鏈接預(yù)測,而作者將它擴展到開放知識圖譜的鏈接預(yù)測當(dāng)中。

知識圖譜嵌入模型 知識圖譜嵌入模型將每個實體和關(guān)系與一個嵌入關(guān)聯(lián)起來,嵌入是以鏈接預(yù)測為目標(biāo)學(xué)習(xí)到的稠密向量表示。這些模型為三元組計算分數(shù),它的目標(biāo)是為正確的三元組學(xué)習(xí)到高分數(shù),為錯誤到三元組學(xué)習(xí)到低分數(shù)。

組合得到的知識圖譜嵌入模型 作者考慮用組合函數(shù)從表面形式的標(biāo)記中創(chuàng)建實體和關(guān)系表征。只要在訓(xùn)練過程中觀察到標(biāo)記,一個讀取表述和開放關(guān)系標(biāo)記的模型原則上可以處理任何表述和開放關(guān)系。

作者使用一個通用的模型架構(gòu),它組合了關(guān)系模型和組合函數(shù)。關(guān)系模型用于對三元組的評分,組合函數(shù)用于對一個實體或關(guān)系的多個 token 的組合。

使用組合的知識圖譜嵌入模型。三元組的 token 首先被分別的嵌入,然后組合為一個表述或關(guān)系嵌入。最后,一個知識圖譜嵌入模型被用于計算三元組的分數(shù)。

實驗

作者使用 ComplEx [2] 作為關(guān)系模型,它是一個高效的雙線性模型(bilinear model)。對于組合函數(shù),作者使用一層 LSTM,hidden size 等于 token embedding 大小。作者將其稱為 ComplEx-LSTM 模型。

對比模型 為了測試出有多少問題不需要通過整個問題的信息直接回答,作者提出兩個對比模型。給定一個問題 (i, k, ?),PREDICT-WITH-REL 通過 (r, ?) 進行評分。例如問題,(“Jamie Carragher”, “is defender of”, ?),我們詢問 (“is defender of”, ?). 而類似地,PREDICT-WITH-ENT 忽略關(guān)系而只計算實體對的分數(shù)。

如圖是測試集上的結(jié)果,同時利用實體和關(guān)系的 ComplEx-LSTM 超越了作為對比的 PRED-WITH-ENT / PRED-WITH-REL。同時,泄露移除的程度越大,鏈接預(yù)測的效果越差,一定程度說明現(xiàn)有方法不能很好地處理開放知識圖譜。人類對數(shù)據(jù)集的干預(yù)同時對模型表現(xiàn)的提升有影響。

如圖是驗證集上的結(jié)果。效果略高于測試集。

結(jié)論

作者提出了開放鏈接預(yù)測任務(wù),以及一種構(gòu)建開放鏈接預(yù)測基準(zhǔn)測試的方法,并構(gòu)建了一個基準(zhǔn)測試 OLPBENCH。作者研究了評估事實的泄露、非關(guān)系信息和實體知識對鏈接預(yù)測任務(wù)的影響,并通過實驗證明其方法預(yù)測出的事實基本是新的事實,而不是知識圖譜中原有的。

參考文獻

[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.

[2] The ?o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ACL 2020 | 用于链接预测的开放知识图谱嵌入的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 丁香婷婷综合网 | 亚洲奶水xxxx哺乳期 | 欧美精品乱码久久久久久按摩 | 日韩精品卡通动漫网站 | 伊是香蕉大人久久 | 国产999在线 | 131美女爱做视频 | 国产免费观看一区 | 爱的色放韩国电影 | 国产日本欧美一区二区 | 风韵多水的老熟妇 | 国产欧美一区在线观看 | 秋霞电影网一区二区 | 综合网亚洲 | 午夜美女视频 | 韩国无码av片在线观看网站 | 欧洲精品视频在线观看 | 二十四小时在线更新观看 | 午夜免费精品 | 五月婷婷六月色 | 福利小视频在线观看 | 一区二区传媒有限公司 | 色网在线看 | 日本中文字幕在线免费观看 | 极品在线视频 | 亚洲一级中文字幕 | 国产精品久久777777毛茸茸 | 国精品一区 | 91亚州 | 绿帽视频 | 污污在线看 | 欧美国产在线视频 | 18岁成年人网站 | www.毛片.com| 爱插视频| 伊人二区 | 成在人线av | 男人把女人捅爽 | 国产精成人品免费观看 | 亚色网站 | 无人在线观看高清视频 单曲 | 日韩福利电影在线 | 老汉av在线 | 黄色avav| 午夜激情一区 | 亚洲精品国产一区二区 | 成人免费视频国产免费 | 亚洲两性视频 | 香蕉视频在线观看网站 | 男人的天堂视频 | 在线国产中文字幕 | 91久久精品夜夜躁日日躁欧美 | 亚洲欧美国产另类 | 国产婷婷在线观看 | 老色批永久免费网站www | 91中文字幕在线视频 | 中文字幕久久久 | 一本色道久久88亚洲精品综合 | 国产福利小视频在线观看 | 中文在线观看免费高清 | 久久福利小视频 | 水多多在线| 国产精品国产三级国产专区52 | 成人毛片一级 | www.夜夜爱 | 男女一区二区三区 | 天天射天天色天天干 | 成人深夜福利 | 国产成人精品电影 | 日韩在线观看免费高清 | 亚洲热影院 | 久久99精品久久久久久水蜜桃 | 亚洲欧美伊人 | 国产福利精品在线观看 | avxx | 免费看黄色片视频 | 成人激情站 | 欧美日韩综合一区二区三区 | 久久精品综合 | 黄色片网站视频 | 涩涩综合 | 精品久久久噜噜噜久久久 | 五月天精品在线 | 97视频在线观看免费高清完整版在线观看 | 精品视频一区在线观看 | 欧美50p | 成人av电影网站 | 久久久黄色大片 | 亚洲欧洲成人精品久久一码二码 | 国产亚洲在线观看 | 欧美激情黑白配 | 欧美日韩毛片 | 中国特级黄色大片 | 日本黄色天堂 | 嫩草影院国产 | youjizz欧美| 欧美日韩精品三区 | 久久久久免费视频 | 免费观看黄一级视频 |