日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 提取计数量词丰富知识库

發(fā)布時間:2024/7/5 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 提取计数量词丰富知识库 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

OpenKG 祝各位讀者新年快樂!


論文標(biāo)題:Enriching Knowledge Bases with Counting Quantifiers

論文鏈接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-00671-6_11.pdf

發(fā)表會議:ISWC 2018

論文源碼:https://github.com/paramitamirza/CINEX


摘要

??? 信息抽取通常關(guān)注于抽取可辨識實體之間的關(guān)系,例如 <Monterey, locatedIn,California>。但是,除了說明具體實體之間的關(guān)系,文本中也經(jīng)常含有計數(shù)信息,表明與某個實體有特定關(guān)系的對象的數(shù)量,而未提及具體對象本身,例如“California is divided into 58counties”。這種計數(shù)量詞可用于諸如查詢應(yīng)答,知識庫管理等任務(wù),但被先前的工作忽略了。本文開發(fā)了第一個完整的從文本中提取計數(shù)信息的系統(tǒng) CINEX,將知識庫中的事實計數(shù)作為訓(xùn)練種子,采用遠程監(jiān)督的方法抽取文本中的計數(shù)信息。實驗表明,在人工評估的 5 個關(guān)系上,CINEX 的平均抽取精度達到了 60%。在大規(guī)模實驗上,對于 Wikidata 110 種不同關(guān)系,CINEX 能夠斷言 250 萬事實的存在,比這些關(guān)系現(xiàn)有的 Wikidata 事實多 28%。


概念

????? 本文用SPO形式的計數(shù)語句(Counting Statement)來描述知識庫中的計數(shù)信息,主要關(guān)注對于一個給定的SP對,參數(shù)O的數(shù)量。計數(shù)語句的形式化表示為:,其中,S subjectPpredicaten 是一個自然數(shù)(包括 0)。例如,語句 “President Garfield has 7 children” 將表示成<Garfield, hasChild,?7>。在OWL描述邏輯中,上述語句的形式化描述如下:

方法

??????? CINEX的目標(biāo)是解決文本中計數(shù)量詞的抽取問題,問題定義如下:

CINEX 將知識庫中已有的事實計數(shù)作為種子,采用遠程監(jiān)督的方法抽取文本中的技術(shù)信息。遠程監(jiān)督作為知識庫信息抽取的主要方法,也是解決本文問題的一種相當(dāng)自然的方法。不過,用遠程監(jiān)督解決計數(shù)信息抽取,需要解決以下幾點挑戰(zhàn):

  • 種子質(zhì)量:與通常意義下的 SPO 事實抽取不同,本場景下知識庫的不完備不僅會導(dǎo)致訓(xùn)練種子數(shù)量的減少,還會導(dǎo)致系統(tǒng)地低估實際事實的數(shù)量。例如:知識庫只知道特朗普的 3 個孩子,而實際上特朗普有5個,這會導(dǎo)致系統(tǒng)獎勵“owns three golf resorts”這樣的模式,而懲罰“his five children”。

  • 數(shù)據(jù)的稀疏性:對于很多關(guān)系,文本表達計數(shù)信息的方式相當(dāng)稀疏且高度傾斜。例如,一般人的children很少被提及;對于音樂家來說,贏得的第一個格萊美獎通常比之后的獲獎更多被提及,因此對“他/她的第一個獎項”的模式會被給予過度的重視。還有,音樂樂隊的成員數(shù)量通常約為 4,這使得很難學(xué)習(xí)到樂隊成員數(shù)量非常大或非常小的模式。

  • 語言多樣性:計數(shù)信息可以用各種語言形式表達,如冠詞(“has a child”),基數(shù)詞(“has five children”),序數(shù)詞(“her third husband”),表數(shù)量的名詞短語(‘twins’,‘quartet’),表存在與否的副詞(‘never’,‘without’)。

  • CINEX針對上述挑戰(zhàn)給出了對應(yīng)的解決方法:對于挑戰(zhàn) 1CINEX 通過將數(shù)量的匹配條件放寬到比知識庫事實計數(shù)更高的值,同時將訓(xùn)練種子限制于知識庫中信息更完備的流行實體來處理。對于挑戰(zhàn) 2CINEX 使用信息熵來度量 numbers,過濾掉不提供信息的 numbers。對于挑戰(zhàn)3CINEX 通過仔細(xì)整合中間結(jié)果來處理。Fig.2 給出了 CINEX 系統(tǒng)的框架,系統(tǒng)將整體任務(wù)分為兩個階段:

    1)計數(shù)量詞的識別

    CINEX將其建模為序列標(biāo)注問題,對每一個句子操作并且針對每一個謂詞P單獨學(xué)習(xí)。首先通過檢測文本中指示計數(shù)信息的術(shù)語(基數(shù),序數(shù)和數(shù)值項等)預(yù)處理輸入的句子,再用CRF++模型以及bidirectional LSTM-CRF模型為每個感興趣的謂詞P學(xué)習(xí)一個序列標(biāo)注模型,用于計數(shù)量詞的識別。

    2)計數(shù)量詞的合并

    將第一階段識別出的多個表示計數(shù)或者組合信息的中間結(jié)果,合并為對象數(shù)量的單個預(yù)測。整合算法如下:

  • 對需要組合的計數(shù)信息求和,可信度得分設(shè)為被組合信息中最高的值。

  • 選擇每一種計數(shù)信息的預(yù)測結(jié)果。對于基數(shù)詞和數(shù)值項,選擇高于設(shè)定閾值的計數(shù)信息中可信度得分最高的;對于序數(shù)詞,不論可信度得分如何,總是選擇可信度得分最高的。

  • 根據(jù)計數(shù)信息類型排序,根據(jù)如下順序選擇最終結(jié)果。

  • 實例

    1)計數(shù)量詞的識別

    給定句子“Jolie brought her twins , one daughter and three adoptedchildren to the gala”,計數(shù)量詞識別階段預(yù)處理以及序列標(biāo)注的結(jié)果如下:

    2)計數(shù)量詞的合并

    給定SP<AngelinaJolie, hasChild>,計數(shù)量詞的識別結(jié)果如下:

    整合算法第1步會合并句子中的計數(shù)信息0.30.5,將其相加得到0.5,句子中的計數(shù)信息0.10.2將相加得到0.2。第20.5被選為可信度得分最高的基數(shù)詞,0.8被選為可信度得分最高的數(shù)值項,0.5被選為排序最高的序數(shù)詞。第3步,根據(jù)排序偏好以及設(shè)置的可信度閾值,基數(shù)詞0.50.8將被作為最終預(yù)測結(jié)果。


    實驗

    1)數(shù)據(jù)集:Wikidata(知識庫),Wikipedia(文本)

    (2)實驗結(jié)果

    Table 2. 可知,計數(shù)量詞的識別基于特征的CRF模型效果最好,神經(jīng)網(wǎng)絡(luò)模型容易過擬合。同時,CINEX-CRF也是在整合和端到端任務(wù)中識別計數(shù)信息性能最佳的系統(tǒng)。

    對于各種類型的計數(shù)術(shù)語,由Table 4. 的實驗結(jié)果可知,考慮數(shù)值項和冠詞有利于改善覆蓋率,考慮組合計數(shù)信息以及除基數(shù)詞之外的其它類型術(shù)語,有利于提高準(zhǔn)確性和覆蓋率。

    對于Wikidata110種關(guān)系,CINEX抽取了851K計數(shù)量詞事實,斷言了250萬事實的存在,比這些關(guān)系現(xiàn)有的Wikidata事實多了28.3%。

    ?

    論文筆記整理:曹二梅,南京大學(xué)碩士生,研究方向為知識圖譜、知識融合。



    OpenKG.CN


    中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

    點擊閱讀原文,進入 OpenKG 博客。

    總結(jié)

    以上是生活随笔為你收集整理的论文浅尝 | 提取计数量词丰富知识库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。