日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

發(fā)布時(shí)間:2024/7/5 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理 |?潘曉梅,東南大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜構(gòu)建、自然語(yǔ)言處理。


來(lái)源:EMNLP 2020.

論文下載地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf

項(xiàng)目源碼地址: https://github.com/ccclyu/ComHyper

動(dòng)機(jī)

Taxonomy中包含了結(jié)構(gòu)的良好的詞匯知識(shí)資源,對(duì)各種自然語(yǔ)言處理任務(wù)至關(guān)重要,包括問(wèn)答、文本蘊(yùn)含和文本生成等。當(dāng)從零開(kāi)始自動(dòng)構(gòu)建或填充手工創(chuàng)建taxonomy時(shí),上下位關(guān)系檢測(cè)任務(wù)起著核心作用。對(duì)于一對(duì)查詢?cè)~??,需要推斷??和??之間是否存在上下義關(guān)系。

目前主要有兩種方法,基于模式的方法和基于分布的方法。基于模式的方法有較高的精確度,但由于稀疏性問(wèn)題導(dǎo)致召回率一般,并且目前已有的方法主要致力于解決第一類稀疏性問(wèn)題;而基于分布的方法盡管適用范圍更廣,但整體表現(xiàn)較差,并且不足以填補(bǔ)基于模式方法由于第二類稀疏性問(wèn)題帶來(lái)的數(shù)據(jù)缺失。

為了解決以上問(wèn)題,作者提出了一個(gè)補(bǔ)充框架ComHyper模型——綜合了基于模式與基于分布方法在解決稀疏性問(wèn)題上的優(yōu)勢(shì)。

1概要

1.1證明當(dāng)前基于模式的方法的稀疏性問(wèn)題是不可忽略的;

1.2提出一種基于Hearst和分布式模型互補(bǔ)的框架,使得二者更加充分地發(fā)揮效果;

1.3對(duì)幾個(gè)常見(jiàn)的數(shù)據(jù)集進(jìn)行了系統(tǒng)的比較,驗(yàn)證了框架的優(yōu)越性。

2主要內(nèi)容

2.1提出基于模式的方法的缺陷之一,稀疏性的兩種表現(xiàn)形式(正式提出并量化論證):

2.1.1第一類稀疏性問(wèn)題:x和y分別出現(xiàn)在一些提取的對(duì)中,但是(x, y)不存在;

2.1.2第二類稀疏性問(wèn)題:x或y不包含在任何提取的配對(duì)中(看不見(jiàn)的關(guān)系)。

2.1.3研究現(xiàn)狀:通過(guò)矩陣分解或嵌入技術(shù)僅能緩解第一類稀疏性,并不能推廣到第二類。DIH能夠利用上下文來(lái)提取出一些看不見(jiàn)的關(guān)系,但是效果仍然不如基于模式的方法。

2.2提出兩個(gè)問(wèn)題

2.2.1問(wèn)題1:第二類問(wèn)題在實(shí)踐中常見(jiàn)嗎?

經(jīng)過(guò)對(duì)真實(shí)世界的語(yǔ)料進(jìn)行分析,表明在實(shí)踐中遇到第二類問(wèn)題的概率甚至可以達(dá)到50%以上,因此這是不可忽略的。

論證:

(1)將“可見(jiàn)的詞”定義為IP,而“不可見(jiàn)的詞”定義為OOP,整個(gè)訓(xùn)練語(yǔ)料庫(kù)包含的名詞詞匯定義為V。通過(guò)統(tǒng)計(jì)詞頻和基于Hearst模式得到的詞匯進(jìn)行統(tǒng)計(jì)分析計(jì)算兩條曲線之間形成的面積得出實(shí)際場(chǎng)景中大概有19.9%的OOP情況,如圖1所示。

圖1 語(yǔ)料庫(kù)中所有名詞和IP名詞的頻率

(2)同時(shí)對(duì)幾個(gè)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)對(duì)比,結(jié)果如圖2 所示。

圖2 幾個(gè)數(shù)據(jù)集OOP類型數(shù)據(jù)占比結(jié)果

(3)結(jié)論:有了OOP的概率,可以估計(jì)出現(xiàn)第二類稀疏性情況的概率,即??中有任意一項(xiàng)是OOP的概率,通過(guò)計(jì)算估計(jì)出現(xiàn)第二類問(wèn)題的概率在19.9%-35.8%之間,甚至可能超過(guò)50%。

2.2.2問(wèn)題2:如何用分布的方法補(bǔ)充基于模式無(wú)效的看不見(jiàn)的數(shù)據(jù)?

2.3提出框架ComHyper:利用了基于模式的模型在第一類情況下的優(yōu)越性能和第二類情況下分布模型的廣泛覆蓋性。具體來(lái)說(shuō),為了處理第二類稀疏性,ComHyper使用了一個(gè)訓(xùn)練階段從基于模式的輸出空間進(jìn)行采樣,用于另一個(gè)由不同上下位編碼器實(shí)現(xiàn)的監(jiān)督模型。在推理階段,ComHyper使用這兩個(gè)模型分別處理他們擅長(zhǎng)的稀疏類型。框架結(jié)構(gòu)如圖3所示:

圖3 從語(yǔ)料庫(kù)中檢測(cè)上下義關(guān)系的補(bǔ)充方法的總體框架

Pattern-Based Model:在整個(gè)框架中有兩個(gè)重要作用:(1)從P(從語(yǔ)料庫(kù)中提取的所有名詞)進(jìn)行統(tǒng)計(jì)和歸納,以評(píng)估??中pair;(2)通過(guò)采樣器為后面的監(jiān)督訓(xùn)練提供訓(xùn)練樣本,用于訓(xùn)練分布模型。

Distributional Model:訓(xùn)練一個(gè)監(jiān)督神經(jīng)網(wǎng)絡(luò)模型,輸入為上下詞對(duì)的上下文向量,訓(xùn)練點(diǎn)積用于分類(0或1)。

Training the Distributional Model:損失函數(shù)設(shè)置如下:

Encoding Queried Words:

(1)Transformed Word Vector:預(yù)訓(xùn)練詞嵌入,采用預(yù)訓(xùn)練的向量并通過(guò)多層感知機(jī)MLP得到嵌入向量。

(2)NBOW with MEAN-Pooling:??是x的上下位語(yǔ)料,針對(duì)們每一個(gè)詞匯c,通過(guò)預(yù)訓(xùn)練得到c的每一個(gè)??,求得平均得到c向量,在通過(guò)MLP得到輸入向量。但是這樣的方法忽略了上下文單詞的順序,可能不能很好的保留語(yǔ)義。

(3)CONTEXT2VEC with MEAN-Pooling:使用context2vec編碼器代替NBOW,分別使用兩個(gè)方向相反的LSTM對(duì)c進(jìn)行編碼;

(4)Hierarchical Attention Networks.:將注意力放在不同的上下文單詞和文本上,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)每個(gè)單詞的重要性。

3數(shù)據(jù)集

3.1Is-a關(guān)系數(shù)據(jù)集:用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》發(fā)布的421K is-a關(guān)系pair。

3.2語(yǔ)料庫(kù):用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword語(yǔ)料庫(kù)。

3.3評(píng)估數(shù)據(jù)集:BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)

4實(shí)驗(yàn)過(guò)程和實(shí)驗(yàn)結(jié)果

4.1實(shí)驗(yàn)過(guò)程:在框架中采用SVDPPMI作為基于模式的模型。用Skip-Gram在語(yǔ)料庫(kù)上預(yù)先訓(xùn)練300維的單詞嵌入,以便使用分布模型。比較了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks幾種嵌入方式對(duì)實(shí)驗(yàn)結(jié)果的影響。編碼器的輸出向量維度設(shè)置為300。Batch=128,學(xué)習(xí)率設(shè)置為0.003。

4.2實(shí)驗(yàn)結(jié)果:

(1)如圖4所示,在OOP上的表現(xiàn),除了Leads數(shù)據(jù)集,模型都比其他方法有一個(gè)更好的表現(xiàn)。尤其是在BLESS數(shù)據(jù)集上,其cosine余弦相似度的準(zhǔn)確率為0(這是由于余弦相似度的對(duì)稱性),但論文中提出的模型準(zhǔn)確率可以達(dá)到0.975。

圖4 在OOP數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果

(2)在所有查詢對(duì)上的實(shí)驗(yàn)結(jié)果如圖5所示,與僅僅只是基于模式的方法和僅僅只是基于監(jiān)督模型的方法作對(duì)比,發(fā)現(xiàn)除了在詞匯蘊(yùn)含上論文方法表現(xiàn)不如基于模式的方法外,在其他幾個(gè)數(shù)據(jù)及上都明顯比另外兩個(gè)單獨(dú)的方法表現(xiàn)更好。其中,表現(xiàn)最好的是HAN。

圖5 在“所有查詢對(duì)”上的實(shí)驗(yàn)結(jié)果

5評(píng)估方法

5.1采用三個(gè)子任務(wù)來(lái)評(píng)估:(1)排序上位詞預(yù)測(cè):使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等數(shù)據(jù)集進(jìn)行準(zhǔn)確率評(píng)估,正例的預(yù)測(cè)的排名應(yīng)該高于負(fù)例;(2)上下位詞的方向確定:確定一對(duì)中哪個(gè)詞的意義更廣;(3)分級(jí)蘊(yùn)含:預(yù)測(cè)HYPERLEX上的標(biāo)量分?jǐn)?shù),評(píng)估真實(shí)標(biāo)簽和預(yù)測(cè)分?jǐn)?shù)之間的相關(guān)性ρ。

6總結(jié)

6.1將基于模式的方法與基于分布的方法相結(jié)合,并提出了一個(gè)互補(bǔ)框架來(lái)檢測(cè)上下位關(guān)系。

6.2正式定義和描述了稀疏性的兩種表現(xiàn)形式,并論證了第二類稀疏性情況的普遍存在性與不可忽略性。

6.3實(shí)驗(yàn)對(duì)比分析驗(yàn)證了互補(bǔ)框架能夠綜合兩種方法在解決兩類稀疏性問(wèn)題上的優(yōu)勢(shì),從而提升預(yù)測(cè)上下位的表現(xiàn)。

?


?

OpenKG

開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。