當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

發(fā)布時(shí)間：2024/7/5 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理 |?潘曉梅，東南大學(xué)碩士，研究方向?yàn)橹R(shí)圖譜構(gòu)建、自然語(yǔ)言處理。

來(lái)源：EMNLP 2020.

論文下載地址： https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf

項(xiàng)目源碼地址： https://github.com/ccclyu/ComHyper

動(dòng)機(jī)

Taxonomy中包含了結(jié)構(gòu)的良好的詞匯知識(shí)資源，對(duì)各種自然語(yǔ)言處理任務(wù)至關(guān)重要，包括問(wèn)答、文本蘊(yùn)含和文本生成等。當(dāng)從零開(kāi)始自動(dòng)構(gòu)建或填充手工創(chuàng)建taxonomy時(shí)，上下位關(guān)系檢測(cè)任務(wù)起著核心作用。對(duì)于一對(duì)查詢?cè)~??,需要推斷??和??之間是否存在上下義關(guān)系。

目前主要有兩種方法，基于模式的方法和基于分布的方法。基于模式的方法有較高的精確度，但由于稀疏性問(wèn)題導(dǎo)致召回率一般，并且目前已有的方法主要致力于解決第一類稀疏性問(wèn)題；而基于分布的方法盡管適用范圍更廣，但整體表現(xiàn)較差，并且不足以填補(bǔ)基于模式方法由于第二類稀疏性問(wèn)題帶來(lái)的數(shù)據(jù)缺失。

為了解決以上問(wèn)題，作者提出了一個(gè)補(bǔ)充框架ComHyper模型——綜合了基于模式與基于分布方法在解決稀疏性問(wèn)題上的優(yōu)勢(shì)。

1概要

1.1證明當(dāng)前基于模式的方法的稀疏性問(wèn)題是不可忽略的；

1.2提出一種基于Hearst和分布式模型互補(bǔ)的框架，使得二者更加充分地發(fā)揮效果；

1.3對(duì)幾個(gè)常見(jiàn)的數(shù)據(jù)集進(jìn)行了系統(tǒng)的比較，驗(yàn)證了框架的優(yōu)越性。

2主要內(nèi)容

2.1提出基于模式的方法的缺陷之一，稀疏性的兩種表現(xiàn)形式（正式提出并量化論證）：

2.1.1第一類稀疏性問(wèn)題：x和y分別出現(xiàn)在一些提取的對(duì)中，但是（x, y）不存在；

2.1.2第二類稀疏性問(wèn)題：x或y不包含在任何提取的配對(duì)中（看不見(jiàn)的關(guān)系）。

2.1.3研究現(xiàn)狀：通過(guò)矩陣分解或嵌入技術(shù)僅能緩解第一類稀疏性，并不能推廣到第二類。DIH能夠利用上下文來(lái)提取出一些看不見(jiàn)的關(guān)系，但是效果仍然不如基于模式的方法。

2.2提出兩個(gè)問(wèn)題

2.2.1問(wèn)題1：第二類問(wèn)題在實(shí)踐中常見(jiàn)嗎？

經(jīng)過(guò)對(duì)真實(shí)世界的語(yǔ)料進(jìn)行分析，表明在實(shí)踐中遇到第二類問(wèn)題的概率甚至可以達(dá)到50%以上，因此這是不可忽略的。

論證：

（1）將“可見(jiàn)的詞”定義為IP，而“不可見(jiàn)的詞”定義為OOP,整個(gè)訓(xùn)練語(yǔ)料庫(kù)包含的名詞詞匯定義為V。通過(guò)統(tǒng)計(jì)詞頻和基于Hearst模式得到的詞匯進(jìn)行統(tǒng)計(jì)分析計(jì)算兩條曲線之間形成的面積得出實(shí)際場(chǎng)景中大概有19.9%的OOP情況，如圖1所示。

圖1 語(yǔ)料庫(kù)中所有名詞和IP名詞的頻率

（2）同時(shí)對(duì)幾個(gè)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)對(duì)比，結(jié)果如圖2 所示。

圖2 幾個(gè)數(shù)據(jù)集OOP類型數(shù)據(jù)占比結(jié)果

（3）結(jié)論：有了OOP的概率，可以估計(jì)出現(xiàn)第二類稀疏性情況的概率，即??中有任意一項(xiàng)是OOP的概率，通過(guò)計(jì)算估計(jì)出現(xiàn)第二類問(wèn)題的概率在19.9%-35.8%之間，甚至可能超過(guò)50%。

2.2.2問(wèn)題2：如何用分布的方法補(bǔ)充基于模式無(wú)效的看不見(jiàn)的數(shù)據(jù)？

2.3提出框架ComHyper：利用了基于模式的模型在第一類情況下的優(yōu)越性能和第二類情況下分布模型的廣泛覆蓋性。具體來(lái)說(shuō)，為了處理第二類稀疏性,ComHyper使用了一個(gè)訓(xùn)練階段從基于模式的輸出空間進(jìn)行采樣，用于另一個(gè)由不同上下位編碼器實(shí)現(xiàn)的監(jiān)督模型。在推理階段，ComHyper使用這兩個(gè)模型分別處理他們擅長(zhǎng)的稀疏類型。框架結(jié)構(gòu)如圖3所示：

圖3 從語(yǔ)料庫(kù)中檢測(cè)上下義關(guān)系的補(bǔ)充方法的總體框架

Pattern-Based Model：在整個(gè)框架中有兩個(gè)重要作用：（1）從P(從語(yǔ)料庫(kù)中提取的所有名詞)進(jìn)行統(tǒng)計(jì)和歸納，以評(píng)估??中pair；（2）通過(guò)采樣器為后面的監(jiān)督訓(xùn)練提供訓(xùn)練樣本，用于訓(xùn)練分布模型。

Distributional Model：訓(xùn)練一個(gè)監(jiān)督神經(jīng)網(wǎng)絡(luò)模型，輸入為上下詞對(duì)的上下文向量，訓(xùn)練點(diǎn)積用于分類（0或1）。

Training the Distributional Model：損失函數(shù)設(shè)置如下：

Encoding Queried Words：

（1）Transformed Word Vector：預(yù)訓(xùn)練詞嵌入，采用預(yù)訓(xùn)練的向量并通過(guò)多層感知機(jī)MLP得到嵌入向量。

（2）NBOW with MEAN-Pooling：??是x的上下位語(yǔ)料，針對(duì)們每一個(gè)詞匯c，通過(guò)預(yù)訓(xùn)練得到c的每一個(gè)??，求得平均得到c向量，在通過(guò)MLP得到輸入向量。但是這樣的方法忽略了上下文單詞的順序，可能不能很好的保留語(yǔ)義。

（3）CONTEXT2VEC with MEAN-Pooling：使用context2vec編碼器代替NBOW，分別使用兩個(gè)方向相反的LSTM對(duì)c進(jìn)行編碼；

（4）Hierarchical Attention Networks.：將注意力放在不同的上下文單詞和文本上，通過(guò)前饋神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)每個(gè)單詞的重要性。

3數(shù)據(jù)集

3.1Is-a關(guān)系數(shù)據(jù)集：用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》發(fā)布的421K is-a關(guān)系pair。

3.2語(yǔ)料庫(kù)：用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword語(yǔ)料庫(kù)。

3.3評(píng)估數(shù)據(jù)集：BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)

4實(shí)驗(yàn)過(guò)程和實(shí)驗(yàn)結(jié)果

4.1實(shí)驗(yàn)過(guò)程：在框架中采用SVDPPMI作為基于模式的模型。用Skip-Gram在語(yǔ)料庫(kù)上預(yù)先訓(xùn)練300維的單詞嵌入，以便使用分布模型。比較了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks幾種嵌入方式對(duì)實(shí)驗(yàn)結(jié)果的影響。編碼器的輸出向量維度設(shè)置為300。Batch=128，學(xué)習(xí)率設(shè)置為0.003。

4.2實(shí)驗(yàn)結(jié)果：

（1）如圖4所示，在OOP上的表現(xiàn)，除了Leads數(shù)據(jù)集，模型都比其他方法有一個(gè)更好的表現(xiàn)。尤其是在BLESS數(shù)據(jù)集上，其cosine余弦相似度的準(zhǔn)確率為0（這是由于余弦相似度的對(duì)稱性），但論文中提出的模型準(zhǔn)確率可以達(dá)到0.975。

圖4 在OOP數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果

（2）在所有查詢對(duì)上的實(shí)驗(yàn)結(jié)果如圖5所示，與僅僅只是基于模式的方法和僅僅只是基于監(jiān)督模型的方法作對(duì)比，發(fā)現(xiàn)除了在詞匯蘊(yùn)含上論文方法表現(xiàn)不如基于模式的方法外，在其他幾個(gè)數(shù)據(jù)及上都明顯比另外兩個(gè)單獨(dú)的方法表現(xiàn)更好。其中，表現(xiàn)最好的是HAN。

圖5 在“所有查詢對(duì)”上的實(shí)驗(yàn)結(jié)果

5評(píng)估方法

5.1采用三個(gè)子任務(wù)來(lái)評(píng)估：（1）排序上位詞預(yù)測(cè)：使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等數(shù)據(jù)集進(jìn)行準(zhǔn)確率評(píng)估，正例的預(yù)測(cè)的排名應(yīng)該高于負(fù)例；（2）上下位詞的方向確定：確定一對(duì)中哪個(gè)詞的意義更廣；（3）分級(jí)蘊(yùn)含：預(yù)測(cè)HYPERLEX上的標(biāo)量分?jǐn)?shù)，評(píng)估真實(shí)標(biāo)簽和預(yù)測(cè)分?jǐn)?shù)之間的相關(guān)性ρ。

6總結(jié)

6.1將基于模式的方法與基于分布的方法相結(jié)合，并提出了一個(gè)互補(bǔ)框架來(lái)檢測(cè)上下位關(guān)系。

6.2正式定義和描述了稀疏性的兩種表現(xiàn)形式，并論證了第二類稀疏性情況的普遍存在性與不可忽略性。

6.3實(shí)驗(yàn)對(duì)比分析驗(yàn)證了互補(bǔ)框架能夠綜合兩種方法在解決兩類稀疏性問(wèn)題上的優(yōu)勢(shì)，從而提升預(yù)測(cè)上下位的表現(xiàn)。

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文小综 | 文档级关系抽取方法（下）
下一篇：一篇文章搞懂架构师的核心技能