日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理 |?潘曉梅,東南大學碩士,研究方向為知識圖譜構建、自然語言處理。


來源:EMNLP 2020.

論文下載地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf

項目源碼地址: https://github.com/ccclyu/ComHyper

動機

Taxonomy中包含了結構的良好的詞匯知識資源,對各種自然語言處理任務至關重要,包括問答、文本蘊含和文本生成等。當從零開始自動構建或填充手工創建taxonomy時,上下位關系檢測任務起著核心作用。對于一對查詢詞??,需要推斷??和??之間是否存在上下義關系。

目前主要有兩種方法,基于模式的方法和基于分布的方法。基于模式的方法有較高的精確度,但由于稀疏性問題導致召回率一般,并且目前已有的方法主要致力于解決第一類稀疏性問題;而基于分布的方法盡管適用范圍更廣,但整體表現較差,并且不足以填補基于模式方法由于第二類稀疏性問題帶來的數據缺失。

為了解決以上問題,作者提出了一個補充框架ComHyper模型——綜合了基于模式與基于分布方法在解決稀疏性問題上的優勢。

1概要

1.1證明當前基于模式的方法的稀疏性問題是不可忽略的;

1.2提出一種基于Hearst和分布式模型互補的框架,使得二者更加充分地發揮效果;

1.3對幾個常見的數據集進行了系統的比較,驗證了框架的優越性。

2主要內容

2.1提出基于模式的方法的缺陷之一,稀疏性的兩種表現形式(正式提出并量化論證):

2.1.1第一類稀疏性問題:x和y分別出現在一些提取的對中,但是(x, y)不存在;

2.1.2第二類稀疏性問題:x或y不包含在任何提取的配對中(看不見的關系)。

2.1.3研究現狀:通過矩陣分解或嵌入技術僅能緩解第一類稀疏性,并不能推廣到第二類。DIH能夠利用上下文來提取出一些看不見的關系,但是效果仍然不如基于模式的方法。

2.2提出兩個問題

2.2.1問題1:第二類問題在實踐中常見嗎?

經過對真實世界的語料進行分析,表明在實踐中遇到第二類問題的概率甚至可以達到50%以上,因此這是不可忽略的。

論證:

(1)將“可見的詞”定義為IP,而“不可見的詞”定義為OOP,整個訓練語料庫包含的名詞詞匯定義為V。通過統計詞頻和基于Hearst模式得到的詞匯進行統計分析計算兩條曲線之間形成的面積得出實際場景中大概有19.9%的OOP情況,如圖1所示。

圖1 語料庫中所有名詞和IP名詞的頻率

(2)同時對幾個數據集中的數據進行了統計對比,結果如圖2 所示。

圖2 幾個數據集OOP類型數據占比結果

(3)結論:有了OOP的概率,可以估計出現第二類稀疏性情況的概率,即??中有任意一項是OOP的概率,通過計算估計出現第二類問題的概率在19.9%-35.8%之間,甚至可能超過50%。

2.2.2問題2:如何用分布的方法補充基于模式無效的看不見的數據?

2.3提出框架ComHyper:利用了基于模式的模型在第一類情況下的優越性能和第二類情況下分布模型的廣泛覆蓋性。具體來說,為了處理第二類稀疏性,ComHyper使用了一個訓練階段從基于模式的輸出空間進行采樣,用于另一個由不同上下位編碼器實現的監督模型。在推理階段,ComHyper使用這兩個模型分別處理他們擅長的稀疏類型。框架結構如圖3所示:

圖3 從語料庫中檢測上下義關系的補充方法的總體框架

Pattern-Based Model:在整個框架中有兩個重要作用:(1)從P(從語料庫中提取的所有名詞)進行統計和歸納,以評估??中pair;(2)通過采樣器為后面的監督訓練提供訓練樣本,用于訓練分布模型。

Distributional Model:訓練一個監督神經網絡模型,輸入為上下詞對的上下文向量,訓練點積用于分類(0或1)。

Training the Distributional Model:損失函數設置如下:

Encoding Queried Words:

(1)Transformed Word Vector:預訓練詞嵌入,采用預訓練的向量并通過多層感知機MLP得到嵌入向量。

(2)NBOW with MEAN-Pooling:??是x的上下位語料,針對們每一個詞匯c,通過預訓練得到c的每一個??,求得平均得到c向量,在通過MLP得到輸入向量。但是這樣的方法忽略了上下文單詞的順序,可能不能很好的保留語義。

(3)CONTEXT2VEC with MEAN-Pooling:使用context2vec編碼器代替NBOW,分別使用兩個方向相反的LSTM對c進行編碼;

(4)Hierarchical Attention Networks.:將注意力放在不同的上下文單詞和文本上,通過前饋神經網絡來估計每個單詞的重要性。

3數據集

3.1Is-a關系數據集:用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》發布的421K is-a關系pair。

3.2語料庫:用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword語料庫。

3.3評估數據集:BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)

4實驗過程和實驗結果

4.1實驗過程:在框架中采用SVDPPMI作為基于模式的模型。用Skip-Gram在語料庫上預先訓練300維的單詞嵌入,以便使用分布模型。比較了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks幾種嵌入方式對實驗結果的影響。編碼器的輸出向量維度設置為300。Batch=128,學習率設置為0.003。

4.2實驗結果:

(1)如圖4所示,在OOP上的表現,除了Leads數據集,模型都比其他方法有一個更好的表現。尤其是在BLESS數據集上,其cosine余弦相似度的準確率為0(這是由于余弦相似度的對稱性),但論文中提出的模型準確率可以達到0.975。

圖4 在OOP數據上的實驗結果

(2)在所有查詢對上的實驗結果如圖5所示,與僅僅只是基于模式的方法和僅僅只是基于監督模型的方法作對比,發現除了在詞匯蘊含上論文方法表現不如基于模式的方法外,在其他幾個數據及上都明顯比另外兩個單獨的方法表現更好。其中,表現最好的是HAN。

圖5 在“所有查詢對”上的實驗結果

5評估方法

5.1采用三個子任務來評估:(1)排序上位詞預測:使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等數據集進行準確率評估,正例的預測的排名應該高于負例;(2)上下位詞的方向確定:確定一對中哪個詞的意義更廣;(3)分級蘊含:預測HYPERLEX上的標量分數,評估真實標簽和預測分數之間的相關性ρ。

6總結

6.1將基于模式的方法與基于分布的方法相結合,并提出了一個互補框架來檢測上下位關系。

6.2正式定義和描述了稀疏性的兩種表現形式,并論證了第二類稀疏性情況的普遍存在性與不可忽略性。

6.3實驗對比分析驗證了互補框架能夠綜合兩種方法在解決兩類稀疏性問題上的優勢,從而提升預測上下位的表現。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 综合久久综合久久 | 欧美亚洲综合视频 | 蜜桃视频一区二区三区在线观看 | 爱爱网站视频 | 人妻 丝袜美腿 中文字幕 | 自拍偷拍色综合 | 五月天校园春色 | 钰慧的mv视频在线观看 | 波多野结衣亚洲一区 | 国产成人综合久久 | 国产精品二三区 | 日本护士╳╳╳hd少妇 | 在线看你懂 | 久久久久久久久久久久久久av | 欧美激情成人网 | 日韩中文字幕2019 | 午夜精品一区二区三区在线 | 久久久久成人精品无码中文字幕 | 一级在线免费视频 | 欧美拍拍| 久草福利网 | 久久精品国产亚洲AV熟女 | 中文字幕国产综合 | 亚洲精品国产免费 | 免费人成年激情视频在线观看 | 长河落日电视连续剧免费观看01 | 五月天小说网 | 99精品视频在线免费观看 | 中文字字幕在线中文乱码电影 | 天天舔天天干 | 国产12页| 粉嫩av一区二区三区四区五区 | av免费观看不卡 | 天堂色在线 | 少妇性bbb搡bbb爽爽爽欧美 | 双性娇喘浑圆奶水h男男漫画 | 亚洲成人国产精品 | 国产东北露脸精品视频 | 国产性生活视频 | 亚洲免费精品视频在线观看 | 久久亚洲aⅴ无码精品 | 日韩激情第一页 | 亚洲一区欧洲一区 | 毛茸茸多毛bbb毛多视频 | 亚洲欧美日韩中文字幕在线观看 | 人人亚洲 | 欧美激情在线看 | 五月天丁香激情 | 免费日韩欧美 | 懂色av蜜臀av粉嫩av | h片在线观看 | 91免费观看视频 | 91丨国产丨捆绑调教 | 日本一区二区三区四区在线观看 | 国产美女主播在线观看 | 97蜜桃网| 久久青青草原亚洲av无码麻豆 | 国产伦精品一区二区三区视频孕妇 | 永久免费未满视频 | 黑人专干日本人xxxx | 干爹你真棒插曲免费 | 在线视频日本 | 成人一区二区在线观看 | 国产宾馆实践打屁股91 | 午夜视频在线观看国产 | 国内精品久久久久久久 | av在线手机观看 | 精品三级在线 | 亚洲在线观看视频 | 无码人妻精品一区二区三区夜夜嗨 | 亚洲精品成人电影 | 高清在线一区二区三区 | 欧美亚洲一区 | 欧美午夜视频在线观看 | 色人综合| 人人玩人人弄 | 91久久精品在线 | 国产精品一 | 亚洲国产精品无码专区 | 性免费视频 | 国产区精品在线观看 | 人人草人| 日韩一区二区不卡视频 | 91视频一区二区 | 徐锦江一级淫片免费看 | 亚洲爱| n0659极腔濑亚美莉在线播放播放 | 国产成人av电影 | 国产视频综合 | 2025国产精品视频 | 欧美日韩一区二区在线视频 | 在线视频综合网 | 91精选| 免费视频91蜜桃 | 久久av在线 | 欧美 日韩 成人 | 国产精品伦一区 | aaa一区二区三区 | 国产99久久久欧美黑人 |