日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PCNN

發(fā)布時間:2023/12/31 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PCNN 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

1. 關(guān)鍵字

關(guān)系抽取遠程監(jiān)督

2. 摘要

本文提出了PCNNs,用來解決遠程監(jiān)督關(guān)系抽取中的兩個問題:一個是在對齊知識圖譜時的錯誤標注問題,一個是使用NLP工具提取特征時的錯誤傳播問題。對于前者,方法是將對齊問題轉(zhuǎn)化為多實例學(xué)習問題,從而將實例標簽的不確定性納入了考慮范圍;對于后者,采用成對的最大池化層來自動學(xué)習相關(guān)的特征。

3. 問題

錯誤標注問題

用遠程監(jiān)督的方法來做關(guān)系抽取,需要一個知識圖譜來啟發(fā)式地對齊文本,如果對齊失敗,就會出現(xiàn)錯誤標注的問題。

在關(guān)系抽取領(lǐng)域,由于監(jiān)督方法將關(guān)系抽取看作一個多分類問題,所以有一個難點就是如何在已知關(guān)系的前提下生成訓(xùn)練樣本。Mintz等人提出一個假設(shè),如果在知識圖譜中兩個實體存在某種特定關(guān)系,那么所有包含這兩個實體的句子都表達出了這種關(guān)系。這個假設(shè)有效地為任一關(guān)系生成了大量訓(xùn)練樣本。但是,很明顯,這個假設(shè)是有問題的,如果句子中存在“喬布斯”和“蘋果”這兩個實體,該句子既可能表達出“創(chuàng)始人”這一關(guān)系,還可以表達出“離開”這一關(guān)系。這就是錯誤標注問題。

錯誤傳播問題

從監(jiān)督數(shù)據(jù)中抽取特征用的都是NLP工具,工具本身不可避免的錯誤會導(dǎo)致錯誤傳播和累積。一般情況下,關(guān)系抽取的語料都是來自于網(wǎng)絡(luò),句子長度也都超過40,McDonald證明,句法分析的準確率會隨著句子加長而顯著降低。所以,錯誤傳播不僅存在,而且會變得嚴重。

4. 方法論

為了解決錯誤標注問題,Riedil等人針對多實例學(xué)習提出了一個松弛的遠程監(jiān)督假設(shè)。在多實例學(xué)習中,訓(xùn)練集由一些包(bag)組成,并且每個包中又包含了一些實例(instance)。這些包的標簽是已知的,但是包中實例的標簽是未知的。多實例學(xué)習將實例標簽的不確定性納入了考慮范圍,從而聚焦于對包的區(qū)分。

為了解決錯誤傳播問題,本文擴展了Zeng等人的方法,由于單個最大池化層將急劇減少隱藏層的尺寸,所以用來捕獲細粒度特征過于粗糙,并且也不足以捕獲到兩個實體之間的結(jié)構(gòu)化信息,本文在單個最大池化層的基礎(chǔ)上提出成對最大池化層

5. 模型結(jié)構(gòu)

向量表示

詞向量通過look up預(yù)訓(xùn)練詞向量得到,同時,使用了位置特征來指定實體對,該特征同樣被轉(zhuǎn)化為向量。

  • 詞嵌入:使用skip-gram模型來訓(xùn)練詞向量
  • 位置嵌入:位置特征被定義為句子中當前詞到實體\(e_1\)\(e_2\)的距離

每個句子的長度為\(s\),每個詞的詞向量維度為\(d_w\),加上兩個位置特征\(2*d_p\),于是一個詞向量的維度就為\(d_w+2*d_p\).

卷積

由于是給整個句子預(yù)測關(guān)系,所以需要使用所有局部特征并且做一個全局預(yù)測,卷積就是一個很好地合并所有特征的方法。

一個句子的維度是\(s*d\),其中\(d\)是詞向量的維度。卷積和的尺寸為\(w*d\),當剩下長度不足\(w\)的時候,填充0,于是卷積結(jié)果的長度為\(s+w-1\).

當然,為了捕捉到不同的特征,將使用n個卷積核,于是卷積結(jié)果為\(c=\{c_1, c_2, ..., c_n\}\)\(c\)的維度為\(n*(s+w-1)\).

成對最大池化

為了捕獲到兩個實體間的結(jié)構(gòu)化信息,一般的方法都考慮實體的內(nèi)部上下文外部上下文,其中內(nèi)部上下文包含了兩個實體里面的字,外部上下文則是兩個實體周圍的字。

于是,根據(jù)句子中給定的兩個實體的位置將句子劃分為三段,這樣每個過濾器卷積的結(jié)果就被分為三個部分:\(\{c_{i1}, c_{i2}, c_{i3}\}\),然后分別在這三段上分別取最大值。于是,最終最大池化的向量長度是固定的,為過濾器數(shù)量的三倍。

softmax輸出

最后經(jīng)過softmax并輸出,需要注意的是,訓(xùn)練是由dropout層的,但是測試的時候就不需要了。

轉(zhuǎn)載于:https://www.cnblogs.com/flyangovoyang/p/11604446.html

總結(jié)

以上是生活随笔為你收集整理的PCNN的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。