【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取
下面介紹下如何利用遠(yuǎn)程監(jiān)督多實(shí)例進(jìn)行關(guān)系抽取。前文有提到到當(dāng)利用文本進(jìn)行關(guān)系抽取,基本思想是利用知識(shí)圖譜中,如(下圖)任意兩個(gè)實(shí)體同時(shí)在句子中出現(xiàn):
我們把句子當(dāng)成是兩個(gè)實(shí)體關(guān)系訓(xùn)練得樣例,這樣就可以訓(xùn)練出一個(gè)關(guān)于關(guān)系分類(lèi)的模型。這被稱(chēng)為Distant Supervision遠(yuǎn)程監(jiān)督,之所以叫做遠(yuǎn)程監(jiān)督是因?yàn)闃?biāo)注數(shù)據(jù)通過(guò)知識(shí)庫(kù)自動(dòng)標(biāo)注出來(lái)的,并沒(méi)有經(jīng)過(guò)人工干預(yù)。這種自動(dòng)方式可以非常快的能構(gòu)建出非常大的關(guān)系分類(lèi)的訓(xùn)練數(shù)據(jù),但它的問(wèn)題是同時(shí)出現(xiàn)兩個(gè)實(shí)體的這些句子,并不見(jiàn)得都能夠很好的反映兩個(gè)實(shí)體在知識(shí)庫(kù)中是什么關(guān)系。
比如bill gates和microsoft在知識(shí)庫(kù)中是founder的關(guān)系(上圖例),但是 第1個(gè)句子和第3個(gè)句子的確是反映了founder的關(guān)系,但是第2個(gè)句子bill gates announced to retire from microsoft,他就沒(méi)有很好的反映founder的關(guān)系。
有個(gè)解決思路,就是說(shuō)像融合文本中描述信息一樣,給不同的句子不同的權(quán)重,也就是每一個(gè)句子也去學(xué)CNN,得到他的表示,但是這個(gè)表示并不是直接進(jìn)行關(guān)系的預(yù)測(cè),或者是說(shuō)沒(méi)有構(gòu)建這種關(guān)系向量,而是先根據(jù)關(guān)系的向量,給句子的表示不同的權(quán)重,權(quán)重計(jì)算方式(上圖右側(cè))是計(jì)算關(guān)系表示跟文本表示之間的映射關(guān)系。
那么通過(guò)給不同句子不同的權(quán)重稱(chēng)之為sentence-level attention,這樣就可以有效解決遠(yuǎn)程監(jiān)督中自動(dòng)標(biāo)注多個(gè)句子的噪音問(wèn)題。
如果利用cnn,有效的利用sentence-level attention,加att的方法的預(yù)測(cè)效果其實(shí)遠(yuǎn)遠(yuǎn)好于沒(méi)有考慮任何的多實(shí)例問(wèn)題的cnn方法。
在2015年中科院自動(dòng)化所趙軍老師,劉看老師組發(fā)表論文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》(分段卷積神經(jīng)網(wǎng)絡(luò)用于關(guān)系提取的遠(yuǎn)程監(jiān)控)
論文中做了一個(gè)cnn改進(jìn)模型,就是根據(jù)這兩個(gè)實(shí)體,把句子劃分成三個(gè)不同部分,每一個(gè)部分單獨(dú)訓(xùn)練cnn,論文中叫這種cnn為piecewise conncolutional neural networks(pcnn)。清華大學(xué)團(tuán)隊(duì)在pcnn模型上嘗試sentence-level attention的效果,可以看到(上圖中)黑色的線遠(yuǎn)高于pcnn的效果,那么這其實(shí)也說(shuō)明了考慮sentence-level attention的重要意義。
清華大學(xué)團(tuán)隊(duì)也比較了一些傳統(tǒng)方法(非deep learning的方法),直接從句子中抽取離散符號(hào)表示的特征,你可以看到基于CNN,基于PCNN的 attention效果要遠(yuǎn)好于feature base的方法,其實(shí)也說(shuō)明現(xiàn)在一定要用deep learning的手段才能夠取得關(guān)于文本關(guān)系抽取最好的效果。
我們也可以看到通過(guò)一些(attention)例子,如relation employer of ,誰(shuí)是誰(shuí)的雇主, 我們利用sentence-level attention可以找到更好反映實(shí)體之間雇主關(guān)系的一些句子,那么給予比較低attention的一些句子,在一定程度上不能夠更好的反映employer of的關(guān)系。類(lèi)似的place of birth出生地點(diǎn),在上表中最下面一行是attention很高的句子(Ernst haefliger was born in davos on july 6,1919,and studied at the wettinger seminary…) ,上表中倒數(shù)第二行是attention很低的句子(Ernst haefliger ,a swiss tenor who…… roles, died on Saturday in davos,switzerland ,where he maintained a second home).通過(guò)上面的例子中能夠看出這種sentence-level attention有比較好的效果。
清華大學(xué)團(tuán)隊(duì)開(kāi)源的研究成果
KB2E:TransE TransH TransR和PTransE:
開(kāi)源代碼: http://www.github.com/thunlp/KB2E它是一個(gè)工具包,里面包含了幾乎所有模型有TransE, TransH,TransR和PTransEFast-TransE:
開(kāi)源代碼 :https://github.com/thunlp/Fast-TransX清華團(tuán)隊(duì)為了能夠更好的去在大規(guī)模大規(guī)模的知識(shí)圖譜上進(jìn)行表示學(xué) 習(xí)。開(kāi)發(fā)了一個(gè)加速的版本Fast-TransE,目前能夠?qū)崿F(xiàn)比kb2e里 面的 TransE 訓(xùn)練速度提升40倍,就是說(shuō)原來(lái)一個(gè)數(shù)據(jù)需要訓(xùn)練兩 三個(gè)小時(shí)的時(shí)間,現(xiàn)在只需要4分鐘就可以完成Nre:CNN, PCNN, x+ATT:
開(kāi)源代碼: http://github.com/thunlp/NREnre是基于文本遠(yuǎn)程監(jiān)督關(guān)系抽取的方法,它包括CNN, PCNN, x+ATT等方法。清華團(tuán)隊(duì)發(fā)表的相關(guān)論文:
《Neural Relation Extraction with Selective Attention over Instances》
該論文針對(duì)遠(yuǎn)程監(jiān)督關(guān)系抽取方法中的錯(cuò)誤標(biāo)注問(wèn)題,提出了在句子層級(jí)采用選擇性關(guān)注機(jī)制的模型。與現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型相比,該模型不僅可以綜合利用所有文本數(shù)據(jù),而且可以降低錯(cuò)誤標(biāo)注數(shù)據(jù)的影響,抽取準(zhǔn)確率取得顯著提高。
《Relation Classification via Multi-Level Attention CNNs》
該論文針對(duì)關(guān)系分類(lèi)問(wèn)題提出了多關(guān)注機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),顯著提升了關(guān)系分類(lèi)效果。
《Knowledge Representation Learning with Entities, Attributes and Relations》
論文是面向知識(shí)圖譜的表示學(xué)習(xí)任務(wù),提出利用實(shí)體、屬性、關(guān)系三個(gè)元素來(lái)進(jìn)行表示學(xué)習(xí)。它提出對(duì)屬性和關(guān)系加以區(qū)分,并在表示學(xué)習(xí)的過(guò)程中區(qū)別對(duì)待,本文首先提出屬性與關(guān)系的區(qū)別,本文敘述:屬性的值一般是抽象的概念,如性別與職業(yè)等;而且通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),屬性往往是多對(duì)一的,而且對(duì)于特定的屬性,其取值大多來(lái)源于一個(gè)小集合,如性別。對(duì)關(guān)系與屬性采用不同的約束方式進(jìn)行獨(dú)立表示學(xué)習(xí),同時(shí)提出屬性之間的更強(qiáng)的約束關(guān)系。論文想法新穎,很值得借鑒。
《Representation learning of knowledge graphs with hierarchical types》
論文是面向知識(shí)圖譜的表示學(xué)習(xí)任務(wù),提出融入實(shí)體類(lèi)型信息輔助知識(shí)圖譜的表示學(xué)習(xí)。目前的大多數(shù)方法專(zhuān)注于利用知識(shí)圖譜中三元組結(jié)構(gòu)的表示學(xué)習(xí),而忽略了融入實(shí)體類(lèi)型的信息。對(duì)于實(shí)體而言,對(duì)于不同的類(lèi)型含義應(yīng)該具有不同的表示。論文中中從Freebase中獲取實(shí)體的類(lèi)型信息,并將其層次化表示,并設(shè)計(jì)了兩種編碼方式,對(duì)于不同的關(guān)系通過(guò)參數(shù)調(diào)整獲得對(duì)應(yīng)的實(shí)體表示。
《RepresentationLearning of Knowledge Graphs with Entity Descriptions.》
論文提出融合知識(shí)圖譜三元組和實(shí)體描述文本的知識(shí)表示學(xué)習(xí)模型,實(shí)驗(yàn)證明,該模型能根據(jù)描述為新實(shí)體自動(dòng)構(gòu)建向量表示,顯著提升實(shí)體預(yù)測(cè)、關(guān)系預(yù)測(cè)和實(shí)體分類(lèi)的性能。
《Modeling Relation Paths for Representation Learning of Knowledge Bases》
論文提出了一種基于路徑的知識(shí)圖譜表示模型,將實(shí)體之間的路徑表示為一種平移關(guān)系。論文其主要貢獻(xiàn)為提出了用于計(jì)算不同路徑的權(quán)重的基于路徑限制的資源分配算法和三種不同的路徑表示模型,并在知識(shí)圖譜完善和文本關(guān)系抽取中驗(yàn)證了模型的有效性。
《Learning entity and relation embeddings for knowledge graph completion》
針對(duì)知識(shí)圖譜的表示學(xué)習(xí)模型TransR,將實(shí)體映射到不同關(guān)系空間中構(gòu)建優(yōu)化目標(biāo),并通過(guò)聚類(lèi)對(duì)關(guān)系進(jìn)行細(xì)分,能夠有效改善1-N、N-1類(lèi)型關(guān)系的表示,在鏈接預(yù)測(cè)和文本關(guān)系抽取等任務(wù)均取得了顯著的提升。
總結(jié)
以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。