论文浅尝 | 面向自动分类归纳的端到端强化学习
?
動機(jī)
術(shù)語層次在許多自然語言處理任務(wù)中扮演著重要角色。然而,大部分現(xiàn)有的術(shù)語層次是人工構(gòu)建的,其覆蓋范圍有限,或者某些領(lǐng)域上不可用。因此,最近的工作集中在自動化的術(shù)語層次歸納(automatictaxonomy induction)上。
之前的研究工作大部分采用兩步式方法,首先進(jìn)行上位關(guān)系檢測(hypernymy detection),然后將上位關(guān)系組織成樹形層次結(jié)構(gòu)。但是,這些方法存在兩種局限性。首先,它們沒有利用第二步中上位關(guān)系的組織結(jié)果來修正第一步中上位關(guān)系的概率計(jì)算,這會導(dǎo)致錯(cuò)誤傳播問題。其次,一些方法使用樹形結(jié)構(gòu)中邊的概率乘積來衡量術(shù)語層次的歸納質(zhì)量,但它們沒有區(qū)分不同的邊對術(shù)語層次的不同貢獻(xiàn)。此外,它們不能通過優(yōu)化全局度量指標(biāo)的方法來顯式反映術(shù)語層次的整體結(jié)構(gòu)。
針對上述問題,本文提出了一種上位關(guān)系檢測和組織的聯(lián)合模型,同時(shí)完成術(shù)語對的表示學(xué)習(xí)和術(shù)語層次的構(gòu)建。該模型基于端到端的強(qiáng)化學(xué)習(xí),訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)代理,利用多信息源進(jìn)行術(shù)語對的表示學(xué)習(xí),并通過策略網(wǎng)絡(luò)來決定術(shù)語的挑選及其所在層次位置。在該模型中,上位關(guān)系的組織結(jié)果將反饋到上位關(guān)系的檢測上,進(jìn)而調(diào)整術(shù)語對的表示學(xué)習(xí)。整個(gè)模型通過累積獎(jiǎng)勵(lì)進(jìn)行端到端的訓(xùn)練。該獎(jiǎng)勵(lì)通過術(shù)語層次上的整體性指標(biāo)進(jìn)行度量。最終,術(shù)語層次的概率不再是簡單的邊的概率乘積。相反,考慮了每條邊對術(shù)語層次質(zhì)量的不同貢獻(xiàn)。
?
貢獻(xiàn)
??????????? 本文的貢獻(xiàn)如下:
(1) ???提出了一個(gè)深度強(qiáng)化學(xué)習(xí)方法,把上位關(guān)系檢測和組織統(tǒng)一起來,通過端到端的方式構(gòu)建術(shù)語層次結(jié)構(gòu)。
(2) ???設(shè)計(jì)了一個(gè)策略網(wǎng)絡(luò),納入術(shù)語對的語義信息,并使用累積獎(jiǎng)勵(lì)從整體角度衡量術(shù)語層次的質(zhì)量。
(3) ???通過兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了本文方法能夠有效地減少錯(cuò)誤傳播,構(gòu)建更高質(zhì)量的術(shù)語層次。
?
一個(gè)例子
圖1展示了一個(gè)術(shù)語層次歸納的過程。t=0時(shí)刻,輸入詞匯V0為{“working dog”,?“pinscher”, “shepherd dog” ,…},術(shù)語層次T0為空。這里,使用一個(gè)虛擬節(jié)點(diǎn)“root”表示T0。t=5時(shí)刻,有5個(gè)術(shù)語在術(shù)語層次T5上,剩余3個(gè)術(shù)語要附著:Vt={“shepherddog”, “collie”, “affenpinscher”}。假設(shè)術(shù)語“affenpinscher”被選中并放在“pinscher”下,那么下一時(shí)刻剩余的詞匯Vt+1為{“shepherd dog”,“collie”}。最終,經(jīng)過|V0|步后,所有的術(shù)語附著在術(shù)語層次上,完成了整個(gè)歸納過程。
圖1. 一個(gè)說明性例子
相關(guān)工作
上位關(guān)系檢測主要分為基于模式的方法和分布式方法兩類。基于模式的方法通常取得很高的精度但是召回率低。分布式方法考慮每個(gè)術(shù)語的上下文,可以通過非監(jiān)督或者監(jiān)督的方式進(jìn)行學(xué)習(xí)。
術(shù)語層次結(jié)構(gòu)組織的一類工作是通過增量式附著新術(shù)語的方式補(bǔ)全已有的術(shù)語層次。另一類工作是基于維基百科、WordNet、Web搜索或者特定領(lǐng)域的資源,從頭開始構(gòu)造術(shù)語層次。這些工作通常采用圖優(yōu)化算法來歸納樹形層次結(jié)構(gòu),比如最大生成樹和最小代價(jià)流。
?
術(shù)語對的上位關(guān)系特征表示
1.?????? 基于最短依存路徑
通過對兩個(gè)術(shù)語x和y共現(xiàn)的語句進(jìn)行依存關(guān)系分析,可以得到(x, y)在每一個(gè)句子中的最短依存路徑。路徑上的每一條邊e通過向量Ve表示:
其中Vl,Vpos,Vdep,Vdir分別對應(yīng)詞條(word lemma),POS標(biāo)簽,依存標(biāo)簽以及邊方向的嵌入(embedding)向量。對于每一條路徑p=V_(e_1 ),V_(e_2 ),..., V_(e_k),使用LSTM的輸出向量作為其特征表示Op。
根據(jù)最短依存路徑信息,可以得到(x,y)的上下文嵌入向量表示 :
其中,P(x,y)表示(x,y)的所有依存路徑,c(x,y)(p)表示路徑p在P(x,y)中的頻率。
2.?????? 基于分布式術(shù)語嵌入
使用了兩個(gè)術(shù)語x和y各自的詞嵌入。
3.?????? 基于術(shù)語的字符串特征
給定兩個(gè)術(shù)語的字符串,采用了以下特征:是否大寫,一個(gè)字符串是否以另一個(gè)結(jié)尾,字符串的包含關(guān)系,后綴匹配,最長公共子串和長度差異。
4.?????? 基于共現(xiàn)頻率及廣義性度量
歸一化的頻率差異:,其中,freq(x_i,x_j) 表示的?(x_i,x_j) 原始頻率。
?廣義性(generality)差異:g(x_j)-g(x_i),其中=log(1+|hypo|)表示術(shù)語x的廣義性,即所具有的不同下位詞數(shù)目的log取值。
最終,術(shù)語對(x,y)的表示Rxy由上述所有特征的嵌入向量拼接而成:
其中,, V_(w_x ) , V_(w_y), V_(F_(x,y) ) 分別對應(yīng)路徑表示,x的詞嵌入,y的詞嵌入以及其它的特征向量。
?
端到端的強(qiáng)化學(xué)習(xí)模型
1.?????? 狀態(tài)
t時(shí)刻的狀態(tài)s由當(dāng)前術(shù)語層次Tt和剩余詞匯Vt組成。
2.?????? 動作
t時(shí)刻的一個(gè)動作at定義為:(1) 挑選一個(gè)術(shù)語x1,(2)將x1從Vt刪除,(3)將x1附著到Tt已有的一個(gè)術(shù)語x2下面作為其下位詞。因此,在t時(shí)刻,動作空間的大小為|Tt||Vt|。
3.?????? 獎(jiǎng)勵(lì)
t時(shí)刻,強(qiáng)化學(xué)習(xí)代理采用動作at,在術(shù)語層次中新增邊et=(x1, x2),該動作得到一個(gè)即刻的獎(jiǎng)勵(lì)rt,其定義如下:
其中,F1_(e_t ),F1_(e_(t-1) )分別表示t時(shí)刻和t-1時(shí)刻新增邊后,術(shù)語層次與標(biāo)準(zhǔn)層次比較得到的關(guān)于邊的F1值:
其中,E_sys,E_gold 分別表示系統(tǒng)構(gòu)建的術(shù)語層次和標(biāo)準(zhǔn)術(shù)語層次上邊的集合。???????
??????????? 從當(dāng)前時(shí)刻到終止時(shí)刻的累積獎(jiǎng)勵(lì)大小反映了當(dāng)前動作是否能夠提升術(shù)語層次最終結(jié)構(gòu)的整體質(zhì)量。據(jù)此,強(qiáng)化學(xué)習(xí)代理能夠在動作選擇時(shí)考慮每個(gè)動作的長遠(yuǎn)影響。
4.?????? 策略網(wǎng)絡(luò)
給定當(dāng)前狀態(tài)s,策略網(wǎng)絡(luò) \Pi(a|s;WRL) 決定挑選哪個(gè)術(shù)語對(x1, x2)作為動作,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2表示:
圖2. 策略網(wǎng)絡(luò)結(jié)構(gòu)
?
???????? 在這個(gè)策略網(wǎng)絡(luò)中,每個(gè)術(shù)語對(x,y)的表示由下述向量堆疊(stacking)而成:通過基于路徑的LSTM編碼結(jié)果,兩個(gè)術(shù)語的詞嵌入以及其它特征向量。據(jù)此,可以得到一個(gè)動作矩陣At,大小為(|Vt||Tt|)dim(R),其中,(|Vt||Tt|)代表所有可能的動作(術(shù)語對)數(shù)目,dim(R)代表術(shù)語對表示的維度R。At作為兩層前向反饋網(wǎng)絡(luò)的輸入。最后,使用softmax層輸出不同動作的概率。根據(jù)動作的概率分布,采樣得到一個(gè)動作at:
??????????? 本文使用基于策略梯度的算法REINFORCE來計(jì)算策略網(wǎng)絡(luò)的參數(shù)WRL:
其中,?表示i時(shí)刻的累積獎(jiǎng)勵(lì),γ∈[0,1] 表示未來獎(jiǎng)勵(lì)的折扣因子。
通過WRL的更新,術(shù)語層次的組織結(jié)果反饋到術(shù)語對上位關(guān)系的表示學(xué)習(xí)上。
5.?????? 實(shí)現(xiàn)細(xì)節(jié)
本文使用50維預(yù)訓(xùn)練的GloVe詞向量作為詞嵌入。限定每個(gè)術(shù)語對最多200個(gè)依存路徑。使用Adam優(yōu)化算法來進(jìn)行參數(shù)更新,初始的學(xué)習(xí)率為0.001。折扣因子設(shè)置為0.4。使用DyNet進(jìn)行策略網(wǎng)絡(luò)的學(xué)習(xí)。
?
實(shí)驗(yàn)結(jié)果
本文進(jìn)行了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)比較術(shù)語層次歸納的整體性能。使用WordNet的一個(gè)子集作為數(shù)據(jù)集。第二個(gè)實(shí)驗(yàn)比較子步驟層次結(jié)構(gòu)組織的性能,限定所有方法使用相同的上位關(guān)系圖作為輸入。使用了SemEval-2016 任務(wù)13 (TExEval-2)中英語語言下的兩個(gè)數(shù)據(jù)集:環(huán)境和科學(xué)。實(shí)驗(yàn)選用了F1e和F1a作為度量指標(biāo),其中F1a表示“is-a”術(shù)語對的F1值:
??????????? 表1列出了本文提出的方法與基準(zhǔn)的兩步式方法在端到端術(shù)語層次歸納上的性能。表1的結(jié)果表明,沒有考慮術(shù)語層次整體結(jié)構(gòu)的方法TAXI和HypeNET取得的F1值較低。本文提出的TaxoRL(RE)將上位關(guān)系檢測和組織統(tǒng)一起來,其取得的效果好于將兩個(gè)步驟獨(dú)立開來的方法HypeNET+MST。此外,TaxoRL(NR)允許選取一個(gè)術(shù)語作為新的根節(jié)點(diǎn),而不是像TaxoRL(RE)那樣每次使用一個(gè)固定的虛擬根節(jié)點(diǎn)。這種做法能夠提升F1值。結(jié)合基于頻率和廣義度量的特征(FG)后,TaxoRL(NR)+FG能夠取得最佳F1值。
表1. 術(shù)語層次歸納性能比較
表2列出了不同方法在上位關(guān)系組織上的性能。其中,TaxoRL(Partial)只考慮輸入的上位關(guān)系圖中的術(shù)語對,TaxoRL(Full)則考慮全部可能的術(shù)語對(|V||T|)。由表2的數(shù)據(jù)可見,在術(shù)語層次結(jié)構(gòu)組織上,本文提出的方法TaxoRL(Partial)和TaxoRL(Full)均優(yōu)于其它對比方法。并且,考慮全部術(shù)語對的TaxoRL(Full)性能好于TaxoRL(Partial)。
表2. 上位關(guān)系組織實(shí)驗(yàn)結(jié)果
表3顯示了關(guān)于特征向量的消融研究(ablationstudy)結(jié)果。表3表明不同的特征之間是互補(bǔ)關(guān)系,使用所有的特征能夠取得最佳的效果。
表3. 消融研究
?
[1] Yuning Mao, Xiang Ren, Jiaming Shen, Xiaotao Gu, Jiawei Han. End-to-EndReinforcement Learning for Automatic Taxonomy Induction. In: ACL, pp. 2462-2472,2018
?
論文筆記整理:龔賽賽,南京大學(xué)博士,研究方向?yàn)橹R圖譜、實(shí)體消解、數(shù)據(jù)融合。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
?
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 面向自动分类归纳的端到端强化学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | 如何将图谱实体与关系更好的
- 下一篇: 论文浅尝 | 使用位置敏感的序列标注联合