论文浅尝 | 从树结构的长短期记忆网络改进语义表示
論文筆記整理:竇春柳,天津大學(xué)碩士,方向:自然語(yǔ)言處理
鏈接:https://arxiv.org/pdf/1503.00075.pdf
動(dòng)機(jī)
由于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)這種具有復(fù)雜單元的循環(huán)神經(jīng)網(wǎng)絡(luò)具有良好的表示序列信息的能力,其在多種序列模型任務(wù)中都取得了非常好的結(jié)果。到目前為止一直被使用的LSTM是一個(gè)線性結(jié)構(gòu)。然而,自然語(yǔ)言表現(xiàn)一種將單詞組合在一起形成短語(yǔ)的句法結(jié)構(gòu)。本文引入了Tree-LSTM,將LSTM推廣到樹(shù)狀的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。在兩個(gè)任務(wù)的baseline上,Tree-LSTMs都要優(yōu)于現(xiàn)有的系統(tǒng):預(yù)測(cè)兩個(gè)句子的語(yǔ)義相關(guān)性和情感分類(lèi)。
亮點(diǎn)
本文的亮點(diǎn)主要包括:
(1)將LSTM推廣到樹(shù)狀的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并且它展示出比序列LSTM更好的性能。標(biāo)準(zhǔn)LSTM可以看作是Tree-LSTM的一種特殊情況。
(2)利用實(shí)驗(yàn)驗(yàn)證了Tree-LSTM作為句子的表示模型,具有很好的效果。主要在兩個(gè)任務(wù)上去評(píng)估Tree-LSTM結(jié)構(gòu):句子對(duì)間的語(yǔ)義相關(guān)性的預(yù)測(cè)以及來(lái)自于電影影評(píng)的句子情感分類(lèi)。
概念及模型
本文提出了由基本LSTM擴(kuò)展出的兩種結(jié)構(gòu):Child-Sum Tree-LSTM和N-ary Tree-LSTM。這兩個(gè)變種均允許更豐富的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),其中每個(gè)LSTM單元能夠聯(lián)合來(lái)自多個(gè)子單元的信息。
Tree-LSTM單元
正如標(biāo)準(zhǔn)的LSTM單元那樣,Tree-LSTM單元(由j標(biāo)識(shí))都包含輸入輸出門(mén)i_j, o_j,一個(gè)記憶單元 c_j,以及隱藏狀態(tài) h_j。其與標(biāo)準(zhǔn)LSTM單元的不同之處在于,門(mén)向量和記憶單元的更新依賴于許多子單元。另外,該單元并不只包含一個(gè)遺忘門(mén),Tree-LSTM單元對(duì)每一個(gè)子單元均包含一個(gè)遺忘門(mén) f_jk。這有助于Tree-LSTM單元有選擇地聯(lián)合來(lái)自于每一個(gè)子單元的信息。
每一個(gè)Tree-LSTM單元都有一個(gè)輸入向量 x_j。在我們的應(yīng)用當(dāng)中,每一個(gè) x_j 是一句話中一個(gè)單詞的向量表示。每一個(gè)節(jié)點(diǎn)的輸入單詞依賴于當(dāng)前網(wǎng)絡(luò)的樹(shù)結(jié)構(gòu)。
?
?
Child-Sum Tree-LSTMs
給定一棵樹(shù),令 C(j) 為節(jié)點(diǎn)j的所有子節(jié)點(diǎn)的集合。Child-Sum Tree-LSTM的轉(zhuǎn)移等式如下:
應(yīng)用:Dependency Tree-LSTMs
由于Child-Sum Tree-LSTM單元根據(jù)子單元隱藏狀態(tài) h_k 的總和調(diào)整其組件,因此適用于具有多分支或其子節(jié)點(diǎn)無(wú)序的樹(shù)。例如,它是依存樹(shù)的一個(gè)很好的選擇,其中頭的依存數(shù)目可以是高度可變的我們將應(yīng)用于依存樹(shù)的Child-Sum Tree-LSTM稱(chēng)為Dependency Tree-LSTM。
N-ary Tree-LSTMs
N -ary Tree-LSTM可用于樹(shù)結(jié)構(gòu),其中分支因子最多為N,并且子項(xiàng)是有序的,即它們可以從1到N索引。對(duì)于任何節(jié)點(diǎn)j,分別將其第k個(gè)孩子節(jié)點(diǎn)的隱藏狀態(tài)和記憶細(xì)胞表示為 h_jk 和 c_jk。N -ary Tree-LSTM的轉(zhuǎn)移等式如下:
為每個(gè)孩子k引入單獨(dú)的參數(shù)矩陣允許N-Tree Tree-LSTM模型在單元上對(duì)孩子狀態(tài)學(xué)習(xí)比Child Sum Tree-LSTM更細(xì)粒度。例如,考慮一個(gè)選區(qū)樹(shù)應(yīng)用程序,其中節(jié)點(diǎn)的左孩子節(jié)點(diǎn)對(duì)應(yīng)于名詞短語(yǔ),右孩子節(jié)點(diǎn)對(duì)應(yīng)動(dòng)詞短語(yǔ)。假設(shè)在這種情況下強(qiáng)調(diào)表示中的動(dòng)詞短語(yǔ)是有利的。
遺忘門(mén)參數(shù)化。在等式10中定義了第k個(gè)孩子的遺忘門(mén) f_jk,其中包含了“非對(duì)角線”參數(shù)矩陣 U_kl^(f)。此參數(shù)化允許更靈活地控制從孩子到父節(jié)點(diǎn)的信息傳播。例如,這允許二叉樹(shù)中的左隱藏狀態(tài)對(duì)右孩子的遺忘門(mén)具有興奮或抑制效果。但是,對(duì)于較大的N值,這些附加參數(shù)是不切實(shí)際的,可以綁定或固定為零。
應(yīng)用:Constituency Tree-LSTMs
我們可以自然地將Binary Tree-LSTM單元應(yīng)用于二值化選區(qū)樹(shù),因?yàn)閰^(qū)分了左右子節(jié)點(diǎn)。我們將Binary Tree-LSTM的這種應(yīng)用稱(chēng)為Constituency Tree-LSTM。注意,在選區(qū)樹(shù)-LSTM中,節(jié)點(diǎn)j僅在它是葉節(jié)點(diǎn)時(shí)才接收輸入向量。
模型
現(xiàn)在描述兩個(gè)應(yīng)用是上面描述的Tree-LSTM架構(gòu)的特定模型。
1.Tree-LSTM分類(lèi)
在此背景中,我們希望從樹(shù)的一些子節(jié)點(diǎn)的離散類(lèi)Y中預(yù)測(cè)標(biāo)簽。例如,解析樹(shù)中節(jié)點(diǎn)的標(biāo)簽可以對(duì)應(yīng)于該節(jié)點(diǎn)所跨越的短語(yǔ)的某些屬性。
在每個(gè)節(jié)點(diǎn)j,我們使用softmax分類(lèi)器來(lái)預(yù)測(cè)標(biāo)簽,給定在以j為根的子樹(shù)中的節(jié)點(diǎn)處觀察到的輸入 {x}_j。分類(lèi)器將節(jié)點(diǎn)處的隱藏狀態(tài) h_j 作為輸入:
代價(jià)函數(shù)是每個(gè)標(biāo)記節(jié)點(diǎn)上正確類(lèi)標(biāo)簽 y^(k) 的負(fù)對(duì)數(shù)似然:
其中m是訓(xùn)練集中標(biāo)記節(jié)點(diǎn)的數(shù)量,上標(biāo)k表示第k個(gè)標(biāo)記節(jié)點(diǎn),λ是L2正則化超參數(shù)。
2.句子對(duì)的語(yǔ)義相關(guān)性
給定句子對(duì),我們希望預(yù)測(cè)[1,K]在某個(gè)范圍內(nèi)的實(shí)值相似度得分,其中是K>1整數(shù)。序列{1,2,...,K}是一些序數(shù)相似度,其中較高的分?jǐn)?shù)表示較高的相似度。首先使用每個(gè)句子的解析樹(shù)上的Tree-LSTM模型為對(duì)每個(gè)句子生成句子表示 h_L 和 h_R。給定這些句子表示,使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的相似性得分,該神經(jīng)網(wǎng)絡(luò)同時(shí)考慮(h_L, h_R) 對(duì)之間的距離和角度:
其中 r^T = [1,2,3...K]。使用距離測(cè)量 h_x和 h_+ 是出于經(jīng)驗(yàn):發(fā)現(xiàn)組合優(yōu)于單獨(dú)使用任何一種測(cè)量。乘法度量 h_x 可以解釋為輸入表示符號(hào)的元素比較。
本文希望給定模型參數(shù) Theta 的預(yù)測(cè)分布下的預(yù)期評(píng)級(jí)接近評(píng)級(jí) 。因此,定義了滿足 y=r^T p 的系數(shù)目標(biāo)分布:
代價(jià)函數(shù)是p和 之間正則化的KL-發(fā)散:
其中m是訓(xùn)練對(duì)的數(shù)量,上標(biāo)k表示第k個(gè)句子對(duì)。
理論分析
實(shí)驗(yàn)
1.Sentiment Classification
數(shù)據(jù)集采用Stanford Sentiment Treebank(SST),任務(wù)主要是二分類(lèi)和fine-grained(五分類(lèi))。結(jié)果如下圖所示:
結(jié)果分析:在fine-grained的task上,作者提出的 Constituency Tree-LSTM 獲得了最好的效果,Glove vectors,tuned指使用Glove詞向量初始化embedding,在訓(xùn)練過(guò)程中不斷更新embedding;在二分類(lèi)上,達(dá)到了SOA的結(jié)果,但是并沒(méi)有實(shí)現(xiàn)指標(biāo)上的超越。
Constituency Tree-LSTM比Dependency Tree-LSTM表現(xiàn)好的原因可能在于前者使用了更多的labeled 數(shù)據(jù),因?yàn)閮H從二者樹(shù)結(jié)構(gòu)對(duì)比來(lái)說(shuō),前者會(huì)比后者產(chǎn)生更多的nodes(319K vs 150K).
2.???Semantic Relatedness
數(shù)據(jù)集采用Sentences Involving Compositional Knowledge (SICK),評(píng)價(jià)指標(biāo)包括Pearson系數(shù),Spearman相關(guān)系數(shù)和MSE。結(jié)果如下圖所示:
結(jié)果分析:作者在這個(gè)數(shù)據(jù)集上分別跟non-LSTM模型、RNN模型、LSTM模型做了對(duì)比,均實(shí)現(xiàn)了指標(biāo)上的超越。
總結(jié)
本文引入了Tree-LSTM,將LSTM推廣到樹(shù)狀的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。通過(guò)在兩個(gè)任務(wù)證明了Tree-LSTM的有效性:語(yǔ)義相關(guān)性和情感分類(lèi),兩者均優(yōu)于現(xiàn)有系統(tǒng)。
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng) OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 从树结构的长短期记忆网络改进语义表示的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 东南大学王萌 | “神经+符号”学习与多
- 下一篇: 论文浅尝 | 基于模式的时间表达式识别