论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification
文章目錄
- 1.introduction
- 2.相關(guān)工作
- 3. 本文model
- 3.1general model
- 3.2 mention represent
- 3.3 context model
- 3.3.1 averaging encoder
- 3.3.2 LSTM encoder
- 3.3.3 Attention Encoder
- 4. 實驗
在這項工作中,我們提出了一種新的基于注意的神經(jīng)網(wǎng)絡(luò)模型來完成細粒度實體類型分類的任務(wù)。我們的模型在現(xiàn)有的FIGER數(shù)據(jù)集上獲得了74.94%的微F1-分數(shù),相對提高了2.59%。我們還研究了我們的模型的注意機制的行為,并觀察到它可以學(xué)習(xí)表明實體的細粒度類別成員關(guān)系的上下文語言表達式
1.introduction
- 遞歸地組合實體上下文的表示
- 本文貢獻
- 細粒度實體類型分類的第一個遞歸的模型,該模型學(xué)會遞歸地組合每個mention和上下文的表示,并在數(shù)據(jù)集上取得最先進的性能上。
- 通過將注意機制合并到我們的模型中,我們不僅可以獲得更好的性能,還可以觀察到模型學(xué)習(xí)了表示實體的細粒度類別成員關(guān)系的上下文語言表達式
2.相關(guān)工作
據(jù)我們所知,
- Lee等人(2006)是第一個解決細粒度實體類型分類任務(wù)的人。他們定義了147個細粒度實體類型,并在一個手動注釋的韓國數(shù)據(jù)集上評估了一個基于條件隨機字段的模型。
- Sekine(2008)主張實體類型分類需要大量的類型集合,并定義了200個類型,作為將來細粒度實體類型分類工作的基礎(chǔ)
- Ling和Weld(2012)在Freebase的基礎(chǔ)上定義了112種類型,并使用Mintz等人(2009)提出的遠程監(jiān)控方法從Wikipedia創(chuàng)建了一個培訓(xùn)數(shù)據(jù)集。為了進行評估,他們創(chuàng)建了一個小型的手工注釋的報紙文章數(shù)據(jù)集,并證明了他們的系統(tǒng)FIGER可以通過提供細粒度實體類型預(yù)測作為特性來改進關(guān)系提取系統(tǒng)的性能。
- Yosef等人(2012)將505種類型進行了分級分類,其中數(shù)百種類型處于不同的級別。在此基礎(chǔ)上,他們開發(fā)了一個多標(biāo)簽分級分類系統(tǒng)。
- 在Yogatama等人(2015)中,作者提議使用標(biāo)簽嵌入來允許相關(guān)標(biāo)簽之間的信息共享。這種方法改進了FIGER數(shù)據(jù)集,并且證明了細粒度的標(biāo)簽可以作為特性來改進粗粒度實體類型的類化性能。
- Del Corro等人(2015)引入了迄今為止最細粒度的實體類型分類系統(tǒng),它在整個WordNet層次結(jié)構(gòu)上運行,有超過16000個類型。
- 以前所有的模型都依賴于手工制作的特征,
- Dong等人(2015)定義了22種類型,并創(chuàng)建了兩部分神經(jīng)分類器。他們使用遞歸神經(jīng)網(wǎng)絡(luò)遞歸地獲得每個mention實體的向量表示,并使用固定大小的窗口捕獲每個提及的上下文。我們的工作和他們的工作的關(guān)鍵區(qū)別在于,我們使用遞歸神經(jīng)網(wǎng)絡(luò)來組成上下文表示,并且我們使用注意力機制來允許我們的模型關(guān)注相關(guān)的表達式。
3. 本文model
- 這篇文章最核心的地方來了,也是用RecNN(遞歸神經(jīng)網(wǎng)絡(luò))來表示向量,然后用了attention,并且,是用了一個窗口來獲取上下文的
- l1,l2,...,lC,m1,m2,...,mM,r1,...,rC,C是windowsize,l,r是上下文,mi是一個mentionwordl_1,l_2,...,l_C,m_1,m_2,...,m_M,r_1,...,r_C,C是window size,l,r是上下文,mi是一個mention wordl1?,l2?,...,lC?,m1?,m2?,...,mM?,r1?,...,rC?,C是windowsize,l,r是上下文,mi是一個mentionword
- 我們的模型學(xué)習(xí)mention比學(xué)習(xí)上下文容易–>泛化性能差
- –》用不同的模型來建模mention和上下文
3.1general model
- 這是先分別計算mention和兩邊的context的表達,然后拼接起來,然后乘以權(quán)重,再邏輯回歸層(Sigmoid)
- 無偏置的原因
- 請注意,我們在上述公式中沒有包含偏倚項,因為訓(xùn)練和測試語料庫中的類型分布可能由于域差異而存在顯著差異。也就是說,在邏輯回歸中,偏差與訓(xùn)練集中類型的經(jīng)驗分布相吻合,這將導(dǎo)致在具有不同類型分布的測試集中的糟糕表現(xiàn)。(經(jīng)驗主義)
- 損失函數(shù)
3.2 mention represent
V:vocabulary
u:V->R—embedding
在我們的實驗中,我們驚訝地發(fā)現(xiàn),與Dong等人(2015)的觀察結(jié)果不同,與上面描述的簡單模型相比,復(fù)雜的神經(jīng)模型不能很好地學(xué)習(xí)提及表征。一個可能的解釋是標(biāo)簽訓(xùn)練集和測試集之間的差異。例如,時間標(biāo)簽分配給一星期的天(例如周五,周一和周日)是測試集合,但不是在訓(xùn)練集,而明確的日期(例如2月24日和6月4日)被分配的時間標(biāo)簽的訓(xùn)練集和測試集。這可能是有害的對于復(fù)雜模型由于其傾向overfit訓(xùn)練數(shù)據(jù)。—測試集和訓(xùn)練集時間標(biāo)簽不一樣,復(fù)雜模型過擬合導(dǎo)致結(jié)果不好
3.3 context model
比較了三種方法
3.3.1 averaging encoder
3.3.2 LSTM encoder
- 左、右上下文使用一個lstm cell進行遞歸編碼
- l1,l2,...,lC??得到h1l→,...,hCl→l_1,l_2,...,l_C--得到\overrightarrow{h_1^l},...,\overrightarrow{h_C^l}l1?,l2?,...,lC???得到h1l??,...,hCl??
- rC,...,r1??得到h1r←,...,hCr←r_C,...,r_1--得到\overleftarrow{h_1^r},...,\overleftarrow{h_C^r}rC?,...,r1???得到h1r??,...,hCr??
3.3.3 Attention Encoder
雖然LSTM可以對順序數(shù)據(jù)進行編碼,但它仍然很難學(xué)習(xí)長期依賴關(guān)系。受最近自然語言處理中注意力機制的研究啟發(fā)(Hermann et al., 2015;我們通過引入一種新的注意力機制來規(guī)避這個問題。我們還假設(shè),通過引入注意機制,該模型可以識別分類的信息表達,使模型行為更具可解釋性。
- 用attention:為了處理長期依賴關(guān)系。使有可解釋性
- 首先,對于左右上下文,我們使用雙向編碼序列
LSTMs(每一個位置都有個雙向的表達)
- 其次:
- ai關(guān)注度–已經(jīng)normalize
- 我們將這些標(biāo)準(zhǔn)化標(biāo)量值ai∈R稱為關(guān)注度。最后,我們以雙向LSTMs輸出層的加權(quán)和作為上下文的關(guān)注人工智能加權(quán)表示
4. 實驗
- 使用預(yù)訓(xùn)練word embeddings(300d)
- measure
- 也就是說這N和標(biāo)簽中,兩個標(biāo)簽相同的,占多少,計數(shù)
- 超參數(shù)設(shè)置
- Dm=300維度的word embedding
- lstm隱層:Dh=100
- attention module的隱層Da=50
- 學(xué)習(xí)率=0.005
- mini-batch size=1000
- dropout=0.5–正則化項
- window:
- mention M=5
- context C=15
值得注意的是,我們的方法并不局限于使用固定的窗口大小,而是一個由當(dāng)前處理動態(tài)寬度遞歸神經(jīng)網(wǎng)絡(luò)時所使用的機器學(xué)習(xí)庫的局限性而產(chǎn)生的實現(xiàn)細節(jié)。對于每個epoch,我們對訓(xùn)練數(shù)據(jù)集迭代10次,然后評估開發(fā)集上的模型性能。在訓(xùn)練之后,我們挑選出最好的模型
表2是在人工選出的數(shù)據(jù)上進行的(開發(fā)集)
總結(jié)
以上是生活随笔為你收集整理的论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个走过太多坑的老弟对面向对象知识的总结
- 下一篇: Django - AJAX