Sarcasm Detection with Self-matching Networks and Low-rank Bilinear Pooling
Sarcasm Detection with Self-matching Networks and Low-rank Bilinear Pooling
click here:文章下載
方法綜述:
本文中使用了三個(gè)模型,分別是self-matching network、Bi-LSTM、Low-rank Bilinear Pooling method(LBPR):
self-matching network: 通過單詞對間的信息,獲取句子的incongruity information
Bi-LSTM: 通過句子的序列信息,獲取句子的compositional information
Low-rank Bilinear Pooling method: 融合incongruity information和compositional information
各模型算法:
self-matching network
target: 求輸入句子的 attend feature vector : fa∈Rk?fa=S?af_a \in R^k \implies f_a=S·afa?∈Rk?fa?=S?a
S是輸入句子的word-embedding表示,S∈Rk×nS \in R^{k \times n}S∈Rk×n
于是問題轉(zhuǎn)變成為,求解self-matched attention vector : a∈Rna \in R^na∈Rn
其中,k為單詞表示維度,n為句子單詞數(shù)。
求解a∈Rna \in R^na∈Rn:
考慮到,單詞對表示向量間進(jìn)行內(nèi)積運(yùn)算,只抓住特征向量間的相關(guān)性,卻忽視了情感信息,所以定義了一種新的計(jì)算方式。對于單詞對(ei,ej)(e_i, e_j)(ei?,ej?),ei∈Rke_i \in R^kei?∈Rk:
joint feature vector: wi,j∈R?wi,j=tanh(ei?Mi,j?ejT)w_{i,j} \in R \implies w_{i,j}=tanh(e_i · M_{i,j} · e_j^T)wi,j?∈R?wi,j?=tanh(ei??Mi,j??ejT?)
其中,Mi,j∈Rk×kM_{i,j} \in R^{k \times k}Mi,j?∈Rk×k,是要學(xué)習(xí)的參數(shù)。
建立self-matching information matrix : W∈Rn×nW \in R^{n \times n}W∈Rn×n:
對WWW每行取最大值,組成向量 m∈Rnm \in R^nm∈Rn
?a=Softmax(m)?a∈Rn\implies a=Softmax(m) \implies a \in R^n?a=Softmax(m)?a∈Rn
Bi-LSTM
target: 利用Bi-LSTM的隱含層輸出,作為輸入句子的特征向量feature vector : fl∈Rd?fl=h1f_l \in R^d \implies f_l=h_1fl?∈Rd?fl?=h1?,d是超參數(shù),hi∈Rdh_i \in R^dhi?∈Rd。
注:此處有個(gè)疑問,為什么只使用第一個(gè)時(shí)間步的輸出呢?最后一個(gè)時(shí)間步的輸出又如何呢?
Low-rank Bilinear Pooling
target: 融合上述兩個(gè)模型得到的向量fa∈Rk,fl∈Rdf_a \in R^k, f_l \in R^dfa?∈Rk,fl?∈Rd,得到最終的融合向量f∈Rcf \in R^cf∈Rc,并進(jìn)行二分類,得到輸出向量pi∈R2p_i \in R^2pi?∈R2。c是超參數(shù)。
f=UT?fa°VT?fl+bf=U^T \cdot f_a \circ V^T \cdot f_l + bf=UT?fa?°VT?fl?+b
pi=Softmax(Wf?f+b)p_i=Softmax(W_f \cdot f + b)pi?=Softmax(Wf??f+b)
其中,U∈Rk×c,V∈Rd×c,g∈Rc,Wf∈R2×c,b∈R2U \in R^{k \times c}, V \in R^{d \times c}, g \in R^{c}, W_f \in R_{2 \times c}, b \in R^2U∈Rk×c,V∈Rd×c,g∈Rc,Wf?∈R2×c?,b∈R2,這些都是需要學(xué)習(xí)的參數(shù)。
注:°\circ° 表示 Hadamard Product,簡單來說就是矩陣對應(yīng)位置元素相乘。
訓(xùn)練目標(biāo):
待學(xué)習(xí)參數(shù):θ={Mi,j,U,V,g,Wf,b}\theta = \{ M_{i,j},U,V,g,W_f,b \}θ={Mi,j?,U,V,g,Wf?,b}
超參數(shù):d,c,λd, c, \lambdad,c,λ
總結(jié)
以上是生活随笔為你收集整理的Sarcasm Detection with Self-matching Networks and Low-rank Bilinear Pooling的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python一对小兔子一年后长大成大兔子
- 下一篇: c语言结构体嵌套及输出,C语言结构体嵌套