Attention模型:我的注意力跟你们人类不一样
星標(biāo)/置頂小屋,帶你解鎖
最萌最前沿的NLP、搜索與推薦技術(shù)
文 | 小軼
背景
截至今日,Badanau Attention的原文citation已達(dá)1.34w之多。2020年幾乎所有主流NLP任務(wù)都需要借助attetion來(lái)實(shí)現(xiàn)。在深度學(xué)習(xí)全民煉丹的時(shí)代,attention是為數(shù)不多具有較強(qiáng)可解釋性的機(jī)制。
在attention提出后的最初幾年,大家都因其效果顯著便不假思索地用于了自己的任務(wù);許多paper也理所應(yīng)當(dāng)?shù)卦趯?shí)驗(yàn)部分貼上各式各樣的attention熱圖,用于解釋模型的內(nèi)部運(yùn)作方式(例如下圖)。
能夠解釋模型的工作原理,即可以從模型的中間結(jié)果,分析出其最終結(jié)果產(chǎn)生原因。
一種更高層次的要求是:模型具有類似于人的工作的“思維”過(guò)程。第1種只要求模型中間結(jié)果與最終結(jié)果存在某種固定的關(guān)聯(lián),而這里則還要求該關(guān)聯(lián)與人的思維過(guò)程中是相似的。確實(shí),如果模型的腦回路與我們迥然相異的話,我們又憑什么說(shuō)自己能夠解釋它呢?
在attention的可解釋性上,此前的相關(guān)研究還是單從模型本身出發(fā) (model-driven),也就是只停留在了第1層上。比如去年NAACL上發(fā)表的這篇《Attention is not Explanation》,他們?nèi)藶闃?gòu)造了的新attention向量,用于替換原始向量,發(fā)現(xiàn)模型結(jié)果完全不變。由此,他們否認(rèn)了attention的可解釋性。
今天要和大家分享的這篇paper——《Human Attention Maps for Text Classification: Do Humans and Neural Networks Focus on the Same Words?》,發(fā)表于ACL2020,是第一篇從人機(jī)比較的角度來(lái)討論attention可解釋性的工作。他們先請(qǐng)志愿者在YELP數(shù)據(jù)集上在做文本分類任務(wù),要求志愿者標(biāo)記出影響其分類結(jié)果的重點(diǎn)詞句,作為人類attention(HAM, human attention map)。然后收集不同模型的attention(MAM, machine attention map)。并設(shè)計(jì)了一套評(píng)價(jià)指標(biāo),用于分析HAM與MAM之間的差異,給出了一些初步的insight。
這份工作最大的潛在contribution是這個(gè)HAM的數(shù)據(jù)集(已開源),YELP-HAT。它開辟了一種可能性:基于這個(gè)數(shù)據(jù)集,我們或許可以給attention添加一些supervised的控制來(lái)提高模型表現(xiàn)。在這方面,CV又一次走在了我們的前面。2016年時(shí)一個(gè)類似的CV方向數(shù)據(jù),VQA-HAT,就已提出了(如下圖所示)。該數(shù)據(jù)集標(biāo)記了人類在做看圖問(wèn)答任務(wù)時(shí)的attention所在。之后有大量工作follow,研究如何通過(guò)添加supervision,使模型能夠attend到關(guān)鍵的圖片部分。
原文鏈接:
https://www.aclweb.org/anthology/2020.acl-main.419.pdf
數(shù)據(jù)集鏈接:
http://davis.wpi.edu/dsrg/PROJECTS/YELPHAT/index.html
Arxiv訪問(wèn)慢的小伙伴也可以在訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【0817】下載論文PDF~
HAM vs MAM
這篇paper的思路很好把握:收集HAM數(shù)據(jù)集;生成MAM;設(shè)計(jì)HAM和MAM的比較體系;比較HAM和MAM,得出初步結(jié)論。接下來(lái)分這四個(gè)部分,為大家梳理paper內(nèi)容。
收集HAM
作者團(tuán)隊(duì)請(qǐng)志愿者在YELP數(shù)據(jù)集上在做文本分類任務(wù),要求志愿者標(biāo)記出影響其分類結(jié)果的重點(diǎn)詞句,作為HAM。每一篇文本都有三名志愿者進(jìn)行重復(fù)標(biāo)注。在下圖中,藍(lán)色的是兩名志愿者的標(biāo)注結(jié)果,紅色是模型attention??梢钥吹?#xff0c;與MAM不同,人對(duì)一個(gè)詞的attention非0即1的(binary)。
生成MAM
作者用三種模型跑了YELP任務(wù),用于生成MAM。三種模型分別是:
RNN
BiRNN
Rationale mechanism,用基于規(guī)則的方式構(gòu)造attention向量,旨在用supervised的方法模仿人的attention。
下圖是三個(gè)模型和人類在YELP數(shù)據(jù)集上的表現(xiàn)(YELP-50/100/200是YELP數(shù)據(jù)集的三個(gè)子集,各子集中的文本平均長(zhǎng)度依次遞增)。
HAM與MAM的比較體系
作者設(shè)計(jì)了三個(gè)指標(biāo),從不同維度比較HAM與MAM的異同:
1. 行為相似度(Behavioral Similarity):HAM和MAM兩個(gè)向量之間的AUC,比較了兩者在詞語(yǔ)選擇上的異同。
2. 詞性相似度(Lexical Similarity):先計(jì)算HAM和MAM所選詞匯的詞性分布情況,詞性相似度即為兩者之間的相關(guān)系數(shù)。
3. 情感詞數(shù)量比(Context-dependency of Sentimental Polarity):這個(gè)指標(biāo)的motivation源于作者發(fā)現(xiàn):那些positive類的文本中也會(huì)出現(xiàn)negative的詞匯,反之亦然。進(jìn)行分類判別時(shí),這類文本中positive和negative的詞語(yǔ)往往都會(huì)被attend到。作者希望比較HAM和MAM所attend到的兩類情感詞所占比例是否相同。于是就設(shè)計(jì)了這個(gè)指標(biāo)。
比較結(jié)果與初步結(jié)論
下面分別是用三個(gè)指標(biāo)評(píng)估HAM和MAM間差距的實(shí)驗(yàn)結(jié)果(由于篇幅限制,行為相似度的實(shí)驗(yàn)結(jié)果只展示了部分)。
▲行為相似度(取值范圍:0.5~1)▲詞性相似度▲情感詞數(shù)量比在原文中這部分的表格和分析的文字占了很大的篇幅。主要結(jié)論包括以下三條:三種指標(biāo)上,與人類attention相似度最高的都是BiRNN。
當(dāng)文本長(zhǎng)度增加時(shí),人與模型的attention差異變大。
人與模型的attention在詞性相似度上差距不大;情感詞數(shù)量比上,BiRNN也非常接近人類的表現(xiàn);但從行為相似度評(píng)估結(jié)果來(lái)看,人與模型的差異還是比較大的。
小結(jié)
本文從人機(jī)比較的角度,探討了attention機(jī)制的可解釋性。最大的contribution在于提出了YELP-HAT這一人類attention數(shù)據(jù)集,為attention中引入supervision提供可能。個(gè)人感覺,原文中的實(shí)驗(yàn)結(jié)論還是比較初步的,但不乏繼續(xù)follow、深入挖掘的價(jià)值。
文末福利
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會(huì)審稿人、大廠研究員、知乎大V和妹紙
等你來(lái)撩哦~
總結(jié)
以上是生活随笔為你收集整理的Attention模型:我的注意力跟你们人类不一样的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: EMNLP'21 | 让压缩语言模型自动
- 下一篇: 恕我直言,很多小样本学习的工作就是不切实