基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读
在碎片化閱讀充斥眼球的時(shí)代,越來(lái)越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?85?篇文章本期推薦的論文筆記來(lái)自 PaperWeekly 社區(qū)用戶 @robertdlut。這篇發(fā)表在 ACL 2018 上的論文來(lái)自于杜克大學(xué) Lawrence Carin 教授的實(shí)驗(yàn)室。文章重新審視了 deep learning models(例如 CNN, LSTM)在各類 NLP 任務(wù)中的必要性。
通過(guò)大量的實(shí)驗(yàn)探究(17 個(gè)數(shù)據(jù)集),作者發(fā)現(xiàn)對(duì)于大多數(shù)的 NLP 問(wèn)題,在 word embedding 矩陣上做簡(jiǎn)單的 pooling 操作就達(dá)到了比 CNN encoder 或者 LSTM encoder 更好的的結(jié)果。
如果你對(duì)本文工作感興趣,點(diǎn)擊底部閱讀原文即可查看原論文。
關(guān)于作者:羅凌,大連理工大學(xué)博士生,研究方向?yàn)樯疃葘W(xué)習(xí)、文本分類和實(shí)體識(shí)別。
■?論文 | Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
■ 鏈接 | https://www.paperweekly.site/papers/1987
■ 源碼 | https://github.com/dinghanshen/SWEM
最近閱讀了 Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms 這篇論文,該工作來(lái)自杜克大學(xué),發(fā)表在 ACL 2018 上。
論文詳細(xì)比較了直接在詞向量上進(jìn)行池化的簡(jiǎn)單模型和主流神經(jīng)網(wǎng)絡(luò)模型(例如 CNN 和 RNN)在 NLP 多個(gè)任務(wù)上的效果。實(shí)驗(yàn)結(jié)果表明,在很多任務(wù)上簡(jiǎn)單的詞向量模型和神經(jīng)網(wǎng)絡(luò)模型(CNN 和 LSTM)的效果相當(dāng),有些任務(wù)甚至簡(jiǎn)單模型更好。下面是我對(duì)這篇論文的閱讀筆記。
引言
在 NLP 領(lǐng)域,詞向量(word embedding)已經(jīng)受到了研究者們的廣泛關(guān)注和應(yīng)用。它通過(guò)大量的無(wú)標(biāo)簽數(shù)據(jù)將每個(gè)詞表示成一個(gè)固定維度的向量。相比傳統(tǒng)的獨(dú)熱(one-hot)表示,詞向量具有低維緊密的特點(diǎn),并能學(xué)習(xí)到豐富的語(yǔ)義和句法信息。目前代表性的詞向量工作有 word2vec [1] 和 GloVe [2]。
在 NLP 領(lǐng)域,使用詞向量將一個(gè)變長(zhǎng)文本表示成一個(gè)固定向量的常用方法有:1)以詞向量為輸入,使用一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)(CNN,RNN 等)來(lái)進(jìn)行文本表示學(xué)習(xí);2)在詞向量的基礎(chǔ)上,直接簡(jiǎn)單的使用按元素求均值或者相加的簡(jiǎn)單方法來(lái)表示。
對(duì)于復(fù)雜神經(jīng)網(wǎng)絡(luò)方法,模型復(fù)雜計(jì)算量大耗時(shí)。該論文通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),基于詞向量的簡(jiǎn)單池化模型對(duì)于大多數(shù)的 NLP 問(wèn)題,已經(jīng)表現(xiàn)得足夠好,有時(shí)甚至效果超過(guò)了復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。
方法
該文對(duì)比的主流神經(jīng)網(wǎng)絡(luò)模型為:LSTM 和 CNN。對(duì)于 LSTM 特點(diǎn)在于使用門(mén)機(jī)制來(lái)學(xué)習(xí)長(zhǎng)距離依賴信息,可以認(rèn)為考慮了詞序信息。對(duì)于 CNN 特點(diǎn)是利用滑動(dòng)窗口卷積連續(xù)的詞特征,然后通過(guò)池化操作學(xué)習(xí)到最顯著的語(yǔ)義特征。 對(duì)于簡(jiǎn)單的詞向量模型(Simple word-embedding model,SWEM),作者提出了下面幾種方法。
SWEM-aver:就是平均池化,對(duì)詞向量的按元素求均值。這種方法相當(dāng)于考慮了每個(gè)詞的信息。
SWEM-max:最大池化,對(duì)詞向量每一維取最大值。這種方法相當(dāng)于考慮最顯著特征信息,其他無(wú)關(guān)或者不重要的信息被忽略。
SWEM-concat:考慮到上面兩種池化方法信息是互補(bǔ)的,這種變體是對(duì)上面兩種池化方法得到的結(jié)果進(jìn)行拼接。
SWEM-hier:上面的方法并沒(méi)有考慮詞序和空間信息,提出的層次池化先使用大小為 n 局部窗口進(jìn)行平均池化,然后再使用全局最大池化。該方法其實(shí)類似我們常用的 n-grams 特征。
接下來(lái)對(duì)比一下 SWEM 和神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。可以看到 SWEM 僅對(duì)詞向量使用池化操作,并沒(méi)有額外的參數(shù),且可以高度并行化。
實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)中,使用了 300 維的 GloVe 詞向量,對(duì)于未登錄詞按照均勻分布進(jìn)行初始化。最終的分類器使用了多層感知機(jī) MLP 進(jìn)行分類。在文檔分類,文本序列匹配和句子分類三大任務(wù),共 17 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)并進(jìn)行了詳細(xì)的分析。?
文檔分類?
實(shí)驗(yàn)中的文檔分類任務(wù)能被分為三種類型:主題分類,情感分析和本體分類。實(shí)驗(yàn)結(jié)果如下:
令人驚奇的是在主題分類任務(wù)上,SWEM 模型獲得了比 LSTM 和 CNN 更好的結(jié)果,特別是 SWEM-concat 模型的效果甚至優(yōu)于 29 層的 Deep CNN。在本體分類任務(wù)上也有類似的趨勢(shì)。有趣的是對(duì)于情感分析任務(wù),CNN 和 LSTM 效果要好于不考慮詞序信息的 SWEM 模型。對(duì)于考慮了詞序和空間信息的 SWEM-hier 取得了和 CNN/LSTM 相當(dāng)?shù)慕Y(jié)果。這可能是情感分析任務(wù)需要詞序信息。例如“not really good”和“really not good”的情感等級(jí)是不一樣的。?
在大多數(shù)任務(wù)上 SWEM-max 的方法略差于 SWEM-aver,但是它提供了互補(bǔ)的信息,所以 SWEM-concat 獲得了更好的結(jié)果。更重要的是,SWEM-max 具有很強(qiáng)的模型解釋性。
論文在 Yahoo 數(shù)據(jù)集上訓(xùn)練了 SWEM-max 模型(詞向量隨機(jī)初始化)。然后根據(jù)訓(xùn)練學(xué)習(xí)后的詞向量中的每一維的值畫(huà)了直方圖,如下圖 1:
可以看到相比與 GloVe,SWEM-max 學(xué)習(xí)出來(lái)的詞向量是十分稀疏的,這說(shuō)明在預(yù)測(cè)文本時(shí),模型只依靠一些關(guān)鍵詞,這就增加了模型的解釋性。論文在整個(gè)詞匯表中根據(jù)詞向量維度挑選出了一個(gè)維度中值最大的 5 個(gè)詞展示在表 3 中。可以看到每個(gè)維度選出的詞是同一個(gè)主題相關(guān)的。甚至模型可以學(xué)到?jīng)]有標(biāo)簽信息的結(jié)構(gòu),例如表 3 中的“Chemistry”,在數(shù)據(jù)集中是沒(méi)有 chemistry 標(biāo)簽的,它屬于 science 主題。
在模型時(shí)間上,SWEM 模型要比 CNN 和 LSTM 都高效。
文本序列匹配?
在句子匹配問(wèn)題的實(shí)驗(yàn)室中,主要包括自然語(yǔ)言推理,問(wèn)答中答案句選擇和復(fù)述識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果如下:
可以看到除了 WikiQA 數(shù)據(jù)集,其他數(shù)據(jù)集上,SWEM 模型獲得了比 CNN 和 LSTM 更好的結(jié)果。這可能是因?yàn)樵诋?dāng)匹配自然語(yǔ)言句子時(shí),在大多數(shù)情況下,只需要使用簡(jiǎn)單模型對(duì)兩個(gè)序列之間在單詞級(jí)別上進(jìn)行對(duì)比就足夠了。從這方面也可以看出,詞序信息對(duì)于句子匹配的作用比較小。此外簡(jiǎn)單模型比 LSTM 和 CNN 更容易優(yōu)化。
句子分類?
相比與前面的文檔分類,句子分類任務(wù)平均只有 20 個(gè)詞的長(zhǎng)度。實(shí)驗(yàn)結(jié)果如下:
在情感分類任務(wù)上,和前面文檔分類的實(shí)驗(yàn)結(jié)果一樣,SWEM 效果差于 LSTM 和 CNN,在其他兩個(gè)任務(wù)上,效果只是略差于 NN 模型。相比與前面的文檔分類,在短句子分類上 SWEM 的效果要比長(zhǎng)文檔的分類效果要差。這也可能是由于短句中詞序信息更重要。
此外,論文還在附加材料中補(bǔ)充了對(duì)序列標(biāo)注任務(wù)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:
可以看到對(duì)于詞序敏感的序列標(biāo)注任務(wù),SWEM 的效果明顯要差于 CNN 和 RNN。?
詞序信息的重要性?
從上面可以看到,SWEM 模型的一個(gè)缺點(diǎn)在于忽略了詞序信息,而 CNN 和 LSTM 模型能夠一定程度的學(xué)習(xí)詞序信息。那么在上述的這些任務(wù)中,詞序信息到底有多重要?
為了探索這個(gè)問(wèn)題,該文將訓(xùn)練數(shù)據(jù)集的詞序打亂,并保持測(cè)試集的詞序不變,就是為了去掉詞序信息。然后使用了能夠?qū)W習(xí)詞序信息 LSTM 模型進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:
令人驚奇地發(fā)現(xiàn),在 Yahoo 和 SNLI 數(shù)據(jù)集(也就是主題分類和文本蘊(yùn)涵任務(wù))上,在亂序訓(xùn)練集上訓(xùn)練的 LSTM 取得了和原始詞序相當(dāng)?shù)慕Y(jié)果。這說(shuō)明詞序信息對(duì)這兩個(gè)問(wèn)題并沒(méi)有明顯的幫助。但是在情感分析任務(wù)上,亂序的 LSTM 結(jié)果還是有所下降,說(shuō)明詞序?qū)τ谇楦蟹治鋈蝿?wù)還是比較重要。
再來(lái)看看 SWEM-hier 在情感分析上的效果,相比與 SWEM 其他模型,SWEM-hier 相當(dāng)于學(xué)習(xí)了 n-gram 特征,保留了一定的局部詞序信息。在兩個(gè)情感任務(wù)上效果也是由于其他 SWEM 模型,這也證明了 SWEM-hier 能夠?qū)W習(xí)一定的詞序信息。
其他實(shí)驗(yàn)?
除了上述實(shí)驗(yàn),該文還設(shè)置了一些實(shí)驗(yàn)在說(shuō)明 SWEM 的性能。對(duì)于之前的使用非線性的 MLP 作為分類器,替換成了線性分類器進(jìn)行了實(shí)驗(yàn)。在 Yahoo(從 73.53% 到 73.18%)和 Yelp P(93.76% 到 93.66%)數(shù)據(jù)集上 SWEM 的效果并未明顯下降。這也說(shuō)明了 SWEM 模型能夠抽取魯棒、有信息的句子表示。
該文還在中文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明層次池化比最大和平均池化更適合中文文本分類,這樣暗示了中文可能比英文對(duì)詞序更加敏感。?
在附加材料中,該文還用 SWEM-concat 模型在 Yahoo 數(shù)據(jù)集上對(duì)詞向量維度(從 3 維到 1000 維)進(jìn)行了實(shí)驗(yàn),這里詞向量使用隨機(jī)初始化。
可以看到高的維度一般效果會(huì)更好一些,因?yàn)槟軌虮硎靖S富的語(yǔ)義信息。但是,可以看到詞向量在 10 維的時(shí)候已經(jīng)可以達(dá)到和 1000 維相當(dāng)?shù)男ЧF鋵?shí)這也和論文 [3] 的結(jié)果比較一致,在一些任務(wù)上小維度的詞向量效果也已經(jīng)足夠好了。
此外,論文還對(duì)訓(xùn)練集規(guī)模對(duì)模型效果影響進(jìn)行了實(shí)驗(yàn)。在 Yahoo 和 SNLI 數(shù)據(jù)集上分別取不同比例的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練測(cè)試,結(jié)果如下圖:
可以看到當(dāng)標(biāo)注訓(xùn)練集規(guī)模比較小時(shí),簡(jiǎn)單的 SWEM 模型的效果更好,這可能也是 CNN 和 LSTM 復(fù)雜模型在小規(guī)模訓(xùn)練數(shù)據(jù)上容易過(guò)擬合導(dǎo)致的。
總結(jié)
該論文展示了在詞向量上僅使用池化操作的簡(jiǎn)單模型 SWEM 的性能,在多個(gè) NLP 任務(wù)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),比較了 SWEM 和目前主流的 NN 模型(CNN 和 LSTM)性能。
實(shí)驗(yàn)發(fā)現(xiàn),SWEM 這樣簡(jiǎn)單的基線系統(tǒng)在很多任務(wù)上取得了與 NN 相當(dāng)?shù)慕Y(jié)果,實(shí)驗(yàn)中的一些總結(jié)如下:
1. 簡(jiǎn)單的池化操作對(duì)于長(zhǎng)文檔(上百個(gè)詞)表示具有不錯(cuò)的表現(xiàn),而循環(huán)和卷積操作對(duì)于短文本更有效;
2. 情感分析任務(wù)相比主題文本分類任務(wù)對(duì)詞序特征更敏感,但是該文提出的一種簡(jiǎn)單的層次池化也能夠?qū)W習(xí)一定的詞序信息,和 LSTM/CNN 在情感分析任務(wù)上取得了相當(dāng)?shù)慕Y(jié)果;
3. 對(duì)于句子匹配問(wèn)題,簡(jiǎn)單的池化操作已經(jīng)展現(xiàn)出了與 LSTM/CNN 相當(dāng)甚至更好的性能;
4. 對(duì)于 SWEM-max 模型,可以通過(guò)對(duì)詞向量維度的分析得到較好的模型解釋;
5. 在一些任務(wù)上,詞向量的維度有時(shí)在低維已經(jīng)足夠好;
6. 在標(biāo)注訓(xùn)練集規(guī)模小的時(shí)候,簡(jiǎn)單的 SWEM 模型可能更加魯棒、獲得更好的表現(xiàn)。
總的來(lái)說(shuō),我們?cè)谶M(jìn)行研究時(shí),有時(shí)為了讓模型學(xué)習(xí)到更為豐富的信息,會(huì)把模型設(shè)計(jì)得十分復(fù)雜,但是這篇論文通過(guò)實(shí)驗(yàn)告訴了我們,簡(jiǎn)單的基線系統(tǒng)也能夠獲得很不錯(cuò)的表現(xiàn)。當(dāng)我們做具體任務(wù)時(shí),應(yīng)該根據(jù)具體需求來(lái)選擇設(shè)計(jì)模型(模型效果,模型復(fù)雜度,模型運(yùn)行時(shí)間等的權(quán)衡),簡(jiǎn)單有效的系統(tǒng)也應(yīng)該受到關(guān)注。
參考文獻(xiàn)
[1] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.?
[2] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.?
[3] Lai, Siwei, et al. "How to generate a good word embedding." IEEE Intelligent Systems 31.6 (2016): 5-14.
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
點(diǎn)擊標(biāo)題查看更多論文解讀:?
??DeepMind論文解讀:讓機(jī)器更深入地理解文本
??深度神經(jīng)網(wǎng)絡(luò)模型壓縮和加速都有哪些方法?
??上海交大提出多模態(tài)情緒識(shí)別框架EmotionMeter
??綜述:圖像風(fēng)格化算法最全盤(pán)點(diǎn)
?CVPR 2018最佳論文解讀:探秘任務(wù)遷移學(xué)習(xí)
?深度協(xié)同過(guò)濾:用神經(jīng)網(wǎng)絡(luò)取代內(nèi)積建模
? ? ? ? ??
AI活動(dòng)推薦
?
中國(guó)人工智能大會(huì) CCAI 2018
AI領(lǐng)域規(guī)格最高、規(guī)模最大
影響力最強(qiáng)的專業(yè)會(huì)議之一
熱點(diǎn)話題√核心技術(shù)√科學(xué)問(wèn)題√
?
?活動(dòng)時(shí)間?
2018年7月28日-29日?
中國(guó)·深圳
長(zhǎng)按識(shí)別二維碼,查看大會(huì)簡(jiǎn)介
▼
基于深度學(xué)習(xí)的自然語(yǔ)言處理
作者:[以色列] 約阿夫·戈?duì)柕仑惛?#xff08;Yoav Goldberg)、車萬(wàn)翔 郭江 張偉男 劉銘 譯
當(dāng)當(dāng) 廣告 購(gòu)買? ? ? ? ? ?
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文
總結(jié)
以上是生活随笔為你收集整理的基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 首届中国高校计算机大赛-人工智能创意赛启
- 下一篇: 实录分享 | 计算未来轻沙龙:对话系统研