基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读
在碎片化閱讀充斥眼球的時代,越來越少的人會去關(guān)注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?85?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @robertdlut。這篇發(fā)表在 ACL 2018 上的論文來自于杜克大學 Lawrence Carin 教授的實驗室。文章重新審視了 deep learning models(例如 CNN, LSTM)在各類 NLP 任務(wù)中的必要性。
通過大量的實驗探究(17 個數(shù)據(jù)集),作者發(fā)現(xiàn)對于大多數(shù)的 NLP 問題,在 word embedding 矩陣上做簡單的 pooling 操作就達到了比 CNN encoder 或者 LSTM encoder 更好的的結(jié)果。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關(guān)于作者:羅凌,大連理工大學博士生,研究方向為深度學習、文本分類和實體識別。
■?論文 | Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
■ 鏈接 | https://www.paperweekly.site/papers/1987
■ 源碼 | https://github.com/dinghanshen/SWEM
最近閱讀了 Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms 這篇論文,該工作來自杜克大學,發(fā)表在 ACL 2018 上。
論文詳細比較了直接在詞向量上進行池化的簡單模型和主流神經(jīng)網(wǎng)絡(luò)模型(例如 CNN 和 RNN)在 NLP 多個任務(wù)上的效果。實驗結(jié)果表明,在很多任務(wù)上簡單的詞向量模型和神經(jīng)網(wǎng)絡(luò)模型(CNN 和 LSTM)的效果相當,有些任務(wù)甚至簡單模型更好。下面是我對這篇論文的閱讀筆記。
引言
在 NLP 領(lǐng)域,詞向量(word embedding)已經(jīng)受到了研究者們的廣泛關(guān)注和應(yīng)用。它通過大量的無標簽數(shù)據(jù)將每個詞表示成一個固定維度的向量。相比傳統(tǒng)的獨熱(one-hot)表示,詞向量具有低維緊密的特點,并能學習到豐富的語義和句法信息。目前代表性的詞向量工作有 word2vec [1] 和 GloVe [2]。
在 NLP 領(lǐng)域,使用詞向量將一個變長文本表示成一個固定向量的常用方法有:1)以詞向量為輸入,使用一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)(CNN,RNN 等)來進行文本表示學習;2)在詞向量的基礎(chǔ)上,直接簡單的使用按元素求均值或者相加的簡單方法來表示。
對于復(fù)雜神經(jīng)網(wǎng)絡(luò)方法,模型復(fù)雜計算量大耗時。該論文通過大量實驗發(fā)現(xiàn),基于詞向量的簡單池化模型對于大多數(shù)的 NLP 問題,已經(jīng)表現(xiàn)得足夠好,有時甚至效果超過了復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。
方法
該文對比的主流神經(jīng)網(wǎng)絡(luò)模型為:LSTM 和 CNN。對于 LSTM 特點在于使用門機制來學習長距離依賴信息,可以認為考慮了詞序信息。對于 CNN 特點是利用滑動窗口卷積連續(xù)的詞特征,然后通過池化操作學習到最顯著的語義特征。 對于簡單的詞向量模型(Simple word-embedding model,SWEM),作者提出了下面幾種方法。
SWEM-aver:就是平均池化,對詞向量的按元素求均值。這種方法相當于考慮了每個詞的信息。
SWEM-max:最大池化,對詞向量每一維取最大值。這種方法相當于考慮最顯著特征信息,其他無關(guān)或者不重要的信息被忽略。
SWEM-concat:考慮到上面兩種池化方法信息是互補的,這種變體是對上面兩種池化方法得到的結(jié)果進行拼接。
SWEM-hier:上面的方法并沒有考慮詞序和空間信息,提出的層次池化先使用大小為 n 局部窗口進行平均池化,然后再使用全局最大池化。該方法其實類似我們常用的 n-grams 特征。
接下來對比一下 SWEM 和神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。可以看到 SWEM 僅對詞向量使用池化操作,并沒有額外的參數(shù),且可以高度并行化。
實驗結(jié)果與分析
實驗中,使用了 300 維的 GloVe 詞向量,對于未登錄詞按照均勻分布進行初始化。最終的分類器使用了多層感知機 MLP 進行分類。在文檔分類,文本序列匹配和句子分類三大任務(wù),共 17 個數(shù)據(jù)集上進行了實驗并進行了詳細的分析。?
文檔分類?
實驗中的文檔分類任務(wù)能被分為三種類型:主題分類,情感分析和本體分類。實驗結(jié)果如下:
令人驚奇的是在主題分類任務(wù)上,SWEM 模型獲得了比 LSTM 和 CNN 更好的結(jié)果,特別是 SWEM-concat 模型的效果甚至優(yōu)于 29 層的 Deep CNN。在本體分類任務(wù)上也有類似的趨勢。有趣的是對于情感分析任務(wù),CNN 和 LSTM 效果要好于不考慮詞序信息的 SWEM 模型。對于考慮了詞序和空間信息的 SWEM-hier 取得了和 CNN/LSTM 相當?shù)慕Y(jié)果。這可能是情感分析任務(wù)需要詞序信息。例如“not really good”和“really not good”的情感等級是不一樣的。?
在大多數(shù)任務(wù)上 SWEM-max 的方法略差于 SWEM-aver,但是它提供了互補的信息,所以 SWEM-concat 獲得了更好的結(jié)果。更重要的是,SWEM-max 具有很強的模型解釋性。
論文在 Yahoo 數(shù)據(jù)集上訓(xùn)練了 SWEM-max 模型(詞向量隨機初始化)。然后根據(jù)訓(xùn)練學習后的詞向量中的每一維的值畫了直方圖,如下圖 1:
可以看到相比與 GloVe,SWEM-max 學習出來的詞向量是十分稀疏的,這說明在預(yù)測文本時,模型只依靠一些關(guān)鍵詞,這就增加了模型的解釋性。論文在整個詞匯表中根據(jù)詞向量維度挑選出了一個維度中值最大的 5 個詞展示在表 3 中。可以看到每個維度選出的詞是同一個主題相關(guān)的。甚至模型可以學到?jīng)]有標簽信息的結(jié)構(gòu),例如表 3 中的“Chemistry”,在數(shù)據(jù)集中是沒有 chemistry 標簽的,它屬于 science 主題。
在模型時間上,SWEM 模型要比 CNN 和 LSTM 都高效。
文本序列匹配?
在句子匹配問題的實驗室中,主要包括自然語言推理,問答中答案句選擇和復(fù)述識別任務(wù)。實驗結(jié)果如下:
可以看到除了 WikiQA 數(shù)據(jù)集,其他數(shù)據(jù)集上,SWEM 模型獲得了比 CNN 和 LSTM 更好的結(jié)果。這可能是因為在當匹配自然語言句子時,在大多數(shù)情況下,只需要使用簡單模型對兩個序列之間在單詞級別上進行對比就足夠了。從這方面也可以看出,詞序信息對于句子匹配的作用比較小。此外簡單模型比 LSTM 和 CNN 更容易優(yōu)化。
句子分類?
相比與前面的文檔分類,句子分類任務(wù)平均只有 20 個詞的長度。實驗結(jié)果如下:
在情感分類任務(wù)上,和前面文檔分類的實驗結(jié)果一樣,SWEM 效果差于 LSTM 和 CNN,在其他兩個任務(wù)上,效果只是略差于 NN 模型。相比與前面的文檔分類,在短句子分類上 SWEM 的效果要比長文檔的分類效果要差。這也可能是由于短句中詞序信息更重要。
此外,論文還在附加材料中補充了對序列標注任務(wù)的實驗,實驗結(jié)果如下:
可以看到對于詞序敏感的序列標注任務(wù),SWEM 的效果明顯要差于 CNN 和 RNN。?
詞序信息的重要性?
從上面可以看到,SWEM 模型的一個缺點在于忽略了詞序信息,而 CNN 和 LSTM 模型能夠一定程度的學習詞序信息。那么在上述的這些任務(wù)中,詞序信息到底有多重要?
為了探索這個問題,該文將訓(xùn)練數(shù)據(jù)集的詞序打亂,并保持測試集的詞序不變,就是為了去掉詞序信息。然后使用了能夠?qū)W習詞序信息 LSTM 模型進行了實驗,實驗結(jié)果如下:
令人驚奇地發(fā)現(xiàn),在 Yahoo 和 SNLI 數(shù)據(jù)集(也就是主題分類和文本蘊涵任務(wù))上,在亂序訓(xùn)練集上訓(xùn)練的 LSTM 取得了和原始詞序相當?shù)慕Y(jié)果。這說明詞序信息對這兩個問題并沒有明顯的幫助。但是在情感分析任務(wù)上,亂序的 LSTM 結(jié)果還是有所下降,說明詞序?qū)τ谇楦蟹治鋈蝿?wù)還是比較重要。
再來看看 SWEM-hier 在情感分析上的效果,相比與 SWEM 其他模型,SWEM-hier 相當于學習了 n-gram 特征,保留了一定的局部詞序信息。在兩個情感任務(wù)上效果也是由于其他 SWEM 模型,這也證明了 SWEM-hier 能夠?qū)W習一定的詞序信息。
其他實驗?
除了上述實驗,該文還設(shè)置了一些實驗在說明 SWEM 的性能。對于之前的使用非線性的 MLP 作為分類器,替換成了線性分類器進行了實驗。在 Yahoo(從 73.53% 到 73.18%)和 Yelp P(93.76% 到 93.66%)數(shù)據(jù)集上 SWEM 的效果并未明顯下降。這也說明了 SWEM 模型能夠抽取魯棒、有信息的句子表示。
該文還在中文數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明層次池化比最大和平均池化更適合中文文本分類,這樣暗示了中文可能比英文對詞序更加敏感。?
在附加材料中,該文還用 SWEM-concat 模型在 Yahoo 數(shù)據(jù)集上對詞向量維度(從 3 維到 1000 維)進行了實驗,這里詞向量使用隨機初始化。
可以看到高的維度一般效果會更好一些,因為能夠表示更豐富的語義信息。但是,可以看到詞向量在 10 維的時候已經(jīng)可以達到和 1000 維相當?shù)男ЧF鋵嵾@也和論文 [3] 的結(jié)果比較一致,在一些任務(wù)上小維度的詞向量效果也已經(jīng)足夠好了。
此外,論文還對訓(xùn)練集規(guī)模對模型效果影響進行了實驗。在 Yahoo 和 SNLI 數(shù)據(jù)集上分別取不同比例的訓(xùn)練集對模型進行訓(xùn)練測試,結(jié)果如下圖:
可以看到當標注訓(xùn)練集規(guī)模比較小時,簡單的 SWEM 模型的效果更好,這可能也是 CNN 和 LSTM 復(fù)雜模型在小規(guī)模訓(xùn)練數(shù)據(jù)上容易過擬合導(dǎo)致的。
總結(jié)
該論文展示了在詞向量上僅使用池化操作的簡單模型 SWEM 的性能,在多個 NLP 任務(wù)數(shù)據(jù)集上進行了實驗,比較了 SWEM 和目前主流的 NN 模型(CNN 和 LSTM)性能。
實驗發(fā)現(xiàn),SWEM 這樣簡單的基線系統(tǒng)在很多任務(wù)上取得了與 NN 相當?shù)慕Y(jié)果,實驗中的一些總結(jié)如下:
1. 簡單的池化操作對于長文檔(上百個詞)表示具有不錯的表現(xiàn),而循環(huán)和卷積操作對于短文本更有效;
2. 情感分析任務(wù)相比主題文本分類任務(wù)對詞序特征更敏感,但是該文提出的一種簡單的層次池化也能夠?qū)W習一定的詞序信息,和 LSTM/CNN 在情感分析任務(wù)上取得了相當?shù)慕Y(jié)果;
3. 對于句子匹配問題,簡單的池化操作已經(jīng)展現(xiàn)出了與 LSTM/CNN 相當甚至更好的性能;
4. 對于 SWEM-max 模型,可以通過對詞向量維度的分析得到較好的模型解釋;
5. 在一些任務(wù)上,詞向量的維度有時在低維已經(jīng)足夠好;
6. 在標注訓(xùn)練集規(guī)模小的時候,簡單的 SWEM 模型可能更加魯棒、獲得更好的表現(xiàn)。
總的來說,我們在進行研究時,有時為了讓模型學習到更為豐富的信息,會把模型設(shè)計得十分復(fù)雜,但是這篇論文通過實驗告訴了我們,簡單的基線系統(tǒng)也能夠獲得很不錯的表現(xiàn)。當我們做具體任務(wù)時,應(yīng)該根據(jù)具體需求來選擇設(shè)計模型(模型效果,模型復(fù)雜度,模型運行時間等的權(quán)衡),簡單有效的系統(tǒng)也應(yīng)該受到關(guān)注。
參考文獻
[1] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.?
[2] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.?
[3] Lai, Siwei, et al. "How to generate a good word embedding." IEEE Intelligent Systems 31.6 (2016): 5-14.
本文由 AI 學術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數(shù)據(jù)挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區(qū)!
點擊標題查看更多論文解讀:?
??DeepMind論文解讀:讓機器更深入地理解文本
??深度神經(jīng)網(wǎng)絡(luò)模型壓縮和加速都有哪些方法?
??上海交大提出多模態(tài)情緒識別框架EmotionMeter
??綜述:圖像風格化算法最全盤點
?CVPR 2018最佳論文解讀:探秘任務(wù)遷移學習
?深度協(xié)同過濾:用神經(jīng)網(wǎng)絡(luò)取代內(nèi)積建模
? ? ? ? ??
AI活動推薦
?
中國人工智能大會 CCAI 2018
AI領(lǐng)域規(guī)格最高、規(guī)模最大
影響力最強的專業(yè)會議之一
熱點話題√核心技術(shù)√科學問題√
?
?活動時間?
2018年7月28日-29日?
中國·深圳
長按識別二維碼,查看大會簡介
▼
基于深度學習的自然語言處理
作者:[以色列] 約阿夫·戈爾德貝格(Yoav Goldberg)、車萬翔 郭江 張偉男 劉銘 譯
當當 廣告 購買? ? ? ? ? ?
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結(jié)
以上是生活随笔為你收集整理的基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 首届中国高校计算机大赛-人工智能创意赛启
- 下一篇: 使用PaddleFluid和Tensor