Baseline needs more love
- Baseline needs more love
- 1.Paper Info
- 2.Paper highlights
- 2.1.Highlights
- 2.2.Other words
Baseline needs more love
Author: Cao Shengming
Email: caoshengming@trio.ai
Company: Trio 北京(三角獸)科技有限公司
1.Paper Info
- Release time: 24 May 2018
- link: https://arxiv.org/abs/1805.09843
- code: https://github.com/dinghanshen/SWEM
2.Paper highlights
2.1.Highlights
? ? 文章的亮點(diǎn)是對(duì)于我們最熟悉的詞向量,進(jìn)行了精細(xì)化的探討。文章將模型訓(xùn)練所涉及的參數(shù)分類了兩個(gè)部分,分別是 embedding paremeters 和 model parameters。這其實(shí)就是無(wú)監(jiān)督學(xué)習(xí)引入的參量,和具體有監(jiān)督學(xué)習(xí)附帶的參量。而這些參量是否更新,以及后者的維度對(duì)于模型表達(dá)能力的影響等問題,作者也進(jìn)行了相應(yīng)的探討。
? ? 對(duì)我們的啟示就是對(duì)于一些簡(jiǎn)單的任務(wù)來(lái)說(shuō),單純的詞向量變換和更新,就可以滿足需求了。這里的變換主要涉及三種,max,average 和 hierarchical,這其實(shí)就是用 pooling 操作取代了傳統(tǒng)的操作,max 取得是核心元素(距離短),average 取得是平均結(jié)果(距離長(zhǎng)),而 hierarchical 則采用窗口概念,將操作單元轉(zhuǎn)換為 n-gram(n 為窗口大小),這樣就保留了一部分語(yǔ)序信息在里邊。
? ? 作者針對(duì)詞序信息(word-order)信息在 NLP 相關(guān)任務(wù)中的作用,實(shí)際與直觀上的一致,對(duì)于序列標(biāo)注等對(duì)語(yǔ)序依賴較強(qiáng)的任務(wù),還是 LSTM、CNN 等操作更為有效。這里作者給了這些網(wǎng)絡(luò)一個(gè)提法,叫 composition function,我們就可以理解為一個(gè)映射函數(shù),會(huì)將輸入映射到特征空間進(jìn)行操作。
? ? 在參量大幅度下降,而指標(biāo)又不會(huì)下降太多的情況下,采取簡(jiǎn)單詞向量變換的方法不失為一種合理的選擇。
? ? 作者整篇行文也十分嚴(yán)謹(jǐn),文末已經(jīng)提到了模型所涉及的過(guò)擬合問題,因?yàn)樗鶞y(cè)試的語(yǔ)料都是一些開放數(shù)據(jù)集,可能這些結(jié)論在小規(guī)模數(shù)據(jù)集上的結(jié)果表現(xiàn)尚可,但是其泛化能力或在大規(guī)模數(shù)據(jù)集上的表現(xiàn)還有待考證。我也很有興趣,作者如何在 simple embedding 上考慮一系列的懲罰措施。后續(xù)會(huì)繼續(xù)跟進(jìn)。
2.2.Other words
? ? 以后會(huì)不定期、長(zhǎng)期更新相關(guān)論文的理解,比較有新意的會(huì)解析代碼或者做遷移實(shí)驗(yàn),希望可以多多交流。
總結(jié)
以上是生活随笔為你收集整理的Baseline needs more love的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最大后验概率和极大似然
- 下一篇: 自然语言处理中的符号表征