谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!
文 | jxyxiangyu
前言
“小夕,小夕,你關(guān)注的任務(wù)sota又被刷新了!”
“什么?!”
還在跑實(shí)驗(yàn)的小夕默默流下了辛酸淚
不得不說(shuō)nlp領(lǐng)域的發(fā)展真的太快了,煉丹師們不光要時(shí)刻關(guān)注前沿?zé)狳c(diǎn),還要快速做出實(shí)驗(yàn),高強(qiáng)度堪比996:導(dǎo)師,臣妾真的做不到啊(っ╥╯﹏╰╥c)
正巧,小編我最近看到一篇研究詞向量 word2vec 的論文,中了今年的EMNLP。What?!依稀記得頭一次聽(tīng)說(shuō)word2vec還在三年前。這么古老的東西還有人在研究嗎?現(xiàn)在不都是XX-BERT、XX-transformer的時(shí)代了嗎?
今天讓我們一起來(lái)看看,到底是咋回事。
論文標(biāo)題:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages
論文鏈接:
https://arxiv.org/abs/2004.14876
詞向量穩(wěn)定性
在介紹論文之前,先讓我們來(lái)了解下詞向量的穩(wěn)定性。詞向量的穩(wěn)定性指的是一個(gè)詞在不同的向量空間中的最近鄰的重疊程度,常用來(lái)衡量由數(shù)據(jù)集、算法和詞的屬性特征的變化引起的詞向量的變化。
這時(shí)候一定有小伙伴要問(wèn)了,都1202年了,還有研究靜態(tài)詞向量的必要嗎?No,no,no,如果這么想,格局就小了,我們常用的BERT、GPT這些模型都是建立在大規(guī)模語(yǔ)料上預(yù)訓(xùn)練得到的,如果面對(duì)的是小語(yǔ)種,沒(méi)有像漢語(yǔ)、英語(yǔ)這么豐富的語(yǔ)料庫(kù),是很難喂飽預(yù)訓(xùn)練語(yǔ)言模型的,另外,為了某些小語(yǔ)種專門花費(fèi)大量的資源訓(xùn)練預(yù)訓(xùn)練模型,從工業(yè)的角度來(lái)看,成本也是非常高的。這時(shí),自然而然就會(huì)想到利用上下文無(wú)關(guān)的靜態(tài)詞向量來(lái)解決這類問(wèn)題。
穩(wěn)定性的計(jì)算
文章研究的是在多個(gè)不同的語(yǔ)言中的詞向量穩(wěn)定性的變化,首先提出了穩(wěn)定性的計(jì)算方式。給定兩個(gè)向量空間集合,,那么兩個(gè)向量空間的組合可以表示成,其中,,,對(duì)于某個(gè)詞在向量空間,的穩(wěn)定性可以用在這兩個(gè)空間中最近的10個(gè)鄰居的重疊百分比來(lái)表示,而在和這兩個(gè)集合中,任意兩個(gè)向量空間的組合下的穩(wěn)定性均值,就被定義為詞在這兩個(gè)向量空間集合的穩(wěn)定性。
舉個(gè)栗子,下面的圖展示的是詞“rock”在三個(gè)向量空間下最近的10個(gè)鄰居詞,粗體表示向量空間重疊的詞,可以看到 和 有6個(gè)鄰居是重疊的, 、 和 、分別有7個(gè)詞重疊,那么詞“rock”在這三個(gè)向量空間的穩(wěn)定性就是這三個(gè)值的均值(0.667)。
實(shí)驗(yàn)
數(shù)據(jù)集
作者采用的是Wikipedia和Bible兩個(gè)數(shù)據(jù)集,其中,Wikipedia包含40種語(yǔ)言,Bible包含97種語(yǔ)言,以及世界語(yǔ)言結(jié)構(gòu)圖譜(World Atlas of Language Structures,WALS),包含了近兩千種語(yǔ)言屬性知識(shí)。
數(shù)據(jù)集下采樣
為減小不同語(yǔ)言數(shù)據(jù)量對(duì)詞向量穩(wěn)定性的影響,論文對(duì)原始的數(shù)據(jù)集做了下采樣處理,具體方法是對(duì)數(shù)據(jù)集不重復(fù)地下采樣(downsampling without replacement)。
為研究不同的下采樣方法對(duì)穩(wěn)定性的影響,用作者的話來(lái)說(shuō),希望通過(guò)下采樣得到跨語(yǔ)言且有可比性的穩(wěn)定性結(jié)果。為此,作者專門對(duì)比了可重復(fù)采樣和不可重復(fù)采樣兩種下采樣方法對(duì)穩(wěn)定性的影響。
可以看到可重復(fù)采樣的方法導(dǎo)致下采樣數(shù)據(jù)集無(wú)論采樣覆蓋比例如何,穩(wěn)定性基本趨于一致,沒(méi)有區(qū)分度,而不可重復(fù)采樣的方法得到的數(shù)據(jù)集有較為明顯的穩(wěn)定性區(qū)分,這也是作者選擇不重復(fù)下采樣方法的原因。
數(shù)據(jù)集上的穩(wěn)定性
作者針對(duì)Wikipedia和Bible兩個(gè)數(shù)據(jù)集重疊的26種語(yǔ)言,研究了不同語(yǔ)言,不同詞向量生成算法和數(shù)據(jù)對(duì)詞向量穩(wěn)定性的影響,總共三種情況:
由五個(gè)下采樣的數(shù)據(jù)集訓(xùn)練得到的GloVe詞向量的穩(wěn)定性
由五個(gè)下采樣的數(shù)據(jù)集訓(xùn)練得到的word2ve詞向量的穩(wěn)定性
由一個(gè)下采樣的數(shù)據(jù)集隨機(jī)五次訓(xùn)練得到的word2ve詞向量的穩(wěn)定性
由于Bible數(shù)據(jù)集過(guò)小,因此,只對(duì)Bible數(shù)據(jù)集研究了情況3下穩(wěn)定性的分布
可以看到在穩(wěn)定性25%~75%之間,穩(wěn)定性分布和變化較為平緩,低穩(wěn)定性和高穩(wěn)定性的詞數(shù)量變化明顯。
實(shí)驗(yàn)結(jié)果也表明在相同的訓(xùn)練數(shù)據(jù)下,不同的訓(xùn)練算法得到的詞向量穩(wěn)定性分布和變化趨于一致,相比而言,訓(xùn)練語(yǔ)料的不同對(duì)穩(wěn)定性有較大的影響。因此,在對(duì)比不同語(yǔ)言下的詞向量穩(wěn)定性時(shí),應(yīng)該減小語(yǔ)料的內(nèi)容對(duì)穩(wěn)定性的影響。
為了研究同一數(shù)據(jù)集的不同上下文對(duì)研究不同語(yǔ)言間穩(wěn)定性的影響程度,作者分別選擇了圣經(jīng)在德語(yǔ)和法語(yǔ)的多個(gè)不同譯本,在一個(gè)下采樣數(shù)據(jù)集上用五個(gè)不同的隨機(jī)數(shù)種子訓(xùn)練生成五個(gè)word2vec詞向量,并取均值作為該譯本下的詞向量穩(wěn)定性。可以看到除個(gè)別譯文外,不同譯本之間的穩(wěn)定性趨勢(shì)基本一致,基本可以忽略相同語(yǔ)義的不同上下文對(duì)詞向量穩(wěn)定性的影響。
▲不同bible譯本的穩(wěn)定性分布(德語(yǔ))▲不同bible譯本的穩(wěn)定性分布(法語(yǔ))回歸模型
前述的實(shí)驗(yàn)對(duì)比了多個(gè)語(yǔ)言下的穩(wěn)定性分布與走勢(shì),下面作者用嶺回預(yù)測(cè)特定語(yǔ)言下的所有詞的平均穩(wěn)定性的方式,研究語(yǔ)言屬性本身對(duì)詞向量穩(wěn)定性的影響因素。
模型的輸入是特定語(yǔ)言的語(yǔ)言學(xué)特征(屬性),輸出是穩(wěn)定性的均值。在講特征輸入模型前,作者做了相應(yīng)的數(shù)據(jù)預(yù)處理,包括過(guò)濾出現(xiàn)頻次較低的特征和屬性(WALS)以及屬性較少的語(yǔ)言,特征分組等,這里就不詳細(xì)說(shuō)明了。
評(píng)價(jià)指標(biāo)
作者用了兩種方式來(lái)評(píng)估模型:和留一法交叉驗(yàn)證的絕對(duì)誤差。選擇擬合效果較好的模型,通過(guò)權(quán)重的大小來(lái)確定特征(或?qū)傩?#xff09;對(duì)穩(wěn)定性的貢獻(xiàn)度程度。
實(shí)驗(yàn)結(jié)論
作者選擇的模型達(dá)到了的和的留一法交叉驗(yàn)證的絕對(duì)誤差,足以證明模型擬合效果非常好,相應(yīng)的權(quán)重也可以表示屬性對(duì)穩(wěn)定性的貢獻(xiàn)程度。下面是嶺回歸模型擬合后得到的屬性對(duì)穩(wěn)定性的貢獻(xiàn)度權(quán)重和對(duì)特征分組的平均權(quán)重。相應(yīng)地,作者還對(duì)某些屬性特征做了詳細(xì)的研究分析,這里不再贅述。
小結(jié)
與常見(jiàn)的在某個(gè)任務(wù)上提模型、刷sota不同,這篇論文著眼于詞向量在不同語(yǔ)言之間的差異的研究,本質(zhì)上更像是數(shù)據(jù)分析。文章從數(shù)據(jù)采樣方式入手,分別研究了數(shù)據(jù)集、訓(xùn)練算法對(duì)不同語(yǔ)言的穩(wěn)定性的分布和走勢(shì)的影響,并使用嶺回歸模型擬合了語(yǔ)言的屬性特征對(duì)穩(wěn)定性的貢獻(xiàn)程度,分析不同屬性特征對(duì)穩(wěn)定性的影響。相比提出一個(gè)新的模型刷sota而言,可復(fù)現(xiàn)性和解釋性更高,對(duì)詞向量的應(yīng)用有不小的貢獻(xiàn)。
當(dāng)然,這篇文章研究的是經(jīng)典的靜態(tài)詞向量,和主流的transformer架構(gòu)相比,確實(shí)顯得有點(diǎn)“out”,但文章投了七次才中,不也證明了只要是金子都會(huì)發(fā)光嗎?小編認(rèn)為,誰(shuí)說(shuō)nlp一定要追快打新,只要是真正有益于nlp領(lǐng)域發(fā)展的研究工作,都值得發(fā)表,都值得中。(無(wú)卡黨和少卡黨狂喜bushi)
▲狂喜后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 改变世界,改善生活:我从科沃斯扫地机器人
- 下一篇: 文本分类问题不需要ResNet?小夕解析