谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!
文 | jxyxiangyu
前言
“小夕,小夕,你關(guān)注的任務(wù)sota又被刷新了!”
“什么?!”
還在跑實(shí)驗(yàn)的小夕默默流下了辛酸淚
不得不說nlp領(lǐng)域的發(fā)展真的太快了,煉丹師們不光要時刻關(guān)注前沿?zé)狳c(diǎn),還要快速做出實(shí)驗(yàn),高強(qiáng)度堪比996:導(dǎo)師,臣妾真的做不到啊(っ╥╯﹏╰╥c)
正巧,小編我最近看到一篇研究詞向量 word2vec 的論文,中了今年的EMNLP。What?!依稀記得頭一次聽說word2vec還在三年前。這么古老的東西還有人在研究嗎?現(xiàn)在不都是XX-BERT、XX-transformer的時代了嗎?
今天讓我們一起來看看,到底是咋回事。
論文標(biāo)題:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages
論文鏈接:
https://arxiv.org/abs/2004.14876
詞向量穩(wěn)定性
在介紹論文之前,先讓我們來了解下詞向量的穩(wěn)定性。詞向量的穩(wěn)定性指的是一個詞在不同的向量空間中的最近鄰的重疊程度,常用來衡量由數(shù)據(jù)集、算法和詞的屬性特征的變化引起的詞向量的變化。
這時候一定有小伙伴要問了,都1202年了,還有研究靜態(tài)詞向量的必要嗎?No,no,no,如果這么想,格局就小了,我們常用的BERT、GPT這些模型都是建立在大規(guī)模語料上預(yù)訓(xùn)練得到的,如果面對的是小語種,沒有像漢語、英語這么豐富的語料庫,是很難喂飽預(yù)訓(xùn)練語言模型的,另外,為了某些小語種專門花費(fèi)大量的資源訓(xùn)練預(yù)訓(xùn)練模型,從工業(yè)的角度來看,成本也是非常高的。這時,自然而然就會想到利用上下文無關(guān)的靜態(tài)詞向量來解決這類問題。
穩(wěn)定性的計(jì)算
文章研究的是在多個不同的語言中的詞向量穩(wěn)定性的變化,首先提出了穩(wěn)定性的計(jì)算方式。給定兩個向量空間集合,,那么兩個向量空間的組合可以表示成,其中,,,對于某個詞在向量空間,的穩(wěn)定性可以用在這兩個空間中最近的10個鄰居的重疊百分比來表示,而在和這兩個集合中,任意兩個向量空間的組合下的穩(wěn)定性均值,就被定義為詞在這兩個向量空間集合的穩(wěn)定性。
舉個栗子,下面的圖展示的是詞“rock”在三個向量空間下最近的10個鄰居詞,粗體表示向量空間重疊的詞,可以看到 和 有6個鄰居是重疊的, 、 和 、分別有7個詞重疊,那么詞“rock”在這三個向量空間的穩(wěn)定性就是這三個值的均值(0.667)。
實(shí)驗(yàn)
數(shù)據(jù)集
作者采用的是Wikipedia和Bible兩個數(shù)據(jù)集,其中,Wikipedia包含40種語言,Bible包含97種語言,以及世界語言結(jié)構(gòu)圖譜(World Atlas of Language Structures,WALS),包含了近兩千種語言屬性知識。
數(shù)據(jù)集下采樣
為減小不同語言數(shù)據(jù)量對詞向量穩(wěn)定性的影響,論文對原始的數(shù)據(jù)集做了下采樣處理,具體方法是對數(shù)據(jù)集不重復(fù)地下采樣(downsampling without replacement)。
為研究不同的下采樣方法對穩(wěn)定性的影響,用作者的話來說,希望通過下采樣得到跨語言且有可比性的穩(wěn)定性結(jié)果。為此,作者專門對比了可重復(fù)采樣和不可重復(fù)采樣兩種下采樣方法對穩(wěn)定性的影響。
可以看到可重復(fù)采樣的方法導(dǎo)致下采樣數(shù)據(jù)集無論采樣覆蓋比例如何,穩(wěn)定性基本趨于一致,沒有區(qū)分度,而不可重復(fù)采樣的方法得到的數(shù)據(jù)集有較為明顯的穩(wěn)定性區(qū)分,這也是作者選擇不重復(fù)下采樣方法的原因。
數(shù)據(jù)集上的穩(wěn)定性
作者針對Wikipedia和Bible兩個數(shù)據(jù)集重疊的26種語言,研究了不同語言,不同詞向量生成算法和數(shù)據(jù)對詞向量穩(wěn)定性的影響,總共三種情況:
由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的GloVe詞向量的穩(wěn)定性
由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的word2ve詞向量的穩(wěn)定性
由一個下采樣的數(shù)據(jù)集隨機(jī)五次訓(xùn)練得到的word2ve詞向量的穩(wěn)定性
由于Bible數(shù)據(jù)集過小,因此,只對Bible數(shù)據(jù)集研究了情況3下穩(wěn)定性的分布
可以看到在穩(wěn)定性25%~75%之間,穩(wěn)定性分布和變化較為平緩,低穩(wěn)定性和高穩(wěn)定性的詞數(shù)量變化明顯。
實(shí)驗(yàn)結(jié)果也表明在相同的訓(xùn)練數(shù)據(jù)下,不同的訓(xùn)練算法得到的詞向量穩(wěn)定性分布和變化趨于一致,相比而言,訓(xùn)練語料的不同對穩(wěn)定性有較大的影響。因此,在對比不同語言下的詞向量穩(wěn)定性時,應(yīng)該減小語料的內(nèi)容對穩(wěn)定性的影響。
為了研究同一數(shù)據(jù)集的不同上下文對研究不同語言間穩(wěn)定性的影響程度,作者分別選擇了圣經(jīng)在德語和法語的多個不同譯本,在一個下采樣數(shù)據(jù)集上用五個不同的隨機(jī)數(shù)種子訓(xùn)練生成五個word2vec詞向量,并取均值作為該譯本下的詞向量穩(wěn)定性。可以看到除個別譯文外,不同譯本之間的穩(wěn)定性趨勢基本一致,基本可以忽略相同語義的不同上下文對詞向量穩(wěn)定性的影響。
▲不同bible譯本的穩(wěn)定性分布(德語)▲不同bible譯本的穩(wěn)定性分布(法語)回歸模型
前述的實(shí)驗(yàn)對比了多個語言下的穩(wěn)定性分布與走勢,下面作者用嶺回預(yù)測特定語言下的所有詞的平均穩(wěn)定性的方式,研究語言屬性本身對詞向量穩(wěn)定性的影響因素。
模型的輸入是特定語言的語言學(xué)特征(屬性),輸出是穩(wěn)定性的均值。在講特征輸入模型前,作者做了相應(yīng)的數(shù)據(jù)預(yù)處理,包括過濾出現(xiàn)頻次較低的特征和屬性(WALS)以及屬性較少的語言,特征分組等,這里就不詳細(xì)說明了。
評價(jià)指標(biāo)
作者用了兩種方式來評估模型:和留一法交叉驗(yàn)證的絕對誤差。選擇擬合效果較好的模型,通過權(quán)重的大小來確定特征(或?qū)傩?#xff09;對穩(wěn)定性的貢獻(xiàn)度程度。
實(shí)驗(yàn)結(jié)論
作者選擇的模型達(dá)到了的和的留一法交叉驗(yàn)證的絕對誤差,足以證明模型擬合效果非常好,相應(yīng)的權(quán)重也可以表示屬性對穩(wěn)定性的貢獻(xiàn)程度。下面是嶺回歸模型擬合后得到的屬性對穩(wěn)定性的貢獻(xiàn)度權(quán)重和對特征分組的平均權(quán)重。相應(yīng)地,作者還對某些屬性特征做了詳細(xì)的研究分析,這里不再贅述。
小結(jié)
與常見的在某個任務(wù)上提模型、刷sota不同,這篇論文著眼于詞向量在不同語言之間的差異的研究,本質(zhì)上更像是數(shù)據(jù)分析。文章從數(shù)據(jù)采樣方式入手,分別研究了數(shù)據(jù)集、訓(xùn)練算法對不同語言的穩(wěn)定性的分布和走勢的影響,并使用嶺回歸模型擬合了語言的屬性特征對穩(wěn)定性的貢獻(xiàn)程度,分析不同屬性特征對穩(wěn)定性的影響。相比提出一個新的模型刷sota而言,可復(fù)現(xiàn)性和解釋性更高,對詞向量的應(yīng)用有不小的貢獻(xiàn)。
當(dāng)然,這篇文章研究的是經(jīng)典的靜態(tài)詞向量,和主流的transformer架構(gòu)相比,確實(shí)顯得有點(diǎn)“out”,但文章投了七次才中,不也證明了只要是金子都會發(fā)光嗎?小編認(rèn)為,誰說nlp一定要追快打新,只要是真正有益于nlp領(lǐng)域發(fā)展的研究工作,都值得發(fā)表,都值得中。(無卡黨和少卡黨狂喜bushi)
▲狂喜后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 改变世界,改善生活:我从科沃斯扫地机器人
- 下一篇: 文本分类问题不需要ResNet?小夕解析