當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

谁说发 paper 一定要追快打新？2021年，研究 word2vec 也能中顶会！

發(fā)布時間：2024/7/5 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了谁说发 paper 一定要追快打新？2021年，研究 word2vec 也能中顶会！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | jxyxiangyu

前言

“小夕，小夕，你關(guān)注的任務(wù)sota又被刷新了！”

“什么？！”

還在跑實(shí)驗(yàn)的小夕默默流下了辛酸淚

不得不說nlp領(lǐng)域的發(fā)展真的太快了，煉丹師們不光要時刻關(guān)注前沿?zé)狳c(diǎn)，還要快速做出實(shí)驗(yàn)，高強(qiáng)度堪比996：導(dǎo)師，臣妾真的做不到啊(っ╥╯﹏╰╥c)

正巧，小編我最近看到一篇研究詞向量 word2vec 的論文，中了今年的EMNLP。What？！依稀記得頭一次聽說word2vec還在三年前。這么古老的東西還有人在研究嗎？現(xiàn)在不都是XX-BERT、XX-transformer的時代了嗎？

今天讓我們一起來看看，到底是咋回事。

論文標(biāo)題:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages

論文鏈接:
https://arxiv.org/abs/2004.14876

詞向量穩(wěn)定性

在介紹論文之前，先讓我們來了解下詞向量的穩(wěn)定性。詞向量的穩(wěn)定性指的是一個詞在不同的向量空間中的最近鄰的重疊程度，常用來衡量由數(shù)據(jù)集、算法和詞的屬性特征的變化引起的詞向量的變化。

這時候一定有小伙伴要問了，都1202年了，還有研究靜態(tài)詞向量的必要嗎？No，no，no，如果這么想，格局就小了，我們常用的BERT、GPT這些模型都是建立在大規(guī)模語料上預(yù)訓(xùn)練得到的，如果面對的是小語種，沒有像漢語、英語這么豐富的語料庫，是很難喂飽預(yù)訓(xùn)練語言模型的，另外，為了某些小語種專門花費(fèi)大量的資源訓(xùn)練預(yù)訓(xùn)練模型，從工業(yè)的角度來看，成本也是非常高的。這時，自然而然就會想到利用上下文無關(guān)的靜態(tài)詞向量來解決這類問題。

穩(wěn)定性的計(jì)算

文章研究的是在多個不同的語言中的詞向量穩(wěn)定性的變化，首先提出了穩(wěn)定性的計(jì)算方式。給定兩個向量空間集合，，那么兩個向量空間的組合可以表示成，其中，，，對于某個詞在向量空間，的穩(wěn)定性可以用在這兩個空間中最近的10個鄰居的重疊百分比來表示，而在和這兩個集合中，任意兩個向量空間的組合下的穩(wěn)定性均值，就被定義為詞在這兩個向量空間集合的穩(wěn)定性。

舉個栗子，下面的圖展示的是詞“rock”在三個向量空間下最近的10個鄰居詞，粗體表示向量空間重疊的詞，可以看到和有6個鄰居是重疊的，、和、分別有7個詞重疊，那么詞“rock”在這三個向量空間的穩(wěn)定性就是這三個值的均值（0.667）。

實(shí)驗(yàn)

數(shù)據(jù)集

作者采用的是Wikipedia和Bible兩個數(shù)據(jù)集，其中，Wikipedia包含40種語言，Bible包含97種語言，以及世界語言結(jié)構(gòu)圖譜（World Atlas of Language Structures，WALS），包含了近兩千種語言屬性知識。

數(shù)據(jù)集下采樣

為減小不同語言數(shù)據(jù)量對詞向量穩(wěn)定性的影響，論文對原始的數(shù)據(jù)集做了下采樣處理，具體方法是對數(shù)據(jù)集不重復(fù)地下采樣（downsampling without replacement）。

為研究不同的下采樣方法對穩(wěn)定性的影響，用作者的話來說，希望通過下采樣得到跨語言且有可比性的穩(wěn)定性結(jié)果。為此，作者專門對比了可重復(fù)采樣和不可重復(fù)采樣兩種下采樣方法對穩(wěn)定性的影響。

可以看到可重復(fù)采樣的方法導(dǎo)致下采樣數(shù)據(jù)集無論采樣覆蓋比例如何，穩(wěn)定性基本趨于一致，沒有區(qū)分度，而不可重復(fù)采樣的方法得到的數(shù)據(jù)集有較為明顯的穩(wěn)定性區(qū)分，這也是作者選擇不重復(fù)下采樣方法的原因。

數(shù)據(jù)集上的穩(wěn)定性

作者針對Wikipedia和Bible兩個數(shù)據(jù)集重疊的26種語言，研究了不同語言，不同詞向量生成算法和數(shù)據(jù)對詞向量穩(wěn)定性的影響，總共三種情況：

由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的GloVe詞向量的穩(wěn)定性

由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的word2ve詞向量的穩(wěn)定性

由一個下采樣的數(shù)據(jù)集隨機(jī)五次訓(xùn)練得到的word2ve詞向量的穩(wěn)定性

由于Bible數(shù)據(jù)集過小，因此，只對Bible數(shù)據(jù)集研究了情況3下穩(wěn)定性的分布

可以看到在穩(wěn)定性25%~75%之間，穩(wěn)定性分布和變化較為平緩，低穩(wěn)定性和高穩(wěn)定性的詞數(shù)量變化明顯。

實(shí)驗(yàn)結(jié)果也表明在相同的訓(xùn)練數(shù)據(jù)下，不同的訓(xùn)練算法得到的詞向量穩(wěn)定性分布和變化趨于一致，相比而言，訓(xùn)練語料的不同對穩(wěn)定性有較大的影響。因此，在對比不同語言下的詞向量穩(wěn)定性時，應(yīng)該減小語料的內(nèi)容對穩(wěn)定性的影響。

為了研究同一數(shù)據(jù)集的不同上下文對研究不同語言間穩(wěn)定性的影響程度，作者分別選擇了圣經(jīng)在德語和法語的多個不同譯本，在一個下采樣數(shù)據(jù)集上用五個不同的隨機(jī)數(shù)種子訓(xùn)練生成五個word2vec詞向量，并取均值作為該譯本下的詞向量穩(wěn)定性。可以看到除個別譯文外，不同譯本之間的穩(wěn)定性趨勢基本一致，基本可以忽略相同語義的不同上下文對詞向量穩(wěn)定性的影響。

▲不同bible譯本的穩(wěn)定性分布（德語）▲不同bible譯本的穩(wěn)定性分布（法語）

回歸模型

前述的實(shí)驗(yàn)對比了多個語言下的穩(wěn)定性分布與走勢，下面作者用嶺回預(yù)測特定語言下的所有詞的平均穩(wěn)定性的方式，研究語言屬性本身對詞向量穩(wěn)定性的影響因素。

模型的輸入是特定語言的語言學(xué)特征（屬性），輸出是穩(wěn)定性的均值。在講特征輸入模型前，作者做了相應(yīng)的數(shù)據(jù)預(yù)處理，包括過濾出現(xiàn)頻次較低的特征和屬性（WALS）以及屬性較少的語言，特征分組等，這里就不詳細(xì)說明了。

評價(jià)指標(biāo)

作者用了兩種方式來評估模型：和留一法交叉驗(yàn)證的絕對誤差。選擇擬合效果較好的模型，通過權(quán)重的大小來確定特征（或?qū)傩?#xff09;對穩(wěn)定性的貢獻(xiàn)度程度。

實(shí)驗(yàn)結(jié)論

作者選擇的模型達(dá)到了的和的留一法交叉驗(yàn)證的絕對誤差，足以證明模型擬合效果非常好，相應(yīng)的權(quán)重也可以表示屬性對穩(wěn)定性的貢獻(xiàn)程度。下面是嶺回歸模型擬合后得到的屬性對穩(wěn)定性的貢獻(xiàn)度權(quán)重和對特征分組的平均權(quán)重。相應(yīng)地，作者還對某些屬性特征做了詳細(xì)的研究分析，這里不再贅述。

小結(jié)

與常見的在某個任務(wù)上提模型、刷sota不同，這篇論文著眼于詞向量在不同語言之間的差異的研究，本質(zhì)上更像是數(shù)據(jù)分析。文章從數(shù)據(jù)采樣方式入手，分別研究了數(shù)據(jù)集、訓(xùn)練算法對不同語言的穩(wěn)定性的分布和走勢的影響，并使用嶺回歸模型擬合了語言的屬性特征對穩(wěn)定性的貢獻(xiàn)程度，分析不同屬性特征對穩(wěn)定性的影響。相比提出一個新的模型刷sota而言，可復(fù)現(xiàn)性和解釋性更高，對詞向量的應(yīng)用有不小的貢獻(xiàn)。

當(dāng)然，這篇文章研究的是經(jīng)典的靜態(tài)詞向量，和主流的transformer架構(gòu)相比，確實(shí)顯得有點(diǎn)“out”，但文章投了七次才中，不也證明了只要是金子都會發(fā)光嗎？小編認(rèn)為，誰說nlp一定要追快打新，只要是真正有益于nlp領(lǐng)域發(fā)展的研究工作，都值得發(fā)表，都值得中。（無卡黨和少卡黨狂喜bushi）

▲狂喜

后臺回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復(fù)關(guān)鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的谁说发 paper 一定要追快打新？2021年，研究 word2vec 也能中顶会！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：改变世界，改善生活：我从科沃斯扫地机器人
下一篇：文本分类问题不需要ResNet？小夕解析