日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

發(fā)布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | jxyxiangyu

前言

“小夕,小夕,你關(guān)注的任務(wù)sota又被刷新了!”

“什么?!”

還在跑實(shí)驗(yàn)的小夕默默流下了辛酸淚

不得不說nlp領(lǐng)域的發(fā)展真的太快了,煉丹師們不光要時刻關(guān)注前沿?zé)狳c(diǎn),還要快速做出實(shí)驗(yàn),高強(qiáng)度堪比996:導(dǎo)師,臣妾真的做不到啊(っ╥╯﹏╰╥c)

正巧,小編我最近看到一篇研究詞向量 word2vec 的論文,中了今年的EMNLP。What?!依稀記得頭一次聽說word2vec還在三年前。這么古老的東西還有人在研究嗎?現(xiàn)在不都是XX-BERT、XX-transformer的時代了嗎?

今天讓我們一起來看看,到底是咋回事。

論文標(biāo)題:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages

論文鏈接:
https://arxiv.org/abs/2004.14876

詞向量穩(wěn)定性

在介紹論文之前,先讓我們來了解下詞向量的穩(wěn)定性。詞向量的穩(wěn)定性指的是一個詞在不同的向量空間中的最近鄰的重疊程度,常用來衡量由數(shù)據(jù)集、算法和詞的屬性特征的變化引起的詞向量的變化。

這時候一定有小伙伴要問了,都1202年了,還有研究靜態(tài)詞向量的必要嗎?No,no,no,如果這么想,格局就小了,我們常用的BERT、GPT這些模型都是建立在大規(guī)模語料上預(yù)訓(xùn)練得到的,如果面對的是小語種,沒有像漢語、英語這么豐富的語料庫,是很難喂飽預(yù)訓(xùn)練語言模型的,另外,為了某些小語種專門花費(fèi)大量的資源訓(xùn)練預(yù)訓(xùn)練模型,從工業(yè)的角度來看,成本也是非常高的。這時,自然而然就會想到利用上下文無關(guān)的靜態(tài)詞向量來解決這類問題。

穩(wěn)定性的計(jì)算

文章研究的是在多個不同的語言中的詞向量穩(wěn)定性的變化,首先提出了穩(wěn)定性的計(jì)算方式。給定兩個向量空間集合,,那么兩個向量空間的組合可以表示成,其中,,,對于某個詞在向量空間,的穩(wěn)定性可以用在這兩個空間中最近的10個鄰居的重疊百分比來表示,而在和這兩個集合中,任意兩個向量空間的組合下的穩(wěn)定性均值,就被定義為詞在這兩個向量空間集合的穩(wěn)定性。

舉個栗子,下面的圖展示的是詞“rock”在三個向量空間下最近的10個鄰居詞,粗體表示向量空間重疊的詞,可以看到 和 有6個鄰居是重疊的, 、 和 、分別有7個詞重疊,那么詞“rock”在這三個向量空間的穩(wěn)定性就是這三個值的均值(0.667)。

實(shí)驗(yàn)

數(shù)據(jù)集

作者采用的是Wikipedia和Bible兩個數(shù)據(jù)集,其中,Wikipedia包含40種語言,Bible包含97種語言,以及世界語言結(jié)構(gòu)圖譜(World Atlas of Language Structures,WALS),包含了近兩千種語言屬性知識。

數(shù)據(jù)集下采樣

為減小不同語言數(shù)據(jù)量對詞向量穩(wěn)定性的影響,論文對原始的數(shù)據(jù)集做了下采樣處理,具體方法是對數(shù)據(jù)集不重復(fù)地下采樣(downsampling without replacement)。

為研究不同的下采樣方法對穩(wěn)定性的影響,用作者的話來說,希望通過下采樣得到跨語言且有可比性的穩(wěn)定性結(jié)果。為此,作者專門對比了可重復(fù)采樣和不可重復(fù)采樣兩種下采樣方法對穩(wěn)定性的影響。

可以看到可重復(fù)采樣的方法導(dǎo)致下采樣數(shù)據(jù)集無論采樣覆蓋比例如何,穩(wěn)定性基本趨于一致,沒有區(qū)分度,而不可重復(fù)采樣的方法得到的數(shù)據(jù)集有較為明顯的穩(wěn)定性區(qū)分,這也是作者選擇不重復(fù)下采樣方法的原因。

數(shù)據(jù)集上的穩(wěn)定性

作者針對Wikipedia和Bible兩個數(shù)據(jù)集重疊的26種語言,研究了不同語言不同詞向量生成算法數(shù)據(jù)對詞向量穩(wěn)定性的影響,總共三種情況:

  • 由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的GloVe詞向量的穩(wěn)定性

  • 由五個下采樣的數(shù)據(jù)集訓(xùn)練得到的word2ve詞向量的穩(wěn)定性

  • 由一個下采樣的數(shù)據(jù)集隨機(jī)五次訓(xùn)練得到的word2ve詞向量的穩(wěn)定性

  • 由于Bible數(shù)據(jù)集過小,因此,只對Bible數(shù)據(jù)集研究了情況3下穩(wěn)定性的分布

    可以看到在穩(wěn)定性25%~75%之間,穩(wěn)定性分布和變化較為平緩,低穩(wěn)定性和高穩(wěn)定性的詞數(shù)量變化明顯。

    實(shí)驗(yàn)結(jié)果也表明在相同的訓(xùn)練數(shù)據(jù)下,不同的訓(xùn)練算法得到的詞向量穩(wěn)定性分布和變化趨于一致,相比而言,訓(xùn)練語料的不同對穩(wěn)定性有較大的影響。因此,在對比不同語言下的詞向量穩(wěn)定性時,應(yīng)該減小語料的內(nèi)容對穩(wěn)定性的影響。

    為了研究同一數(shù)據(jù)集的不同上下文對研究不同語言間穩(wěn)定性的影響程度,作者分別選擇了圣經(jīng)在德語和法語的多個不同譯本,在一個下采樣數(shù)據(jù)集上用五個不同的隨機(jī)數(shù)種子訓(xùn)練生成五個word2vec詞向量,并取均值作為該譯本下的詞向量穩(wěn)定性。可以看到除個別譯文外,不同譯本之間的穩(wěn)定性趨勢基本一致,基本可以忽略相同語義的不同上下文對詞向量穩(wěn)定性的影響。

    ▲不同bible譯本的穩(wěn)定性分布(德語)▲不同bible譯本的穩(wěn)定性分布(法語)

    回歸模型

    前述的實(shí)驗(yàn)對比了多個語言下的穩(wěn)定性分布與走勢,下面作者用嶺回預(yù)測特定語言下的所有詞的平均穩(wěn)定性的方式,研究語言屬性本身對詞向量穩(wěn)定性的影響因素。

    模型的輸入是特定語言的語言學(xué)特征(屬性),輸出是穩(wěn)定性的均值。在講特征輸入模型前,作者做了相應(yīng)的數(shù)據(jù)預(yù)處理,包括過濾出現(xiàn)頻次較低的特征和屬性(WALS)以及屬性較少的語言,特征分組等,這里就不詳細(xì)說明了。

    評價(jià)指標(biāo)

    作者用了兩種方式來評估模型:留一法交叉驗(yàn)證的絕對誤差。選擇擬合效果較好的模型,通過權(quán)重的大小來確定特征(或?qū)傩?#xff09;對穩(wěn)定性的貢獻(xiàn)度程度。

    實(shí)驗(yàn)結(jié)論

    作者選擇的模型達(dá)到了的和的留一法交叉驗(yàn)證的絕對誤差,足以證明模型擬合效果非常好,相應(yīng)的權(quán)重也可以表示屬性對穩(wěn)定性的貢獻(xiàn)程度。下面是嶺回歸模型擬合后得到的屬性對穩(wěn)定性的貢獻(xiàn)度權(quán)重和對特征分組的平均權(quán)重。相應(yīng)地,作者還對某些屬性特征做了詳細(xì)的研究分析,這里不再贅述。

    小結(jié)

    與常見的在某個任務(wù)上提模型、刷sota不同,這篇論文著眼于詞向量在不同語言之間的差異的研究,本質(zhì)上更像是數(shù)據(jù)分析。文章從數(shù)據(jù)采樣方式入手,分別研究了數(shù)據(jù)集、訓(xùn)練算法對不同語言的穩(wěn)定性的分布和走勢的影響,并使用嶺回歸模型擬合了語言的屬性特征對穩(wěn)定性的貢獻(xiàn)程度,分析不同屬性特征對穩(wěn)定性的影響。相比提出一個新的模型刷sota而言,可復(fù)現(xiàn)性和解釋性更高,對詞向量的應(yīng)用有不小的貢獻(xiàn)。

    當(dāng)然,這篇文章研究的是經(jīng)典的靜態(tài)詞向量,和主流的transformer架構(gòu)相比,確實(shí)顯得有點(diǎn)“out”,但文章投了七次才中,不也證明了只要是金子都會發(fā)光嗎?小編認(rèn)為,誰說nlp一定要追快打新,只要是真正有益于nlp領(lǐng)域發(fā)展的研究工作,都值得發(fā)表,都值得中。(無卡黨和少卡黨狂喜bushi)

    ▲狂喜

    后臺回復(fù)關(guān)鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺回復(fù)關(guān)鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎

    總結(jié)

    以上是生活随笔為你收集整理的谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 精品人妻伦一二三区免费 | 久久精品无码一区二区三区毛片 | 铠甲勇士猎铠 | 乳色吐息免费看 | 先锋影音av资源在线观看 | 鲁鲁狠狠狠7777一区二区 | 精久久久 | 97干在线| 国产91精品高潮白浆喷水 | 免费久久av| 韩国一级一片高清免费观看 | 国产麻豆电影在线观看 | 4438x亚洲| 亚洲精品乱码久久久久久按摩观 | 极品美妇后花庭翘臀娇吟小说 | 精品国产aⅴ一区二区三区四川人 | 国产a级一级片 | 国产高清二区 | 日韩av高清无码 | 日韩在线视频中文字幕 | 日本中文字幕在线免费观看 | 黄色天堂 | 精品人妻一区二区三区在线视频 | 可以免费看污视频的网站 | 人人干人人搞 | 最近日本中文字幕 | 日韩毛片在线看 | 九九热视频这里只有精品 | 日韩视频在线观看视频 | 婷婷成人在线 | 国产夜夜嗨 | 受虐m奴xxx在线观看 | 国产大屁股喷水视频在线观看 | 色国产精品 | 免费黄色一级片 | 日韩中文在线观看 | 亚洲在线中文字幕 | 最新中文字幕在线视频 | 一二三区av | 日韩成人福利视频 | 无码人妻丰满熟妇区五十路 | 北条麻纪在线观看aⅴ | 91免费视频网站 | 精品国产成人av在线免 | 男同av在线观看一区二区三区 | 国产一av| 亚洲麻豆 | 欧美高清性 | 天堂社区av | 国产精品久久久久久影视 | 强行无套内谢大学生初次 | 三级精品在线 | 日韩手机在线视频 | 国产精品免费无遮挡无码永久视频 | 日本一区二区黄色 | av不卡高清 | 日本三级韩国三级美三级91 | 欧美性色网| 国产情侣av自拍 | 国产不卡视频在线观看 | 天堂а√在线中文在线鲁大师 | 爱情岛论坛成人 | a级片在线视频 | 欧美性猛交久久久久 | 免费看a网站 | 婷婷九月丁香 | 琪琪午夜伦理影院7777 | 精品日本一区二区三区 | 亚洲一区在线免费观看 | 欧美精品video | 三级网站免费观看 | 成人性生活毛片 | 亚洲欧美综合久久 | 午夜淫片 | 久久加久久 | 日韩精品无码一区二区 | 激情婷婷久久 | 4438x亚洲 | 成a人片亚洲日本久久 | 蜜乳av一区 | 99久久亚洲精品 | 国产区视频在线观看 | 欧美精品久久久久久久久老牛影院 | 亚洲天堂v | 交专区videossex另类 | 色屁屁视频 | 中日韩在线播放 | 五月婷婷丁香网 | 久久成人动漫 | 福利一二区| 日韩国产网站 | aa视频免费观看 | 欧美亚洲视频在线观看 | 日韩精品小视频 | 96福利视频| 色呦呦在线播放 | 好男人天堂网 | 色就是色网站 | 日韩精品人妻中文字幕 |