日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Word2vec模型及负采样精讲

發(fā)布時間:2024/8/24 综合教程 36 生活家
生活随笔 收集整理的這篇文章主要介紹了 Word2vec模型及负采样精讲 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Word2vec模型本質(zhì):是一個用來生成詞向量的、簡單的神經(jīng)網(wǎng)絡(luò)模型。

  通過計(jì)算相似度來降低原來輸入詞的維度,舉個例子:

            圖.甲

網(wǎng)絡(luò)結(jié)構(gòu)如下:

              圖.乙

  如乙圖所示,我們一開始輸入的是one-hot編碼后的向量,1位于第7位,其對應(yīng)的輸入層到隱藏層的權(quán)重矩陣w一定是第7行,如下圖示意

          圖.丙

  丙圖示意的是第三行,如果輸入one-hot編碼過了,那就將one-hot編碼后的輸入再tokenize轉(zhuǎn)化回去(如果沒有one-hot的話,直接tokenize獲取索引即可),查找w索引值為3的行,拿出來即可,拿出來的就是詞向量原來需要計(jì)算那么多次乘法,現(xiàn)在只需查表即可。

  圖甲那張圖的全過程稱之為池化向量。

              圖.丁

  圖丁,全連接層是沒有激活函數(shù)的,output到預(yù)測值時的激活函數(shù)為softmax,也可以為sigmoid,沒有規(guī)定必須用哪個,此圖為原始的池化向量過程。下面的負(fù)采樣是解決反向傳播時復(fù)雜的乘法計(jì)算。

負(fù)采樣: 

  在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,每當(dāng)接受一個訓(xùn)練樣本,然后調(diào)整所有神經(jīng)單元權(quán)重參數(shù),來使神經(jīng)網(wǎng)絡(luò)預(yù)測更加準(zhǔn)確。換句話說,每個訓(xùn)練樣本都將會調(diào)整所有神經(jīng)網(wǎng)絡(luò)中的參數(shù)。
  我們詞匯表的大小決定了我們skip-gram 神經(jīng)網(wǎng)絡(luò)將會有一個非常大的權(quán)重參數(shù),并且所有的權(quán)重參數(shù)會隨著數(shù)十億訓(xùn)練樣本不斷調(diào)整。

  negative sampling (負(fù)例樣本,即one-hot編碼后的為0的那些位置的樣本)每次讓一個訓(xùn)練樣本僅僅更新一小部分的權(quán)重參數(shù),從而降低梯度下降過程中的計(jì)算量。

  如果 vocabulary 大小為1萬時, 當(dāng)輸入樣本 ( "fox", "quick") 到神經(jīng)網(wǎng)絡(luò)時, “ fox” 經(jīng)過 one-hot 編碼,在輸出層我們期望對應(yīng) “quick” 單詞的那個神經(jīng)元結(jié)點(diǎn)輸出 1,其余 9999 個都應(yīng)該輸出 0。在這里,這9999個我們期望輸出為0的神經(jīng)元結(jié)點(diǎn)所對應(yīng)的單詞我們?yōu)?negative word. negative sampling 的想法也很直接 ,將隨機(jī)選擇一小部分的 negative words,比如選 10個 negative words 來更新對應(yīng)的權(quán)重參數(shù)。

  在論文中作者指出指出對于小規(guī)模數(shù)據(jù)集,建議選擇 5-20 個 negative words,對于大規(guī)模數(shù)據(jù)集選擇 2-5個 negative words.

  如果使用了 negative sampling 僅僅去更新positive word- “quick” 和選擇的其他 10 個negative words 的結(jié)點(diǎn)對應(yīng)的權(quán)重,共計(jì) 11 個輸出神經(jīng)元,相當(dāng)于每次只更新 300 x 11 = 3300 個權(quán)重參數(shù)。對于 3百萬 的權(quán)重來說,相當(dāng)于只計(jì)算了千分之一的權(quán)重,這樣計(jì)算效率就大幅度提高。

選擇負(fù)例樣本的規(guī)則

使用 一元模型分布 (unigram distribution) 來選擇 negative words,一個單詞被選作 negative sample 的概率跟它出現(xiàn)的頻次有關(guān),出現(xiàn)頻次越高的單詞越容易被選作negative words,經(jīng)驗(yàn)公式為:


f(w) 代表 每個單詞被賦予的一個權(quán)重,即 它單詞出現(xiàn)的詞頻,分母 代表所有單詞的權(quán)重和。公式中3/4完全是基于經(jīng)驗(yàn)的,論文中提到這個公式的效果要比其它公式更加出色。

總結(jié)

以上是生活随笔為你收集整理的Word2vec模型及负采样精讲的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产无码精品一区二区 | 91精品91久久久中77777老牛 | 精品亚洲一区二区三区四区五区 | 国产又粗又深又猛又爽又在线观看 | 亚洲国产成人精品视频 | 日本女教师电影 | 肉番在线观看 | 亚洲成a人片777777久久 | 欧美日韩在线免费看 | 久久亚洲精品石原莉奈 | 欧美顶级少妇做爰hd | 精品国产视频一区二区三区 | 欧美视频一区二区三区四区在线观看 | 国产av一区不卡 | 国产学生美女无遮拦高潮视频 | 97精品一区二区视频在线观看 | 情侣av| 欧美裸体视频 | 日日噜噜噜 | 国产成人精品一区二区三区无码熬 | www.一区| 麻豆影视在线观看 | 国产精品18久久久久久无码 | 中文字幕观看在线 | 伊人影院99| 短篇山村男同肉耽h | 桃色在线视频 | 99久久久国产 | 国产做受高潮漫动 | 久久综合伊人77777麻豆最新章节 | 一级女性全黄久久生活片免费 | 日韩色 | 四虎在线播放 | 亚洲国产成人精品一区二区三区 | 黄色免费av网站 | 最近中文字幕在线中文视频 | 国产午夜精品福利 | 亚洲第一色播 | 久久国产中文字幕 | 欧美日韩中文 | 欧美人与禽zozzo禽性配 | 四色成人av永久网址 | 久久久久免费精品 | xxxⅹ少妇少妇xxxx | 大陆熟妇丰满多毛xxxⅹ | 国产91一区二区三区在线精品 | 91九色国产视频 | 国产在线视频网址 | 午夜少妇影院 | 天天草比| 黄色一级大片免费看 | 久久综合久久综合久久 | 成人免费视频网 | 亚洲小说区图片区 | 蜜桃精品在线观看 | 伊人精品一区二区三区 | 麻豆自拍视频 | 亚洲熟女少妇一区二区 | 一区二区欧美日韩 | 精品999久久久一级毛片 | 91xxx在线观看 | 伊人av影院 | 3d动漫啪啪精品一区二区中文字幕 | 第四色在线视频 | 亚洲黄色免费看 | jizzjizz日本免费视频 | 国产精品黄| 欧美精品一二三四区 | 一区二区不卡在线 | 亚洲无线视频 | 中文在线天堂网 | 免费人成在线观看网站 | 非洲黑妞xxxxhd精品 | 日韩一区二区视频在线播放 | 久草网视频在线观看 | 欧美成人福利视频 | 亚洲婷婷在线观看 | 日本一级二级视频 | 神秘马戏团在线观看免费高清中文 | 日本黄xxxxxxxxx100 | 尤物视频在线观看视频 | 欧美精品一区二区三区久久久 | 欧美在线免费看 | 久久久国产精华液 | 99久久精品免费看国产四区 | 久草在在线视频 | 男人天堂a在线 | 中文无码av一区二区三区 | 香港三日本8a三级少妇三级99 | 亚洲一区二区三区久久久 | 午夜国产一级 | 超碰99在线 | 国产精品8| 天天激情站| 中国黄色a级 | 日本国产欧美 | 免费在线看a | 亚洲人成777| 不卡三区 |