日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP-词向量】从模型结构到损失函数详解word2vec

發布時間:2025/3/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP-词向量】从模型结构到损失函数详解word2vec 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上周我們講到,在進行NNLM訓練時,能夠得到副產品,詞向量。本文介紹一種專門用于詞向量制備的方法:word2vec,利用它能夠高效的訓練出詞向量。

作者&編輯 | 小Dream哥

1 word2vec是什么?

在闡述word2vec的原理之前,筆者先大致介紹一下,word2vec是什么,能夠用來干什么,讓讀者有一個大致的認識。

word2vec是2013年Efficient estimation of word representations in vector space論文中提出的一種有效的詞向量制備方法,沿用至今。

word2vec用前饋神經網絡進行訓練,提出了Continuous Bag-of-Words和Continuous Skip-Gram兩種模型訓練方法,損失層有層次Softmax(Hierarchical Softmax)和負采樣(Negative Sampling)兩種。

2 模型結構

上面我們說了,word2vec是一種高效的制備詞向量的方法,那么跟2003年的NNLM相比,它的效率高在哪里呢?先從網絡結構開始,我們來細細看一下。

如上圖所示,是word2vec中提出的兩種模型訓練模式:Continuous Bag-of-Words和Continuous Skip-Gram。

Continuous Bag-of-Words:

CBOW是這樣一種任務,給定一個去掉了中間一個詞的context,預測其中間的那個詞。它跟NNLM的任務有點相似,差別在于,它是雙向的,即預測詞時利用了該詞前后的詞語信息。

Continuous Skip-Gram:

Continuous Bag-of-Words是通過一個詞,預測其周圍的幾個詞。

以Continuous Bag-of-Words為例,我們來看看word2vec的網絡結構。

如上圖所示,word2vec將網絡做了如下的改造:

1.輸入的所有詞向量相加求和得到SUM,稱為embedding layer;

2.移除前向反饋神經網絡中非線性的hidden layer,直接將中間層的embedding layer與輸出層的softmax layer連接;

我們來分析下這樣做有什么好處呢?移除中間的隱藏層,最大的好處就是能夠極大的減少運算量了,訓練時候的效率就能夠大幅提升。Continuous Skip-Gram也是相似的道理了。

3 損失函數

以CBOW模型為例,訓練時最容易想到的是,得到輸入序列的SUM embedding之后,通過一個project和softmax層,計算出字典V中每個詞的概率,再構建交叉熵之類的損失函數,然而直接對詞典里的V個詞計算相似度并歸一化顯然是極其耗時的。

為此作者提出了層次Softmax(Hierarchical Softmax)和負采樣(Negative Sampling)兩種損失層。層次Softmax(Hierarchical Softmax)原理很有意思,但是計算起來還是比NCE要復雜。因此,真正應用比較多的是NCE,這里就詳細介紹一下NCE的原理。

負采樣的思想最初來源于一種叫做Noise-Contrastive Estimation的算法,原本是為了解決那些無法歸一化的概率模型的參數預估問題。

在CBOW中,給定一個去掉了中間一個詞的context(w),預測其中間的那個詞w。那么,中間的那個詞w就是正樣本,其他的詞就是負樣本了。那么NCE的過程大致是這樣的,對于context(w)構造一個關于w的負樣本集NEG(w);在訓練時,針對{w,NEG(w)}構造一個目標函數,通過優化該目標函數優化整個網絡的參數(包括詞向量)

那么,這個目標函數該怎么構建呢?

我先定義一個這樣的函數,

其中:

那么p函數也可以這樣表示:

這里X表示輸入的各個詞向量之和。

那我們的目標函數這樣去構建:

也可表示為:

這樣的話,我們在訓練時,只需最大化這個g,就可以優化網絡的參數。想想看為什么呢?從形式上看,最大化g就是最大化

同時最小化所有的

這不正是我們所需要的嗎?

好了,我們來總結一下上述的過程。NCE的訓練過程,就是構建一個關于w的負樣本集NEG(w),針對正負樣本集,計算g函數的值,訓練時,通過最大化該值來優化網絡

4 負采樣的過程

我們這節來看看負采樣的過程是怎么樣進行的,也就是上述NEG(w)是如何獲得的

對于語料C,可以構建一個詞典D,并統計其中各個詞的詞頻。整體的原則是,詞頻高的詞選中作為負樣本的概率就高。

設詞典D中每一個詞對應一個長度l(w)的線段,則l(w)=counter(w)/|C|。然后將這些線段首尾連接起來,就構成了一個長度為1的線段。在負采樣時,隨機往該線段上打點,打到的就被采到。這就是負采樣的大致過程了,在word2vec的實際操作過程中,會做一些變化,但是基本的思想就是這樣的。

總結

上述就是word2vec的基本原理了,通過word2vec能夠高效的獲得詞向量,是自然語言處理入門必須要掌握的內容。有三AI-NLP知識星球詳細介紹了如何搭建網絡,復現上述的過程,感興趣的同學可以掃下面的二維碼加入。

讀者們可以留言,或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104,備注"加入有三AI NLP群"

下期預告:自然語言處理中的命名實體識別

知識星球推薦

掃描上面的二維碼,就可以加入我們的星球,助你成長為一名合格的自然語言處理算法工程師。

知識星球主要有以下內容:

(1) 聊天機器人。考慮到聊天機器人是一個非常復雜的NLP應用場景,幾乎涵蓋了所有的NLP任務及應用。所以小Dream哥計劃以聊天機器人作為切入點,通過介紹聊天機器人的原理和實踐,逐步系統的更新到大部分NLP的知識,會包括語義匹配,文本分類,意圖識別,語義匹配命名實體識別、對話管理以及分詞等。

(2) 知識圖譜。知識圖譜對于NLP各項任務效果好壞的重要性,就好比基礎知識對于一個學生成績好壞的重要性。他是NLP最重要的基礎設施,目前各大公司都在著力打造知識圖譜,作為一個NLP工程師,必須要熟悉和了解他。

(3) NLP預訓練模型。基于海量數據,進行超大規模網絡的無監督預訓練。具體的任務再通過少量的樣本進行Fine-Tune。這樣模式是目前NLP領域最火熱的模式,很有可能引領NLP進入一個全新發展高度。你怎么不深入的了解?

轉載文章請后臺聯系

侵權必究

往期精選

  • 【完結】 12篇文章帶你完全進入NLP領域,掌握核心技術

  • 【NLP-詞向量】詞向量的由來及本質

  • 【每周NLP論文推薦】從預訓練模型掌握NLP的基本發展脈絡

  • 【每周NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究

  • 【每周NLP論文推薦】 介紹語義匹配中的經典文章

  • 【每周NLP論文推薦】 開發聊天機器人必讀的重要論文

  • 【每周NLP論文推薦】 掌握實體關系抽取必讀的文章

  • 【每周NLP論文推薦】 聊天機器人中FAQ相關的論文推薦

總結

以上是生活随笔為你收集整理的【NLP-词向量】从模型结构到损失函数详解word2vec的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 99日精品 | 日本捏奶吃奶的视频 | 一级少妇片 | 精品人妻久久久久一区二区三区 | 欧美日韩中文字幕一区二区三区 | 国产精品一区二区三区在线播放 | 日本www色 | 国产天堂av | 黄色小视频在线观看免费 | 青草福利视频 | 精品国产av色一区二区深夜久久 | 日韩美女网站 | 黑人巨大精品欧美一区二区蜜桃 | 岳奶大又白下面又肥又黑水多 | 色噜噜色综合 | 亚洲一区在线电影 | 美女被艹视频网站 | 福利社午夜影院 | 91精品影视 | 欧美日韩另类一区 | 欧美成人精品 | 亚洲精品免费在线观看 | 欧美日韩二区三区 | 亚洲日本成人 | 亚洲一区a| 国产91在线看 | 高清国产mv在线观看 | 蜜桃av久久久亚洲精品 | 久久22 | 免费欧美日韩 | 一区二区三区国产av | www.com欧美 | 成人性生交大片免费看r链接 | 另类捆绑调教少妇 | 成都电影免费大全 | 久久免费小视频 | 青草视频网| 日韩av中文 | 欧美精品免费播放 | 亚洲成人一区二区在线观看 | 啪啪短视频 | 嫩草影院永久入口 | 黄色一级片在线播放 | 日本免费黄色网 | 免费毛片大全 | 久久国产日韩 | 欧美aⅴ在线 | 国产高清视频网站 | 午夜激情导航 | 三级免费黄 | 美女精品久久久 | 免费超碰在线观看 | 亚洲精品99 | 关秀媚三级 | 日韩一级二级三级 | 日韩精品免费观看 | 日韩亚洲国产精品 | 不卡的免费av| 亚洲国产成人91porn | 992tv成人免费视频 | 成人精品免费在线观看 | 女上男下动态图 | 伦在线 | 四虎8848 | 中文字幕在线观看av | 婷婷中文字幕在线 | 色狠狠综合 | 午夜片在线| 香蕉视频链接 | 国产成人网 | 下面一进一出好爽视频 | 人人澡超碰碰 | 欧美成人片在线观看 | 人妻偷人精品一区二区三区 | 热逼视频 | 91超薄丝袜肉丝一区二区 | 国语对白做受按摩的注意事项 | 国产欧美日韩综合精品 | 欧美一区二三区 | 蜜臀久久精品久久久用户群体 | av在线天堂 | 亚洲精品久久久久久久久 | 黑人精品欧美一区二区蜜桃 | 91精品国产色综合久久不卡98 | 亚洲欧美日韩色图 | 日韩欧美视频一区 | 日韩一区二区三 | 黄色一级片在线播放 | 亚洲av电影一区 | 欧美成人三级 | 天天爽天天爽天天爽 | 国产精品高潮呻吟AV无码 | 日本人妻熟妇久久久久久 | 亚洲淫片| 国产精品探花一区二区三区 | 午夜视频在线免费看 | 成年人免费观看网站 | 91视频看片 | 国产页 |