當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec学习笔记（四）——Negative Sampling 模型

發布時間：2025/3/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Word2Vec学习笔记（四）——Negative Sampling 模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

????前面講了Hierarchical softmax 模型，現在來說說Negative Sampling 模型的CBOW和Skip-gram的原理。它相對于Hierarchical softmax 模型來說，不再采用huffman樹，這樣可以大幅提高性能。

一、Negative Sampling

????在負采樣中，對于給定的詞 $w$ ,如何生成它的負采樣集合 $N E G (w)$ 呢？已知一個詞 $w$ ,它的上下文是 $c o n t e x t (w)$ ,那么詞 $w$ 就是一個正例，其他詞就是一個負例。但是負例樣本太多了，我們怎么去選取呢？在語料庫 $C\mathcal{C}$ 中，各個詞出現的頻率是不一樣的，我們采樣的時候要求高頻詞選中的概率較大，而低頻詞選中的概率較小。這就是一個帶權采樣的問題。
設詞典 $D\mathcal{D}$ 中的每一個詞 $w$ 對應線段的一個長度：
$\frac{counter(w)}{\sum_{u \in \mathcal{D}}counter(u)} (1)$
式(1)分母是為了歸一化，Word2Vec中的具體做法是：記 $l0=0,lk=∑j=1klen(wj),k=1,2,…,Nl_0 = 0, l_k = \sum_{j=1}^{k} len(w_j), k=1,2, \dots, N$ ,其中， $w_j$ 是詞典 $D\mathcal{D}$ 中的第 $j$ 個詞，則以 ${l_j\}_{j=0}^{N}$ 為點構成了一個在區間[0,1]非等距離的劃分。然后再加一個等距離劃分，Word2Vec中選取 $M=10^8$ ，將M個點等距離的分布在區間[0,1]上，這樣就構成了M到I之間的一個映射，如下圖所示：

圖例參考：http://www.cnblogs.com/neopenx/p/4571996.html ，建議大家讀下這篇神作。

????選取負例樣本的時候，取 $M_0, M_{m-1}]$ 上的一個隨機數，對應到I上就可以了。如果對于詞 $w_i$ ,正好選到它自己，則跳過。負例樣本集合 $N E G (w)$ 的大小在Word2Vec源碼中默認選5.

二、CBOW

????假定關于詞 $w$ 的負例樣本 $N E G (w)$ 已經選出,定義標簽 $L$ 如下,對于 $?w~∈D\forall \widetilde{w} \in \mathcal{D}$ ：
$Lw(w~)={1,w~=w;0,w~≠w;L^w(\widetilde{w}) = \Bigg\{ \begin{array} {ll} 1, & \widetilde{w} = w ;\\ 0, & \widetilde{w} \ne w; \end{array}$
對于給定的一個正例樣本 $(c o n t e x t (w), w)$ , 要求：
$max?g(w)=max?∏u∈{w}∪u∈NEG(w)p(u∣context(w))\max g(w) = \max \prod_{u \in \{w\} \cup u \in NEG(w)} p(u|context(w))$
其中，
$\Bigg \{ \begin{array}{ll} \sigma(\boldsymbol{x}_w^T \theta^u), & L^w(u) = 1\\ 1-\sigma(\boldsymbol{x}_w^T \theta^u), & L^w(u) = 0 \end{array}$
把它寫成一個式子：
$\sigma(\boldsymbol{x}_w^T \theta^u)^{L^w(u)} + (1-\sigma(\boldsymbol{x}_w^T \theta^u))^{1-L^w(u)}$
下邊解釋為什么要最大化 $g (w)$ ，
$\prod_{u \in \{w\} \cup u \in NEG(w)} p(u|context(w)) \\ =\prod_{u \in \{w\} \cup u \in NEG(w)} \sigma(\boldsymbol{x}_w^T \theta^u)^{L^w(u)} + (1-\sigma(\boldsymbol{x}_w^T \theta^u))^{1-L^w(u)} \\ =\sigma(\boldsymbol{x}_w^T \theta^w)\prod_{u \in NEG(w)} (1-\sigma(\boldsymbol{x}_w^T \theta^u))$
上式中連乘號前邊的式子可以解釋為最大化正例樣本概率，連乘號后邊解釋為最小化負例樣本概率。

同樣的，針對于語料庫，令:
$G=∏w∈Cg(w)\mathcal{G} = \prod_{w \in \mathcal{C}} g(w)$
可以將上式作為整體的優化目標函數，取上式的最大似然：
$L=log?G=∑w∈Clog?g(w)=∑w∈C∑u∈{w}∪u∈NEG(w)Lw(u)log?[σ(xwTθu]+[1?Lw(u)]log?[1?σ(xwTθu)]\mathcal{L} = \log\mathcal{G} = \sum_{w \in \mathcal{C}} \log g(w) \\ =\sum_{w \in \mathcal{C}} \sum_{u \in \{w\} \cup u \in NEG(w)}L^w(u)\log[\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u] + [1-L^w(u)] \log [1-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]$
和之前的計算過程一樣，記
$L^w(u)\log[\sigma(\boldsymbol{x}_w^T \theta^u] + [1-L^w(u)]\log [1-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]$
然后分別求： $?L(w,u)?Xw\frac{\partial L(w,u)}{\partial\boldsymbol{X}_w}$ 和 $?L(w,u)?θu\frac{\partial L(w,u)}{\partial\boldsymbol{\theta}^u}$ ,求解過程略過:
$?L(w,u)?Xw=[Lw(u)?σ(xwTθu)]θu?L(w,u)?θu=[Lw(u)?σ(xwTθu)]Xw\frac{\partial L(w,u)}{\partial\boldsymbol{X}_w} = [L^w(u)-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]\boldsymbol{\theta}^u \\ \frac{\partial L(w,u)}{\partial\boldsymbol{\theta}^u} = [L^w(u)-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]\boldsymbol{X}_w$
則，可得到如下更新公式：
$θu:=θu+η[Lw(u)?σ(xwTθu)]Xwv(w~):=v(w~)+∑u∈{w}∪u∈NEG(w)[Lw(u)?σ(xwTθu)]θu\boldsymbol{\theta}^u:=\boldsymbol{\theta}^u+\eta [L^w(u)-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]\boldsymbol{X}_w \\ v(\boldsymbol{\widetilde{w}}):=v(\boldsymbol{\widetilde{w}}) + \sum_{u \in \{w\} \cup u \in NEG(w)} [L^w(u)-\sigma(\boldsymbol{x}_w^T \boldsymbol{\theta}^u)]\boldsymbol{\theta}^u$
其中， $w~∈context(w)\boldsymbol{\widetilde{w}} \in context(w)$ .

總結

以上是生活随笔為你收集整理的Word2Vec学习笔记（四）——Negative Sampling 模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：日常生活 -- 数据结构与算法告一段落
下一篇： UNIX再学习 -- 再识

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Word2Vec学习笔记（四）——Negative Sampling 模型

一、Negative Sampling

二、CBOW

總結

一、Negative Sampling