Word2Vec学习笔记(一)
目錄
- Word2Vec基本數(shù)學(xué)內(nèi)容
- 語言模型
- Hierarchical Softmax 模型
- Negative Sampling 模型
一、Word2Vec基本數(shù)學(xué)內(nèi)容
1. Sigmod 函數(shù)
&absp;&absp;&absp;&absp;Sigmod函數(shù)通常在二分類中應(yīng)用。它將樣本映射后投影在[0, 1]范圍內(nèi),對(duì)應(yīng)樣本所屬的類的概率。函數(shù)表達(dá)式如下所示:
具體的討論可以參見:
http://blog.csdn.net/chunyun0716/article/details/51580342
2. 貝葉斯公式
P(A|B)=P(B|A)P(A)P(B)
可以參見貝葉斯分類等一系列文章:
1. http://blog.csdn.net/chunyun0716/article/details/51031055
2. http://blog.csdn.net/chunyun0716/article/details/51058948
3. http://blog.csdn.net/chunyun0716/article/details/51111864
3. Huffman 樹和Huffman編碼
下邊這篇博客寫的很詳細(xì)了,這里簡(jiǎn)單引用一些基本知識(shí):
http://blog.csdn.net/shuangde800/article/details/7341289
定義哈夫曼樹之前先說明幾個(gè)與哈夫曼樹有關(guān)的概念:
路徑: 樹中一個(gè)結(jié)點(diǎn)到另一個(gè)結(jié)點(diǎn)之間的分支構(gòu)成這兩個(gè)結(jié)點(diǎn)之間的路徑。
路徑長(zhǎng)度:路徑上的分枝數(shù)目稱作路徑長(zhǎng)度。
樹的路徑長(zhǎng)度:從樹根到每一個(gè)結(jié)點(diǎn)的路徑長(zhǎng)度之和。
結(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度:在一棵樹中,如果其結(jié)點(diǎn)上附帶有一個(gè)權(quán)值,通常把該結(jié)點(diǎn)的路徑長(zhǎng)度與該結(jié)點(diǎn)上的權(quán)值 之積稱為該結(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度(weighted path length)
樹的帶權(quán)路徑長(zhǎng)度:如果樹中每個(gè)葉子上都帶有一個(gè)權(quán)值,則把樹中所有葉子的帶權(quán)路徑長(zhǎng)度之和稱為樹的帶
權(quán)路徑長(zhǎng)度。
一般來說,用n(n>0)個(gè)帶權(quán)值的葉子來構(gòu)造二叉樹,限定二叉樹中除了這n個(gè)葉子外只能出現(xiàn)度為2的結(jié)點(diǎn)。
那么符合這樣條件的二叉樹往往可構(gòu)造出許多顆,其中帶權(quán)路徑長(zhǎng)度最小的二叉樹就稱為哈夫曼樹或最優(yōu)二叉樹.
通過哈夫曼樹來構(gòu)造的編碼稱為哈弗曼編碼(huffman code)
總結(jié)
以上是生活随笔為你收集整理的Word2Vec学习笔记(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: S5PV210开发 -- 交叉编译器
- 下一篇: S5PV210开发 -- Linux d