Word2vec 讨论
?? ??
? ? ? 我沒有在自然語言處理完成。但基于Deep Learning 關(guān)注,自然知道一些Word2vec強(qiáng)大。
? ? ? Word2vec 是google 在2013年提供的一款將詞表征為實(shí)數(shù)值向量的高效工具。而Word2vec輸出的詞向量可用于做NLP 相關(guān)的工作。比方聚類、找同義詞、詞性分析等。Word2vec 大受歡迎的一個(gè)原因是其高效性。 Tomas Mikolov? 在[1] 中指出一個(gè)優(yōu)化的單機(jī)版本號一天能夠訓(xùn)練上千億詞(汗!
)。
? ? ? ?關(guān)于詞的概念。這里的詞能夠并不一定真的就是單詞,全然能夠是具有一定意義的單元塊,比方國外音樂站點(diǎn)就用word2vec來訓(xùn)練用戶的聽歌記錄。這里的單元塊就是歌曲編號。假設(shè)用戶對音樂類型的喜好是一致的,那么訓(xùn)練后就能找到與某個(gè)歌曲相似的歌曲,這樣就能給用戶進(jìn)行推薦了。相信類似這種樣例還有非常多。
(關(guān)于這點(diǎn)思考:詞能夠使一個(gè)標(biāo)號或者理解為一個(gè)類的對象!
)
先上圖:
? ? ?
個(gè)人感覺這個(gè)解說的非常具體~
?
注意:1。 輸入為一個(gè)窗體的待預(yù)測上下文
2. 輸入層Wj 是維度為K的列向量,(syn0 編碼?)如有 N個(gè)輸入詞。則輸入大小為k*N?
3. 隱層 Tk 是輸入層Wj 的加權(quán),隱層大小為N*k
4. 輸出層的葉節(jié)點(diǎn)是語料里的詞,如紅樓夢分詞后的獨(dú)立詞
5. 葉節(jié)點(diǎn)有唯一的編碼。從根節(jié)點(diǎn)開始算第一層(二叉樹構(gòu)建算法 Huffman樹)
理解非常淺顯~
以后持續(xù)更新~
參考:
[1]Distributed Representations of Words and Phrases and their Compositionality? (經(jīng)典論文)
[2]?Felven----再談word2vec?? (Felven word2vec 系列非常實(shí)踐)
[3]?Felven----關(guān)鍵詞聚類
[4]?Felven-----紅樓夢人物關(guān)系
[5]?word2vec傻瓜剖析? ? ?(個(gè)人認(rèn)為還是先看看Felven的實(shí)驗(yàn)后。再看這個(gè)比較有感覺點(diǎn)!)
[6]?有道的word2vec 解說 ?(非常具體。幾個(gè)DL大牛的關(guān)系圖非常有意思!
)
[7]?word2vec 代碼解說,英文的!
[8]深度學(xué)習(xí)Word2vec 筆記之算法具體解釋!
[9]?word2vec 的Windows 編譯的版本號
[10]?word2vec使用指導(dǎo)?(zhoubl668的博客,有好幾篇是介紹Word2vec的,值得推薦。)
[11]?Deep Learning in NLP (一)詞向量和語言模型?(非常具體!
)
如轉(zhuǎn)載,請標(biāo)明轉(zhuǎn)自:http://write.blog.csdn.net/postedit/41078835
版權(quán)聲明:本文博客原創(chuàng)文章,博客,未經(jīng)同意,不得轉(zhuǎn)載。
本文轉(zhuǎn)自mfrbuaa博客園博客,原文鏈接:http://www.cnblogs.com/mfrbuaa/p/4645727.html,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的Word2vec 讨论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 访问日志切割
- 下一篇: PPT模板中的”书签”