Word Embedding的通俗解释
**Word Embedding是NLP中最頻繁出現(xiàn)的詞了,關(guān)于word embedding,其實(shí)很簡單。
word embedding的意思是:給出一個(gè)文檔,文檔就是一個(gè)單詞序列比如 “A B A C B F G”, 希望對(duì)文檔中每個(gè)不同的單詞都得到一個(gè)對(duì)應(yīng)的向量(往往是低維向量)表示。
比如,對(duì)于這樣的“A B A C B F G”的一個(gè)序列,也許我們最后能得到:A對(duì)應(yīng)的向量為[0.1 0.6 -0.5],B對(duì)應(yīng)的向量為[-0.2 0.9 0.7] (此處的數(shù)值只用于示意)
之所以希望把每個(gè)單詞變成一個(gè)向量,目的還是為了方便計(jì)算,比如“求單詞A的同義詞”,就可以通過“求與單詞A在cos距離下最相似的向量”來做到。
word embedding不是一個(gè)新的topic,很早就已經(jīng)有人做了,比如bengio的paper“Neural probabilistic language models”,這其實(shí)還不算最早,更早的時(shí)候,Hinton就已經(jīng)提出了distributed representation的概念“Learning distributed representations of concepts”(只不過不是用在word embedding上面) ,AAAI2015的時(shí)候問過Hinton怎么看google的word2vec,他說自己20年前就已經(jīng)搞過了,哈哈,估計(jì)指的就是這篇paper。
總之,常見的word embedding方法就是先從文本中為每個(gè)單詞構(gòu)造一組features,然后對(duì)這組feature做distributed representations,哈哈,相比于傳統(tǒng)的distributed representations,區(qū)別就是多了一步(先從文檔中為每個(gè)單詞構(gòu)造一組feature)。
既然word embedding是一個(gè)老的topic,為什么會(huì)火呢?原因是Tomas Mikolov在Google的時(shí)候發(fā)的這兩篇paper:“Efficient Estimation of Word Representations in Vector Space”、“Distributed Representations of Words and Phrases and their Compositionality”。
這兩篇paper中提出了一個(gè)word2vec的工具包,里面包含了幾種word embedding的方法,這些方法有兩個(gè)特點(diǎn)。一個(gè)特點(diǎn)是速度快,另一個(gè)特點(diǎn)是得到的embedding vectors具備analogy性質(zhì)。analogy性質(zhì)類似于“A-B=C-D”這樣的結(jié)構(gòu),舉例說明:“北京-中國 = 巴黎-法國”。Tomas Mikolov認(rèn)為具備這樣的性質(zhì),則說明得到的embedding vectors性質(zhì)非常好,能夠model到語義。
這兩篇paper是2013年的工作,至今(2015.8),這兩篇paper的引用量早已經(jīng)超好幾百,足以看出其影響力很大。當(dāng)然,word embedding的方案還有很多,常見的word embedding的方法有:
word2vec中的模型至今(2015.8)還是存在不少未解之謎,因此就有不少papers嘗試去解釋其中一些謎團(tuán),或者建立其與其他模型之間的聯(lián)系,下面是paper list
原文鏈接:https://blog.csdn.net/jdbc/article/details/49467239
總結(jié)
以上是生活随笔為你收集整理的Word Embedding的通俗解释的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Microsoft Word的学习
- 下一篇: 【计算机毕业设计】高校二手交易平台