cs224n第二讲词向量表示:word2vec
1、如何表示一個(gè)單詞的含義?
- 定義單詞的含義:語言學(xué)方式上單詞的含義是一種指代,指代世界上的某些具體事物(該單詞的指代物,denotations)。字典含義:
- 在計(jì)算機(jī)中使用有用的單詞含義:使用像WordNet(分類資源,taxonomic resource)提供很多詞匯相關(guān)的分類信息,如上位詞、下義詞、反義詞和同義詞(hypernym, hyponym, antonym and synonym)
- 大部分基于規(guī)則和基于統(tǒng)計(jì)的nlp工作將單詞視作原子符號(hào),用一串只有一個(gè)1其余為0的向量來表示這個(gè)原子符號(hào)(獨(dú)熱表示,one-hot representation),這種方法存在問題,因?yàn)樗鼪]有給出任何詞匯之間的內(nèi)在關(guān)系概念(inherent notion of similarity)
- 分布式表示(distributed representation)指用一個(gè)dense vector來表示詞匯
- 分布相似性(distributional similarity)是一種關(guān)于詞匯語義的理論,可以通過理解單詞出現(xiàn)的上下文,來描述詞匯的意思
2、word2vec
定義:一種軟件,利用語言的意義理論,預(yù)測(cè)每個(gè)單詞和它上下文的詞匯
- Skip-grams pediction:
- details of word2vec:
——在機(jī)器學(xué)習(xí)領(lǐng)域喜歡將事情最小化,跟上面對(duì)應(yīng)起來得到一個(gè)負(fù)的對(duì)數(shù)似然(negative log likelihood)目標(biāo)函數(shù)。
——目標(biāo)函數(shù)(代價(jià)函數(shù)、損失函數(shù))
當(dāng)目標(biāo)函數(shù)為上面的負(fù)的對(duì)數(shù)似然準(zhǔn)則的話意味著我們使用的是交叉熵?fù)p失函數(shù)(cross-entropy loss)
——公式
結(jié)果形式:
?
其中,vc是中心單詞的向量表示,uo是上下文單詞的向量表示,c和o分別是它們的單詞索引值,即它們?cè)谕N單詞類型集合中的位置。
?
推導(dǎo)過程:
Softmax模型:利用c的信息獲得o的輸出概率(選取兩個(gè)向量的點(diǎn)積)
softmax形式:將數(shù)值轉(zhuǎn)換成概率分布(指數(shù)化使其變?yōu)檎?#xff1b;歸一化處理)
- Skipgram的一個(gè)具體實(shí)例
3、計(jì)算出Skipgram模型(思路是調(diào)整參數(shù),讓負(fù)的對(duì)數(shù)似然這一目標(biāo)函數(shù)最小化,從而使預(yù)測(cè)的概率最大化)
?
?
4、最優(yōu)化(利用梯度下降,gradient descent,可以觀看cs221或229課程補(bǔ)充相關(guān)知識(shí))
梯度下降:梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值(梯度即導(dǎo)數(shù)或偏導(dǎo)數(shù))
python實(shí)現(xiàn)梯度下降的一般算法:
1 while True: 2 theta_grad = evaluate_gradient(J, corpus,theta) 3 theta = theta - alpha * theta_grad這里的J,corpus,theta分別表示目標(biāo)函數(shù)值,函數(shù)本身和當(dāng)前參數(shù)。
在這里,我們一般使用的梯度下降法是隨機(jī)梯度下降方法(stochastic gradient descent, SGD)
??
SGD的Python實(shí)現(xiàn):
1 while True: 2 window = sample_window(corpus) 3 theta_grad = evaluate_gradient(J, window, theta) 4 theta = theta - alpha * theta_grad?
轉(zhuǎn)載于:https://www.cnblogs.com/py-fwg/p/9929324.html
總結(jié)
以上是生活随笔為你收集整理的cs224n第二讲词向量表示:word2vec的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mysql InnoDB 数据更新/删除
- 下一篇: ML激活函数使用法则