日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cs224n第二讲词向量表示:word2vec

發(fā)布時(shí)間:2025/3/16 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 cs224n第二讲词向量表示:word2vec 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、如何表示一個(gè)單詞的含義?

  • 定義單詞的含義:語言學(xué)方式上單詞的含義是一種指代,指代世界上的某些具體事物(該單詞的指代物,denotations)。字典含義:

  • 在計(jì)算機(jī)中使用有用的單詞含義:使用像WordNet(分類資源,taxonomic resource)提供很多詞匯相關(guān)的分類信息,如上位詞、下義詞、反義詞和同義詞(hypernym, hyponym, antonym and synonym)
  • 大部分基于規(guī)則和基于統(tǒng)計(jì)的nlp工作將單詞視作原子符號(hào),用一串只有一個(gè)1其余為0的向量來表示這個(gè)原子符號(hào)(獨(dú)熱表示,one-hot representation),這種方法存在問題,因?yàn)樗鼪]有給出任何詞匯之間的內(nèi)在關(guān)系概念(inherent notion of similarity)
  • 分布式表示(distributed representation)指用一個(gè)dense vector來表示詞匯
  • 分布相似性(distributional similarity)是一種關(guān)于詞匯語義的理論,可以通過理解單詞出現(xiàn)的上下文,來描述詞匯的意思

2、word2vec

定義:一種軟件,利用語言的意義理論,預(yù)測(cè)每個(gè)單詞和它上下文的詞匯

  • Skip-grams pediction:

  • details of word2vec:

——在機(jī)器學(xué)習(xí)領(lǐng)域喜歡將事情最小化,跟上面對(duì)應(yīng)起來得到一個(gè)負(fù)的對(duì)數(shù)似然(negative log likelihood)目標(biāo)函數(shù)。

——目標(biāo)函數(shù)(代價(jià)函數(shù)、損失函數(shù))

當(dāng)目標(biāo)函數(shù)為上面的負(fù)的對(duì)數(shù)似然準(zhǔn)則的話意味著我們使用的是交叉熵?fù)p失函數(shù)(cross-entropy loss)

——公式

  結(jié)果形式:

?

其中,vc是中心單詞的向量表示,uo是上下文單詞的向量表示,c和o分別是它們的單詞索引值,即它們?cè)谕N單詞類型集合中的位置。

?

  推導(dǎo)過程:

  Softmax模型:利用c的信息獲得o的輸出概率(選取兩個(gè)向量的點(diǎn)積)

  softmax形式:將數(shù)值轉(zhuǎn)換成概率分布(指數(shù)化使其變?yōu)檎?#xff1b;歸一化處理)

  • Skipgram的一個(gè)具體實(shí)例

3、計(jì)算出Skipgram模型(思路是調(diào)整參數(shù),讓負(fù)的對(duì)數(shù)似然這一目標(biāo)函數(shù)最小化,從而使預(yù)測(cè)的概率最大化)

?

?

4、最優(yōu)化(利用梯度下降,gradient descent,可以觀看cs221或229課程補(bǔ)充相關(guān)知識(shí))

梯度下降:梯度下降法的計(jì)算過程就是沿梯度下降的方向求解極小值(梯度即導(dǎo)數(shù)或偏導(dǎo)數(shù))

python實(shí)現(xiàn)梯度下降的一般算法:

1 while True: 2 theta_grad = evaluate_gradient(J, corpus,theta) 3 theta = theta - alpha * theta_grad

這里的J,corpus,theta分別表示目標(biāo)函數(shù)值,函數(shù)本身和當(dāng)前參數(shù)。

在這里,我們一般使用的梯度下降法是隨機(jī)梯度下降方法(stochastic gradient descent, SGD)

??

SGD的Python實(shí)現(xiàn):

1 while True: 2 window = sample_window(corpus) 3 theta_grad = evaluate_gradient(J, window, theta) 4 theta = theta - alpha * theta_grad

?

轉(zhuǎn)載于:https://www.cnblogs.com/py-fwg/p/9929324.html

總結(jié)

以上是生活随笔為你收集整理的cs224n第二讲词向量表示:word2vec的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。