日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

doc2vec原理

發(fā)布時(shí)間:2024/1/1 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 doc2vec原理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

doc2vec和word2vec類似,Doc2vec也有兩種訓(xùn)練方式,分別是Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。

DM 試圖在給定上下文和段落向量的情況下預(yù)測單詞的概率,與word2vec中CBOW類似,在一個(gè)句子或者文檔的訓(xùn)練過程中,段落 ID 保持不變,共享著同一個(gè)段落向量;

DBOW 則在僅給定段落向量的情況下預(yù)測段落中一組隨機(jī)單詞的概率,與word2vec中skip-gram類似。

1.DM模型

訓(xùn)練過程中新增了paragraph id,即訓(xùn)練語料中每個(gè)句子都有一個(gè)唯一的id。paragraph id和普通的word一樣,也是先映射成一個(gè)向量,即paragraph vector。paragraph vector與word vector的維數(shù)雖一樣,但是來自于兩個(gè)不同的向量空間。在之后的計(jì)算里,paragraph vector和word vector累加或者連接起來,作為輸出層softmax的輸入。在一個(gè)句子或者文檔的若干次訓(xùn)練過程中,paragraph id保持不變,共享著同一個(gè)paragraph vector,相當(dāng)于每次在預(yù)測單詞的概率時(shí),都利用了整個(gè)句子的語義。
訓(xùn)練完了以后,就會(huì)得到訓(xùn)練樣本中所有的詞向量和每句話對應(yīng)的句子向量。

那么Doc2vec是怎么預(yù)測新的句子Paragraph vector呢?其實(shí)在預(yù)測新的句子的時(shí)候,還是會(huì)將該P(yáng)aragraph vector隨機(jī)初始化,放入模型中再重新根據(jù)隨機(jī)梯度下降不斷迭代求得最終穩(wěn)定下來的句子向量。不過在預(yù)測過程中,模型里的詞向量還有投影層到輸出層的softmax weights參數(shù)是不會(huì)變的,這樣在不斷迭代中只會(huì)更新Paragraph vector,其他參數(shù)均已固定,只需很少的時(shí)間就能計(jì)算出帶預(yù)測的Paragraph vector。

2. DBOW模型

總結(jié)

以上是生活随笔為你收集整理的doc2vec原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。