當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

NLP ——Doc2vec

發(fā)布時(shí)間：2024/1/1 编程问答 64 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP ——Doc2vec 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

NLP ——Doc2vec

即使利用word2vec對(duì)詞向量進(jìn)行平均處理，我們?nèi)匀缓雎粤藛卧~之間的排列順序?qū)η楦蟹治龅挠绊憽＜瓷鲜龅膚ord2vec只是基于詞的維度進(jìn)行”語(yǔ)義分析”的，而并不具有上下文的”語(yǔ)義分析”能力。在一個(gè)句子或者文檔的訓(xùn)練過(guò)程中，段落 ID 保持不變，共享著同一個(gè)段落向量。
在word2vec的基礎(chǔ)上添加一個(gè)段落向量。訓(xùn)練單詞向量W時(shí)，也訓(xùn)練段落向量D，并且在訓(xùn)練結(jié)束時(shí)，它包含了段落的向量化表示。雖然單詞向量表示單詞的概念，但段落向量旨在表示段落的概念。
PV-DM

訓(xùn)練過(guò)程中新增了paragraph id，即訓(xùn)練語(yǔ)料中每個(gè)句子都有一個(gè)唯一的id。paragraph id和普通的word一樣，也是先映射成一個(gè)向量，即paragraph vector。paragraph vector與word vector的維數(shù)雖一樣，但是來(lái)自于兩個(gè)不同的向量空間。在之后的計(jì)算里，paragraph vector和word vector累加或者連接起來(lái)，作為輸出層softmax的輸入。在一個(gè)句子或者文檔的訓(xùn)練過(guò)程中，paragraph id保持不變，共享著同一個(gè)paragraph vector，相當(dāng)于每次在預(yù)測(cè)單詞的概率時(shí)，都利用了整個(gè)句子的語(yǔ)義。
在預(yù)測(cè)階段，給待預(yù)測(cè)的句子新分配一個(gè)paragraph id，詞向量和輸出層softmax的參數(shù)保持訓(xùn)練階段得到的參數(shù)不變，重新利用梯度下降訓(xùn)練待預(yù)測(cè)的句子。待收斂后，即得到待預(yù)測(cè)句子的paragraph vector。
PV-DBOW

區(qū)別點(diǎn)為：在sentence2vec里，輸入都是paragraph vector，輸出是該paragraph中隨機(jī)抽樣的詞。

該算法實(shí)際上更快（與word2vec相反）并且消耗更少的內(nèi)存，因?yàn)椴恍枰４嬖~向量。

在論文中，作者建議使用兩種算法的組合，盡管PV-DM模型是優(yōu)越的，并且通常會(huì)自己達(dá)到最優(yōu)的結(jié)果。

doc2vec模型的使用方式：對(duì)于訓(xùn)練，它需要一組文檔。為每個(gè)單詞生成詞向量W，并為每個(gè)文檔生成段落向量D. 該模型還訓(xùn)練softmax隱藏層的權(quán)重。在推理階段，可以呈現(xiàn)新段落，并且固定所有權(quán)重以計(jì)算段落向量。

總結(jié)

以上是生活随笔為你收集整理的NLP ——Doc2vec的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

NLP
Doc2Vec

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

NLP ——Doc2vec

NLP ——Doc2vec

總結(jié)