日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP ——Doc2vec

發(fā)布時間:2024/1/1 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP ——Doc2vec 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

NLP ——Doc2vec

  • 即使利用word2vec對詞向量進(jìn)行平均處理,我們?nèi)匀缓雎粤藛卧~之間的排列順序?qū)η楦蟹治龅挠绊?。即上述的word2vec只是基于詞的維度進(jìn)行”語義分析”的,而并不具有上下文的”語義分析”能力。在一個句子或者文檔的訓(xùn)練過程中,段落 ID 保持不變,共享著同一個段落向量。

  • 在word2vec的基礎(chǔ)上添加一個段落向量。訓(xùn)練單詞向量W時,也訓(xùn)練段落向量D,并且在訓(xùn)練結(jié)束時,它包含了段落的向量化表示。雖然單詞向量表示單詞的概念,但段落向量旨在表示段落的概念。

  • PV-DM

    訓(xùn)練過程中新增了paragraph id,即訓(xùn)練語料中每個句子都有一個唯一的id。paragraph id和普通的word一樣,也是先映射成一個向量,即paragraph vector。paragraph vector與word vector的維數(shù)雖一樣,但是來自于兩個不同的向量空間。在之后的計算里,paragraph vector和word vector累加或者連接起來,作為輸出層softmax的輸入。在一個句子或者文檔的訓(xùn)練過程中,paragraph id保持不變,共享著同一個paragraph vector,相當(dāng)于每次在預(yù)測單詞的概率時,都利用了整個句子的語義。
    在預(yù)測階段,給待預(yù)測的句子新分配一個paragraph id,詞向量和輸出層softmax的參數(shù)保持訓(xùn)練階段得到的參數(shù)不變,重新利用梯度下降訓(xùn)練待預(yù)測的句子。待收斂后,即得到待預(yù)測句子的paragraph vector。

  • PV-DBOW

    區(qū)別點(diǎn)為:在sentence2vec里,輸入都是paragraph vector,輸出是該paragraph中隨機(jī)抽樣的詞。

該算法實(shí)際上更快(與word2vec相反)并且消耗更少的內(nèi)存,因?yàn)椴恍枰4嬖~向量。

在論文中,作者建議使用兩種算法的組合,盡管PV-DM模型是優(yōu)越的,并且通常會自己達(dá)到最優(yōu)的結(jié)果。

doc2vec模型的使用方式:對于訓(xùn)練,它需要一組文檔。 為每個單詞生成詞向量W,并為每個文檔生成段落向量D. 該模型還訓(xùn)練softmax隱藏層的權(quán)重。 在推理階段,可以呈現(xiàn)新段落,并且固定所有權(quán)重以計算段落向量。

總結(jié)

以上是生活随笔為你收集整理的NLP ——Doc2vec的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。