日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP文本分类--词向量

發(fā)布時間:2023/12/16 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP文本分类--词向量 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.基于規(guī)則,對于要提取的分類維護(hù)一個dict,在dict里面保存需要提取的關(guān)鍵詞,存在關(guān)鍵詞的對應(yīng)標(biāo)記為分類;(缺點(diǎn),不斷的去維護(hù)詞典)
2.基于機(jī)器學(xué)習(xí):HMM(分詞最常用的),CRF,SVM,LDA,CNN
3.詞袋模型:bag of word :(one hot)一種是統(tǒng)計詞頻和位置,一種是只存儲是否出現(xiàn);(缺點(diǎn)很明顯,只有詞出現(xiàn)信息,對于詞的重要度完全沒有體現(xiàn))
4.tf-idf:先考慮每個詞在當(dāng)前詞詞表中多高,再考慮在所有的文本中出現(xiàn)頻率。這樣就有詞的重要程度了。(缺點(diǎn)是還是么有詞的順序考量,畢竟 l love you, you love l 是不一樣的。但是tf )
5.n-gram:將n個詞體現(xiàn)為一個向量表示,這樣就可以體現(xiàn)順序了。那一句話出現(xiàn)的概率就可以表示為:
(這個里面業(yè)界一般不會用相乘,用相加處理。)(缺點(diǎn):維度會爆炸,隨著n越大。n小效果不好,一般n要到5才會有量變,這樣所有詞的順序組合足以變得非常爆炸。不能表達(dá)句子或者說詞之間的相似性。只能對文本進(jìn)行表達(dá)。不能捕捉文本含義。)
6.distribution representation:一個東西可以通過分布式表示方法就能可以用很少的東西,也能表示詞的相似性。一個詞表示可以通過他附近的詞表示: 比如 我是一個 _____人 :這個例子中的空格,我們可以填寫,中國人,好人,壞人,善良;那這些詞都有一些相似性的。這樣就可以通過周邊詞去表示這個詞。
7.共線矩陣cocurrence matrix :因?yàn)橛梅植际奖磉_(dá),我們不能無限的取他旁邊的詞,這個時候要選取幾個旁邊的詞。這個和 n-gram很像。 但不同的是旁邊詞形成局域窗中的詞,而自己本身并不參與。做成一個共線矩陣。

缺點(diǎn):線性增長,維度太高,太稀疏。
8.對上面的矩陣進(jìn)行svd降維


缺點(diǎn): n*n 算法復(fù)雜O(n^3)對大型語料庫而言:n–40萬。1-60Btoken;對新加入詞就要重新計算。
9.NNLM(neural network language model)

(缺點(diǎn):計算量還是很大,需要的參數(shù)太多。對于訓(xùn)練就不是很友好了)

10.Word2vector:CBOW,SKIP-GRAM(去掉映射層)

改進(jìn):去掉映射層,直接用每個詞詞向量(初始化好的詞表)。把NNLM中拼接維度參數(shù)改成直接對詞向量的求和。 直接去預(yù)測目標(biāo)詞。不使用激活函數(shù),是一個線性的表示器。(缺點(diǎn):最后的soft的分類還是太多了。)
11.CBOW-層次softmax:通過詞頻出現(xiàn)次數(shù),使用Huffman編碼。在最后做決策每次softmax就會只有0,1兩種,權(quán)重放到了這個上面。這樣變成每次softmax按照樹進(jìn)行乘積。使得這個乘積最大。這樣相當(dāng)于4次決策。

(缺點(diǎn):建立Huffman樹,并對這個分層結(jié)構(gòu)進(jìn)行訓(xùn)練還是比較麻煩。訓(xùn)練每個詞都可能全部遍歷整個樹結(jié)構(gòu)。這個計算也比較大。)
12.CBOW-負(fù)采樣:對每一個目標(biāo)詞而言。其實(shí)訓(xùn)練結(jié)果中只有一個詞是目標(biāo)詞(比如整個詞庫有10萬個詞,去預(yù)測一句話里面的一個詞出現(xiàn)的概率。這里面只有這個詞是正樣本,其他詞全都是負(fù)樣本(10-1)。),可以通過只在負(fù)樣本中取得部分負(fù)樣本(十萬取500個)參與訓(xùn)練。這樣一個是平衡數(shù)據(jù)集,一個是減小了softmax訓(xùn)練成本。這里一個問題是省略的負(fù)目標(biāo)不會對樣本訓(xùn)練產(chǎn)生影響。
負(fù)樣本采集原理:根據(jù)概率分布,頻率分布來采樣的。

13.skip-gram–和cbow反著來的。里面使用的原理一致,不過最后預(yù)測出來多個詞(取決于你的窗口大小)。樣本量小的時候用CBOW,樣本量非常大用skip-gram:
詞向量評分:類比任務(wù):inner
word2vector缺點(diǎn):窗口問題,一詞多義問題。

14.GloVe 方法:

總結(jié)

以上是生活随笔為你收集整理的NLP文本分类--词向量的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。