日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP文本分类--词向量

發布時間:2023/12/16 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP文本分类--词向量 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.基于規則,對于要提取的分類維護一個dict,在dict里面保存需要提取的關鍵詞,存在關鍵詞的對應標記為分類;(缺點,不斷的去維護詞典)
2.基于機器學習:HMM(分詞最常用的),CRF,SVM,LDA,CNN
3.詞袋模型:bag of word :(one hot)一種是統計詞頻和位置,一種是只存儲是否出現;(缺點很明顯,只有詞出現信息,對于詞的重要度完全沒有體現)
4.tf-idf:先考慮每個詞在當前詞詞表中多高,再考慮在所有的文本中出現頻率。這樣就有詞的重要程度了。(缺點是還是么有詞的順序考量,畢竟 l love you, you love l 是不一樣的。但是tf )
5.n-gram:將n個詞體現為一個向量表示,這樣就可以體現順序了。那一句話出現的概率就可以表示為:
(這個里面業界一般不會用相乘,用相加處理。)(缺點:維度會爆炸,隨著n越大。n小效果不好,一般n要到5才會有量變,這樣所有詞的順序組合足以變得非常爆炸。不能表達句子或者說詞之間的相似性。只能對文本進行表達。不能捕捉文本含義。)
6.distribution representation:一個東西可以通過分布式表示方法就能可以用很少的東西,也能表示詞的相似性。一個詞表示可以通過他附近的詞表示: 比如 我是一個 _____人 :這個例子中的空格,我們可以填寫,中國人,好人,壞人,善良;那這些詞都有一些相似性的。這樣就可以通過周邊詞去表示這個詞。
7.共線矩陣cocurrence matrix :因為用分布式表達,我們不能無限的取他旁邊的詞,這個時候要選取幾個旁邊的詞。這個和 n-gram很像。 但不同的是旁邊詞形成局域窗中的詞,而自己本身并不參與。做成一個共線矩陣。

缺點:線性增長,維度太高,太稀疏。
8.對上面的矩陣進行svd降維


缺點: n*n 算法復雜O(n^3)對大型語料庫而言:n–40萬。1-60Btoken;對新加入詞就要重新計算。
9.NNLM(neural network language model)

(缺點:計算量還是很大,需要的參數太多。對于訓練就不是很友好了)

10.Word2vector:CBOW,SKIP-GRAM(去掉映射層)

改進:去掉映射層,直接用每個詞詞向量(初始化好的詞表)。把NNLM中拼接維度參數改成直接對詞向量的求和。 直接去預測目標詞。不使用激活函數,是一個線性的表示器。(缺點:最后的soft的分類還是太多了。)
11.CBOW-層次softmax:通過詞頻出現次數,使用Huffman編碼。在最后做決策每次softmax就會只有0,1兩種,權重放到了這個上面。這樣變成每次softmax按照樹進行乘積。使得這個乘積最大。這樣相當于4次決策。

(缺點:建立Huffman樹,并對這個分層結構進行訓練還是比較麻煩。訓練每個詞都可能全部遍歷整個樹結構。這個計算也比較大。)
12.CBOW-負采樣:對每一個目標詞而言。其實訓練結果中只有一個詞是目標詞(比如整個詞庫有10萬個詞,去預測一句話里面的一個詞出現的概率。這里面只有這個詞是正樣本,其他詞全都是負樣本(10-1)。),可以通過只在負樣本中取得部分負樣本(十萬取500個)參與訓練。這樣一個是平衡數據集,一個是減小了softmax訓練成本。這里一個問題是省略的負目標不會對樣本訓練產生影響。
負樣本采集原理:根據概率分布,頻率分布來采樣的。

13.skip-gram–和cbow反著來的。里面使用的原理一致,不過最后預測出來多個詞(取決于你的窗口大小)。樣本量小的時候用CBOW,樣本量非常大用skip-gram:
詞向量評分:類比任務:inner
word2vector缺點:窗口問題,一詞多義問題。

14.GloVe 方法:

總結

以上是生活随笔為你收集整理的NLP文本分类--词向量的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。