日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本挖掘预处理:向量化与Hash Trick

發(fā)布時間:2025/3/21 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本挖掘预处理:向量化与Hash Trick 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. 向量化 

1.1 概念

? ? ? ?詞袋模型在分詞之后,通過統(tǒng)計每個詞在文本中出現(xiàn)的次數(shù),就可以得到該文本基于詞的特征,如果將各個文本樣本的這些詞與對應(yīng)的詞頻放在一起,就是我們常說的向量化。向量化完畢后一般也會使用TF-IDF進(jìn)行特征的權(quán)重修正,再將特征進(jìn)行標(biāo)準(zhǔn)化。 再進(jìn)行一些其他的特征工程后,就可以將數(shù)據(jù)帶入機器學(xué)習(xí)算法進(jìn)行分類聚類了。

? ? ? ?在詞袋模型的統(tǒng)計詞頻這一步,會得到該文本中所有詞的詞頻,有了詞頻,我們就可以用詞向量表示這個文本。

1.2 向量化方式

(1)One-hot表示方式/詞袋模型

? ? 優(yōu)點:

  • ?解決了分類器不好處理離散數(shù)據(jù)的問題
  • ?在一定程度上也起到了擴(kuò)充特征的作用

? ?缺點:

  • 不考慮詞與詞之間的順序
  • 其假設(shè)詞與詞之間相互獨立(大多數(shù)情況下,詞與詞之間是相互有關(guān)聯(lián)的)
  • 得到的特征是離散稀疏的

(2)N-gram

優(yōu)點:

  • 考慮了詞的順序,信息量更充分

缺點:

  • 詞表迅速膨脹,數(shù)據(jù)出現(xiàn)大量的稀疏化問題
  • 每增加一個詞,模型參數(shù)增加40萬倍
  • 無法衡量詞項量之間的關(guān)系

(3)word2vec?

3. ?Hash Trick

 ? ? 將文本做了詞頻統(tǒng)計后,我們一般會通過TF-IDF進(jìn)行詞特征值修訂。向量化的方法很好用,也很直接,但是在有些場景下很難使用,比如分詞后的詞匯表非常大,達(dá)到100萬+,此時如果我們直接使用向量化的方法,將對應(yīng)的樣本對應(yīng)特征矩陣載入內(nèi)存,有可能將內(nèi)存撐爆,在這種情況下怎么辦呢?第一反應(yīng)是要進(jìn)行特征的降維,說的沒錯!而Hash Trick就是常用的文本特征降維方法

? ? ? ? 在大規(guī)模的文本處理中,由于特征的維度對應(yīng)分詞詞匯表的大小,所以維度可能非常恐怖,此時需要進(jìn)行降維,不能直接用上一節(jié)的向量化方法。而最常用的文本降維方法是Hash Trick。說到Hash,一點也不神秘,學(xué)過數(shù)據(jù)結(jié)構(gòu)的同學(xué)都知道。這里的Hash意義也類似。

? ? ? ?那么,這種方法來處理特征,哈希后的特征是否能夠很好的代表哈希前的特征呢?從實際應(yīng)用中說,由于文本特征的高稀疏性,這么做是可行的。理論研究參考論文:Feature hashing for large scale multitask learning.。

  在scikit-learn的HashingVectorizer類中,實現(xiàn)了基于signed hash trick的算法,其為hash trick的變種。這里就用HashingVectorizer來實踐一下Hash Trick,為了簡單,使用上面的19維詞匯表,并哈希降維到6維。當(dāng)然在實際應(yīng)用中,19維的數(shù)據(jù)根本不需要Hash Trick,這里只是做一個演示,代碼如下:

向量化:

# 向量化 from sklearn.feature_extraction.text import CountVectorizer# 實例化分詞對象 vec = CountVectorizer(min_df=1) # 將文本進(jìn)行詞袋處理 corpus=["I come to China to travel","This is a car polupar in China","I love tea and Apple ","The work is to write some papers in science"]X = vec.fit_transform(corpus) print('CountVectorizer:\n',X)

CountVectorizer:
? (0, 16)?? ?1
? (0, 3)?? ?1
? (0, 15)?? ?2
? (0, 4)?? ?1
? (1, 5)?? ?1
? (1, 9)?? ?1
? (1, 2)?? ?1
? (1, 6)?? ?1
? (1, 14)?? ?1
? (1, 3)?? ?1
? (2, 1)?? ?1
? (2, 0)?? ?1
? (2, 12)?? ?1
? (2, 7)?? ?1
? (3, 10)?? ?1
? (3, 8)?? ?1
? (3, 11)?? ?1
? (3, 18)?? ?1
? (3, 17)?? ?1
? (3, 13)?? ?1
? (3, 5)?? ?1
? (3, 6)?? ?1
? (3, 15)?? ?1?

特例:Hsah trick?

# 特例:Hsah trick from sklearn.feature_extraction.text import HashingVectorizervectorizer2=HashingVectorizer(n_features=6,norm=None) X2 = vectorizer2.fit_transform(corpus)print('HashingVectorizer:\n', X2)

HashingVectorizer:
? ?(0, 1)?? ?2.0
? (0, 2)?? ?-1.0
? (0, 4)?? ?1.0
? (0, 5)?? ?-1.0
? (1, 0)?? ?1.0
? (1, 1)?? ?1.0
? (1, 2)?? ?-1.0
? (1, 5)?? ?-1.0
? (2, 0)?? ?2.0
? (2, 5)?? ?-2.0
? (3, 0)?? ?0.0
? (3, 1)?? ?4.0
? (3, 2)?? ?-1.0
? (3, 3)?? ?1.0
? (3, 5)?? ?-1.0?

  和PCA類似,Hash Trick降維后的特征,已經(jīng)不知道它代表的特征名字和意義。此時不能像向量化時候可以知道每一列的意義,所以Hash Trick的解釋性不強。

4.?向量化與Hash Trick小結(jié)

  在特征預(yù)處理的時候,什么時候用一般意義的向量化,什么時候用Hash Trick呢?標(biāo)準(zhǔn)也很簡單。

  一般來說,只要詞匯表的特征不至于太大,大到內(nèi)存不夠用,肯定是使用一般意義的向量化比較好。因為向量化的方法解釋性很強,我們知道每一維特征對應(yīng)哪一個詞,進(jìn)而我們還可以使用TF-IDF對各個詞特征的權(quán)重修改,進(jìn)一步完善特征的表示。

  而Hash Trick用大規(guī)模機器學(xué)習(xí)上,此時我們的詞匯量極大,使用向量化方法內(nèi)存不夠用,而使用Hash Trick降維速度很快,降維后的特征仍然可以幫我們完成后續(xù)的分類和聚類工作。當(dāng)然由于分布式計算框架的存在,其實一般我們不會出現(xiàn)內(nèi)存不夠的情況。因此,實際工作中我使用的都是特征向量化

總結(jié)

以上是生活随笔為你收集整理的文本挖掘预处理:向量化与Hash Trick的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: www.男人的天堂 | 少妇天天干 | 殴美一级特黄aaaaaa | 日韩成人专区 | 亚洲一区你懂的 | 国产高清视频免费在线观看 | 四虎音影| 国产成人午夜视频 | 亚洲黄色免费看 | 在线观看免费的av | 久操av | 新婚夫妇白天啪啪自拍 | 久久久久久久久久一区二区 | xxxx国产精品| 丁香花高清在线 | 亚洲高清毛片一区二区 | 日本一区二区三区成人 | 婷婷九九| 欧美一区影院 | 五月天黄色小说 | jizz日本在线 | 久久久久久久久99 | 天堂av免费观看 | 免费黄色三级 | 欧美人与性禽动交精品 | 黄色在线观看免费 | 国产精品成人一区二区三区电影毛片 | 国产福利在线看 | 欧美少妇激情 | 毛片网络| 亚洲人成影视 | 成人高清免费观看 | 国产一区亚洲一区 | 国产农村熟妇videos | 亚洲免费久久 | 欧美熟妇精品久久久久久 | 国产在线播放一区二区三区 | 黄色亚洲网站 | 九九热精品| 亚洲黄色在线播放 | 亚洲免费看黄 | 老熟妇高潮一区二区高清视频 | 国产在线综合视频 | 伊人影院在线播放 | 国产成人三级在线 | 俺去久久| 在线观看中文字幕 | 蜜桃视频一区二区 | 香蕉视频免费在线看 | 福利91| 欧美影院久久 | 伊人网免费视频 | 性视频久久 | 亚洲国产精品电影 | 国产精品久久久久久久久久 | 国产亚洲美女精品久久久2020 | 国产成人三级在线播放 | 国产永久免费无遮挡 | 国产超碰自拍 | 一级特毛片 | av鲁丝一区鲁丝二区鲁丝 | 性欧美大战久久久久久久 | av中文网 | 国产精品国产精品国产专区不片 | 欧美精品一区二区蜜臀亚洲 | 瑟瑟视频在线免费观看 | 50度灰在线| 亚洲av永久无码国产精品久久 | 中文字幕69页 | 精品人妻一区二区三区蜜桃 | 亚洲h动漫| 日本精品久久久 | 欧美日本色图 | 99热在线只有精品 | 免费看操片 | 国产又黄又粗又硬 | 成都免费高清电影 | porn麻豆| 亚洲成人第一网站 | 丰满人妻熟妇乱偷人无码 | 性网爆门事件集合av | 国产又黄又大又爽 | 一级激情视频 | 欧美情侣性视频 | 国产精品高清网站 | 亚洲黄色一区 | 中文字幕av在线免费观看 | 精品国产乱码久久久久久1区2区 | 久久久久久色 | 国产精品一区二区久久久 | 午夜视频福利 | 3d动漫精品啪啪一区二区免费 | 成人黄色在线播放 | 久久综合久久网 | 男人把女人捅爽 | av男人天堂网 | 国产青青操 | 欧美日韩1 | 日韩欧美电影一区二区三区 |