日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本向量表示及TFIDF词汇权值

發布時間:2025/3/15 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本向量表示及TFIDF词汇权值 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本相似計算是進行文本聚類的基礎,和傳統結構化數值數據的聚類方法類似,文本聚類是通過計算文本之間"距離"來表示文本之間的相似度并產生聚類。文本相似度的常用計算方法有余弦定理和Jaccard系數。但是文本數據與普通的數值數據或類屬數據不同,文本數據是一種半結構化數據,在進行文本挖掘之前必須要對文本數據源進行處理,如分詞、向量化表示等,其目的就是使用量化的數值來表達這些半結構化的文本數據。使其適用于分析計算。

進行文本數據挖掘或信息檢索的時候,會對文本進行分詞處理,經過分詞處理以后,一個文本的表示就變為由若干關鍵詞(Token)來表示的多維向量。可表示為:d(t1,t2,…,tn)d表示被處理的文檔,tn表示在d中出現過至少一次的關鍵詞。在文本挖掘過程中會處理大量的文檔,記為d1,d2,…,dm。經分詞后,這些文檔的向量表示就變為:dm(t1,t2,…,tn)m表示文檔個數、n表示某個文檔中關鍵詞的個數。下面的例子中有兩個包含若干關鍵詞的文檔,在本文的后面會一直使用這個例子所提供的數據。

d1 (A, B, C, C, S, D, A, B, T, S, S, S, T, W, W)

d2(C, S, S, T, W, W, A, B, S, B)

在了解了文檔的向量表示以后再來看看TFIDF加權統計方法(在一些簡單的處理方法中,可以只通過詞頻來計算文本間的相似度,不過當某個關鍵詞在兩篇長度相差很大的文本中出現的頻率相近時會降低結果的準確性)TFIDF是一種加權技術,它通過統計的方法來計算和表達某個關鍵詞在文本中的重要程度。TFIDF是由兩部分組成,一部分是TF(Token Frequency),表示一個詞在文檔中出現的次數,即詞頻。另一部分是IDF(Inverse Document Frequency),表示某個詞出現在多少個文本中(或者解釋為有多少個文本包含了這個詞),即逆向文檔頻率,通常由公式IDFtlog((1+|D|)/|Dt|),其中|D|表示文檔總數,|Dt|表示包含關鍵詞t的文檔數量。TFIDF的值就是由這兩部分相乘得到的,還要指出的是TFIDF不是指某一個特定的公式,而是表示了一系列基于基本TFIDF方法變形(分別對TFIDF這兩部分進行處理)的公式的集合,而TFIDFtd=tftd*ln(idft)(t關鍵詞在文本d中的詞頻乘以t的逆向文檔頻率的自然對數)是被多數系統證明是最有效的一個公式。現在來看看上面那個例子中給出的數據,由例子給出的數據可得到詞頻矩陣如下:

?

d1

d2

A

2

1

B

2

2

C

2

1

D

1

0

S

4

3

T

2

1

W

2

2

?

????通常需要把詞頻數據正規化,以防止詞頻數據偏向于關鍵詞較多即較長的文本。如某一個詞在文檔d1中出現了100次,在d2中出現了100次,僅從詞頻看來這個詞在這兩個文檔中的重要性相同,然而再考慮另一個因素,就是d1的關鍵詞總數是1000,而d2的關鍵詞總數是100000,所以從總體上看,這個詞在d1d2中的重要性是不同的。因此就需要對詞頻做正規化處理。正規化處理的方法是用詞頻除以所有文檔的關鍵詞總數,將上面的詞頻矩陣進行正規化處理后,結果如下表:

?

?

d1

d2

A

0.08

0.04

B

0.08

0.08

C

0.08

0.04

D

0.04

0.00

S

0.16

0.12

T

0.08

0.04

W

0.08

0.08

文檔中關鍵詞總數=25

?

????然后再計算每個關鍵詞對應的逆向文檔頻率即IDF的值。如下表所示:

?

ln

A

0.4

B

0.4

C

0.4

D

1.1

S

0.4

T

0.4

W

0.4

?

????最后將正規化后的詞頻與IDF值相乘,結果如下:

?

?

?

?

d1

d2

A

0.032

0.016

B

0.032

0.032

C

0.032

0.016

D

0.044

0.000

S

0.064

0.048

T

0.032

0.016

W

0.032

0.032

?

在得到TFIDF權值以后就可以利用這些數據利用余弦定理Jaccard系數來計算文本之間的相似度以實現文本聚類等標準的文本挖掘算法了。

?

?

?參考:

?http://www.cnblogs.com/SmartBizSoft/archive/2009/05/14/1457161.html

http://zh.wikipedia.org/w/index.php?title=TF-IDF&variant=zh-cn

?

總結

以上是生活随笔為你收集整理的文本向量表示及TFIDF词汇权值的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 午夜痒痒网 | 成人国产精品久久久网站 | 亚洲av无码乱码国产麻豆 | 天天插综合网 | 91色噜噜 | 另类欧美亚洲 | 涩涩爱影院 | 91精品国| 九月婷婷| 爽插| 国产免费一区视频观看免费 | 欧美色图30p| 捆绑调教sm束缚网站 | 成人精品在线 | 亚洲成a人v欧美综合天堂麻豆 | 欧美性xxxxx极品少妇 | 久久av在线 | 高清国产一区二区三区四区五区 | 污视频网站免费观看 | 国产视频精品免费 | 以女性视角写的高h爽文 | 日韩欧美www | 外国av网站| 日本三区视频 | 热热色原网址 | 色欲狠狠躁天天躁无码中文字幕 | www.国产免费| 老师的肉丝玉足夹茎 | 成人爽爽视频 | 亚洲天堂男人天堂 | 亚洲午夜毛片 | 精品国产91久久久久久 | 亚洲天天操 | 色综合婷婷 | 99国产精品免费视频 | 国产一区二区在线免费观看视频 | 中国少妇av | 欧美精品一级二级三级 | 美女天天操 | 中文字幕日本一区 | 一区二区视频国产 | 亚洲图片综合网 | 男人天堂久久 | 色无极亚洲影院 | 少妇一级免费 | 激情av小说 | 337p粉嫩色噜噜噜大肥臀 | 中文字幕高清在线免费播放 | 自拍偷拍21p | 你懂的在线视频网站 | 久久久久亚洲av成人片 | 精品女同一区二区三区 | 一区二区三区少妇 | 91www| 午夜精品在线观看 | 国产一区二区三区四区五区在线 | 蜜臀国产AV天堂久久无码蜜臀 | av色欲无码人妻中文字幕 | 亚洲射射| 大地资源中文第三页 | 久久国产这里只有精品 | www.国产视频 | 麻豆影视国产在线观看 | 又黄又爽在线观看 | h文在线观看| 亚洲女优在线观看 | 日韩伦理在线视频 | 色哟哟国产精品色哟哟 | 亚洲精品视频在线 | 无码国产69精品久久久久同性 | 亚洲操操| 日本不卡影院 | 狠狠躁日日躁夜夜躁av | 免费不卡毛片 | 成人视屏在线观看 | 国产小视频免费 | 丁香久久综合 | 欧美少妇诱惑 | 精品爆乳一区二区三区无码av | 日韩无马 | 久久久精 | 97精品国产97久久久久久免费 | 中文字幕日本一区二区 | 亚洲一级黄色片 | 日韩人妻一区二区三区蜜桃 | 色偷偷网| jizzjizz亚洲| 足交在线观看 | 欧美日韩精品一区二区在线播放 | 祥仔视觉av | 欧美成人片在线 | 四虎影视免费观看 | 国产日韩精品suv | 成人性生交大片免费看 | 成人免费不卡视频 | 亚洲二区在线观看 | 樱桃香蕉视频 | 成人在线精品 | 不卡的av电影 |