日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

tf-idf:信息检索

發(fā)布時(shí)間:2025/3/21 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 tf-idf:信息检索 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency)。

TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。?[1]?

原理

編輯

TFIDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。TFIDF實(shí)際上是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類別區(qū)分能力。如果某一類文檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說(shuō)明該詞條t類別區(qū)分能力不強(qiáng)。但是實(shí)際上,如果一個(gè)詞條在一個(gè)類的文檔中頻繁出現(xiàn),則說(shuō)明該詞條能夠很好代表這個(gè)類的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來(lái)作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處. 在一份給定的文件里,詞頻(term frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(term count)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語(yǔ)在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語(yǔ)重要與否。)對(duì)于在某一特定文件里的詞語(yǔ)來(lái)說(shuō),它的重要性可表示為:

  • ?

以上式子中分子是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。

逆向文件頻率(inverse document frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取以10為底的對(duì)數(shù)得到:

  • ?

其中

  • |D|:語(yǔ)料庫(kù)中的文件總數(shù)

  • :包含詞語(yǔ)的文件數(shù)目(即的文件數(shù)目)如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致分母為零,因此一般情況下使用

    作為分母。

idf公式分母

然后再計(jì)算TF與IDF的乘積。

  • ?

某一特定文件內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見的詞語(yǔ),保留重要的詞語(yǔ)。?[2]?

舉例

編輯

例1

有很多不同的數(shù)學(xué)公式可以用來(lái)計(jì)算TF-IDF。這邊的例子以上述的數(shù)學(xué)公式來(lái)計(jì)算。詞頻 (TF) 是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。假如一篇文件的總詞語(yǔ)數(shù)是100個(gè),而詞語(yǔ)“母?!背霈F(xiàn)了3次,那么“母?!币辉~在該文件中的詞頻就是3/100=0.03。一個(gè)計(jì)算文件頻率 (IDF) 的方法是文件集里包含的文件總數(shù)除以測(cè)定有多少份文件出現(xiàn)過(guò)“母?!币辉~。所以,如果“母?!币辉~在1,000份文件出現(xiàn)過(guò),而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03 * 4=0.12。

例2

在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“原子能”、“的”和“應(yīng)用”分別出現(xiàn)了 2 次、35 次 和 5 次,那么它們的詞頻就分別是 0.002、0.035 和 0.005。 我們將這三個(gè)數(shù)相加,其和 0.042 就是相應(yīng)網(wǎng)頁(yè)和查詢“原子能的應(yīng)用” 相關(guān)性的一個(gè)簡(jiǎn)單的度量。概括地講,如果一個(gè)查詢包含關(guān)鍵詞 w1,w2,...,wN, 它們?cè)谝黄囟ňW(wǎng)頁(yè)中的詞頻分別是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,這個(gè)查詢和該網(wǎng)頁(yè)的相關(guān)性就是:TF1 + TF2 + ... + TFN。

讀者可能已經(jīng)發(fā)現(xiàn)了又一個(gè)漏洞。在上面的例子中,詞“的”占了總詞頻的 80% 以上,而它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)有用。我們稱這種詞叫“應(yīng)刪除詞”(Stopwords),也就是說(shuō)在度量相關(guān)性是不應(yīng)考慮它們的頻率。在漢語(yǔ)中,應(yīng)刪除詞還有“是”、“和”、“中”、“地”、“得”等等幾十個(gè)。忽略這些應(yīng)刪除詞后,上述網(wǎng)頁(yè)的相似度就變成了0.007,其中“原子能”貢獻(xiàn)了 0.002,“應(yīng)用”貢獻(xiàn)了 0.005。細(xì)心的讀者可能還會(huì)發(fā)現(xiàn)另一個(gè)小的漏洞。在漢語(yǔ)中,“應(yīng)用”是個(gè)很通用的詞,而“原子能”是個(gè)很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語(yǔ)中的每一個(gè)詞給一個(gè)權(quán)重,這個(gè)權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:

1.?一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。我們?cè)诰W(wǎng)頁(yè)中看到“原子能”這個(gè)詞,或多或少地能了解網(wǎng)頁(yè)的主題。我們看到“應(yīng)用”一次,對(duì)主題基本上還是一無(wú)所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。

2.?應(yīng)刪除詞的權(quán)重應(yīng)該是零。

我們很容易發(fā)現(xiàn),如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它仍然不是很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個(gè)關(guān)鍵詞 w 在 Dw 個(gè)網(wǎng)頁(yè)中出現(xiàn)過(guò),那么 Dw 越大,w的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)” (Inverse document frequency 縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁(yè)數(shù)。比如,我們假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)= log (1) = 0。假如專用詞“原子能”在兩百萬(wàn)個(gè)網(wǎng)頁(yè)中出現(xiàn),即Dw=200萬(wàn),則它的權(quán)重IDF=log(500) =2.7。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個(gè)網(wǎng)頁(yè)中,它的權(quán)重IDF = log(2)則只有 0.3。也就是說(shuō),在網(wǎng)頁(yè)中找到一個(gè)“原子能”的匹配相當(dāng)于找到九個(gè)“應(yīng)用”的匹配。利用 IDF,上述相關(guān)性計(jì)算的公式就由詞頻的簡(jiǎn)單求和變成了加權(quán)求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,該網(wǎng)頁(yè)和“原子能的應(yīng)用”的相關(guān)性為 0.0069,其中“原子能”貢獻(xiàn)了 0.0054,而“應(yīng)用”只貢獻(xiàn)了0.0015。這個(gè)比例和我們的直覺(jué)比較一致了。?[3]?

應(yīng)用

編輯

權(quán)重計(jì)算方法經(jīng)常會(huì)和余弦相似度(cosine similarity)一同使用于向量空間模型中,用以判斷兩份文件之間的相似性。

理論假設(shè)

編輯

TFIDF算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔最有意義的詞語(yǔ)應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語(yǔ),所以如果特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán) ,并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無(wú)用,顯然這并不是完全正確的。IDF的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無(wú)法很好地完成對(duì)權(quán)值調(diào)整的功能,所以TFIDF法的精度并不是很高。

此外,在TFIDF算法中并沒(méi)有體現(xiàn)出單詞的位置信息,對(duì)于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁(yè)不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。

模型概率

編輯

信息檢索概述

信息檢索是當(dāng)前應(yīng)用十分廣泛的一種技術(shù),論文檢索、搜索引擎都屬于信息檢索的范疇。通常,人們把信息檢索問(wèn)題抽象為:在文檔集合D上,對(duì)于由關(guān)鍵詞w[1] … w[k]組成的查詢串q,返回一個(gè)按查詢q和文檔d匹配度 relevance (q, d)排序的相關(guān)文檔列表D’。?[4]?

對(duì)于這一基問(wèn)題,先后出現(xiàn)了布爾模型、向量模型等各種經(jīng)典的信息檢索模型,它們從不同的角度提出了自己的一套解決方案。布爾模型以集合的布爾運(yùn)算為基礎(chǔ),查詢效率高,但模型過(guò)于簡(jiǎn)單,無(wú)法有效地對(duì)不同文檔進(jìn)行排序,查詢效果不佳。向量模型把文檔和查詢串都視為詞所構(gòu)成的多維向量,而文檔與查詢的相關(guān)性即對(duì)應(yīng)于向量間的夾角。不過(guò),由于通常詞的數(shù)量巨大,向量維度非常高,而大量的維度都是0,計(jì)算向量夾角的效果并不好。另外,龐大的計(jì)算量也使得向量模型幾乎不具有在互聯(lián)網(wǎng)搜索引擎這樣海量數(shù)據(jù)集上實(shí)施的可行性。?[4]?

tf-idf 模型

當(dāng)前,真正在搜索引擎等實(shí)際應(yīng)用中廣泛使用的是 tf-idf 模型。tf-idf 模型的主要思想是:如果詞w在一篇文檔d中出現(xiàn)的頻率高,并且在其他文檔中很少出現(xiàn),則認(rèn)為詞w具有很好的區(qū)分能力,適合用來(lái)把文章d和其他文章區(qū)分開來(lái)。?[4]?

信息檢索的概率視角

直觀上看,tf 描述的是文檔中詞出現(xiàn)的頻率;而 idf 是和詞出現(xiàn)文檔數(shù)相關(guān)的權(quán)重。我們比較容易定性地理解 tf-idf 的基本思想,但具體到 tf-idf 的一些細(xì)節(jié)卻并不是那么容易說(shuō)清楚為什么。?[4]?

總結(jié)

TF-IDF 模型是搜索引擎等實(shí)際應(yīng)用中被廣泛使用的信息檢索模型,但對(duì)于 TF-IDF 模型一直存在各種疑問(wèn)。本文為信息檢索問(wèn)題一種基于條件概率的盒子小球模型,其核心思想是把“查詢串q和文檔d的匹配度問(wèn)題”轉(zhuǎn)化為“查詢串q來(lái)自于文檔d的條件概率問(wèn)題”。它從概率的視角為信息檢索問(wèn)題定義了比 TF-IDF 模型所表達(dá)的匹配度更為清晰的目標(biāo)。此模型可將 TF-IDF 模型納入其中,一方面解釋其合理性,另一方面也發(fā)現(xiàn)了其不完善之處。另外,此模型還可以解釋 PageRank 的意義,以及 PageRank 權(quán)重和 TF-IDF 權(quán)重之間為什么是乘積關(guān)系。?[4]?

總結(jié)

以上是生活随笔為你收集整理的tf-idf:信息检索的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。