日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ig信息增益 java_文本分类综述

發布時間:2025/4/16 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ig信息增益 java_文本分类综述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本分類是一項系統的工程,所涉及的技術很多,按流程可以將文本分類分為:文本預處理階段、訓練階段、分類階段、評價四個階段,其中預處理階段要文本處理成計算機能識別的格式,首先對文本進行分詞處理,中文文本和英文文本組織形式不同,中文文本的分詞過程比英文分詞要復雜得多。分詞后文本的特征詞非常多,而我們需要的只是少數有使用價值的特征詞,因此分詞后的文本要進行特征選擇,并將特征選擇后的特征項加權,最后將文本表示成向量空間模型(VSM),經過預處理后的文本才能進行分類。分類算法是文本分類的核心技術。評估階段是對文本分類的效果進行評價,常用的指標有:準確率、召回率、以及綜合這兩個指標的評價方法一F1值等。

文檔表示方法

文檔集劃分為訓練集和測試集兩個部分,訓練集用于分類模型的學習,一般占整個文檔集的70%;測試集用于評價分類模型,一般占整個文檔集的30%。開放的英文文檔集Reuters-21578和20NewsGroups。前者比后者更為常用。

經過半個世紀的發展,在文本處理領域,研究者提出了一些文本表示模型,主要有:布爾模型、向量空間模型、概率檢索模型、n-Gram模型等,其中使用最廣、效果最好的是向量空間模型。

向量空間模型

20世紀60年代,Salton G等人提出了向量空間模型,并成功應用于SMART文本檢索系統,其基本思想是:將文本表征成由特征項(詞)構成的向量空間中的一個點,(W1,W2,…,Wi),其中Wi為第i個特征項的權重,然后通過計算空間兩點之間的相似度來表示兩個文本的相關程度,相似度計算一般采用歐氏距離或向量夾角的余弦值。向量空間模型在實際使用中取得了很好的效果,常用的文本分類算法中,支持向量機、K近鄰、和NB都是基于向量空間模型的。

布爾模型

布爾模型可以看作是向量模型的一種特例,根據特征是否在文檔中出現,特征的權值只能取1或0。許多時候,使用二值特征的分類效果結果并不比考慮特征頻率的差。決策樹方法、關聯規則方法和Boosting方法就是基于布爾模型。

概率模型

我們可以用該流程的思想來解決出現在文檔檢索中的不確定性和找尋的不清楚性。概率模型的理論是基于概率排隊的:如果文件是按相關概率遞減方向排隊時,那么就會出現最大的檢索性能。選用此種模型可以克服BM和SVM中的不足,此種模型根據詞與詞間和文檔間與詞條的概率關聯性進行搜索。設文檔d和顧客查詢c都用(a1,a2,…an)表示,當詞條ti∈d時,有ai=1.否則ai=0,這種關系可數學表示為:

其中

f是所有參加訓練的文檔的總和,r則為顧客查詢與文檔集中相關的文檔數,fi則表示訓練文檔集中有ti的文檔數,ri則表示r個相關文檔中有ti的文檔數,模型的有點是有著非常嚴謹的數學理論基礎,解決了不確定性推理的缺點,但是它的不足在于參數估計方面很困難,在文件和查詢的表達方面也是很困難

文檔分詞

詞是文本中最小的具有意義的語言成分,是構造向量空間模型的基礎,文本分詞的效果直接影響到文本分類的結果。在文本的組織上,中文與以英語為代表的歐美語言有著很大的不同,在西方語言中,詞與詞是使用空格隔開的,因此不需要進行分詞處理,而在中文文本中,字、詞是連在一起的,一個語句就是一連串的字、詞組合,詞與詞之間沒有明顯界限,因此,分詞的難度較大。常用的分詞算法主要有:基于詞典的分詞方法、基于理解的分詞方法、基于統計的分詞方法。

基于詞典的分詞方法

基于詞典的分詞方法又叫做機械分詞方法,它是按照一定的策略將待切分的字符串與詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(即識別出一個詞)。按照掃描方向的不同,基于詞典的分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大匹配和最小匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法,常用的幾種基于詞典分詞方法如下:正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、逐詞遍歷法。

在實際應用中,常常將上述方法結合起來。例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。

再一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進行機械分詞,從而減少匹配的錯誤率。還有一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。目前實用的自動分詞系統基本上都是以采用機械分詞為主,輔以少量的詞法、語法和語義信息的分詞系統。該方法的優點是易于實現,但精度較低,遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,再利用各種其它的語言信息來進一步提高切分的準確率。

基于理解的分詞方法

又稱人工智能分詞法,這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

基于統計的分詞方法

基于統計的分詞算法的思想是:找出輸入字符串的所有可能的切分結果,對每種切分結果利用能夠反映語言特征的統計數據計算它的出現概率,然后從結果中選取概率最大的一種。詞是穩定的字的組合,因此在上下文中,如果相鄰的字共現的次數越多,就越有可能構成一個詞。因此字與字相鄰出現的頻率或概率能夠較好的反映成詞的可信度。通過對語料中相鄰共現的各個字的組合頻度進行統計,計算它們的互現信息。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組,并且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

對于任何一個成熟的中文分詞系統來說,不可能單獨依靠某一種算法來實現,需要

綜合不同的算法來處理不同的問題。

停用詞處理技術

經過分詞處理的文本,并不是所有的特征都對構造向量空間模型和分類有幫助,相反,將對文本分類沒有幫助的詞作為特征項,會對分類的精度造成很大的影響,特別對于使用文檔頻率(DF)進行特征選擇的分類方法,影響更大。另外,去停用詞可以很大程度上減小特征項的數量,對文本降維具有很大幫助,所以在構造向量空間模型前,要對分類無幫助的詞進行盡可能徹底的清理。去停用詞在技術上實現并不復雜,只需建立一個停用詞詞典停用詞詞典內的詞條進行匹配,如果匹配成功,則將該詞去掉。

特征選擇方法

在經過文本分類系統的分詞、去停用詞處理后,文本的特征維數仍然很高,這里所指的特征維數是指要構造VSM空間的所有文本的特征之和,一個文本集合很可能包含十幾萬個特征詞,而每篇文本包含的特征詞卻很少,這樣構造的向量空間模型是一個高維的稀疏矩陣,會對分類算法的時間復雜度和空間復雜度造成很大的影響。實驗顯示,當向量空間的特征維度達到一定值時就可以實現很高的分類性能,隨著特征維度的增加,分類性能反而會下降。因此,必須對特征項進行有效的篩選。常用的文本特征選擇方法有:文檔頻率(DF)、信息增益(IG)、互信息(MI)、X2統計量(CHI)、期望交叉嫡等,這些方法的基本思想都是對每一個特征(在這里是中文詞),計算某種統計度量值,然后設定一個閾值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。

文檔頻率(DF)

DF值低于某個閾值的詞條是低頻詞,它們不含或含有較少的類別信息。將這樣的詞條從原始特征空間中移除,不但能夠降低特征空間的維數,而且還有可能提高分類的精度。DF高于某個閾值的詞為中、高頻詞,這些詞被認為對分類的影響較大,應該保留。在英文環境中,當IG和CHI等統計方法的計算復雜度太高時,DF可以代替它們被使用。

互信息(MI)

如果用A表示包含詞條t且屬于類別c的文檔頻數,B為包含t但不屬于c的文檔頻數,C表示屬于c但是不包含t的文檔頻數,N表示語料中的文檔總數,t和c的互信息由下式計算:

如果t和c無關(即P(tc)=P(t)*P(c)),I(t,c)值自然為零。為了將互信息應用于多個類別,由下式計算t對于c的互信息:

其中m為類別數,將低于特定閾值的詞條從原始特征空間中移除,降低特征空間的維數,保留高于閾值的詞條

信息增益(IG)

表示文檔包含某一特征時文檔類的平均信息量,定義為某一特征在文檔中出現前后的信息熵之差。假定c為文本類變量,C為文本類的集合,d為文本,f為特征。對于特征f其信息增益記為IG(f),計算公式

X2統計(CHI)

CHI統計方法度量詞條t和文檔類別c之間的相關程度,并假設t和c之間符合具有一階自由度的x2分布,詞條對于某類的x2統計值越高,它與類之間的相關性越大,攜帶的類別信息也較多,令N表示訓練語料中的文檔總數,c為某一特定類別,t表示特定的詞條,A表示屬于c類且包含t的文檔頻數,B表示不屬于c類但包含t的文檔頻數,C表示屬于c類但不包含t的文檔頻數,D表示既不屬于c也不包含t的文檔頻數,則t對于c的CHI值計算公式:

對于多類問題,分別計算t對于每個類別的CHI值,可以用下面兩種標準計算t對整個訓練集的CHI:

其中m為類別數,從原始特征空間中移除低于特定閾值的詞條,保留高于該閾值的詞條作為文檔表示的特征

特征權重計算方法

布爾權重

均權,布爾權重是最最簡單的一種賦權方法,這種方法將所有特征同等看待,既不突出又不抑制任何一個特征。特征項的權值或者等于1,或者等于0,計算公式為:

其中Wi為特征項i的權重,TF為特征項i出現的次數,這種方法的缺點就是無法體現一個詞在文本中的重要程度。

TF權重

TF權重(Term Frequency)又稱詞頻權重,或稱特征項頻率。不同類別的文檔,在特征項的出現頻率上有很大差異,因此特征項頻率信息是文本分類的重要參考之一,一般較大的特征項在該類文檔中具有較高的權重。它的計算公式為:

實際應用中各類別文本的長度很難一致,各類文本包含的字數、詞數可能差別會很大,這對詞頻會造成直接影響,因此通常對詞頻作歸一化處理。另外,如果特征選擇后的特征項中含有較多的非名詞(如代詞、數詞、連詞),而這些詞出現的概率非常高,如果使用TF權重加權,會賦值給這些詞較高的權重,這勢必對分類結果產生不利影響,因此,TF權重對去停用詞的效果具有較強依賴性。

IDF權重

IDF越大,此特征項在文檔中的的分布越集中,說明它在區分該文檔內容屬性方面的能力越強。反文檔頻率是特征項在文檔集分布情況的量化。該方法以出現特征詞的文本數為參數構建的函數代表特征項的權重。這體現了信息論中集中度的思想,具有一定的合理性,但忽略了分散度和頻度兩個因素,因此具有片面性,公式如下:

TFIDF權重

TFIDF(Term Frequency-Inverse Document Frequency)是由是由Salton在1988年提出的,TFIDF權重綜合考慮了TF權重和IFD權重的優點和不足,是目前加權效果最好的權重計算方法,廣泛應用于文本處理領域。其基本思想是:如果特征項t在一類文檔的出現的次數越多,而在整個文檔集中出現的頻率越低,那么t對分類的作用越大,應該賦予越高的權重,例如,助詞“的”幾乎在每篇文檔中都出現,因此它的TF值非常高,相反,IDF值卻非常低,綜合考慮TF和IDF,該詞將被賦予很低的權重。TFIDF權重,即TF權重和IDF權重的組合,利用了詞頻和文本頻率兩種信息,公式如下:

式中TF為第k個特征詞在第1篇文本中出現次數,N為訓練集中總文本數,nk為出

現第k個特征詞的文本數,a為一個經驗值,一般取0. 01, 0. 1或者1

相似度計算

向量夾角的余弦

設文檔A在VSM空間中的向量形式為a(x1,x2,…,xa),文檔B在VSM空間中向量形式為b(y1,y2,…,yb),則A,B文本的向量夾角的余弦表示為

兩個向量夾角的余弦值越大,表示這兩個向量的相似度越高

歐氏距離

歐式距離是通過空間向量點之間的距離來表示文本的相關程度,具體的形式為:

其中d(x,y)是樣本x和y的歐式距離,m是樣本屬性總數,兩個向量點之間的歐式距離越小,表示兩個向量的相似度越高,在文本分類領域,使用向量夾角余弦計算文本相似度的效果,要好于歐式距離

文本分類方法

從文本分類的方法來看,現有的文本分類技術主要采用三種類型的方法:基于統計的方法,基于連接的方法和基于規則的方法。

基于連結的方法

即人工神經網絡,是設計來模擬人腦神經網絡的,并期望其能像大腦一樣地運作,像大腦一樣地學習,從而產生智慧。這種方法具有信息分布存放、運算全局并行、處理的非線性、容錯性等特點,適用于學習一個復雜的非線性映射。但是使用它學習所形成的知識結構是人所難以理解的,系統本身對于使用的人來說就象是一個變魔術的黑盒子,根據輸入給出輸出,答案正確但不知道是怎么算出來的。

基于規則的方法

一種唯理主義方法,本質上是一種確定性的演繹推理方法,優點在于根據上下文對確定性事件進行定性描述,能充分利用現有的語言學成果。它成立的前提是有大量的知識,而這些知識是人類專家總結出來的,至少解釋這些知識的各種“事實”以及對事實的解釋“規則”是專家總結歸納的。由于必須有人的參與,所以對于知識的可理解性,可讀性非常重視。同時,在不確定性事件的描述,規則之間的相容性等方面存在一些缺陷和限制。該算法在領域專家的知識上具有依賴性,分類體系好,錯誤率低,but在專業領域的知識組織和管理中比較實用,實現困難,成本高,沒有普遍性,不容易移植等缺點。但是,有些統計方法無法解決的問題,利用規則卻很容易解決。常用的基于規則的方法有決策樹、關聯規則等。

基于統計的方法

本質上是一種非確定性的定量推理方法,定量是基于概率的,因此其必然會掩蓋小概率事件的發生。基于統計的方法是一種經驗主義方法,其優勢在于它的全部知識是通過對大規模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對語言處理提供了比較客觀的數據依據和可靠的質量保證。常用的基于統計的方法有Naive Bayes , KNN等。

NaiveBayes算法

貝葉斯分類是統計學分類方法,它是一類利用概率統計知識進行分類的算法。在許多場合,樸素貝葉斯(NaiveBayes, NB)分類算法可以與決策樹和神經網絡分類算法相媲美,該算法能運用到大型數據庫中,且方法簡單、分類準確率高、速度快。由于貝葉斯定理假設一個屬性值對給定類的影響獨立于其它屬性的值,而此假設在實際情況中經常是不成立的,因此其分類準確率可能會下降。具體地,設每個數據樣本用一個n維特征向量來描述n個屬性的值,即:X={X1,X2,…,Xn}假定有m個類,分別用C1,C2,…,Cm表示。給定一個未知的數據樣本X,若樸素貝葉斯分類法將未知的樣本X分配給類C,則一定是:

根據貝葉斯定律:

由于P(X)對于所有類為常數,最大化后驗概率P(Ci |x)可轉化為最大化先驗概率P(x|Ci)P(Ci)。如果訓練數據集中有許多屬性和元組,計算P(x|Ci)的開銷可能非常大,為此,通常假設各屬性的取值相互獨立,這樣

先驗概率可以從訓練數據集中求得。根據此方法,對于一個位置類別的樣本X,可以分別計算出X屬于每一個類別Ci的概率然后選擇其中概率最大的類別作為其類別。

Naive Bayes方法分為最大似然模型(Maximum Likelihood Model )、多項式模型(Multinomial Model )、泊松模型(PoisonModel)等。樸素貝葉斯算法的主要優點是:對于文本數據和數值數據的分類效果較好,與其他算法相比易于實現和計算。主要缺點:樸素貝葉斯算法成立的前提是各屬性之間相互獨立 ,當數據集滿足這種獨立性假設時,分類的準確度較高,否則可能較低。

KNN算法

KNN算法最初由Cover和Hart于1986年提出,該算法的基本思想:根據傳統的向量空間模型,文本內容被形式化為特征空間中的加權特征向量,即D=D(T1,W1;T2,W2;…;Tm,Wm)。對于測試文本,計算它與訓練樣本集中每個文本的相似度,找出K個最相似的文本,根據加權距離和判斷測試文本所屬的類別。具體算法步驟如下:

對于一個測試文本,根據特征詞形成測試文本向量

計算該測試文本與訓練集中每個文本的文本相似度:

式中di為測試文本的特征向量,dj為第j類的中心向量;M為特征向量的維數;Wk為向量的第k維。k的值的確定一般先采用一個初始值,然后根據實驗測試K的結果調整K值,一般初值設定為幾十到幾百

按照文本相似度,在訓練文本集中選出與測試文本最相似的k個文本

在測試文本的k個近鄰中,依次計算每類的權重,計算公式

x為測試文本的特征向量;Sim(x,di)為相似度計算公式;b為閾值,有嗲與優化選擇;而y(di,cj)的取值為1或者0,如果di屬于cj,則函數值為1,否則為0

比較類的權重,將文本分到權重最大的那個類別

也就是說,如果在這k個文檔中,有多個文檔同屬于一個類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對這k個文檔所屬類的分值統計完畢后,即按分值進行排序。

類中心向量法

類中心向量法的算法思想非常簡單:將每一類別文本訓練后得到該類別的中心向量Cj(W1,W2,…,Wj)分類時,將待分類文本T表示成n維向量的形式T(W1,W2,…,Wn)然后,計算文本T與每類中心向量的相似度,相似度計算可以采用向量夾角的余弦或是歐氏距離表示,將T歸類為與其相似度最大的類中:

類中心的選擇有三種方式:平均中心、和平均、歸一化平均。和中心是某一類別中所有向量相加之和:

將和中心與該類向量的個數相除得到類別的平均中心:

而采用二范數對平均中心歸一化處理得到歸一化中心:

類中心向量法的優點是對訓練集進行了最大程度的裁剪,待分類文本只需與極少的類中心向量對比,就可以將其分類,因此訓練和分類速度很快。缺點是分類精度受類別的分布影響較大,當類別分布均勻,邊界清晰時,分類精度較高;當類別分布不平衡,邊界模糊時,分類的效果不好。

SVM算法

支持向量機SVM(Support Vector Machines)是Vapnik等人提出的一種基于統計學習理論的機器學習方法。SVM建立在統計學理論的VC理論和結構風險最小化原理基礎上,其基本思想是:使用簡單的線形分類器劃分樣本空間,如果一個訓練集中的矢量被一個超平面正確地線性分割,且距離超平面最近的矢量之間的距離最大,則稱該超平面為最佳超平面,其中距離超平面最近的對決策面設計起作用的點稱為支持向量(Support Verctors)。支持向量機在解決小樣本,非線性及高維模式識別問題等方面表現出明顯的優勢。

SVM的基本思想可用圖3-1的兩維情況來說明。圖中,實心點和空心點代表兩類樣本,H為分類線,H1, H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂最優分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。

支持向量機主要優點:對高維、稀疏數據不敏感,更好的捕捉了數據的內在特征,準確率高;缺點:對于非線性問題,核函數選擇較為困難,分類結果召回率較低

訓練樣本在各個類別中分布的不均勻性對許多分類器會形成噪聲。例如:在Bayes模型中,如果先驗分布無法確定,“均勻分布”是符合信息論的最大嫡原則( Maximum Entropy)的;對于KNN和SVM分類器,遠離類別邊界的樣本往往對分類沒有什么作用,KNN分類器還會因為類別邊界部分樣本分布的不均勻而造成測試樣本的錯分。從候選訓練樣本集中選擇合適的訓練樣本子集,不僅可以減少分類器的學習時間,甚至可以提高分類器的準確性。四種方法的實驗結果比較:

可以看出支持向量機具有最好的分類效果,各項指標全面領先于其他分類算法。KNN分類效果僅次于支持向量機,而類中心向量法也有很好的分類表現,貝葉斯的分類效果最差,與其它三種算法相比有較大差距。在追求分類效率而對分類精度要求不高的領域,可以考慮使用類中心向量分類法,可以極大提高分類的效率;在對對分類精度要求較高時,可以采用SVM或KNN分類法。

分類結果評估

單標注分類問題

文檔分類中普遍使用的性能評估指標有查全率(Recall,簡記為:r)、查準率(C Precision,

簡記為P)。對于文檔類中的每一個類別,使用列聯表(Contingency Table )來計算查全率和查準率。

Tables

真正屬于該類的文檔數

真正不屬于該類的文檔數

判斷為屬于該類的文檔數

a

b

判斷為不屬于該類的文檔數

c

d

這時,r和P分別定義為:

宏平均and微平均

用列聯表只能評價單個類的分類性能,如果要對分類的整體性能進行評價,通常使用宏

平均 < Macro-Averaging)和微平均 ( Micro-Averaging )。宏觀平均是先對每一個類統計r、p值,然后對所有的類求r、P的平均值,即

微觀平均是先建立一個全局列聯表,然后根據這個全局列聯表進行計算,即:

顯然,宏平均是對類的平均,所以容易受小類的影響,而微平均則是對文檔的平均,容易受到大類的影響。

平衡點(Break-even Point )

對于分類系統來說,r和p值是互相影響的。提高r會引起p的減小,反之亦然。因此,

為了更全面地反映分類系統的性能,一種做法是選取和p相等時的值來表征系統性能,這個值叫做平衡點(Break-even Point,簡稱BEP)值。當然,有時通過測試可能得不到和p相等的值。這時取最接近的和p值的平均值作為BEP值,稱為插值BEP

F值(F-measure )

另一種常用的將查全率和查準率結合起來的性能評價方法是F測量,其計算公式為:

其中,β是一個用來調節查全率和查準率權重的參數。β一般取值為1,公式轉化為:

顯然,BEP是F1的特殊形式,因為當r=p時,有F1 =BEP

多標注分類問題

每一個輸入的測試文檔,都會返回一個排序后的文檔類列表。這時,兩個指標分別定為:

整個分類器的評估應該是對所有測試文檔的這兩個指標的統計平均。通常使用的統計平均為11點插值平均查準率(Interpolated 11-point Average Precision )

文本可視化

標簽云:經典的靜態可視化分析,Wordle:將關鍵詞或者標簽生成為一個可視化的詞云

ThemeRiver:動態文本可視化,TIARA:參考了wordle的源碼實現了系統中的文本靜態可視化

CiteSpace:以可視化技術針對科學論文以及引文進行網絡分析的軟件

總結

以上是生活随笔為你收集整理的ig信息增益 java_文本分类综述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。