當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本分类入门(七)相关概念总结

發(fā)布時(shí)間：2025/3/15 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了文本分类入门(七)相关概念总结小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

?學(xué)習(xí)方法：使用樣例（或稱樣本，訓(xùn)練集）來合成計(jì)算機(jī)程序的過程稱為學(xué)習(xí)方法[22]。

監(jiān)督學(xué)習(xí)：學(xué)習(xí)過程中使用的樣例是由輸入/輸出對(duì)給出時(shí)，稱為監(jiān)督學(xué)習(xí)[22]。最典型的監(jiān)督學(xué)習(xí)例子就是文本分類問題，訓(xùn)練集是一些已經(jīng)明確分好了類別文檔組成，文檔就是輸入，對(duì)應(yīng)的類別就是輸出。

非監(jiān)督學(xué)習(xí)：學(xué)習(xí)過程中使用的樣例不包含輸入/輸出對(duì)，學(xué)習(xí)的任務(wù)是理解數(shù)據(jù)產(chǎn)生的過程 [22]。典型的非監(jiān)督學(xué)習(xí)例子是聚類，類別的數(shù)量，名稱，事先全都沒有確定，由計(jì)算機(jī)自己觀察樣例來總結(jié)得出。

TSR（Term Space Reduction）：特征空間的壓縮，即降維，也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。

分類狀態(tài)得分（CSV，Categorization Status Value)：用于描述將文檔歸于某個(gè)類別下有多大的可信度。

準(zhǔn)確率（Precision）：在所有被判斷為正確的文檔中，有多大比例是確實(shí)正確的。

召回率（Recall）：在所有確實(shí)正確的文檔中，有多大比例被我們判為正確。

假設(shè)：計(jì)算機(jī)對(duì)訓(xùn)練集背后的真實(shí)模型（真實(shí)的分類規(guī)則）的猜測稱為假設(shè)。可以把真實(shí)的分類規(guī)則想像為一個(gè)目標(biāo)函數(shù)，我們的假設(shè)則是另一個(gè)函數(shù)，假設(shè)函數(shù)在所有的訓(xùn)練數(shù)據(jù)上都得出與真實(shí)函數(shù)相同（或足夠接近）的結(jié)果。

泛化性：一個(gè)假設(shè)能夠正確分類訓(xùn)練集之外數(shù)據(jù)（即新的，未知的數(shù)據(jù)）的能力稱為該假設(shè)的泛化性[22]。

一致假設(shè)：一個(gè)假設(shè)能夠?qū)λ杏?xùn)練數(shù)據(jù)正確分類，則稱這個(gè)假設(shè)是一致的[22]。

過擬合：為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜稱為過擬合[22]。想像某種學(xué)習(xí)算法產(chǎn)生了一個(gè)過擬合的分類器，這個(gè)分類器能夠百分之百的正確分類樣本數(shù)據(jù)（即再拿樣本中的文檔來給它，它絕對(duì)不會(huì)分錯(cuò)），但也就為了能夠?qū)颖就耆_的分類，使得它的構(gòu)造如此精細(xì)復(fù)雜，規(guī)則如此嚴(yán)格，以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認(rèn)為不屬于這個(gè)類別！

超平面（Hyper Plane）：n維空間中的線性函數(shù)唯一確定了一個(gè)超平面。一些較直觀的例子，在二維空間中，一條直線就是一個(gè)超平面；在三維空間中，一個(gè)平面就是一個(gè)超平面。

線性可分和不可分：如果存在一個(gè)超平面能夠正確分類訓(xùn)練數(shù)據(jù)，并且這個(gè)程序保證收斂，這種情況稱為線形可分。如果這樣的超平面不存在，則稱數(shù)據(jù)是線性不可分的[22]。

正樣本和負(fù)樣本：對(duì)某個(gè)類別來說，屬于這個(gè)類別的樣本文檔稱為正樣本；不屬于這個(gè)類別的文檔稱為負(fù)樣本。

規(guī)劃：對(duì)于目標(biāo)函數(shù)，等式或不等式約束都是線性函數(shù)的問題稱為線性規(guī)劃問題。對(duì)于目標(biāo)函數(shù)是二次的，而約束都是線性函數(shù)的最優(yōu)化問題稱為二次規(guī)劃問題[22]。

對(duì)偶問題：

給定一個(gè)帶約束的優(yōu)化問題

目標(biāo)函數(shù)：min f(x)

約束條件：C(x) ≥0

可以通過拉格朗日乘子構(gòu)造拉格朗日函數(shù)

L(x,λ)=f(x)- λTC(x)

令g(λ)= f(x)-λTC(x)

則原問題可以轉(zhuǎn)化為

目標(biāo)函數(shù)：max g(λ)

約束條件：λ≥0

這個(gè)新的優(yōu)化問題就稱為原問題的對(duì)偶問題（兩個(gè)問題在取得最優(yōu)解時(shí)達(dá)到的條件相同）。

參考:

http://wiki.52nlp.cn/

http://www.blogjava.net/zhenandaci/category/31868.html

[1]李曉明，閆宏飛，王繼民，“搜索引擎——原理、技術(shù)與系統(tǒng)”.科學(xué)出版社，2004

[2]馮是聰, "中文網(wǎng)頁自動(dòng)分類技術(shù)研究及其在搜索引擎中的應(yīng)用," 北京大學(xué),博士論文, 2003

[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.

[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999

[5]王濤：文本自動(dòng)分類研究，圖書館學(xué)研究，2007.12

[6]周文霞：現(xiàn)代文本分類技術(shù)研究，武警學(xué)院學(xué)報(bào)，2007.12

[7]奉國和：自動(dòng)文本分類技術(shù)研究，情報(bào)雜志，2007.12

[8]崔彩霞，張朝霞：文本分類方法對(duì)比研究，太原師范學(xué)院學(xué)報(bào)（自然科學(xué)版），2007.12

[9]吳軍：Google黑板報(bào)數(shù)學(xué)之美系列，http://googlechinablog.com

[10]劉霞，盧葦：SVM在文本分類中的應(yīng)用研究，計(jì)算機(jī)教育，2007.1

[11]都云琪，肖詩斌：基于支持向量機(jī)的中文文本自動(dòng)分類研究,計(jì)算機(jī)工程，2002，28(11)

[12]周昭濤，卜東波：文本的圖表示初探，中文信息學(xué)報(bào)，第19卷第2期

[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999

[14]唐春生，張磊：文本分類研究進(jìn)展

[15]李莼，羅振聲：基于語義相關(guān)和概念相關(guān)的自動(dòng)分類方法研究，計(jì)算機(jī)工程與應(yīng)用，2003.12

[16]單松巍，馮是聰，李曉明：幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較，計(jì)算機(jī)工程與應(yīng)用，2003.22

[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)，l997

[18]董振東：知網(wǎng)簡介，知網(wǎng)，http://www.keenage.com/zhiwang/c_zhiwang.html

[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies，1997

[20] Edda? Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines：How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002

[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”

[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000

[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002

[24]TRS公司，TRS文本挖掘基礎(chǔ)件白皮書

[25]蘇金樹，張博鋒：基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展，Journal of Software,2006.9

總結(jié)

以上是生活随笔為你收集整理的文本分类入门(七)相关概念总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：文本分类入门(三)统计学习方法
下一篇：文本分类入门(九)文本分类问题的分类