文本分类入门(七)相关概念总结
?
?學(xué)習(xí)方法:使用樣例(或稱樣本,訓(xùn)練集)來合成計(jì)算機(jī)程序的過程稱為學(xué)習(xí)方法[22]。
監(jiān)督學(xué)習(xí):學(xué)習(xí)過程中使用的樣例是由輸入/輸出對(duì)給出時(shí),稱為監(jiān)督學(xué)習(xí)[22]。最典型的監(jiān)督學(xué)習(xí)例子就是文本分類問題,訓(xùn)練集是一些已經(jīng)明確分好了類別文檔組成,文檔就是輸入,對(duì)應(yīng)的類別就是輸出。
非監(jiān)督學(xué)習(xí):學(xué)習(xí)過程中使用的樣例不包含輸入/輸出對(duì),學(xué)習(xí)的任務(wù)是理解數(shù)據(jù)產(chǎn)生的過程 [22]。典型的非監(jiān)督學(xué)習(xí)例子是聚類,類別的數(shù)量,名稱,事先全都沒有確定,由計(jì)算機(jī)自己觀察樣例來總結(jié)得出。
TSR(Term Space Reduction):特征空間的壓縮,即降維,也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。
分類狀態(tài)得分(CSV,Categorization Status Value):用于描述將文檔歸于某個(gè)類別下有多大的可信度。
準(zhǔn)確率(Precision):在所有被判斷為正確的文檔中,有多大比例是確實(shí)正確的。
召回率(Recall):在所有確實(shí)正確的文檔中,有多大比例被我們判為正確。
假設(shè):計(jì)算機(jī)對(duì)訓(xùn)練集背后的真實(shí)模型(真實(shí)的分類規(guī)則)的猜測稱為假設(shè)。可以把真實(shí)的分類規(guī)則想像為一個(gè)目標(biāo)函數(shù),我們的假設(shè)則是另一個(gè)函數(shù),假設(shè)函數(shù)在所有的訓(xùn)練數(shù)據(jù)上都得出與真實(shí)函數(shù)相同(或足夠接近)的結(jié)果。
泛化性:一個(gè)假設(shè)能夠正確分類訓(xùn)練集之外數(shù)據(jù)(即新的,未知的數(shù)據(jù))的能力稱為該假設(shè)的泛化性[22]。
一致假設(shè):一個(gè)假設(shè)能夠?qū)λ杏?xùn)練數(shù)據(jù)正確分類,則稱這個(gè)假設(shè)是一致的[22]。
過擬合:為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜稱為過擬合[22]。想像某種學(xué)習(xí)算法產(chǎn)生了一個(gè)過擬合的分類器,這個(gè)分類器能夠百分之百的正確分類樣本數(shù)據(jù)(即再拿樣本中的文檔來給它,它絕對(duì)不會(huì)分錯(cuò)),但也就為了能夠?qū)颖就耆_的分類,使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)則如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認(rèn)為不屬于這個(gè)類別!
超平面(Hyper Plane):n維空間中的線性函數(shù)唯一確定了一個(gè)超平面。一些較直觀的例子,在二維空間中,一條直線就是一個(gè)超平面;在三維空間中,一個(gè)平面就是一個(gè)超平面。
線性可分和不可分:如果存在一個(gè)超平面能夠正確分類訓(xùn)練數(shù)據(jù),并且這個(gè)程序保證收斂,這種情況稱為線形可分。如果這樣的超平面不存在,則稱數(shù)據(jù)是線性不可分的[22]。
正樣本和負(fù)樣本:對(duì)某個(gè)類別來說,屬于這個(gè)類別的樣本文檔稱為正樣本;不屬于這個(gè)類別的文檔稱為負(fù)樣本。
規(guī)劃:對(duì)于目標(biāo)函數(shù),等式或不等式約束都是線性函數(shù)的問題稱為線性規(guī)劃問題。對(duì)于目標(biāo)函數(shù)是二次的,而約束都是線性函數(shù)的最優(yōu)化問題稱為二次規(guī)劃問題[22]。
對(duì)偶問題:
給定一個(gè)帶約束的優(yōu)化問題
目標(biāo)函數(shù):min f(x)
約束條件:C(x) ≥0
可以通過拉格朗日乘子構(gòu)造拉格朗日函數(shù)
L(x,λ)=f(x)- λTC(x)
令g(λ)= f(x)-λTC(x)
則原問題可以轉(zhuǎn)化為
目標(biāo)函數(shù):max g(λ)
約束條件:λ≥0
這個(gè)新的優(yōu)化問題就稱為原問題的對(duì)偶問題(兩個(gè)問題在取得最優(yōu)解時(shí)達(dá)到的條件相同)。
?
參考:
http://wiki.52nlp.cn/
http://www.blogjava.net/zhenandaci/category/31868.html
[1]李曉明,閆宏飛,王繼民,“搜索引擎——原理、技術(shù)與系統(tǒng)”.科學(xué)出版社,2004
[2]馮是聰, "中文網(wǎng)頁自動(dòng)分類技術(shù)研究及其在搜索引擎中的應(yīng)用," 北京大學(xué),博士論文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王濤:文本自動(dòng)分類研究,圖書館學(xué)研究,2007.12
[6]周文霞:現(xiàn)代文本分類技術(shù)研究,武警學(xué)院學(xué)報(bào),2007.12
[7]奉國和:自動(dòng)文本分類技術(shù)研究,情報(bào)雜志,2007.12
[8]崔彩霞,張朝霞:文本分類方法對(duì)比研究,太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2007.12
[9]吳軍:Google黑板報(bào)數(shù)學(xué)之美系列,http://googlechinablog.com
[10]劉霞,盧葦:SVM在文本分類中的應(yīng)用研究,計(jì)算機(jī)教育,2007.1
[11]都云琪,肖詩斌:基于支持向量機(jī)的中文文本自動(dòng)分類研究,計(jì)算機(jī)工程,2002,28(11)
[12]周昭濤,卜東波:文本的圖表示初探,中文信息學(xué)報(bào),第19卷 第2期
[13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生,張磊:文本分類研究進(jìn)展
[15]李莼,羅振聲:基于語義相關(guān)和概念相關(guān)的自動(dòng)分類方法研究,計(jì)算機(jī)工程與應(yīng)用,2003.12
[16]單松巍,馮是聰,李曉明:幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較,計(jì)算機(jī)工程與應(yīng)用,2003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97),l997
[18]董振東:知網(wǎng)簡介,知網(wǎng),http://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill Companies,1997
[20] Edda? Leopold, Jorg Kindermann,“Text Categorization with Support Vector Machines:How to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000
[23]F. Sebastiani, "MACHINE LEARNING IN AUTOMATED TEXT CATEGORIZATION", ACM Computing Surveys, Vol. 34, No. 1, 2002
[24]TRS公司,TRS文本挖掘基礎(chǔ)件白皮書
[25]蘇金樹,張博鋒:基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展,Journal of Software,2006.9
總結(jié)
以上是生活随笔為你收集整理的文本分类入门(七)相关概念总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本分类入门(三)统计学习方法
- 下一篇: 文本分类入门(九)文本分类问题的分类