ML 05、分类、标注与回归
FROM:?http://www.cnblogs.com/ronny/p/4064625.html
機器學習算法 原理、實現與實踐 —— 分類、標注與回歸
1. 分類問題
分類問題是監督學習的一個核心問題。在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成為分類問題。
監督學習從數據中學習一個分類決策函數或分類模型,稱為分類器(classifier)。分類器對新的輸入進行輸出的預測,這個過程稱為分類。
分類問題包括學習與分類兩個過程。在學習的過程中,根據已知的訓練樣本數據集利用有效的學習方法學習一個分類器;在分類中,利用學習的分類器對新的輸入實例進行分類。
對于訓練數據集(x1,y1),(x2,y2),…,(xN,yN),學習系統將學習一個分類器P(Y|X)或Y=f(X);分類系統通過學到的分類器P(Y|X)或Y=f(X)對于新的輸入實例xN+1進行分類,即預測其輸出的類標記yN+1。
評價分類器性能的指標一般是分類的準確率,其定義是:對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。
對于二分類問題常用的評價指標是精確率(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4種情況出現的總數分別記作:
- TP —— 將正類預測為正類的數量;
- FN —— 將正類預測為負類的數量;
- FP —— 將負類預測為正類的數量;
- TN —— 將負類預測為負類的數量;
精確率定義為:
P=TPTP+FP
召回率定義為:
R=TPTP+FN
此外,還有一個F1值,是精確率和召回率的調用均值,即
2F1=1P+1R
F1=2TP2TP+FP+FN
精確率真和召回率都高時,F1也會高。
許多的機器學習方法可以用來解決分類問題,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯諦回歸模型、SVM、adaBoost、貝葉斯網絡、神經網絡等。
比如一個文本內容分類的例子。文本分類是根據文本的特征將其劃分到已有的類中。輸入是文本的特征向量,輸出是文本的類別。通常把文本中的單詞定義為特征,每個單詞對應一個特征。單詞的特征可以是二值的:如果單詞在文本中出現則取值1,否則是0;也可以是多值的,表示單詞在文本中出現的頻率。形象地,如果“股票”“銀行”“貨幣”這些詞出現很多,這個文本可能屬于經濟類,如果“網球”“比賽”“運動員”這些詞頻繁出現,這個文本可能屬于體育類。
2. 標注問題
標注問題也是一個監督學習問題。可以認為標記問題是分類問題的一個推廣。
標注問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。也就是說,分類問題的輸出是一個值,而標注問題輸出是一個向量,向量的每個值屬于一種標記類型。
標注問題也可以分為兩步:學習和標注兩個過程。首先給定一個訓練數據集
T=(x1,y1),(x2,y2),…,(xN,yN)
這里,xi=(x(1)i,x(2)i,…,x(n)i)T,i=1,2,…,N是輸入觀測序列,yi=(y(1)i,y(2)i,…,y(n)i)T是相應的輸出標記序列,n是序列的長度,對于不同樣本可以有不同的值。學習系統基于訓練數據集構建一個模型,表示為條件概率分布:
P(Y(1),Y(2),…,Y(n)|X(1),X(2),…,X(n))
這里,每一個X(i)(i=1,2,…,N)取值為所有可能的觀測,每一個Y(i)(i=1,2,…,N)取值為所有可能的標記,一般n?N。標注系統按照學習得到的條件概率分布模型,對新的輸入觀測序列找到相應的輸出標記序列。具體地,對一個觀測序列xN+1=(x(1)N+1,x(2)N+1,…,x(n)N+1)T找到使條件概率P(y(1)N+1,y(2)N+1,…,y(n)n+1|x(1)N+1,x(2)N+1,…,x(n)N+1)最大的標記序列yN+1=(y(1)N+1,y(2)N+1,…,y(n)N+1)T。
評價標注模型的指標與評價分類的模型指標一樣,常用的有標注準確率、精確率和召回率等。
標注常用的機器學習方法有:隱性馬爾可夫模型、條件隨機場。
自然語言處理中的詞性標注(part of speech tagging)就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。
3. 回歸問題
回歸問題也屬于監督學習中的一類。回歸用于預測輸入變量與輸出變量之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。
回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數擬合:選擇一條函數曲線,使其很好地擬合已知數據且很好地預測未知數據。
回歸問題按照輸入變量的個數,可以分為一元回歸和多元回歸;按照輸入變量與輸出變量之間關系的類型,可以分為線性回歸和非線性回歸。
回歸學習最常用的損失函數是平方損失,在此情況下,回歸問題可以由著名的最小二乘法求解。
一個回歸學習用于股票預測的例子:假設知道一個公司在過去不同時間點的市場上的股票價格(或一段時間的平均價格),以及在各個時間點之間可能影響該公司股份的信息(比如,公司前一周的營業額)。目標是從過去的數據學習一個模型,使它可以基于當前的信息預測該公司下一個時間點的股票價格。具體地,將影響股價的信息視為自變量(輸入特征),而將股價視為因變量(輸出的值)。將過去的數據作為訓練數據,就可以學習一個回歸模型,并對未來股份進行預測。實際我們知道想做出一個滿意的股價預測模型是很難的,因為影響股份的因素非常多,我們未必能獲得那些有用的信息。
總結
以上是生活随笔為你收集整理的ML 05、分类、标注与回归的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML 03、机器学习的三要素
- 下一篇: ML 04、模型评估与模型选择