當前位置：首頁 >

ML 05、分类、标注与回归

發布時間：2025/7/25 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 ML 05、分类、标注与回归小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

FROM：?http://www.cnblogs.com/ronny/p/4064625.html

機器學習算法原理、實現與實踐 —— 分類、標注與回歸

1. 分類問題

分類問題是監督學習的一個核心問題。在監督學習中，當輸出變量Y取有限個離散值時，預測問題便成為分類問題。

監督學習從數據中學習一個分類決策函數或分類模型，稱為分類器（classifier）。分類器對新的輸入進行輸出的預測，這個過程稱為分類。

分類問題包括學習與分類兩個過程。在學習的過程中，根據已知的訓練樣本數據集利用有效的學習方法學習一個分類器；在分類中，利用學習的分類器對新的輸入實例進行分類。

對于訓練數據集(x1,y1),(x2,y2),…,(xN,yN)，學習系統將學習一個分類器P(Y|X)或Y=f(X)；分類系統通過學到的分類器P(Y|X)或Y=f(X)對于新的輸入實例xN+1進行分類，即預測其輸出的類標記yN+1。

評價分類器性能的指標一般是分類的準確率，其定義是：對于給定的測試數據集，分類器正確分類的樣本數與總樣本數之比。

對于二分類問題常用的評價指標是精確率（precision）與召回率（recall）。通常以關注的類為正類，其他類為負類，分類器在測試數據集上的預測或正確或不正確，4種情況出現的總數分別記作：

TP —— 將正類預測為正類的數量；
FN —— 將正類預測為負類的數量；
FP —— 將負類預測為正類的數量；
TN —— 將負類預測為負類的數量；

精確率定義為：

P=TPTP+FP

召回率定義為：

R=TPTP+FN

此外，還有一個F1值，是精確率和召回率的調用均值，即

2F1=1P+1R

F1=2TP2TP+FP+FN

精確率真和召回率都高時，F1也會高。

許多的機器學習方法可以用來解決分類問題，包括k近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯諦回歸模型、SVM、adaBoost、貝葉斯網絡、神經網絡等。

比如一個文本內容分類的例子。文本分類是根據文本的特征將其劃分到已有的類中。輸入是文本的特征向量，輸出是文本的類別。通常把文本中的單詞定義為特征，每個單詞對應一個特征。單詞的特征可以是二值的：如果單詞在文本中出現則取值1，否則是0；也可以是多值的，表示單詞在文本中出現的頻率。形象地，如果“股票”“銀行”“貨幣”這些詞出現很多，這個文本可能屬于經濟類，如果“網球”“比賽”“運動員”這些詞頻繁出現，這個文本可能屬于體育類。

2. 標注問題

標注問題也是一個監督學習問題。可以認為標記問題是分類問題的一個推廣。

標注問題的輸入是一個觀測序列，輸出的是一個標記序列或狀態序列。也就是說，分類問題的輸出是一個值，而標注問題輸出是一個向量，向量的每個值屬于一種標記類型。

標注問題也可以分為兩步：學習和標注兩個過程。首先給定一個訓練數據集

T=(x1,y1),(x2,y2),…,(xN,yN)

這里，xi=(x(1)i,x(2)i,…,x(n)i)T,i=1,2,…,N是輸入觀測序列，yi=(y(1)i,y(2)i,…,y(n)i)T是相應的輸出標記序列，n是序列的長度，對于不同樣本可以有不同的值。學習系統基于訓練數據集構建一個模型，表示為條件概率分布：

P(Y(1),Y(2),…,Y(n)|X(1),X(2),…,X(n))

這里，每一個X(i)(i=1,2,…,N)取值為所有可能的觀測，每一個Y(i)(i=1,2,…,N)取值為所有可能的標記，一般n?N。標注系統按照學習得到的條件概率分布模型，對新的輸入觀測序列找到相應的輸出標記序列。具體地，對一個觀測序列xN+1=(x(1)N+1,x(2)N+1,…,x(n)N+1)T找到使條件概率P(y(1)N+1,y(2)N+1,…,y(n)n+1|x(1)N+1,x(2)N+1,…,x(n)N+1)最大的標記序列yN+1=(y(1)N+1,y(2)N+1,…,y(n)N+1)T。

評價標注模型的指標與評價分類的模型指標一樣，常用的有標注準確率、精確率和召回率等。

標注常用的機器學習方法有：隱性馬爾可夫模型、條件隨機場。

自然語言處理中的詞性標注（part of speech tagging）就是一個典型的標注問題：給定一個由單詞組成的句子，對這個句子中的每一個單詞進行詞性標注，即對一個單詞序列預測其對應的詞性標記序列。

3. 回歸問題

回歸問題也屬于監督學習中的一類。回歸用于預測輸入變量與輸出變量之間的關系，特別是當輸入變量的值發生變化時，輸出變量的值隨之發生的變化。

回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數擬合：選擇一條函數曲線，使其很好地擬合已知數據且很好地預測未知數據。

回歸問題按照輸入變量的個數，可以分為一元回歸和多元回歸；按照輸入變量與輸出變量之間關系的類型，可以分為線性回歸和非線性回歸。

回歸學習最常用的損失函數是平方損失，在此情況下，回歸問題可以由著名的最小二乘法求解。

一個回歸學習用于股票預測的例子：假設知道一個公司在過去不同時間點的市場上的股票價格（或一段時間的平均價格），以及在各個時間點之間可能影響該公司股份的信息（比如，公司前一周的營業額）。目標是從過去的數據學習一個模型，使它可以基于當前的信息預測該公司下一個時間點的股票價格。具體地，將影響股價的信息視為自變量（輸入特征），而將股價視為因變量（輸出的值）。將過去的數據作為訓練數據，就可以學習一個回歸模型，并對未來股份進行預測。實際我們知道想做出一個滿意的股價預測模型是很難的，因為影響股份的因素非常多，我們未必能獲得那些有用的信息。

總結

以上是生活随笔為你收集整理的ML 05、分类、标注与回归的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。