日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ML 05、分类、标注与回归

發布時間:2025/7/25 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ML 05、分类、标注与回归 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

FROM:?http://www.cnblogs.com/ronny/p/4064625.html

機器學習算法 原理、實現與實踐 —— 分類、標注與回歸

1. 分類問題

分類問題是監督學習的一個核心問題。在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成為分類問題。

監督學習從數據中學習一個分類決策函數或分類模型,稱為分類器(classifier)。分類器對新的輸入進行輸出的預測,這個過程稱為分類。

分類問題包括學習與分類兩個過程。在學習的過程中,根據已知的訓練樣本數據集利用有效的學習方法學習一個分類器;在分類中,利用學習的分類器對新的輸入實例進行分類。

對于訓練數據集(x1,y1),(x2,y2),,(xN,yN),學習系統將學習一個分類器P(Y|X)Y=f(X);分類系統通過學到的分類器P(Y|X)Y=f(X)對于新的輸入實例xN+1進行分類,即預測其輸出的類標記yN+1

評價分類器性能的指標一般是分類的準確率,其定義是:對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。

對于二分類問題常用的評價指標是精確率(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4種情況出現的總數分別記作:

  • TP —— 將正類預測為正類的數量;
  • FN —— 將正類預測為負類的數量;
  • FP —— 將負類預測為正類的數量;
  • TN —— 將負類預測為負類的數量;

精確率定義為:

P=TPTP+FP

召回率定義為:

R=TPTP+FN

此外,還有一個F1值,是精確率和召回率的調用均值,即

2F1=1P+1R

F1=2TP2TP+FP+FN

精確率真和召回率都高時,F1也會高。

許多的機器學習方法可以用來解決分類問題,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯諦回歸模型、SVM、adaBoost、貝葉斯網絡、神經網絡等。

比如一個文本內容分類的例子。文本分類是根據文本的特征將其劃分到已有的類中。輸入是文本的特征向量,輸出是文本的類別。通常把文本中的單詞定義為特征,每個單詞對應一個特征。單詞的特征可以是二值的:如果單詞在文本中出現則取值1,否則是0;也可以是多值的,表示單詞在文本中出現的頻率。形象地,如果“股票”“銀行”“貨幣”這些詞出現很多,這個文本可能屬于經濟類,如果“網球”“比賽”“運動員”這些詞頻繁出現,這個文本可能屬于體育類。

2. 標注問題

標注問題也是一個監督學習問題。可以認為標記問題是分類問題的一個推廣。

標注問題的輸入是一個觀測序列,輸出的是一個標記序列或狀態序列。也就是說,分類問題的輸出是一個值,而標注問題輸出是一個向量,向量的每個值屬于一種標記類型。

標注問題也可以分為兩步:學習和標注兩個過程。首先給定一個訓練數據集

T=(x1,y1),(x2,y2),,(xN,yN)

這里,xi=(x(1)i,x(2)i,,x(n)i)T,i=1,2,,N是輸入觀測序列,yi=(y(1)i,y(2)i,,y(n)i)T是相應的輸出標記序列,n是序列的長度,對于不同樣本可以有不同的值。學習系統基于訓練數據集構建一個模型,表示為條件概率分布:

P(Y(1),Y(2),,Y(n)|X(1),X(2),,X(n))

這里,每一個X(i)(i=1,2,,N)取值為所有可能的觀測,每一個Y(i)(i=1,2,,N)取值為所有可能的標記,一般n?N。標注系統按照學習得到的條件概率分布模型,對新的輸入觀測序列找到相應的輸出標記序列。具體地,對一個觀測序列xN+1=(x(1)N+1,x(2)N+1,,x(n)N+1)T找到使條件概率P(y(1)N+1,y(2)N+1,,y(n)n+1|x(1)N+1,x(2)N+1,,x(n)N+1)最大的標記序列yN+1=(y(1)N+1,y(2)N+1,,y(n)N+1)T

評價標注模型的指標與評價分類的模型指標一樣,常用的有標注準確率、精確率和召回率等。

標注常用的機器學習方法有:隱性馬爾可夫模型、條件隨機場。

自然語言處理中的詞性標注(part of speech tagging)就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。

3. 回歸問題

回歸問題也屬于監督學習中的一類。回歸用于預測輸入變量與輸出變量之間的關系,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。

回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數擬合:選擇一條函數曲線,使其很好地擬合已知數據且很好地預測未知數據。

回歸問題按照輸入變量的個數,可以分為一元回歸和多元回歸;按照輸入變量與輸出變量之間關系的類型,可以分為線性回歸和非線性回歸。

回歸學習最常用的損失函數是平方損失,在此情況下,回歸問題可以由著名的最小二乘法求解。

一個回歸學習用于股票預測的例子:假設知道一個公司在過去不同時間點的市場上的股票價格(或一段時間的平均價格),以及在各個時間點之間可能影響該公司股份的信息(比如,公司前一周的營業額)。目標是從過去的數據學習一個模型,使它可以基于當前的信息預測該公司下一個時間點的股票價格。具體地,將影響股價的信息視為自變量(輸入特征),而將股價視為因變量(輸出的值)。將過去的數據作為訓練數據,就可以學習一個回歸模型,并對未來股份進行預測。實際我們知道想做出一個滿意的股價預測模型是很難的,因為影響股份的因素非常多,我們未必能獲得那些有用的信息。


總結

以上是生活随笔為你收集整理的ML 05、分类、标注与回归的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。