基本概念—监督与非监督
原文作者:python貓娘
原文地址:監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)
?
?一、監(jiān)督學(xué)習(xí)(supervised learning)
監(jiān)督學(xué)習(xí)(supervised learning)的任務(wù)是學(xué)習(xí)一個模型,使模型能夠?qū)θ我饨o定的輸入,對其相應(yīng)的輸出做出一個好的預(yù)測。即:利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個模型,再用模型對測試樣本集進(jìn)行預(yù)測。例如kaggle上的泰坦尼克號比賽。
?
?官方提供旅客數(shù)據(jù)——數(shù)據(jù)集1(姓名,年齡,性別,社會經(jīng)濟(jì)階層,是否生存等),要求參賽選手建立一個預(yù)測模型來回答“另外418名乘客是否會生存?”這是一個典型的監(jiān)督學(xué)習(xí)(supervised learning)的例子。因為該訓(xùn)練資料有輸入物件(姓名,年齡,性別,社會經(jīng)濟(jì)階層等)和預(yù)期輸出(是否生存)。有無預(yù)期輸出是監(jiān)督學(xué)習(xí)(supervised learning)與非監(jiān)督學(xué)習(xí)(unsupervised learning)的區(qū)別。
我們的任務(wù)是根據(jù)數(shù)據(jù)集1建立一個預(yù)測模型(model),即學(xué)習(xí)算法(learning algorithm)。這個過程稱為“學(xué)習(xí)(learning)”或“訓(xùn)練(training)”。由于我們得到的學(xué)得模型只是接近了數(shù)據(jù)的某種潛在規(guī)律,因此被稱為‘假設(shè)(hypothesis)’。相對應(yīng)的,潛在規(guī)律自身則被稱為‘真實(ground-truth)’。學(xué)習(xí)的目的就在于找到最好的‘假設(shè)(hypothesis)’。用學(xué)習(xí)算法(learning algorithm)對數(shù)據(jù)集2的每個實例(姓名,年齡,性別,社會,社會經(jīng)濟(jì)階層等)進(jìn)行判斷——‘是否能生存?’。
這是一個二分類任務(wù)(輸出為‘生存’或‘死亡’兩個維度)。如果所需結(jié)果為‘生存’,‘半生半死’或‘死亡’等多個維度,則為多分類任務(wù)。如果所需結(jié)果為生存率(0~1),則為回歸任務(wù)(輸出結(jié)果為連續(xù)值)。
分類問題(離散)與回歸問題(連續(xù))等都是監(jiān)督學(xué)習(xí)。
分類問題:
?
?回歸問題:
?
?二、非監(jiān)督學(xué)習(xí)(unsupervised learning)
非監(jiān)督學(xué)習(xí)(unsupervised learning)為直接對數(shù)據(jù)進(jìn)行建模。沒有給定事先標(biāo)記過的訓(xùn)練范例,所用的數(shù)據(jù)沒有屬性或標(biāo)簽這一概念。事先不知道輸入數(shù)據(jù)對應(yīng)的輸出結(jié)果是什么。自動對輸入的資料進(jìn)行分類或分群,以尋找數(shù)據(jù)的模型和規(guī)律。如聚類算法:針對數(shù)據(jù)集,自動找出數(shù)據(jù)中的結(jié)構(gòu),從而把數(shù)據(jù)分成不同的簇。例如:谷歌新聞利用聚類算法把不同的主題放在一起。
無監(jiān)督學(xué)習(xí)(unsupervised learning)的優(yōu)點:由于沒有標(biāo)準(zhǔn)的分類方法,有可能從數(shù)據(jù)中挖出啟發(fā)與亮點。
總結(jié)
以上是生活随笔為你收集整理的基本概念—监督与非监督的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基本概念—回归、分类、聚类
- 下一篇: 分布式服务常见问题—分布式事务