1-3.监督学习(supervised learning)
定義:監(jiān)督學(xué)習(xí)指的就是我們給學(xué)習(xí)算法一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集由“正確答案”組成,然后運(yùn)用學(xué)習(xí)算法,算出更多的正確答案。術(shù)語(yǔ)叫做回歸問(wèn)題
【監(jiān)督學(xué)習(xí)可分為】:回歸問(wèn)題、分類問(wèn)題。兩種
例:一個(gè)學(xué)生從波特蘭俄勒岡州的研究所收集了一些房?jī)r(jià)的數(shù)據(jù)。你把這些數(shù)據(jù)畫出來(lái),看起來(lái)是這個(gè)樣子:橫軸表示房子的面積,單位是平方英尺,縱軸表示房?jī)r(jià),單位是千美元。那基于這組數(shù)據(jù),假如你有一個(gè)朋友他有一套 750 平方英尺房子,現(xiàn)在他希望把房子賣掉,他想知道這房子能賣多少錢?
解:
我們應(yīng)用學(xué)習(xí)算法,可以在這組數(shù)據(jù)中畫一條直線,或者換句話說(shuō),擬合一條直線,根
據(jù)這條線我們可以推測(cè)出,這套房子可能賣$150,000,當(dāng)然這不是唯一的算法。可能還有更
好的,比如我們不用直線擬合這些數(shù)據(jù),用二次方程去擬合可能效果會(huì)更好。根據(jù)二次方程
的曲線,我們可以從這個(gè)點(diǎn)推測(cè)出,這套房子能賣接近$200,000。稍后我們將討論如何選擇
學(xué)習(xí)算法,如何決定用直線還是二次方程來(lái)擬合。兩個(gè)方案中有一個(gè)能讓你朋友的房子出售
得更合理。這些都是學(xué)習(xí)算法里面很好的例子。以上就是監(jiān)督學(xué)習(xí)的例子。
讓我們來(lái)看一組數(shù)據(jù):這個(gè)數(shù)據(jù)集中,橫軸表示腫瘤的大小,縱軸上,我標(biāo)出 1 和 0 表
示是或者不是惡性腫瘤。我們之前見過(guò)的腫瘤,如果是惡性則記為 1,不是惡性,或者說(shuō)良
性記為 0。
我有 5 個(gè)良性腫瘤樣本,在 1 的位置有 5 個(gè)惡性腫瘤樣本。現(xiàn)在我們有一個(gè)朋友很不幸
檢查出乳腺腫瘤。假設(shè)說(shuō)她的腫瘤大概這么大,那么機(jī)器學(xué)習(xí)的問(wèn)題就在于,你能否估算出
腫瘤是惡性的或是良性的概率。用術(shù)語(yǔ)來(lái)講,這是一個(gè)分類問(wèn)題。
分類指的是,我們?cè)囍茰y(cè)出離散的輸出值:0 或 1 良性或惡性,而事實(shí)上在分類問(wèn)題
中,輸出可能不止兩個(gè)值。比如說(shuō)可能有三種乳腺癌,所以你希望預(yù)測(cè)離散輸出 0、1、2、
3。0 代表良性,1 表示第 1 類乳腺癌,2 表示第 2 類癌癥,3 表示第 3 類,但這也是分類問(wèn)
題。
因?yàn)檫@幾個(gè)離散的輸出分別對(duì)應(yīng)良性,第一類第二類或者第三類癌癥,在分類問(wèn)題中我
們可以用另一種方式繪制這些數(shù)據(jù)點(diǎn)。
現(xiàn)在我用不同的符號(hào)來(lái)表示這些數(shù)據(jù)。既然我們把腫瘤的尺寸看做區(qū)分惡性或良性的特
征,那么我可以這么畫,我用不同的符號(hào)來(lái)表示良性和惡性腫瘤。或者說(shuō)是負(fù)樣本和正樣本
現(xiàn)在我們不全部畫 X,良性的腫瘤改成用 O 表示,惡性的繼續(xù)用 X 表示。來(lái)預(yù)測(cè)腫瘤的惡性與否。
在其它一些機(jī)器學(xué)習(xí)問(wèn)題中,可能會(huì)遇到不止一種特征。舉個(gè)例子,我們不僅知道腫瘤
的尺寸,還知道對(duì)應(yīng)患者的年齡。在其他機(jī)器學(xué)習(xí)問(wèn)題中,我們通常有更多的特征,我朋友
研究這個(gè)問(wèn)題時(shí),通常采用這些特征,比如腫塊密度,腫瘤細(xì)胞尺寸的一致性和形狀的一致
性等等,還有一些其他的特征。這就是我們即將學(xué)到最有趣的學(xué)習(xí)算法之一。
我們以后會(huì)講一個(gè)算法,叫【支持向量機(jī)】,里面有一個(gè)巧妙的數(shù)學(xué)技巧,能讓計(jì)算機(jī)處理無(wú)限多個(gè)特征。
【監(jiān)督學(xué)習(xí)基本思想】是,我們數(shù)據(jù)集中的每個(gè)樣本都有相應(yīng)的“正確答案”。再根據(jù)這些樣本作出預(yù)測(cè)。(就像房子和腫瘤的例子中做的那樣)
【回歸問(wèn)題】Regression Problem,即通過(guò)回歸來(lái)推出一個(gè)連續(xù)的輸出,之后我們介紹了分類問(wèn)題,其目標(biāo)是為了推出一組離散的結(jié)果
【分類問(wèn)題】Classification Problem,分類指的是,我們?cè)囍茰y(cè)出離散的輸出值:0 或 1 良性或惡性,而事實(shí)上在分類問(wèn)題中,輸出可能不止兩個(gè)值
?
轉(zhuǎn)載于:https://www.cnblogs.com/chenxi188/p/10869724.html
總結(jié)
以上是生活随笔為你收集整理的1-3.监督学习(supervised learning)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java局部内部类 final_Java
- 下一篇: DoIP协议设计思路浅析