當(dāng)前位置：首頁(yè) >

终于有人把监督学习讲明白了

發(fā)布時(shí)間：2025/3/15 24 豆豆

生活随笔收集整理的這篇文章主要介紹了终于有人把监督学习讲明白了小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀：在機(jī)器學(xué)習(xí)的各種方法中，監(jiān)督學(xué)習(xí)是迄今為止成果最令人印象深刻的一種。本文介紹監(jiān)督學(xué)習(xí)解決像肺炎診斷這類問(wèn)題的基本原理。

作者：保羅·佩羅塔（Paolo Perrotta）

來(lái)源：大數(shù)據(jù)DT（ID：hzdashuju）

01?什么是監(jiān)督學(xué)習(xí)

要進(jìn)行監(jiān)督學(xué)習(xí)，我們需要從一組樣本數(shù)據(jù)開(kāi)始，每個(gè)樣本都帶有計(jì)算機(jī)可以學(xué)習(xí)的標(biāo)簽。例如：

如你所見(jiàn)，樣本可以是很多不同的東西：數(shù)據(jù)、文本、聲音、視頻等。此外，標(biāo)簽可以是數(shù)值，也可以是類型。數(shù)值標(biāo)簽只是一個(gè)數(shù)值，就像溫度–檸檬水轉(zhuǎn)換器一樣。類型標(biāo)簽表示預(yù)先定義的集合中的某個(gè)類別，例如在犬種檢測(cè)器的例子中。

使用一些想象力，你可以想出很多其他例子來(lái)預(yù)測(cè)一些事物，根據(jù)數(shù)值或者類型的標(biāo)簽來(lái)預(yù)測(cè)其他事物。

我們假設(shè)已經(jīng)收集了一些標(biāo)記過(guò)的樣本。現(xiàn)在可以進(jìn)行監(jiān)督學(xué)習(xí)的兩個(gè)階段：

階段1：訓(xùn)練階段

我們將帶有標(biāo)簽的樣本提供給一個(gè)用于發(fā)現(xiàn)模式的算法。例如，該算法可能會(huì)注意到，所有的肺炎掃描圖片都具有某些共同的特征（可能是某些不透明的區(qū)域），而這些特征在非肺炎掃描圖片中是沒(méi)有的。這個(gè)階段稱為訓(xùn)練階段，因?yàn)樗惴〞?huì)一遍又一遍地觀看樣本數(shù)據(jù)，并學(xué)習(xí)識(shí)別這些模式。

階段2：預(yù)測(cè)階段

現(xiàn)在算法已經(jīng)知道了肺炎的樣子，于是切換到預(yù)測(cè)階段。我們可以在這個(gè)階段收獲訓(xùn)練工作的成果。向訓(xùn)練過(guò)的算法展示未被標(biāo)注的X光掃描圖片，算法會(huì)告訴我們它是否具有肺炎特征。

這里還有關(guān)于監(jiān)督學(xué)習(xí)的另一個(gè)例子——一種可以識(shí)別動(dòng)物類型的系統(tǒng)。每個(gè)輸入數(shù)據(jù)是一張關(guān)于某種動(dòng)物的圖片，每個(gè)樣本的標(biāo)簽是圖片中動(dòng)物的物種。在訓(xùn)練階段，我們向算法展示帶標(biāo)簽的圖像。在預(yù)測(cè)階段，我們向算法展示一張未被標(biāo)注的不帶標(biāo)簽的圖像，要求算法對(duì)該圖像的標(biāo)簽進(jìn)行猜測(cè)。

前面已經(jīng)說(shuō)過(guò)，計(jì)算機(jī)程序可以在機(jī)器學(xué)習(xí)的過(guò)程中“算出”數(shù)據(jù)。監(jiān)督學(xué)習(xí)就是這種過(guò)程的一個(gè)例子。在傳統(tǒng)的編程過(guò)程中，可以編寫(xiě)一個(gè)程序讓計(jì)算機(jī)由輸入算出輸出；在監(jiān)督學(xué)習(xí)中，只要給出程序輸入和輸出的樣本數(shù)據(jù)，計(jì)算機(jī)就能自己學(xué)會(huì)如何從一個(gè)輸入算出一個(gè)輸出。

既然你已經(jīng)閱讀了關(guān)于監(jiān)督學(xué)習(xí)的一種高屋建瓴的解釋，那么可能會(huì)有比初學(xué)時(shí)更多的問(wèn)題。我們說(shuō)過(guò)，監(jiān)督學(xué)習(xí)程序在樣本數(shù)據(jù)中“注意共同的特征”，并“發(fā)現(xiàn)模式”—但它是如何做到的呢？讓我們從一個(gè)抽象的層次開(kāi)始，看看這個(gè)魔法是如何實(shí)現(xiàn)的。

02?魔法背后的數(shù)學(xué)原理

監(jiān)督學(xué)習(xí)系統(tǒng)使用函數(shù)擬合這一數(shù)學(xué)概念來(lái)理解樣本數(shù)據(jù)與其標(biāo)簽之間的關(guān)系。下面我們結(jié)合具體實(shí)例來(lái)介紹這個(gè)數(shù)學(xué)概念的基本原理。

想象一下，你家屋頂上有一塊太陽(yáng)能板。你就像是一個(gè)監(jiān)督學(xué)習(xí)系統(tǒng)一樣，學(xué)習(xí)太陽(yáng)能板如何產(chǎn)生能量，并預(yù)測(cè)在未來(lái)某個(gè)時(shí)間段內(nèi)產(chǎn)生能量的大小。

預(yù)測(cè)太陽(yáng)能板的能量輸出需要時(shí)間、天氣等變量。時(shí)間應(yīng)該是一個(gè)重要變量，所以你決定專注于時(shí)間這個(gè)變量。對(duì)于真正的監(jiān)督學(xué)習(xí)過(guò)程，你應(yīng)該從收集每天不同時(shí)段太陽(yáng)能板所產(chǎn)生能量大小的樣本數(shù)據(jù)開(kāi)始。經(jīng)過(guò)幾周時(shí)間的隨機(jī)取樣之后，你得到了如下數(shù)據(jù)列表：

上表中的每一行都是包含輸入變量（時(shí)間）與標(biāo)簽（產(chǎn)生的能量值）的樣本數(shù)據(jù)，就像那個(gè)識(shí)別動(dòng)物的系統(tǒng)一樣，動(dòng)物圖片是輸入，動(dòng)物名稱是標(biāo)簽。

如果你將這些樣本數(shù)據(jù)繪成一幅圖表，那么就能很形象地看到時(shí)間與太陽(yáng)能板產(chǎn)能值之間的關(guān)系：

我們一看就知道，太陽(yáng)能板不會(huì)在夜間產(chǎn)生能量，并且能量值在中午的時(shí)間達(dá)到了頂峰。如下圖所示，雖然監(jiān)督學(xué)習(xí)系統(tǒng)沒(méi)有人腦那樣機(jī)敏，但是它能夠?qū)颖緮?shù)據(jù)近似擬合成某個(gè)函數(shù)，由此實(shí)現(xiàn)對(duì)數(shù)據(jù)的理解。

尋找與樣本數(shù)據(jù)比較接近的擬合函數(shù)并不是一件容易的事情。但是，隨后的預(yù)測(cè)階段就要簡(jiǎn)單得多。系統(tǒng)會(huì)忘記所有的樣本信息，并使用找到的擬合函數(shù)來(lái)預(yù)測(cè)太陽(yáng)能板在未來(lái)某個(gè)時(shí)間所產(chǎn)生的能量，例如在正午時(shí)產(chǎn)生的能量如下圖所示：

這就是我所說(shuō)的監(jiān)督學(xué)習(xí)通過(guò)函數(shù)擬合的方式實(shí)現(xiàn)算法功能。監(jiān)督學(xué)習(xí)系統(tǒng)接收的實(shí)際樣本數(shù)據(jù)通常是混亂且不完整的。在數(shù)據(jù)訓(xùn)練階段，我們通常需要構(gòu)造一個(gè)比較簡(jiǎn)單的函數(shù)來(lái)近似擬合比較復(fù)雜的實(shí)際數(shù)據(jù)。在預(yù)測(cè)階段，則使用所構(gòu)造的擬合函數(shù)實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的預(yù)測(cè)。

作為一名程序員，你已經(jīng)習(xí)慣于考慮很多有可能出錯(cuò)的情形。因此，你可能已經(jīng)在考慮將樣本數(shù)據(jù)的處理復(fù)雜化的方法。例如，太陽(yáng)能電池板的能量輸出除了與時(shí)間有關(guān)之外，還會(huì)受到其他因素的影響，比如云層或月份的影響。

如果收集了所有這些變量的數(shù)據(jù)，那么我們將會(huì)得到一個(gè)多維的點(diǎn)云，將無(wú)法使用一個(gè)簡(jiǎn)單的圖表對(duì)這些點(diǎn)云數(shù)據(jù)進(jìn)行可視化表示。同樣，對(duì)于太陽(yáng)能電池板，我們需要預(yù)測(cè)的是數(shù)值標(biāo)簽。你可能想知道如何將這種數(shù)值標(biāo)簽轉(zhuǎn)換成非數(shù)值標(biāo)簽（如動(dòng)物的名稱），即類別標(biāo)簽。

你現(xiàn)在只需要知道一點(diǎn)：不管你在上面疊加了多少?gòu)?fù)雜的東西，監(jiān)督學(xué)習(xí)的基本思想就和我們剛才所描述的一樣——找一堆樣本數(shù)據(jù)，再找到一個(gè)可以近似擬合這些樣本數(shù)據(jù)的函數(shù)。

現(xiàn)代監(jiān)督學(xué)習(xí)系統(tǒng)非常擅長(zhǎng)這種擬合工作。事實(shí)上，這種擬合功能可以強(qiáng)大到足以擬合出極其復(fù)雜的函數(shù)關(guān)系——例如X光掃描圖片和診斷結(jié)論之間的關(guān)系。當(dāng)然，用于擬合這些對(duì)應(yīng)關(guān)系的函數(shù)對(duì)于我們?nèi)祟惗詴?huì)是非常復(fù)雜的。然而，對(duì)于計(jì)算機(jī)系統(tǒng)而言則是小菜一碟。

本文摘編自《機(jī)器學(xué)習(xí)編程：從編碼到深度學(xué)習(xí)》，經(jīng)出版方授權(quán)發(fā)布。（ISBN：978-7-111-68091-8）

《機(jī)器學(xué)習(xí)編程：從編碼到深度學(xué)習(xí)》

點(diǎn)擊上圖了解及購(gòu)買(mǎi)

轉(zhuǎn)載請(qǐng)聯(lián)系微信：DoctorData

推薦語(yǔ)：語(yǔ)言幽默，舉例生動(dòng)，適合零基礎(chǔ)讀者學(xué)習(xí)機(jī)器學(xué)習(xí)。適合作為智能科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)以及相關(guān)專業(yè)的本科生或研究生的機(jī)器學(xué)習(xí)入門(mén)教材，也可供工程技術(shù)人員和自學(xué)讀者學(xué)習(xí)參考。

劃重點(diǎn)👇

干貨直達(dá)👇

微服務(wù)治理框架的選擇：對(duì)比Spring Cloud和Istio
為什么Web 3.0就是元宇宙？
重磅盤(pán)點(diǎn)！2021年最受歡迎的技術(shù)干貨，全在這里了
2021年，朋友圈都在傳這8個(gè)視頻

更多精彩👇

在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

讀書(shū)?|?書(shū)單?|?干貨?|?講明白?|?神操作?|?手把手

AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP

據(jù)統(tǒng)計(jì)，99%的大咖都關(guān)注了這個(gè)公眾號(hào)

👇

總結(jié)

以上是生活随笔為你收集整理的终于有人把监督学习讲明白了的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

明白了

上一篇：任正非：华为有意出售 5G 技术！
下一篇： 2018世界幸福指数中国排第86，这种报

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

终于有人把监督学习讲明白了

總結(jié)