當前位置：首頁 > 编程语言 > python >内容正文

python

小白学数据：教你用Python实现简单监督学习算法

發布時間：2023/12/3 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了小白学数据：教你用Python实现简单监督学习算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自?小白學數據：教你用Python實現簡單監督學習算法

今天，文摘菌想談談監督學習。

監督學習作為運用最廣泛的機器學習方法，一直以來都是從數據挖掘信息的重要手段。即便是在無監督學習興起的近日，監督學習也依舊是入門機器學習的鑰匙。

這篇監督學習教程適用于剛入門機器學習的小白。

當然了，如果你已經熟練掌握監督學習，也不妨快速瀏覽這篇教程，檢驗一下自己的理解程度~

什么是監督學習？

在監督學習中，我們首先導入包含有訓練屬性和目標屬性的數據集。監督學習算法會從數據集中學習得出訓練樣本和其目標變量之間的關系，然后將學習到的關系對新樣本（未被標記的樣本）進行分類。

為了闡明監督學習的工作原理，我們用根據學生學習時間預測其考試成績的例子來說明。

用數學表示，即Y = f(X)+ C，其中

f表示學生學習時間和考試成績之間的關系
X表示輸入（學習小時數）
Y表示輸出（考試分數）
C表示隨機誤差

監督學習算法的終極目標是給出新的輸入X，使得預測結果Y的準確率最大。有很多方法可以實現有監督學習，我們將探討幾種最常用的方法。

根據給定的數據集，機器學習可以分為兩大類：分類（Classification）和回歸（Regression）。如果給定的數據集的輸出值是類別，那么待解決是分類問題。如果給定的數據集的輸出值是連續的，那么該問題是回歸問題。

舉兩個例子

分類：判斷是貓還是狗。

回歸：房子的售價是多少？

分類

考慮這樣一個例子，醫學研究員想要分析乳腺癌數據，用于預測患者使用三種治療方案中的哪一種。該數據分析問題就屬于分類問題，通過建立分類模型來預測類別標簽，例如“治療方案A”、“治療方案B”或者“治療方案C”。

分類是一個預測類別標簽的預測問題，這些類別標簽都是離散和無序的。分類包含兩個步驟：學習步驟和分類步驟。

分類方法和選擇最優方法

一些常見的分類算法：

K近鄰
決策樹
樸素貝葉斯
支持向量機

在學習步驟中，分類模型通過分析訓練集數據建立一個分類器。在分類步驟中，分類器對給定的數據進行分類。用于分析的數據集（包含數據和其對應的標簽）被劃分為訓練集和測試集。訓練集從分析用的數據集中隨機抽取。剩下的數據集構成測試集。測試集和訓練集相互獨立，即測試集中的數據不會被構建于分類器。

測試集用于評價分類器的預測精度。分類器的精度用測試集中預測正確的百分比表示。為了獲得更高的精度，最好的方法是測試多個不同的算法，同時，對每個算法嘗試不同的參數。可以通過交互檢驗選擇最好的算法和參數。

對于給定問題，在選取算法時，算法的精度、訓練時間、線性、參數數目以及特殊情況都要考慮在內。

在IRIS數據集上實現sklearn中的KNN，并對給定的輸入進行花卉類型分類。

首先，要應用機器學習算法，我們需要了解給定數據集的組成。在這個例子中，我們使用內置在sklearn包中的IRIS數據集。現在讓我們使用代碼查看IRIS數據集。

請確保你的電腦上成功安裝了Python。然后，通過PIP安裝下面這些python庫：

pip install pandas
pip install matplotlib
pip install scikit-learn

在下面這段代碼中，我們使用pandas中的一些方法查看IRIS數據集的一些屬性。

from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt

# Loading IRIS dataset from scikit-learn object into iris variable.
iris = datasets.load_iris()

# Prints the type/type object of iris
print(type(iris))
# <class 'sklearn.datasets.base.Bunch'>

# prints the dictionary keys of iris data
print(iris.keys())

# prints the type/type object of given attributes
print(type(iris.data), type(iris.target))

# prints the no of rows and columns in the dataset
print(iris.data.shape)

# prints the target set of the data
print(iris.target_names)

# Load iris training dataset
X = iris.data

# Load iris target set
Y = iris.target

# Convert datasets' type into dataframe
df = pd.DataFrame(X, columns=iris.feature_names)

# Print the first five tuples of dataframe.
print(df.head())

輸出：

<class ‘sklearn.datasets.base.Bunch’>
dict_keys([‘data’, ‘target’, ‘target_names’, ‘DESCR’, ‘feature_names’])]
<class ‘numpy.ndarray’> <class ‘numpy.ndarray’>
(150, 4)
[‘setosa’ ‘versicolor’ ‘virginica’]
sepal length (cm) sepal width (cm) petal length (cm) petal width ?(cm)
0 ? 5.1 ? 3.5 ? 1.4 ?0.2
1 ? 4.9 ? 3.0 ? 1.4 ?0.2
2 ? 4.7 ? 3.2 ? 1.3 ?0.2
3 ? 4.6 ? 3.1 ? 1.5 ?0.2
4 ? 5.0 ? 3.6 ? 1.4 ?0.2

Sklearn中的K最近鄰算法

如果一個算法僅存儲訓練集數據，并等待測試集數據的給出，那么這個算法便可認為是一個“懶惰學習法”。直到給定測試集數據，它才會根據它與存儲的訓練集樣本的相似性來對新樣本進行分類。

K近鄰分類器就是一個懶惰學習法。

K近鄰基于類比學習，比較一個測試樣本和與之相似訓練集數據。訓練集有n個屬性表征。每個樣本由n維空間中的一個點表示。這樣，訓練集中的所有樣本都儲存在n維模式空間中。當給定一個未知的樣本，K近鄰分類器在模式空間中搜尋和未知樣本最接近的k個訓練樣本。這k個訓練樣本就是未知樣本的k個近鄰。

“接近度”用距離來度量，例如歐幾里得距離。較好的K值可以通過實驗確定。

在下面這段代碼中，我們導入KNN分類器，將之應用到我們的輸入數據中，然后對花卉進行分類。

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier

# Load iris dataset from sklearn
iris = datasets.load_iris()

# Declare an of the KNN classifier class with the value with neighbors.
knn = KNeighborsClassifier(n_neighbors=6)

# Fit the model with training data and target values
knn.fit(iris['data'], iris['target'])

# Provide data whose class labels are to be predicted
X = [
? ?[5.9, 1.0, 5.1, 1.8],
? ?[3.4, 2.0, 1.1, 4.8],
]

# Prints the data provided
print(X)

# Store predicted class labels of X
prediction = knn.predict(X)

# Prints the predicted class labels of X
print(prediction)

輸出：

[1 1]

其中，0，1，2分別代表不同的花。在該例子中，對于給定的輸入，KNN分類器將它們都預測成為1這個類別的花。

KNN對IRIS數據集分類的直觀可視化

回歸

回歸通常被定義為確定兩個或多個變量之間的相關關系。例如，你要通過給定的數據X預測一個人的收入。這里，目標變量是指該變量是我們關心以及想要預測的未知變量，而連續是指Y的取值沒有間隔。

預測收入是一個經典的回歸問題。你的輸入應當包含所有與收入相關的個人信息（比如特征），這些信息可以預測收入，例如工作時長、教育經歷、職稱以及他的曾住地等。

回歸模型

一些常見的回歸模型有

線性回歸
邏輯回歸
多項式回歸

線性回歸通過擬合一條直線（回歸線）來建立因變量（Y）與一個或多個自變量（X）之間關系。

用數學公示表示，即h(xi) = βo + β1 * xi + e，其中

βo是截距
β1是斜率
e是誤差項

用圖表示，即

邏輯回歸是一種預測類別的算法，用于找出特征和特定輸出概率之間關系。

當然了，我們也可以把邏輯回歸歸類為分類算法，但就像我們剛才所說，邏輯回歸的輸出其實是目標對象屬于某一類別的概率。既然概率是連續的，我們依舊把邏輯回歸算作回歸算法。

用數學公式表示：p(X) = βo + β1 * X，其中p(x) = p(y = 1 | x)

圖形表示為

多項式回歸是一種將自變量x與因變量y的關系擬合為x的n階多項式的回歸算法。

解決線性回歸問題

我們有數據集X，以及對應的目標值Y，我們使用普通最小二乘法通過最小化預測誤差來擬合線性模型

給定的數據集同樣劃分為訓練集和測試集。訓練集由已知標簽的樣本組成，因此算法能夠通過這些已知標簽的樣本來學習。測試集樣本不包含標簽，你并不知道你試圖預測樣本的標簽值。

我們將選擇一個需要訓練的特征，應用線性回歸方法擬合訓練數據，然后預測測試集的輸出。

用Sklearn實現線性回歸

from sklearn import datasets, linear_model
import matplotlib.pyplot as plt
import numpy as np

# Load the diabetes dataset
diabetes = datasets.load_diabetes()

# Use only one feature for training
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Input data
print('Input Values')
print(diabetes_X_test)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# Predicted Data
print("Predicted Output Values")
print(diabetes_y_pred)

# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='red', linewidth=1)

plt.show()

輸入

輸入值：

[
?[ 0.07786339] ?[-0.03961813] ?[ 0.01103904] ?[-0.04069594] ?
?[-0.03422907] ?[ 0.00564998] ?[ 0.08864151] ?[-0.03315126]
?[-0.05686312] ?[-0.03099563] ?[ 0.05522933] ?[-0.06009656]
?[ 0.00133873] ?[-0.02345095] ?[-0.07410811] ?[ 0.01966154]
?[-0.01590626] ?[-0.01590626] ?[ 0.03906215] ?[-0.0730303 ]
?]

預測的輸出值：

[
225.9732401 ? 115.74763374 ?163.27610621 ?114.73638965 ?
120.80385422 ?158.21988574 ?236.08568105 ?121.81509832 ?
99.56772822 ? 123.83758651 ?204.73711411 ? 96.53399594 ?
154.17490936 ?130.91629517 ? 83.3878227 ? 171.36605897
137.99500384 ?137.99500384 ?189.56845268 ? 84.3990668
]

結語

提一下常用的監督學習的python庫

Scikit-Learn
Tensorflow
Pytorch

最后布置一個作業：請根據文章內容，用監督學習推測一下今天的文摘菌是哪位帥哥小編~

原文鏈接：https://towardsdatascience.com/supervised-learning-with-python-cf2c1ae543c1

總結

以上是生活随笔為你收集整理的小白学数据：教你用Python实现简单监督学习算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：域名注册好怎么建设网站（域名注册好怎么建
下一篇：计算机毕业设计（附源码）python英语