當前位置：首頁 > 编程语言 > python >内容正文

python

python sklearn 归一化_第3章 Sklearn概述

發布時間：2025/3/15 python 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 python sklearn 归一化_第3章 Sklearn概述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Sklearn，該工具包是目前用于機器學習的五大主流Python包之一，適用于預處理、建模、驗證及調優等機器學習開發的主要流程，覆蓋除部分深度學習算法之外幾乎所有常用的機器學習算法。

Sklearn的環境搭建與安裝；
Sklearn的常用類及具體的使用場景。

3.1 Sklearn的環境搭建與安裝

Sklearn又稱為scikit-learn；

該庫提供了機器學習涉及的4個流程中的函數接口--數據預處理、建模、模型校驗評估及模型調優；

在建模方面提供的機器學習算法涵蓋監督學習、無監督學習及半監督學習--其中包括但不限于分類、聚類、回歸、降維等算法；

Sklearn并不是作為一個獨立的庫使用的，其在SciPy^[1]及NumPy的基礎上做了相應的擴展；

python3 -m pip install sklearn #安裝Sklearn前需要安裝scipy和numpy包依賴

3.2 Sklearn常用類及其結構

僅僅幾行代碼實現不同的算法；

臟數據清洗；

常用模塊：

1.數據處理：

數據源（sklearn.datasets）--該模塊提供加載數據集的實用程序，以及人工數據生成器的方法。

#調用鳶尾花數據源

一般數據預處理（sklearn.preprocessing）--模塊包括但不限于縮放、中心化、歸一化、二值化和歸一化方法。其具體使用將在后面的章節詳細介紹。

除此之外，對非一般數據，如文本數據或者圖形數據，也存在對應的預處理方法，而這種方法也被稱為特征提取。

特征提取（sklearn.feature_extraction）--從原始數據中提取特征，目前包括從文本和圖像中提取特征的方法。值得注意的是，對文本數據提取和圖形數據提取在不同的模塊。
文本數據提取（sklearn.feature_extraction.image）--從圖形數據中抽取特征，其方法有補丁提取、像素到像素梯度連接圖轉化（Graph of Pixel Gradient Connections）等。

2.模型建立：模型建立是模型開發整個流程中最關鍵的環節，其它環節都是圍繞模型而存在的。模型從大的類目上分為監督學習^[2]、無監督學習^[3]和半監督學習；如果更近一步劃分，在這些大的類目的基礎上又存在諸如聚類、分類、回歸、降維等小的類目：

聚類（sklearn.cluster.*）——聚類是一種無監督方法，其將特征相近的數據劃歸到同一類，并不需要對其數據本身標注標簽。在此類中，收錄了幾乎全部主流的聚類方法，如K-means聚類、均值偏移聚類、親和傳播、DBSCAN等。
降維（sklearn.decomposition.*）——該模塊包括一些矩陣分解算法，如主成分分析、NMF或者獨立成因分析等，大部分算法都可以看作一種降維技術。降維屬于一種無監督學習方法。
高斯過程（sklearn.gaussian_process.*）——高斯過程既可以用于分類，也可以用于回歸，其假設前提是大量獨立的、均勻微小的隨機變量的總和近似地服從高斯分布，通過對訓練數據的高斯假設，生成相應的擬合函數。
廣義線性模型（sklearn.linear_model.*）——廣義線性模型模塊包含了常用的廣義線性模型集。它包括嶺回歸、貝葉斯回歸、LASSO和彈性網絡回歸。
流形學習（sklearn.manifold.*）——流形學習的本質實際上是從高維采樣數據中恢復低維流形結構，即找到高維空間中的低維流形，這也是一種降維方法，同樣，該模塊包含ISOMAP、局部線性嵌入等嵌入方法。
高斯混合（sklearn.mixture.*）——該模塊包括高斯混合建模方法，其假設前提是任意模型滿足多個高斯模型的疊加組合。
多類別、多標簽分類（sklearn.multiclass.*）——該模塊提供了多類別學習算法，其中包括一對多、多對多、糾錯輸出碼等方法。
樸素貝葉斯（sklearn.naive_bayes.*）——該模塊包括樸素貝葉斯算法，是一種基于貝葉斯定理和強（樸素）特征獨立性假設的監督學習方法。
最臨近方法（sklearnneighbors.*）——該模塊包括最臨近算法，是聚類中常見的一種方法。
半監督學習（sklearn.semi_supervised.*）——該模塊包括半監督學習算法，其思路是利用少量的標記數據和大量的未標記數據進行分類，代表性方法有標簽傳播及標簽擴散。
支持向量機（sklearn.svm.*）——該模塊包括支持向量機的各種算法，其算法可用于回歸、分類等場景。
決策樹（sklearn.tree.*）——該模塊包括決策樹算法，其算法可用于回歸和分類。
集成學習（sklearn.ensemble.*）——該模塊包括基于集成的分類、回歸和異常檢測方法。

以上是Sklearn能夠提供的主流機器學習方法，當然，它也提供深度學習的模型實現，但是更全面的模型實現在Keras庫中，在Sklearn環境不進行介紹。

3.模型驗證：

模型驗證（sklearn.metrics.*和部分sklearn.model_selection.*）還有成對驗證（Pairwise Validation）、雙聚類（Biclustering）驗證等方法。

4.模型優化：

模型驗證之后，如果不能滿足業務場景對模型的要求，那么此時需要提高模型的性能。

在Sklearn中，模型調優主要是對參數的嘗試（窮舉、隨機或者給定參數集合），并通過驗證得到最優解的超參數。其涉及的類為sklearn.model_selection.*。

每晚8點更新

｜《機器學習從入門到入職-張威》解讀，如有侵權立即刪除｜

參考

^Scipy是基于Numpy在科學計算領域非常強大的一個庫。

^訓練集有y

^訓練集無y

總結

以上是生活随笔為你收集整理的python sklearn 归一化_第3章 Sklearn概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python读取rar文件_在 pyth
下一篇： python中head_Python p