日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python sklearn 归一化_第3章 Sklearn概述

發布時間:2025/3/15 python 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python sklearn 归一化_第3章 Sklearn概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Sklearn,該工具包是目前用于機器學習的五大主流Python包之一,適用于預處理、建模、驗證及調優等機器學習開發的主要流程,覆蓋除部分深度學習算法之外幾乎所有常用的機器學習算法。

  • Sklearn的環境搭建與安裝;
  • Sklearn的常用類及具體的使用場景。

3.1 Sklearn的環境搭建與安裝

Sklearn又稱為scikit-learn;

該庫提供了機器學習涉及的4個流程中的函數接口--數據預處理、建模、模型校驗評估及模型調優;

在建模方面提供的機器學習算法涵蓋監督學習、無監督學習及半監督學習--其中包括但不限于分類、聚類、回歸、降維等算法;

Sklearn并不是作為一個獨立的庫使用的,其在SciPy[1]及NumPy的基礎上做了相應的擴展;

python3 -m pip install sklearn #安裝Sklearn前需要安裝scipy和numpy包依賴

3.2 Sklearn常用類及其結構

僅僅幾行代碼實現不同的算法;

臟數據清洗;

常用模塊:

1.數據處理:

  • 數據源(sklearn.datasets)--該模塊提供加載數據集的實用程序,以及人工數據生成器的方法。
#調用鳶尾花數據源
  • 一般數據預處理(sklearn.preprocessing)--模塊包括但不限于縮放、中心化、歸一化、二值化和歸一化方法。其具體使用將在后面的章節詳細介紹。

除此之外,對非一般數據,如文本數據或者圖形數據,也存在對應的預處理方法,而這種方法也被稱為特征提取。

  • 特征提取(sklearn.feature_extraction)--從原始數據中提取特征,目前包括從文本和圖像中提取特征的方法。值得注意的是,對文本數據提取和圖形數據提取在不同的模塊。
  • 文本數據提取(sklearn.feature_extraction.image)--從圖形數據中抽取特征,其方法有補丁提取、像素到像素梯度連接圖轉化(Graph of Pixel Gradient Connections)等。

2.模型建立:模型建立是模型開發整個流程中最關鍵的環節,其它環節都是圍繞模型而存在的。模型從大的類目上分為監督學習[2]、無監督學習[3]和半監督學習;如果更近一步劃分,在這些大的類目的基礎上又存在諸如聚類、分類、回歸、降維等小的類目:

  • 聚類(sklearn.cluster.*)——聚類是一種無監督方法,其將特征相近的數據劃歸到同一類,并不需要對其數據本身標注標簽。在此類中,收錄了幾乎全部主流的聚類方法,如K-means聚類、均值偏移聚類、親和傳播、DBSCAN等。
  • 降維(sklearn.decomposition.*)——該模塊包括一些矩陣分解算法,如主成分分析、NMF或者獨立成因分析等,大部分算法都可以看作一種降維技術。降維屬于一種無監督學習方法。
  • 高斯過程(sklearn.gaussian_process.*)——高斯過程既可以用于分類,也可以用于回歸,其假設前提是大量獨立的、均勻微小的隨機變量的總和近似地服從高斯分布,通過對訓練數據的高斯假設,生成相應的擬合函數。
  • 廣義線性模型(sklearn.linear_model.*)——廣義線性模型模塊包含了常用的廣義線性模型集。它包括嶺回歸、貝葉斯回歸、LASSO和彈性網絡回歸。
  • 流形學習(sklearn.manifold.*)——流形學習的本質實際上是從高維采樣數據中恢復低維流形結構,即找到高維空間中的低維流形,這也是一種降維方法,同樣,該模塊包含ISOMAP、局部線性嵌入等嵌入方法。
  • 高斯混合(sklearn.mixture.*)——該模塊包括高斯混合建模方法,其假設前提是任意模型滿足多個高斯模型的疊加組合。
  • 多類別、多標簽分類(sklearn.multiclass.*)——該模塊提供了多類別學習算法,其中包括一對多、多對多、糾錯輸出碼等方法。
  • 樸素貝葉斯(sklearn.naive_bayes.*)——該模塊包括樸素貝葉斯算法,是一種基于貝葉斯定理和強(樸素)特征獨立性假設的監督學習方法。
  • 最臨近方法(sklearnneighbors.*)——該模塊包括最臨近算法,是聚類中常見的一種方法。
  • 半監督學習(sklearn.semi_supervised.*)——該模塊包括半監督學習算法,其思路是利用少量的標記數據和大量的未標記數據進行分類,代表性方法有標簽傳播及標簽擴散。
  • 支持向量機(sklearn.svm.*)——該模塊包括支持向量機的各種算法,其算法可用于回歸、分類等場景。
  • 決策樹(sklearn.tree.*)——該模塊包括決策樹算法,其算法可用于回歸和分類。
  • 集成學習(sklearn.ensemble.*)——該模塊包括基于集成的分類、回歸和異常檢測方法。

以上是Sklearn能夠提供的主流機器學習方法,當然,它也提供深度學習的模型實現,但是更全面的模型實現在Keras庫中,在Sklearn環境不進行介紹。

3.模型驗證:

模型驗證(sklearn.metrics.*和部分sklearn.model_selection.*)還有成對驗證(Pairwise Validation)、雙聚類(Biclustering)驗證等方法。

4.模型優化:

模型驗證之后,如果不能滿足業務場景對模型的要求,那么此時需要提高模型的性能。

在Sklearn中,模型調優主要是對參數的嘗試(窮舉、隨機或者給定參數集合),并通過驗證得到最優解的超參數。其涉及的類為sklearn.model_selection.*。

每晚8點更新

|《機器學習從入門到入職-張威》解讀,如有侵權立即刪除|

參考

  • ^Scipy是基于Numpy在科學計算領域非常強大的一個庫。
  • ^訓練集有y
  • ^訓練集無y
  • 總結

    以上是生活随笔為你收集整理的python sklearn 归一化_第3章 Sklearn概述的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。