python sklearn 归一化_第3章 Sklearn概述
Sklearn,該工具包是目前用于機器學習的五大主流Python包之一,適用于預處理、建模、驗證及調優等機器學習開發的主要流程,覆蓋除部分深度學習算法之外幾乎所有常用的機器學習算法。
- Sklearn的環境搭建與安裝;
- Sklearn的常用類及具體的使用場景。
3.1 Sklearn的環境搭建與安裝
Sklearn又稱為scikit-learn;
該庫提供了機器學習涉及的4個流程中的函數接口--數據預處理、建模、模型校驗評估及模型調優;
在建模方面提供的機器學習算法涵蓋監督學習、無監督學習及半監督學習--其中包括但不限于分類、聚類、回歸、降維等算法;
Sklearn并不是作為一個獨立的庫使用的,其在SciPy[1]及NumPy的基礎上做了相應的擴展;
python3 -m pip install sklearn #安裝Sklearn前需要安裝scipy和numpy包依賴3.2 Sklearn常用類及其結構
僅僅幾行代碼實現不同的算法;
臟數據清洗;
常用模塊:
1.數據處理:
- 數據源(sklearn.datasets)--該模塊提供加載數據集的實用程序,以及人工數據生成器的方法。
- 一般數據預處理(sklearn.preprocessing)--模塊包括但不限于縮放、中心化、歸一化、二值化和歸一化方法。其具體使用將在后面的章節詳細介紹。
除此之外,對非一般數據,如文本數據或者圖形數據,也存在對應的預處理方法,而這種方法也被稱為特征提取。
- 特征提取(sklearn.feature_extraction)--從原始數據中提取特征,目前包括從文本和圖像中提取特征的方法。值得注意的是,對文本數據提取和圖形數據提取在不同的模塊。
- 文本數據提取(sklearn.feature_extraction.image)--從圖形數據中抽取特征,其方法有補丁提取、像素到像素梯度連接圖轉化(Graph of Pixel Gradient Connections)等。
2.模型建立:模型建立是模型開發整個流程中最關鍵的環節,其它環節都是圍繞模型而存在的。模型從大的類目上分為監督學習[2]、無監督學習[3]和半監督學習;如果更近一步劃分,在這些大的類目的基礎上又存在諸如聚類、分類、回歸、降維等小的類目:
- 聚類(sklearn.cluster.*)——聚類是一種無監督方法,其將特征相近的數據劃歸到同一類,并不需要對其數據本身標注標簽。在此類中,收錄了幾乎全部主流的聚類方法,如K-means聚類、均值偏移聚類、親和傳播、DBSCAN等。
- 降維(sklearn.decomposition.*)——該模塊包括一些矩陣分解算法,如主成分分析、NMF或者獨立成因分析等,大部分算法都可以看作一種降維技術。降維屬于一種無監督學習方法。
- 高斯過程(sklearn.gaussian_process.*)——高斯過程既可以用于分類,也可以用于回歸,其假設前提是大量獨立的、均勻微小的隨機變量的總和近似地服從高斯分布,通過對訓練數據的高斯假設,生成相應的擬合函數。
- 廣義線性模型(sklearn.linear_model.*)——廣義線性模型模塊包含了常用的廣義線性模型集。它包括嶺回歸、貝葉斯回歸、LASSO和彈性網絡回歸。
- 流形學習(sklearn.manifold.*)——流形學習的本質實際上是從高維采樣數據中恢復低維流形結構,即找到高維空間中的低維流形,這也是一種降維方法,同樣,該模塊包含ISOMAP、局部線性嵌入等嵌入方法。
- 高斯混合(sklearn.mixture.*)——該模塊包括高斯混合建模方法,其假設前提是任意模型滿足多個高斯模型的疊加組合。
- 多類別、多標簽分類(sklearn.multiclass.*)——該模塊提供了多類別學習算法,其中包括一對多、多對多、糾錯輸出碼等方法。
- 樸素貝葉斯(sklearn.naive_bayes.*)——該模塊包括樸素貝葉斯算法,是一種基于貝葉斯定理和強(樸素)特征獨立性假設的監督學習方法。
- 最臨近方法(sklearnneighbors.*)——該模塊包括最臨近算法,是聚類中常見的一種方法。
- 半監督學習(sklearn.semi_supervised.*)——該模塊包括半監督學習算法,其思路是利用少量的標記數據和大量的未標記數據進行分類,代表性方法有標簽傳播及標簽擴散。
- 支持向量機(sklearn.svm.*)——該模塊包括支持向量機的各種算法,其算法可用于回歸、分類等場景。
- 決策樹(sklearn.tree.*)——該模塊包括決策樹算法,其算法可用于回歸和分類。
- 集成學習(sklearn.ensemble.*)——該模塊包括基于集成的分類、回歸和異常檢測方法。
以上是Sklearn能夠提供的主流機器學習方法,當然,它也提供深度學習的模型實現,但是更全面的模型實現在Keras庫中,在Sklearn環境不進行介紹。
3.模型驗證:
模型驗證(sklearn.metrics.*和部分sklearn.model_selection.*)還有成對驗證(Pairwise Validation)、雙聚類(Biclustering)驗證等方法。
4.模型優化:
模型驗證之后,如果不能滿足業務場景對模型的要求,那么此時需要提高模型的性能。
在Sklearn中,模型調優主要是對參數的嘗試(窮舉、隨機或者給定參數集合),并通過驗證得到最優解的超參數。其涉及的類為sklearn.model_selection.*。
每晚8點更新
|《機器學習從入門到入職-張威》解讀,如有侵權立即刪除|
參考
總結
以上是生活随笔為你收集整理的python sklearn 归一化_第3章 Sklearn概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python读取rar文件_在 pyth
- 下一篇: python中head_Python p