日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Py之scikit-learn:机器学习Sklearn库的简介、安装、使用方法(ML算法如何选择)、代码实现之详细攻略

發(fā)布時(shí)間:2025/3/21 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Py之scikit-learn:机器学习Sklearn库的简介、安装、使用方法(ML算法如何选择)、代码实现之详细攻略 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Py之scikit-learn:機(jī)器學(xué)習(xí)Sklearn庫的簡介、安裝、使用方法、代碼實(shí)現(xiàn)之詳細(xì)攻略

目錄

scikit-learn的簡介

scikit-learn的安裝

scikit-learn的使用方法


scikit-learn的簡介

? ? ?Scikit-learn項(xiàng)目最早由數(shù)據(jù)科學(xué)家 David Cournapeau 在 2007 年發(fā)起,需要NumPy和SciPy等其他包的支持,是Python語言中專門針對機(jī)器學(xué)習(xí)應(yīng)用而發(fā)展起來的一款開源框架。

? ? ? Scikit-learn依托于Numpy、Scipy等幾種工具包,封裝大量經(jīng)典以及最新的機(jī)器學(xué)習(xí)模型。該接口最早由David Cournapeau在2007年Google夏季代碼節(jié)中提出并啟動。后來作為Matthieu Brucher博士工作的一部分得以延續(xù)和完善。現(xiàn)在已經(jīng)是相對成熟的機(jī)器學(xué)習(xí)開源項(xiàng)目。近十年來,有超過20位計(jì)算機(jī)專家參與其代碼的更新和維護(hù)工作。作為一款用于機(jī)器學(xué)習(xí)和實(shí)踐的Python第只方開源程序庫,Scikit-learn因其出色的接口設(shè)計(jì)和高效的學(xué)習(xí)能力,尤其受ML愛好者的歡迎。

? ? ?和其他眾多的開源項(xiàng)目一樣,Scikit-learn目前主要由社區(qū)成員自發(fā)進(jìn)行維護(hù)。可能是由于維護(hù)成本的限制,Scikit-learn相比其他項(xiàng)目要顯得更為保守。這主要體現(xiàn)在兩個方面:一是Scikit-learn從來不做除機(jī)器學(xué)習(xí)領(lǐng)域之外的其他擴(kuò)展,二是Scikit-learn從來不采用未經(jīng)廣泛驗(yàn)證的算法。

Scikit-learn的基本功能主要被分為六大部分:
分類,回歸,聚類,數(shù)據(jù)降維,模型選擇和數(shù)據(jù)預(yù)處理。 ?

  • 1、分類:是指識別給定對象的所屬類別,屬于監(jiān)督學(xué)習(xí)的范疇,最常見的應(yīng)用場景包括垃圾郵件檢測和圖像識別等。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量機(jī)(SVM),最近鄰,邏輯回歸,隨機(jī)森林,決策樹以及多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)等等。 ?需要指出的是,由于Scikit-learn本身不支持深度學(xué)習(xí),也不支持GPU加速,因此這里對于MLP的實(shí)現(xiàn)并不適合于處理大規(guī)模問題。有相關(guān)需求的讀者可以查看同樣對Python有良好支持的Keras和Theano等框架。 ?
  • 2、回歸:是指預(yù)測與給定對象相關(guān)聯(lián)的連續(xù)值屬性,最常見的應(yīng)用場景包括預(yù)測藥物反應(yīng)和預(yù)測股票價(jià)格等。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量回歸(SVR),脊回歸,Lasso回歸,彈性網(wǎng)絡(luò)(Elastic Net),最小角回歸(LARS ),貝葉斯回歸,以及各種不同的魯棒回歸算法等。可以看到,這里實(shí)現(xiàn)的回歸算法幾乎涵蓋了所有開發(fā)者的需求范圍,而且更重要的是,Scikit-learn還針對每種算法都提供了簡單明了的用例參考。 ?
  • 3、聚類:是指自動識別具有相似屬性的給定對象,并將其分組為集合,屬于無監(jiān)督學(xué)習(xí)的范疇,最常見的應(yīng)用場景包括顧客細(xì)分和試驗(yàn)結(jié)果分組。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:K-均值聚類,譜聚類,均值偏移,分層聚類,DBSCAN聚類等。 ?
  • 4、數(shù)據(jù)降維:是指使用主成分分析(PCA)、非負(fù)矩陣分解(NMF)或特征選擇等降維技術(shù)來減少要考慮的隨機(jī)變量的個數(shù),其主要應(yīng)用場景包括可視化處理和效率提升。 ?
  • 5、模型選擇
  • 是指對于給定參數(shù)和模型的比較、驗(yàn)證和選擇,其主要目的是通過參數(shù)調(diào)整來提升精度。目前Scikit-learn實(shí)現(xiàn)的模塊包括:格點(diǎn)搜索,交叉驗(yàn)證和各種針對預(yù)測誤差評估的度量函數(shù)。 ?
  • 6、數(shù)據(jù)預(yù)處理:是指數(shù)據(jù)的特征提取和歸一化,是機(jī)器學(xué)習(xí)過程中的第一個也是最重要的一個環(huán)節(jié)。這里歸一化是指將輸入數(shù)據(jù)轉(zhuǎn)換為具有零均值和單位權(quán)方差的新變量,但因?yàn)榇蠖鄶?shù)時(shí)候都做不到精確等于零,因此會設(shè)置一個可接受的范圍,一般都要求落在0-1之間。而特征提取是指將文本或圖像數(shù)據(jù)轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字變量。 ?需要特別注意的是,這里的特征提取與上文在數(shù)據(jù)降維中提到的特征選擇非常不同。特征選擇是指通過去除不變、協(xié)變或其他統(tǒng)計(jì)上不重要的特征量來改進(jìn)機(jī)器學(xué)習(xí)的一種方法。 ?總結(jié)來說,Scikit-learn實(shí)現(xiàn)了一整套用于數(shù)據(jù)降維,模型選擇,特征提取和歸一化的完整算法/模塊,雖然缺少按步驟操作的參考教程,但Scikit-learn針對每個算法和模塊都提供了豐富的參考樣例和詳細(xì)的說明文檔。

scikit-learn的安裝

pip install scikit-learn pip install scikit-learn==0.23.1 pip install scikit-learn==0.19.1

成功安裝,哈哈!

scikit-learn的使用方法

scikit-learn algorithm cheat-sheet
選擇正確的估計(jì)量:解決機(jī)器學(xué)習(xí)問題的最困難的部分通常是為工作找到正確的估計(jì)量。不同的估計(jì)量更適合于不同類型的數(shù)據(jù)和不同的問題。下面的流程圖旨在為用戶提供一個關(guān)于如何處理問題的粗略指南,這些問題涉及到哪些評估人員要嘗試您的數(shù)據(jù)。點(diǎn)擊下表中的任何估算器查看其文檔。
地址:Choosing the right estimator — scikit-learn 1.0.1 documentation

相關(guān)文章推薦

scikit-learn與機(jī)器學(xué)習(xí)的那些不可告密的七七八八事

scikit-learn與深度學(xué)習(xí)的那些不可告密的七七八八事

總結(jié)

以上是生活随笔為你收集整理的Py之scikit-learn:机器学习Sklearn库的简介、安装、使用方法(ML算法如何选择)、代码实现之详细攻略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。