當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】PyCaret!又一个神仙的自动机器学习库！

發(fā)布時(shí)間：2025/3/12 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】PyCaret!又一个神仙的自动机器学习库！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：時(shí)晴

PyCaret這個(gè)開(kāi)源工具，用起來(lái)可謂簡(jiǎn)單至極，少量代碼就可以搭建各種端到端的模型，廢話不多說(shuō)，直接看實(shí)戰(zhàn)。

PyCaret安裝:

# install slim version (default) pip install pycaret # install the full version pip install pycaret[full]

先用PyCaret自帶的'insurance'數(shù)據(jù)集作為例子，我們看下數(shù)據(jù):

# read data from pycaret repo from pycaret.datasets import get_data data = get_data('insurance')

數(shù)據(jù)預(yù)處理

該步驟是使用PyCaret構(gòu)建任何模型強(qiáng)制要做的一步：

# initialize setup from pycaret.regression import * s = setup(data, target = 'charges')

執(zhí)行完上述代碼后，不僅自動(dòng)推斷了各個(gè)特征的類型，還問(wèn)你是否推斷正確。

直接continue，會(huì)彈出setup的分析結(jié)果,如下圖所示:

從上圖紅框中，我們驚喜的發(fā)現(xiàn)連訓(xùn)練集測(cè)試集都幫忙我們拆分好了，并行已經(jīng)幫我們把訓(xùn)練數(shù)據(jù)shuffle好了。當(dāng)然我們可以自定義拆分比例，如下所示：

setup(data = insurance, target = 'charges', train_size = 0.5)

也可以對(duì)數(shù)據(jù)進(jìn)行scale:

setup(data = pokemon, target = 'Legendary', normalize = True)

會(huì)默認(rèn)幫你把連續(xù)值，離散值的缺失值處理掉：

可以對(duì)數(shù)據(jù)進(jìn)行分桶，只需要加上參數(shù)bin_numeric_features ：

setup(data = income, target = 'income >50K', bin_numeric_features = ['age'])

需要進(jìn)行特征篩選的話，也只需要加一個(gè)參數(shù)feature_selection = True:

setup(data = diabetes, target = 'Class variable', feature_selection = True)

同樣，一個(gè)參數(shù)連異常值都幫你移除了remove_outliers = True:

setup(data = insurance, target = 'charges', remove_outliers = True)

還有各種各樣的預(yù)處理操作，大家可以參考官方文檔。

https://pycaret.org/preprocessing/

模型訓(xùn)練

直接看下我們可以用哪些模型:

# check all the available models models()

真的是應(yīng)有盡有，大部分煉丹師其實(shí)只看到了最下面3個(gè)，xgb,lgb,cbt。

模型訓(xùn)練

那么我們就用xgb跑下吧:

# train decision tree dt = create_model('xgboost')

然后啥都不用寫(xiě)，測(cè)試集上各個(gè)mertic就顯示出來(lái)了:

模型融合是大家最常用的，也只需要一行代碼:

# train multiple models multiple_models = [create_model(i) for i in ['dt', 'lr', 'xgboost']]

要比較各個(gè)模型，也只需要一行代碼:

# compare all models best_model = compare_models()

模型預(yù)估：

predictions = predict_model(best_model, data = data2)

所以，大家數(shù)數(shù)看，我們一共才寫(xiě)了幾行代碼，就把模型預(yù)處理、訓(xùn)練、驗(yàn)證、融合、預(yù)估全完成了？做表格類數(shù)據(jù)模型真的是太方便了。

往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯黃海廣老師《機(jī)器學(xué)習(xí)課程》課件合集本站qq群851320808，加入微信群請(qǐng)掃碼：與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的【机器学习】PyCaret!又一个神仙的自动机器学习库！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【小白学习PyTorch教程】十、基于大
下一篇：【小白学习PyTorch教程】十一、基于