幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

投稿用戶 ? 2024年1月12日上午10:01 ? 科研百科 ? 閱讀 100

機(jī)器之心報(bào)道

機(jī)器之心編輯部

PyCaret 庫支持在「低代碼」環(huán)境中訓(xùn)練和部署有監(jiān)督以及無監(jiān)督的機(jī)器學(xué)習(xí)模型，提升機(jī)器學(xué)習(xí)實(shí)驗(yàn)的效率。

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

想提高機(jī)器學(xué)習(xí)實(shí)驗(yàn)的效率，把更多精力放在解決業(yè)務(wù)問題而不是寫代碼上？低代碼平臺或許是個(gè)不錯(cuò)的選擇。

最近，機(jī)器之心發(fā)現(xiàn)了一個(gè)開源低代碼機(jī)器學(xué)習(xí) Python 庫 PyCaret，它支持在「低代碼」環(huán)境中訓(xùn)練和部署有監(jiān)督以及無監(jiān)督的機(jī)器學(xué)習(xí)模型。

GitHub 地址：https://github.com/pycaret/pycaret

用戶文檔：https://www.pycaret.org/guide

Notebook 教程：https://www.pycaret.org/tutorial

PyCaret 庫支持?jǐn)?shù)據(jù)科學(xué)家快速高效地執(zhí)行端到端實(shí)驗(yàn)，與其他開源機(jī)器學(xué)習(xí)庫相比，PyCaret 庫只需幾行代碼即可執(zhí)行復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)。該庫適合有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家、傾向于低代碼機(jī)器學(xué)習(xí)解決方案的公民數(shù)據(jù)科學(xué)家，以及編程背景較弱甚至沒有的新手。

PyCaret 庫支持多種 Notebook 環(huán)境，包括 Jupyter Notebook、Azure notebook 和 Google Colab。從本質(zhì)上來看，PyCaret 是一個(gè) Python 封裝器，封裝了多個(gè)機(jī)器學(xué)習(xí)庫和框架，如 sci-kit-learn、XGBoost、Microsoft LightGBM、spaCy 等。

機(jī)器學(xué)習(xí)實(shí)驗(yàn)中所有步驟均可使用 PyCaret 自動(dòng)開發(fā)的 pipeline 進(jìn)行復(fù)現(xiàn)。在 Pycaret 中所執(zhí)行的所有操作均按順序存儲(chǔ)在 Pipeline 中，該 Pipeline 針對模型部署進(jìn)行了完全配置。

不管是填充缺失值、轉(zhuǎn)換類別數(shù)據(jù)、執(zhí)行特征工程設(shè)計(jì)，還是調(diào)參，Pycaret 都能夠自動(dòng)執(zhí)行。而且 pipeline 可以保存為二進(jìn)制文件格式，支持在不同環(huán)境中進(jìn)行遷移。

PyCaret 包含一系列函數(shù)，用戶通過它們完成機(jī)器學(xué)習(xí)實(shí)驗(yàn)。PyCaret 庫的函數(shù)可分為以下五個(gè)大類，涵蓋初始化、模型訓(xùn)練、集成、分析與部署：

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

此外，PyCaret 提供 6 個(gè)模塊，支持有監(jiān)督和無監(jiān)督模型的訓(xùn)練和部署，分別是分類、回歸、聚類、異常檢測、自然語言處理和關(guān)聯(lián)規(guī)則挖掘。每個(gè)模塊封裝特定的機(jī)器學(xué)習(xí)算法和不同模塊均可以使用的函數(shù)。用戶可以根據(jù)實(shí)驗(yàn)類型，將模塊導(dǎo)入環(huán)境中。

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

PyCaret 庫提供的六個(gè)模塊。

接下來，我們就來了解一下 PyCaret 庫的安裝和使用方法吧。

啟動(dòng) PyCaret

使用 pip 安裝 PyCaret。

使用命令行界面或 notebook 環(huán)境，運(yùn)行下面的代碼進(jìn)行安裝：

pip install pycaret

Azure notebook 和 Google Colab 用戶，可以運(yùn)行下列代碼進(jìn)行安裝：

!pip install pycaret

安裝 PyCaret 時(shí)會(huì)自動(dòng)安裝所有依賴項(xiàng)，過程非常簡單，如下圖所示：

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

PyCaret 分步教程

數(shù)據(jù)獲取

該教程使用「糖尿病」數(shù)據(jù)集，目標(biāo)是根據(jù)血壓、胰島素水平以及年齡等多種因素預(yù)測患者的預(yù)后情況（1 或 0）。數(shù)據(jù)集參見 PyCaret 的 GitHub 地址。

直接從 PyCaret 庫中導(dǎo)入數(shù)據(jù)集的最簡單方法是使用 pycaret.datasets 模塊中的 get_data 函數(shù)。

from *pycaret.datasets* import *get_data*

diabetes = *get_data*('diabetes')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

get_data 的輸出。

PyCaret 可以直接處理 Pandas 數(shù)據(jù)幀。

環(huán)境配置

在 PyCaret 中執(zhí)行任意機(jī)器學(xué)習(xí)實(shí)驗(yàn)的第一步都是，通過導(dǎo)入所需模塊并初始化 setup() 來設(shè)置環(huán)境。如下示例中使用的模塊是 pycaret.classification。

模塊導(dǎo)入后，將通過定義數(shù)據(jù)結(jié)構(gòu)「糖尿病」和目標(biāo)變量「類變量」來初始化 setup()。

from *pycaret.classification* import ***exp1 = *setup*(diabetes, target = 'Class variable')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

所有預(yù)處理的步驟都會(huì)應(yīng)用至 setup() 中，PyCaret 擁有 20 余項(xiàng)功能可運(yùn)用于 ML 相關(guān)的數(shù)據(jù)準(zhǔn)備，例如根據(jù) setup 函數(shù)中定義的參數(shù)來創(chuàng)建 Transformation pipeline，同時(shí)也會(huì)自動(dòng)協(xié)調(diào) Pipeline 中所有的相關(guān)性及依賴關(guān)系。這樣面對測試或者未見過的數(shù)據(jù)集，用戶無需再手動(dòng)管理或是調(diào)整執(zhí)行的順序。

PyCaret 的 Pipeline 可輕松地在各環(huán)境之間相互遷移，比如大規(guī)模運(yùn)行或是輕松部署到生產(chǎn)環(huán)境中。下圖展示了 PyCaret 首次發(fā)布時(shí)可用的預(yù)處理功能：

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

PyCaret 的預(yù)處理功能。

數(shù)據(jù)預(yù)處理是機(jī)器學(xué)習(xí)的必要步驟，比如當(dāng)初始化 setup() 時(shí)，缺失值填充、分類變量編碼、標(biāo)簽編碼（將 yes or no 轉(zhuǎn)化為 1 or 0）以及 train-test-split 會(huì)自動(dòng)執(zhí)行。

模型比較

這是監(jiān)督機(jī)器學(xué)習(xí)實(shí)驗(yàn)（分類或回歸模塊）應(yīng)該進(jìn)行的第一步。compare_models 函數(shù)訓(xùn)練模型庫中的所有模型，并使用 k 折交叉驗(yàn)證（默認(rèn) k=10）來比較常見的評估指標(biāo)。所使用的評估指標(biāo)如下所示：

分類模塊：準(zhǔn)確度、AUC、Recall、精度、F1 和 Kappa；

回歸模塊：MAE、MSE、RMSE、R2、RMSLE 和 MAPE。

*compare_models*()

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

compare_models() 函數(shù)的輸出。Output from compare_models( ) function

默認(rèn)使用 10 折交叉驗(yàn)證來評估指標(biāo)，可以通過改變 fold 參數(shù)值來改變評估結(jié)果。默認(rèn)使用精度值（由高到低）來分類 table，同樣可以通過改變 sort 參數(shù)值來改變分類結(jié)果。

模型創(chuàng)建

在 PyCaret 的任何模塊中，創(chuàng)建模型就像編寫 create_model 一樣簡單，它只需要一個(gè)參數(shù)，即作為字符串輸入來傳遞的模型名稱。此函數(shù)返回具有 k 折交叉驗(yàn)證分?jǐn)?shù)和訓(xùn)練好的模型對象的表格。

adaboost = *create_model*('adaboost')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

變量「adaboost」存儲(chǔ)一個(gè)由*create_model*函數(shù)返回的訓(xùn)練模型對象，該對象是 scikit 學(xué)習(xí)估計(jì)器。可以通過在變量后使用標(biāo)點(diǎn)（.）來訪問訓(xùn)練對象的原始屬性。參見下面的示例：

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

訓(xùn)練好的模型對象的屬性。

PyCaret 有 60 多個(gè)開源即用型算法。

模型調(diào)優(yōu)

tune_model 函數(shù)用于自動(dòng)調(diào)優(yōu)機(jī)器學(xué)習(xí)模型的超參數(shù)。PyCaret 在預(yù)定義的搜索空間上使用隨機(jī)網(wǎng)格搜索。此函數(shù)返回具有 k 折交叉驗(yàn)證分?jǐn)?shù)和訓(xùn)練好的模型對象的表格。

tuned_adaboost = tune_model('ada')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

在無監(jiān)督模塊中的 tune_model 函數(shù)，比如 pycaret.nlp,pycaret.clustering 和 pycaret.anomaly 可以和監(jiān)督模塊結(jié)合使用。舉例而言，通過評估監(jiān)督 ML 模型中的目標(biāo)或者損失函數(shù)，PyCaret 的 NLP 模塊可以用來調(diào)整準(zhǔn)確度或 R2 等指標(biāo)的數(shù)值。

模型集成

ensemble_model 函數(shù)用于集成訓(xùn)練好的模型。它只需要一個(gè)參數(shù)，即訓(xùn)練好的模型對象。此函數(shù)返回具有 k 折交叉驗(yàn)證分?jǐn)?shù)和訓(xùn)練好的模型對象的表格。

# creating a decision tree model

dt = *create_model*('dt')# ensembling a trained dt model

dt_bagged = *ensemble_model*(dt)

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

該庫默認(rèn)使用 Bagging 方法用于模型集成，用戶也可使用 ensemble_model 函數(shù)中的 method 參數(shù)將其轉(zhuǎn)換為 Boosting。

PyCaret 還提供了 blend_models 和 stack_models 功能，來集成多個(gè)訓(xùn)練好的模型。

模型繪制

訓(xùn)練好的機(jī)器學(xué)習(xí)模型的性能評估和診斷可以通過 plot_model 函數(shù)來完成，具體而言，將訓(xùn)練模型對象和 plot 類型作為 plot_model 函數(shù)中的字符串輸入（string input）。

# create a model

adaboost = *create_model*('ada')# AUC plot

*plot_model*(adaboost, plot = 'auc')# Decision Boundary

*plot_model*(adaboost, plot = 'boundary')# Precision Recall Curve

*plot_model*(adaboost, plot = 'pr')# Validation Curve

*plot_model*(adaboost, plot = 'vc')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

此外，用戶還可以使用 evaluate_model 函數(shù)在 notebook 的用戶界面上看到可視化圖。

*evaluate_model*(adaboost)

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

pycaret.nlp 模塊中的 plot_model 函數(shù)可用于可視化文本語料庫和語義主題模型。

?模型解釋?

數(shù)據(jù)中的關(guān)系呈非線性是實(shí)踐中常常出現(xiàn)的情況。這時(shí)總會(huì)看到基于樹的模型要比簡單的高斯模型的表現(xiàn)好得多。但這是以犧牲可解釋性為代價(jià)的，因?yàn)榛跇涞哪Ｐ蜔o法像線性模型那樣提供簡單的系數(shù)。

PyCaret 通過 interpret_model 函數(shù)實(shí)現(xiàn)了 SHAP（SHapley Additive exPlanations）。

# create a model

xgboost = *create_model*('xgboost')# summary plot

*interpret_model*(xgboost)# correlation plot

*interpret_model*(xgboost, plot = 'correlation')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

測試數(shù)據(jù)集上特定數(shù)據(jù)點(diǎn)的解釋可以通過『reason』圖來評估。如下圖所示：在測試數(shù)據(jù)集上檢查首個(gè)實(shí)例。

*interpret_model*(xgboost, plot = 'reason', observation = 0)

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

模型預(yù)測

到目前為止，所看到的結(jié)果僅基于訓(xùn)練數(shù)據(jù)集上 k 折交叉驗(yàn)證（默認(rèn) 70%）。所以為了得到模型在測試或者 hold-out 數(shù)據(jù)集上的預(yù)測結(jié)果和性能，用戶可以使用 predict_model 函數(shù)。如下所示：

# create a model

rf = *create_model*('rf')# predict test / hold-out dataset

rf_holdout_pred* = predict_model*(rf)

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

predict_model 函數(shù)還可以用來預(yù)測未見過的數(shù)據(jù)集?，F(xiàn)在，將訓(xùn)練時(shí)所使用的數(shù)據(jù)集用作新的未見過數(shù)據(jù)集的代理（proxy）。在實(shí)踐中，predict_model 函數(shù)會(huì)被迭代地使用，每次使用都會(huì)有一個(gè)新的未見過的數(shù)據(jù)集。

predictions = *predict_model*(rf, data = diabetes)

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

此外，對于使用 stack_models 和 create_stacknet 函數(shù)創(chuàng)建的模型，predict_model 函數(shù)可以預(yù)測它們的序列鏈。不僅如此，借助于 deploy_model 函數(shù)，predict_model 函數(shù)還可以直接基于托管在 AWS S3 上的模型進(jìn)行預(yù)測。

模型部署

我們可以使用以下方法讓訓(xùn)練好的模型在未見過的數(shù)據(jù)集上生成預(yù)測：在訓(xùn)練模型的同一個(gè) notebook 或 IDE 中使用 predict_model 函數(shù)。但是，在未見過的數(shù)據(jù)集上執(zhí)行預(yù)測是一個(gè)迭代的過程。其中，基于用例的不同，預(yù)測可以分為實(shí)時(shí)預(yù)測和批量預(yù)測。

PyCaret 的 deploy_model 函數(shù)允許部署整個(gè) pipeline，包括云端訓(xùn)練的模型。

*deploy_model*(model = rf, model_name = 'rf_aws', platform = 'aws',

authentication = {'bucket' : 'pycaret-test'})

模型/實(shí)驗(yàn)保存

訓(xùn)練完成后，包含所有預(yù)處理轉(zhuǎn)換和訓(xùn)練模型對象在內(nèi)的整個(gè) pipeline 能夠以二進(jìn)制 pickle 文件的格式保存。

# creating model

adaboost = *create_model*('ada')# saving model*

save_model*(adaboost, model_name = 'ada_for_deployment')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

用戶也能夠以二進(jìn)制文件的格式保存整個(gè)實(shí)驗(yàn)，包括所有中間輸出（intermediary output）。

*save_experiment*(experiment_name = 'my_first_experiment')

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

最后，通過 PyCaret 所有模塊中可用的 load_model 和 load_experiment 函數(shù)，用戶還可以下載保存的模型和實(shí)驗(yàn)。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

關(guān)注-關(guān)于組織申報(bào)2023年江蘇省產(chǎn)學(xué)研合作項(xiàng)目的通知（關(guān)于組織申報(bào)2020年江蘇省產(chǎn)學(xué)研合作項(xiàng)目的通知）

上一篇 2024年1月12日上午9:53

全國數(shù)字鄉(xiāng)村創(chuàng)新大賽優(yōu)秀團(tuán)隊(duì)專訪｜伊金霍洛旗大數(shù)據(jù)中心：全面匯聚鄉(xiāng)村數(shù)據(jù)資源整合形成數(shù)據(jù)資產(chǎn)

下一篇 2024年1月12日上午10:09

鄭州crm客戶管理系統(tǒng)項(xiàng)目介紹

鄭州crm客戶管理系統(tǒng)項(xiàng)目介紹隨著數(shù)字化時(shí)代的到來，客戶關(guān)系管理(CRM)系統(tǒng)已經(jīng)成為了企業(yè)必不可少的一項(xiàng)工具。鄭州crm客戶管理系統(tǒng)是一個(gè)綜合性的系統(tǒng)，可以幫助企業(yè)更好地管理客…

投稿用戶
科研百科 2025年1月21日
20
科研百科

項(xiàng)目經(jīng)理怎么選擇供應(yīng)商（項(xiàng)目經(jīng)理怎么選擇供應(yīng)商管理）

背景人生總是要經(jīng)歷一些不一樣的東西，才會(huì)變得更加精彩。領(lǐng)導(dǎo)安排大俠做了一個(gè)和之前涉及的不一樣的集成項(xiàng)目。作為項(xiàng)目的總應(yīng)用系統(tǒng)集成商，大俠仔細(xì)了梳理了一下項(xiàng)目內(nèi)容。項(xiàng)目中有部分功…

投稿用戶
2022年7月28日
4740
科研項(xiàng)目驗(yàn)收專家意見

科研項(xiàng)目驗(yàn)收專家意見科研項(xiàng)目驗(yàn)收是確保項(xiàng)目成果質(zhì)量的重要環(huán)節(jié)，也是項(xiàng)目完成后的重要里程碑。在驗(yàn)收過程中，驗(yàn)收專家需要對項(xiàng)目進(jìn)行深入評估，給出具體的意見和反饋。本文將探討科研項(xiàng)目驗(yàn)…

投稿用戶
科研百科 2024年12月8日
20
書記領(lǐng)航｜新疆昌吉市：讓基層黨建在城市治理中穿針引線（昌吉州黨建）

近年來，新疆維吾爾自治區(qū)昌吉回族自治州昌吉市按照習(xí)近平總書記提出的“城市管理應(yīng)該像繡花一樣精細(xì)”的要求，認(rèn)真貫徹落實(shí)黨的十九大和十九屆四中全會(huì)精神，連續(xù)三年將城市基層黨建示范市建設(shè)…

投稿用戶
科研百科 2024年7月5日
370
國家自然基金信息最近5年結(jié)題

標(biāo)題：國家自然基金資助項(xiàng)目結(jié)項(xiàng)結(jié)果分析近年來，隨著國家科技實(shí)力和創(chuàng)新能力的不斷提升，國家自然基金資助項(xiàng)目也在不斷發(fā)展壯大。在過去的五年中，國家自然基金資助項(xiàng)目結(jié)項(xiàng)工作已經(jīng)順利完成…

投稿用戶
科研百科 2024年10月17日
00
中科院推出新舉措：研究生做科普可計(jì)學(xué)分（研究生科學(xué)學(xué)位是什么意思）

人民網(wǎng)北京12月12日電(趙竹青)近日,中國科學(xué)院印發(fā)了《關(guān)于在我院研究生教育中實(shí)施科普活動(dòng)學(xué)分制的通知》,鼓勵(lì)在校研究生參與科普活動(dòng)。這是全國首次在研究生教育中實(shí)施科普活動(dòng)學(xué)分制…

投稿用戶
科研百科 2024年4月6日
1100
gccp計(jì)價(jià)流程文字說明

GSCP計(jì)價(jià)流程文字說明 GSCP(GNU Project Control Plan)是一種用于管理軟件項(xiàng)目進(jìn)度和質(zhì)量的計(jì)劃。在軟件項(xiàng)目開發(fā)中，GSCP 是一個(gè)重要的工具，可以幫助…

投稿用戶
科研百科 2024年10月15日
260
web管理系統(tǒng)項(xiàng)目代碼下載

Web管理系統(tǒng)項(xiàng)目代碼下載隨著互聯(lián)網(wǎng)的快速發(fā)展，Web管理系統(tǒng)已經(jīng)成為企業(yè)、學(xué)校、政府機(jī)構(gòu)等組織中不可或缺的一部分。一個(gè)現(xiàn)代化的Web管理系統(tǒng)應(yīng)該具備強(qiáng)大的功能、良好的用戶體驗(yàn)以…

投稿用戶
科研百科 2024年12月30日
10
金蝶云星空自定義api

金蝶云星空自定義api: 企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵隨著數(shù)字化時(shí)代的到來，企業(yè)數(shù)字化轉(zhuǎn)型已經(jīng)成為不可避免的趨勢。而金蝶云星空自定義api則是企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵之一。本文將介紹金蝶云星…

投稿用戶
科研百科 2024年10月22日
20
crm的客戶關(guān)系管理

客戶關(guān)系管理(CRM)是一種有效的商業(yè)策略，可以幫助企業(yè)更好地管理與客戶之間的關(guān)系。CRM系統(tǒng)可以跟蹤客戶的訪問歷史，喜好和行為，幫助企業(yè)更好地了解客戶需求并提供個(gè)性化的服務(wù)。在本…

投稿用戶
科研百科 2024年9月15日
20

幾行代碼搞定ML模型，低代碼機(jī)器學(xué)習(xí)Python庫正式開源（m代碼編程）

相關(guān)推薦