這篇文章主要介紹“如何使用PyCaret快速輕松地構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目并為部署準(zhǔn)備最終模型”,在日常操作中,相信很多人在如何使用PyCaret快速輕松地構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目并為部署準(zhǔn)備最終模型問題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”如何使用PyCaret快速輕松地構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目并為部署準(zhǔn)備最終模型”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!
創(chuàng)新互聯(lián)于2013年成立,先為松山等服務(wù)建站,松山等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為松山企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
這正是PyCaret發(fā)揮作用的地方。PyCaret是一個(gè)高級(jí),低代碼的Python庫,它使僅需幾行代碼即可輕松比較,訓(xùn)練,評(píng)估,調(diào)整和部署機(jī)器學(xué)習(xí)模型。從本質(zhì)上講,PyCaret基本上只是許多Scikit-learn,Yellowbrick,SHAP,Optuna和Spacy等數(shù)據(jù)科學(xué)庫的大型包裝。是的,您可以將這些庫用于相同的任務(wù),但是如果您不想編寫大量代碼,PyCaret可以節(jié)省大量時(shí)間。
安裝PyCaret
PyCaret是一個(gè)具有很多依賴項(xiàng)的大型庫。我建議使用Conda為PyCaret創(chuàng)建一個(gè)虛擬環(huán)境,這樣安裝不會(huì)影響您現(xiàn)有的任何庫。要在Conda中創(chuàng)建和激活虛擬環(huán)境,請(qǐng)運(yùn)行以下命令:
conda create --name pycaret_env python=3.6 conda activate pycaret_env
要安裝僅具有所需依賴項(xiàng)的默認(rèn)較小版本的PyCaret,可以運(yùn)行以下命令。
pip install pycaret
要安裝完整版本的PyCaret,您應(yīng)該運(yùn)行以下命令。
pip install pycaret[full]
一旦安裝了PyCaret,請(qǐng)停用虛擬環(huán)境,然后使用以下命令將其添加到Jupyter。
conda deactivate python -m ipykernel install --user --name pycaret_env --display-name "pycaret_env"
現(xiàn)在,在瀏覽器中啟動(dòng)Jupyter Notebook之后,您應(yīng)該能夠看到將環(huán)境更改為剛創(chuàng)建的選項(xiàng)的選項(xiàng)。
> Changing the Conda virtual environment in Jupyter.
導(dǎo)入庫
您可以在此GitHub存儲(chǔ)庫中找到本文的完整代碼。在下面的代碼中,我僅導(dǎo)入了Numpy和Pandas來處理此演示的數(shù)據(jù)。
import numpy as np import pandas as pd
讀取數(shù)據(jù)
對(duì)于此示例,我使用了Kaggle上可用的“加利福尼亞住房?jī)r(jià)格”數(shù)據(jù)集。在下面的代碼中,我將此數(shù)據(jù)集讀入一個(gè)數(shù)據(jù)框,并顯示了該數(shù)據(jù)框的前十行。
housing_data = pd.read_csv('./data/housing.csv')housing_data.head(10)
> First ten rows of the housing dataset.
上面的輸出使我們對(duì)數(shù)據(jù)的外觀有所了解。數(shù)據(jù)主要包含數(shù)字特征和一個(gè)分類特征,用于每個(gè)房屋與海洋的接近度。我們?cè)噲D預(yù)測(cè)的目標(biāo)列是“ median_house_value”列。整個(gè)數(shù)據(jù)集總共包含20,640個(gè)觀測(cè)值。
初始化實(shí)驗(yàn)
現(xiàn)在我們有了數(shù)據(jù),我們可以初始化一個(gè)PyCaret實(shí)驗(yàn),該實(shí)驗(yàn)將對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并為將在此數(shù)據(jù)集上訓(xùn)練的所有模型啟用日志記錄。
from pycaret.regression import * reg_experiment = setup(housing_data, target = 'median_house_value', session_id=123, log_experiment=True, experiment_name='ca_housing')
如下面的GIF中所示,運(yùn)行上面的代碼會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后生成帶有實(shí)驗(yàn)選項(xiàng)的數(shù)據(jù)框。
> Pycaret setup function output.
比較基準(zhǔn)模型
我們可以立即比較不同的基線模型,以找到具有使用compare_models函數(shù)的最佳K折交叉驗(yàn)證性能的模型,如下面的代碼所示。在下面的示例中,出于演示目的,我已將XGBoost排除在外。
best_model = compare_models(exclude=['xgboost'], fold=5)
> Results of comparing different models.
該函數(shù)將生成一個(gè)數(shù)據(jù)框,其中包含每個(gè)模型的性能統(tǒng)計(jì)信息,并突出顯示性能最佳的模型的指標(biāo),在本例中為CatBoost回歸器。
建立模型
我們還可以使用PyCaret在單行代碼中訓(xùn)練模型。create_model函數(shù)僅需要一個(gè)與您要訓(xùn)練的模型類型相對(duì)應(yīng)的字符串。您可以在PyCaret文檔頁面上找到此功能的可接受字符串的完整列表以及相應(yīng)的回歸模型。
catboost = create_model('catboost')
create_model函數(shù)使用訓(xùn)練后的CatBoost模型的交叉驗(yàn)證指標(biāo)來生成上面的數(shù)據(jù)框。
超參數(shù)調(diào)整
現(xiàn)在我們有了訓(xùn)練有素的模型,我們可以通過超參數(shù)調(diào)整進(jìn)一步優(yōu)化它。只需一行代碼,我們就可以調(diào)整該模型的超參數(shù),如下所示。
tuned_catboost = tune_model(catboost, n_iter=50, optimize = 'MAE')
> Results of hyperparameter tuning with 10-fold cross-validation.
最重要的結(jié)果(在這種情況下為平均指標(biāo))以黃色突出顯示。
可視化模型的性能
我們可以使用PyCaret創(chuàng)建許多圖表,以可視化模型的性能。PyCaret使用另一個(gè)稱為Yellowbrick的高級(jí)庫來構(gòu)建這些可視化文件。
殘留圖
默認(rèn)情況下,plot_model函數(shù)將為回歸模型生成殘差圖,如下所示。
plot_model(tuned_catboost)
> Residual plot for the tuned CatBoost model.
預(yù)測(cè)誤差
通過創(chuàng)建預(yù)測(cè)誤差圖,我們還可以將預(yù)測(cè)值相對(duì)于實(shí)際目標(biāo)值可視化。
plot_model(tuned_catboost, plot = 'error')
> Prediction error plot for the tuned CatBoost regressor.
上面的圖特別有用,因?yàn)樗鼮槲覀兲峁┝薈atBoost模型的R²系數(shù)的直觀表示。在理想情況下(R²= 1),當(dāng)預(yù)測(cè)值與實(shí)際目標(biāo)值完全匹配時(shí),此圖將僅包含沿虛線的點(diǎn)。
功能重要性
我們還可以可視化模型的功能重要性,如下所示。
plot_model(tuned_catboost, plot = 'feature')
> Feature importance plot for the CatBoost regressor.
從上面的圖可以看出,在預(yù)測(cè)房屋價(jià)格時(shí),位數(shù)中位數(shù)是最重要的特征。由于此特征對(duì)應(yīng)于房屋建造區(qū)域的中位數(shù)收入,因此此評(píng)估非常合理。在高收入地區(qū)建造的房屋可能比低收入地區(qū)的房屋貴。
使用所有圖評(píng)估模型
我們還可以創(chuàng)建多個(gè)圖,以使用validate_model函數(shù)評(píng)估模型。
evaluate_model(tuned_catboost)
> The interface created using the evaluate_model function.
解釋模型
interpret_model函數(shù)是用于解釋模型預(yù)測(cè)的有用工具。此函數(shù)使用一個(gè)稱為SHAP的可解釋機(jī)器學(xué)習(xí)庫,我在下面的文章中介紹了該庫。
僅需一行代碼,我們就可以為模型創(chuàng)建一個(gè)SHAPE蜂群圖。
interpret_model(tuned_catboost)
> SHAP plot produced by calling the interpret_model function.
根據(jù)上面的圖,我們可以看到中位數(shù)收入字段對(duì)預(yù)測(cè)房屋價(jià)值的影響最大。
自動(dòng)機(jī)器學(xué)習(xí)
PyCaret還具有運(yùn)行自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的功能。我們可以指定我們要優(yōu)化的損失函數(shù)或度量,然后讓庫接管如下所示。
automlautoml_model = automl(optimize = 'MAE')
在此示例中,AutoML模型也恰好是CatBoost回歸變量,我們可以通過打印出該模型進(jìn)行確認(rèn)。
print(automl_model)
運(yùn)行上面的print語句將產(chǎn)生以下輸出:
<catboost.core.CatBoostRegressor at 0x7f9f05f4aad0>
產(chǎn)生預(yù)測(cè)
預(yù)報(bào)模型功能允許我們通過使用來自實(shí)驗(yàn)的數(shù)據(jù)或新的看不見的數(shù)據(jù)來生成預(yù)測(cè)。
pred_holdouts = predict_model(automl_model) pred_holdouts.head()
上面的predict_model函數(shù)為交叉驗(yàn)證期間用于驗(yàn)證模型的保持?jǐn)?shù)據(jù)集生成預(yù)測(cè)。該代碼還為我們提供了一個(gè)數(shù)據(jù)框,其中包含針對(duì)AutoML模型生成的預(yù)測(cè)的性能統(tǒng)計(jì)信息。
> Predictions generated by the AutoML model.
在上面的輸出中,“標(biāo)簽”列表示由AutoML模型生成的預(yù)測(cè)。我們還可以對(duì)整個(gè)數(shù)據(jù)集進(jìn)行預(yù)測(cè),如下面的代碼所示。
new_data = housing_data.copy() new_data.drop(['median_house_value'], axis=1, inplace=True) predictions = predict_model(automl_model, data=new_data) predictions.head()
保存模型
PyCaret還允許我們使用save_model函數(shù)保存經(jīng)過訓(xùn)練的模型。此功能將模型的轉(zhuǎn)換管道保存到pickle文件中。
save_model(automl_model, model_name='automl-model')
我們還可以使用load_model函數(shù)加載保存的AutoML模型。
loaded_model = load_model('automl-model') print(loaded_model)
打印出加載的模型將產(chǎn)生以下輸出:
Pipeline(memory=None, steps=[('dtypes', DataTypes_Auto_infer(categorical_features=[], display_types=True, features_todrop=[], id_columns=[], ml_usecase='regression', numerical_features=[], target='median_house_value', time_features=[])), ('imputer', Simple_Imputer(categorical_strategy='not_available', fill_value_categorical=None, fill_value_numerical=None, numer... ('cluster_all', 'passthrough'), ('dummy', Dummify(target='median_house_value')), ('fix_perfect', Remove_100(target='median_house_value')), ('clean_names', Clean_Colum_Names()), ('feature_select', 'passthrough'), ('fix_multi', 'passthrough'), ('dfs', 'passthrough'), ('pca', 'passthrough'), ['trained_model', <catboost.core.CatBoostRegressor object at 0x7fb750a0aad0>]], verbose=False)
從上面的輸出中可以看到,PyCaret不僅在流水線的末尾保存了經(jīng)過訓(xùn)練的模型,還在流水線的開始處保存了特征工程和數(shù)據(jù)預(yù)處理步驟。現(xiàn)在,我們?cè)谝粋€(gè)文件中有一個(gè)可用于生產(chǎn)的機(jī)器學(xué)習(xí)管道,我們不必?fù)?dān)心將管道的各個(gè)部分放在一起。
模型部署
現(xiàn)在我們已經(jīng)準(zhǔn)備好可以生產(chǎn)的模型管道,我們還可以使用deploy_model函數(shù)將模型部署到諸如AWS的云平臺(tái)。如果打算將模型部署到S3存儲(chǔ)桶,則在運(yùn)行此功能之前,必須運(yùn)行以下命令來配置AWS命令行界面:
aws configure
運(yùn)行上面的代碼將觸發(fā)一系列提示,提示您需要提供諸如AWS Secret Access Key之類的信息。完成此過程后,就可以使用deploy_model函數(shù)部署模型了。
deploy_model(automl_model, model_name = 'automl-model-aws', platform='aws', authentication = {'bucket' : 'pycaret-ca-housing-model'})
在上面的代碼中,我將AutoML模型部署到了AWS中名為pycaret-ca-housing-model的S3存儲(chǔ)桶中。從這里,您可以編寫一個(gè)AWS Lambda函數(shù),該函數(shù)從S3中提取模型并在云中運(yùn)行。PyCaret還允許您使用load_model函數(shù)從S3加載模型。
MLflow用戶界面
PyCaret的另一個(gè)不錯(cuò)的功能是,它可以使用稱為MLfLow的機(jī)器學(xué)習(xí)生命周期工具來記錄和跟蹤您的機(jī)器學(xué)習(xí)實(shí)驗(yàn)。運(yùn)行以下命令將從本地主機(jī)在瀏覽器中啟動(dòng)MLflow用戶界面。
!mlflow ui
> MLFlow dashboard.
在上面的儀表板中,我們可以看到MLflow可以跟蹤您的PyCaret實(shí)驗(yàn)的不同模型的運(yùn)行情況。您可以查看性能指標(biāo)以及實(shí)驗(yàn)中每次運(yùn)行的運(yùn)行時(shí)間。
使用PyCaret的利與弊
如果您已經(jīng)閱讀了此書,則現(xiàn)在對(duì)如何使用PyCaret有了基本的了解。雖然PyCaret是一個(gè)很棒的工具,但它有其自身的優(yōu)缺點(diǎn),如果您打算將其用于數(shù)據(jù)科學(xué)項(xiàng)目,則應(yīng)注意這一點(diǎn)。
優(yōu)點(diǎn):
低代碼庫。
非常適合簡(jiǎn)單的標(biāo)準(zhǔn)任務(wù)和通用機(jī)器學(xué)習(xí)。
為回歸,分類,自然語言處理,聚類,異常檢測(cè)和關(guān)聯(lián)規(guī)則挖掘提供支持。
使創(chuàng)建和保存模型的復(fù)雜轉(zhuǎn)換管道變得容易。
使可視化模型性能變得容易。
缺點(diǎn):
到目前為止,由于NLP實(shí)用程序僅限于主題建模算法,因此PyCaret對(duì)于文本分類而言并不理想。
PyCaret不是深度學(xué)習(xí)的理想選擇,并且不使用Keras或PyTorch模型。
您無法執(zhí)行更復(fù)雜的機(jī)器學(xué)習(xí)任務(wù),例如使用PyCaret(至少在版本2.2.0中)進(jìn)行圖像分類和文本生成。
通過使用PyCaret,您將在某種程度上犧牲對(duì)簡(jiǎn)單和高級(jí)代碼的控制。
到此,關(guān)于“如何使用PyCaret快速輕松地構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目并為部署準(zhǔn)備最終模型”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!
當(dāng)前標(biāo)題:如何使用PyCaret快速輕松地構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目并為部署準(zhǔn)備最終模型
本文網(wǎng)址:http://aaarwkj.com/article48/igiiep.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)