怎么使用CatBoost進行快速梯度提升

本篇文章給大家分享的是有關(guān)怎么使用CatBoost進行快速梯度提升，小編覺得挺實用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

成都創(chuàng)新互聯(lián)公司主要從事網(wǎng)站建設(shè)、成都做網(wǎng)站、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)城口,十余年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):13518219792

我們將仔細研究一個名為CatBoost的梯度增強庫。

在梯度提升中，預(yù)測是由一群弱學(xué)習(xí)者做出的。與為每個樣本創(chuàng)建決策樹的隨機森林不同，在梯度增強中，樹是一個接一個地創(chuàng)建的。模型中的先前樹不會更改。前一棵樹的結(jié)果用于改進下一棵樹。在本文中，我們將仔細研究一個名為CatBoost的梯度增強庫。

CatBoost 是Yandex開發(fā)的深度方向梯度增強庫。它使用遺忘的決策樹來生成平衡樹。相同的功能用于對樹的每個級別進行左右拆分。

（CatBoost官方鏈接：https://github.com/catboost）

怎么使用CatBoost進行快速梯度提升

與經(jīng)典樹相比，遺忘樹在CPU上實現(xiàn)效率更高，并且易于安裝。

處理分類特征

在機器學(xué)習(xí)中處理分類的常見方法是單熱編碼和標簽編碼。CatBoost允許您使用分類功能，而無需對其進行預(yù)處理。

使用CatBoost時，我們不應(yīng)該使用一鍵編碼，因為這會影響訓(xùn)練速度以及預(yù)測質(zhì)量。相反，我們只需要使用cat_features 參數(shù)指定分類特征即可。

使用CatBoost的優(yōu)點

以下是考慮使用CatBoost的一些原因：

CatBoost允許在多個GPU上訓(xùn)練數(shù)據(jù)。
使用默認參數(shù)可以提供很好的結(jié)果，從而減少了參數(shù)調(diào)整所需的時間。
由于減少了過度擬合，因此提高了精度。
使用CatBoost的模型應(yīng)用程序進行快速預(yù)測。
經(jīng)過訓(xùn)練的CatBoost模型可以導(dǎo)出到Core ML進行設(shè)備上推理（iOS）。
可以在內(nèi)部處理缺失值。
可用于回歸和分類問題。

訓(xùn)練參數(shù)

讓我們看一下CatBoost中的常用參數(shù)：

loss_function 別名為 objective -用于訓(xùn)練的指標。這些是回歸指標，例如用于回歸的均方根誤差和用于分類的對數(shù)損失。
eval_metric —用于檢測過度擬合的度量。
iterations -待建的樹的最大數(shù)量，默認為1000。別名是 num_boost_round， n_estimators和 num_trees。
learning_rate 別名 eta -學(xué)習(xí)速率，確定模型將學(xué)習(xí)多快或多慢。默認值通常為0.03。
random_seed 別名 random_state —用于訓(xùn)練的隨機種子。
l2_leaf_reg 別名 reg_lambda —成本函數(shù)的L2正則化項的系數(shù)。默認值為3.0。
bootstrap_type —確定對象權(quán)重的采樣方法，例如貝葉斯，貝努利，MVS和泊松。
depth —樹的深度。
grow_policy —確定如何應(yīng)用貪婪搜索算法。它可以是 SymmetricTree， Depthwise或 Lossguide。 SymmetricTree 是默認值。在中 SymmetricTree，逐級構(gòu)建樹，直到達到深度為止。在每個步驟中，以相同條件分割前一棵樹的葉子。當 Depthwise 被選擇，一棵樹是內(nèi)置一步步驟，直到指定的深度實現(xiàn)。在每個步驟中，將最后一棵樹級別的所有非終端葉子分開。使用導(dǎo)致最佳損失改善的條件來分裂葉子。在中 Lossguide，逐葉構(gòu)建樹，直到達到指定的葉數(shù)。在每個步驟中，將損耗改善最佳的非終端葉子進行拆分
min_data_in_leaf 別名 min_child_samples —這是一片葉子中訓(xùn)練樣本的最小數(shù)量。此參數(shù)僅與 Lossguide 和 Depthwise 增長策略一起使用。
max_leaves alias num_leaves —此參數(shù)僅與Lossguide 策略一起使用，并確定樹中的葉子數(shù)。
ignored_features —表示在培訓(xùn)過程中應(yīng)忽略的功能。
nan_mode —處理缺失值的方法。選項包括 Forbidden， Min，和 Max。默認值為 Min。當 Forbidden 使用時，缺失值導(dǎo)致錯誤的存在。使用 Min，缺少的值將作為該功能的最小值。在中 Max，缺失值被視為特征的最大值。
leaf_estimation_method —用于計算葉子中值的方法。在分類中，使用10 Newton 次迭代。使用分位數(shù)或MAE損失的回歸問題使用一次 Exact 迭代。多分類使用一次 Netwon 迭代。
leaf_estimation_backtracking —在梯度下降過程中使用的回溯類型。默認值為 AnyImprovement。 AnyImprovement 減小下降步長，直至損失函數(shù)值小于上次迭代的值。 Armijo 減小下降步長，直到滿足 Armijo條件。
boosting_type —加強計劃。它可以plain 用于經(jīng)典的梯度增強方案，也可以用于或 ordered，它在較小的數(shù)據(jù)集上可以提供更好的質(zhì)量。
score_function — 分數(shù)類型，用于在樹構(gòu)建過程中選擇下一個拆分。 Cosine 是默認選項。其他可用的選項是 L2， NewtonL2和 NewtonCosine。
early_stopping_rounds —當時 True，將過擬合檢測器類型設(shè)置為， Iter 并在達到最佳度量時停止訓(xùn)練。
classes_count —多重分類問題的類別數(shù)。
task_type —使用的是CPU還是GPU。CPU是默認設(shè)置。
devices —用于訓(xùn)練的GPU設(shè)備的ID。
cat_features —具有分類列的數(shù)組。
text_features -用于在分類問題中聲明文本列。

回歸示例

CatBoost在其實施中使用scikit-learn標準。讓我們看看如何將其用于回歸。

與往常一樣，第一步是導(dǎo)入回歸器并將其實例化。

怎么使用CatBoost進行快速梯度提升

擬合模型時，CatBoost還可以通過設(shè)置來使用戶可視化 plot=true：

怎么使用CatBoost進行快速梯度提升

它還允許您執(zhí)行交叉驗證并使過程可視化：

怎么使用CatBoost進行快速梯度提升

同樣，您也可以執(zhí)行網(wǎng)格搜索并將其可視化：

怎么使用CatBoost進行快速梯度提升

以上就是怎么使用CatBoost進行快速梯度提升，小編相信有部分知識點可能是我們?nèi)粘９ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

網(wǎng)站題目：怎么使用CatBoost進行快速梯度提升
文章URL：http://aaarwkj.com/article10/jjhpgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站維護、虛擬主機、軟件開發(fā)、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、Google

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

怎么使用CatBoost進行快速梯度提升

處理分類特征

使用CatBoost的優(yōu)點

訓(xùn)練參數(shù)

回歸示例