小編給大家分享一下DM集成學(xué)習(xí)的示例分析,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
創(chuàng)新互聯(lián)建站是一家專(zhuān)業(yè)提供亞?wèn)|企業(yè)網(wǎng)站建設(shè),專(zhuān)注與網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè)、H5頁(yè)面制作、小程序制作等業(yè)務(wù)。10年已為亞?wèn)|眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專(zhuān)業(yè)的建站公司優(yōu)惠進(jìn)行中。
在解決分類(lèi)問(wèn)題時(shí),假如分類(lèi)模型不夠強(qiáng)大,對(duì)樣本的分類(lèi)結(jié)果就不會(huì)很理想。這時(shí)如果我們多找一些分類(lèi)模型,讓它們一起做決策,模型強(qiáng)度會(huì)不會(huì)高一點(diǎn)呢?
集成學(xué)習(xí)就是把多種分類(lèi)器按策略組合起來(lái),并根據(jù)所有分類(lèi)器的分類(lèi)結(jié)果做出最后的判斷。
如下圖,三種分類(lèi)器的分類(lèi)結(jié)果都有一點(diǎn)點(diǎn)錯(cuò)誤,如果把三類(lèi)組合在一起就可以完美地把所有形狀都區(qū)分開(kāi),而且分割曲線也較為平滑。
集成學(xué)習(xí)屬于監(jiān)督學(xué)習(xí)中的分類(lèi)問(wèn)題,分為boosting和bagging兩大類(lèi)。
一、Bagging
如何得到不同的分類(lèi)器呢?我們可以調(diào)整同一訓(xùn)練模型的不同參數(shù),或者使用不同的訓(xùn)練樣本訓(xùn)練不同的模型。
有放回的采樣(Bootstrap Samples):
每次拿出一個(gè)小球,記錄之后放回。這樣既保留了數(shù)據(jù)規(guī)律,又得到了不同的訓(xùn)練樣本。
Bagging算法框架如下圖:
根據(jù)有放回采樣(選出F%的樣本)訓(xùn)練出T個(gè)分類(lèi)器,分別對(duì)測(cè)試樣本進(jìn)行分類(lèi),然后投票決定測(cè)試樣本到底屬于哪類(lèi)。
少數(shù)服從多數(shù),所有分類(lèi)器的地位完全等同。
二、基于決策樹(shù)的Bagging:RandomForests,RF
n個(gè)樣本,有放回的取出n個(gè)樣本,取n次。當(dāng)n趨近于無(wú)窮的時(shí)候,大概有2/3的樣本被選過(guò)。
剩下的1/3(out of bag,OOB)正好可以去做測(cè)試。
隨機(jī)森林:
樹(shù)的數(shù)量為500較為合適(滿(mǎn)足要求即可)。為了生成不同的樹(shù),首先對(duì)樣本用有放回的采樣隨機(jī)選取出樣本,使用不同的屬性對(duì)樹(shù)進(jìn)行分層。
樣本屬性數(shù)量,我們隨機(jī)選取個(gè)屬性對(duì)樹(shù)進(jìn)行劃分。這樣可以有效加快樹(shù)的建立過(guò)程。
三、Boosting
Boosting中分類(lèi)器的生成過(guò)程并不是平行的,下一個(gè)分類(lèi)器的生成是根據(jù)上一個(gè)分類(lèi)器中分類(lèi)對(duì)錯(cuò)情況來(lái)決定的。
而且在boosting中又增加了一個(gè)分類(lèi)器,把所有子分類(lèi)器的輸出當(dāng)作該判別器的輸入,而且對(duì)每條輸入都設(shè)置了權(quán)重。分類(lèi)器對(duì)權(quán)重進(jìn)行訓(xùn)練、學(xué)習(xí)后得到分類(lèi)結(jié)果。
Boosting框架如下圖所示:
Boosting偽代碼:
四、Adaboost
Adaboost算法是boosting中的一個(gè)門(mén)類(lèi),算法思想與boosting一致。可以證明,adaboost的誤差上界會(huì)隨著訓(xùn)練的進(jìn)行而越來(lái)越小。
Adaboost算法框架如下:
D1(i)表示每個(gè)樣本的權(quán)重,如果某些樣本之前被分錯(cuò)了,它們的Dt+1(i)就會(huì)增大,之后分類(lèi)器對(duì)這些樣本劃分時(shí)就會(huì)越關(guān)注。
表示樣本訓(xùn)練誤差。由生成,同時(shí)也表示每個(gè)分類(lèi)器的權(quán)重。
Adaboost算法中的參數(shù)設(shè)置很少,訓(xùn)練過(guò)程幾乎全靠數(shù)據(jù)驅(qū)動(dòng)。而且隨著迭代代數(shù)的增加,訓(xùn)練并不會(huì)出現(xiàn)過(guò)擬合的情況。
但因?yàn)樽罱K的分類(lèi)結(jié)果由50(或更多)個(gè)分類(lèi)模型組合得到,所以分類(lèi)依據(jù)的可解釋性并不好。
如下圖為adaboost算法在matlab中的實(shí)現(xiàn)。將50個(gè)簡(jiǎn)單的線性分類(lèi)器組合起來(lái),就能形成一條相對(duì)復(fù)雜的分割界面。
以上是“DM集成學(xué)習(xí)的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
文章題目:DM集成學(xué)習(xí)的示例分析
網(wǎng)頁(yè)URL:http://aaarwkj.com/article38/peijpp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、建站公司、網(wǎng)站營(yíng)銷(xiāo)、電子商務(wù)、自適應(yīng)網(wǎng)站、網(wǎng)站內(nèi)鏈
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)