大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型（下）

接著上篇大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)文章，接下來(lái)我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。

創(chuàng)新互聯(lián)于2013年創(chuàng)立，先為索縣等服務(wù)建站，索縣等地企業(yè)，進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為索縣企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

4、樸素貝葉斯模型

表查詢模型簡(jiǎn)單有效，但是存在一個(gè)問(wèn)題。隨著輸入數(shù)量的額增加，每個(gè)單元格中訓(xùn)練樣本的數(shù)量會(huì)迅速減少。如果維度為2，且每一維有10個(gè)不同的變量，那么就需要100個(gè)單元格，而當(dāng)有3個(gè)維度時(shí)，就需要1000個(gè)單元格，4個(gè)維度就是10000.這樣成指數(shù)級(jí)的增長(zhǎng)，哪怕的傳統(tǒng)數(shù)據(jù)挖掘中都會(huì)遇到明顯瓶頸。

當(dāng)試圖預(yù)測(cè)某一個(gè)概率值時(shí)，樸素貝葉斯模型就提供這一辦法?；舅枷耄好總€(gè)輸入變量本身就包含一些預(yù)測(cè)需要的信息。比如目標(biāo)變量是取消業(yè)務(wù)的概率，解釋變量是市場(chǎng)、獲取渠道、初始信用評(píng)分、利率計(jì)劃、電話號(hào)碼類型、手機(jī)號(hào)以及客戶年齡。這些變量都具有預(yù)測(cè)能力。根據(jù)取消率的顯著差異性，可將每個(gè)變量劃分在不同的范圍中。

簡(jiǎn)單理解：條件概率是指給定B的條件下A的概率以及給定A的條件下B的概率。

解釋：給定B的條件下A發(fā)生的概率，等于給定A的條件下B發(fā)生的概率乘以A和B發(fā)生的概率的比例。

如果A代表停止續(xù)簽，B代表使用黑莓手機(jī)，然后給定使用黑莓手機(jī)的條件下停止續(xù)簽的概率，就是給定停止續(xù)簽的條件下使用黑莓手機(jī)的概率乘以總體停止續(xù)簽的概率與總體使用黑莓手機(jī)的概率之比。

4.1、概率、幾率和釋然

·概率：0到1之間的一個(gè)數(shù)字，表示一個(gè)特定結(jié)果發(fā)生的可能性。一種估計(jì)結(jié)果概率的方法是計(jì)算樣本數(shù)據(jù)中出現(xiàn)結(jié)果次數(shù)的百分比。

·幾率：某一特定結(jié)果發(fā)生于不發(fā)生的概率比。如果一個(gè)事件發(fā)生的概率是0.2，那么不發(fā)生的概率是0.8。那么其發(fā)生的幾率就是1/4。幾率的取值是0到無(wú)窮。

·似然：兩個(gè)相關(guān)的條件概率比。即給定B發(fā)生的情況下，某一特定結(jié)果A發(fā)生的概率和給定B不發(fā)生的情況下A發(fā)生的概率之比。

4.2、樸素貝葉斯計(jì)算

對(duì)任意數(shù)量屬性中的每一個(gè)屬性，樸素貝葉斯公式都將目標(biāo)事件的幾率與該事件的似然聯(lián)系起來(lái)?；氐交跔I(yíng)銷市場(chǎng)、渠道獲取、最初信用評(píng)分、費(fèi)率計(jì)算、電話號(hào)碼類型、手機(jī)型號(hào)以及客戶年齡來(lái)預(yù)測(cè)客戶流失的例子。例如上面談到的黑莓手機(jī)續(xù)簽的案例，我們關(guān)注的是。1、停止續(xù)簽的總體幾率。2、黑莓手機(jī)用戶停止的似然。3、在整個(gè)州市場(chǎng)停止續(xù)簽的似然。

之所以定義為“樸素”，是基于所有似然相乘都基于輸入變量相互獨(dú)立的假設(shè)。在這個(gè)案例中，假設(shè)的是使用黑莓手機(jī)的似然與市場(chǎng)獨(dú)立(并且存在于該州的似然與手機(jī)類型獨(dú)立)。而在實(shí)際中，這種真正相互獨(dú)立的情況很少見(jiàn)。

樸素貝葉斯模型最吸引人的點(diǎn)：對(duì)于待評(píng)分的觀測(cè)，如果缺失某些輸入值，可以簡(jiǎn)單地將缺失的似然從模型中去掉。意味著，包含那些并不是對(duì)所有有用都可用的輸入(用戶年齡)，但如果知道這些變量，它們就有用。給定不同輸入的概率，且這些輸入與停止續(xù)簽相關(guān)，樸素貝葉斯公式就可以計(jì)算停止續(xù)簽的幾率，而公司對(duì)這種停止續(xù)簽的用戶更感興趣。

4.3、樸素與表查詢模型的比較

對(duì)于概率型目標(biāo)來(lái)說(shuō)，樸素貝葉斯模型和表查詢模型密切相關(guān)。兩者之間的主要區(qū)別就在于如何使用維度。在表查詢模型中，使用所有維度依次定義單元格，然后計(jì)算每一個(gè)單元格的目標(biāo)概率。因此，表查詢模型可以獲取變量之間的相互作用。在樸素中，需要為每一個(gè)維度單獨(dú)計(jì)算似然，之后組合這些似然，從而計(jì)算出目標(biāo)概率。似然的組合有一個(gè)假設(shè)：各維度關(guān)于目標(biāo)彼此獨(dú)立。表查詢沒(méi)有說(shuō)明這樣一類屬性的組合關(guān)系，即由于在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率很低，導(dǎo)致這些概率很低的屬性就不會(huì)出現(xiàn)。

在樸素模型中可以預(yù)測(cè)任何從未出現(xiàn)過(guò)的組合，但要這樣做，就必須假設(shè)這些輸入所造成的影響彼此獨(dú)立。表查詢模型沒(méi)有這樣的假設(shè)，所以當(dāng)數(shù)據(jù)多到可以支持一個(gè)可信的估計(jì)模型時(shí)，表查詢模型也許會(huì)做的更好。

5、線性回歸

回歸模型也是一種預(yù)測(cè)建模技術(shù)。在Excel中就可以使用線性回歸?；貧w模型也很復(fù)雜，這里談到——最佳擬合曲線。輸入變量和目標(biāo)變量必須都是數(shù)值變量，回歸方程描述了兩者之間的一種算術(shù)關(guān)系。“最佳的”關(guān)系是指大限度地減少了從數(shù)據(jù)點(diǎn)到擬合曲線的垂直距離的平方和。

5.1最佳擬合曲線

如下圖，顯示了一個(gè)知名博主發(fā)表的一篇文章日瀏覽率隨著時(shí)間和被關(guān)注度之間的關(guān)系。圖中使用描點(diǎn)的符號(hào)是空心圓，它有助于清楚的顯示各點(diǎn)之間的聚集情況。例如，在較短時(shí)間內(nèi)用戶的關(guān)注度分布非常密集。當(dāng)使用不同的顏色比較不同的客戶組時(shí)，這種散點(diǎn)圖尤其有用。

隨著時(shí)間的增加，博客的日訪問(wèn)量會(huì)越來(lái)越低，最后維持到一個(gè)水平。畫出來(lái)的曲線更像是一個(gè)雙曲線。根據(jù)X軸，時(shí)間的遞增。Y軸，日訪問(wèn)量的增加。我們可以模擬出這個(gè)博主的訪問(wèn)量隨時(shí)間變化的曲線。如果在保證博客質(zhì)量的同時(shí)，我們就可以預(yù)測(cè)博主的一篇博客的訪問(wèn)量大致在什么范圍?？赡苓@里有很多的誤差或不精確的地方。但是通過(guò)擬合曲線，我們更能從直觀上看到，曲線的走勢(shì)。如果曲線更精確的化，我們甚至可以模擬出曲線的函數(shù)表達(dá)式。

如果用作數(shù)據(jù)點(diǎn)的標(biāo)記并沒(méi)有完全擬合，散點(diǎn)圖可以傳遞出更多的信息。最佳擬合曲線的性質(zhì)：在所有可能的曲線中，最佳擬合曲線指的是從觀察點(diǎn)到曲線垂直距離的平方最下的那條曲線，散點(diǎn)圖顯示了每個(gè)點(diǎn)到曲線之間的距離。

最佳擬合曲線的定義就是最小二乘法的定義。歐式距離公式對(duì)該值進(jìn)行了開(kāi)方，在沒(méi)有計(jì)算機(jī)的年代，計(jì)算歐式距離非常困難。當(dāng)時(shí)，高斯提出這一觀點(diǎn)，就是利用計(jì)算平方和，代替計(jì)算距離之和。這樣做的目的，就使最佳擬合曲線系數(shù)很容易計(jì)算。

這里談到的是線性回歸，其實(shí)回歸模型是一個(gè)直線方程，這里只是來(lái)描述一個(gè)擬合曲線，其實(shí)算不上一個(gè)回歸曲線。在現(xiàn)實(shí)之中，更多線性回歸的模型很少見(jiàn)，更多的是曲線擬合。

5.2擬合的優(yōu)點(diǎn)

對(duì)于一個(gè)給定的數(shù)據(jù)集，總是可以找到一條最佳的擬合曲線。但是，存在很多條曲線，哪條才是最佳的。這里引入“殘差”，就是度量預(yù)測(cè)值與實(shí)際值之差。還有一個(gè)標(biāo)準(zhǔn)方法，成為，用來(lái)衡量描述曲線對(duì)觀測(cè)數(shù)據(jù)的擬合程度。

(1)殘差

如圖，身高與體重模型的殘差。

一個(gè)無(wú)偏模型在丟失高值點(diǎn)方面應(yīng)與丟失低值點(diǎn)類似。在殘差圖中，最重要的一點(diǎn)就是，這些值是位于擬合曲線之上的可能性與之下的可能性是否一樣。從圖中我們也可以看到在曲線上與在曲線下的樣本點(diǎn)是不一樣的。

一個(gè)良好的模型所產(chǎn)生的估計(jì)值應(yīng)該接近真實(shí)值，所以殘差應(yīng)該集中于曲線軸附近。如圖中也是可以看到拋離曲線的一些孤立點(diǎn)。這些點(diǎn)出現(xiàn)的原因，可能是由于一些人為記錄的原因造成的。

在統(tǒng)計(jì)學(xué)中，殘差在回歸方程中要考慮誤差項(xiàng)。最佳擬合曲線的方程是：

Y=aX+b

但該曲線，不是完整的模型。統(tǒng)計(jì)人員會(huì)將模型方程表示為：ε代表誤差項(xiàng)，因?yàn)閄并不能完美的展示Y。誤差項(xiàng)表示模型無(wú)法解釋的Y的部分。

Y=aX +b+ε

(2)R(R這里代表是R的平方)

對(duì)于最佳擬合曲線，R的取值始終在0~1之間。當(dāng)該值接近1時(shí)，說(shuō)明該曲線在捕獲輸入和目標(biāo)之間的關(guān)系方面表現(xiàn)很好。若接近于0，則說(shuō)明最佳擬合曲線的表現(xiàn)很差。在0~1的范圍內(nèi)，值越大表明兩者之間存在很強(qiáng)的關(guān)系，越下其關(guān)系越下。

相比于隨機(jī)猜測(cè)的平均值，模型的估計(jì)值有多好。定義簡(jiǎn)單，但計(jì)算起來(lái)復(fù)雜。R要比較最佳擬合曲線與y平均值的水平線。1減去兩個(gè)誤差的比值可以計(jì)算出R。分子式最佳擬合曲線殘差的平方和。分母是水平線的殘差平方和。R度量了最佳擬合曲線優(yōu)于均值作為估計(jì)的程度。

R度量了數(shù)據(jù)的穩(wěn)定性。同一數(shù)據(jù)集中不同的樣本是否會(huì)生成相似的模型。當(dāng)R值較低時(shí)，不同的樣本可能會(huì)表現(xiàn)出非常不同的行為。或者，在此基礎(chǔ)上，再加入少量觀察值可能會(huì)極大地改變模型的系數(shù)。當(dāng)R值較高時(shí)，再加入少量觀察值就不會(huì)有上述的改變。

5.3全局效應(yīng)

回歸方程能發(fā)現(xiàn)數(shù)據(jù)中的全局模式。即，方程系數(shù)應(yīng)該對(duì)范圍內(nèi)的所有輸入變量都起作用。這表明回歸模型善于捕獲那些總是正確的模式，不是產(chǎn)于處理局部模式。

例如，考慮不同年齡的汽車保險(xiǎn)購(gòu)買人的風(fēng)險(xiǎn)。年輕司機(jī)的風(fēng)險(xiǎn)較高。隨著駕駛?cè)藛T經(jīng)驗(yàn)的不斷增加，風(fēng)險(xiǎn)會(huì)逐步降低。而對(duì)年齡很大的駕駛者，風(fēng)險(xiǎn)又會(huì)增加。因?yàn)槟挲g很難作為回歸方程的輸入。因?yàn)闆](méi)有全局模式，對(duì)于不同的年齡組，年齡的影響變化又會(huì)不同。

在很多程度上，這個(gè)需要根據(jù)建模人員的熟悉程度，可以使用那些在不同取值范圍的變量作為輸入?yún)?shù)。但是，回歸方程本身不會(huì)發(fā)現(xiàn)局部模式。

6、多元回歸

引入線性回歸的那個(gè)例子使用了單一的輸入——持續(xù)期——來(lái)解釋日訪問(wèn)量隨時(shí)間的變化。當(dāng)一個(gè)回歸模型有多個(gè)輸入時(shí)，就稱其為多元回歸。

6.1、等式

線性回歸模型的一般形式(沒(méi)有誤差項(xiàng))是：Y=a+a1x1+a2x2+a3x3+…..+anxn。這個(gè)方程通過(guò)添加更多變量，并為每個(gè)變量選定系數(shù)，對(duì)最佳曲線方程進(jìn)行了擴(kuò)展。

盡管通過(guò)引入更多維度，可以將線性回歸的幾何解釋擴(kuò)展到多元回歸——曲線變?yōu)槠矫嬖僮兊匠矫??？紤]到每個(gè)字變量對(duì)因變量估計(jì)值的貢獻(xiàn)會(huì)更容易些，即可以由系數(shù)決定自變量貢獻(xiàn)的大小和方向。

6.2、目標(biāo)變量的范圍

一個(gè)回歸方程可以產(chǎn)生任何值。如果對(duì)X沒(méi)有限制，那么Y也是沒(méi)有限制的。對(duì) Y=aX+b 就可以說(shuō)明這一點(diǎn)，該方程是一條簡(jiǎn)單的直線，取值隨之X的取值而邊變化，從負(fù)無(wú)窮到正無(wú)窮。但實(shí)際情況非如此。許多目標(biāo)變量的范圍并不是無(wú)窮的，甚至不是連續(xù)的。對(duì)于這些情況，統(tǒng)計(jì)學(xué)家引入了一個(gè)鏈接函數(shù)將回歸方程產(chǎn)生的Y值映射到目標(biāo)變量的一個(gè)適合的范圍。當(dāng)目標(biāo)遵循某一已知的分布時(shí)，就可以選擇一個(gè)鏈接函數(shù)，它產(chǎn)生的值與目標(biāo)的平均值相同，同時(shí)也會(huì)產(chǎn)生一個(gè)類似的分布。即使不知道確切的分布，也可以引入鏈接函數(shù)將估計(jì)映射到目標(biāo)的一個(gè)適當(dāng)?shù)姆秶?/p>

后面我們會(huì)介紹邏輯回歸分析，那里使用一個(gè)鏈接函數(shù)將線性回歸的無(wú)窮范圍映射到0~1的區(qū)間，該區(qū)間等價(jià)于概率估計(jì)。

6.3、使用多元回歸的其他注意事項(xiàng)

回歸模型中有多個(gè)輸入變量時(shí)，會(huì)產(chǎn)生一些在單一輸入中不存在的問(wèn)題。

理想情況下，所有輸入之間應(yīng)該線性無(wú)關(guān)。

被模型顯示地包含的輸入之間可能存在相互。

添加一個(gè)新輸入將會(huì)改變所有原輸入的系值取值。

(1)線性無(wú)關(guān)

與樸素貝葉斯類似，多元模型的輸入之間應(yīng)該線性無(wú)關(guān)。這一位置改變其中一個(gè)輸入值應(yīng)該對(duì)其他輸入值沒(méi)有影響。實(shí)際情況很難實(shí)現(xiàn)真正獨(dú)立性。一般情況，注意不要包含彼此密切相關(guān)的自變量就可以。如果包含這些變量，往往會(huì)導(dǎo)致模型的一個(gè)輸入變量有較大的正系數(shù)而另一個(gè)輸入變量有較大的負(fù)系數(shù)。兩個(gè)變量本質(zhì)上相互抵消，因此這兩個(gè)系數(shù)的取值并不會(huì)對(duì)任何變量有真正意義上的影響。

(2)交互

即使兩個(gè)變量是完全獨(dú)立的，它們對(duì)目標(biāo)的影響也可能是相關(guān)的。一個(gè)冰淇淋的吸引力可能依賴于價(jià)格和天氣——尤其是某天的炎熱程度。這些變量可以認(rèn)為是獨(dú)立的(當(dāng)然，冰淇淋的價(jià)格并不取決于溫度，溫度可能會(huì)影響冰淇淋的價(jià)格，但是這里假設(shè)不會(huì))。盡管這些變量相互獨(dú)立，價(jià)格對(duì)目標(biāo)的影響扔可能受溫度的影響。當(dāng)天氣炎熱的時(shí)候，人民不是在意冰淇淋的價(jià)額都會(huì)購(gòu)買。當(dāng)天氣寒冷的時(shí)候，只有真正物美價(jià)廉才可能會(huì)吸引人民購(gòu)買。

類似的，價(jià)格的變化對(duì)住戶率的影響可能會(huì)隨著距離市中心的遠(yuǎn)近不同而不同。這就是交互的例子。

當(dāng)認(rèn)為交互很重要時(shí)，一般情況下，可以通過(guò)添加新變量引入這些交互，而這些新變量是標(biāo)準(zhǔn)化交互中涉及變量值的產(chǎn)物。

(3)添加變量可以改變模型中的原有變量的取值

一種很自然的模型開(kāi)發(fā)方法從一個(gè)僅有一個(gè)輸入的簡(jiǎn)單模型開(kāi)始，然后通過(guò)增加變量逐步提高其復(fù)雜性。如果所有輸入變量都是完全獨(dú)立的，那么添加或刪除其中一個(gè)變量不會(huì)更改模型中的其他變量的系數(shù)。但是輸入變量幾乎不可能完全獨(dú)立，所有包含另一個(gè)變量會(huì)改變系數(shù)的大小，甚至可能改變模型中其他原有變量系數(shù)的正負(fù)值。

6.4、多元回歸的變量選擇

多元回歸模型在有大量輸入時(shí)，它的表現(xiàn)并不理想。選擇正確的輸入變量對(duì)任何建模而言都是最重要的部分。這里談到“領(lǐng)域知識(shí)”，就是首先要考慮的是對(duì)該問(wèn)題所知道的一些先驗(yàn)知識(shí)以及以往人民解決此類問(wèn)題的額方法。有的時(shí)候領(lǐng)域知識(shí)對(duì)一時(shí)模型的預(yù)測(cè)可以提供一個(gè)很好的指標(biāo)指向。

當(dāng)使用領(lǐng)域知識(shí)和常識(shí)創(chuàng)建了一張候選變量列表后，用于創(chuàng)建回歸模型的軟件通常可以幫助使用者選擇出模型所需的最好變量。使用的方法：

(1)前向選擇

前向現(xiàn)在開(kāi)始使用一組輸入變量，其中一些變量或全部變量都可以出現(xiàn)在最終模型里。第一步是為每一個(gè)輸入變量創(chuàng)建一個(gè)單獨(dú)的回歸模型;如果有n個(gè)輸入變量，那么第一步會(huì)考慮具有一個(gè)輸入變量的n個(gè)不同的回歸模型。選擇測(cè)試得分最高的模型所對(duì)應(yīng)的變量作為前向選擇模型中的第一個(gè)變量。

選擇最佳模型的一種方法是選擇R值最低的模型。另一種方法是使用統(tǒng)計(jì)檢驗(yàn)中F-檢驗(yàn)的方法。最好的模型是在驗(yàn)證集上的誤差最小的模型。這看上去更像是數(shù)據(jù)挖掘，因?yàn)樗褂昧蓑?yàn)證集，并沒(méi)有對(duì)輸入或目標(biāo)值做出任何假設(shè)。

選定了第一個(gè)變量后，這以過(guò)程會(huì)在此重復(fù)進(jìn)行。第二次通過(guò)將每個(gè)剩余變量與第一步已選定的變量組合以創(chuàng)建包含有兩個(gè)輸入變量的n-1個(gè)回歸模型。這些模型中最好的模型將會(huì)是下一次迭代的基礎(chǔ)，下次迭代會(huì)測(cè)試帶有三個(gè)變量的多元回歸模型。持續(xù)這一過(guò)程直到滿足某些停止條件為止。終止條件可以是到達(dá)大的選擇變量個(gè)數(shù)，或者繼續(xù)增加變量不能在繼續(xù)提高模型的某個(gè)閾值。

(2)逐步選擇

逐步選擇與前向選擇非常類似，只有一點(diǎn)不同。在每個(gè)步驟中除了增加一個(gè)變量外，還可以刪除一個(gè)變量，較早進(jìn)入模型的一個(gè)變量可能由于后續(xù)變量的聯(lián)合作用而不再是有效變量。

(3)后向消去

后向消去選擇變量的方法首先使用所有的n個(gè)輸入變量創(chuàng)建了一個(gè)多元回歸模型。使用統(tǒng)計(jì)檢驗(yàn)，消去較糟糕的變量，然后重置該模型。持續(xù)該過(guò)程直到滿足某些停止條件，比如到達(dá)理想變量的最小數(shù)目。

7、邏輯回歸分析

線性回歸模型有一種特殊的形式。該形式對(duì)任意數(shù)量的輸入變量都可用，但當(dāng)只有一個(gè)輸入變量時(shí)，效果最明顯。回歸公式是一條直線方程。直線的一個(gè)屬性是它可以向兩端無(wú)限延伸。除與X軸平行的直線外，回歸模型沒(méi)有大值和最小值。這些屬性使得線性回歸模型適用于估計(jì)那些取值范圍可能很廣的連續(xù)變量。

相同的屬性使得線性回歸模型適用于建模無(wú)界的、連續(xù)的目標(biāo)，而不適于建模二元結(jié)果，比如是否或好壞。因?yàn)槎獑?wèn)題是極其常見(jiàn)的，這就邏輯回歸分析模型。

7.1建模二元輸出

建模二元輸出似乎不像是一個(gè)評(píng)估任務(wù)。有兩個(gè)類別的，任務(wù)是將每條記錄分配到其中的一個(gè)類。這就是一個(gè)分類任務(wù)。然而，該任務(wù)可以重述為“某個(gè)記錄屬于其中一個(gè)類的概率是多少?”，因?yàn)楦怕适菙?shù)字，這個(gè)問(wèn)題就轉(zhuǎn)化為一項(xiàng)評(píng)估任務(wù)。

(1)使用線性回歸評(píng)估概率

在談到基于客戶的持續(xù)期估計(jì)訂閱在報(bào)紙上的支付額度模型上。呼叫中心通過(guò)與用戶取得聯(lián)系，其中一些客戶同意簽訂訂閱協(xié)議。簽訂合約不久后他們便開(kāi)始接收?qǐng)?bào)紙，隨后他們要支付一筆賬單。一些新用戶不會(huì)抽時(shí)間來(lái)支付這第一張訂單，從而消減了報(bào)紙的收入。一段時(shí)間后，沒(méi)有支付訂單的客戶被停止收到報(bào)紙，其中一些支付賬單的新客戶并有可能在很長(zhǎng)時(shí)間后成為良好的客戶。不過(guò)在前面幾個(gè)星期，客戶不愿意付款的可能性非常大。

目標(biāo)值為0可以表示為從未付款的客戶，為1的表示付過(guò)款的客戶，所有這里會(huì)存在一條最佳擬合曲線。但不能保證這是一個(gè)好的模型。因?yàn)樵诔^(guò)一定天后，這一概率軌跡值大于1，而且這一估計(jì)值會(huì)隨著持續(xù)期的增加而無(wú)限的增加。這就是直線的性質(zhì)：顯然存在弊端，沒(méi)有大值或最小值。

(2)將回歸直線彎成曲線

顯然，直線不是一個(gè)估計(jì)概率的合適形狀。邏輯回歸分析通過(guò)將回歸直線彎成一個(gè)更合適的形狀來(lái)解決這一問(wèn)題。我們要獲得一個(gè)取值范圍在0~1之間的函數(shù)。這就是邏輯函數(shù)。

7.2、邏輯函數(shù)

樸素貝葉斯模型是乘以一串似然來(lái)估計(jì)幾率，然后將其轉(zhuǎn)換成概率。把線性回歸轉(zhuǎn)換成邏輯回歸也使用了這類技巧。

第一步：通過(guò)P與1-P之間將概率P轉(zhuǎn)換為幾率。幾率和概率表示同一件事情。不同點(diǎn)在于，概率取值范圍0~1，幾率是0到正無(wú)窮。在去幾率的對(duì)數(shù)值以生成一個(gè)從負(fù)無(wú)窮到正無(wú)窮的函數(shù)。

從這一點(diǎn)來(lái)看，概率被轉(zhuǎn)換為一個(gè)從負(fù)無(wú)窮到正無(wú)窮的連續(xù)函數(shù)——這正式線性回歸的優(yōu)勢(shì)。把幾率的對(duì)數(shù)值作為目標(biāo)變量而建立回歸方程。

方程結(jié)果為：

這就是邏輯函數(shù)。邏輯函數(shù)本身有一個(gè)特征，就是S曲線。該模型的參數(shù)向左或向右彎曲，并對(duì)其進(jìn)行拉伸或收縮。一個(gè)好的屬性是：在原點(diǎn)處，曲線的斜率大約為45%，而曲線在-1到1之間區(qū)域接近一條直線。除此之外，它變得很平坦，一直保持在0-1之間。這就是一條非常適合概率的曲線。

盡管邏輯回歸看起來(lái)比直線更“彎曲”，但它只能發(fā)現(xiàn)全局模式，而不是局部模式。局部模式的獲取需要顯示的體現(xiàn)在變量確定其影響。為線性回歸找出最佳擬合曲線所使用的普通最小二乘法并不適用與邏輯回歸分析，它使用大似然的方法，通過(guò)大似然法擬合模型。

大似然法擬合模型

擬合任何類型的參數(shù)模型對(duì)意味著要使用數(shù)據(jù)來(lái)找出最佳參數(shù)，利用這些最佳參數(shù)計(jì)算的預(yù)測(cè)值與實(shí)際值盡可能相符。這與模型評(píng)分的情況恰恰相反。在評(píng)分過(guò)程中，給定一組參數(shù)值模型，模型為某些輸入產(chǎn)生最佳的估計(jì)值。

給定一個(gè)待定的參數(shù)值和一組觀察值，這一函數(shù)返回該參數(shù)值正確的概率。雖然一般不存在這樣的函數(shù)，但在給定參數(shù)的情況下，訓(xùn)練集中出現(xiàn)目標(biāo)值的概率和參數(shù)的似然之間存在一個(gè)有用的關(guān)系——成正比。似然是不確定性相關(guān)的一種度量，這與概率是一種絕對(duì)度量的情況不同，但使用似然相比較與候選參數(shù)優(yōu)勢(shì)已經(jīng)明顯。似然函數(shù)的實(shí)際計(jì)算公式取決于對(duì)數(shù)據(jù)的各種假設(shè)，這又反過(guò)來(lái)取決于使用特定的參數(shù)模型。

對(duì)于邏輯回歸，似然函數(shù)有一個(gè)精確的最佳值?？梢允褂脭?shù)值優(yōu)化的方法來(lái)大化似然值，并可以保證找到大點(diǎn)。

總結(jié)：

概率統(tǒng)計(jì)的思想是所有數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)。給定一個(gè)理想目標(biāo)統(tǒng)計(jì)描述，就可以用相似度來(lái)度量候選值與原型或理想對(duì)象的距離來(lái)對(duì)候選進(jìn)行評(píng)分。歐式距離是一種常見(jiàn)的相似度度量，但也有許多其他可能的方法。

表查詢模型使用了一種不同的相似度度量的方法。所有落入表中同一單元格的觀察值都會(huì)得到相同得的分值。根據(jù)訓(xùn)練數(shù)據(jù)的特征為分配到該單元格的記錄評(píng)分。有許多方法可以定義表查詢模型的單元格，但最簡(jiǎn)單的方式將每個(gè)輸入的取值范圍劃分成同等大小的組，如三等分或五等分。

表查詢有個(gè)問(wèn)題，隨著輸入數(shù)量的增加，每一單元格內(nèi)訓(xùn)練樣本數(shù)會(huì)急劇減少。如果有很多輸入，就很難滿足多的數(shù)據(jù)來(lái)做出具有置信度的估計(jì)。一種解決方案是將若干個(gè)小單元格結(jié)合成一個(gè)較大的單元格。

樸素模型解決的方法是對(duì)每個(gè)維度都使用所有的訓(xùn)練數(shù)據(jù)，然后再結(jié)合每一維度的貢獻(xiàn)。“樸素”一詞是指輸入變量相互獨(dú)立的假設(shè)，但這個(gè)假設(shè)在實(shí)際中往往不成立。

常見(jiàn)的統(tǒng)計(jì)模型是回歸模型。線性回歸模型通過(guò)對(duì)一個(gè)輸入乘以一個(gè)系數(shù)之后再求和，從而將所有的輸入結(jié)合起來(lái)。擬合一個(gè)回歸模型意味著發(fā)現(xiàn)一些系數(shù)值，這些系數(shù)值大限度減少了估計(jì)誤差的平方值。線性回歸有很多好處，但并不適用與所有情況。尤其是，它不適用與概率估計(jì)。邏輯回歸模型利用S形函數(shù)而不是一條直線來(lái)擬合觀測(cè)數(shù)據(jù)。它將產(chǎn)生范圍僅在0-1的估計(jì)，因此適用于表示概率。

所有的回歸模型都能發(fā)現(xiàn)全局模式，也就是說(shuō)，它們發(fā)現(xiàn)了變量所有的輸入值的模式。事實(shí)上有很多模式是局部的，關(guān)于什么是局部模式，下面我們會(huì)談到?jīng)Q策樹(shù)，它在尋找輸入和目標(biāo)之間的局部模式方面非常強(qiáng)大。

系列文章：

大數(shù)據(jù)時(shí)代下的變革三部曲：思維變革(一)

大數(shù)據(jù)時(shí)代下的變革三部曲：商業(yè)變革(二)

大數(shù)據(jù)時(shí)代下的變革三部曲：管理變革(三)

大數(shù)據(jù)的核心：數(shù)據(jù)挖掘

大數(shù)據(jù)技術(shù)貼：構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型

大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)

作者：dufman

End.

網(wǎng)頁(yè)題目：大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型（下）
網(wǎng)站路徑：http://aaarwkj.com/article28/socpjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、網(wǎng)站制作、網(wǎng)站營(yíng)銷、外貿(mào)建站、品牌網(wǎng)站制作、全網(wǎng)營(yíng)銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型（下）