假設(shè)申請人向你提供成績,你根據(jù)成績對其進(jìn)行分類,目標(biāo)是根據(jù)分?jǐn)?shù)將申請人分為兩類,如果申請人可以進(jìn)入大學(xué),則分為1級,如果申請人不能被錄取,則分為0級。使用線性回歸可以解決這個(gè)問題嗎?讓我們一起來看看。
站在用戶的角度思考問題,與客戶深入溝通,找到防城網(wǎng)站設(shè)計(jì)與防城網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、申請域名、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋防城地區(qū)。注意:閱讀本文的前提是了解線性回歸!
目錄
什么是邏輯回歸?
數(shù)據(jù)集可視化
假設(shè)和成本函數(shù)
從頭開始訓(xùn)練模型
模型評估
Scikit-learn實(shí)現(xiàn)
什么是邏輯回歸?
回想一下線性回歸,它被用于確定一個(gè)連續(xù)因變量的值。邏輯回歸通常用于分類目的。與線性回歸不同,因變量只能采用有限數(shù)量的值,即因變量是分類的。當(dāng)可能結(jié)果的數(shù)量只有兩個(gè)時(shí),它被稱為二元邏輯回歸。
讓我們看看邏輯回歸如何被用于分類任務(wù)。
在線性回歸中,輸出是輸入的加權(quán)和。邏輯回歸是廣義線性回歸,在某種意義上,我們不直接輸出輸入的加權(quán)和,但我們通過一個(gè)函數(shù)來傳遞它,該函數(shù)可以映射0到1之間的任何實(shí)數(shù)值。
如果我們將輸入的加權(quán)和作為輸出,就像我們在線性回歸中做的那樣,那么該值可以大于1,但我們想要一個(gè)介于0和1之間的值。這也是為什么線性回歸不能用于分類任務(wù)的原因。
從下圖可以看出,線性回歸的輸出通過一個(gè)激活函數(shù)傳遞,該函數(shù)可以映射0到1之間的任何實(shí)數(shù)值。
所使用的激活函數(shù)稱為sigmoid函數(shù)。sigmoid函數(shù)的曲線如下圖所示
我們可以看到sigmoid函數(shù)的值總是介于0和1之間。在X = 0時(shí),該值恰好為0.5。我們可以使用0.5作為概率閾值來確定類。如果概率大于0.5,我們將其分類為Class-1(Y = 1)或者歸類為Class-0(Y = 0)。
在我們構(gòu)建模型之前,讓我們看一下邏輯回歸所做的假設(shè)
因變量必須是絕對的
自變量(特征)必須是獨(dú)立的(以避免多重共線性)
數(shù)據(jù)集
本文中使用的數(shù)據(jù)來自吳恩達(dá)在Coursera上的機(jī)器學(xué)習(xí)課程。數(shù)據(jù)可以從這里下載。(https://www.coursera.org/learn/machine-learning)該數(shù)據(jù)包括100名申請人的兩次考試分?jǐn)?shù)。目標(biāo)值采用二進(jìn)制值1,0。1表示申請人被大學(xué)錄取,0表示申請人未被錄取。它目標(biāo)是建立一個(gè)分類器,可以預(yù)測申請是否將被大學(xué)錄取。
讓我們使用read_csv函數(shù)將數(shù)據(jù)加載到pandas Dataframe中。我們還將數(shù)據(jù)分為錄取的和未錄取的,以使數(shù)據(jù)可視化。
現(xiàn)在我們已經(jīng)清楚地了解了問題和數(shù)據(jù),讓我們繼續(xù)構(gòu)建我們的模型。
假設(shè)和成本函數(shù)
到目前為止,我們已經(jīng)了解了如何使用邏輯回歸將實(shí)例分類到不同的類中。在本節(jié)中,我們將定義假設(shè)和成本函數(shù)。
線性回歸模型可以用等式表示。
然后,我們將sigmoid函數(shù)應(yīng)用于線性回歸的輸出
sigmoid函數(shù)表示為,
然后邏輯回歸的假設(shè)為,
如果輸入的加權(quán)和大于零,則預(yù)測的類為1,反之亦然。因此,通過將輸入的加權(quán)和設(shè)置為0,可以找到將兩個(gè)類分開的決策邊界。
成本函數(shù)
與線性回歸一樣,我們將為模型定義成本函數(shù),目標(biāo)是最小化成本。
單個(gè)訓(xùn)練示例的成本函數(shù)可以通過以下方式給出:
成本函數(shù)直覺
如果實(shí)際的類是1并且模型預(yù)測為0,我們應(yīng)該懲罰它,反之亦然。從下圖中可以看出,對于h(x)接近1的情況-log(h(x)),成本為0,當(dāng)h(x)接近0時(shí),成本為無窮大(即我們對模型進(jìn)行嚴(yán)重懲罰)。類似地,對于繪圖-log(1-h(x)),當(dāng)實(shí)際值為0并且模型預(yù)測為0時(shí),成本為0并且當(dāng)h(x)接近1時(shí)成本變?yōu)闊o窮大。
我們可以使用以下兩個(gè)方程組合:
由J(θ)表示的所有訓(xùn)練樣本的成本可以通過取所有訓(xùn)練樣本的成本的平均值來計(jì)算
其中m是訓(xùn)練樣本的數(shù)量。
我們將使用梯度下降來最小化成本函數(shù)。梯度w.r.t任何參數(shù)都可以由該方程給出
該方程類似于我們在線性回歸中所獲得的方程,在這兩種情況下只有h(x)不同。
訓(xùn)練模型
現(xiàn)在我們已經(jīng)擁有了構(gòu)建模型所需的一切。讓我們在代碼中實(shí)現(xiàn)它。
讓我們首先為我們的模型準(zhǔn)備數(shù)據(jù)。
我們將定義一些將用于計(jì)算成本的函數(shù)。
接下來,我們定義成本和梯度函數(shù)。
我們還定義擬合函數(shù),該函數(shù)將用于查找最小化成本函數(shù)的模型參數(shù)。在這篇文章中,我們編寫了梯度下降法來計(jì)算模型參數(shù)。 在這里,我們將使用scipy庫中的fmin_tnc函數(shù)。它可用于計(jì)算任何函數(shù)的最小值。它將參數(shù)作為:
func:最小化的函數(shù)
x0:我們想要查找的參數(shù)的初始值
fprime:'func'定義的函數(shù)的梯度
args:需要傳遞給函數(shù)的參數(shù)
模型參數(shù)為[-25.16131856 0.20623159 0.20147149]
為了了解我們的模型有多好,我們將繪制決策邊界。
繪制決策邊界
由于我們的數(shù)據(jù)集中有兩個(gè)特征,因此線性方程可以表示為,
如前所述,可以通過將輸入的加權(quán)和設(shè)置為0來找到?jīng)Q策邊界。將h(x)等于0,
我們將在我們用于可視化數(shù)據(jù)集的圖上方繪制決策邊界。
看起來我們的模型在預(yù)測課程方面做得不錯(cuò)。但它有多準(zhǔn)確?讓我們來看看。
模型的準(zhǔn)確性
該模型的準(zhǔn)確率為89%。
讓我們使用scikit-learn實(shí)現(xiàn)我們的分類器,并將它與我們從頭開始構(gòu)建的模型進(jìn)行比較。
scikit-learn實(shí)現(xiàn)
模型參數(shù)為[[-2.85831439,0.05214733,0.04531467]],精度為91%。
為什么模型參數(shù)與我們從頭開始實(shí)現(xiàn)的模型有很大不同?如果你看一下sk-learn的邏輯回歸實(shí)現(xiàn)的文檔,你就會發(fā)現(xiàn)其中考慮了正則化?;旧?,正則化是用于防止模型過度擬合數(shù)據(jù)的。 在本文中,我不會深入討論正規(guī)化的細(xì)節(jié)。
此文章中使用的完整代碼可以在此GitHub中找到。(https://github.com/animesh-agarwal/Machine-Learning/tree/master/LogisticRegression)
網(wǎng)站題目:從零開始利用Python建立邏輯回歸分類模型-創(chuàng)新互聯(lián)
地址分享:http://aaarwkj.com/article16/gjegg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT、搜索引擎優(yōu)化、微信小程序、動(dòng)態(tài)網(wǎng)站、小程序開發(fā)、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容