欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

有哪些Python機(jī)器學(xué)習(xí)面試題-創(chuàng)新互聯(lián)

這篇文章主要講解了“有哪些Python機(jī)器學(xué)習(xí)面試題”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“有哪些Python機(jī)器學(xué)習(xí)面試題”吧!

鄒城ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)公司的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:028-86922220(備注:SSL證書合作)期待與您的合作!

1.有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)有什么區(qū)別?

  有監(jiān)督學(xué)習(xí):對(duì)具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。(LR,SVM,BP,RF,GBDT)

  無監(jiān)督學(xué)習(xí):對(duì)未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識(shí)。(KMeans,DL)

  2.什么是正則化?

  正則化是針對(duì)過擬合而提出的,以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗(yàn)風(fēng)險(xiǎn),現(xiàn)在在該經(jīng)驗(yàn)風(fēng)險(xiǎn)上加入模型復(fù)雜度這一項(xiàng)(正則化項(xiàng)是模型參數(shù)向量的范數(shù)),并使用一個(gè)rate比率來權(quán)衡模型復(fù)雜度與以往經(jīng)驗(yàn)風(fēng)險(xiǎn)的權(quán)重,如果模型復(fù)雜度越高,結(jié)構(gòu)化的經(jīng)驗(yàn)風(fēng)險(xiǎn)會(huì)越大,現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗(yàn)風(fēng)險(xiǎn)的最優(yōu)化,可以防止模型訓(xùn)練過度復(fù)雜,有效的降低過擬合的風(fēng)險(xiǎn)。

  奧卡姆剃刀原理,能夠很好的解釋已知數(shù)據(jù)并且十分簡(jiǎn)單才是最好的模型。

  3.什么是生成模型和判別模型?

  生成模型:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預(yù)測(cè)的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。(樸素貝葉斯、Kmeans)

  生成模型可以還原聯(lián)合概率分布p(X,Y),并且有較快的學(xué)習(xí)收斂速度,還可以用于隱變量的學(xué)習(xí)

  判別模型:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型,即判別模型。(k近鄰、決策樹、SVM)

  直接面對(duì)預(yù)測(cè),往往準(zhǔn)確率較高,直接對(duì)數(shù)據(jù)在各種程度上的抽象,所以可以簡(jiǎn)化模型

  4.線性分類器與非線性分類器的區(qū)別以及優(yōu)劣

  如果模型是參數(shù)的線性函數(shù),并且存在線性分類面,那么就是線性分類器,否則不是。

  常見的線性分類器有:LR,貝葉斯分類,單層感知機(jī)、線性回歸

  常見的非線性分類器:決策樹、RF、GBDT、多層感知機(jī)

  SVM兩種都有(看線性核還是高斯核)

  線性分類器速度快、編程方便,但是可能擬合效果不會(huì)很好

  非線性分類器編程復(fù)雜,但是效果擬合能力強(qiáng)

  5.特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類器?

  線性分類器,因?yàn)榫S度高的時(shí)候,數(shù)據(jù)一般在維度空間里面會(huì)比較稀疏,很有可能線性可分

  對(duì)于維度很高的特征,你是選擇線性還是非線性分類器?

  理由同上

  對(duì)于維度極低的特征,你是選擇線性還是非線性分類器?

  非線性分類器,因?yàn)榈途S空間可能很多特征都跑到一起了,導(dǎo)致線性不可分

  下面是吳恩達(dá)的見解:

  1. 如果Feature的數(shù)量很大,跟樣本數(shù)量差不多,這時(shí)候選用LR或者是Linear Kernel的SVM

  2. 如果Feature的數(shù)量比較小,樣本數(shù)量一般,不算大也不算小,選用SVM+Gaussian Kernel

  3. 如果Feature的數(shù)量比較小,而樣本數(shù)量很多,需要手工添加一些feature變成第一種情況

  6. 為什么一些機(jī)器學(xué)習(xí)模型需要對(duì)數(shù)據(jù)進(jìn)行歸一化?

  歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后(通過某種算法)限制在你需要的一定范圍內(nèi)。

  1)歸一化后加快了梯度下降求最優(yōu)解的速度。等高線變得顯得圓滑,在梯度下降進(jìn)行求解時(shí)能較快的收斂。如果不做歸一化,梯度下降過程容易走之字,很難收斂甚至不能收斂

  2)把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式, 有可能提高精度。一些分類器需要計(jì)算樣本之間的距離(如歐氏距離),例如KNN。如果一個(gè)特征值域范圍非常大,那么距離計(jì)算就主要取決于這個(gè)特征,從而與實(shí)際情況相悖(比如這時(shí)實(shí)際情況是值域范圍小的特征更重要)

  3) 邏輯回歸等模型先驗(yàn)假設(shè)數(shù)據(jù)服從正態(tài)分布。

  7.哪些機(jī)器學(xué)習(xí)算法不需要做歸一化處理?

  概率模型不需要?dú)w一化,因?yàn)樗鼈儾魂P(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之類的最優(yōu)化問題就需要?dú)w一化。

  8.標(biāo)準(zhǔn)化與歸一化的區(qū)別

  簡(jiǎn)單來說,標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),其通過求z-score的方法,將樣本的特征值轉(zhuǎn)換到同一量綱下。歸一化是依照特征矩陣的行處理數(shù)據(jù),其目的在于樣本向量在點(diǎn)乘運(yùn)算或其他核函數(shù)計(jì)算相似性時(shí),擁有統(tǒng)一的標(biāo)準(zhǔn),也就是說都轉(zhuǎn)化為“單位向量”。規(guī)則為l2的歸一化公式如下:

  9.隨機(jī)森林如何處理缺失值

  方法一(na.roughfix)簡(jiǎn)單粗暴,對(duì)于訓(xùn)練集,同一個(gè)class下的數(shù)據(jù),如果是分類變量缺失,用眾數(shù)補(bǔ)上,如果是連續(xù)型變量缺失,用中位數(shù)補(bǔ)。

  方法二(rfImpute)這個(gè)方法計(jì)算量大,至于比方法一好壞?不好判斷。先用na.roughfix補(bǔ)上缺失值,然后構(gòu)建森林并計(jì)算proximity matrix,再回頭看缺失值,如果是分類變量,則用沒有缺失的觀測(cè)實(shí)例的proximity中的權(quán)重進(jìn)行投票。如果是連續(xù)型變量,則用proximity矩陣進(jìn)行加權(quán)平均的方法補(bǔ)缺失值。然后迭代4-6次,這個(gè)補(bǔ)缺失值的思想和KNN有些類似12。

  10. 如何進(jìn)行特征選擇?

  特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程,主要有兩個(gè)原因:一是減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過擬合;二是增強(qiáng)對(duì)特征和特征值之間的理解

  常見的特征選擇方式:

  1. 去除方差較小的特征

  2. 正則化。1正則化能夠生成稀疏的模型。L2正則化的表現(xiàn)更加穩(wěn)定,由于有用的特征往往對(duì)應(yīng)系數(shù)非零。

  3. 隨機(jī)森林,對(duì)于分類問題,通常采用基尼不純度或者信息增益,對(duì)于回歸問題,通常采用的是方差或者最小二乘擬合。一般不需要feature engineering、調(diào)參等繁瑣的步驟。它的兩個(gè)主要問題,1是重要的特征有可能得分很低(關(guān)聯(lián)特征問題),2是這種方法對(duì)特征變量類別多的特征越有利(偏向問題)。

  4. 穩(wěn)定性選擇。是一種基于二次抽樣和選擇算法相結(jié)合較新的方法,選擇算法可以是回歸、SVM或其他類似的方法。它的主要思想是在不同的數(shù)據(jù)子集和特征子集上運(yùn)行特征選擇算法,不斷的重復(fù),最終匯總特征選擇結(jié)果,比如可以統(tǒng)計(jì)某個(gè)特征被認(rèn)為是重要特征的頻率(被選為重要特征的次數(shù)除以它所在的子集被測(cè)試的次數(shù))。理想情況下,重要特征的得分會(huì)接近100%。稍微弱一點(diǎn)的特征得分會(huì)是非0的數(shù),而最無用的特征得分將會(huì)接近于0。

感謝各位的閱讀,以上就是“有哪些Python機(jī)器學(xué)習(xí)面試題”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)有哪些Python機(jī)器學(xué)習(xí)面試題這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

新聞名稱:有哪些Python機(jī)器學(xué)習(xí)面試題-創(chuàng)新互聯(lián)
分享網(wǎng)址:http://aaarwkj.com/article24/cchcje.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名商城網(wǎng)站、網(wǎng)站策劃小程序開發(fā)、品牌網(wǎng)站設(shè)計(jì)、Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)
日本色电影一区二区三区| 国产欧美一区二区三区久久| 蜜桃成人一区二区三区| 中文字幕日韩有码在线| 免费视频观看在线一区二区三区| 久久午夜福利欧美视频| 午夜福利片在线观看视频| 在线看电影亚洲一区| 国产午夜草莓视频在线观看| 国产精品精品国产色婷婷| 蜜桃精品视频在线播放| 日韩电影一区二区在线观看中文字幕 | 人妻av天堂综合一区| 欧美 日韩一区二区在线| 欧美欧美一区二区三区| 激情综合婷婷中文字幕| 欧美中文字幕精在线不卡| 亚洲精品区免费观看av| 欧美专区另类综合日韩| 日韩在线视频观看一区二区三区| 秒播视频午夜福利在线观看| 亚洲热久久国产经典视频| 国产成年人免费小视频| 免费在线观看做性小视频| 日韩精品一区二区三区四区蜜桃| 久久热在线视频精品视频| 精品人妻一区二区三区蜜桃电| 久久亚洲中文字幕精品熟女| 国产一区二区精品日韩| 中文字幕在线五月婷婷| 欧美一区二区国产精品日韩| 亚洲综合色婷婷七月丁香| 亚洲成人精品青青香蕉| 国产又黄又爽不卡的视频| 久久99精品综合国产女同| av熟妇人妻一区二区三区| 手机在线观看午夜小视频| 国产一区二区三区在线视频播放| 国产精品久久久av大片| 中文字幕人妻出轨一区二区| 国产性做爰片免费视频|