欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

打破機器學習中的小數(shù)據集詛咒

2021-02-28    分類: 網站建設

最近深度學習技術實現(xiàn)方面取得的突破表明,頂級算法和復雜的結構可以將類人的能力傳授給執(zhí)行特定任務的機器。但我們也會發(fā)現(xiàn),大量的訓練數(shù)據對深度學習模型的成功起著至關重要的作用。就拿Resnet來說,這種圖像分類結構在2015年的ILSVRC分類競賽中獲得了第一名,比先前的技術水平提高了約50%。

近年來ILSVRC的頂級模型表現(xiàn)

圖1:近年來ILSVRC的頂級模型表現(xiàn)

Resnet不僅具有非常復雜艱深的結構,而且還有足夠多的數(shù)據。不同的算法其性能可能是相同的,這個問題已經在工業(yè)界和學術界得到了很好的證實。

但需要注意的是,大數(shù)據應該是有意義的信息,而不是雜亂無章的,這樣,模型才能從中學習。這也是谷歌、Facebook、亞馬遜、Twitter、百度等公司在人工智能研究和產品開發(fā)領域占據主導地位的主要原因之一。

雖然與深度學習相比,傳統(tǒng)的機器學習會需要更少的數(shù)據,但即使是大規(guī)模的數(shù)據量,也會以類似的方式影響模型性能。下圖清楚地描述了傳統(tǒng)機器學習和深度學習模型的性能如何隨著數(shù)據規(guī)模的提高而提高。

數(shù)據量與模型性能的函數(shù)關系

圖2:數(shù)據量與模型性能的函數(shù)關系

為什么我們需要機器學習?

彈丸運動公式

圖3:彈丸運動公式

讓我們用一個例子來回答這個問題。假設我們有一個速度為v,按一定角度θ投擲出去的球,我們想要算出球能拋多遠。根據高中物理知識,我們知道球做一個拋物線運動,我們可以使用圖中所示的公式算出距離。

上述公式可被視為任務的模型或表示,公式中涉及的各種術語可被視為重要特征,即v、θ和g(重力加速度)。在上述模型下,我們的特征很少,我們可以很好地理解它們對我們任務的影響。因此,我們能夠提出一個好的數(shù)學模型。讓我們考慮一下另一種情況:我們希望在2018年12月30日預測蘋果公司的股價。在這個任務中,我們無法完全了解各種因素是如何影響股票價格的。

在缺乏真實模型的情況下,我們利用歷史股價和標普500指數(shù)、其他股票價格、市場情緒等多種特征,利用機器學習算法來找出它們潛在的關系。這就是一個例子,即在某些情況下,人類很難掌握大量特征之間的復雜關系,但是機器可以通過大規(guī)模的數(shù)據輕松地捕捉到它。

另一個同樣復雜的任務是:將電子郵件標記為垃圾郵件。作為一個人,我們可能要想許多規(guī)則和啟式的方法,但它們很難編寫、維護。而另一方面,機器學習算法可以很容易地獲得這些關系,還可以做得更好,并且更容易維護和擴展。既然我們不需要清晰地制定這些規(guī)則,而數(shù)據可以幫助我們獲得這些關系,可以說機器學習已經徹底改變了不同的領域和行業(yè)。

大數(shù)據集是怎樣幫助構建更好的機器學習模型的?

在我們開始討論大規(guī)模數(shù)據是如何提高模型性能之前,我們需要了解偏差(Bias)和方差(Variance)。

偏差:讓我們來看這樣一個數(shù)據集:它的因變量和自變量之間是二次方關系。然而,我們不知道他們真實的關系,只能稱它們近似為線性關系。在這種情況下,我們將會發(fā)現(xiàn)我們的預測與實際數(shù)據之間的明顯的差異。觀測值和預測值之間的這種差異稱為偏差。這種模型,我們會說它功能小,欠擬合。

方差:在同一個例子中,如果我們將關系近似為三次方或任何更高階,就會出現(xiàn)一個高方差的情況。方差能夠反映訓練集與測試集的性能差異。高方差的主要問題是:模型能很好地擬合訓練數(shù)據,但在訓練外數(shù)據集上表現(xiàn)得不好。這是驗證確認測試集在模型構建過程中非常重要的一個主要原因。

偏差 vs方差

圖4:偏差 vs方差

我們通常希望將偏差和方差最小化。即建立一個模型,它不僅能很好地適用訓練數(shù)據,而且能很好地概括測試/驗證數(shù)據。實現(xiàn)這一點有很多方法,但使用更多數(shù)據進行訓練是實現(xiàn)這一點的好途徑之一。我們可以通過下圖了解這一點:

大數(shù)據產生了更好的泛化

圖5:大數(shù)據產生了更好的泛化

假設我們有一個類似于正弦分布的數(shù)據。圖(5a)描述了多個模型在擬合數(shù)據點方面同樣良好。這些模型中有很多都過擬合,并且在整個數(shù)據集上產出不是很好。當我們增加數(shù)據時,從圖(5b)可以看出可以容納數(shù)據的模型數(shù)量減少。隨著我們進一步增加數(shù)據點的數(shù)量,我們成功地捕獲了數(shù)據的真實分布,如圖(5C)所示。這個例子幫助我們清楚地了解數(shù)據數(shù)量是如何幫助模型揭示真實關系的。接下來,我們將嘗試了解一些機器學習算法的這種現(xiàn)象,并找出模型參數(shù)是如何受到數(shù)據大小影響的。

線性回歸:在線性回歸中,我們假設預測變量(特征)和因變量(目標)之間存在線性關系,關系式如下:

其中y是因變量,x(i)是自變量。β(i)為真實系數(shù),?為模型未解釋的誤差。對于單變量情況,基于觀測數(shù)據的預測系數(shù)如下:

上述公式給出了斜率和截距的估測點,但這些估值總是存在一些不確定性,這些不確定性可由方差方程量化:

因此,隨著數(shù)據數(shù)量的增加,分母會變大,就是我們估測點的方差變小。因此,我們的模型對潛在關系會更加自信,并能給出穩(wěn)定的系數(shù)估計。通過以下代碼,我們可以看到上述現(xiàn)象的實際作用:

圖6:在線性回歸中增加數(shù)據量對估測點位置估測的提升

我們模擬了一個線性回歸模型,其斜率(b)=5,截距(a)=10。從圖6(a)(數(shù)據量小)到圖6(b)(數(shù)據量大),我們建立了一個衰退模型,此時我們可以清楚地看到斜率和截距之間的區(qū)別。在圖6(a)中,模型的斜率為4.65,截距為8.2,而圖6(b)中模型的斜率為5.1,截距為10.2相比,可以明顯看出,圖6(b)更接近真實值。

k近鄰(k-NN):k-NN是一種用于回歸和分類里最簡單但功能強大的算法。k-NN不需要任何特定的訓練階段,顧名思義,預測是基于k-最近鄰到測試點。由于k-NN是非參數(shù)模型,模型性能取決于數(shù)據的分布。在下面的例子中,我們正在研究iris數(shù)據集,以了解數(shù)據點的數(shù)量如何影響k-NN表現(xiàn)。為了更好表現(xiàn)結果,我們只考慮了這組數(shù)據的四個特性中的兩個:萼片長度和萼片寬度。

KNN中預測類隨數(shù)據大小的變化

圖7:KNN中預測類隨數(shù)據大小的變化

后面的實驗中我們隨機從分類1中選取一個點作為試驗數(shù)據(用紅色星星表示),同時假設k=3并用多數(shù)投票方式來預測試驗數(shù)據的分類。圖7(a)是用了少量數(shù)據做的試驗,我們發(fā)現(xiàn)這個模型把試驗點錯誤分在分類2中。當數(shù)據點越來越多,模型會把數(shù)據點正確預測到分類1中。從上面圖中我們可以知道,KNN與數(shù)據質量成正相關,數(shù)據越多可以讓模型更一致、更精確。

決策樹算法:與線性回歸和KNN類似,也受數(shù)據數(shù)量的影響。

根據數(shù)據的大小形成不同的樹狀結構

圖8:根據數(shù)據的大小形成不同的樹狀結構

決策樹也是一種非參數(shù)模型,它試圖最好地擬合數(shù)據的底層分布。拆分是對特性值執(zhí)行的,目的是在子級創(chuàng)建不同的類。由于模型試圖最好地擬合可用的訓練數(shù)據,因此數(shù)據的數(shù)量直接決定了分割級別和最終類。從上面的圖中我們可以清楚的看到,數(shù)據集的大小對分割點和最終的類預測有很大的影響。更多的數(shù)據有助于找到好分割點,避免過度擬合。

如何解決數(shù)據量少的問題?

圖9:數(shù)據量少的基本含義和解決它的可能方法和技術

上圖試圖捕捉處理小數(shù)據集時所面臨的核心問題,以及解決這些問題的可能方法和技術。在本部分中,我們將只關注傳統(tǒng)機器學習中使用的技術。

改變損失函數(shù):對于分類問題,我們經常使用交叉熵損失,很少使用平均絕對誤差或平均平方誤差來訓練和優(yōu)化我們的模型。在數(shù)據不平衡的情況下,由于模型對最終損失值的影響較大,使得模型更加偏向于多數(shù)類,使得我們的模型變得不那么有用。

在這種情況下,我們可以對不同類對應的損失增加權重,以平衡這種數(shù)據偏差。例如,如果我們有兩個按比例4:1計算數(shù)據的類,我們可以將比例1:4的權重應用到損失函數(shù)計算中,使數(shù)據平衡。這種技術可以幫助我們輕松地緩解不平衡數(shù)據的問題,并改進跨不同類的模型泛化。我們可以很容易地找到R和Python中的庫,它們可以幫助在損失計算和優(yōu)化過程中為類分配權重。Scikit-learn有一個方便的實用函數(shù)來計算基于類頻率的權重:

我們可以用class_weight=‘balanced’來代替上面的計算量,并且與class_weights計算結果一樣。我們同樣可以依據我們的需求來定義分類權重。

異常/變更檢測:在欺詐或機器故障等高度不平衡的數(shù)據集的情況下,是否可以將這些例子視為異常值得思考。如果給定的問題滿足異常判據,我們可以使用OneClassSVM、聚類方法或高斯異常檢測方法等模型。這些技術要求我們改變思維方式,將次要類視為異常類,這可能幫助我們找到分離和分類的新方法。變化檢測類似于異常檢測,只是我們尋找的是變化或差異,而不是異常。這些可能是根據使用模式或銀行事務觀察到的用戶行為的變化。

圖10:過采和欠采樣的情況

上采樣還是下采樣:由于不平衡的數(shù)據本質上是以不同的權重懲罰多數(shù)類,所以解決這個問題的一個方法是使數(shù)據平衡。這可以通過增加少數(shù)類的頻率或通過隨機或集群抽樣技術減少多數(shù)類的頻率來實現(xiàn)。過度抽樣與欠抽樣以及隨機抽樣與集群抽樣的選擇取決于業(yè)務上下文和數(shù)據大小。一般來說,當總體數(shù)據大小較小時,上采樣是選的,而當我們有大量數(shù)據時,下采樣是有用的。類似地,隨機抽樣和聚集抽樣是由數(shù)據分布的好壞決定的。

生成合成數(shù)據:盡管上采樣或下采樣有助于使數(shù)據平衡,但是重復的數(shù)據增加了過度擬合的機會。解決此問題的另一種方法是在少數(shù)類數(shù)據的幫助下生成合成數(shù)據。合成少數(shù)過采樣技術(SMOTE)和改進過采樣技術是產生合成數(shù)據的兩種技術。簡單地說,合成少數(shù)過采樣技術接受少數(shù)類數(shù)據點并創(chuàng)建新的數(shù)據點,這些數(shù)據點位于由直線連接的任意兩個最近的數(shù)據點之間。為此,該算法計算特征

圖11:基于K=3,合成少數(shù)過采樣技術過程

M-SMOTE是一個改進版的SMOTE,它考慮了數(shù)據中少數(shù)分類的底層分布。該算法將少數(shù)類的樣本分為安全/安全樣本、邊界樣本和潛在噪聲樣本三大類。這是通過計算少數(shù)類樣本與訓練數(shù)據樣本之間的距離來實現(xiàn)的。與SMOTE不同的是,該算法從k個最近鄰中隨機選擇一個數(shù)據點作為安全樣本,從邊界樣本中選擇最近鄰,對潛在噪聲不做任何處理。

網頁題目:打破機器學習中的小數(shù)據集詛咒
文章路徑:http://aaarwkj.com/news/103396.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供微信公眾號服務器托管、用戶體驗網站設計公司網站營銷、靜態(tài)網站

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿網站建設
黄色三级亚洲男人的天堂| 青青草视频免费公开播放| 青春草草视频在线观看| 97免费在线视频观看| 国产精品精品国产一区二区| 欧美黄片网站免费观看| 精品日韩欧美精品日韩| 欧美在线免费黄片视频| 日本加勒比在线播放一区| 九九蜜桃视频香蕉视频| 亚洲黄色一区大陆av剧情| 国产日韩欧美亚洲中文国| av大全网站免费一区二区| 国产一级黄色片免费看| 成人国产亚洲日本欧美| 激情亚洲欧美日韩精品| 亚洲午夜一区二区三区精品影院| 亚洲精品免费福利视频| 另类激情综合在线观看| 亚洲综合一区二区精品久久| 亚洲欧美日韩国产99| 午夜福利在线视频观看| 欧美高清一区二区在线观看| 人妻少妇性色精品专区av| 中文字幕精品人妻在线| 日本韩国欧美在线一区| 日本理论午夜三级在线观看| 91久久国产综合久久91| 国欧美一区二区三区| 懂色粉嫩蜜臀久久一区二区| 周妍希浴室视频色哟哟| 国产精品久久99精品| 熟女少妇a一区二区三区| 成人高清乱码一区二区三区| 精品久久久久久久久无| 久久亚洲av麻衣北条麻妃| 日本亚洲精品一区二区三| 日操夜操天天操夜夜操| 欧美二区三区精品在线| 成熟女人毛茸茸的视频| 精品综合亚洲中文字幕|