這篇文章給大家分享的是有關(guān)PCA方法的運(yùn)算過(guò)程的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。
1 引言
在展開(kāi)數(shù)據(jù)分析工作時(shí),我們經(jīng)常會(huì)面臨兩種困境,一種是原始數(shù)據(jù)中特征屬性太少,“巧婦難為無(wú)米之炊”,很難挖掘出潛在的規(guī)律,對(duì)于這種情況,我們只能在收集這一環(huán)節(jié)上多下功夫;另一種困境剛好相反,那就是特征屬性太多,這真是一種幸福得煩惱,因?yàn)樘卣鲗傩远嗑鸵馕吨畔⒘看?,可挖掘的價(jià)值就大,但另一方面也可能造成過(guò)擬合和計(jì)算量的急劇增大,對(duì)于這一問(wèn)題,最好的方法就是在預(yù)處理階段對(duì)數(shù)據(jù)進(jìn)行降維。
說(shuō)到降維,很自然得就想到主成分分析法(Principal Component Analysis,PCA),因?yàn)檫@一方法在眾多降維方法中獨(dú)領(lǐng)風(fēng)騷,應(yīng)用的最為廣泛。主成分分析法是一種無(wú)監(jiān)督學(xué)習(xí)方法,它的主要觀點(diǎn)是認(rèn)為數(shù)據(jù)的特征屬性之間存在線性相關(guān),導(dǎo)致數(shù)據(jù)間的信息冗余,通過(guò)正交變換把線性相關(guān)的特征用較少線性無(wú)關(guān)的數(shù)據(jù)來(lái)表示,以達(dá)到降維的目的。
本文接下來(lái)的內(nèi)容就對(duì)PCA方法進(jìn)行思想和運(yùn)算過(guò)程等方面由淺入深地展開(kāi)介紹。
2 算法原理
2.1 大投影方差法
為方便描述,我們先以二維平面上的數(shù)據(jù)集為例。如下圖所示,有左下至右上45度角斜向上分布?,F(xiàn)在,我們要對(duì)數(shù)據(jù)集進(jìn)行降維,因?yàn)槭嵌S數(shù)據(jù),所以也只能降到一維,只需要找到一個(gè)條合適的坐標(biāo)軸將數(shù)據(jù)投影過(guò)去即可。最簡(jiǎn)單地,我們可以將數(shù)據(jù)直接投影到已有的兩個(gè)坐標(biāo)軸上,如如圖(a)(b)所示,這種方法相當(dāng)于直接舍棄另一特征維度,將直接導(dǎo)致對(duì)另一特征維度信息的完全丟失,往往并不可取。降維過(guò)程雖然不可避免得會(huì)造成信息丟失,但我們卻也希望大化地保留數(shù)據(jù)的原始信息。既然往已有的坐標(biāo)軸上投影不可取,那么,我們構(gòu)造新的坐標(biāo)系,如圖(c)所示,我們沿左下至右上45度角斜向上構(gòu)造出一條y軸,從直覺(jué)上判斷我們也會(huì)覺(jué)得將數(shù)據(jù)投影到這個(gè)y軸比直接頭引導(dǎo)x1軸、x2軸更加合適,因?yàn)檫@個(gè)時(shí)候y軸與數(shù)據(jù)分布最“契合”,數(shù)據(jù)的投影在y軸上最為分散,或者說(shuō)數(shù)據(jù)在y軸上的投影的方差大。這就是大投影方差法,通過(guò)這種方法,在投影后的空間中數(shù)據(jù)的方差大,才能大化數(shù)據(jù)的差異性,因此可以保留更多的原始數(shù)據(jù)信息。
image
我們從數(shù)學(xué)角度上分析一下為什么方差大是獲得的新坐標(biāo)系才是最好的。
如下圖2所示,假設(shè)我們點(diǎn)A、B、C為圖1中數(shù)據(jù)集零均值化化后的樣本點(diǎn),點(diǎn)A′、B′、C′分別是點(diǎn)A、B、C在旋轉(zhuǎn)后的X1′軸上的投影,O為坐標(biāo)原點(diǎn)。|AA′|表示原坐標(biāo)點(diǎn)A到X1′軸上投影A′的距離,又被稱為投影誤差。顯然,投影誤差越小,A與A′相似度越大,那么投影后的數(shù)據(jù)就保留了更多的信息,所以投影誤差越小越好,等價(jià)地,對(duì)各樣本點(diǎn)投影誤差的平方和|AA′|2+|BB′|2+|CC′|2也越大越好。因?yàn)樾边叺拈L(zhǎng)度|OA|、|OB|、|OC|是固定的,結(jié)合勾股定理可知,|AA′|2+|BB′|2+|CC′|2+|OA′|2+|OB′|2+|OC′|2的大小也是保持不變的,這就意味著,投影誤差越小,|OA′|2+|OB′|2+|OC′|2就越大。其實(shí),|OA′|2+|OB′|2+|OC′|2就是樣本方差和,所以說(shuō),方差大是獲得的新坐標(biāo)系最好。
image
現(xiàn)在,我們知道了怎么確定最優(yōu)的方向進(jìn)行投影的問(wèn)題,不過(guò)還有問(wèn)題沒(méi)有解決:
(1)上面的講述都是以二維數(shù)據(jù)為例子,對(duì)于二維數(shù)據(jù)的降維,當(dāng)然只需要找到一個(gè)維度或者說(shuō)一條坐標(biāo)軸進(jìn)行投影即可,如果是更高維度的數(shù)據(jù)進(jìn)行降維時(shí),就不可能都降為一維,這時(shí)候可就需要尋找到多條坐標(biāo)軸來(lái)來(lái)投影,如果尋找第一個(gè)維度時(shí),使用方差大化投影當(dāng)然沒(méi)問(wèn)題,但是,如果在尋找第二個(gè)維度時(shí),仍然堅(jiān)持方差大化,那么第二個(gè)維度的坐標(biāo)軸就回與第一個(gè)維度的坐標(biāo)做基本重合,這樣投影后的數(shù)據(jù)相關(guān)性極大,是沒(méi)有意義的。那么,對(duì)于高維度數(shù)據(jù)降維,要如何確定多個(gè)維度坐標(biāo)軸呢?
(2)找到了新的坐標(biāo)系后,怎么將原始數(shù)據(jù)映射到新的坐標(biāo)系中呢?
帶著這兩個(gè)問(wèn)題,我們繼續(xù)往下分析。
2.2 協(xié)方差矩陣
PCA算法降維的主要通過(guò)是降低原始數(shù)據(jù)中的冗余信息來(lái)實(shí)現(xiàn)的,這里的冗余信息指的是數(shù)據(jù)集中不同特征屬性間的相關(guān)性,例如工作時(shí)長(zhǎng)、學(xué)歷、薪資待遇這三個(gè)屬性,這確實(shí)是三個(gè)不同的特征屬性,但無(wú)論是工作時(shí)長(zhǎng)還是學(xué)歷都跟薪資待遇之間存在一定影響,在大多數(shù)情況下,工作時(shí)長(zhǎng)越長(zhǎng)、學(xué)歷越高薪資待遇就越高。所以,工作時(shí)長(zhǎng)、學(xué)歷與薪資待遇是存在相關(guān)性的,PCA算法目標(biāo)就是消除這些相關(guān)性達(dá)到降維的目的。
對(duì)于相關(guān)性,在數(shù)學(xué)上通常用協(xié)方差來(lái)進(jìn)行描述。假設(shè)數(shù)據(jù)集X是包含n個(gè)樣本,m個(gè)特征屬性,xi和xj分別是數(shù)據(jù)集X中的兩個(gè)不同的特征屬性,那么xi和xj之間的協(xié)方差為:
Cov(xi,xj)=1n?1?∑nk=1(xik?xˉi)(xjk?xˉj)
式中,xik,xjk表示xi、xj的第k個(gè)樣本在兩個(gè)特征屬性中的取值,xˉi、xˉj分別是xi,xj的均值。
協(xié)方差取值區(qū)間為[?1,1],協(xié)方差絕對(duì)值越大兩特征屬性相關(guān)性越大,當(dāng)協(xié)方差小于0時(shí),表示兩個(gè)特征屬性呈負(fù)相關(guān),當(dāng)協(xié)方差大于0時(shí),表示兩個(gè)特征屬性呈正相關(guān),當(dāng)協(xié)方差為0時(shí),表示量特征屬性不相關(guān),在線性代數(shù)上,這兩個(gè)特征屬性時(shí)正交的。
特殊地,Cov(xi,xi)表示特征屬性xi的方差。
通過(guò)上一小節(jié),我們知道,降維時(shí)選擇第一個(gè)投影方向是通過(guò)方差大化進(jìn)行選取,選取后續(xù)為投影方向時(shí),我們就不可能再讓降維后的各維度數(shù)據(jù)間還存在相關(guān)性,所以,在選取后續(xù)維度時(shí)需要在滿足與所有已選取投影方向正交,即協(xié)方差為0的前提下,選取方差大的方向??偨Y(jié)一下降維的過(guò)程,假如我們需要從m維降到k維,首先要在所有可能方向中選取一個(gè)投影方差大的方向作為第一個(gè)維度,然后在所有與第一個(gè)維度正交的方向中選取一個(gè)方差大的方向作為第二個(gè)維度方向,重復(fù)這一步驟,直到選取了k個(gè)維度。
可以看出,在整個(gè)降維過(guò)程中,既要計(jì)算方差,也要計(jì)算特征屬性兩兩之間的協(xié)方差,有沒(méi)有什么方法將兩者統(tǒng)一到一起呢?有,協(xié)方差矩陣。 協(xié)方差矩陣中每一個(gè)元素對(duì)應(yīng)兩個(gè)特征屬性間的協(xié)方差,例如第i行第j列元素表示第i個(gè)特征屬性與第j個(gè)特征屬性間的協(xié)方差;協(xié)方差矩陣對(duì)角線上的元素,當(dāng)i=j時(shí),表示第i個(gè)特征屬性的方差。數(shù)據(jù)集X的協(xié)方差矩陣表示為: image
仔細(xì)觀察協(xié)方差矩陣,可以發(fā)現(xiàn)協(xié)方差矩陣是實(shí)對(duì)稱矩陣,實(shí)對(duì)稱矩陣剛好有一些很好的性質(zhì)可以被利用:
(1)實(shí)對(duì)稱矩陣必可對(duì)角化,且其相似對(duì)角矩陣的對(duì)角線元素為m個(gè)特征值
(2)實(shí)對(duì)稱矩陣的特征值是實(shí)數(shù),特征向量是實(shí)向量
(3)實(shí)對(duì)稱矩陣的不同特征值對(duì)應(yīng)的特征向量是正交的
請(qǐng)務(wù)必注意,這三個(gè)性質(zhì)很重要,不理解沒(méi)關(guān)系,記住就好,接下來(lái)的內(nèi)容都必須以這三個(gè)性質(zhì)為基礎(chǔ)。因?yàn)樘卣髦祵?duì)應(yīng)的特征向量就是理想中想取得正確的坐標(biāo)軸的基,而特征值就等于數(shù)據(jù)在投影之后的坐標(biāo)上的方差。所以有了協(xié)方差矩陣,接下來(lái)要做的,就是將協(xié)方差矩陣對(duì)角化,這個(gè)對(duì)角化的過(guò)程可以理解為是對(duì)來(lái)原坐標(biāo)軸的旋轉(zhuǎn)即尋找最佳投影坐標(biāo)軸的過(guò)程,通過(guò)對(duì)角化的過(guò)程可以讓除對(duì)角元素外的所有元素為零,也就是協(xié)方差為零,各特征屬性將將變得不相關(guān)。當(dāng)協(xié)方差矩陣對(duì)角化之后,對(duì)角元素就是特征值,也是各投影后坐標(biāo)軸上的方差,我們選取大的一個(gè)特征值對(duì)應(yīng)的特征向量作為基,對(duì)原始數(shù)據(jù)進(jìn)行變換,就可以用獲得原始數(shù)據(jù)在新坐標(biāo)軸上的投影。
我們大概描述一下這個(gè)坐標(biāo)變換的原理。在機(jī)器學(xué)習(xí)中,我們喜歡用向量和矩陣來(lái)表示數(shù)據(jù),因?yàn)橄蛄亢途仃囉泻芏嗪芎玫臄?shù)學(xué)性質(zhì),可以很方便的進(jìn)行數(shù)學(xué)運(yùn)算。如下圖3所示,從圖1所示數(shù)據(jù)集中取一點(diǎn),假設(shè)坐標(biāo)為(3,1),那么我們可以表示為以原點(diǎn)為起點(diǎn)以點(diǎn)(3,1)為終點(diǎn)的一個(gè)箭頭,這個(gè)箭頭在x1軸上投影為3,在x2軸三的投影是1。我們可以這么理解,有一個(gè)向量在兩條坐標(biāo)軸上的投影分別為x1,x2,那么該向量又可以表示為:x1?(1,0)T+x2?(0,1)T,這里的(1,0)和(0,1)就是下圖黑色直角坐標(biāo)系的一組基。對(duì)于基,可以粗淺的理解為坐標(biāo)軸的基礎(chǔ),有了基,坐標(biāo)才有意義,在大多數(shù)情況下,我們都默認(rèn)以(1,0)和(0,1)這對(duì)相互正交且模長(zhǎng)為1向量為基。如果我們對(duì)黑色直角坐標(biāo)系逆時(shí)針旋轉(zhuǎn)45就得到了一個(gè)新的坐標(biāo)系,這個(gè)坐標(biāo)系的基為(12√,12√)和(?12√,12√),這類我們不深入討論這個(gè)基是怎么得來(lái)的,反正在PCA方法中通過(guò)協(xié)方差對(duì)角化之后多的的特征值對(duì)應(yīng)特征向量就是新坐標(biāo)系的基。有了新坐標(biāo)系的基,怎么將原坐標(biāo)系的坐標(biāo)轉(zhuǎn)換的用新坐標(biāo)系表示呢?其實(shí)我們只需要對(duì)新坐標(biāo)系的基與原坐標(biāo)系中的坐標(biāo)進(jìn)行內(nèi)積運(yùn)算即可:將原坐標(biāo)與兩個(gè)基做內(nèi)積運(yùn)算,獲得的兩個(gè)結(jié)果分別作為新坐標(biāo)系的第一個(gè)坐標(biāo)和第二個(gè)坐標(biāo),這個(gè)過(guò)程叫做基變換,我們用矩陣運(yùn)算來(lái)表示這個(gè)過(guò)程:
image
所以點(diǎn)(3,1)在新坐標(biāo)系中的坐標(biāo)為(42√,?2–√)。這種基變換的方式也適用于更加多維的情況,因?yàn)閮蓚€(gè)矩陣相乘本質(zhì)就是一種線性變換,也可以理解為將游標(biāo)矩陣中的每一列列向量變換到左邊矩陣中每一行行行向量為基坐標(biāo)是的空間中去。
image
總結(jié)來(lái)說(shuō),完成對(duì)角化之后,矩陣中對(duì)角線上元素就是特征值,也是尋找到的眾多坐標(biāo)軸的投影方差,每次從中去所有特征值中大的一個(gè),然后求對(duì)應(yīng)的特征向量,這個(gè)特征向量就是對(duì)應(yīng)的新坐標(biāo)軸的基,用這個(gè)基于原始數(shù)據(jù)做內(nèi)積運(yùn)算就可以得到原始數(shù)據(jù)在新坐標(biāo)軸上的投影,重復(fù)這個(gè)過(guò)程k次,就完成可降維。
將上文中所有內(nèi)容囊括在一起,那么,主成分分析法就概括為以下5各步驟:
(1) 零平均值,在很多情況下,為了去除量綱的影響,最好直接標(biāo)準(zhǔn)化。
(2) 計(jì)算協(xié)方差矩陣。
(3) 協(xié)方差矩陣對(duì)角化,求特征值。
(4) 對(duì)特征值從大到小排序,選擇其中大的k個(gè),然后求其對(duì)應(yīng)的k個(gè)特征向量分別作為行向量組成特征向量矩陣P。
(5) 將k個(gè)特征向量作為新的坐標(biāo)系的基對(duì)原始數(shù)據(jù)進(jìn)行變換。
3 總結(jié)
PCA算法是一種無(wú)監(jiān)督學(xué)習(xí)方法,只需要對(duì)數(shù)據(jù)集本身的特征屬性進(jìn)行運(yùn)算,消除相關(guān)性達(dá)到壓縮數(shù)據(jù)去噪降維的目的。 PCA算法的主要優(yōu)點(diǎn)有:
(1)僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。
(2)各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。
(3)計(jì)算方法簡(jiǎn)單,易于實(shí)現(xiàn)。
PCA算法的主要缺點(diǎn)有:
(1)主成分各個(gè)特征維度的含義不在具有實(shí)際的物理意義,所以不如原始樣本特征的解釋性強(qiáng)。
(2)方差小的非主成分也可能含有對(duì)樣本差異的重要信息,因降維丟棄可能對(duì)后續(xù)數(shù)據(jù)處理有影響。
關(guān)于PCA方法的運(yùn)算過(guò)程就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
網(wǎng)站名稱:PCA方法的運(yùn)算過(guò)程-創(chuàng)新互聯(lián)
標(biāo)題鏈接:http://aaarwkj.com/article6/geeig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)網(wǎng)站制作、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、網(wǎng)站制作、企業(yè)建站、軟件開(kāi)發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容