統(tǒng)計(jì)決策
專(zhuān)注于為中小企業(yè)提供成都做網(wǎng)站、網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)北安免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了成百上千家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。先驗(yàn)概率 p(x)
條件概率p(x|w)
貝葉斯公式 p(w|x)=$frac{p(x|w)*p(w)}{p(x)}$
決策規(guī)則(最小錯(cuò)誤率貝葉斯決策):p(w1|x)>p(w2|x), 為w1;反之,為w2。
求最小錯(cuò)誤率分界點(diǎn):p(x|w1)*p(w1)=p(x|w2)*p(w2), 解得x=t,t為分界點(diǎn)。
最小風(fēng)險(xiǎn)貝葉斯決策:
條件風(fēng)險(xiǎn):R(a1|x)=$lambda11*p(w1|x)+lambda12*p(w2|x)$
$lambda12$表示類(lèi)別為2,判別為1的損失;R(a1|x)為判決為1的條件風(fēng)險(xiǎn)。
接收機(jī)特性曲線(ROC曲線):
擊中率+虛警率>=1;
x*為判決邊界。x<x*,則拒絕;x>x*,則認(rèn)為存在外部脈沖;
當(dāng)存在外部脈沖但是x<x*,則漏檢(miss),若x>x*,則擊中(hit);
當(dāng)不存在外部脈沖但是x>x*,則虛警(false alarm),若x<x*,則正確拒絕(correct rejection).
擊中率(靈敏度):tp/(tp+fn)
虛警率(假陽(yáng)性):fp/(tn+fp)
ROC曲線為擊中率和虛警率隨x*在坐標(biāo)上移動(dòng)的變化。
當(dāng)x*為最小可能值時(shí),所有樣本都呈陽(yáng)性,此時(shí)坐標(biāo)為(1,1);當(dāng)x*為大可能值時(shí),所有樣本陰性,坐標(biāo)(0,0);
當(dāng)接收機(jī)為理想的,即無(wú)脈沖和有脈沖同為沖激且沒(méi)有重疊,擊中率始終為1,虛警率始終為0.
極小極大準(zhǔn)則:
$R_{minimax}=lambda22+(lambda12-lambda22)int_{R1}{p(x|w2)}dx=lambda12int_{R1}{p(x|w2)}dx$ 第二類(lèi)判為第一類(lèi),對(duì)第一類(lèi)區(qū)間積分,再乘以條件風(fēng)險(xiǎn)
$=lambda11+(lambda21-lambda11)int_{R2}{p(x|w1)}dx=lambda21int_{R2}{p(x|w1)}dx$
PCA:
計(jì)算x所有樣本的協(xié)方差矩陣,求其特征向量作為方差最小投影方向。
$Sigma u_{i}=lambda u_{i}$
$u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數(shù)據(jù)。
白化:對(duì)PCA所得的特征值進(jìn)行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協(xié)方差矩陣為$U*^{T}Sigma U*=I$.
貝葉斯置信網(wǎng):看作業(yè)
概率密度函數(shù)的估計(jì)
大似然估計(jì):已知分布,根據(jù)樣本求分布函數(shù)的參數(shù),使樣本概率大。通常取對(duì)數(shù)求導(dǎo),使導(dǎo)數(shù)為0。高斯方差大似然估計(jì)有偏。
貝葉斯估計(jì):根據(jù)貝葉斯定理,根據(jù)訓(xùn)練樣本求測(cè)試樣本概率,模型參數(shù)是隱含的,已經(jīng)包含在條件分布的積分里了。難點(diǎn)是積分。通過(guò)選擇合適的先驗(yàn)分布,如指數(shù)分布族,使積分容易求得。
PCA:
計(jì)算x所有樣本的協(xié)方差矩陣,求其特征向量作為方差最小投影方向。
$Sigma u_{i}=lambda u_{i}$
$u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數(shù)據(jù)。參考PCA程序,后續(xù)》》》
白化:對(duì)PCA所得的特征值進(jìn)行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協(xié)方差矩陣為$U*^{T}Sigma U*=I$.
LDA(Fisher Linear Discriminant Analysis):將數(shù)據(jù)降到一維,同時(shí)具有大的區(qū)分度。
類(lèi)內(nèi)散度矩陣:$Si=Sigma(x-mi)(x-mi)^T, Sw=S1+S2(總類(lèi)內(nèi)散布矩陣)$
類(lèi)間散度矩陣:$S_{B}=(m1-m2)(m1-m2)^T (總類(lèi)間散布矩陣,秩小于等于1)$
準(zhǔn)則函數(shù):$J(w)=frac{w^tS_{B}w}{w^tS_{w}w}$
瑞利熵:$R(w)=frac{w^tAw}{w^tw}$
大化準(zhǔn)則函數(shù)時(shí),$S_{B}w=lambda S_{w}w$ ,而$S_{B}w總在m1-m2方向上$,$w=S_{w}^{-1}(m1-m2)$,此w即為使類(lèi)間散布和類(lèi)內(nèi)散布的比值達(dá)到大的線性函數(shù)。
KFD-Kernel Fisher’s Discriminant
x=$phi (x)$
曼哈頓距離:馬氏距離(Mahalanobis distance)表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系(例如:一條關(guān)于身高的信息會(huì)帶來(lái)一條關(guān)于體重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的)并且是尺度無(wú)關(guān)的(scale-invariant),即獨(dú)立于測(cè)量尺度。對(duì)于一個(gè)均值為μ,協(xié)方差矩陣為Σ的多變量向量,其馬氏距離為(x-μ)'Σ^(-1)(x-μ)。馬氏距離也可以定義為兩個(gè)服從同一分布并且其協(xié)方差矩陣為Σ的隨機(jī)變量與的差異程度。
For identity matrix S:
For diagonal matrix S:
3. 非參數(shù)估計(jì)和隱馬爾可夫模型
線性分類(lèi)器
1. 線性分類(lèi)器基本概念
判別函數(shù):由x的各分量的線性組合而成的函數(shù)。$g( x)=w^tx+w0$,g( x)>0,判定w1;g(x)<0,判定w2;g( x)=0為判定面。
若g( x)為線性,判定面為超平面,比特征空間少一個(gè)維度。(a point is a hyper plane in 1-dimensional space, a line is a hyperplane in 2-dimensional space, and a plane is a hyperplane in 3-dimensional space. A line in 3-dimensional space is not a hyperplane, and does not separate the space into two parts (the complement of such a line is connected).)
$x=x_{p}+rfrac{w}{||w||}$,r為代數(shù)距離(algebraic distance)
$g(x)=w^Tx+w0,x_{p}在超平面上,w^Tx_{p}+w0=0, 所以g(x )=rfrac{w^Tw}{||w||}=r||w||$,r有符號(hào)。
多類(lèi)情況:P179。。。。
廣義線性判別函數(shù):對(duì)x的各分量進(jìn)行非線形組合,映射到高維空間。
增廣特征向量a=[w0;w],使新的判定面經(jīng)過(guò)原點(diǎn),而且簡(jiǎn)化問(wèn)題為求解一個(gè)權(quán)向量a。
梯度下降:更新規(guī)則$a(k+1)=a( k)-eta(k ) abla J(a(k ))$
牛頓下降:更新規(guī)則$a(k+1)=a( k)-H^{-1} abla J(a(k ))$
感知機(jī):$J( a)=Sigma _{yin M} {-a^ty}$,其中M(a)為被a錯(cuò)分的樣本集。
$ abla J(a )=Sigma_{y in M}{-y}$,迭代公式$a(k+1)=a( k)+eta ( k) Sigma_{y in M}{y}$
2. 最優(yōu)超平面與支持向量機(jī)
超平面:wx+b=0
到超平面距離: g(x)=wx+b, x’為樣本到超平面上投影
間隔M=||x-x’||=||$lambda w$||=|g(x )|/||w||.
因?yàn)閣和b可以按任意比例放縮,所以可以令g(x)=1。正樣本與負(fù)樣本間隔為M=2/||w||.
大間隔就是使M大,即讓||w||最小,等價(jià)于$minfrac{1}{2}w^Tw$.
所有樣本正確分類(lèi)條件為:
所以為
minimizes.t.的二次最優(yōu)化問(wèn)題
$L(w,a)=frac{1}{2}||w||^2-sumlimits_{k=1}^n{a_k[y_k(wx_k +b)-1]}$
對(duì)偶形式,仍為二次最優(yōu)化問(wèn)題。
KKT conditions:
$L(x,lambda)=f(x ) +lambda g(x ) $
$g(x )geq 0$
$lambda geq 0$
$lambda g(x ) = 0$
example:
Soft Margin
對(duì)比沒(méi)有soft margin的形式,
vc dimension:
維度數(shù)加1?
kernel:
$g(x)=sumlimits_{i=1}^{l}{a_iy_iK(x_i,x)+b}$
SMO算法(序列最小優(yōu)化算法):
SVR:
3. 多類(lèi)線性分類(lèi)器
1.第一種情況:每一模式類(lèi)與其它模式類(lèi)間可用單個(gè)判別平面把一個(gè)類(lèi)分開(kāi)。這種情況,M類(lèi)可有M個(gè)判別函數(shù),且具有以下性質(zhì):
如果某個(gè)X使二個(gè)以上的判別函數(shù) gi(x) >0 。則此模式X就無(wú)法作出確切的判決。
判別函數(shù)都為負(fù)值,為不確 定區(qū)域。
第二種情況:
每個(gè)模式類(lèi)和其它模式類(lèi)間可分別用判別平面分開(kāi),一個(gè)判別界面只能分開(kāi)兩個(gè)類(lèi)別,不一定能把其余所有的類(lèi)別分開(kāi)。
這樣有 M(M _ 1)/2個(gè)判別平面。
判別函數(shù)都為負(fù)值,為不確 定區(qū)域。
結(jié)論:判別區(qū)間增大,不確定區(qū)間減小,比第一種情況小的多。
第三種情況:
每類(lèi)都有一個(gè)判別函數(shù),存在M個(gè)判別函數(shù)。
就是說(shuō),要判別模式X屬于那一類(lèi),先把X代入M個(gè)判別函數(shù)中,判別函數(shù)大的那個(gè)類(lèi)別就是X所屬類(lèi)別。類(lèi)與 類(lèi)之間的邊界可由gi(x) =gj(x) 或gi(x) -gj(x) =0來(lái)確定。
結(jié)論:不確定區(qū)間沒(méi)有了,所以這種是最好情況。
非線性分類(lèi)器
1. 神經(jīng)網(wǎng)絡(luò)
2. 支持向量機(jī)
其它分類(lèi)方法
1. 近鄰法
k近鄰 knn(k取奇數(shù)):
vThe algorithm procedure:
§Given a set of n training data in the form of <x, y>.
§Given an unknown sample x′.
§Calculate the distance d(x′, xi) for i=1 … n.
§Select the K samples with the shortest distances.
§Assign x′ the label that dominates the K samples.
v
vIt is the simplest classifier you will ever meet (I mean it!).
v
vNo Training (literally)
§A memory of the training data is maintained.
§All computation is deferred until classification.
§
vProduces satisfactory results in many cases.
§Should give it a go whenever possible.
Properties of KNN
Instance-Based Learning
No explicit description of the target function
Can handle complicated situations.
Challenges of KNN
vThe Value of K
§Non-monotonous impact on accuracy
§Too Big vs. Too Small
§Rule of thumbs
v
vWeights
§Different features may have different impact …
v
vDistance
§There are many different ways to measure the distance.
§Euclidean, Manhattan …
v
vComplexity
§Need to calculate the distance between X′ and all training data.
§In proportion to the size of the training data.
2. 隨機(jī)方法
3. 非度量方法
特征選擇和特征提取
1. 特征選擇
2. 特征提取
KL變換
也是正交基,與pca不同在于pca是協(xié)方差矩陣的特征向量,kl變換是x*x'的特征向量。有監(jiān)督時(shí),k-l坐標(biāo)系的產(chǎn)生矩陣相應(yīng)改變。
mds多維尺度法
使用低維來(lái)表示高維樣本間的相關(guān)關(guān)系。
核分析方法
非監(jiān)督模式識(shí)別
1. 基于模型的方法
2. 聚類(lèi)
決定聚類(lèi)算法好壞的因素
C-均值(C/K- means)聚類(lèi)(Clustering)
vDetermine the value of K.
vChoose K cluster centres randomly.
vEach data point is assigned to its closest centroid.
vUse the mean of each cluster to update each centroid.
vRepeat until no more new assignment.
vReturn the K centroids.
vPros
§Simple and works well for regular disjoint clusters.
§Converges relatively fast.
§Relatively efficient and scalable O(t·k·n)
?t: iteration; k: number of centroids; n: number of data points
v
vCons
§Need to specify the value of K in advance.
?Difficult and domain knowledge may help.
§May converge to local optima.
?In practice, try different initial centroids.
§May be sensitive to noisy data and outliers.
?Mean of data points …
§Not suitable for clusters of
?Non-convex shapes
核(Kernel)動(dòng)態(tài)聚類(lèi)
歐式距離只適用于樣本分布為超球或接近超球狀,即在各維特征上
的樣本方差接近。
模糊(Fuzzy) C 均值聚類(lèi)
Fuzzy c-means (FCM) is a method of clustering which allows one piece of data to belong to two or more clusters
譜(Spectral)聚類(lèi)
譜聚類(lèi)算法的物理解釋和數(shù)學(xué)解釋:由于特征矢量不相關(guān),所以由特征矢量構(gòu)成的訓(xùn)練空間中的點(diǎn)可分性
會(huì)改善。
獨(dú)立于算法的機(jī)器學(xué)習(xí)(boosting)
Boosting方法是一種用來(lái)提高弱分類(lèi)算法準(zhǔn)確度的方法,這種方法通過(guò)構(gòu)造一個(gè)預(yù)測(cè)函數(shù)系列,然后以一定的方式將他們組合成一個(gè)預(yù)測(cè)函數(shù)。他是一種框架算法,主要是通過(guò)對(duì)樣本集的操作獲得樣本子集,然后用弱分類(lèi)算法在樣本子集上訓(xùn)練生成一系列的基分類(lèi)器。他可以用來(lái)提高其他弱分類(lèi)算法的識(shí)別率,也就是將其他的弱分類(lèi)算法作為基分類(lèi)算法放于Boosting 框架中,通過(guò)Boosting框架對(duì)訓(xùn)練樣本集的操作,得到不同的訓(xùn)練樣本子集,用該樣本子集去訓(xùn)練生成基分類(lèi)器;每得到一個(gè)樣本集就用該基分類(lèi)算法在該樣本集上產(chǎn)生一個(gè)基分類(lèi)器,這樣在給定訓(xùn)練輪數(shù) n 后,就可產(chǎn)生 n 個(gè)基分類(lèi)器,然后Boosting框架算法將這 n個(gè)基分類(lèi)器進(jìn)行加權(quán)融合,產(chǎn)生一個(gè)最后的結(jié)果分類(lèi)器,在這 n個(gè)基分類(lèi)器中,每個(gè)單個(gè)的分類(lèi)器的識(shí)別率不一定很高,但他們聯(lián)合后的結(jié)果有很高的識(shí)別率,這樣便提高了該弱分類(lèi)算法的識(shí)別率。在產(chǎn)生單個(gè)的基分類(lèi)器時(shí)可用相同的分類(lèi)算法,也可用不同的分類(lèi)算法,這些算法一般是不穩(wěn)定的弱分類(lèi)算法,如神經(jīng)網(wǎng)絡(luò)(BP) ,決策樹(shù)(C4.5)等。
AdaBoost 通過(guò)對(duì)樣本集的操作來(lái)訓(xùn)練產(chǎn)生不同的分類(lèi)器,他是通過(guò)更新分布權(quán)值向量來(lái)改變樣本權(quán)重的,也 就是提高分錯(cuò)樣本的權(quán)重,重點(diǎn)對(duì)分錯(cuò)樣本進(jìn)行訓(xùn)練。 (1) 沒(méi)有先驗(yàn)知識(shí)的情況下,初始的分布應(yīng)為等概分布,也就是訓(xùn)練集如果有 n個(gè)樣本,每個(gè)樣本的分布概率為1/ n。 (2) 每次循環(huán)后提高錯(cuò)誤樣本的分布概率,分錯(cuò)的樣本在訓(xùn)練集中所占權(quán)重增大,使得下一次循環(huán)的基分類(lèi)器 能夠集中力量對(duì)這些錯(cuò)誤樣本進(jìn)行判斷。最后的強(qiáng)分類(lèi)器是通過(guò)多個(gè)基分類(lèi)器聯(lián)合得到的,因此在最后聯(lián)合時(shí)各個(gè)基分類(lèi)器所起的作用對(duì)聯(lián)合結(jié)果有很大的影響,因?yàn)椴煌诸?lèi)器的識(shí)別率不同,他的作用就應(yīng)該不同,這里通過(guò)權(quán)值體現(xiàn)他的作用,因此識(shí)別率越高的基分類(lèi)器權(quán)重越高,識(shí)別率越低的基分類(lèi)器權(quán)重越低。
模式識(shí)別系統(tǒng)的評(píng)價(jià)
網(wǎng)站欄目:模式識(shí)別復(fù)習(xí)目錄-創(chuàng)新互聯(lián)
當(dāng)前路徑:http://aaarwkj.com/article32/dihisc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、移動(dòng)網(wǎng)站建設(shè)、微信小程序、網(wǎng)站設(shè)計(jì)、域名注冊(cè)、標(biāo)簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容