技術向：一文讀懂卷積神經(jīng)網(wǎng)絡

自今年七月份以來，一直在實驗室負責卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network，CNN)，期間配置和使用過theano和cuda-convnet、cuda-convnet2。為了增進CNN的理解和使用，特寫此博文，以其與人交流，互有增益。正文之前，先說幾點自己對于CNN的感觸。先明確一點就是，Deep Learning是全部深度學習算法的總稱，CNN是深度學習算法在圖像處理領域的一個應用。

目前創(chuàng)新互聯(lián)建站已為1000+的企業(yè)提供了網(wǎng)站建設、域名、網(wǎng)頁空間、成都網(wǎng)站托管、企業(yè)網(wǎng)站設計、番禺網(wǎng)站維護等服務，公司將堅持客戶導向、應用為本的策略，正道將秉承"和諧、參與、激情"的文化，與客戶和合作伙伴齊心協(xié)力一起成長，共同發(fā)展。

第一點，在學習Deep learning和CNN之前，總以為它們是很了不得的知識，總以為它們能解決很多問題，學習了之后，才知道它們不過與其他機器學習算法如svm等相似，仍然可以把它當做一個分類器，仍然可以像使用一個黑盒子那樣使用它。

第二點，Deep Learning強大的地方就是可以利用網(wǎng)絡中間某一層的輸出當做是數(shù)據(jù)的另一種表達，從而可以將其認為是經(jīng)過網(wǎng)絡學習到的特征?；谠撎卣?，可以進行進一步的相似度比較等。

第三點，Deep Learning算法能夠有效的關鍵其實是大規(guī)模的數(shù)據(jù)，這一點原因在于每個DL都有眾多的參數(shù)，少量數(shù)據(jù)無法將參數(shù)訓練充分。

接下來話不多說，直接奔入主題開始CNN之旅。

卷積神經(jīng)網(wǎng)絡簡介(Convolutional Neural Networks，簡稱CNN)

卷積神經(jīng)網(wǎng)絡是近年發(fā)展起來，并引起廣泛重視的一種高效識別方法。20世紀60年代，Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡結構可以有效地降低反饋神經(jīng)網(wǎng)絡的復雜性，繼而提出了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks-簡稱CNN)。現(xiàn)在，CNN已經(jīng)成為眾多科學領域的研究熱點之一，特別是在模式分類領域，由于該網(wǎng)絡避免了對圖像的復雜前期預處理，可以直接輸入原始圖像，因而得到了更為廣泛的應用。 K.Fukushima在1980年提出的新識別機是卷積神經(jīng)網(wǎng)絡的第一個實現(xiàn)網(wǎng)絡。隨后，更多的科研工作者對該網(wǎng)絡進行了改進。其中，具有代表性的研究成果是Alexander和Taylor提出的“改進認知機”，該方法綜合了各種改進方法的優(yōu)點并避免了耗時的誤差反向傳播。

一般地，CNN的基本結構包括兩層，其一為特征提取層，每個神經(jīng)元的輸入與前一層的局部接受域相連，并提取該局部的特征。一旦該局部特征被提取后，它與其它特征間的位置關系也隨之確定下來;其二是特征映射層，網(wǎng)絡的每個計算層由多個特征映射組成，每個特征映射是一個平面，平面上所有神經(jīng)元的權值相等。特征映射結構采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡的激活函數(shù)，使得特征映射具有位移不變性。此外，由于一個映射面上的神經(jīng)元共享權值，因而減少了網(wǎng)絡自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層，這種特有的兩次特征提取結構減小了特征分辨率。

CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數(shù)據(jù)進行學習，所以在使用CNN時，避免了顯示的特征抽取，而隱式地從訓練數(shù)據(jù)中進行學習;再者由于同一特征映射面上的神經(jīng)元權值相同，所以網(wǎng)絡可以并行學習，這也是卷積網(wǎng)絡相對于神經(jīng)元彼此相連網(wǎng)絡的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性，其布局更接近于實際的生物神經(jīng)網(wǎng)絡，權值共享降低了網(wǎng)絡的復雜性，特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度。

1. 神經(jīng)網(wǎng)絡

首先介紹神經(jīng)網(wǎng)絡，這一步的詳細可以參考資源1。簡要介紹下。神經(jīng)網(wǎng)絡的每個單元如下：

其對應的公式如下：

其中，該單元也可以被稱作是Logistic回歸模型。當將多個單元組合起來并具有分層結構時，就形成了神經(jīng)網(wǎng)絡模型。下圖展示了一個具有一個隱含層的神經(jīng)網(wǎng)絡。

其對應的公式如下：

比較類似的，可以拓展到有2,3,4,5，…個隱含層。

神經(jīng)網(wǎng)絡的訓練方法也同Logistic類似，不過由于其多層性，還需要利用鏈式求導法則對隱含層的節(jié)點進行求導，即梯度下降+鏈式求導法則，專業(yè)名稱為反向傳播。關于訓練算法，本文暫不涉及。

2 卷積神經(jīng)網(wǎng)絡

在圖像處理中，往往把圖像表示為像素的向量，比如一個1000×1000的圖像，可以表示為一個1000000的向量。在上一節(jié)中提到的神經(jīng)網(wǎng)絡中，如果隱含層數(shù)目與輸入層一樣，即也是1000000時，那么輸入層到隱含層的參數(shù)數(shù)據(jù)為1000000×1000000=10^12，這樣就太多了，基本沒法訓練。所以圖像處理要想練成神經(jīng)網(wǎng)絡大法，必先減少參數(shù)加快速度。就跟辟邪劍譜似的，普通人練得很挫，一旦自宮后內(nèi)力變強劍法變快，就變的很牛了。

2.1 局部感知

卷積神經(jīng)網(wǎng)絡有兩種神器可以降低參數(shù)數(shù)目，第一種神器叫做局部感知野。一般認為人對外界的認知是從局部到全局的，而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密，而距離較遠的像素相關性則較弱。因而，每個神經(jīng)元其實沒有必要對全局圖像進行感知，只需要對局部進行感知，然后在更高層將局部的信息綜合起來就得到了全局的信息。網(wǎng)絡部分連通的思想，也是受啟發(fā)于生物學里面的視覺系統(tǒng)結構。視覺皮層的神經(jīng)元就是局部接受信息的(即這些神經(jīng)元只響應某些特定區(qū)域的刺激)。如下圖所示：左圖為全連接，右圖為局部連接。

在上右圖中，假如每個神經(jīng)元只和10×10個像素值相連，那么權值數(shù)據(jù)為1000000×100個參數(shù)，減少為原來的千分之一。而那10×10個像素值對應的10×10個參數(shù)，其實就相當于卷積操作。

2.2 參數(shù)共享

但其實這樣的話參數(shù)仍然過多，那么就啟動第二級神器，即權值共享。在上面的局部連接中，每個神經(jīng)元都對應100個參數(shù)，一共1000000個神經(jīng)元，如果這1000000個神經(jīng)元的100個參數(shù)都是相等的，那么參數(shù)數(shù)目就變?yōu)?00了。

怎么理解權值共享呢?我們可以這100個參數(shù)(也就是卷積操作)看成是提取特征的方式，該方式與位置無關。這其中隱含的原理則是：圖像的一部分的統(tǒng)計特性與其他部分是一樣的。這也意味著我們在這一部分學習的特征也能用在另一部分上，所以對于這個圖像上的所有位置，我們都能使用同樣的學習特征。

更直觀一些，當從一個大尺寸圖像中隨機選取一小塊，比如說 8×8 作為樣本，并且從這個小塊樣本中學習到了一些特征，這時我們可以把從這個 8×8 樣本中學習到的特征作為探測器，應用到這個圖像的任意地方中去。特別是，我們可以用從 8×8 樣本中所學習到的特征跟原本的大尺寸圖像作卷積，從而對這個大尺寸圖像上的任一位置獲得一個不同特征的激活值。

如下圖所示，展示了一個33的卷積核在55的圖像上做卷積的過程。每個卷積都是一種特征提取方式，就像一個篩子，將圖像中符合條件(激活值越大越符合條件)的部分篩選出來。

2.3 多卷積核

上面所述只有100個參數(shù)時，表明只有1個100*100的卷積核，顯然，特征提取是不充分的，我們可以添加多個卷積核，比如32個卷積核，可以學習32種特征。在有多個卷積核時，如下圖所示：

上圖右，不同顏色表明不同的卷積核。每個卷積核都會將圖像生成為另一幅圖像。比如兩個卷積核就可以將生成兩幅圖像，這兩幅圖像可以看做是一張圖像的不同的通道。如下圖所示，下圖有個小錯誤，即將w1改為w0，w2改為w1即可。下文中仍以w1和w2稱呼它們。

下圖展示了在四個通道上的卷積操作，有兩個卷積核，生成兩個通道。其中需要注意的是，四個通道上每個通道對應一個卷積核，先將w2忽略，只看w1，那么在w1的某位置(i,j)處的值，是由四個通道上(i,j)處的卷積結果相加然后再取激活函數(shù)值得到的。

所以，在上圖由4個通道卷積得到2個通道的過程中，參數(shù)的數(shù)目為4×2×2×2個，其中4表示4個通道，第一個2表示生成2個通道，最后的2×2表示卷積核大小。

2.4 Down-pooling

在通過卷積獲得了特征 (features) 之后，下一步我們希望利用這些特征去做分類。理論上講，人們可以用所有提取得到的特征去訓練分類器，例如 softmax 分類器，但這樣做面臨計算量的挑戰(zhàn)。例如：對于一個 96X96 像素的圖像，假設我們已經(jīng)學習得到了400個定義在8X8輸入上的特征，每一個特征和圖像卷積都會得到一個 (96 − 8 + 1) × (96 − 8 + 1) = 7921 維的卷積特征，由于有 400 個特征，所以每個樣例 (example) 都會得到一個 892 × 400 = 3,168,400 維的卷積特征向量。學習一個擁有超過 3 百萬特征輸入的分類器十分不便，并且容易出現(xiàn)過擬合 (over-fitting)。

為了解決這個問題，首先回憶一下，我們之所以決定使用卷積后的特征是因為圖像具有一種“靜態(tài)性”的屬性，這也就意味著在一個圖像區(qū)域有用的特征極有可能在另一個區(qū)域同樣適用。因此，為了描述大的圖像，一個很自然的想法就是對不同位置的特征進行聚合統(tǒng)計，例如，人們可以計算圖像一個區(qū)域上的某個特定特征的平均值 (或大值)。這些概要統(tǒng)計特征不僅具有低得多的維度 (相比使用所有提取得到的特征)，同時還會改善結果(不容易過擬合)。這種聚合的操作就叫做池化 (pooling)，有時也稱為平均池化或者大池化 (取決于計算池化的方法)。

至此，卷積神經(jīng)網(wǎng)絡的基本結構和原理已經(jīng)闡述完畢。

2.5 多層卷積

在實際應用中，往往使用多層卷積，然后再使用全連接層進行訓練，多層卷積的目的是一層卷積學到的特征往往是局部的，層數(shù)越高，學到的特征就越全局化。

3 ImageNet-2010網(wǎng)絡結構

ImageNet LSVRC是一個圖片分類的比賽，其訓練集包括127W+張圖片，驗證集有5W張圖片，測試集有15W張圖片。本文截取2010年Alex Krizhevsky的CNN結構進行說明，該結構在2010年取得冠軍，top-5錯誤率為15.3%。值得一提的是，在今年的ImageNet LSVRC比賽中，取得冠軍的GoogNet已經(jīng)達到了top-5錯誤率6.67%。可見，深度學習的提升空間還很巨大。

下圖即為Alex的CNN結構圖。需要注意的是，該模型采用了2-GPU并行結構，即第1、2、4、5卷積層都是將模型參數(shù)分為2部分進行訓練的。在這里，更進一步，并行結構分為數(shù)據(jù)并行與模型并行。數(shù)據(jù)并行是指在不同的GPU上，模型結構相同，但將訓練數(shù)據(jù)進行切分，分別訓練得到不同的模型，然后再將模型進行融合。而模型并行則是，將若干層的模型參數(shù)進行切分，不同的GPU上使用相同的數(shù)據(jù)進行訓練，得到的結果直接連接作為下一層的輸入。

上圖模型的基本參數(shù)為：

輸入：224×224大小的圖片，3通道

第一層卷積：5×5大小的卷積核96個，每個GPU上48個。

第一層max-pooling：2×2的核。

第二層卷積：3×3卷積核256個，每個GPU上128個。

第二層max-pooling：2×2的核。

第三層卷積：與上一層是全連接，3*3的卷積核384個。分到兩個GPU上個192個。

第四層卷積：3×3的卷積核384個，兩個GPU各192個。該層與上一層連接沒有經(jīng)過pooling層。

第五層卷積：3×3的卷積核256個，兩個GPU上個128個。

第五層max-pooling：2×2的核。

第一層全連接：4096維，將第五層max-pooling的輸出連接成為一個一維向量，作為該層的輸入。

第二層全連接：4096維

Softmax層：輸出為1000，輸出的每一維都是圖片屬于該類別的概率。

4 DeepID網(wǎng)絡結構

DeepID網(wǎng)絡結構是香港中文大學的Sun Yi開發(fā)出來用來學習人臉特征的卷積神經(jīng)網(wǎng)絡。每張輸入的人臉被表示為160維的向量，學習到的向量經(jīng)過其他模型進行分類，在人臉驗證試驗上得到了97.45%的正確率，更進一步的，原作者改進了CNN，又得到了99.15%的正確率。

如下圖所示，該結構與ImageNet的具體參數(shù)類似，所以只解釋一下不同的部分吧。

上圖中的結構，在最后只有一層全連接層，然后就是softmax層了。論文中就是以該全連接層作為圖像的表示。在全連接層，以第四層卷積和第三層max-pooling的輸出作為全連接層的輸入，這樣可以學習到局部的和全局的特征。

文章題目：技術向：一文讀懂卷積神經(jīng)網(wǎng)絡
本文網(wǎng)址：http://aaarwkj.com/article10/sdhido.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供云服務器、定制網(wǎng)站、移動網(wǎng)站建設、做網(wǎng)站、建站公司、品牌網(wǎng)站設計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

技術向：一文讀懂卷積神經(jīng)網(wǎng)絡