一文讀懂卷積神經網絡CNN_第1頁
一文讀懂卷積神經網絡CNN_第2頁
一文讀懂卷積神經網絡CNN_第3頁
一文讀懂卷積神經網絡CNN_第4頁
一文讀懂卷積神經網絡CNN_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一文讀懂卷積神經網絡CNN第一點,在學習Deep learning和CNN之前,總以為它們是很了不得的知識,總以為它們能解決很多問題,學習了之后,才知道它們不過與其他機器學習算法如SVM等相似,仍然可以把它當作一個分類器,仍然可以像使用一個黑盒子那樣使用它。第二點,Deep Learning強大的地方就是可以利用網絡中間某一層的輸出當作是數據的另一種表達,從而可以將其認為是經過網絡學習到的特征。基于該特征,可以進行進一步的相似度比較等。第三點,Deep Learning算法能夠有效的關鍵其實是大規模的數據,這一點原因在于每個DL都有眾多的參數,少量數據無法將參數訓練充分。接下來話不多說,直接奔

2、入主題開始CNN之旅。卷積神經網絡簡介(Convolutional Neural Networks,簡稱CNN),卷積神經網絡是近年發展起來,并引起廣泛重視的一種高效識別方法。20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的復雜性,繼而提出了卷積神經網絡(Convolutional Neural Networks-簡稱CNN)。現在,CNN已經成為眾多科學領域的研究熱點之一,特別是在模式分類領域,由于該網絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用。 K.Fukushim

3、a在1980年提出的新識別機是卷積神經網絡的第一個實現網絡。隨后,更多的科研工作者對該網絡進行了改進。其中,具有代表性的研究成果是Alexander和Taylor提出的“改進認知機”,該方法綜合了各種改進方法的優點并避免了耗時的誤差反向傳播。一般地,CNN的基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關系也隨之確定下來;其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡的激活函數,使

4、得特征映射具有位移不變性。此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數的個數。卷積神經網絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數據進行學習,所以在使用CNN時,避免了顯示的特征抽取,而隱式地從訓練數據中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網絡可以并行學習,這也是卷積網絡相對于神經元彼此相連網絡的一大優勢。卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性,其布局更接近于實

5、際的生物神經網絡,權值共享降低了網絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數據重建的復雜度。1、神經網絡首先介紹神經網絡,這一步的詳細可以參考資源1。簡要介紹下。神經網絡的每個單元如下:其對應的公式如下:其中,該單元也可以被稱作是Logistic回歸模型。當將多個單元組合起來并具有分層結構時,就形成了神經網絡模型。下圖展示了一個具有一個隱含層的神經網絡。其對應的公式如下:比較類似的,可以拓展到有2,3,4,5,個隱含層。神經網絡的訓練方法也同Logistic類似,不過由于其多層性,還需要利用鏈式求導法則對隱含層的節點進行求導,即梯度下降+鏈式求導法

6、則,專業名稱為反向傳播。關于訓練算法,本文暫不涉及。2、卷積神經網絡在圖像處理中,往往把圖像表示為像素的向量,比如一個1000×1000的圖像,可以表示為一個1000000的向量。在上一節中提到的神經網絡中,如果隱含層數目與輸入層一樣,即也是1000000時,那么輸入層到隱含層的參數數據為1000000×1000000=1012,這樣就太多了,基本沒法訓練。所以圖像處理要想練成神經網絡大法,必先減少參數加快速度。就跟辟邪劍譜似的,普通人練得很挫,一旦自宮后內力變強劍法變快,就變的很牛了。2.1 局部感知卷積神經網絡有兩種神器可以降低參數數目,第一種神器叫做局部感知。一般認為

7、人對外界的認知是從局部到全局的,而圖像的空間聯系也是局部的像素聯系較為緊密,而距離較遠的像素相關性則較弱。因而,每個神經元其實沒有必要對全局圖像進行感知,只需要對局部進行感知,然后在更高層將局部的信息綜合起來就得到了全局的信息。網絡部分連通的思想,也是受啟發于生物學里面的視覺系統結構。視覺皮層的神經元就是局部接受信息的(即這些神經元只響應某些特定區域的刺激)。如下圖所示:左圖為全連接,右圖為局部連接。在上右圖中,假如每個神經元只和10×10個像素值相連,那么權值數據為1000000×100個參數,減少為原來的千分之一。而那10×10個像素值對應的10×1

8、0個參數,其實就相當于卷積操作。2.2 參數共享但其實這樣的話參數仍然過多,那么就啟動第二級神器,即權值共享。在上面的局部連接中,每個神經元都對應100個參數,一共1000000個神經元,如果這1000000個神經元的100個參數都是相等的,那么參數數目就變為100了。怎么理解權值共享呢?我們可以將這100個參數(也就是卷積操作)看成是提取特征的方式,該方式與位置無關。這其中隱含的原理則是:圖像的一部分的統計特性與其他部分是一樣的。這也意味著我們在這一部分學習的特征也能用在另一部分上,所以對于這個圖像上的所有位置,我們都能使用同樣的學習特征。更直觀一些,當從一個大尺寸圖像中隨機選取一小塊,比如

9、說 8×8 作為樣本,并且從這個小塊樣本中學習到了一些特征,這時我們可以把從這個 8×8 樣本中學習到的特征作為探測器,應用到這個圖像的任意地方中去。特別是,我們可以用從 8×8 樣本中所學習到的特征跟原本的大尺寸圖像作卷積,從而對這個大尺寸圖像上的任一位置獲得一個不同特征的激活值。如下圖所示,展示了一個33的卷積核在55的圖像上做卷積的過程。每個卷積都是一種特征提取方式,就像一個篩子,將圖像中符合條件(激活值越大越符合條件)的部分篩選出來。2.3 多卷積核上面所述只有100個參數時,表明只有1個100*100的卷積核,顯然,特征提取是不充分的,我們可以添加多個卷

10、積核,比如32個卷積核,可以學習32種特征。在有多個卷積核時,如下圖所示:上圖右,不同顏色表明不同的卷積核。每個卷積核都會將圖像生成為另一幅圖像。比如兩個卷積核就可以將生成兩幅圖像,這兩幅圖像可以看做是一張圖像的不同的通道。如下圖所示,下圖有個小錯誤,即將w1改為w0,w2改為w1即可。下文中仍以w1和w2稱呼它們。下圖展示了在四個通道上的卷積操作,有兩個卷積核,生成兩個通道。其中需要注意的是,四個通道上每個通道對應一個卷積核,先將w2忽略,只看w1,那么在w1的某位置(i,j)處的值,是由四個通道上(i,j)處的卷積結果相加然后再取激活函數值得到的。所以,在上圖由4個通道卷積得到2個通道的過

11、程中,參數的數目為4×2×2×2個,其中4表示4個通道,第一個2表示生成2個通道,最后的2×2表示卷積核大小。2.4 Down-pooling在通過卷積獲得了特征 (features) 之后,下一步我們希望利用這些特征去做分類。理論上講,人們可以用所有提取得到的特征去訓練分類器,例如 softmax 分類器,但這樣做面臨計算量的挑戰。例如:對于一個 96×96 像素的圖像,假設我們已經學習得到了400個定義在8×8輸入上的特征,每一個特征和圖像卷積都會得到一個 (96 8 + 1) × (96 8 + 1) = 7921 維

12、的卷積特征,由于有 400 個特征,所以每個樣例 (example) 都會得到一個 7921 × 400 = 3,168,400 維的卷積特征向量。學習一個擁有超過 3 百萬特征輸入的分類器十分不便,并且容易出現過擬合 (over-fitting)。為了解決這個問題,首先回憶一下,我們之所以決定使用卷積后的特征是因為圖像具有一種“靜態性”的屬性,這也就意味著在一個圖像區域有用的特征極有可能在另一個區域同樣適用。因此,為了描述大的圖像,一個很自然的想法就是對不同位置的特征進行聚合統計,例如,人們可以計算圖像一個區域上的某個特定特征的平均值 (或最大值)。這些概要統計特征不僅具有低得多的

13、維度 (相比使用所有提取得到的特征),同時還會改善結果(不容易過擬合)。這種聚合的操作就叫做池化 (pooling),有時也稱為平均池化或者最大池化 (取決于計算池化的方法)。至此,卷積神經網絡的基本結構和原理已經闡述完畢。2.5 多層卷積在實際應用中,往往使用多層卷積,然后再使用全連接層進行訓練,多層卷積的目的是一層卷積學到的特征往往是局部的,層數越高,學到的特征就越全局化。3、ImageNet-2010網絡結構ImageNet LSVRC是一個圖片分類的比賽,其訓練集包括127W+張圖片,驗證集有5W張圖片,測試集有15W張圖片。本文截取2010年Alex Krizhevsky的CNN結構

14、進行說明,該結構在2010年取得冠軍,top-5錯誤率為15.3%。值得一提的是,在今年的ImageNet LSVRC比賽中,取得冠軍的GoogNet已經達到了top-5錯誤率6.67%。可見,深度學習的提升空間還很巨大。下圖即為Alex的CNN結構圖。需要注意的是,該模型采用了2-GPU并行結構,即第1、2、4、5卷積層都是將模型參數分為2部分進行訓練的。在這里,更進一步,并行結構分為數據并行與模型并行。數據并行是指在不同的GPU上,模型結構相同,但將訓練數據進行切分,分別訓練得到不同的模型,然后再將模型進行融合。而模型并行則是,將若干層的模型參數進行切分,不同的GPU上使用相同的數據進行訓

15、練,得到的結果直接連接作為下一層的輸入。上圖模型的基本參數為:輸入:224×224大小的圖片,3通道第一層卷積:5×5大小的卷積核96個,每個GPU上48個。第一層max-pooling:2×2的核。第二層卷積:3×3卷積核256個,每個GPU上128個。第二層max-pooling:2×2的核。第三層卷積:與上一層是全連接,3*3的卷積核384個。分到兩個GPU上個192個。第四層卷積:3×3的卷積核384個,兩個GPU各192個。該層與上一層連接沒有經過pooling層。第五層卷積:3×3的卷積核256個,兩個GPU上個128個。第五層max-pooling:2×2的核。第一層全連接:4096維,將第五層max-pooling的輸出連接成為一個一維向量,作為該層的輸入。第二層全連接:4096維Softmax層:輸出為1000,輸出的每一維都是圖片屬于該類別的概率。4、DeepID網絡結構DeepID網絡結構是香港中文大學的Sun Yi開發出來用來學習人臉特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論