人工智能之深度學習 第五章 卷積神經網絡_第1頁
人工智能之深度學習 第五章 卷積神經網絡_第2頁
人工智能之深度學習 第五章 卷積神經網絡_第3頁
人工智能之深度學習 第五章 卷積神經網絡_第4頁
人工智能之深度學習 第五章 卷積神經網絡_第5頁
已閱讀5頁,還剩48頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、卷積神經網絡卷積神經網絡概述第一節 卷積層第二節 池化層第三節目錄 content第四節 全連接層第五節 經典網絡結構卷積神經網絡概述第一節引例圖像邊界檢測假設我們有這樣的一張圖片,大小88,圖的中間兩個顏色的分界線就是要檢測的邊界。怎么檢測這個邊界呢?設計一個濾波器(filter,也稱為kernel),大小33:圖片中的數字代表該位置的像素值,像素值越大,顏色越亮,所以為了示意,我們把右邊小像素的地方畫成深色。引例圖像邊界檢測 “卷積”過程:用filter,往原圖片上覆蓋,對應元素相乘,然后求和。計算一個區域之后,就向其他區域挪動,接著計算,直到把原圖片的每一個角落都覆蓋到了為止。引例圖像邊

2、界檢測CNN(convolutional neural network),主要就是通過一個個的filter,不斷地提取特征,從局部的特征到總體的特征,從而進行圖像識別等等功能;每個filter中的各個數字就是參數,可以通過大量的數據,來讓機器自己去“學習”這些參數。這就是CNN的基本原理。卷積神經網絡(Convolutional Neural Network) 卷積神經網絡(Convolutional Neural Network,CNN)是近年來在多層神經網絡的基礎上發展起來的針對圖像分類和識別而特別設計的一種深度學習方法。卷積神經網絡是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍

3、內的周圍單元,對于大型圖像處理有出色表現。 卷積神經網絡在本質上是一種輸入到輸出的映射,它能夠學習大量的輸入與輸出之間的映射關系,而不需要任何輸入和輸出之間的精確的數學表達式,只要用已知的模式對卷積網絡加以訓練,網絡就具有輸入輸出對之間的映射能力。 現在,CNN已經成為眾多科學領域的研究熱點之一,特別是在模式分類領域,由于該網絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用。在近些年的機器視覺領域和其他很多問題上,它是最具影響力的創新結果,卷積神經網絡取得了當前最好的效果。CNN發展歷史1960s1980s1990s 201201030204上世紀60年代, Hu

4、bel 和 Wiesel通過對 貓視覺皮層細胞 的研究,提出了 感受野 這個概念。20世紀 90 年代, Yann LeCun 等人發表論文,確立了 CNN的現代結構,后來又對其進行完善。上世紀80年代,Kunihiko Fukushima在 感受野 概念的基礎之上提出了 神經認知機 (neocognitron)的概念,可以看作是卷積神經網絡的第一個實現網絡。2012年更深層次的 AlexNet網絡 取得成功,此后卷積神經網絡蓬勃發展,被廣泛用于各個領域,在很多問題上都取得了當前最好的性能CNN基本結構 的基本結構由輸入層、隱藏層、輸出層構成。其中隱藏層又包括卷積層、池化層 、全連接層。 卷積

5、層和池化層一般會取若干個,采用卷積層和池化層交替設置,即一個卷積層連接一個池化層,池化層后再連接一個卷積層,依此類推。由于卷積層中輸出特征面的每個神經元與其輸入進行局部連接,并通過對應的連接權值與局部輸入進行加權求和再加上偏置值,得到該神經元輸入值,該過程等同于卷積過程, 也由此而得名。CNN基本結構1. 局部特征提取2. 訓練中進行參數學習3. 每個卷積核提取特定模式的特征卷積層1. 降低數據維度,避免過擬合2. 增強局部感受野3. 提高平移不變性池化層1. 特征提取到分類的橋梁全連接層隱藏層CNN應用目前卷積神經網絡不僅已經成為語音識別、圖像識別及分類、自然語言處理等領域的研究熱點,在這些

6、領域有了廣泛且成功的應用,而且作為新興技術已經成功應用于經濟預測領域。因此本案例引入卷積神經網絡結構對股票時間序列數據進行預測。卷積神經網絡因其不同于 BP / RNN/ DBN 等全連 接(Fully Connected)網絡的網絡結構,可以在各層網絡的神經元之間共享權重,使得網絡整體的權重數量大為降低,也使得模型避免陷入維度災難和局部極小。 語音識別自然語言處理圖像識別機器視覺經濟預測人臉識別應用etc卷積層第二節為什么使用卷積SVM分類步驟:人工提取特征,比如說大小,形狀,重量,顏色等;根據上述特征,把每一張圖片映射到空間中的一個點,空間的維度和特征的數量相等;相同類別的物體具有類似的特

7、征,所以空間中標記為草莓的點肯定是聚在一起的,香蕉和橘子也是同理圖像分類任務的瓶頸出現在特征選擇上為什么使用卷積如果不人工提取特征,計算量會非常大,精確度也無法保證。而人工提取特征的方式又會在某些問題下難以進行。為什么使用卷積 卷積的兩個主要優勢在于:稀疏連接(sparse connectivity)和參數共享(parameter sharing);稀疏連接:每一個神經元不需要去感受全局圖像,只需要感受局部的圖像區域參數共享:卷積層中的卷積核正是充當著共享感受野的角色。一個卷積核提取一個特定的圖像特征,想要得到圖像的多個特征,只需要使用多個卷積核卷積運算 輸入數據和對應的卷積核卷積運算卷積運算

8、 彩色圖像的卷積卷積核 卷積核卷積核使用兩個卷積核進行卷積操作填充(padding)填充后的數據填充填充多少像素,通常有兩個選擇:valid和samevalid卷積(valid convolutions):意味著不填充。如果輸入是nn的圖像,用一個ff的卷積核卷積,那么得到的輸出是(n-f+1)(n-f+1)的特征圖。same卷積(same convolutions):意味著填充后輸出和輸入的大小是相同的。如果輸入是nn的圖像,當你填充p個像素點后,n就變成了n+2p。根據n+2p-f+1=n便可計算p的值。填充不使用Padding的缺點經過卷積操作后圖像會縮小。如果你注意角落邊的像素,則此像

9、素點只會被卷積核觸碰一次。即只會在第一次卷積操作時被卷積核掃描。這意味著會丟失圖像邊緣的很多信息。但是對于原始圖像中心的像素點,在每次卷積操作時都會被掃描。卷積核的感受野會掃描此位置多次.使用Padding進行維度的填充為了使每次卷積操作后大小不會丟失,使用0填充在原始圖像的外圍。如果需要使經過卷積后的特征圖大小保持不變,則卷積核的邊長是奇數,則能保證輸出的特征圖大小與原圖像大小相等。步長步長激活函數在使用卷積核對輸入進行卷積運算得到特征圖之后,往往需要使用激活函數對特征圖進行激活,卷積神經網絡激活函數首選為ReLU。ReLU激活函數的優勢:反向傳播時,可以避免梯度消失Relu會使一部分神經元

10、的輸出為0,這樣就造成了網絡的稀疏性,并且減少了參數的相互依存關系,緩解了過擬合問題的發生相對于sigmoid激活函數,tanh激活函數,求導簡單。采用sigmoid等函數,算激活函數時(指數運算),計算量大,反向傳播求誤差梯度時,求導涉及除法,計算量相對大,而采用Relu激活函數,整個過程的計算量節省很多池化層第三節池化層 池化層緊跟在卷積層之后,同樣由多個特征面組成,它的每一個特征面唯一對應于其上一層的一個特征面,不會改變特征面的個數。卷積層是池化層的輸入層,卷積層的一個特征面與池化層中的一個特征面唯一對應,且池化層的神經元也與其輸入層的局部接受域相連,不同神經元局部接受域不重疊。池化層旨

11、在通過降低特征面的分辨率來獲得具有空間不變性的特征 。池化層起到二次提取特征的作用,它的每個神經元對局部接受域進行池化操作。 上圖顯示,池化就是對特征圖進行特征壓縮,池化層也被稱為下采樣層,常用的池化方法有最大池化即取局部接受域中值最大的點、平均值池化即對局部接受域中的所有值求均值、隨機池化。池化層作用4. 增強網絡對輸入圖像中的小變形、扭曲、平移的魯棒性1. 減少參數數量,提高計算效率2.提高局部平移不變性,大大提高了圖像分類的準確性3.降低了數據維度,有效地避免了過擬合池化層池化方法為最大值池化(max pooling)和平均值池化(average pooling)使用時僅需要指定池化方法

12、的類型(max pooling或average pooling等)、池化的核大小(kernel size)和池化的步長(stride)等超參數池化層全連接層第四節全連接層 全連接層中的每個神經元與其前一層的所有神經元進行全連接。全連接層可以整合卷積層或者池化層中具有類別區分性的局部信息 。為了提升 CNN 網絡性能,全連接層每個神經元的激勵函數一般采用 RELU 函數。最后一層全連接層的輸出值被傳遞給一個輸出層,可以采用 softmax 邏輯回歸進行分類,該層也可稱為 softmax 層。 卷積層和池化層的輸出代表了輸入圖像的高級特性,而全連接層的目的就是類別基于訓練集用這些特征進行分類, 連

13、接所有的特征,將輸出值送給分類器(如 softmax 分類器)。全連接層經典網絡結構第五節經典網絡結構LeNetAlexNetNINVGGNetGoogLeNet(Inception)ResNetInception ResNetILSVRC圖像分類競賽近年結果。網絡結構的改進網絡深度的增加深度卷積神經網絡發展圖AlexNetAlexNet在LeNet基礎上進行了更寬更深的網絡設計,首次在CNN中引入了ReLU、Dropout和Local Response Norm (LRN)等技巧。網絡的技術特點如下:使用ReLU (Rectified Linear Units)作為CNN的激活函數,并驗證其

14、效果在較深的網絡超過了Sigmoid,成功解決了Sigmoid在網絡較深時的梯度彌散問題,提高了網絡的訓練速率。為避免過擬合,訓練時使用Dropout隨機忽略一部分神經元。使用重疊的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重疊技巧可以提升特征的豐富性。提出了LRN層(ReLU后進行歸一化處理),對局部神經元的活動創建競爭機制,使得其中響應比較大的值變得相對更大,并抑制其他反饋較小的神經元,增強了模型的泛化能力。利用GPU強大的并行計算能力加速網絡訓練過程,并采用GPU分塊訓練的方式解決顯存對網絡規模的限制。ReLU數據增強。利用隨機裁剪和翻轉鏡像操作增加

15、訓練數據量,降低過擬合。Dropoutmax pooling:池化時取最大值AlexNet AlexNet網絡結構示意圖網絡包含5個卷積層和3個全連接層,最后為有1000個類別輸出的Softmax層。網絡在兩塊GPU上并行訓練AlexNetAlexNet具體參數AlexNetConv 1111+ReLU/96LRNMax pooling 33Conv 55+ReLU/256LRNMax pooling 33Conv 33+ReLU/384Conv 33+ReLU/384Conv 33+ReLU/256Max pooling 33FC+ReLU/4096FC+ReLU/4096FC+ReLU/1

16、000網絡結構35K307K884K1.3M442K37M16M4M參數圖:AlexNet網絡配置和參數數量卷積核大小遞減,依次為1111、55和33。 第一層卷積步長為4,之后保持為1。在前兩層卷積之后使用了LRN層。與全連接層相比,卷積層包含較少的參數。 因此可通過減少全連接層降低網絡參數,提高 訓練時間,在Network in Network中利用了這一點。AlexNet在ILSVRC2012圖像分類競賽中將top-5 錯誤率降至16.4%,掀起了深度卷積神經網絡在各個領域的研究熱潮。VGGNet VGG Net于2014年被牛津大學的Karen Simonyan 和Andrew Zis

17、serman提出,主要特點是“簡潔,深度”。與AlexNet主要有以下不同:* Vgg16有16層網絡,AlexNet只有8層;* 在訓練和測試時使用了多尺度做數據增強。VGG Net網絡模型深度: VGG有19層,遠遠超過了它的前輩;簡潔: 在于它的結構上,一律采用stride為1的33filter,以及stride為2的22MaxPooling。VGGNet圖:VGG不同級別的網絡結構和相應的參數數量(單位為百萬)網絡包含5組卷積操作,每組包含14個連續 的卷積層,每兩個卷積層之間為ReLU層。 每組內的卷積層具有相同的結構。不同級別的網絡層數逐漸加深,網絡的表達 能力也逐漸增強。其中,V

18、GGNet-E的網絡 深度達到了19層。由于網絡參數主要集中在全連接層,因此 不同級別網絡的參數數量相差不大。VGGNetVGGNet訓練和測試:多尺度策略:訓練階段,將圖像縮放到不同尺寸S,并隨機裁剪224224的訓練樣本測試階段,將圖像縮放到尺寸Q,并對網絡最后的卷積層使用滑動窗口進行分類預測,對不同窗口的分類結果取平均。圖9:VGGNet采用多尺度策略的效果提升,來源于文獻 3。上方圖像為單尺度分類結果,下方為多尺度結果。多尺度訓練在ILSVRC2014圖像分類的top-5錯誤率達到7.5%,通過進一步融合單尺度和多尺度網絡,VGGNet將最終結果提升至7.3%。ResNet RestN

19、et(殘差網絡)于2015年由MSRA何凱明團隊提出了Residual Networks。CNN面臨的一個問題,隨著層數的增加,CNN的效果會遇到瓶頸,甚至會不增反降。這往往是梯度爆炸或者梯度消失引起的。 ResNet就是為了解決這個問題而提出的,因而幫助訓練更深的網絡,引入了一個residual block(殘差塊)。ResNet 這個做法相當于把前面的信息提取出來,加入到當前的計算中,論文作者認為,這樣的做法,可以使神經網絡更容易優化,事實上確實是這樣。 通過這種residual block,成功地搭建了一個擁有152層的CNN!深不見底!ResNet RestNet(殘差網絡)于2015年由MSRA何凱明團隊提出了Residual Networks。Inception-ResNet-v2內部結構YOLOYOLO檢測物體非常快。人類視覺系統快速且精準,只需瞄一眼(You Only Look Once,YOLO)即可識別圖像中物品及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論