




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、深度學習方法在圖像處理中的應用與研究1. 概述和背景12.人腦視覺機理33.深度學習的基本思想64.深度學習的常用方法75. 總結與展望9深度學習方法在圖像處理中的應用與研究 1. 概述和背景 Artificial Intelligence,也就是人工智能,就像長生不老和星際漫游一樣,是人類最美好的夢想之一。雖然計算機技術已經取得了長足的進步,但是到目前為止,還沒有一臺電腦能產生“自我”的意識。是的,在人類和大量現成數據的幫助下,電腦可以表現的十分強大,但是離開了這兩者,它甚至都不能分辨一個喵星人和一個汪星人。 圖靈(圖靈,大家都知道吧。計算機和人工智能的鼻祖,分別對應于其著名的“圖靈機”和“
2、圖靈測試”)在 1950 年的論文里,提出圖靈試驗的設想,即,隔墻對話,你將不知道與你談話的,是人還是電腦。這無疑給計算機,尤其是人工智能,預設了一個很高的期望值。但是半個世紀過去了,人工智能的進展,遠遠沒有達到圖靈試驗的標準。這不僅讓多年翹首以待的人們,心灰意冷,認為人工智能是忽悠,相關領域是“偽科學”。 但是自 2006 年以來,機器學習領域,取得了突破性的進展。圖靈試驗,至少不是那么可望而不可及了。至于技術手段,不僅僅依賴于云計算對大數據的并行處理能力,而且依賴于算法。這個算法就是,Deep Learning。借助于 Deep Learning 算法,人類終于找到了如何處理“抽象概念”這
3、個亙古難題的方法。 在實際應用中,例如對象分類問題如對象的分類(對象可是文檔、圖像、音頻等),我們不得不面對的一個是問題是如何用數據來表示這個對象,當然這里的數據并非初始的像素或者文字,也就是這些數據是比初始數據具有更為高層的含義,這里的數據往往指的就是對象的特征。例如人們常常將文檔、網頁等數據用詞的集合來表示,根據文檔的詞集合表示到一個詞組短語的向量空間 (vector space model, VSM模型)中,然后才能根抓不同的學習方法設計出適用的分類器來對目標對象進行分類;又如在圖像處理中,像素強度的集合的表示方法可以最初淺的表示一幅圖像,這也是我們視覺意義上的圖像,一可是由于各種原因人
4、們提出了更高層的語義的特征,如SIFT為經典的幾何特征、以LBP為經典的紋理特征、以特征臉為經典的統計特征等,像SIFT,特征在很多圖像處理的應用中突顯出其優越性,因此特征選取得好壞對于實際應用的影響是很深刻的。因此,選取什么特征或者用什么特征來表示某一對象對于解決一個實際問題非常的重要。然而,人為地選取特征的時間代價是非常昂貴,另外勞動成本也高,而所謂的啟發式的算法得到的結果往往不穩定,結果好壞經常是依靠經驗和運氣。既然如此,人們自然考慮到自動學習來完成特征抽取這一任務。Deep Learning的產生就是緣于此任務,它又被稱為無監督的特征學習(Unsupervised Feature Le
5、arning ),一顯然從這個名稱就可以知道這是一個沒有人為參與的特征選取方法。 深度學習(Deep Learning)的概念是2006年左右由 Geoffrey Hinton等人在science上發表的一篇文章(Reducing the dimensionality of data with neural networks提出來的,主要通過神經網絡(Neural Network NN)來模擬人的大腦的學習過程,希望借鑒人腦的多層抽象機制來實現對現實對象或數抓(圖像、語音及文木等)的抽象表達,整合特征抽取和分類器到一個學習框架下,特征的抽取過程中應該盡量少地減少人為的干預。 深度學習是通過大量
6、的簡單神經元組成,每層的神經元接收更低層的神經元的輸入,通過輸入與輸出之間的非線性關系,將低層特征組合成更高層的抽象表示,并發現觀測數據的分布式特征。通過自下而上的學習形成多層的抽象表示,并多層次的特征學習是大連理卜大學碩十學位論文一個自動地無人工干預的過程。根據學習到的網絡結構,系統將輸入的樣本數據映射到各種層次的特征,并利用分類器或者匹配算法對頂層的輸出單元進行分類識別等。2.人腦視覺機理研究表明,哺乳動物的大腦皮層,處理輸入信息時是采用了一種分層機制,信息從感知器官輸入后,經過多層的神經元,在經過每一層神經元時,神經元會將能夠體現對象本質的特征抽取出來,然后將這些特征繼續傳遞到下一層神經
7、元上,同樣地,后繼的各層神經元都是以類似的方式處理和傳遞信息,最后傳至大腦。深層的人工神經網絡的誕生很大程度上受這一發現的啟示,即構建一種包含多層結點,并且使得信息、得以逐層處理抽象的神經網絡。換言之,哺乳動物的大腦是以深度方式組織的,這一類深層的結構組織里的每一層會對于輸入進行不同層次的信息處理或者抽象表示,因此,實際生活中,層次化的方法經常被用于表示一些抽象的語義概念。與哺乳動物一樣,人類的大腦處理信矛息時也是采用逐層傳輸和表達的方式,人腦的初級視覺系統,首先利用某些神經元探測物體邊界、元形狀,然后又利用其他的神經元組織,逐步向上處理形成更復雜的視覺形狀。人腦識別物體的原理是:外部世界中的
8、物體先在視網膜上進行投影,然后大腦的視皮層對于聚集在視網膜上的投影進行分解處理,最后利用這些分解處理后的信息進行物體識別。因此視皮層的功能不是僅限于簡單的重現視網膜圖像,而是提取和計算感知信號。視覺系統的輸入數據量在人類感知系統的層次結構進行了維數減約,并剔除了與物體個性無關的信息;例如對于處理潛在結構是復雜的豐富數據(如圖像、視頻、主意等),深度學習應該與人類視覺系統一樣可以精準地獲取對象的本質特征。深度學習的構想是借鑒大腦的分層組織方式,通過由下向上、由簡單到高級的逐層抽象的特征學習,研究者們期望深度網絡結構能通過模擬大腦來解決復雜的模式識別難題。因此,深層的人工神經網絡是一種人工定義用于
9、模擬人腦組織形式的多層神經網絡。從文本來說,一個doc表示什么意思?我們描述一件事情,用什么來表示比較合適?用一個一個字嘛,我看不是,字就是像素級別了,起碼應該是term,換句話說每個doc都由term構成,但這樣表示概念的能力就夠了嘛,可能也不夠,需要再上一步,達到topic級,有了topic,再到doc就合理。但每個層次的數量差距很大,比如doc表示的概念->topic(千-萬量級)->term(10萬量級)->word(百萬量級)。 一個人在看一個doc的時候,眼睛看到的是word,由這些word在大腦里自動切詞形成term,在按照概念組織的方式,先驗的學習,得到top
10、ic,然后再進行高層次的learning。那我們需要有多少個特征呢?我們知道需要層次的特征構建,由淺入深,但每一層該有多少個特征呢?任何一種方法,特征越多,給出的參考信息就越多,準確性會得到提升。但特征多意味著計算復雜,探索的空間大,可以用來訓練的數據在每個特征上就會稀疏,都會帶來各種問題,并不一定特征越多越好。一些淺層的算法(指僅含一個隱層的神經網絡、核回歸、支撐向量機等),當給定有限數量的樣本和計算單元時,淺層結構難以有效地表示復雜函數,并且對于復雜分類問題表現性能及泛化能力針均有明顯的不足,尤其當目標對象具有豐富的含義。深度學習通過大量的簡單神經元組成的網絡,利用輸入與輸出之間的非線性關
11、系,對復雜函數進行近似,對觀測樣本進行擬合,并在學習輸入樣本本質特征的抽取上體現了強大的能力。有文獻中就列舉出一系列無法使用淺層網絡表示的函數,這些研究成果揭示了淺層網絡的局限性,從而也激發了人們探尋深度網絡在一些復雜函數表示和復雜分類的應用前景。指出深度學習結構在對于復雜函數的表示問題上具有非常高的效率及效果,而一個不適用的結構模型否(如淺層網絡)對數據建模時可能需要數目非常大的計算單元。3.深度學習的基本思想假設一個系統S,它是一個n層(S1,Sn)的結構,I是系統的輸入,O是系統輸出,形象地表示為:I =>S1=>S2=>.=>Sn=>O,如果輸出O等于輸入
12、I,物理意義也就是表明在經過系統變化之后,輸入I的信息量沒有任何損失,和原始的輸入保持了不變,這表明了輸入I經過每一層S;均沒有丟失任何信息,,即在任何一層S;,它都是輸入I也就是原始信息的另外一種表示。簡單說,深度學習的精髓也就是,在一個n層的神經網絡中,任何一層的輸入I和輸出O是“相等.的。學習過程中,我們希望它是不需要人為干預的,它能夠自動地學習對象的特征。在給定一組原始的輸入I(可以理解為是一堆圖像或者文本、一段語音之類),經過一個包含n層的系統S時,我們通過調整系統中參數,使得輸出與輸出相等,即輸出O仍然是輸入I,這樣,我們就獲取了輸入I(原始數據)的一系列的層次特征,記為S, .S
13、n。另外,前面是假設輸出嚴格地等于輸入,即這個地方“相等”有兩個含義在里面:第一個是說O和I不是在絕對形式上的相等,而是在抽象意義上的相等;另外一點指的是限制的約束的程度,比如說是不會造成歧義的完全“相等”還是有適當寬松條件的“相等”。而絕對意義上的“相等”這個限制太嚴格,我們可以略微地放松這個限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個放松會形成另外一類不同的深度學習的方法。舉個不太恰當的例子,比如說對“交通工具”這個概念上,I是“可以駕駛的四個輪子”,O是“車”,這樣雖然對兩者的描述不一致,但是我們都一可以理解為“交通工具”了。上述就是深度學習的基本思想,而上述中的兩個思想也
14、對應了深度學習中的兩個經典的方法AutoEncoder和Sparse Coding,還有一個很常用的方法就是受限玻爾茲曼機(Restrict Boltzmann Machine, RBM )。4. 深度學習的常用方法4.1AutoEncoder自動編碼器最簡單的一種方法是利用人工神經網絡的特點,人工神經網絡(ANN)本身就是具有層次結構的系統,如果給定一個神經網絡,我們假設其輸出與輸入是相同的,然后訓練調整其參數,得到每一層中的權重,自然地,我們就得到了輸入I的兒種不同表示(每一層是輸入的一種表示),這些表示就是特征,在研究中可以發現,如果在原有的特征中加入這些自動學習得到的特t正可以大大提高
15、精確度,甚至在分類問題中比前址好的分類算法效果還要好,這種方法稱為自動編碼(AutoEncoder )。4.2、Sparse Coding稀疏編碼如果我們把輸出必須和輸入相等的限制放松,同時利用線性代數中基的概念,即O=Wx B, +硯x B, +.+W,x B, , B是基,W;是系數,我們可以得到這樣一個優化問題:Min 11一Olo通過求解這個最優化式子,我們可以求得系數W和基B;,這些系數和基礎就是輸入的另外一種近似表達,因此,它們可以被當成特征來表達輸入I,這個過程也是自動學習得到的。如果我們在上述式子上加上L1的Regularity限制,得到: MinI一O+u*(IW卜硯I+W,
16、)。(2. 1)種方法被稱為Sparse Coding,它是一種對對象的簡潔表征的方法,這種方法可以自動地學習到隱藏在對象數據潛在的基函數。4.3、Restricted Boltzmann Machine(RBM)限制波爾茲曼機假設有一個二部圖,每一個相同層的節點之間沒有鏈接,一層是可視層,即輸入數據層(v),一層是隱層(h),如果假設所有的節點都是二值變量節點(只能取0或者1值),同時假設聯合概率分布p(v, h)滿足Boltzmann分布,我們稱這個模型是受限玻爾茲曼機(RBM)。下面我們來看看為什么它是Deep Learning方法。首先,這個模型因為是二部圖,所以在己知v的情況下,所有
17、的隱藏節點之間是條件獨立的,即p(hIv卜p(h, I 1,) . p(h I v)。同理,在己知隱藏層h的情況下,所有的可視節點都是條件獨立的,同時又由于所有的v和h滿足Boltzmann分布,因此,當輸入v的時候,通過p(hlv)可以得到隱藏層h,而得到隱藏層h之后,通過p(vlh)又能重構可視層,通過調整參數,我們就是要使得從隱藏層得到的可視層VI與原來的可視層v如果一樣,那么得到的隱藏層就是可視層的另外一種表達,因此隱藏層可以作為可視層輸入數據的特征,所以它就是一種Dcep Learning方法。文獻X32從理論一上證明,當隱層節點足夠多時,深度網絡就可以表示任意離散分布;文獻33指出
18、受限玻爾茲曼機中的隱層節點與可視節點可以為任意的指數族單元(即給定隱單元(可見單元),可見單元(隱單元)的分布的形式一可以為任意的指數族分布),如高斯單元、softmax單元、泊松單元等等。4.4、Deep BeliefNetworks深信度網絡 DBNs是一個概率生成模型,與傳統的判別模型的神經網絡相對,生成模型是建立一個觀察數據和標簽之間的聯合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了后者,也就是P(Label|Observation)。對于在深度神經網絡應用傳統的BP算法的時候,DBNs遇到了以下問題:
19、(1)需要為訓練提供一個有標簽的樣本集;(2)學習過程較慢;(3) 不適當的參數選擇會導致學習收斂于局部最優解。 目前,和DBNs有關的研究包括堆疊自動編碼器,它是通過用堆疊自動編碼器來替換傳統DBNs里面的RBMs。這就使得可以通過同樣的規則來訓練產生深度多層神經網絡架構,但它缺少層的參數化的嚴格要求。與DBNs不同,自動編碼器使用判別模型,這樣這個結構就很難采樣輸入采樣空間,這就使得網絡更難捕捉它的內部表達。但是,降噪自動編碼器卻能很好的避免這個問題,并且比傳統的DBNs更優。它通過在訓練過程添加隨機的污染并堆疊產生場泛化性能。訓練單一的降噪自動編碼器的過程和RBMs訓練生成模型的過程一樣
20、。 4.5 Networks卷積神經網絡 卷積神經網絡是人工神經網絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入是多維圖像時表現的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。 CNNs是受早期的延時神經網絡(TDNN)的影響。延時神經網絡通過在時間維度上共享權值降低學習復雜度,適用于語音和時間序列信號的處理。 CNNs
21、是第一個真正成功訓練多層網絡結構的學習算法。它利用空間關系減少需要學習的參數數目以提高一般前向BP算法的訓練性能。CNNs作為一個深度學習架構提出是為了最小化數據的預處理要求。在CNN中,圖像的一小部分(局部感受區域)作為層級結構的最低層的輸入,信息再依次傳輸到不同的層,每層通過一個數字濾波器去獲得觀測數據的最顯著的特征。這個方法能夠獲取對平移、縮放和旋轉不變的觀測數據的顯著特征,因為圖像的局部感受區域允許神經元或者處理單元可以訪問到最基礎的特征,例如定向邊緣或者角點。5. 總結與展望1)Deep learning總結 深度學習是關于自動學習要建模的數據的潛在(隱含)分布的多層(復雜)表達的算
22、法。換句話來說,深度學習算法自動的提取分類需要的低層次或者高層次特征。高層次特征,一是指該特征可以分級(層次)地依賴其他特征,例如:對于機器視覺,深度學習算法從原始圖像去學習得到它的一個低層次表達,例如邊緣檢測器,小波濾波器等,然后在這些低層次表達的基礎上再建立表達,例如這些低層次表達的線性或者非線性組合,然后重復這個過程,最后得到一個高層次的表達。 Deep learning能夠得到更好地表示數據的feature,同時由于模型的層次、參數很多,capacity足夠,因此,模型有能力表示大規模數據,所以對于圖像、語音這種特征不明顯(需要手工設計且很多沒有直觀物理含義)的問題,能夠在大規模訓練數據上取得更好的效果。此外,從模式識別特征和分類器的角度,deep learning框架將feature和分類器結合到一個框架中,用數據去學習feature,在使用中減少了手工設計feature的巨大工作量(這是目前工業界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來也有很多方便之處,因此,是十
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國油泵柱塞市場調查研究報告
- 2025年中國桑塔納下搖臂市場調查研究報告
- 2025年中國無塵地板市場調查研究報告
- 工業互聯網平臺量子通信技術在智慧工廠環境監測中的應用前景分析報告
- 2025年中國小紅帽粗線電加熱器市場調查研究報告
- 2025年中國卡布隆板市場調查研究報告
- DB33T 1373-2024農村電影放映服務規范
- 生態旅游可持續發展規劃與管理報告:2025年生態旅游與旅游者旅游體驗評價體系創新研究
- 場外活動合同協議
- 社保局終止協議合同書
- 電力工程鋼網架安裝工程檢驗批質量驗收記錄表
- 小學三年級音樂《馬蘭謠》課件
- “當代文化參與”學習任務群相關單元的設計思路與教學建議課件(共51張PPT)
- 提高臥床患者踝泵運動的執行率品管圈匯報書模板課件
- 同理心的應用教學教材課件
- DB4102-T 025-2021海綿城市建設施工與質量驗收規范-(高清現行)
- 城市軌道交通安全管理隱患清單
- 錫膏使用記錄表
- 兒童保健學課件:緒論
- 中小學校園安全穩定工作崗位責任清單
- 校園安全存在問題及對策
評論
0/150
提交評論