




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器人的學習研究進展深度學習及應用演示文稿現在是1頁\一共有84頁\編輯于星期五機器人的學習研究進展深度學習及應用現在是2頁\一共有84頁\編輯于星期五內容1.深度學習概述
2.深度學習應用研究現在是3頁\一共有84頁\編輯于星期五1.深度學習概述1.1概述1.2背景1.3人腦視覺機理1.4關于特征1.5深度學習的基本思想1.6淺層學習(ShallowLearning)和深度學習(DeepLearning)現在是4頁\一共有84頁\編輯于星期五1.深度學習概述1.7Deeplearning與NeuralNetwork1.8Deeplearning訓練過程1.9DeepLearning的常用模型或者方法現在是5頁\一共有84頁\編輯于星期五1.1概述ArtificialIntelligence,也就是人工智能,就像長生不老和星際漫游一樣,是人類最美好的夢想之一。雖然計算機技術已經取得了長足的進步,但是到目前為止,還沒有一臺電腦能產生“自我”的意識。的確如此,在人類和大量現成數據的幫助下,電腦可以表現的十分強大,但是離開了這兩者,它甚至都不能分辨一個喵星人和一個汪星人。現在是6頁\一共有84頁\編輯于星期五1.1概述圖靈(計算機和人工智能的鼻祖,分別對應于其著名的“圖靈機”和“圖靈測試”)在1950年的論文里,提出圖靈試驗的設想,即,隔墻對話,你將不知道與你談話的,是人還是電腦。這無疑給計算機,尤其是人工智能,預設了一個很高的期望值。但是半個世紀過去了,人工智能的進展,遠遠沒有達到圖靈試驗的標準。這不僅讓多年翹首以待的人們,心灰意冷,認為人工智能是忽悠,相關領域是“偽科學”。現在是7頁\一共有84頁\編輯于星期五1.1概述但是自2006年以來,機器學習領域,取得了突破性的進展。圖靈試驗,至少不是那么可望而不可及了。至于技術手段,不僅僅依賴于云計算對大數據的并行處理能力,而且依賴于算法。這個算法就是,DeepLearning。借助于DeepLearning算法,人類終于找到了如何處理“抽象概念”這個亙古難題的方法。現在是8頁\一共有84頁\編輯于星期五1.1概述2012年6月,《紐約時報》披露了GoogleBrain項目,吸引了公眾的廣泛關注。這個項目是由著名的斯坦福大學的機器學習教授AndrewNg和在大規模計算機系統方面的世界頂尖專家Jeff
Dean共同主導,用16000個CPUCore的并行計算平臺訓練一種稱為“深度神經網絡”(DNN,DeepNeuralNetworks)的機器學習模型(內部共有10億個節點。現在是9頁\一共有84頁\編輯于星期五1.1概述這一網絡自然是不能跟人類的神經網絡相提并論的。要知道,人腦中可是有150多億個神經元,互相連接的節點也就是突觸數更是如銀河沙數。曾經有人估算過,如果將一個人的大腦中所有神經細胞的軸突和樹突依次連接起來,并拉成一根直線,可從地球連到月亮,再從月亮返回地球)。“深度神經網絡”在語音識別和圖像識別等領域獲得了巨大的成功。現在是10頁\一共有84頁\編輯于星期五1.1概述項目負責人之一Andrew稱:“我們沒有像通常做的那樣自己框定邊界,而是直接把海量數據投放到算法中,讓數據自己說話,系統會自動從數據中學習。”另外一名負責人Jeff則說:“我們在訓練的時候從來不會告訴機器說:‘這是一只貓。’系統其實是自己發明或者領悟了“貓”的概念。”現在是11頁\一共有84頁\編輯于星期五1.1概述2012年11月,微軟在中國天津的一次活動上公開演示了一個全自動的同聲傳譯系統,講演者用英文演講,后臺的計算機一氣呵成自動完成語音識別、英中機器翻譯和中文語音合成,效果非常流暢。據報道,后面支撐的關鍵技術也是DNN,或者深度學習(DL,DeepLearning)。2013年1月,在百度年會上,創始人兼CEO李彥宏高調宣布要成立百度研究院,其中第一個成立的就是“深度學習研究所”(IDL,InstitueofDeepLearning)。現在是12頁\一共有84頁\編輯于星期五1.1概述為什么擁有大數據的互聯網公司爭相投入大量資源研發深度學習技術。聽起來感覺deeplearning很牛那樣。那什么是deeplearning?為什么有deeplearning?它是怎么來的?又能干什么呢?目前存在哪些困難呢?這些問題的簡答都需要慢慢來。咱們先來了解下機器學習(人工智能的核心)的背景。現在是13頁\一共有84頁\編輯于星期五1.2背景機器學習(MachineLearning)是一門專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能的學科。1959年美國的塞繆爾(Samuel)設計了一個下棋程序,這個程序具有學習能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰勝了設計者本人。又過了3年,這個程序戰勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學習的能力,提出了許多令人深思的社會問題與哲學問題。現在是14頁\一共有84頁\編輯于星期五1.2背景機器學習雖然發展了幾十年,但還是存在很多沒有良好解決的問題:現在是15頁\一共有84頁\編輯于星期五1.2背景例如圖像識別、語音識別、自然語言理解、天氣預測、基因表達、內容推薦等等。目前我們通過機器學習去解決這些問題的思路都是這樣的(以視覺感知為例子):現在是16頁\一共有84頁\編輯于星期五1.2背景從開始的通過傳感器(例如CMOS)來獲得數據。然后經過預處理、特征提取、特征選擇,再到推理、預測或者識別。最后一個部分,也就是機器學習的部分,絕大部分的工作是在這方面做的,也存在很多的學術論文和研究。而中間的三部分,概括起來就是特征表達。良好的特征表達,對最終算法的準確性起了非常關鍵的作用,而且系統主要的計算和測試工作都耗在這一大部分。但是這塊實際中一般都是人工完成的,即靠人工提取特征。現在是17頁\一共有84頁\編輯于星期五1.2背景截止現在,也出現了不少優秀特征表示方式(好的特征應具有不變性(大小、尺度和旋轉等)和可區分性)。例如Sift的出現,是局部圖像特征描述子研究領域一項里程碑式的工作。由于SIFT對尺度、旋轉以及一定視角和光照變化等圖像變化都具有不變性,并且SIFT具有很強的可區分性,的確讓很多問題的解決變為可能。但它也不是萬能的。現在是18頁\一共有84頁\編輯于星期五1.2背景然而,手工地選取特征是一件非常費力、啟發式(需要專業知識)的方法,能不能選取好很大程度上靠經驗和運氣,而且它的調節需要大量的時間。既然手工選取特征不太好,那么能不能自動地學習一些特征呢?答案是能!DeepLearning就是用來干這個事情的,看它的一個別名Unsupervised
FeatureLearning,就可以顧名思義了,Unsupervised的意思就是不要人參與特征的選取過程。現在是19頁\一共有84頁\編輯于星期五1.2背景那它是怎么學習的呢?怎么知道哪些特征好哪些不好呢?我們說機器學習是一門專門研究計算機怎樣模擬或實現人類的學習行為的學科。那人類的視覺系統是怎么工作的呢?為什么在茫茫人海,蕓蕓眾生,滾滾紅塵中我們都可以找到另一個她(因為,你存在我深深的腦海里,我的夢里、我的心里、我的歌聲里……)。現在是20頁\一共有84頁\編輯于星期五1.2背景人腦那么優秀,我們能不能參考人腦,模擬人腦呢?(注:好像和人腦扯上點關系的特征、算法,都不錯,但不知道是不是人為強加的,為了使自己的研究變得神圣和高雅。)近幾十年以來,認知神經科學、生物學等等學科的發展,讓我們對自己這個神秘的而又神奇的大腦不再那么的陌生。也給人工智能的發展推波助瀾。現在是21頁\一共有84頁\編輯于星期五1.3人腦視覺機理1981年的諾貝爾醫學/生理學獎,頒發給了DavidHubel(出生于加拿大的美國神經生物學家)和Torsten
Wiesel以及RogerSperry。前兩位的主要貢獻,是“發現了視覺系統的信息處理機制”,發現可視皮層是分級的。如“人見到蛇的情景”。現在是22頁\一共有84頁\編輯于星期五現在是23頁\一共有84頁\編輯于星期五1.3人腦視覺機理我們看看他們做了什么。1958年,DavidHubel和TorstenWiesel在JohnHopkinsUniversity研究了瞳孔區域與大腦皮層神經元的對應關系。他們在貓的后腦頭骨上開了一個3毫米的小洞,向洞里插入電極,測量神經元的活躍程度。然后,他們在小貓的眼前,展現各種形狀、各種亮度的物體。并且,在展現每一件物體時,還改變物體放置的位置和角度。他們期望通過這個辦法,讓小貓瞳孔感受不同類型、不同強弱的刺激。現在是24頁\一共有84頁\編輯于星期五1.3人腦視覺機理之所以做這個試驗,目的是去證明一個猜測:位于后腦皮層的不同視覺神經元,與瞳孔所受刺激之間,存在某種對應關系。一旦瞳孔受到某一種刺激,后腦皮層的某一部分神經元就會活躍。經歷了很多天反復的枯燥的試驗,同時犧牲了若干只可憐的小貓,DavidHubel和TorstenWiesel發現了一種被稱為“方向選擇性細胞(OrientationSelectiveCell)”的神經元細胞。當瞳孔發現了眼前的物體的邊緣,而且這個邊緣指向某個方向時,這種神經元細胞就會活躍。這個發現激發了人們對于神經系統的進一步思考。神經-中樞-大腦的工作過程,或許是一個不斷迭代、不斷抽象的過程。現在是25頁\一共有84頁\編輯于星期五1.3人腦視覺機理這里的關鍵詞有兩個,一個是抽象,一個是迭代。從原始信號,做低級抽象,逐漸向高級抽象迭代。人類的邏輯思維,經常使用高度抽象的概念。例如,從原始信號攝入開始(瞳孔攝入像素Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進一步抽象(大腦進一步判定該物體是只氣球)。再比如人臉識別,如下圖:現在是26頁\一共有84頁\編輯于星期五現在是27頁\一共有84頁\編輯于星期五1.3人腦視覺機理這個生理學的發現,促成了計算機人工智能在四十年后的突破性發展。總的來說,人的視覺系統的信息處理是分級的。從低級的V1區提取邊緣特征,再到V2區的形狀或者目標的部分等,再到更高層,整個目標、目標的行為等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現語義或者意圖。而抽象層面越高,存在的可能猜測就越少,就越利于分類。例如,單詞集合和句子的對應是多對一的,句子和語義的對應又是多對一的,語義和意圖的對應還是多對一的,這是個層級體系。現在是28頁\一共有84頁\編輯于星期五1.3人腦視覺機理敏感的人注意到這個關鍵詞了:分層。而Deeplearning的deep是不是就表示我存在多少層,也就是多深呢?對。那Deeplearning是如何借鑒這個過程的呢?畢竟是歸于計算機來處理,面對的一個問題就是怎么對這個過程進行建模?因為我們要學習的是特征的表達,那么關于特征,或者說關于這個層級特征,我們需要了解地更深入點。所以在說DeepLearning之前,我們下面有必要解釋一下特征。現在是29頁\一共有84頁\編輯于星期五1.4關于特征特征是機器學習系統的原材料,對最終模型的影響是毋庸置疑的。如果數據被很好地表達成了特征,通常線性模型就能達到滿意的精度。那對于特征,我們需要考慮什么呢?現在是30頁\一共有84頁\編輯于星期五1.4關于特征1.4.1
特征表示的粒度1.4.2
初級(淺層)特征表示1.4.3
結構性特征表示1.4.4
需要有多少個特征現在是31頁\一共有84頁\編輯于星期五1.4.1
特征表示的粒度學習算法在一個什么粒度上的特征表示,才有能發揮作用?就一個圖片來說,像素級的特征根本沒有價值。例如上面的摩托車,從像素級別,根本得不到任何信息,其無法進行摩托車和非摩托車的區分。現在是32頁\一共有84頁\編輯于星期五1.4.1
特征表示的粒度而如果特征是一個具有結構性(或者說有含義)的時候,比如是否具有車把手(handle),是否具有車輪(wheel),就很容易把摩托車和非摩托車區分開來,學習算法才能發揮作用。現在是33頁\一共有84頁\編輯于星期五1.4.2
初級(淺層)特征表示既然像素級的特征表示方法沒有作用,那怎樣的表示才有用呢?1995年前后,BrunoOlshausen和DavidField兩位學者任職CornellUniversity,他們試圖同時用生理學和計算機的手段,雙管齊下,研究視覺問題。他們收集了很多黑白風景照片,從這些照片中,提取出400個小碎片,每個小碎片的尺寸均為16x16像素,不妨把這400個碎片標記為S[i],i=0,..399。接下來,再從這些黑白風景照片中,隨機提取另一個碎片,尺寸也是16x16像素,不妨把這個碎片標記為
T。現在是34頁\一共有84頁\編輯于星期五1.4.2
初級(淺層)特征表示他們提出的問題是,如何從這400個碎片中,選取一組碎片S[k],通過疊加的辦法,合成出一個新的碎片,而這個新的碎片應當與隨機選擇的目標碎片T盡可能相似,同時,S[k]的數量盡可能少。用數學的語言來描述,就是:Sum_k(a[k]*S[k])-->T,
其中a[k]是在疊加碎片S[k]時的權重系數。為解決這個問題,BrunoOlshausen和DavidField發明了一個算法,稀疏編碼(SparseCoding)。現在是35頁\一共有84頁\編輯于星期五1.4.2
初級(淺層)特征表示稀疏編碼是一個重復迭代的過程,每次迭代分兩步:1)選擇一組S[k],然后調整a[k],使得Sum_k(a[k]*S[k])最接近T;2)固定住a[k],在400個碎片中,選擇其它更合適的碎片S’[k],替代原先的S[k],使得Sum_k(a[k]*S’[k])最接近T
。經過幾次迭代后,最佳的S[k]組合被遴選出來。令人驚奇的是,被選中的S[k]基本上都是照片上不同物體的邊緣線,這些線段形狀相似,區別在于方向。現在是36頁\一共有84頁\編輯于星期五1.4.2
初級(淺層)特征表示BrunoOlshausen和DavidField的算法結果,與DavidHubel和TorstenWiesel的生理發現,不謀而合!也就是說,復雜圖形往往由一些基本結構組成。比如下圖:一個圖可以通過用64種正交的edges(可以理解成正交的基本結構)來線性表示。比如樣例的x可以用1-64個edges中的三個按照0.8,0.3,0.5的權重調和而成。而其他基本edge沒有貢獻,因此均為0。現在是37頁\一共有84頁\編輯于星期五現在是38頁\一共有84頁\編輯于星期五1.4.2
初級(淺層)特征表示另外,許多專家還發現,不僅圖像存在這個規律,聲音也存在。他們從未標注的聲音中發現了20種基本的聲音結構,其余的聲音可以由這20種基本結構合成。現在是39頁\一共有84頁\編輯于星期五現在是40頁\一共有84頁\編輯于星期五1.4.3
結構性特征表示小塊的圖形可以由基本edge構成,更結構化,更復雜的,具有概念性的圖形如何表示呢?這就需要更高層次的特征表示,比如V2,V4。因此V1看像素級是像素級。V2看V1是像素級,這個是層次遞進的,高層表達由底層表達的組合而成。專業點說就是基basis。V1區提出的basis是邊緣,然后V2層是V1層這些basis的組合,這時候V2區得到的又是高一層的basis,上上層又是上一層的組合basis結果...所以有專家說Deeplearning就是“搞基”,因為難聽,所以美其名曰Deeplearning或者UnsupervisedFeatureLearning.現在是41頁\一共有84頁\編輯于星期五1.4.3
結構性特征表示直觀上說,就是找到有意義的小碎片(patch),再將其進行組合(combine),就得到了上一層的特征(feature),遞歸地向上學習特征(learningfeature)。現在是42頁\一共有84頁\編輯于星期五1.4.3
結構性特征表示在不同對象(object)上做訓練時,所得的邊緣基(edgebasis)是非常相似的,但對象部分(objectparts)和模式(models)
完全不同。這樣便于圖像的準確識別。現在是43頁\一共有84頁\編輯于星期五1.4.3
結構性特征表示
從文本來說,一個doc文檔表示什么意思?我們描述一件事情,用什么來表示比較合適?用一個一個字嘛?不是,字就是像素級別了,起碼應該是term(術語/詞組),換句話說每個doc都由term構成;但這樣表示概念的能力就夠了嘛,可能也不夠,需要再上一步,達到topic級,有了topic,再到doc就合理。但每個層次的數量差距很大,比如doc表示的概念->topic(千-萬量級)->term(10萬量級)->word(百萬量級)。一個人在看一個doc的時候,眼睛看到的是word,由這些word在大腦里自動切詞形成term,在按照概念組織的方式,先驗的學習,得到topic,然后再進行高層次的learning。現在是44頁\一共有84頁\編輯于星期五1.4.4
需要有多少個特征我們知道需要層次的特征構建,由淺入深,但每一層該有多少個特征呢?任何一種方法,特征越多,給出的參考信息就越多,準確性會得到提升。但特征多意味著計算復雜,探索的空間大,可以用來訓練的數據在每個特征上就會稀疏,都會帶來各種問題,并不一定特征越多越好。現在是45頁\一共有84頁\編輯于星期五現在是46頁\一共有84頁\編輯于星期五小結上面我們談到為什么會有Deeplearning(讓機器自動學習良好的特征,而免去人工選取過程。還有參考人的分層視覺處理系統),我們得到一個結論就是Deeplearning需要多層來獲得更抽象的特征表達。那么多少層才合適呢?用什么架構來建模呢?怎么進行非監督訓練呢?現在是47頁\一共有84頁\編輯于星期五1.5深度學習的基本思想假設我們有一個系統S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示為:I=>S1=>S2=>…..=>Sn=>O,如果輸出O等于輸入I,即輸入I經過這個系統變化之后沒有任何的信息損失。這意味著輸入I經過每一層Si都沒有任何的信息損失,即在任何一層Si,它都是原有信息(即輸入I)的另外一種表示。現在回到我們的主題DeepLearning,我們需要自動地學習特征,假設我們有一堆輸入I(如一堆圖像或者文本),假設我們設計了一個系統S(有n層),我們通過調整系統中參數,使得它的輸出仍然是輸入I,那么我們就可以自動地獲取得到輸入I的一系列層次特征,即S1,…,Sn。現在是48頁\一共有84頁\編輯于星期五1.5深度學習的基本思想對于深度學習來說,其思想就是對堆疊多個層,也就是說這一層的輸出作為下一層的輸入。通過這種方式,就可以實現對輸入信息進行分級表達了。另外,前面是假設輸出嚴格地等于輸入,這個限制太嚴格,我們可以略微地放松這個限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個放松會導致另外一類不同的DeepLearning方法。上述就是DeepLearning的基本思想。現在是49頁\一共有84頁\編輯于星期五1.6淺層學習和深度學習1.6.1淺層學習(ShallowLearning):機器學習第一次浪潮1.6.2深度學習(DeepLearning):機器學習第二次浪潮現在是50頁\一共有84頁\編輯于星期五1.6.1淺層學習:機器學習第一次浪潮20世紀80年代末期,用于人工神經網絡的反向傳播算法(也叫BackPropagation算法或者BP算法)的發明,給機器學習帶來了希望,掀起了基于統計模型的機器學習熱潮。這個熱潮一直持續到今天。人們發現,利用BP算法可以讓一個人工神經網絡模型從大量訓練樣本中學習統計規律,從而對未知事件做預測。這種基于統計的機器學習方法比起過去基于人工規則的系統,在很多方面顯出優越性。這個時候的人工神經網絡,雖也被稱作多層感知機(Multi-layerPerceptron),但實際是一種只含有一層隱層節點的淺層模型。現在是51頁\一共有84頁\編輯于星期五1.6.1淺層學習:機器學習第一次浪潮20世紀90年代,各種各樣的淺層機器學習模型相繼被提出,例如支撐向量機(SVM,SupportVectorMachines)、Boosting、最大熵方法(如LR,LogisticRegression)等。這些模型的結構基本上可以看成帶有一層隱層節點(如SVM、Boosting),或沒有隱層節點(如LR)。這些模型無論是在理論分析還是應用中都獲得了巨大的成功。相比之下,由于理論分析的難度大,訓練方法又需要很多經驗和技巧,這個時期深度人工神經網絡反而相對沉寂。現在是52頁\一共有84頁\編輯于星期五1.6.2深度學習:機器學習第二次浪潮2006年,加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton和他的學生Ruslan
Salak
hutdinov在國際頂級期刊《科學》上發表了一篇文章,開啟了深度學習在學術界和工業界的浪潮。這篇文章有兩個主要觀點:1)多隱層的人工神經網絡具有優異的特征學習能力,學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類;2)深度神經網絡在訓練上的難度,可以通過“逐層初始化”(layer-wisepre-training)來有效克服,在這篇文章中,逐層初始化是通過無監督學習實現的。現在是53頁\一共有84頁\編輯于星期五當前多數分類、回歸等學習方法為淺層結構算法,其局限性在于有限樣本和計算單元情況下對復雜函數的表示能力有限,針對復雜分類問題其泛化能力受到一定制約。深度學習可通過學習一種深層非線性網絡結構,實現復雜函數逼近,表征輸入數據分布式表示,并展現了強大的從少數樣本中集中學習數據集本質特征的能力。(多層的好處是可以用較少的參數表示復雜的函數)1.6.2深度學習:機器學習第二次浪潮現在是54頁\一共有84頁\編輯于星期五1.6.2深度學習:機器學習第二次浪潮現在是55頁\一共有84頁\編輯于星期五深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特征學習”是目的。區別于傳統的淺層學習,深度學習的不同在于:1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節點;2)明確突出了特征學習的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規則構造特征的方法相比,利用大數據來學習特征,更能夠刻畫數據的豐富內在信息。1.6.2深度學習:機器學習第二次浪潮現在是56頁\一共有84頁\編輯于星期五1.7Deeplearning與NeuralNetwork深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。深度學習是無監督學習的一種。深度學習的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。現在是57頁\一共有84頁\編輯于星期五Deeplearning本身算是machinelearning的一個分支,簡單可以理解為neuralnetwork的發展。大約二三十年前,neuralnetwork曾經是ML領域特別火熱的一個方向,但是后來確慢慢淡出了,原因包括以下幾個方面:1)比較容易過擬合,參數比較難調整,而且需要不少竅門;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優;1.7Deeplearning與NeuralNetwork現在是58頁\一共有84頁\編輯于星期五所以中間有大約20多年的時間,神經網絡被關注很少,這段時間基本上是SVM和boosting算法的天下。但是,一個癡心的老先生Hinton,他堅持了下來,并最終(和其它人一起Bengio、Yann.lecun等)提成了一個實際可行的deeplearning框架。1.7Deeplearning與NeuralNetwork現在是59頁\一共有84頁\編輯于星期五Deeplearning與傳統的神經網絡之間有相同的地方也有很多不同。相同點:deeplearning采用了神經網絡相似的分層結構,系統由包括輸入層、隱層(多層)、輸出層組成的多層網絡,只有相鄰層節點之間有連接,同一層以及跨層節點之間相互無連接,每一層可以看作是一個邏輯回歸模型;這種分層結構,是比較接近人類大腦的結構的。1.7Deeplearning與NeuralNetwork現在是60頁\一共有84頁\編輯于星期五1.7Deeplearning與NeuralNetwork現在是61頁\一共有84頁\編輯于星期五而為了克服神經網絡訓練中的問題,DL采用了與神經網絡很不同的訓練機制。傳統神經網絡中,采用的是反向傳播(BP)的方式進行。即采用迭代的算法來訓練整個網絡,隨機設定初值,計算當前網絡的輸出,然后根據當前計算的輸出值和實際的標記值之間的差去改變前面各層的參數,直到收斂(整體是一個梯度下降法)。deeplearning整體上是一個layer-wise的訓練機制。這樣做的原因是因為,如果采用backpropagation的機制,對于一個deepnetwork(7層以上),殘差傳播到最前面的層已經變得太小,出現所謂的gradientdiffusion(梯度擴散)。這個問題在后面有所討論。Deeplearning與NeuralNetwork異同現在是62頁\一共有84頁\編輯于星期五1.8Deeplearning訓練過程1.8.1傳統神經網絡的訓練方法為什么不能用在深度神經網絡1.8.2deeplearning訓練過程現在是63頁\一共有84頁\編輯于星期五1.8.1傳統神經網絡的訓練方法為什么不能用在深度神經網絡BP算法作為傳統訓練多層網絡的典型算法,實際上對僅含幾層網絡,該訓練方法就已經很不理想。深度結構(涉及多個非線性處理單元層)非凸目標代價函數中普遍存在的局部最小是訓練困難的主要來源。現在是64頁\一共有84頁\編輯于星期五BP算法存在的問題:(1)梯度越來越稀疏:從頂層越往下,誤差校正信號越來越小;(2)收斂到局部最小值:尤其是從遠離最優區域開始的時候(隨機值初始化會導致這種情況的發生);(3)一般,我們只能用有標簽的數據來訓練:但大部分的數據是沒標簽的,而大腦可以從沒有標簽的數據中學習;1.8.1傳統神經網絡的訓練方法為什么不能用在深度神經網絡現在是65頁\一共有84頁\編輯于星期五1.8.2deeplearning訓練過程如果對所有層同時訓練,時間復雜度會太高;如果每次訓練一層,偏差就會逐層傳遞。這會面臨跟上面監督學習中相反的問題,會嚴重欠擬合(因為深度網絡的神經元和參數太多了)。現在是66頁\一共有84頁\編輯于星期五1.8.2deeplearning訓練過程2006年,hinton提出了在非監督數據上建立多層神經網絡的一個有效方法,簡單的說,分為兩步,一是每次訓練一層網絡,二是調優,使原始表示x向上生成的高級表示r和該高級表示r向下生成的x'盡可能一致。方法是:1)首先逐層構建單層神經元,這樣每次都是訓練一個單層網絡。2)當所有層訓練完后,Hinton使用wake-sleep算法進行調優。現在是67頁\一共有84頁\編輯于星期五1.8.2deeplearning訓練過程將除最頂層的其它層間的權重變為雙向的,這樣最頂層仍然是一個單層神經網絡,而其它層則變為了圖模型。向上的權重用于“認知”,向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓認知和生成達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。比如頂層的一個結點表示人臉,那么所有人臉的圖像應該激活這個結點,并且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。現在是68頁\一共有84頁\編輯于星期五1.8.2deeplearning訓練過程Wake-Sleep算法分為醒(wake)和睡(sleep)兩個部分。1)wake階段:認知過程(從現實到概念),通過外界的特征和向上的權重(認知權重)產生每一層的抽象表示(結點狀態),并且使用梯度下降修改層間的下行權重(生成權重)。如:“如果現實跟我想象的不一樣,改變我的權重使得我想象的東西就是這樣的”。現在是69頁\一共有84頁\編輯于星期五1.8.2deeplearning訓練過程2)sleep階段:生成過程(從概念到現實),通過頂層表示(醒時學得的概念)和向下權重(生成權重),生成底層的狀態,同時修改層間向上的權重。如:“如果夢中的景象不是我腦中的相應概念,改變我的向上的權重(認知權重)使得這種景象在我看來就是這個概念”。現在是70頁\一共有84頁\編輯于星期五deeplearning具體訓練過程1)使用自下上升非監督學習(就是從底層開始,一層一層的往頂層訓練)2)自頂向下的監督學習(就是通過帶標簽的數據去訓練,誤差自頂向下傳輸,對網絡進行微調)現在是71頁\一共有84頁\編輯于星期五1)使用自下上升非監督學習采用無標定數據(有標定數據也可)分層訓練各層參數,這一步可以看作是一個無監督訓練過程,是和傳統神經網絡區別最大的部分(這個過程可以看作是featurelearning過程):具體的,先用無標定數據訓練第一層,訓練時先學習第一層的參數(這一層可以看作是得到一個使得輸出和輸入差別最小的三層神經網絡的隱層),由于模型capacity的限制以及稀疏性約束,使得得到的模型能夠學習到數據本身的結構,從而得到比輸入更具有表示能力的特征;在學習得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓練第n層,由此分別得到各層的參數;現在是72頁\一共有84頁\編輯于星期五2)自頂向下的監督學習基于第一步得到的各層參數進一步調整整個多層模型的參數,這一步是一個有監督訓練過程;第一步類似神經網絡的隨機初始化初值過程,由于DL的第一步不是隨機初始化,而是通過學習輸入數據的結構得到的,因而這個初值更接近全局最優,從而能夠取得更好的效果;所以,deeplearning效果好很大程度上歸功于第一步的featurelearning過程。現在是73頁\一共有84頁\編輯于星期五1.9DeepLearning的常用模型或者方法1.9.1AutoEncoder
自動編碼器1.9.2SparseCoding
稀疏編碼1.9.3RestrictedBoltzmannMachine(RBM)
限制波爾茲曼機1.9.4DeepBeliefNetworks深度信念網絡1.9.5ConvolutionalNeuralNetworks卷積神經網絡現在是74頁\一共有84頁\編輯于星期五1.9.1AutoEncoder
自動編碼器DeepLearning最簡單的一種方法是利用人工神經網絡的特點,人工神經網絡(ANN)本身就是具有層次結構的系統,如果給定一個神經網絡,我們假設其輸出與輸入是相同的,然后訓練調整其參數,得到每一層中的權重。自然地,我們就得到了輸入I的幾種不同表示(每一層代表一種表示),這些表示就是特征。自動編碼器就是一種盡可能復現輸入信號的神經網絡。為了實現這種復現,自動編碼器就必須捕捉可以代表輸入數據的最重要的因素,就像PCA那樣,找到可以代表原信息的主要成分。現在是75頁\一共有8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 圖書分銷商管理制度
- 地鐵afc管理制度
- 培訓班學籍管理制度
- 基建mis管理制度
- 外包轉正編管理制度
- 多媒體維修管理制度
- 大公司差旅管理制度
- 大型保安室管理制度
- 大學調停課管理制度
- 大隊部檢查管理制度
- 《休閑農業》課件 項目二 休閑農業分類及模式分析
- 2025年安徽省省情試題及答案
- 2025年消控室考核試題及答案
- 江西省吉安市遂川縣2024-2025學年數學三下期末達標檢測試題含解析
- 衛健系統2025年上半年安全生產工作總結
- EPC項目-總體實施方案
- 第一章體育與健康基礎知識 第一節 科學發展體能 課件 2024-2025學年人教版初中體育與健康八年級全一冊
- 高三數學復習策略
- 大豆病蟲害的綜合防治
- 貴州省畢節市2023-2024學年高二下學期期末考試 政治 含答案
- 2025年度智能駕駛技術研發合同4篇
評論
0/150
提交評論