




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree for the Master of EngineeringResearch on Facial Emotion RecognitionUsing Deep LearningCandidate: Chen WenfengMajor: Software EngineeringSupervisor: Prof. Shen GangHuazhong University of Science & TechnologyWuhan 430074,
2、P.R.ChinaDecember, 2017華技大 學摘要人臉表情包含豐富的情感信息,是人類情緒表達最重要的方式之一。人臉表情識別即通過計算機識別人臉的各種表情,進而分析表情所代表的情緒、意圖等。人臉表情識別可以用于刑偵測謊、服務、輔助診斷、人機交互等方面。長期以來,人臉表情識別一直是計算機視覺和人工智能研究的重要領域。近年來,隨著互聯網的迅猛發展,人類各方面有效統計數據集急劇增加,計算機硬件性能飛速提升,為深度學習領域帶來了新一輪的發展與。深度學習與傳統手工提取特征方法(SIFT、HOG、GLOH、SURF 等)不同,通過深度學習的方法可以得到學習能力更強、泛化能力更佳的數據特征。本文通過
3、采用深度學習中卷積神經網絡結構(Convolutional Neural Network,)對人臉面部表情特征進行訓練學習,并人臉檢測與表情識別過程中所遇到的人臉光照強度不同,人臉位置偏移,部分表情間差異細微,多表情分類等復雜問題,提出并設計了以下兩種改進方案:首先,為了解決復雜多人臉檢測中常見的半遮擋、側面、歪斜、弱光等惡劣環境下的人臉問題,設計了一種并聯PNet 卷積層的改進型多任務級聯卷積神經網絡(Multi-task Cascaded Convolutional Networks,MT);其次,為增強輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眉毛,眼睛,
4、鼻子,嘴巴)進行提取,并對其進行灰度增強處理后為偽彩色,并設計了一種基于輪廓增強的卷積神經網絡(Contour Reinforcement Neural Network,CRNN)用以解決人臉表情特征不明顯問題。經過實驗結果表明,上述所提出的改進方案的確有助于提高人臉檢測準確率,提高人臉表情識別效果,并在公開的人臉數據集 wider face、CK+中進行檢測與表情識別實驗均取得較高的正確率。:表情識別深度學習卷積神經網絡級聯神經網絡I華技大學AbstractFacial expression contains rich emotional information, which is one
5、of the most important ways of human emotion expression. Facial expression recognition means recognizing all kinds of facial expressions by computer, and then analyzing the emotions and intentions. It can be used in criminal detection, lie detection, service monitoring, auxiliary diagnosis, human-mac
6、hine interaction and so on. Facial expression recognition has been an important field of computer vision and artificial intelligence for a long time. In recent years, with the rapid development of Internet, the effective statistics datasets in all aspects of human society have increased dramatically
7、, and the performance of computer hardware has increased rapidly, which has brought a new round of development and breakthrough for the field of deep learning.Deep learning is different from traditional manual feature extraction methods (SIFT, HOG, GLOH, SURF and others). Through deep learning, we c
8、an get data features with stronger learning and generalization ability. By using the structure of convolutional neural network in deep learning for facial expression feature training and learning, in view of the complex problems of human face recognition, such as different illumination intensity, di
9、splacement of face position, partial difference between expression and multi expression classification, two improved schemes are proposed and designed:(1) In order to locate the face more accurately, the traditional location method based on the face Haar feature classifier is abandoned, we try to us
10、e Multi-Task Cascaded Convolutional Networks to solve the occlusion, half side, skew, weak light environment face location problem. (2) In order to enhance the input information of facial expression and facial expression and improve the expression of core feature, we extract facial contour, and the
11、gray enhancement processing maps for the pseudo color, and designed a Convolutional Neural Network based on Contour Reinforcement is used to solve the problem of facial features is not obvious.The experimental results show that the proposed improvement scheme does help to improve the accuracy of fac
12、e detection, the effect of facial expression recognition, andachieve higher accuracy in public face database wider face and CK+.Key words:Facial expression recognitionDeep LearningCRNNMTII華技大 學目錄摘要IAbstractII11.11.21.3緒論研究背景及應用前景(1)國內外研究現狀(3)主要工作內容(9)22.12.22.32.4相關技術分析人工神經網絡(11)) . (14)卷積神經網絡(多任務級聯
13、卷積神經網絡(MT) . (17)本章小結(18)33.13.23.33.4表情識別算法設計人臉檢測模塊設計(19)表情識別模塊設計(27)人臉表情識別系統實現(42)本章小結(43)44.14.24.3實驗結果與數據分析人臉檢測結果分析(44)表情識別結果分析(48)本章小節(52)III華技大學5總結與展望5.1全文總結(53)5.2展望(53)致 謝(55)參考文獻(56)IV華技 大 學1緒論1.1研究背景及應用前景人臉表情是人類交流的一種重要表達方式,是人類情緒的重要特征。通過對人臉表情,可以獲取其內心活動、動作意圖、情感趨勢等重要信息。在日常生活中,人們能通過不同的表情,準確而又細
14、微地表達當前的內心情感和對外界事物的態度,面部表情不僅是反映人類內心情感變化的重要,還是人類相互交流中不可或缺的紐帶。早在 19 世紀人們就已經對面部表情特征展開研究,著名生物學家 Darwin 指出現代人類表情是人類祖先面部動作的遺跡,這些人類表情動作最初具有適應意義1。研究者們在生物學和心理學上對表情的分類與細化做了大量的工作,產生了多種不同的表情分類及表征方法。其國心理學家 P.Ekman 所進行的基本情緒模型研究影響最為深遠,他所提出的采用運動單元(Action Unit,AU)描述人類情緒的面部表情運動編碼系統(Face Action Coding System,FACS)也為近 4
15、0 年的情緒理論研究提供了穩定的理論模型,而且對計算機視覺尤其是人類表情識別領域起到了積大的推動作用2。FACS 不僅描述了人臉表情的不同特征,更重要的是為人類面部表情的劃分提供了精準的定義。FACS 包含有 46 個基本的 AU,其中包括眉毛、眼睛、鼻子、嘴、下巴等面部基本面生理結構。每一個基本的 AU 所能表征的情緒特征有限,但是通過對不同的 AU 進行組合,可以表征出人類幾乎所有的表情模型。FACS 理論的提出為計算機視覺中人臉表情劃分與定義提供了一個重要的標準,更成為人類表情研究進程中的里程碑。人臉表情識別的重要目的之一,就是希望能讓計算機能對人臉進行準確的表情分類,并結合其他數據對表
16、情背后的內心活動、心理情緒進行綜合分析,為人類提供有效的決策數據與反饋。不僅如此,人臉表情識別技術在以下領域也有著廣泛的應用情景:(1)服務行業1華技大學服務態度的優質程度直接影響著公司的口碑及營收,尤其是面對面服務行業,如柜臺、教育、公共交通等領域,而服務者的面部表情直接反映了其對客戶的服務態度。微笑是服務行業工作者的基本素養,2017 年 1 月福建省臺州市機場高速首次推出了“微笑識別器”,其可以通過分析嘴唇曲線,眉毛角度,眼神等對服務的微笑進行打分,然后將打分數據上傳云端作為服務指標。目前此類正逐步應用于服務行業的各領域,以提高服務的服務質量。(2)刑偵測謊心理學的研究表明人在撒謊時,其
17、內心世界是復雜與掙扎的,人的表情會不自覺地發生細微的變化以掩飾其內心的緊張感。在之前很受歡迎的美劇Lie to me中,Ekman 教授通過識別人的表情來一個人是否在說謊。雖然目前尚未出現較為成基于表情的測謊儀器,但是表情作為人內心心里活動的重要表征,目前已經成為學術界研究的重要領域。表情識別用于刑偵測謊,將極大提高的偵破效率,營造更佳安全的氛圍。(3)人機交互目前較為常用的人機交互點擊,觸摸,語音等,然而目前這些傳統的交互為單方面輸入,根據輸入信息進行相應反饋,無法根據操作者當前表情進行有性的結果反饋。采用表情識別技術可以操作者當前的異常表情,采取必要的緊急措施,降低事故風險。例如,通過對汽
18、車駕駛員的面部定時進行特征采樣并分析其表情特征,對異常的面部表情信息(疲勞,困倦等)進行云端告警并通知第平臺或交通部門采取相應措施,避免交通意外。(4)個性化推薦推薦系統是目前投放中最為的技術之一,通過對用戶畫像,綜合用戶歷史數據信息,用戶當前可能的商品并予以推薦展示。但是,人處在不同的情緒中所希望接受的推薦信息是不同的,例如,在流行的音樂 app 音樂中,其所推薦的音樂是根據用戶歷史數據及用戶畫像等其他信息進行所得,然而人在不同的心情下所希望聽到的音樂具有極大的差異性。通過對用戶當前表情的分析,得到用戶當前的心境,結合傳統推薦系統篩選出符合用戶當前心境的歌曲,2華技大學將極大增強用戶體驗,提
19、高用戶黏度。1.2國內外研究現狀隨著大數據及人工智能的發展,獲取的信息以促進人類達到更高的智能化,已經成為學術界及商業領域追求的目標。人臉表情作為人類重要的生理信息有著廣泛的應用前景與極高的商業價值,因此,人臉表情識別問題一直是計算機視覺及整個人工智能領域研究的熱點問題。目前表情識別在國內迅速發展,各種新興公司及研究機構乘著人工智能的浪潮如雨后春筍般不斷涌現,其中具有代表性的有如下公司及研究機構:(1)Face+(曠視科技)Face+是一家以人工智能為的高新技術公司,其擁有行業領先的硬件技術、軟件算法、解決方案3。Face+人臉識別技術在 2017 年被MIT 科技評論評定為2017 世界十大
20、前沿科技。以下為使用曠視科技提供的開放平臺所得到的表情識別結果:圖 1-1Face+ 開放平臺表情識別結果(2)騰訊優圖作為Tencent 頂級的人工智能研發團隊,該團隊專注于圖像處理、模優圖式識別、深度學習。優圖在人臉檢測、五官、人臉識別、表情識別、圖像理解等領域都有著深厚的積累和技術底蘊,其科研能力與技術實際落地水平也一直處于行業最前列4。以下為使用騰訊優圖情識別結果:提供的開放平臺所得到的表3華技 大學圖 1-2Face+ 開放平臺表情識別結果(3)Tuputech(科技)Tuputech 是國內頂尖的專注于計算機視覺和深度學習領域的創新型人工智能公司,致力于引領人工智能的科研與技術落地
21、5。Tuputech 在智能鑒黃、證件識別、檢測、人臉識別、表情識別、圖像理解等方面都有著的科研與深厚的技術積累。以下為使用科技的開放平臺所得到的表情識別結果:圖 1-3Tuputech 表情識別效果圖同時人臉識別技術也一直是國外研究機構追逐的熱點,其中在國外具有代表性的公司及研究機構如下:(1)Microsoft Azure微軟作為最早從事人臉識別研究,并最早推出人類識別應用的頂尖 IT 公司之一,其在人工智能領域所取得的性成就也是世界公認。以下為調用其開放接4華技 大學口所得到的表情識別結果圖:圖 1-4Microsoft Azure 表情識別結果圖(2)IMOTIONSIMOTIONS
22、公司作為國外最早從事表情識別研究的機構之一,從 2005 開始持續在人臉識別、視線跟蹤、人臉表情分析等領域對原有方案做出新的改進,其在流中對人臉表情持續監測的技術目前處于業界前列。以下為其在流中對人臉表情持續性監測的效果圖:圖 1-5IMOTIONS流中表情識別效果圖通過對國內外頂尖研究機構及商業團體目前在表情識別領域的最新進展與測試結果的研究可以得出:目前在計算機視覺領域,人臉識別仍然是各大商業團體追逐最為焦灼的熱土,表情識別作為人臉識別領域更為次的探究,仍有較大提升空間與研究價值。1.2.1人臉基本表情定義人臉表情識別(Facial Expression Recognition,FER)技
23、術通常由人臉檢測、人臉5華技大學區域提取、表情特征提取、表情分類四個關鍵部分組成,各組成部分分別對圖像中的人臉進行檢測與特征提取及最終的分類。著名心理學家P.Ekman 和 Friesen歸納總結了高興 Happy、悲傷 Sad、驚訝 Surprise、平靜 Nature、憤怒 Angry、厭惡Disgust 等幾種常見人類表情特征6,并在此基礎上系統地建立了覆蓋人類所有基本情緒的人臉表情圖像庫。人類常見表情的研究與人臉表情圖像庫的建立,為此后人類對人臉表情識別的研究與發展奠定了基本的理論基礎與 準則7。人類常見基本表情的確定,成為了后續人類表情識別相關研究的基礎,也為推動人類表情識別相關技術
24、的發展與技術的實際落地做出了巨大的貢獻。1.2.2人臉運動編碼系統(FACS)美國心理學家 P.Ekman 和 Friesen 于 1978 年提出了著名的人臉運動編碼系統(Facial Action Coding System, FACS)用于描述人類面部表情和研究人類的認知行為,將整個面部結構劃分為 46 個運動單元(Action Unit,AU),并對其所表征的相關表情進行了大量的歸納統計與深入研究8-10。研究還對其中每一個運動單元的表息與具體特征做了詳盡的分析與統計,如運動單元 1,常見人臉面部特征為眉間上揚、眼距增加,通常表示此人當前可能處于驚訝、恐懼或者悲傷的心情狀態,對每個基本
25、運動單元表情特征的研究與統計成為了人臉運動編碼系統的基礎。人臉運動編碼系統于 2002 年推出了更新的AU 劃分方式,新的基本運動單元劃分方式在原有系統方式基礎之上,進行了小部分增加和修改,然而 46 個基本運動單元的劃分是目前計算機視覺人臉表情識別領域的權威參考準則與劃分標準,目前各大研究機構及商業公司均在數據集上進行著人臉方面的各項研究及技術落地。如表1-1 人臉運動編碼系統常見運動單元中所整理,該表中列出了部分基本運動單元在人臉面部中的具體形態與所對應的常見情緒種類,雖然人臉運動編碼系統僅定義了46 種人臉基本的運動單元,但是通過不同人臉基本運動單元的組合,基本可以塑造出人臉面部所有的面
26、部特征與表情種類,此種運動單元的劃分方式表現了人臉運動編碼系統所具有的靈活的組合性能與極強完備性,46 種人臉基本的運動單元的組合了本文后續表情研究的基礎,也為其他與人臉表情相關的研究提供了重要的理論依據與參考標準。6華技大學表 1-1FACS 常見運動單元(AU)正是因為 FACS 中AU 所具有的靈活性與適配性,FACS 成為了人臉表情識別領域不同表情劃分與評判的理論基礎與評判準則11,為推動計算機學習識別人類情緒做出了劃的意義,同時也為計算機視覺領域關于表情的研究奠定了堅實的基礎。1.2.3表情識別方法概述人臉表情識別通常由(1)人臉識別;(2)人臉圖像獲取;(3)人臉圖像預處理;(4)
27、表情特征提取;(5)分類器設計;(6)表情分類識別,這幾個基本流程所組成12。首先,計算機通過攝像頭對人臉進行采樣識別,進行準確后獲取人臉圖片,接著將得到的人臉圖片進行預處理。最后,對預處理后的人臉圖像進行表7AU/常見情緒運動特征/ 面部圖像面部表現AU/常見情緒運動特征/ 面部圖像面部表現1(驚訝、恐懼、悲傷)1. 眉毛上揚2. 眼距增加2/(驚訝、恐懼)1. 眉外側上升2. 額外側收縮4/(恐懼、憤怒)1. 降眉間肌2. 眉毛下壓9/(憤怒、厭惡)1. 皺起鼻肌2. 眉外側降低12/(愉快、假笑)1. 嘴角上揚2. 臉部堆積20/(恐懼、焦慮)1. 唇角外拉2. 鼻孔擴張23(憤怒、不滿
28、、焦慮)1. 收緊雙唇2. 嘴唇前突26/(驚訝、恐懼)1. 下巴降低2. 雙唇華技大學情特征提取,并通過設計好的人臉表情分類器對圖片進行表情分類識別。圖 1-6傳統人臉識別的主要流程常用的表情特征提取方法有:(1)主動形狀模型(Active Shape M, ASM)根據 FACS 的基本運動單元劃分準則,可以發現各表情之間具有相對應的面部生理和運動特征,因此,我們可以通過對這些表征人臉表情的面部進行幾提取。主動形狀模型(ASM)通過對訓練集中標定的人臉特征點進行學何特征習,然后再通過搜索最佳匹配點對人臉特征點進行13-15。在人臉標定中以人臉特征點的坐標依次串聯組成一個類似人臉形狀的表征&
29、#119883;",這里𝑋"即為人臉的表征。,𝑋 =𝑥 ,𝑦 ,𝑥 ,𝑦 ,𝑥,𝑦(1.1)""%"%"'"'"()*')"()*')圖 1-7人臉常見關鍵特征點標定圖8華技大學(2)光流法(Optical Flow, OF)光流的概念是 Gibson 在 1950 年首次提出來的。光流法是通過觀察運動物體在成像平面上像素點運動的速度分布,利用相鄰
30、幀間存在的相應關系,計算出運動物體法16-19。光流中包含了相鄰幀之間人臉對象的運動信息,根據這些運信息的動信息可以確定人臉運動類別。由于光流法所提取的是運動物體間相鄰幀的信息,因此,在人臉表情的動態分析中被廣泛使用。(3)紋理特征提取法紋理特征雖然是一種全局特征,但不能完全反映出對應物體的本質屬性,所以次的圖像內容20,21。但是對于人臉表情的形狀,在很大程度上能表征人的表情,僅僅依靠紋理特征無法獲得目標物體更識別而言,人臉面部肌肉的不同變化所這種變化通過人臉表面輪廓的舒張可以在圖像中顯著的表現出來,通過提取這些人臉表面的紋理特征可以對人臉表情進行識別。1.3主要工作內容(1)研究如何改進人
31、臉表情識別問題中人臉位置標定的問題在傳統基于人臉特征所進行的人臉識別中遇到半遮擋、側面、歪斜、弱光等惡劣環境下無法準確人臉的問題,設計了一種并聯PNet 卷積層的改進型多任務級聯卷積神經網絡(Multi-task Cascaded Convolutional Networks, MT人臉位置標定精度,為后續表情識別提供了準確的人臉數據。(2)研究如何改進人臉表情識別中特征提取的問題)提高為了增強輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眼睛,鼻子,嘴巴)進行提取,并對其進行灰度增強處理后為偽彩色,并設計了一種基于輪廓增強的卷積神經網絡(Contour Reinf
32、orcement Neural Network, CRNN)用以解決上述問題。(3)在公開的人臉數據集 wider face、CK+中對上述改進方案進行了實驗測試與數據分析,證明了其在人臉表情識別方面比傳統的人臉特征提取方案的確具有更高的效率與更好的準確率。主要分為五個章節,每個章節所包含的內容以及各個章節之間的關系如下:9華技大學第一章緒論部分。概括性的介紹了人臉表情識別的研究背景、研究意義、應用前景。并介紹了人臉表情的基本定義、人臉運動編碼系統、傳統人臉識別方法以及國內外人臉表情識別研究的最新趨勢與進展。第二章相關技術分析。介紹了深度學習相關的基本原理與卷積神經網絡的基本工作方式,并對人工
33、神經網絡及卷積神經網絡中的基本結構與要素做了簡要的說明與闡述,接著簡要介紹了實際應用中人臉檢測網絡模型 MT學習在計算機視覺領域的作用與實際應用做了簡要說明。,最后對深度第三章表情識別算法設計。主要對所設計的人臉檢測模塊、人臉表情識別模塊進行了詳細闡述,說明了人臉檢測模塊的設計原理,人臉檢測模塊的網絡結構,網絡模型訓練過程;同時,對增強輪廓型處理的過程及結果,進行了原理性闡述與處理前后樣本效果圖對比,然后對新提出的 CRNN 網絡進行了網絡結構分析、訓練過程闡述及與 AlexNet 網絡結構對比,最后完成并實現了該人臉表情識別系統。第四章實驗結果與數據分析。對上一章節中所設計的人臉檢測模塊、人
34、臉表情識別模塊進行檢測,最后通過實驗測試與數據分析,證實了所設計的人臉檢測模塊具有較高檢測準確率的同時,還具有訓練效率高,運行速度較快等優點,所設計的人臉表情識別模塊的確有助于提高人臉表情識別的準確率。第五章總結與展望。總結性地介紹了整篇的工作成果與最終結論,并對人臉表情識別中仍需優化的問題給予了新的思路與優化意見。10華技 大學2相關技術分析深度學習(Deep Learning)是學習(Machine Learning)的一個分支,它能夠使計算機通過層次概念來學習經驗和理解世界22。因為計算機能夠從經驗中獲取知識,所以不需要人類來形式化地定義計算機需要的所有知識。深度學習問題中采用的模型一般
35、比較復雜,樣本的原始輸入到目標輸出之間的數據流通常會經過多個線性或非線性的組件。本章將介紹人工神經網絡的定義與基本結構、卷積神經網絡的定義與結構,并將簡要介紹人工神經網絡中的反向算法及卷積神經網絡中各層的層級結構及實現原理。2.1人工神經網絡2006 年,“深度置信網絡23-25”被發布在了著名期刊Science上,該概念的提出極大影響了人工神經網絡的發展。深度置信網絡通過計算預處理讓整體的網絡結構得到一個相對最優值,在此最優值的基礎上通過微調技術,來對整個網絡進行優化26。2012 年 Hinton 團隊用 Yann LeCun 所成名的網絡中所提及的 Fine-turning 技術,打敗了
36、其他傳統的網絡結構及上面深度置信學習方法,一舉贏得了ImageNet 的圖片分類項目冠軍,自此深度學習迎來了蓬勃的發展與追逐的熱潮27。圖 2-1人工神經網絡的發展歷程,圖 2-2 展示了生物學上的神經元和人工神經網絡中神經元是神經網絡的基本11華技大學的神經元,可以看出人工神經網絡中的神經元是生物學神經元的粗略模擬和結構。圖 2-2生物學與人工神經網絡中的神經元對于圖 2-2 中人工神經網絡神經元的輸入輸出關系,我們可以用如下方程組進行描述:)𝑧 =𝑤" 𝑎" + 𝑏(2.1)(2.2)(模擬生"1
37、't其中𝑎"𝑎:為輸入=g(z)(如圖 2-2 中輸入信號𝑥',𝑥),𝑤'𝑤:為物學神經元突觸),b 是偏置量(圖 2-2 中偏置節點為+1),a 為經過激勵函數 g(z)后的最終輸出。多個神經網絡基本的級聯了人工神經網絡,神經元通過從上層到下層串聯的方式連接,信號在兩級的神經元之間傳遞帶上該神經元對應的。圖2-3 展示了一個簡單的神經網絡, 其中包括 Layer 𝐿'輸入層,Layer 𝐿隱藏層和Layer 𝐿
38、;=輸出層。在圖 2-3 所示的人工神經網絡中,Layer 𝐿'中 4 個節點均稱為“輸入節點”,Layer𝐿中最下為偏置節點,只固定輸出不接受任何輸入。如圖 2-3 所示的簡單人工神經表示為: (𝑊,𝑏) =網絡通過人工神經網絡數學模型可以簡單地用數學表(𝑊('), 𝑏('), 𝑊(;),𝑏(;) )。因此,當 l=1 時,a(') = x。在給參數 W,b 的情況下,依次對神經網絡模型中的單個節點計算后面每一層的輸出值,這一依次對輸
39、入信號進行向前傳遞的過程即為前向。圖 2-3 展示了一組基本的神經網絡結構中前向的示意圖,各節點從前依次傳遞傳入信息,輸入信息經過各節點不同處理后傳遞。12華技大學圖 2-3神經網絡前向示意圖a ;= f(W(')x'W(')x;W(')x=b(') )+(2.3)'''''='a ;= f(W(')x'W(')x;W(')x=b(') )(2.4);'=;a ;= f(W(')x'W(')x;W(')x=b(') )(
40、2.5)='=;=(x) = a= f(W(;)a ; +W(;)a ;W(;)a ;b(;) )=h+(2.6)F,G''''''='a # a # a # h&,(x)分別表示圖 2-3 所示人工神經網絡中第 2 層第 1 個節"#$點,第 2 層第 2 個節點,第 2 層 3 個節點以及最終節點的輸出信號。將公式 2.6 括和W(;)a ;+ b(;) 定義為參數W(;)a ;W(;)a ;+號里較長的輸入信號''''.'='z($) l i z (W(-)
41、x,b(-) ),則節點輸出=+",/-"","可以簡化為a H = f(z(H) ) 。圖 2-4神經網絡反向示意圖13華技大學梯度下降(Gradient Descent)即通過求得函數當前點所對應的梯度值,沿著梯度的反方向前進一定的步長得到新的點,然后在此點的基礎上依次迭代搜索可以得到該函數的局部最小值28。由圖 2-4 不難發現,輸出層節點e 的前置節點為隱層節點c 和d,因此對于節點e 的誤差不可能被節點 c 獨有,而是要服從按勞分配的原則(按權重 W 分配)。同理輸出層節點 f 的誤差也需服從按勞分配的原則,而輸出層的節點 e 分別指向了隱層節
42、點 c 和 d,因此對于節點 e 的誤差可以表示為:% ()% ()!"#=&&!+&(!()()+#()()+-(2.7)%&& %(&%&( %(% ()% () &&&(!"#"$!+#+$% () % ()% () % ()&&(&()&() (2.8)!%(&%(% () % ()% () % ()&&(&&(2.2卷積神經網絡()卷積神經網絡是一種深度前饋神經網絡,該網絡結構中的神經元除了關注自身特征外
43、還能與周圍神經元協同處理,尤其是在計算機視覺與圖像處理領域有著出色的表現29,30。2.2.1網絡結構一個卷積神經網絡通常由若干卷積層(Convolution Layer)、(PoolingLayer)、全連接(Dense Layer)組合而成。其常用組合模型為:輸入層(Input Layer)>卷積層(Convolution Layer) >(Pooling Layer) >卷積層(ConvolutionLayer)>(Pooling Layer)>.>全連接(Dense Layer),即 N 個Convolution Layer 疊加,然后接上一個 Po
44、oling Layer,重復此卷積子結構 M 次,最后接入 K 個 Dense Layer。一個通用的神經網絡結構可以用以下形式所表示:(1)Input Layer(輸入層)(2)Conv 卷積 >Relu 激勵 N>Pooling M(隱藏層)14華技大學(3)Dense>Relu K(激活層)(4)Dense Layer(全連接層)圖2-5 是展示了一個典型的卷積神經網絡結構,其中N=1,M=2,K=1,即該基本卷積神經網絡結構中包含了一個卷積層接一個,然后重復該結構兩次最后接一個全連接層。圖 2-5典型卷積神經網絡()網絡結構從圖 2-5 中可以發現卷積神經網絡的層級結
45、構和 Full Connection 的層級結構有較大差異。Full Connection 中每層的神經元以一維的形式排列,層與層之間全部連接,各節點與下一層中的所有節點均有;中每層的神經元是以三維的形式排列,整體一個長方體的形狀,其中包含了寬度、高度和深度。2.2.2卷積層卷積神經網絡與傳統計算機視覺中圖像的卷積區別在于,傳統計算機視覺中用于計算的卷積核是已知的,如常用的邊緣檢測算子、Gaussian Blur 等,將這些已知的卷積核與輸入圖像進行卷積運算。Deep Learning 卷積神經網絡中的卷積核是未知的,通過 Deep Learning 訓練一個神經網絡模型,其本質就是不斷學習訓
46、練得到符合實際需要的卷積核。卷積核的本質就是特征提取器,也稱之為過濾器Filter,卷積核通過對圖像中特征的提取歸納總結出一定的規律,自我學習與訓練,最終收斂到一組符合用戶預期的數值上31。圖 2-6 給出了使用一組有關顏色的卷積核對左側圖片進行一層卷積運算后得到右側圖片的效果圖,表明了卷積核的本質的確是對圖像特征進行過濾與提取。15華技 大學圖 2-6單層卷積運算前后圖像對比效果圖2.2.3的本質就是對輸入圖像做下采樣處理,常用的圖像下采樣方式有:Mean pooling(均值采樣)、Max pooling(最大值采樣)、Overlapping (重疊采樣)、L2 pooling(均方采樣)
47、、Local Contrast Normalization(歸一化采樣)、Stochasticpooling(隨即采樣)、Def-pooling(形變約束采樣)等。圖 2-7最大值采樣()過程其中最為常用的圖像下采樣方式就是最大值采樣,如圖 2-7 展示了對輸入圖像進行最大值采樣的過程。圖中左側輸入矩陣左上角 22 的子矩陣中最大值為 6,右上角 22 的子矩陣中最大值為8,左下角22 的子矩陣中最大值為3,右下角22 的子矩陣中最大值為4,所以得到圖 2-7 中右側部分的(最大采樣)結果為:6 8 3 4。通過處理,減少了數據量,降低了數據的計算難度,但是同時也會帶來一定精度傷的損失。16華
48、技大學2.3多任務級聯卷積神經網絡(MT)MT是 2016 年由先進技術喬宇教授組所提出的一種級聯卷積神經網絡模型,該級聯神經網絡分為 3 個網絡層級模塊,Proposal Net(PNet),Refine Net(RNet),Output Net(ONet)。在該級聯神經網絡結構中:(1)PNet 子神經網絡模塊通過對原圖進行 Resize 處理,得到關于原圖的圖像金字塔,然后以全連接的方式對圖像進行特征提取,矩形框的滑動得到候選的人臉圖像區域塊(矩形塊),然后通過非最大抑制(NMS)合并對 IOU 較高的候選區域進行合并,對圖片中所有的候選區域做粗略的篩選與修正。第一階段的神經網絡結構的作
49、用基本可以概括為圖片為人臉或是臉的判定。圖 2-8PNet 層網路結構圖(2)RNet 子神經網絡模塊的作用是對經 PNet 層后剩下的所有窗口進行更進一步的篩選與甄別,也是通過矩形框圖的滑動和最大抑制的方法,RNet 子神經網絡結構一般和 PNet 結構相似,對 PNet 層輸出的帶矩形窗口的圖像做 Resize 操作后作為RNet 層網絡模塊的輸入。第二階段的神經網絡結構的作用基本可以概括為人臉候選區域的合并與修正。圖 2-9RNet 層網路結構圖(3)ONet 子神經網絡模塊的作用與 RNet 相似,ONet 不僅對通過 RNet 模塊后17華技大學的圖像中的窗口進行篩選,再通過人臉的
50、5 個關鍵特征點對圖像中的窗口做了進一步的篩選,最終得到人臉輸出結果。第三個階段段的神經網絡結構的作用基本可以概括為 5 個關鍵點的與人臉區域的修正。圖 2-10ONet 層網路結構圖2.4本章小結本章第一部分從人工神經網絡的講起,介紹了人工神經網絡的、人工神經網絡的架構模型和基本原理,并詳細介紹了其中的前向算法和反向算法,并對其中解決了困擾人工神經網絡線性不可分問題的 BP 算法進行了原理闡述,最后介紹了人工神經網絡訓練過程中誤差更新的原理;本章第二部分詳細介紹了在圖像領域有影響的卷積神經網絡,分別從其網絡結構、卷積層、三個方面展開,詳細介紹了卷積神經網絡中各層的原理與作用;本章第三部分簡要
51、介紹了中所涉及到的 MT人臉檢測算法,MT的基本網絡結構及MT的三個主要的網絡模塊,接著對三個重要絡模塊的具體結構及各網絡模塊的作用進行了簡要的說明。本章從人工神經網絡的提出到深度學習的,再到反向算法的原理,最后是實際應用中人臉檢測網絡模型 MT論基礎和其在圖像處理領域的實際應用。,比較清晰地闡述了深度學習的相關理18華技大學3表情識別算法設計自上世紀 50 年代人工神經網絡模型被提出起,人臉檢測一直是計算機視覺領域研究的熱土,無數科研在此投入了大量的時間與精力。一方面是因為研究對人類自身生理特征的好奇,更重要的一方面是人臉檢測是表情識別、人臉識別、檢測、等一系列更次人臉研究的基礎。在傳統基于
52、類似人臉Haar 特征所進行的人臉識別中遇到半遮擋、側面、歪斜、弱光等惡劣環境下無法準確人臉的問題,本文設計了一種并聯PNet 卷積層的改進型多任務級聯卷積神經網絡(Multi-task Cascaded Convolutional Networks, MT)。在此人臉檢測技術的基礎上,由人類視覺系統具有亮度差異性、色彩敏感性這一特點出發,本文提出了對樣本進行增強輪廓型處理可能提高人臉識別準確率的猜想,并在此猜想上設計了一種基于輪廓增強的卷積神經網絡(Contour Reinforcement Neural Network ,CRNN)。3.1人臉檢測模塊設計傳統基于 Haar 特征的人臉檢測
53、,采用矩形塊或其他圖形塊對人臉區域進行篩選,構建多層級聯的逐層篩選結構,多個弱分類器級聯然后接強分類器構建一層篩選結構,然后多個這樣的層級篩選結構級聯了整個檢測系統。該種篩選結構對人臉特征進行由弱到強的逐級篩選,具有訓練方法簡單,層級結構明確等優點。然而由于其粗略的矩形塊篩選方法,圖片中的半遮擋、側面、歪斜、弱光等惡劣環境的人臉特征時,由于人臉特征不明確,殘缺的人臉很難通過所設計的多層分類網絡,從而出現人臉圖片無法被檢測的狀況。上述傳統人臉檢測方法中的問題,本文將改進型的多任務級聯卷積神經網絡算法用于系統的人臉檢測部分,多組不同任務的級聯,解決了傳統人臉檢測中,訓練時間長、惡劣環境下識別準確率
54、低的問題。3.1.1并聯型 MT通過對單個的卷積神經網絡模型的訓練,目前我們已經可以對大數據集下的單19華技大學張圖片做簡單的分類,同時可以對單張圖片中的多種物體進行一定準確度的物體識別。由于目前的硬件計算能力與訓練策略的限制,目前研究者在訓練足夠次的卷積神經網絡方面還有一定的,無法在單個卷積神經網絡模型中完成多樣性特征的提取。圖 3-1級聯卷積神經網絡結構圖既然目前的技術及硬件條件下無法繼續增加單個卷積模塊的深度,研究者提出了將多個淺層的神經網絡進行級聯的方案,單個淺層卷積網絡模塊的級聯,可以使得單個模塊的參數與過濾條件盡量少,每個卷積模塊的所需訓練的參數量相比單個卷積神經網絡模塊而言有了很大的降低,而且level 越高的卷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025管理人員崗前安全培訓考試試題帶答案(培優A卷)
- 2024-2025企業管理人員安全培訓考試試題及參考答案【綜合卷】
- 2024-2025廠級職工安全培訓考試試題a4版打印
- 2025建筑設備租賃合同范本2
- 2025遼寧省家庭居室裝飾裝修合同(LF)
- 2025專業版汽車租賃合同模板
- 2025資金協調項目居間合同
- 2025年石墨化工設備項目建議書
- 2025貸款服務合同范本
- 2025年石油產品添加劑:燃料油添加劑項目合作計劃書
- 蠕變、應力松弛、滯后和內耗講解
- 道德經試題及答案
- (精心整理)歷年南京中考英語??荚~匯及例句解析
- 冷卻水預處理(預膜)方案
- 1000MW機組鍋爐本體檢修規程
- 鋼筆書法比賽用紙精美五言格
- 完全競爭市場習題及答案
- 高中氧化還原反應方程式大全
- 27.3實際問題與一元二次方程(傳播問題)
- 河套大學晉升本科高等學校工作實施方案
- 科力達KTS-442系列全站儀使用說明書
評論
0/150
提交評論