




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree for the Master of EngineeringResearch on Facial Emotion RecognitionUsing Deep LearningCandidate: Chen WenfengMajor: Software EngineeringSupervisor: Prof. Shen GangHuazhong University of Science & TechnologyWuhan 430074,
2、P.R.ChinaDecember, 2017華技大 學(xué)摘要人臉表情包含豐富的情感信息,是人類情緒表達(dá)最重要的方式之一。人臉表情識(shí)別即通過(guò)計(jì)算機(jī)識(shí)別人臉的各種表情,進(jìn)而分析表情所代表的情緒、意圖等。人臉表情識(shí)別可以用于刑偵測(cè)謊、服務(wù)、輔助診斷、人機(jī)交互等方面。長(zhǎng)期以來(lái),人臉表情識(shí)別一直是計(jì)算機(jī)視覺和人工智能研究的重要領(lǐng)域。近年來(lái),隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類各方面有效統(tǒng)計(jì)數(shù)據(jù)集急劇增加,計(jì)算機(jī)硬件性能飛速提升,為深度學(xué)習(xí)領(lǐng)域帶來(lái)了新一輪的發(fā)展與。深度學(xué)習(xí)與傳統(tǒng)手工提取特征方法(SIFT、HOG、GLOH、SURF 等)不同,通過(guò)深度學(xué)習(xí)的方法可以得到學(xué)習(xí)能力更強(qiáng)、泛化能力更佳的數(shù)據(jù)特征。本文通過(guò)
3、采用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Convolutional Neural Network,)對(duì)人臉面部表情特征進(jìn)行訓(xùn)練學(xué)習(xí),并人臉檢測(cè)與表情識(shí)別過(guò)程中所遇到的人臉光照強(qiáng)度不同,人臉位置偏移,部分表情間差異細(xì)微,多表情分類等復(fù)雜問題,提出并設(shè)計(jì)了以下兩種改進(jìn)方案:首先,為了解決復(fù)雜多人臉檢測(cè)中常見的半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下的人臉問題,設(shè)計(jì)了一種并聯(lián)PNet 卷積層的改進(jìn)型多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks,MT);其次,為增強(qiáng)輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眉毛,眼睛,
4、鼻子,嘴巴)進(jìn)行提取,并對(duì)其進(jìn)行灰度增強(qiáng)處理后為偽彩色,并設(shè)計(jì)了一種基于輪廓增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinforcement Neural Network,CRNN)用以解決人臉表情特征不明顯問題。經(jīng)過(guò)實(shí)驗(yàn)結(jié)果表明,上述所提出的改進(jìn)方案的確有助于提高人臉檢測(cè)準(zhǔn)確率,提高人臉表情識(shí)別效果,并在公開的人臉數(shù)據(jù)集 wider face、CK+中進(jìn)行檢測(cè)與表情識(shí)別實(shí)驗(yàn)均取得較高的正確率。:表情識(shí)別深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)I華技大學(xué)AbstractFacial expression contains rich emotional information, which is one
5、of the most important ways of human emotion expression. Facial expression recognition means recognizing all kinds of facial expressions by computer, and then analyzing the emotions and intentions. It can be used in criminal detection, lie detection, service monitoring, auxiliary diagnosis, human-mac
6、hine interaction and so on. Facial expression recognition has been an important field of computer vision and artificial intelligence for a long time. In recent years, with the rapid development of Internet, the effective statistics datasets in all aspects of human society have increased dramatically
7、, and the performance of computer hardware has increased rapidly, which has brought a new round of development and breakthrough for the field of deep learning.Deep learning is different from traditional manual feature extraction methods (SIFT, HOG, GLOH, SURF and others). Through deep learning, we c
8、an get data features with stronger learning and generalization ability. By using the structure of convolutional neural network in deep learning for facial expression feature training and learning, in view of the complex problems of human face recognition, such as different illumination intensity, di
9、splacement of face position, partial difference between expression and multi expression classification, two improved schemes are proposed and designed:(1) In order to locate the face more accurately, the traditional location method based on the face Haar feature classifier is abandoned, we try to us
10、e Multi-Task Cascaded Convolutional Networks to solve the occlusion, half side, skew, weak light environment face location problem. (2) In order to enhance the input information of facial expression and facial expression and improve the expression of core feature, we extract facial contour, and the
11、gray enhancement processing maps for the pseudo color, and designed a Convolutional Neural Network based on Contour Reinforcement is used to solve the problem of facial features is not obvious.The experimental results show that the proposed improvement scheme does help to improve the accuracy of fac
12、e detection, the effect of facial expression recognition, andachieve higher accuracy in public face database wider face and CK+.Key words:Facial expression recognitionDeep LearningCRNNMTII華技大 學(xué)目錄摘要IAbstractII11.11.21.3緒論研究背景及應(yīng)用前景(1)國(guó)內(nèi)外研究現(xiàn)狀(3)主要工作內(nèi)容(9)22.12.22.32.4相關(guān)技術(shù)分析人工神經(jīng)網(wǎng)絡(luò)(11)) . (14)卷積神經(jīng)網(wǎng)絡(luò)(多任務(wù)級(jí)聯(lián)
13、卷積神經(jīng)網(wǎng)絡(luò)(MT) . (17)本章小結(jié)(18)33.13.23.33.4表情識(shí)別算法設(shè)計(jì)人臉檢測(cè)模塊設(shè)計(jì)(19)表情識(shí)別模塊設(shè)計(jì)(27)人臉表情識(shí)別系統(tǒng)實(shí)現(xiàn)(42)本章小結(jié)(43)44.14.24.3實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析人臉檢測(cè)結(jié)果分析(44)表情識(shí)別結(jié)果分析(48)本章小節(jié)(52)III華技大學(xué)5總結(jié)與展望5.1全文總結(jié)(53)5.2展望(53)致 謝(55)參考文獻(xiàn)(56)IV華技 大 學(xué)1緒論1.1研究背景及應(yīng)用前景人臉表情是人類交流的一種重要表達(dá)方式,是人類情緒的重要特征。通過(guò)對(duì)人臉表情,可以獲取其內(nèi)心活動(dòng)、動(dòng)作意圖、情感趨勢(shì)等重要信息。在日常生活中,人們能通過(guò)不同的表情,準(zhǔn)確而又細(xì)
14、微地表達(dá)當(dāng)前的內(nèi)心情感和對(duì)外界事物的態(tài)度,面部表情不僅是反映人類內(nèi)心情感變化的重要,還是人類相互交流中不可或缺的紐帶。早在 19 世紀(jì)人們就已經(jīng)對(duì)面部表情特征展開研究,著名生物學(xué)家 Darwin 指出現(xiàn)代人類表情是人類祖先面部動(dòng)作的遺跡,這些人類表情動(dòng)作最初具有適應(yīng)意義1。研究者們?cè)谏飳W(xué)和心理學(xué)上對(duì)表情的分類與細(xì)化做了大量的工作,產(chǎn)生了多種不同的表情分類及表征方法。其國(guó)心理學(xué)家 P.Ekman 所進(jìn)行的基本情緒模型研究影響最為深遠(yuǎn),他所提出的采用運(yùn)動(dòng)單元(Action Unit,AU)描述人類情緒的面部表情運(yùn)動(dòng)編碼系統(tǒng)(Face Action Coding System,F(xiàn)ACS)也為近 4
15、0 年的情緒理論研究提供了穩(wěn)定的理論模型,而且對(duì)計(jì)算機(jī)視覺尤其是人類表情識(shí)別領(lǐng)域起到了積大的推動(dòng)作用2。FACS 不僅描述了人臉表情的不同特征,更重要的是為人類面部表情的劃分提供了精準(zhǔn)的定義。FACS 包含有 46 個(gè)基本的 AU,其中包括眉毛、眼睛、鼻子、嘴、下巴等面部基本面生理結(jié)構(gòu)。每一個(gè)基本的 AU 所能表征的情緒特征有限,但是通過(guò)對(duì)不同的 AU 進(jìn)行組合,可以表征出人類幾乎所有的表情模型。FACS 理論的提出為計(jì)算機(jī)視覺中人臉表情劃分與定義提供了一個(gè)重要的標(biāo)準(zhǔn),更成為人類表情研究進(jìn)程中的里程碑。人臉表情識(shí)別的重要目的之一,就是希望能讓計(jì)算機(jī)能對(duì)人臉進(jìn)行準(zhǔn)確的表情分類,并結(jié)合其他數(shù)據(jù)對(duì)表
16、情背后的內(nèi)心活動(dòng)、心理情緒進(jìn)行綜合分析,為人類提供有效的決策數(shù)據(jù)與反饋。不僅如此,人臉表情識(shí)別技術(shù)在以下領(lǐng)域也有著廣泛的應(yīng)用情景:(1)服務(wù)行業(yè)1華技大學(xué)服務(wù)態(tài)度的優(yōu)質(zhì)程度直接影響著公司的口碑及營(yíng)收,尤其是面對(duì)面服務(wù)行業(yè),如柜臺(tái)、教育、公共交通等領(lǐng)域,而服務(wù)者的面部表情直接反映了其對(duì)客戶的服務(wù)態(tài)度。微笑是服務(wù)行業(yè)工作者的基本素養(yǎng),2017 年 1 月福建省臺(tái)州市機(jī)場(chǎng)高速首次推出了“微笑識(shí)別器”,其可以通過(guò)分析嘴唇曲線,眉毛角度,眼神等對(duì)服務(wù)的微笑進(jìn)行打分,然后將打分?jǐn)?shù)據(jù)上傳云端作為服務(wù)指標(biāo)。目前此類正逐步應(yīng)用于服務(wù)行業(yè)的各領(lǐng)域,以提高服務(wù)的服務(wù)質(zhì)量。(2)刑偵測(cè)謊心理學(xué)的研究表明人在撒謊時(shí),其
17、內(nèi)心世界是復(fù)雜與掙扎的,人的表情會(huì)不自覺地發(fā)生細(xì)微的變化以掩飾其內(nèi)心的緊張感。在之前很受歡迎的美劇Lie to me中,Ekman 教授通過(guò)識(shí)別人的表情來(lái)一個(gè)人是否在說(shuō)謊。雖然目前尚未出現(xiàn)較為成基于表情的測(cè)謊儀器,但是表情作為人內(nèi)心心里活動(dòng)的重要表征,目前已經(jīng)成為學(xué)術(shù)界研究的重要領(lǐng)域。表情識(shí)別用于刑偵測(cè)謊,將極大提高的偵破效率,營(yíng)造更佳安全的氛圍。(3)人機(jī)交互目前較為常用的人機(jī)交互點(diǎn)擊,觸摸,語(yǔ)音等,然而目前這些傳統(tǒng)的交互為單方面輸入,根據(jù)輸入信息進(jìn)行相應(yīng)反饋,無(wú)法根據(jù)操作者當(dāng)前表情進(jìn)行有性的結(jié)果反饋。采用表情識(shí)別技術(shù)可以操作者當(dāng)前的異常表情,采取必要的緊急措施,降低事故風(fēng)險(xiǎn)。例如,通過(guò)對(duì)汽
18、車駕駛員的面部定時(shí)進(jìn)行特征采樣并分析其表情特征,對(duì)異常的面部表情信息(疲勞,困倦等)進(jìn)行云端告警并通知第平臺(tái)或交通部門采取相應(yīng)措施,避免交通意外。(4)個(gè)性化推薦推薦系統(tǒng)是目前投放中最為的技術(shù)之一,通過(guò)對(duì)用戶畫像,綜合用戶歷史數(shù)據(jù)信息,用戶當(dāng)前可能的商品并予以推薦展示。但是,人處在不同的情緒中所希望接受的推薦信息是不同的,例如,在流行的音樂 app 音樂中,其所推薦的音樂是根據(jù)用戶歷史數(shù)據(jù)及用戶畫像等其他信息進(jìn)行所得,然而人在不同的心情下所希望聽到的音樂具有極大的差異性。通過(guò)對(duì)用戶當(dāng)前表情的分析,得到用戶當(dāng)前的心境,結(jié)合傳統(tǒng)推薦系統(tǒng)篩選出符合用戶當(dāng)前心境的歌曲,2華技大學(xué)將極大增強(qiáng)用戶體驗(yàn),提
19、高用戶黏度。1.2國(guó)內(nèi)外研究現(xiàn)狀隨著大數(shù)據(jù)及人工智能的發(fā)展,獲取的信息以促進(jìn)人類達(dá)到更高的智能化,已經(jīng)成為學(xué)術(shù)界及商業(yè)領(lǐng)域追求的目標(biāo)。人臉表情作為人類重要的生理信息有著廣泛的應(yīng)用前景與極高的商業(yè)價(jià)值,因此,人臉表情識(shí)別問題一直是計(jì)算機(jī)視覺及整個(gè)人工智能領(lǐng)域研究的熱點(diǎn)問題。目前表情識(shí)別在國(guó)內(nèi)迅速發(fā)展,各種新興公司及研究機(jī)構(gòu)乘著人工智能的浪潮如雨后春筍般不斷涌現(xiàn),其中具有代表性的有如下公司及研究機(jī)構(gòu):(1)Face+(曠視科技)Face+是一家以人工智能為的高新技術(shù)公司,其擁有行業(yè)領(lǐng)先的硬件技術(shù)、軟件算法、解決方案3。Face+人臉識(shí)別技術(shù)在 2017 年被MIT 科技評(píng)論評(píng)定為2017 世界十大
20、前沿科技。以下為使用曠視科技提供的開放平臺(tái)所得到的表情識(shí)別結(jié)果:圖 1-1Face+ 開放平臺(tái)表情識(shí)別結(jié)果(2)騰訊優(yōu)圖作為Tencent 頂級(jí)的人工智能研發(fā)團(tuán)隊(duì),該團(tuán)隊(duì)專注于圖像處理、模優(yōu)圖式識(shí)別、深度學(xué)習(xí)。優(yōu)圖在人臉檢測(cè)、五官、人臉識(shí)別、表情識(shí)別、圖像理解等領(lǐng)域都有著深厚的積累和技術(shù)底蘊(yùn),其科研能力與技術(shù)實(shí)際落地水平也一直處于行業(yè)最前列4。以下為使用騰訊優(yōu)圖情識(shí)別結(jié)果:提供的開放平臺(tái)所得到的表3華技 大學(xué)圖 1-2Face+ 開放平臺(tái)表情識(shí)別結(jié)果(3)Tuputech(科技)Tuputech 是國(guó)內(nèi)頂尖的專注于計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的創(chuàng)新型人工智能公司,致力于引領(lǐng)人工智能的科研與技術(shù)落地
21、5。Tuputech 在智能鑒黃、證件識(shí)別、檢測(cè)、人臉識(shí)別、表情識(shí)別、圖像理解等方面都有著的科研與深厚的技術(shù)積累。以下為使用科技的開放平臺(tái)所得到的表情識(shí)別結(jié)果:圖 1-3Tuputech 表情識(shí)別效果圖同時(shí)人臉識(shí)別技術(shù)也一直是國(guó)外研究機(jī)構(gòu)追逐的熱點(diǎn),其中在國(guó)外具有代表性的公司及研究機(jī)構(gòu)如下:(1)Microsoft Azure微軟作為最早從事人臉識(shí)別研究,并最早推出人類識(shí)別應(yīng)用的頂尖 IT 公司之一,其在人工智能領(lǐng)域所取得的性成就也是世界公認(rèn)。以下為調(diào)用其開放接4華技 大學(xué)口所得到的表情識(shí)別結(jié)果圖:圖 1-4Microsoft Azure 表情識(shí)別結(jié)果圖(2)IMOTIONSIMOTIONS
22、公司作為國(guó)外最早從事表情識(shí)別研究的機(jī)構(gòu)之一,從 2005 開始持續(xù)在人臉識(shí)別、視線跟蹤、人臉表情分析等領(lǐng)域?qū)υ蟹桨缸龀鲂碌母倪M(jìn),其在流中對(duì)人臉表情持續(xù)監(jiān)測(cè)的技術(shù)目前處于業(yè)界前列。以下為其在流中對(duì)人臉表情持續(xù)性監(jiān)測(cè)的效果圖:圖 1-5IMOTIONS流中表情識(shí)別效果圖通過(guò)對(duì)國(guó)內(nèi)外頂尖研究機(jī)構(gòu)及商業(yè)團(tuán)體目前在表情識(shí)別領(lǐng)域的最新進(jìn)展與測(cè)試結(jié)果的研究可以得出:目前在計(jì)算機(jī)視覺領(lǐng)域,人臉識(shí)別仍然是各大商業(yè)團(tuán)體追逐最為焦灼的熱土,表情識(shí)別作為人臉識(shí)別領(lǐng)域更為次的探究,仍有較大提升空間與研究?jī)r(jià)值。1.2.1人臉基本表情定義人臉表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)技
23、術(shù)通常由人臉檢測(cè)、人臉5華技大學(xué)區(qū)域提取、表情特征提取、表情分類四個(gè)關(guān)鍵部分組成,各組成部分分別對(duì)圖像中的人臉進(jìn)行檢測(cè)與特征提取及最終的分類。著名心理學(xué)家P.Ekman 和 Friesen歸納總結(jié)了高興 Happy、悲傷 Sad、驚訝 Surprise、平靜 Nature、憤怒 Angry、厭惡Disgust 等幾種常見人類表情特征6,并在此基礎(chǔ)上系統(tǒng)地建立了覆蓋人類所有基本情緒的人臉表情圖像庫(kù)。人類常見表情的研究與人臉表情圖像庫(kù)的建立,為此后人類對(duì)人臉表情識(shí)別的研究與發(fā)展奠定了基本的理論基礎(chǔ)與 準(zhǔn)則7。人類常見基本表情的確定,成為了后續(xù)人類表情識(shí)別相關(guān)研究的基礎(chǔ),也為推動(dòng)人類表情識(shí)別相關(guān)技術(shù)
24、的發(fā)展與技術(shù)的實(shí)際落地做出了巨大的貢獻(xiàn)。1.2.2人臉運(yùn)動(dòng)編碼系統(tǒng)(FACS)美國(guó)心理學(xué)家 P.Ekman 和 Friesen 于 1978 年提出了著名的人臉運(yùn)動(dòng)編碼系統(tǒng)(Facial Action Coding System, FACS)用于描述人類面部表情和研究人類的認(rèn)知行為,將整個(gè)面部結(jié)構(gòu)劃分為 46 個(gè)運(yùn)動(dòng)單元(Action Unit,AU),并對(duì)其所表征的相關(guān)表情進(jìn)行了大量的歸納統(tǒng)計(jì)與深入研究8-10。研究還對(duì)其中每一個(gè)運(yùn)動(dòng)單元的表息與具體特征做了詳盡的分析與統(tǒng)計(jì),如運(yùn)動(dòng)單元 1,常見人臉面部特征為眉間上揚(yáng)、眼距增加,通常表示此人當(dāng)前可能處于驚訝、恐懼或者悲傷的心情狀態(tài),對(duì)每個(gè)基本
25、運(yùn)動(dòng)單元表情特征的研究與統(tǒng)計(jì)成為了人臉運(yùn)動(dòng)編碼系統(tǒng)的基礎(chǔ)。人臉運(yùn)動(dòng)編碼系統(tǒng)于 2002 年推出了更新的AU 劃分方式,新的基本運(yùn)動(dòng)單元?jiǎng)澐址绞皆谠邢到y(tǒng)方式基礎(chǔ)之上,進(jìn)行了小部分增加和修改,然而 46 個(gè)基本運(yùn)動(dòng)單元的劃分是目前計(jì)算機(jī)視覺人臉表情識(shí)別領(lǐng)域的權(quán)威參考準(zhǔn)則與劃分標(biāo)準(zhǔn),目前各大研究機(jī)構(gòu)及商業(yè)公司均在數(shù)據(jù)集上進(jìn)行著人臉方面的各項(xiàng)研究及技術(shù)落地。如表1-1 人臉運(yùn)動(dòng)編碼系統(tǒng)常見運(yùn)動(dòng)單元中所整理,該表中列出了部分基本運(yùn)動(dòng)單元在人臉面部中的具體形態(tài)與所對(duì)應(yīng)的常見情緒種類,雖然人臉運(yùn)動(dòng)編碼系統(tǒng)僅定義了46 種人臉基本的運(yùn)動(dòng)單元,但是通過(guò)不同人臉基本運(yùn)動(dòng)單元的組合,基本可以塑造出人臉面部所有的面
26、部特征與表情種類,此種運(yùn)動(dòng)單元的劃分方式表現(xiàn)了人臉運(yùn)動(dòng)編碼系統(tǒng)所具有的靈活的組合性能與極強(qiáng)完備性,46 種人臉基本的運(yùn)動(dòng)單元的組合了本文后續(xù)表情研究的基礎(chǔ),也為其他與人臉表情相關(guān)的研究提供了重要的理論依據(jù)與參考標(biāo)準(zhǔn)。6華技大學(xué)表 1-1FACS 常見運(yùn)動(dòng)單元(AU)正是因?yàn)?FACS 中AU 所具有的靈活性與適配性,F(xiàn)ACS 成為了人臉表情識(shí)別領(lǐng)域不同表情劃分與評(píng)判的理論基礎(chǔ)與評(píng)判準(zhǔn)則11,為推動(dòng)計(jì)算機(jī)學(xué)習(xí)識(shí)別人類情緒做出了劃的意義,同時(shí)也為計(jì)算機(jī)視覺領(lǐng)域關(guān)于表情的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。1.2.3表情識(shí)別方法概述人臉表情識(shí)別通常由(1)人臉識(shí)別;(2)人臉圖像獲取;(3)人臉圖像預(yù)處理;(4)
27、表情特征提取;(5)分類器設(shè)計(jì);(6)表情分類識(shí)別,這幾個(gè)基本流程所組成12。首先,計(jì)算機(jī)通過(guò)攝像頭對(duì)人臉進(jìn)行采樣識(shí)別,進(jìn)行準(zhǔn)確后獲取人臉圖片,接著將得到的人臉圖片進(jìn)行預(yù)處理。最后,對(duì)預(yù)處理后的人臉圖像進(jìn)行表7AU/常見情緒運(yùn)動(dòng)特征/ 面部圖像面部表現(xiàn)AU/常見情緒運(yùn)動(dòng)特征/ 面部圖像面部表現(xiàn)1(驚訝、恐懼、悲傷)1. 眉毛上揚(yáng)2. 眼距增加2/(驚訝、恐懼)1. 眉外側(cè)上升2. 額外側(cè)收縮4/(恐懼、憤怒)1. 降眉間肌2. 眉毛下壓9/(憤怒、厭惡)1. 皺起鼻肌2. 眉外側(cè)降低12/(愉快、假笑)1. 嘴角上揚(yáng)2. 臉部堆積20/(恐懼、焦慮)1. 唇角外拉2. 鼻孔擴(kuò)張23(憤怒、不滿
28、、焦慮)1. 收緊雙唇2. 嘴唇前突26/(驚訝、恐懼)1. 下巴降低2. 雙唇華技大學(xué)情特征提取,并通過(guò)設(shè)計(jì)好的人臉表情分類器對(duì)圖片進(jìn)行表情分類識(shí)別。圖 1-6傳統(tǒng)人臉識(shí)別的主要流程常用的表情特征提取方法有:(1)主動(dòng)形狀模型(Active Shape M, ASM)根據(jù) FACS 的基本運(yùn)動(dòng)單元?jiǎng)澐譁?zhǔn)則,可以發(fā)現(xiàn)各表情之間具有相對(duì)應(yīng)的面部生理和運(yùn)動(dòng)特征,因此,我們可以通過(guò)對(duì)這些表征人臉表情的面部進(jìn)行幾提取。主動(dòng)形狀模型(ASM)通過(guò)對(duì)訓(xùn)練集中標(biāo)定的人臉特征點(diǎn)進(jìn)行學(xué)何特征習(xí),然后再通過(guò)搜索最佳匹配點(diǎn)對(duì)人臉特征點(diǎn)進(jìn)行13-15。在人臉標(biāo)定中以人臉特征點(diǎn)的坐標(biāo)依次串聯(lián)組成一個(gè)類似人臉形狀的表征&
29、#119883;",這里𝑋"即為人臉的表征。,𝑋 =𝑥 ,𝑦 ,𝑥 ,𝑦 ,𝑥,𝑦(1.1)""%"%"'"'"()*')"()*')圖 1-7人臉常見關(guān)鍵特征點(diǎn)標(biāo)定圖8華技大學(xué)(2)光流法(Optical Flow, OF)光流的概念是 Gibson 在 1950 年首次提出來(lái)的。光流法是通過(guò)觀察運(yùn)動(dòng)物體在成像平面上像素點(diǎn)運(yùn)動(dòng)的速度分布,利用相鄰
30、幀間存在的相應(yīng)關(guān)系,計(jì)算出運(yùn)動(dòng)物體法16-19。光流中包含了相鄰幀之間人臉對(duì)象的運(yùn)動(dòng)信息,根據(jù)這些運(yùn)信息的動(dòng)信息可以確定人臉運(yùn)動(dòng)類別。由于光流法所提取的是運(yùn)動(dòng)物體間相鄰幀的信息,因此,在人臉表情的動(dòng)態(tài)分析中被廣泛使用。(3)紋理特征提取法紋理特征雖然是一種全局特征,但不能完全反映出對(duì)應(yīng)物體的本質(zhì)屬性,所以次的圖像內(nèi)容20,21。但是對(duì)于人臉表情的形狀,在很大程度上能表征人的表情,僅僅依靠紋理特征無(wú)法獲得目標(biāo)物體更識(shí)別而言,人臉面部肌肉的不同變化所這種變化通過(guò)人臉表面輪廓的舒張可以在圖像中顯著的表現(xiàn)出來(lái),通過(guò)提取這些人臉表面的紋理特征可以對(duì)人臉表情進(jìn)行識(shí)別。1.3主要工作內(nèi)容(1)研究如何改進(jìn)人
31、臉表情識(shí)別問題中人臉位置標(biāo)定的問題在傳統(tǒng)基于人臉特征所進(jìn)行的人臉識(shí)別中遇到半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下無(wú)法準(zhǔn)確人臉的問題,設(shè)計(jì)了一種并聯(lián)PNet 卷積層的改進(jìn)型多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks, MT人臉位置標(biāo)定精度,為后續(xù)表情識(shí)別提供了準(zhǔn)確的人臉數(shù)據(jù)。(2)研究如何改進(jìn)人臉表情識(shí)別中特征提取的問題)提高為了增強(qiáng)輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眼睛,鼻子,嘴巴)進(jìn)行提取,并對(duì)其進(jìn)行灰度增強(qiáng)處理后為偽彩色,并設(shè)計(jì)了一種基于輪廓增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinf
32、orcement Neural Network, CRNN)用以解決上述問題。(3)在公開的人臉數(shù)據(jù)集 wider face、CK+中對(duì)上述改進(jìn)方案進(jìn)行了實(shí)驗(yàn)測(cè)試與數(shù)據(jù)分析,證明了其在人臉表情識(shí)別方面比傳統(tǒng)的人臉特征提取方案的確具有更高的效率與更好的準(zhǔn)確率。主要分為五個(gè)章節(jié),每個(gè)章節(jié)所包含的內(nèi)容以及各個(gè)章節(jié)之間的關(guān)系如下:9華技大學(xué)第一章緒論部分。概括性的介紹了人臉表情識(shí)別的研究背景、研究意義、應(yīng)用前景。并介紹了人臉表情的基本定義、人臉運(yùn)動(dòng)編碼系統(tǒng)、傳統(tǒng)人臉識(shí)別方法以及國(guó)內(nèi)外人臉表情識(shí)別研究的最新趨勢(shì)與進(jìn)展。第二章相關(guān)技術(shù)分析。介紹了深度學(xué)習(xí)相關(guān)的基本原理與卷積神經(jīng)網(wǎng)絡(luò)的基本工作方式,并對(duì)人工
33、神經(jīng)網(wǎng)絡(luò)及卷積神經(jīng)網(wǎng)絡(luò)中的基本結(jié)構(gòu)與要素做了簡(jiǎn)要的說(shuō)明與闡述,接著簡(jiǎn)要介紹了實(shí)際應(yīng)用中人臉檢測(cè)網(wǎng)絡(luò)模型 MT學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的作用與實(shí)際應(yīng)用做了簡(jiǎn)要說(shuō)明。,最后對(duì)深度第三章表情識(shí)別算法設(shè)計(jì)。主要對(duì)所設(shè)計(jì)的人臉檢測(cè)模塊、人臉表情識(shí)別模塊進(jìn)行了詳細(xì)闡述,說(shuō)明了人臉檢測(cè)模塊的設(shè)計(jì)原理,人臉檢測(cè)模塊的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)模型訓(xùn)練過(guò)程;同時(shí),對(duì)增強(qiáng)輪廓型處理的過(guò)程及結(jié)果,進(jìn)行了原理性闡述與處理前后樣本效果圖對(duì)比,然后對(duì)新提出的 CRNN 網(wǎng)絡(luò)進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)分析、訓(xùn)練過(guò)程闡述及與 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比,最后完成并實(shí)現(xiàn)了該人臉表情識(shí)別系統(tǒng)。第四章實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析。對(duì)上一章節(jié)中所設(shè)計(jì)的人臉檢測(cè)模塊、人
34、臉表情識(shí)別模塊進(jìn)行檢測(cè),最后通過(guò)實(shí)驗(yàn)測(cè)試與數(shù)據(jù)分析,證實(shí)了所設(shè)計(jì)的人臉檢測(cè)模塊具有較高檢測(cè)準(zhǔn)確率的同時(shí),還具有訓(xùn)練效率高,運(yùn)行速度較快等優(yōu)點(diǎn),所設(shè)計(jì)的人臉表情識(shí)別模塊的確有助于提高人臉表情識(shí)別的準(zhǔn)確率。第五章總結(jié)與展望??偨Y(jié)性地介紹了整篇的工作成果與最終結(jié)論,并對(duì)人臉表情識(shí)別中仍需優(yōu)化的問題給予了新的思路與優(yōu)化意見。10華技 大學(xué)2相關(guān)技術(shù)分析深度學(xué)習(xí)(Deep Learning)是學(xué)習(xí)(Machine Learning)的一個(gè)分支,它能夠使計(jì)算機(jī)通過(guò)層次概念來(lái)學(xué)習(xí)經(jīng)驗(yàn)和理解世界22。因?yàn)橛?jì)算機(jī)能夠從經(jīng)驗(yàn)中獲取知識(shí),所以不需要人類來(lái)形式化地定義計(jì)算機(jī)需要的所有知識(shí)。深度學(xué)習(xí)問題中采用的模型一般
35、比較復(fù)雜,樣本的原始輸入到目標(biāo)輸出之間的數(shù)據(jù)流通常會(huì)經(jīng)過(guò)多個(gè)線性或非線性的組件。本章將介紹人工神經(jīng)網(wǎng)絡(luò)的定義與基本結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)的定義與結(jié)構(gòu),并將簡(jiǎn)要介紹人工神經(jīng)網(wǎng)絡(luò)中的反向算法及卷積神經(jīng)網(wǎng)絡(luò)中各層的層級(jí)結(jié)構(gòu)及實(shí)現(xiàn)原理。2.1人工神經(jīng)網(wǎng)絡(luò)2006 年,“深度置信網(wǎng)絡(luò)23-25”被發(fā)布在了著名期刊Science上,該概念的提出極大影響了人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。深度置信網(wǎng)絡(luò)通過(guò)計(jì)算預(yù)處理讓整體的網(wǎng)絡(luò)結(jié)構(gòu)得到一個(gè)相對(duì)最優(yōu)值,在此最優(yōu)值的基礎(chǔ)上通過(guò)微調(diào)技術(shù),來(lái)對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行優(yōu)化26。2012 年 Hinton 團(tuán)隊(duì)用 Yann LeCun 所成名的網(wǎng)絡(luò)中所提及的 Fine-turning 技術(shù),打敗了
36、其他傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)及上面深度置信學(xué)習(xí)方法,一舉贏得了ImageNet 的圖片分類項(xiàng)目冠軍,自此深度學(xué)習(xí)迎來(lái)了蓬勃的發(fā)展與追逐的熱潮27。圖 2-1人工神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,圖 2-2 展示了生物學(xué)上的神經(jīng)元和人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本11華技大學(xué)的神經(jīng)元,可以看出人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元是生物學(xué)神經(jīng)元的粗略模擬和結(jié)構(gòu)。圖 2-2生物學(xué)與人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元對(duì)于圖 2-2 中人工神經(jīng)網(wǎng)絡(luò)神經(jīng)元的輸入輸出關(guān)系,我們可以用如下方程組進(jìn)行描述:)𝑧 =𝑤" 𝑎" + 𝑏(2.1)(2.2)(模擬生"1
37、't其中𝑎"𝑎:為輸入=g(z)(如圖 2-2 中輸入信號(hào)𝑥',𝑥),𝑤'𝑤:為物學(xué)神經(jīng)元突觸),b 是偏置量(圖 2-2 中偏置節(jié)點(diǎn)為+1),a 為經(jīng)過(guò)激勵(lì)函數(shù) g(z)后的最終輸出。多個(gè)神經(jīng)網(wǎng)絡(luò)基本的級(jí)聯(lián)了人工神經(jīng)網(wǎng)絡(luò),神經(jīng)元通過(guò)從上層到下層串聯(lián)的方式連接,信號(hào)在兩級(jí)的神經(jīng)元之間傳遞帶上該神經(jīng)元對(duì)應(yīng)的。圖2-3 展示了一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò), 其中包括 Layer 𝐿'輸入層,Layer 𝐿隱藏層和Layer 𝐿
38、;=輸出層。在圖 2-3 所示的人工神經(jīng)網(wǎng)絡(luò)中,Layer 𝐿'中 4 個(gè)節(jié)點(diǎn)均稱為“輸入節(jié)點(diǎn)”,Layer𝐿中最下為偏置節(jié)點(diǎn),只固定輸出不接受任何輸入。如圖 2-3 所示的簡(jiǎn)單人工神經(jīng)表示為: (𝑊,𝑏) =網(wǎng)絡(luò)通過(guò)人工神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型可以簡(jiǎn)單地用數(shù)學(xué)表(𝑊('), 𝑏('), 𝑊(;),𝑏(;) )。因此,當(dāng) l=1 時(shí),a(') = x。在給參數(shù) W,b 的情況下,依次對(duì)神經(jīng)網(wǎng)絡(luò)模型中的單個(gè)節(jié)點(diǎn)計(jì)算后面每一層的輸出值,這一依次對(duì)輸
39、入信號(hào)進(jìn)行向前傳遞的過(guò)程即為前向。圖 2-3 展示了一組基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中前向的示意圖,各節(jié)點(diǎn)從前依次傳遞傳入信息,輸入信息經(jīng)過(guò)各節(jié)點(diǎn)不同處理后傳遞。12華技大學(xué)圖 2-3神經(jīng)網(wǎng)絡(luò)前向示意圖a ;= f(W(')x'W(')x;W(')x=b(') )+(2.3)'''''='a ;= f(W(')x'W(')x;W(')x=b(') )(2.4);'=;a ;= f(W(')x'W(')x;W(')x=b(') )(
40、2.5)='=;=(x) = a= f(W(;)a ; +W(;)a ;W(;)a ;b(;) )=h+(2.6)F,G''''''='a # a # a # h&,(x)分別表示圖 2-3 所示人工神經(jīng)網(wǎng)絡(luò)中第 2 層第 1 個(gè)節(jié)"#$點(diǎn),第 2 層第 2 個(gè)節(jié)點(diǎn),第 2 層 3 個(gè)節(jié)點(diǎn)以及最終節(jié)點(diǎn)的輸出信號(hào)。將公式 2.6 括和W(;)a ;+ b(;) 定義為參數(shù)W(;)a ;W(;)a ;+號(hào)里較長(zhǎng)的輸入信號(hào)''''.'='z($) l i z (W(-)
41、x,b(-) ),則節(jié)點(diǎn)輸出=+",/-"","可以簡(jiǎn)化為a H = f(z(H) ) 。圖 2-4神經(jīng)網(wǎng)絡(luò)反向示意圖13華技大學(xué)梯度下降(Gradient Descent)即通過(guò)求得函數(shù)當(dāng)前點(diǎn)所對(duì)應(yīng)的梯度值,沿著梯度的反方向前進(jìn)一定的步長(zhǎng)得到新的點(diǎn),然后在此點(diǎn)的基礎(chǔ)上依次迭代搜索可以得到該函數(shù)的局部最小值28。由圖 2-4 不難發(fā)現(xiàn),輸出層節(jié)點(diǎn)e 的前置節(jié)點(diǎn)為隱層節(jié)點(diǎn)c 和d,因此對(duì)于節(jié)點(diǎn)e 的誤差不可能被節(jié)點(diǎn) c 獨(dú)有,而是要服從按勞分配的原則(按權(quán)重 W 分配)。同理輸出層節(jié)點(diǎn) f 的誤差也需服從按勞分配的原則,而輸出層的節(jié)點(diǎn) e 分別指向了隱層節(jié)
42、點(diǎn) c 和 d,因此對(duì)于節(jié)點(diǎn) e 的誤差可以表示為:% ()% ()!"#=&&!+&(!()()+#()()+-(2.7)%&& %(&%&( %(% ()% () &&&(!"#"$!+#+$% () % ()% () % ()&&(&()&() (2.8)!%(&%(% () % ()% () % ()&&(&&(2.2卷積神經(jīng)網(wǎng)絡(luò)()卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)中的神經(jīng)元除了關(guān)注自身特征外
43、還能與周圍神經(jīng)元協(xié)同處理,尤其是在計(jì)算機(jī)視覺與圖像處理領(lǐng)域有著出色的表現(xiàn)29,30。2.2.1網(wǎng)絡(luò)結(jié)構(gòu)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)通常由若干卷積層(Convolution Layer)、(PoolingLayer)、全連接(Dense Layer)組合而成。其常用組合模型為:輸入層(Input Layer)>卷積層(Convolution Layer) >(Pooling Layer) >卷積層(ConvolutionLayer)>(Pooling Layer)>.>全連接(Dense Layer),即 N 個(gè)Convolution Layer 疊加,然后接上一個(gè) Po
44、oling Layer,重復(fù)此卷積子結(jié)構(gòu) M 次,最后接入 K 個(gè) Dense Layer。一個(gè)通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以用以下形式所表示:(1)Input Layer(輸入層)(2)Conv 卷積 >Relu 激勵(lì) N>Pooling M(隱藏層)14華技大學(xué)(3)Dense>Relu K(激活層)(4)Dense Layer(全連接層)圖2-5 是展示了一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中N=1,M=2,K=1,即該基本卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中包含了一個(gè)卷積層接一個(gè),然后重復(fù)該結(jié)構(gòu)兩次最后接一個(gè)全連接層。圖 2-5典型卷積神經(jīng)網(wǎng)絡(luò)()網(wǎng)絡(luò)結(jié)構(gòu)從圖 2-5 中可以發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的層級(jí)結(jié)
45、構(gòu)和 Full Connection 的層級(jí)結(jié)構(gòu)有較大差異。Full Connection 中每層的神經(jīng)元以一維的形式排列,層與層之間全部連接,各節(jié)點(diǎn)與下一層中的所有節(jié)點(diǎn)均有;中每層的神經(jīng)元是以三維的形式排列,整體一個(gè)長(zhǎng)方體的形狀,其中包含了寬度、高度和深度。2.2.2卷積層卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)計(jì)算機(jī)視覺中圖像的卷積區(qū)別在于,傳統(tǒng)計(jì)算機(jī)視覺中用于計(jì)算的卷積核是已知的,如常用的邊緣檢測(cè)算子、Gaussian Blur 等,將這些已知的卷積核與輸入圖像進(jìn)行卷積運(yùn)算。Deep Learning 卷積神經(jīng)網(wǎng)絡(luò)中的卷積核是未知的,通過(guò) Deep Learning 訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型,其本質(zhì)就是不斷學(xué)習(xí)訓(xùn)
46、練得到符合實(shí)際需要的卷積核。卷積核的本質(zhì)就是特征提取器,也稱之為過(guò)濾器Filter,卷積核通過(guò)對(duì)圖像中特征的提取歸納總結(jié)出一定的規(guī)律,自我學(xué)習(xí)與訓(xùn)練,最終收斂到一組符合用戶預(yù)期的數(shù)值上31。圖 2-6 給出了使用一組有關(guān)顏色的卷積核對(duì)左側(cè)圖片進(jìn)行一層卷積運(yùn)算后得到右側(cè)圖片的效果圖,表明了卷積核的本質(zhì)的確是對(duì)圖像特征進(jìn)行過(guò)濾與提取。15華技 大學(xué)圖 2-6單層卷積運(yùn)算前后圖像對(duì)比效果圖2.2.3的本質(zhì)就是對(duì)輸入圖像做下采樣處理,常用的圖像下采樣方式有:Mean pooling(均值采樣)、Max pooling(最大值采樣)、Overlapping (重疊采樣)、L2 pooling(均方采樣)
47、、Local Contrast Normalization(歸一化采樣)、Stochasticpooling(隨即采樣)、Def-pooling(形變約束采樣)等。圖 2-7最大值采樣()過(guò)程其中最為常用的圖像下采樣方式就是最大值采樣,如圖 2-7 展示了對(duì)輸入圖像進(jìn)行最大值采樣的過(guò)程。圖中左側(cè)輸入矩陣左上角 22 的子矩陣中最大值為 6,右上角 22 的子矩陣中最大值為8,左下角22 的子矩陣中最大值為3,右下角22 的子矩陣中最大值為4,所以得到圖 2-7 中右側(cè)部分的(最大采樣)結(jié)果為:6 8 3 4。通過(guò)處理,減少了數(shù)據(jù)量,降低了數(shù)據(jù)的計(jì)算難度,但是同時(shí)也會(huì)帶來(lái)一定精度傷的損失。16華
48、技大學(xué)2.3多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MT)MT是 2016 年由先進(jìn)技術(shù)喬宇教授組所提出的一種級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型,該級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)分為 3 個(gè)網(wǎng)絡(luò)層級(jí)模塊,Proposal Net(PNet),Refine Net(RNet),Output Net(ONet)。在該級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中:(1)PNet 子神經(jīng)網(wǎng)絡(luò)模塊通過(guò)對(duì)原圖進(jìn)行 Resize 處理,得到關(guān)于原圖的圖像金字塔,然后以全連接的方式對(duì)圖像進(jìn)行特征提取,矩形框的滑動(dòng)得到候選的人臉圖像區(qū)域塊(矩形塊),然后通過(guò)非最大抑制(NMS)合并對(duì) IOU 較高的候選區(qū)域進(jìn)行合并,對(duì)圖片中所有的候選區(qū)域做粗略的篩選與修正。第一階段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作
49、用基本可以概括為圖片為人臉或是臉的判定。圖 2-8PNet 層網(wǎng)路結(jié)構(gòu)圖(2)RNet 子神經(jīng)網(wǎng)絡(luò)模塊的作用是對(duì)經(jīng) PNet 層后剩下的所有窗口進(jìn)行更進(jìn)一步的篩選與甄別,也是通過(guò)矩形框圖的滑動(dòng)和最大抑制的方法,RNet 子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般和 PNet 結(jié)構(gòu)相似,對(duì) PNet 層輸出的帶矩形窗口的圖像做 Resize 操作后作為RNet 層網(wǎng)絡(luò)模塊的輸入。第二階段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作用基本可以概括為人臉候選區(qū)域的合并與修正。圖 2-9RNet 層網(wǎng)路結(jié)構(gòu)圖(3)ONet 子神經(jīng)網(wǎng)絡(luò)模塊的作用與 RNet 相似,ONet 不僅對(duì)通過(guò) RNet 模塊后17華技大學(xué)的圖像中的窗口進(jìn)行篩選,再通過(guò)人臉的
50、5 個(gè)關(guān)鍵特征點(diǎn)對(duì)圖像中的窗口做了進(jìn)一步的篩選,最終得到人臉輸出結(jié)果。第三個(gè)階段段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作用基本可以概括為 5 個(gè)關(guān)鍵點(diǎn)的與人臉區(qū)域的修正。圖 2-10ONet 層網(wǎng)路結(jié)構(gòu)圖2.4本章小結(jié)本章第一部分從人工神經(jīng)網(wǎng)絡(luò)的講起,介紹了人工神經(jīng)網(wǎng)絡(luò)的、人工神經(jīng)網(wǎng)絡(luò)的架構(gòu)模型和基本原理,并詳細(xì)介紹了其中的前向算法和反向算法,并對(duì)其中解決了困擾人工神經(jīng)網(wǎng)絡(luò)線性不可分問題的 BP 算法進(jìn)行了原理闡述,最后介紹了人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中誤差更新的原理;本章第二部分詳細(xì)介紹了在圖像領(lǐng)域有影響的卷積神經(jīng)網(wǎng)絡(luò),分別從其網(wǎng)絡(luò)結(jié)構(gòu)、卷積層、三個(gè)方面展開,詳細(xì)介紹了卷積神經(jīng)網(wǎng)絡(luò)中各層的原理與作用;本章第三部分簡(jiǎn)要
51、介紹了中所涉及到的 MT人臉檢測(cè)算法,MT的基本網(wǎng)絡(luò)結(jié)構(gòu)及MT的三個(gè)主要的網(wǎng)絡(luò)模塊,接著對(duì)三個(gè)重要絡(luò)模塊的具體結(jié)構(gòu)及各網(wǎng)絡(luò)模塊的作用進(jìn)行了簡(jiǎn)要的說(shuō)明。本章從人工神經(jīng)網(wǎng)絡(luò)的提出到深度學(xué)習(xí)的,再到反向算法的原理,最后是實(shí)際應(yīng)用中人臉檢測(cè)網(wǎng)絡(luò)模型 MT論基礎(chǔ)和其在圖像處理領(lǐng)域的實(shí)際應(yīng)用。,比較清晰地闡述了深度學(xué)習(xí)的相關(guān)理18華技大學(xué)3表情識(shí)別算法設(shè)計(jì)自上世紀(jì) 50 年代人工神經(jīng)網(wǎng)絡(luò)模型被提出起,人臉檢測(cè)一直是計(jì)算機(jī)視覺領(lǐng)域研究的熱土,無(wú)數(shù)科研在此投入了大量的時(shí)間與精力。一方面是因?yàn)檠芯繉?duì)人類自身生理特征的好奇,更重要的一方面是人臉檢測(cè)是表情識(shí)別、人臉識(shí)別、檢測(cè)、等一系列更次人臉研究的基礎(chǔ)。在傳統(tǒng)基于
52、類似人臉Haar 特征所進(jìn)行的人臉識(shí)別中遇到半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下無(wú)法準(zhǔn)確人臉的問題,本文設(shè)計(jì)了一種并聯(lián)PNet 卷積層的改進(jìn)型多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks, MT)。在此人臉檢測(cè)技術(shù)的基礎(chǔ)上,由人類視覺系統(tǒng)具有亮度差異性、色彩敏感性這一特點(diǎn)出發(fā),本文提出了對(duì)樣本進(jìn)行增強(qiáng)輪廓型處理可能提高人臉識(shí)別準(zhǔn)確率的猜想,并在此猜想上設(shè)計(jì)了一種基于輪廓增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinforcement Neural Network ,CRNN)。3.1人臉檢測(cè)模塊設(shè)計(jì)傳統(tǒng)基于 Haar 特征的人臉檢測(cè)
53、,采用矩形塊或其他圖形塊對(duì)人臉區(qū)域進(jìn)行篩選,構(gòu)建多層級(jí)聯(lián)的逐層篩選結(jié)構(gòu),多個(gè)弱分類器級(jí)聯(lián)然后接強(qiáng)分類器構(gòu)建一層篩選結(jié)構(gòu),然后多個(gè)這樣的層級(jí)篩選結(jié)構(gòu)級(jí)聯(lián)了整個(gè)檢測(cè)系統(tǒng)。該種篩選結(jié)構(gòu)對(duì)人臉特征進(jìn)行由弱到強(qiáng)的逐級(jí)篩選,具有訓(xùn)練方法簡(jiǎn)單,層級(jí)結(jié)構(gòu)明確等優(yōu)點(diǎn)。然而由于其粗略的矩形塊篩選方法,圖片中的半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境的人臉特征時(shí),由于人臉特征不明確,殘缺的人臉很難通過(guò)所設(shè)計(jì)的多層分類網(wǎng)絡(luò),從而出現(xiàn)人臉圖片無(wú)法被檢測(cè)的狀況。上述傳統(tǒng)人臉檢測(cè)方法中的問題,本文將改進(jìn)型的多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法用于系統(tǒng)的人臉檢測(cè)部分,多組不同任務(wù)的級(jí)聯(lián),解決了傳統(tǒng)人臉檢測(cè)中,訓(xùn)練時(shí)間長(zhǎng)、惡劣環(huán)境下識(shí)別準(zhǔn)確率
54、低的問題。3.1.1并聯(lián)型 MT通過(guò)對(duì)單個(gè)的卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,目前我們已經(jīng)可以對(duì)大數(shù)據(jù)集下的單19華技大學(xué)張圖片做簡(jiǎn)單的分類,同時(shí)可以對(duì)單張圖片中的多種物體進(jìn)行一定準(zhǔn)確度的物體識(shí)別。由于目前的硬件計(jì)算能力與訓(xùn)練策略的限制,目前研究者在訓(xùn)練足夠次的卷積神經(jīng)網(wǎng)絡(luò)方面還有一定的,無(wú)法在單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中完成多樣性特征的提取。圖 3-1級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖既然目前的技術(shù)及硬件條件下無(wú)法繼續(xù)增加單個(gè)卷積模塊的深度,研究者提出了將多個(gè)淺層的神經(jīng)網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián)的方案,單個(gè)淺層卷積網(wǎng)絡(luò)模塊的級(jí)聯(lián),可以使得單個(gè)模塊的參數(shù)與過(guò)濾條件盡量少,每個(gè)卷積模塊的所需訓(xùn)練的參數(shù)量相比單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模塊而言有了很大的降低,而且level 越高的卷
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村電路維修推廣方案
- 用戶管理規(guī)劃方案(3篇)
- 監(jiān)控土建施工方案
- 樓房水電管理方案
- 智能餐廳資金管理方案
- 墻面防水整改方案
- 慰問品供銷方案
- wlan施工方案設(shè)計(jì)
- 開發(fā)客戶維護(hù)方案模板
- 揚(yáng)塵監(jiān)測(cè)數(shù)據(jù)校準(zhǔn)方案
- 心衰病中醫(yī)護(hù)理方案課件
- 基于PLC的智能車庫(kù)門系統(tǒng)設(shè)計(jì)
- 【2023有效教學(xué)設(shè)計(jì)原理、策略與評(píng)價(jià)讀書報(bào)告3600字】
- 頂管專項(xiàng)施工方案-人工頂管
- SYNTEC參數(shù)說(shuō)明手冊(cè)
- 2023春國(guó)家開放大學(xué)-01880組織行為學(xué)-期末考試題帶答案
- 2012年度天津市科學(xué)技術(shù)獎(jiǎng)評(píng)審結(jié)果
- 2022年臺(tái)州椒江區(qū)輔助警務(wù)人員招聘考試真題及答案
- 第二講土地估價(jià)技術(shù)報(bào)告難點(diǎn)及技術(shù)要求與處理辦法
- 房屋維修施工方案
- 2023版中國(guó)近現(xiàn)代史綱要課件:09第九專題 新民主主義革命偉大勝利
評(píng)論
0/150
提交評(píng)論