基于深度學習的視覺特征在圖像檢索中的應用-_第1頁
基于深度學習的視覺特征在圖像檢索中的應用-_第2頁
基于深度學習的視覺特征在圖像檢索中的應用-_第3頁
基于深度學習的視覺特征在圖像檢索中的應用-_第4頁
基于深度學習的視覺特征在圖像檢索中的應用-_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、-. z.大學2017年大學生創新創業訓練工程申報書填表時間: 2016年 10 月 9 日工程名稱基于深度學習的無人機感興趣圖像目標檢索系統工程創新特色概述無人機目標圖像檢索系統使用深度學習的方式,對無人機獲得的圖像中的諸如中特定目標進展檢索,從而找出圖像中的目標物體,方便人們對目標物體進展搜索,具有較高的應用價值。本工程將以人為例,使系統能夠根據用戶需求輸出帶有特定人物的圖像。工程所屬一級學科工學申請經費1000元起止時間2016年9月至2017年9月申請人或申請團隊信息*院系、專業聯系濤79電子信息學院1603522850qq.夏文軒68電子信息學院salce8888126.翀22電子信

2、息學院sunchongwhu.宇森54國際軟件學院695386228qq.昂21計算機學院451141583lianggmail.注:工程負責學生的信息填寫在本欄目的第一行,成員共計不超過5人。導師信息院系職稱聯系文電子信息學院教授.一、申請理由1.小組成員簡介:1濤電子信息學院2014級電子信息科學類專業,已完成局部相關課程學習,愛好編程,大學期間已經學過c,c+等編程語言,有一定的動手實踐能力。2014學年獲大學暑期實踐團體二等獎和芙蓉學子稱號。大二期間組建IDOBE工作室,進展大學生創業創新實踐訓練,并在大學大學生創業實踐活動中心注冊申請到辦公室。有一定的自主

3、創新意識,具有較強的團隊協作能力,對無人機圖像處理工程有濃厚興趣。2) 夏文軒電子信息學院2014級電子信息科學類專業,專業課成績良好,有較為扎實的專業根底,被選入電子信息學院卓工班,在大一學年度獲得丙等獎學金。在圖像處理,數字信號等方面有著濃厚的興趣,學習并掌握了c, c+, java, verilog等程序語言。喜愛科學研究,并通過大二上學期模擬電路課程工程設計初步積累科研經歷。對待學習,社團,科研態度認真,希望通過此次時機提升自己的實踐能力和專業素養,增強自己的責任心。3)翀電子信息學2014級電波與天線傳播專業,學習成績優良,專業知識扎實,熟練掌握c,c+,在大一學年獲得丙等獎學金。勤

4、于思考,樂于鉆研,富有探索精神并有較強的動手能力。視野開闊,具有良好的創新意識。既能獨立思考又擅長與團隊協作,希望能在工程中奉獻力量,提升自己并將所得知識轉化為實際成果。4)宇森國際軟件學院2015級軟件工程專業,根底知識扎實,學習成績良好,樂于學習,勤于鉆研,學習刻苦認真。根本掌握C+編程能力,但還需多加練習。在創新的道路上,有屬于自己的風格,不拘泥于已存在的,而是求索未知的一切。希望在工程完成的過程中,能奉獻出自己的微薄力量,并逐漸完善自己,走向通往更高的道路。5)昂計算機學院2015級弘毅班,學習成績優良,理論知識掌握扎實,熟練掌握c。勤于思考,鉆研與人工智能有關的問題,專業與人工智能有

5、密切關系,希望通過做深度學習相關的科研工程提高自己的團隊合作能力與專業知識。2.指導教師簡介文,1976年生,現為大學電子信息學院教授,博士生導師。IEEE信號處理學會,地球科學與遙感學會會員。2004年博士畢業于大學電子信息學院通信與信息系統專業,2008年至2009年法國應用數學與計算機科學實驗室Laboratoire Jean Kuntzmann,RS-INRIA/LJK,任訪問學者/博士后,研究遙感圖像語義標注。近年來主持和作為核心研究人員參與了十余項國家級科研工程的研究,包括國家自然科學基金工程、863方案課題、973方案課題等。基于上訴研究,在IEEE TIP、IEEE TGRS、

6、IEEE JSTAES、IEEE GRSL等權威期刊和國際會議上發表論文70余篇。登記軟件著作權4項,獲批國家創造專利3項,2012年獲省科學技術獎自然科學三等獎。在2012年IEEE GRSS地球物理與遙感協會DFTC數據融合技術委員會數據融合競賽中獲得第5名。教學方面近年來4次獲得省優秀學生論文指導教師獎。目前的研究方向為圖像處理與計算機視覺,機器學習及其在遙感信息處理中的應用。教師在學生中以博學多聞,助人為樂被學生們喜愛,對學生請教的問題,教師總是給予及時詳細的解答。在本工程研究中,教師也給予大力支持與指導,教師團隊的其他教師和研究生也對本工程遇到的問題給予支持和幫助。二、立項背景1、研

7、究現狀視覺是人類獲取客觀世界量信息的主要手段,圖像是視覺信息的表現形式之一,而隨著互聯網產業和數字化技術的飛速開展,圖像檢索已經慢慢成為人們日常生活、工作、學習不可或缺的一局部,人們單一的靜態的文本開展為多元的,具有多種功能的圖片、語音及視頻上來,同時,圖像也提供了連接人和效勞的平臺模式,為整個數字化生活的開展起到了巨大的推動作用。在這個根底上,高效、便捷、準確的目標檢索的迅速開展則解放了大量的管理者熱人力,同時滿足了各種用戶的各種需求。從20世紀70年代起,對圖像檢索的研究就已經開場,最初的主要研究方向是基于文本的圖像檢索技術Te*t-based image retrieval,TBIR。該

8、過程需要人為對多媒體信息進展理解,并利用文本描述的方式對圖像進展文字標注,然后通過文本信息的檢索技術來實現對圖像信息的檢索。這種文本信息的檢索技術的最大優點是如果圖像信息描述的完整適當,會產生較好的檢索結果。然而,基于文本的圖像檢索必然存在一定的局限性。首先,由于如今圖像的數量呈幾何數的海量增長,要對每一圖片都進展人工的詳細標注是不可能完成的任務,其次,由于人們對圖像容的理解和表達存在很強的主觀性和個體差異性,使得圖像的標注容在一定程度上會對檢索結果產生影響。基于此,研究者們開場進展基于圖像的圖像檢索技術的研究。基于容的圖像檢索技術Content-based image retrival,CB

9、IR是利用圖像本身的視覺信息來實現檢索的。其主要思路則是用戶提供檢索的圖像樣例,通過系統對圖像樣例自動分析,然后從圖像庫中選取相似的圖像回饋給用戶。其系統架構大致為,系統通過對圖像的圖像提取視覺特征,完成圖像庫到特征庫的映射,并建立圖像與所對應特征之間的索引關系。用戶向系統提交查詢圖像,系統則對查詢圖像提取特征,然后與特征庫所有的特征做相似性匹配,并返回對應的相似圖像給用戶。2、研究趨勢在以圖像檢索為最終目標上,機器學習領域的深度學習則作為非常重要的突破技術,在圖像分類和識別上起到重要作用。傳統的機器學習方法通常使用淺構造,相比之下,深度學習模仿人腦組織,構建了一個很深的架構,信息在這個深層架

10、構里進展多層次的傳遞和轉換。深度學習通過探索深層架構對數據自動進展多個級別的抽象功能,是系統去學習一個復雜的過程或函數,將原始輸入數據也映射為輸出數據。現在在機器學習領域,已經取得一定的研究成果,如使用多任務DNN模型來血虛高層圖像表示方法、使用DAE模型對圖像二進制進展編碼等。但是,基于深度學習的圖像檢索技術還有大量的研究工作有待進展。3、研究意義隨著無人機研究的興起,無人機在人們的經濟日常生活應用中的功能不斷被挖掘和開發,無人機應用的普及,可以大大的節省人力資源,提高工作效率和保證*些特定工作的平安,我們正是了解到無人機在環境檢測,對車輛檢測,對于人體目標確定等方面的優勢,所以決定將基于深

11、度學習的圖像檢索技術搭載到無人機的平臺上面,實現基于深度學習的無人機感興趣目標檢索的系統應用。4、參考文獻1 Ji Wan, Dayong Wang, Steven C.H. Hoi, Pengcheng Wu, Jianke Zhu, Yongdong Zhang, Jintao Li, Deep Learning for Content-Based Image Retrieval: A prehensive Study ACM International Conference on Multimedia, 2014:157-1662 A. W. M. Smeulders, M. Worri

12、ng, S. Santini, A. Gupta, and R. Jain. Content-based image retrieval at the end of the early years. IEEE Trans. Pattern Anal. Mach. Intell. 22(12):13491380, 2000.3 啟財基于深度學習的圖像檢索技術研究師大學碩士學位論文,20154 *in-Yu Ou , He-Fei Ling , Ling-Yu Yan, Convolutional neural codes for image retrieval, Signal & Informa

13、tion Processing Association Summit & Conference 20145 R *ia,Y Pan,H Lai,C Liu,S Yan, Supervised hashing for image retrieval via image representation learning, AAAI, 2014. 2, 6, 7, 86 A Krizhevsky,GE Hinton, Using Very Deep Autoencoders for Content-Based Image Retrieval, European Symposium on Esann,

14、20117 于淼, 朱瓊, 王國宇. 基于特征點匹配和哈希法的圖像檢索方法J. 網絡新媒體技術, 2006, 27(04):397-400.8 王濤, 胡事民, 家廣. 基于顏色-空間特征的圖像檢索J. 軟件學報, 2002, 13(10):2031-2036.9 向陽, 莊越挺, 云鶴. 基于容的圖像檢索技術與系統J. 計算機研究與開展, 2001, 38(03):344-354.三、工程方案1.綜述:本工程的目標是構建一個基于深度學習的無人機圖像檢索系統,給定一個特定的目標的照片和一個可能含有該目標的圖像庫,通過深度學習的方法,檢測出圖像庫中是否具有該目標以及該目標存在于圖像庫中的哪些照片

15、上。具體實現將以通過無人機采集到的圖像中的人為例,驗證我們的檢索思路及算法,然后會嘗試對算法進展優化,并可能將檢索的目標類型擴大至其它物體比方汽車,建筑等上。常規的基于容的圖像目標檢索方法是通過無人機等設備獲得我們想要檢索的人或物的照片以下稱為目標圖像以及可能擁有該人物或事物的一組其它照片以下稱為參考圖像庫,然后提取參考圖像庫中每一圖片的特征并存入特征庫中,建立圖像與對應特征的索引:做檢索時,先提取目標圖像的特征,然后與特征庫中的特征做相似性匹配,將特征按相似性從高到低排序;最后從圖像庫索引中找出對應的圖片給用戶。在這個過程中,最重要的步驟是特征提取和特征匹配過程。對于本工程,我們使用基于深度

16、學習的圖像目標檢索算法。當深度學習算法應用于實例搜索任務時,主要就是從特征入手,提取更加具有判別性的特征。我們首先進展基于深度卷積神經網絡的圖像檢索。首先要獲取圖像,建立參考圖像庫和目標圖像庫;其次要對兩邊的圖像分別進展預處理,使之精度在像素級上到達進展后續處理的標準;然后需要建立深度學習的訓練模型,這一步是整個工程過程的重點。我們本次使用的方法是基于卷積神經網絡的圖像檢索法,用于基于容的檢索上。我們需要建立一個神經網絡模型,使用另一個圖像庫對模型進展訓練,之后再將目標圖像和參考圖像庫用訓練好的模型進展匹配與識別,最終在參考圖像庫里找出可能含有目標圖像中的人物的圖像。2.具體流程本工程的根本流

17、程如下:下面分分步介紹各個步驟的具體容。1獲取圖像,建立圖像庫與圖像預處理首先用無人機拍攝得到目標圖像和參考圖像庫。由于參考圖像是一個搜索圍,所以會有很多甚至成百上千,所以建立一個圖像庫來存儲參考圖像。圖像預處理首先是進展圖像增強和圖像去噪,消除拍攝過程中產生的干擾。此外,由于不同的目標具有不同的特點,姿態,形狀,尺寸等差異很大,即使是同為人物,仍有高矮,胖瘦,和不同姿勢之分,或者存在其他的不同之處。因此需要采用采用一定的語義對齊方式使模型對這些變化魯棒。常見的方式主要有商品檢測框對齊,旋轉對齊,局部關鍵點對齊等。經過預處理,圖像的品質明顯增強,同時對外界條件的變化產生了一定的魯棒性,為下一步

18、的處理奠定了根底,如圖1所示圖12構建基于卷積神經網絡的深度學習模型目前進展圖像識別,圖像檢索中的一個關鍵的挑戰是著名的語義鴻溝,是機器捕獲的低級別的圖像像素和人類感知的高層次的語義之間差異。深度學習作為一個可能的方向,是彌補圖像檢索中的語義鴻溝的希望。其主要任務是仿照人類的大腦中的神經系統構建一個是深度學習的網絡模型,是整個工程的最重要的一步。深度學習即深度神經網絡學習,屬于機器學習的一種見圖2,與淺度學習相對。其本質思想是堆疊多個神經元層,包含輸入層,隱藏層和輸出層,其中隱藏層數量較多較少的話就被稱作淺度學習,每個層都提取一定的特征和信息,上一層的輸出作為下一層的輸入,依次向前傳輸。它能夠

19、學習復雜函數,表示高階抽象概念,解決目標識別,語言理解和語音感知等人工智能的相關任務。在圖像檢索中,深度學習主要是從原始圖像自動學習到圖像的低層次特征并進展抽象與組合,最終獲得高級特征。利用所得特征,我們可進一步對目標圖像做識別等相關操作。具體做法是在深度神經網絡之后連接一個分類器將獲得的神經網絡的輸出激活值作為分類器的輸入,由分類器進展數據分類分類器也要經過一個訓練過程。在圖像檢索中,先對圖像庫的圖像進展分類,檢索時,通過獲取圖像的類別,然后再到圖像庫中提取相應類別的圖像。深度神經網絡學習主要有以下幾種常用網絡:人工神經網絡,自編碼神經網絡,以及卷積神經學習網絡見圖3。本工程使用的深度學習網

20、絡模型是基于卷積神經網絡的模型,它主要分為兩局部:1卷積層和最大池層,2完全連接層和輸出層。第一層為輸入層,采用均值為中心原RGB像素強度值。輸入圖像由原來的256*256的圖像生成的平移和水平反射所提取隨機的224*224個補丁和原圖像疊加而成。在輸入層有五個卷積層。第一和第二卷積層在響應歸一化層和最大池層之后,而第三、第四、和第五的卷積層連接到一個沒有任何干預的地方。卷積層之后還有兩個全連接層,稱為FC1和FC2。最后的輸出層在FC2層。在構建卷積神經網絡模型的時候,我們要首先建立一個海量的圖像庫。在圖像庫里面有各種各樣的圖片,我們需要利用圖像庫里的圖像對網絡模型進展訓練,收集大量的深度學

21、習數據。具體的訓練方法是:1首先逐層構建單層神經元,這樣每次都是訓練一個單層網絡。2當所有層訓練完后,Hinton使用wake-sleep算法進展調優。這樣一方面解決了同時訓練所有層造成的時間復雜度太高的問題,另一方面防止了每次訓練一層造成的偏差傳遞問題。將除最頂層的其它層間的權重變為雙向的,這樣向上的權重用于認知,向下的權重用于生成。其中認知是指通過外界的特征和向上的權重認知權重產生每一層的抽象表示,并且使用梯度下降修改層間的下行權重生成權重;而生成是指通過頂層表示認知過程中學得的概念和向下權重,生成底層的狀態,同時修改層間向上的權重。具體在訓練時,首先在圖像庫中提取大量的圖像塊,其次構建一

22、個包含輸入層,隱藏層和輸出層的神經網絡。然后從網絡中得到特征卷積核。再后將卷積核和樣本圖像做卷積運算,得到卷積特征圖,最后通過降采樣運算,即對特征圖中鄰域求和,并加上一個偏置項,得到降采樣特征圖。圖2圖33特征提取與比對在這一步中,我們需要利用訓練好的模型到一個新的領域中。具體來說就是將含有目標人物圖像和參考圖像庫中的圖像都利用神經網絡模型進展特征提取和比對,然后得出可能含有目標人物的圖像。我們直接應用特征表示一個受過訓練的神經網絡模型并把最后三個全連接層的激活FC1、FC2,和FC3作為檢索任務的特征表示。為了獲得特征表示,我們直接輸入新的數據集的圖像到預先訓練的美國有線電視新聞網模型的輸入

23、層,然后從最后的三層的獲得激活值。由于我們只需要計算一次矩陣乘法的根底上的前饋網絡,整個方案將是非常有效的。為了減少參數,我們常用的方法之一便是局部感知。一般認為人對外界的認知是從局部到全局的,而圖像的空間聯系也是局部的像素聯系較為嚴密,而距離較遠的像素相關性則較弱。因而,每個神經元其實沒有必要對全局圖像進展感知,只需要對局部進展感知,然后在更高層將局部的信息綜合起來就得到了全局的信息。另一種方式則是權值共享。權值共享就是制定一個掩膜大小3*3,4*4,然后將掩膜放在圖像上一一做卷積然后沿著圖像一點一點移動。掩膜上是每一個點的權值。卷積神經網絡中,每一層都可能包含著多個二維特征圖,每一個特征圖

24、都由多個神經元組成,卷積層的神經元在與上一層的感受野相連時,提取了該局部的特征,包括邊緣特征,方向特征等,同時該局部特征與其他特征的關系也隨之確定下來。只有當上一層的特定位置上的數據符合特定的構造時,這一層中檢測該種特征的濾波器才能得到激活,并把激活信息記錄在相應位置上。在同一個卷積層中,不同的特征圖代表它提取了不同的特征。圖4降采樣層S則是通過對卷積特征圖做局部平均計算來進展特征的二次提取,這個過程既能降低特征維數,又可使得網絡在識別時對發生平移、旋轉的輸入樣本有較強的魯棒性。卷積特征圖和降采樣特征圖如圖4所示。至此,輸入圖像數據通過不同層次的卷積和降采樣操作,提取了不同階層的特征。最后的特

25、征匹配環節,我們采用無加權的歐式距離作為相似性度量標準,完成兩幅圖像的相似度的計算。4目標檢索完成相似度計算后,我們要將帶有目標人物或者車輛的圖片輸入到系統中在參考圖像庫已經建成的前提下,然后等待可能含有目標人物或者車輛的圖片從系統中輸出。為了評價系統質量的優劣,我們有以下的指標:查準率和查全率。查準率就是指系統輸出的含有目標人物或車輛的圖像數目占系統輸出的圖像總數的比重,而查全率就是指系統輸出的含有目標人物或車輛的圖像數目占系統含有目標人物或車輛的圖像數目的比重。當查準率和查全率都較高的時候,我們認為該系統的性能較好。5模型的改良與優化如需改良系統,還有兩種主要方式:采用相似性度量法或者通過

26、重復訓練法。采用相似性度量法可以更好地獲得新的任務中的訓練數據,從而提取圖像中的特征;而重復訓練法會充分利用不同檢索任務中的數據來初始化卷積網絡模型中的參數。第一種方式是使用分類標簽進展重復訓練,而另一種則是收集邊帶信息進展訓練。3.重點難點1光照,視角,距離等方面的變化對于同一個人,如果我們采取不同的視角,則圖片中會有不同的形狀,而距離不同時,圖像中會有不同的大小;光照強度不同時,亮度也會有所不同。此外,同一個人有可能會處于不同的環境中,穿不同的衣服,做著不同的動作,導致所見非所得這些因素給工程的實施帶來了比擬多的問題。減小乃至消除外界因素的影響,成為提高系統性能的一大關鍵因素。2局部最優問題深度學習算法的目標函數,幾乎全都是非凸的。而目前尋找最優解的方法,都是基于梯度下降的。稍微有點背景知識的人都知道,梯度下降方法是解決不了非凸問題的。有時候尋找到的并不是最值點而只是一個極值點。因此,如果找到最優解,將是深度學習領域,非常值得研究的課題。3計算復雜。計算復雜表達在兩個方面,一是訓練過程,二是檢測過程。而這兩個過程的計算復雜,根本原因都是龐大的參數規模造成的。如果能夠找到一個好的方法,能夠有效的降低計算復雜度,將是很有意義的。4其它潛在的難點以上三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論