




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1目標檢測算法研究的國內外文獻綜述 1 11.2兩階段目標檢測方法 21.3單階段目標檢測方法 4 6自從目標檢測問題出現在計算機視覺領域以來,也伴隨著人工智能領域的快速發展,眾多研究機構和學者開始不停地鉆研此問題,并在目標檢測領域取得了很多顯著性的成果。在目標檢測的歷史長河中,人們通常以2014年為界限將其分為兩個時期:2014年之前的傳統方法目標檢測和2014年之后的基于深度學習的目標檢測。1.1傳統目標檢測方法傳統的目標檢測算法多數需要手工提取特征,主要包括DPM(Deformable傳統方法中以DPM即基于可變性部件的模型方法為巔峰,它利用了一種“分而治之”的思想對訓練過程進行拆分和組合,其中較具有代表性的DPM檢測器被設計為由兩種濾波器組成:根過濾器和零件濾波器,此模型使用一種弱監督學習方法使所有零件濾波器的配置作為潛在變量自動進行學習。后續產生的目標檢測方法雖然在精度方面已經超出DPM許多,但仍然吸收了DPM中的一些觀點。尋找目21.2兩階段目標檢測方法隨著傳統目標檢測方法暴露出的魯棒性不好、檢測效率低、泛化性差等弊端,它已經達不到人們對目標檢測任務準確高效的要求,所以在深度學習快速發展的階段,基于深度學習的目標檢測算法應運而生。而且人們發現使用深度神經網絡提取的特征的表示能力遠超出傳統方法中的手工特征,因此以卷積神經網絡為代表的模型漸漸成為目標檢測算法中的主流。2012年A.Krizhevsky等人提出深度卷積神經網絡(DCNN)?,一經提出,因為其學習圖像的魯棒性和高層次特征表示的能力,DCNN便被廣泛應用于圖像分類中并取得了破紀錄的成績。由此,人們將目光由圖像分類轉移到目標檢測,嘗試DCNN是否可應用于此領域。兩階段目標檢測方法主要通過選擇性搜索(SelectiveSearch)或者邊界框(EdgeBoxes)?等算法提取輸入圖像中可能包含檢測目標的候選區域(RegionProposal)?,然后對候選區域進行分類和位置回歸從而得到檢測結果,其流程如圖1-2所示。2014年,R.Girshick等人創新性地提出使用一種具有CNN(卷積神經網絡)特征的區域的方法即R-CNN應用于目標檢測:RCNN將AlexNet與選擇性搜索算法相結合,通過選擇性搜索提取可能包含目標的對象候選框,然后裁剪為相同尺寸的區域作為輸入送進CNN模型進行訓練提取特征,最后使用線性支持向量機分類器對目標進行預測并分類8。雖然R-CNN在精度方面得到大量提升,但候選框的數量之多造成的邊框重疊使CNN特征提取存在很大的冗余,進而導致目標檢測速度極慢。所以在R-CNN的基礎上,K.He等人設計了空間金字塔池化層(SPP),在此基礎上提出了空間金字塔池化網絡SPPNet(SpatialPyramidPoolingNetworks):此方法保證可以在不考慮圖像尺寸情況下產生固定大小的表示;在目標檢測方面,SPPNet網絡僅僅需要在圖像中進行一次特征計算,然后對任意尺寸的區域進行特征池化即可產生固定尺寸的訓練檢測器,從而避免了卷積特征的重復計算并獲得了顯著的加速[91。但3SPPNet的訓練依然存在著訓練步驟繁瑣周期長、多階段的問題,且需要存儲大量的特征從而導致大量的空間消耗。為解決此問題R.Girshick等人于2015年提出了基于邊界框和多任務損失分類的FastR-CNN:該模型使用一個流線化的訓練過程來實現檢測器的訓練,在最后一層的卷積層和第一完全連接層之間添加感興趣區域匯聚層 邊界框回歸三個過程,且在減少計算量的同時也提高了檢測精度和速度,而且無需耗時看起來是可以被減少的,所以S.Ren等人介紹了區域建議網絡RPN(RegionProposalNetwork)來生成候選區域(RoI),并以此為基礎提出了FasterR-CN的輸入,RPN將生成候選區域并對其做第一次校用全連接層對候選框分類,通過softmax方法判斷錨框(anchors)所屬類別,最后再次通過邊框修正取得最終的候選區域11。RPN的設計使目標檢測速度得到了極大的提高,但該模型在特征圖上采用的錨框機制不適用于所有目標,因為錨框設定的尺度滿足范圍是有限的,所以在面對小目標時檢測結果較差;僅使用VGG-16網絡的成的MaskR-CNN,其中RoIAlign放棄了RoIPooling的量化操作而使用了線性插值目標檢測精度得到了提高;此模型可以靈活地添加各種分支來完成多種計算機視覺只在網絡頂層實行檢測任務,于是在2017年T.-Y.Lin針對上述問題進行了研究,然后提出了特征金字塔網絡(FPN),在此之前的網絡一般都利用單個高層特征,但在小目標本身所含像素信息較少的情況下,下采樣過程中會發生丟失信息的情況,所4的特征都有豐富的語義信息,即各層都可以提取到豐富的語義信息[13。FPN使多尺度目標檢測方向獲得了極大的進步。兩階段目標檢測算法雖然在檢測精度上有很好的效果,但大多模型規模大、訓練參數多、檢測速度慢的缺點逐漸成為研究者們解決的焦點問題。對此研究者們換了一種思考方式,嘗試將目標檢測問題歸結到回歸問題上,如此不僅可以簡化模型也可以在提高檢測精度的同時提高檢測速度,單階段目標檢測算法便滿足了上述的單階段檢測算法不需要產生候選框的階段,而是直接通過回歸過程輸出所屬類別和位置信息,其流程如圖1-3所示。2016年,JosephRedmon等人提出了速度非常快的基于深度學習的第一個單階段目標檢測器YOLO(YouOnlyLookOnce)錯誤!未找到引用源。,該模型使用一個CNN同時完成分類和回歸任務。YOLO架構由24個卷積層和2個全連接層組成,使用最頂層的特征圖來預測邊界框,直接評估每個類別的概率。YOLO將每個圖像以網格單元為單位進行劃分,每個網格單元僅承擔該網格中心所含目標的邊界框和類別預測任務。該模型丟掉了候選框生成階段,經過一次神經網絡的運算便可從輸入圖像中得到檢測結果,非常貼切地符合YOLO的含義“僅僅瀏覽一次”,而且這樣簡化的網絡也對端到端的優化十分有益。YOLO算法作為YOLO系列的第一個版本必然存在許多不足,例如目標為小物體時表現一般、定位不準確、召回率低等,所以在第二個版本YOLOv2使用了新的由19個卷積層和5個最大池化層組成的DarkNet-19網絡模型,并增加了批量歸一化對每一層的數據進行預處理加工,設計使用高分辨率的分類器提升檢測精度,通過K-Means聚類的方法計算出較適用的錨框尺度,以達到目標檢測多尺度訓練的目的;它采用二進制交叉熵損失函數替換Softmax損失函數,如此可以使召回率和準確性有很好的提升效果;JosephRedmon等人看到此模型有較好的實驗效果后便將其應用于訓練檢測5超過9000個類別的目標集,其中使用聯合訓練方法來進行分類任務,進而提出更好、更快、更強的YOLO9000模型錯誤!未找到引用源。。YOLOv3中相比YOLOv2的DarkNet-19 使用了帶有殘差單元的DarkNet-53網絡模型,進一步加深了網絡架構,另外使用特征金字塔結構解決多尺度檢測的問題和設定了3種尺度的特征圖進行邊界框的預測,并且增加了錨框的數量,它在小目標檢測方面性能有顯著提升錯誤!未找到引用源。。YOLOv4 在YOLOv3基礎上做出了一些調整改進,設計了一個能夠應用于實際工作環境中且能夠被并行優化快速目標檢測系統,并簡化和優化了一些最新提出的算法,它采用CSPDarkNet53骨干網絡代替DarkNet-53網絡,用增加感受野和多通道特征融合組合模塊取代FPN來完成融合不同大小的特征圖的特征信息的功能,采用多種方式的數據增強和針對卷積層的DropBlock正則化方法,從而使YOLOv4能夠在一塊GPU上就可以訓練起來,同時能夠得到較好的結果錯誤!未找到引用源。oR-CNN系列和YOLO在速度和準確性上都有其自身的優勢,R-CNN系列雖具有較高的檢測精度,但速度較慢;YOLO雖然檢測速度快,對大維度變化目標的檢測能力強,但在小目標的檢測上性能較差。在吸取了FasterR-CNN和YOLO各自的優點后,2015年W.Liu等人希望在犧牲較少檢測精度的情況下能夠保持檢測速度,于是提出了SSD(SingleShotmulti-boxDetector骨干網絡進行特征提取,用第6、第7卷積層代替全連接層6和全連接層7,并添加了4個卷積層;它在YOLO的基礎上結合了FasterR-CNN的錨框機制,并通過不同尺度的特征圖來預測每個位置上的目標,僅僅觀察一次圖像便可進行多目標的檢測識別,它的速度比YOLO快并且大大提高了單階段檢測器的檢測精度。單階段檢測器雖然速度快但檢測精度卻一直達不到兩級檢測器的精度,所以在2017年T.-Y.Lin等人設計訓練出了RetinaNet單階段檢測方法中沒有區分前景和背景的比例,所以造成易分類樣本和難分類樣本數量的不均衡,為此該網絡結構使用了一種新的名為焦損失(Focalloss)的損失函數來代替以往單階段檢測中使用的損失函數,使檢測器在訓練過程中對難分類樣本多加關注。RetinaNet網絡結構由ResNet骨干網絡和FPN網絡組成,骨干網絡承擔在圖像上計算卷積特征的任務,回歸子網絡承擔在骨干網絡ResNet的輸出中執行圖像分類的任務,分類子網絡則進行回歸卷積邊框的任務。FocalLoss是在交叉熵損失6函數上進行修改的函數,它提高了正例的分類概率,所以在訓練階段避免了大量簡單負例,更加關注于難訓練樣本。此模型通過設定不同權重的方法來訓練不平衡的正實例和負實例,很好地保持了單階段檢測器的速度,而且此單階段檢測器在保持較高速度同時也達到了兩階段檢測器的精度。處理目標物體之間尺度變化且占用內存、計算成本少的特征金字塔方法被廣泛應用于兩階段和單階段目標檢測算法中,但常用的特征金字塔方法由于僅僅簡單地按照內在多尺度構造結構會存在適用范圍的有限性,所以Zhao等提出了基于更加高效的多級特征金字塔網絡(Multi-LevelFeaturePyramidNetwork,ML-FPN)的M2Det以解決目標之間尺度變化的問題錯誤!未找到引用源。,作者總結出特征金字塔方法性能不足的原因便是金字塔中每個特征圖主要由單級特征組成,所以設計融合了骨干網絡中的多尺度特征從而得到基礎特征,將基礎特征送入一組交替連接的簡化U型模塊和特征融合模塊組中,得到的多尺度特征度輸出作為輸入送到下一層中進行等尺度特征組合得到多層次特征金字塔。單階段目標檢測算法雖然在起步時間上落后于兩階段目標檢測算法,但是其模型結構的簡單以及計算檢測性能的高效吸引了很多學者和研究者的目光,無論是在現在還是未來其發展都是越來越好的。早期的單階段目標檢測算法常常以檢測速度快為主要優點,但在檢測精度方面卻與兩階段檢測算法差距較大。隨著計算機視覺領域的不斷發展進步,如今的單階段目標檢測模型的速度和精度性能都得到了很大[2]P.Felzenszwalb,D.McAllester,andD.Ramanan.Adiscriminativelytrained,multiscale,IEEE,2008.7InternationalConferenceonComputerVi[5]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationneuralnetworks,”inAdvancesinneuralinformationprocessingsystems,2012,pp.1097-1105.[6]ZITNICKCL,DOLLARP.Edgeboxes:LocatingobjectpConferenceonComputerVision.Springer,Cham,2014:391-405.[7]HUQ,ZHAIL.RGB-Dimagemulti-taR-CNN[J].InternationalJournalofPatternRecognitionandArtific2019,33(8):1954026.[8]R.Girshick,J.Donahue,T.Darrell,andJ.Malik,“Richfeaturehierarchiesforandpatternrecognition,2014,pp.580-587.Recognition[J]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東開放大學商務談判實務學習行為評價
- 設計開發過程管理規范
- 廣東省東莞市2024-2025學年七年級下學期英語期末復習卷(二)(含答案)
- 2025年河南省平頂山市魯山縣四校聯考九年級中考三模生物試題(含答案)
- 2025年阿里、頭條、快手、趣頭條、Android-面試真題集錦
- 建筑施工特種作業-建筑司索指揮信號工真題庫-2
- 三體2題目及答案
- 入團填空題目及答案
- 日語動詞趣味題目及答案
- 2023-2024學年江蘇省連云港市高二下學期6月期末調研數學試題(解析版)
- 河南省豫地科技集團有限公司招聘筆試真題2024
- 2024北京海淀區四年級(下)期末語文試題及答案
- 內部控制六大業務流程及管控
- 征集和招錄人員政治考核表
- ghost制作 驅動自動安裝
- 有機光電材料.ppt課件
- 縱斷面(豎曲線)設計高程自動計算
- (完整版)軟件項目章程模版
- 冀教版英語小升初模擬試卷
- 豐臺區五年級下期末試題
- 財政部金融企業不良資產批量轉讓管理辦法(財金[2012]6號)
評論
0/150
提交評論