目標(biāo)檢測(cè)綜述_第1頁(yè)
目標(biāo)檢測(cè)綜述_第2頁(yè)
目標(biāo)檢測(cè)綜述_第3頁(yè)
目標(biāo)檢測(cè)綜述_第4頁(yè)
目標(biāo)檢測(cè)綜述_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

、傳統(tǒng)目標(biāo)檢測(cè)方法如上圖所示,傳統(tǒng)目標(biāo)檢測(cè)的方法一般分為三個(gè)階段:首先在給定的圖像上選擇一些候選的區(qū)域,然后對(duì)這些區(qū)域提取特征,最后使用訓(xùn)練的分類(lèi)器進(jìn)行分類(lèi)。下面我們對(duì)這三個(gè)階段分別進(jìn)行介紹。區(qū)域選擇這一步是為了對(duì)目標(biāo)的位置進(jìn)行定位。由于目標(biāo)可能出現(xiàn)在圖像的任何位置,而且目標(biāo)的大小、長(zhǎng)寬比例也不確定,所以最初采用滑動(dòng)窗口的策略對(duì)整幅圖像進(jìn)行遍歷,而且需要設(shè)置不同的尺度,不同的長(zhǎng)寬比。這種窮舉的策略雖然包含了目標(biāo)所有可能出現(xiàn)的位置,但是缺點(diǎn)也是顯而易見(jiàn)的:時(shí)間復(fù)雜度太高,產(chǎn)生冗余窗口太多,這也嚴(yán)重影響后續(xù)特征提取和分類(lèi)的速度和性能。(實(shí)際上由于受到時(shí)間復(fù)雜度的問(wèn)題,滑動(dòng)窗口的長(zhǎng)寬比一般都是固定的設(shè)置幾個(gè),所以對(duì)于長(zhǎng)寬比浮動(dòng)較大的多類(lèi)別目標(biāo)檢測(cè),即便是滑動(dòng)窗口遍歷也不能得到很好的區(qū)域)特征提取由于目標(biāo)的形態(tài)多樣性,光照變化多樣性,背景多樣性等因素使得設(shè)計(jì)一個(gè)魯棒的特征并不是那么容易。然而提取特征的好壞直接影響到分類(lèi)的準(zhǔn)確性。(這個(gè)階段常用的特征有SIFT、HOG等)⑶分類(lèi)器主要有SVM,Adaboost等。總結(jié):傳統(tǒng)目標(biāo)檢測(cè)存在的兩個(gè)主要問(wèn)題:一是基于滑動(dòng)窗口的區(qū)域選擇策略沒(méi)有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余;二是手工設(shè)計(jì)的特征對(duì)于多樣性的變化并沒(méi)有很好的魯棒性。、基于RegionProposal的深度學(xué)習(xí)目標(biāo)檢測(cè)算法對(duì)于傳統(tǒng)目標(biāo)檢測(cè)任務(wù)存在的兩個(gè)主要問(wèn)題,我們?cè)撊绾谓鉀Q呢?對(duì)于滑動(dòng)窗口存在的問(wèn)題,regionproposal提供了很好的解決方案。regionproposaK候選區(qū)域)是預(yù)先找出圖中目標(biāo)可能出現(xiàn)的位置。但由于regionproposal利用了圖像中的紋理、邊緣、顏色等信息,可以保證在選取較少窗口(幾千個(gè)甚至幾百個(gè))的情況下保持較高的召回率。這大大降低了后續(xù)操作的時(shí)間復(fù)雜度,并且獲取的候選窗口要比滑動(dòng)窗口的質(zhì)量更高(滑動(dòng)窗口固定長(zhǎng)寬比)。比較常用的regionproposal算法有selectiveSearch和edgeBoxes,如果想具體了解regionproposal可以看一下PAMI2015的hatmakesforeffectivedetectionproposals?”有了候選區(qū)域,剩下的工作實(shí)際就是對(duì)候選區(qū)域進(jìn)行圖像分類(lèi)的工作(特征提取+分類(lèi))。對(duì)于圖像分類(lèi),不得不提的是2012年ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVRC)上,機(jī)器學(xué)習(xí)泰斗GeoffreyHinton教授帶領(lǐng)學(xué)生Krizhevsky使用卷積神經(jīng)網(wǎng)絡(luò)將ILSVRC分類(lèi)任務(wù)的Top-5error降低到了15.3%,而使用傳統(tǒng)方法的第二名top-5error高達(dá)26.2%。此后,卷積神經(jīng)網(wǎng)絡(luò)占據(jù)了圖像分類(lèi)任務(wù)的絕對(duì)統(tǒng)治地位,微軟最新的ResNet和谷歌的InceptionV4模型的top-5error降到了4%以內(nèi)多,這已經(jīng)超越人在這個(gè)特定任務(wù)上的能力。所以目標(biāo)檢測(cè)得到候選區(qū)域后使用CNN對(duì)其進(jìn)行圖像分類(lèi)是一個(gè)不錯(cuò)的選擇。2014年,RBG(RossB.Girshick)大神使用regionproposal+CNN代替?zhèn)鹘y(tǒng)目標(biāo)檢測(cè)使用的滑動(dòng)窗口+手工設(shè)計(jì)特征,設(shè)計(jì)了R-CNN框架,使得目標(biāo)檢測(cè)取得巨大突破,并開(kāi)啟了基于深度學(xué)習(xí)目標(biāo)檢測(cè)的熱潮。R-CNN(CVPR2014,TPAMI2015)(Region-CboansevdolutionNetworksforAccurateObjectdetectionandSegmentation)LInput2.Exiraqregion3.Compute4.Classify

imageproposals(-2k)CNNfeaturesregions上面的框架圖清晰的給出了R-CNN的目標(biāo)檢測(cè)流程:(1)輸入測(cè)試圖像⑵利用selectivesearch算法在圖像中提取2000個(gè)左右的regionproposal。⑶將每個(gè)regionproposal縮放(warp)成227x227的大小并輸入到CNN,將CNN的fc7層的輸出作為特征。⑷將每個(gè)regionproposal提取到的CNN特征輸入到SVM進(jìn)行分類(lèi)。上面的框架圖是測(cè)試的流程圖,要進(jìn)行測(cè)試我們首先要訓(xùn)練好提取特征的CNN模型,以及用于分類(lèi)的SVM:使用在ImageNet上預(yù)訓(xùn)練的模型(AlexNet/VGG16)進(jìn)行微調(diào)得到用于特征提取的CNN模型,然后利用CNN模型對(duì)訓(xùn)練集提特征訓(xùn)練SVM。對(duì)每個(gè)regionproposal縮放到同一尺度是因?yàn)镃NN全連接層輸入需要保證維度固定。上圖少畫(huà)了一個(gè)過(guò)程用用對(duì)于SVM分好類(lèi)的regionproposal做邊框回歸(bounding-boxregression),邊框回歸是對(duì)regionproposal進(jìn)行糾正的線性回歸算法,為了讓regionproposal提取到的窗口跟目標(biāo)真實(shí)窗口更吻合。因?yàn)閞egionproposal提取到的窗口不可能跟人手工標(biāo)記那么準(zhǔn),如果regionproposal跟目標(biāo)位置偏移較大,即便是分類(lèi)正確了,但是由于IoU(regionproposal與GroundTruth的窗口的交集比并集的比值)低于0.5,那么相當(dāng)于目標(biāo)還是沒(méi)有檢測(cè)到。小結(jié):R-CNN在PASCALVOC2007上的檢測(cè)結(jié)果從DPMHSC的34.3%直接提升到了66%(mAP)。如此大的提升使我們看到了regionproposal+CNN的巨大優(yōu)勢(shì)。但是R-CNN框架也存在著很多問(wèn)題:⑴訓(xùn)練分為多個(gè)階段,步驟繁瑣:微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練邊框回歸器⑵訓(xùn)練耗時(shí),占用磁盤(pán)空間大:5000張圖像產(chǎn)生幾百G的特征文件(3)速度慢:使用GPU,VGG16模型處理一張圖像需要47s。針對(duì)速度慢的這個(gè)問(wèn)題,SPP-NET給出了很好的解決方案。SPP-NET(ECCV2014,TPAMI2015)(SPpyartaiamlidPoolinginDeepConvolutionalNetworksforVisualRecognition)先看一下R-CNN為什么檢測(cè)速度這么慢,一張圖都需要47s!仔細(xì)看下R-CNN框架發(fā)現(xiàn),對(duì)圖像提完regionproposal(2000個(gè)左右)之后將每個(gè)proposal當(dāng)成一張圖像進(jìn)行后續(xù)處理(CNN提特征+SVM分類(lèi)),實(shí)際上對(duì)一張圖像進(jìn)行了2000次提特征和分類(lèi)的過(guò)程!有沒(méi)有方法提速呢?好像是有的,這2000個(gè)regionproposal不都是圖像的一部分嗎,那么我們完全可以對(duì)圖像提一次卷積層特征,然后只需要將regionproposal在原圖的位置映射到卷積層特征圖上,這樣對(duì)于一張圖像我們只需要提一次卷積層特征,然后將每個(gè)regionproposal的卷積層特征輸入到全連接層做后續(xù)操作。(對(duì)于CNN來(lái)說(shuō),大部分運(yùn)算都耗在卷積操作上,這樣做可以節(jié)省大量時(shí)間)。現(xiàn)在的問(wèn)題是每個(gè)regionproposal的尺度不一樣,直接這樣輸入全連接層肯定是不行的,因?yàn)槿B接層輸入必須是固定的長(zhǎng)度。SPP-NET恰好可以解決這個(gè)問(wèn)題:fully-connectedlayers(fb^,fc7)i1xed-lengthrepresenCeilionspatialpyramidptHiiingki\er上圖對(duì)應(yīng)的就是SPP-NET的網(wǎng)絡(luò)結(jié)構(gòu)圖,任意給一張圖像輸入到CNN,經(jīng)過(guò)卷積操作我們可以得到卷積特征(比如VGG16最后的卷積層為conv5_3,共產(chǎn)生512張?zhí)卣鲌D)。圖中的window是就是原圖一個(gè)regionproposal對(duì)應(yīng)到特征圖的區(qū)域,只需要將這些不同大小window的特征映射到同樣的維度,將其作為全連接的輸入,就能保證只對(duì)圖像提取一次卷積層特征。SPP-NET使用了空間金字塔

采樣(spatialpyramidpooling):將每個(gè)window劃分為4*4,2*2,1*1的塊,然后每個(gè)塊使用max-pooling下采樣,這樣對(duì)于每個(gè)window經(jīng)過(guò)SPP層之后都得到了一個(gè)長(zhǎng)度為(4*4+2*2+1)*512維度的特征向量,將這個(gè)作為全連接層的輸入進(jìn)行后續(xù)操作。小結(jié):使用SPP-NET相比于R-CNN可以大大加快目標(biāo)檢測(cè)的速度,但是依然存在著很多問(wèn)題:(1)訓(xùn)練分為多個(gè)階段,步驟繁瑣:微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練訓(xùn)練邊框回歸器⑵SPP-NET在微調(diào)網(wǎng)絡(luò)的時(shí)候固定了卷積層,只對(duì)全連接層進(jìn)行微調(diào),而對(duì)于一個(gè)新的任務(wù),有必要對(duì)卷積層也進(jìn)行微調(diào)。(分類(lèi)的模型提取的特征更注重高層語(yǔ)義,而目標(biāo)檢測(cè)任務(wù)除了語(yǔ)義信息還需要目標(biāo)的位置信息)針對(duì)這兩個(gè)問(wèn)題,RBG又提出FastR-CNN,一個(gè)精簡(jiǎn)而快速的目標(biāo)檢測(cè)框架。FastR-CNN(ICCV2015)proiectforfbboxsoftmaxregressorRo!feature有了前邊R-CNN和SPP-NET的介紹,我們直接看FastR-CNN的框架圖:proiectforfbboxsoftmaxregressorRo!feature與R-CNN框架圖對(duì)比,可以發(fā)現(xiàn)主要有兩處不同:一是最后一個(gè)卷積層后加了一個(gè)ROIpoolinglayer,二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi-taskloss),將邊框回歸直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練。ROIpoolinglayer實(shí)際上是SPP-NET的一個(gè)精簡(jiǎn)版,SPP-NET對(duì)每個(gè)proposal使用了不同大小的金字塔映射,而ROIpoolinglayer只需要下采樣到一

個(gè)7x7的特征圖。對(duì)于VGG16網(wǎng)絡(luò)conv5_3有512個(gè)特征圖,這樣所有regionproposal對(duì)應(yīng)了一個(gè)7*7*512維度的特征向量作為全連接層的輸入。R-CNN訓(xùn)練過(guò)程分為了三個(gè)階段,而FastR-CNN直接使用softmax替代SVM分類(lèi),同時(shí)利用多任務(wù)損失函數(shù)邊框回歸也加入到了網(wǎng)絡(luò)中,這樣整個(gè)的訓(xùn)練過(guò)程是端到端的(除去regionproposal提取階段)。FastR-CNN在網(wǎng)絡(luò)微調(diào)的過(guò)程中,將部分卷積層也進(jìn)行了微調(diào),取得了更好的檢測(cè)效果。小結(jié):FastR-CNN融合了R-CNN和SPP-NET的精髓,并且引入多任務(wù)損失函數(shù),使整個(gè)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試變得十分方便。在PascalVOC2007訓(xùn)練集上訓(xùn)練,在VOC2007測(cè)試的結(jié)果為66.9%(mAP),如果使用VOC2007+2012訓(xùn)練集訓(xùn)練,在VOC2007上測(cè)試結(jié)果為70%(數(shù)據(jù)集的擴(kuò)充能大幅提高目標(biāo)檢測(cè)性能)。使用VGG16每張圖像總共需要3s左右。缺點(diǎn):regionproposal的提取使用selective$?己「3,目標(biāo)檢測(cè)時(shí)間大多消耗在這上面(提regionproposal2~3s,而提特征分類(lèi)只需0.32s),無(wú)法滿足實(shí)時(shí)應(yīng)用,而且并沒(méi)有實(shí)現(xiàn)真正意義上的端到端訓(xùn)練測(cè)試(regionproposal使用selectivesearch先提取處來(lái))。那么有沒(méi)有可能直接使用CNN直接產(chǎn)生regionproposal并對(duì)其分類(lèi)?FasterR-CNN框架就是符合這樣需要的目標(biāo)檢測(cè)框架。FasterR-CNN(NIPS2015)(FRa-CstNeNr:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks)在regionproposal+CNN分類(lèi)的這種目標(biāo)檢測(cè)框架中,regionproposal質(zhì)量好壞直接影響到目標(biāo)檢測(cè)任務(wù)的精度。如果找到一種方法只提取幾百個(gè)或者更少的高質(zhì)量的預(yù)選窗口,而且召回率很高,這不但能加快目標(biāo)檢測(cè)速度,還能提高目標(biāo)檢測(cè)的性能(假陽(yáng)例少)。RPN(RegionProposalNetworks)網(wǎng)絡(luò)應(yīng)運(yùn)而生。RPN的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生regionproposal,使用的方法本質(zhì)上就是滑動(dòng)窗口。RPN的設(shè)計(jì)比較巧妙,RPN只需在最后的卷積層上滑動(dòng)一遍,因?yàn)閍nchor機(jī)制和邊框回歸可以得到多尺度多長(zhǎng)寬比的regionproposalofeatureuiapcIjla\reriiitenuedLatelayerkancliorboxesfeatureuiapcIjla\reriiitenuedLatelayerkancliorboxesslidingiviiidoxv256.d_kscores4ksn口I'dinab?%我們直接看上邊的RPN網(wǎng)絡(luò)結(jié)構(gòu)圖(使用了ZF模型),給定輸入圖像(假設(shè)分辨率為600*1000),經(jīng)過(guò)卷積操作得到最后一層的卷積特征圖(大小約為40*60)。在這個(gè)特征圖上使用3*3的卷積核(滑動(dòng)窗口)與特征圖進(jìn)行卷積,最后一層卷積層共有256個(gè)featuremap,那么這個(gè)3*3的區(qū)域卷積后可以獲得一個(gè)256維的特征向量,后邊接clslayer和reglayer分別用于分類(lèi)和邊框回歸(跟FastR-CNN類(lèi)似,只不過(guò)這里的類(lèi)別只有目標(biāo)和背景兩個(gè)類(lèi)別)。3*3滑窗對(duì)應(yīng)的每個(gè)特征區(qū)域同時(shí)預(yù)測(cè)輸入圖像3種尺度(128,256,512),3種長(zhǎng)寬比(1:1,1:2,2:1)的regionproposal,這種映射的機(jī)制稱(chēng)為anchor。所以對(duì)于這個(gè)40*60的featuremap,總共有約20000(40*60*9)個(gè)anchor,也就是預(yù)測(cè)20000個(gè)regionproposal。這樣設(shè)計(jì)的好處是什么呢?雖然現(xiàn)在也是用的滑動(dòng)窗口策略,但是:滑動(dòng)窗口操作是在卷積層特征圖上進(jìn)行的,維度較原始圖像降低了16*16倍(中間經(jīng)過(guò)了4次2*2的pooling操作);多尺度采用了9種anchor,對(duì)應(yīng)了三種尺度和三種長(zhǎng)寬比,加上后邊接了邊框回歸,所以即便是這9種anchor外的窗口也能得到一個(gè)跟目標(biāo)比較接近的regionproposaloNIPS2015版本的FasterR-CNN使用的檢測(cè)框架是RPN網(wǎng)絡(luò)+FastR-CNN網(wǎng)絡(luò)分離進(jìn)行的目標(biāo)檢測(cè),整體流程跟FastR-CNN一樣,只是regionproposal現(xiàn)在是用RPN網(wǎng)絡(luò)提取的(代替原來(lái)的selectivesearch)。同時(shí)作者為了讓RPN的網(wǎng)絡(luò)和FastR-CNN網(wǎng)絡(luò)實(shí)現(xiàn)卷積層的權(quán)值共享,訓(xùn)練RPN和FastR-CNN的時(shí)候用了4階段的訓(xùn)練方法:(1)使用在ImageNet上預(yù)訓(xùn)練的模型初始化網(wǎng)絡(luò)參數(shù),微調(diào)RPN網(wǎng)絡(luò);

(2)使用(1)中RPN網(wǎng)絡(luò)提取regionproposal訓(xùn)練FastR-CNN網(wǎng)絡(luò);(3)使用(2)的FastR-CNN網(wǎng)絡(luò)重新初始化RPN,固定卷積層進(jìn)行微調(diào);(4)固定(2)中FastR-CNN的卷積層,使用⑶中RPN提取的regionproposal微調(diào)網(wǎng)絡(luò)。權(quán)值共享后的RPN和FastR-CNN用于目標(biāo)檢測(cè)精度會(huì)提高一些。使用訓(xùn)練好的RPN網(wǎng)絡(luò),給定測(cè)試圖像,可以直接得到邊緣回歸后的regionproposal,根據(jù)regionproposal的類(lèi)別得分對(duì)RPN網(wǎng)絡(luò)進(jìn)行排序,并選取前300個(gè)窗口作為FastR-CNN的輸入進(jìn)行目標(biāo)檢測(cè),使用VOC07+12訓(xùn)練集訓(xùn)練,VOC2007測(cè)試集測(cè)試mAP達(dá)至U73.2%(selectivesearch+FastR-CNN是70%),目標(biāo)檢測(cè)的速度可以達(dá)到每秒5幀(selectivesearch+FastR-CNN是2~3s一張)。需要注意的是,最新的版本已經(jīng)將RPN網(wǎng)絡(luò)和FastR-CNN網(wǎng)絡(luò)結(jié)合到了一起微微將RPN獲取到的proposal直接連到ROIpooling層,這才是一個(gè)真正意義上的使用一個(gè)CNN網(wǎng)絡(luò)實(shí)現(xiàn)端到端目標(biāo)檢測(cè)的框架。小結(jié):FasterR-CNN將一直以來(lái)分離的regionproposal和CNN分類(lèi)融合到了一起,使用端到端的網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),無(wú)論在速度上還是精度上都得到了不錯(cuò)的提高。然而FasterR-CNN還是達(dá)不到實(shí)時(shí)的目標(biāo)檢測(cè),預(yù)先獲取regionproposal,然后在對(duì)每個(gè)proposal分類(lèi)計(jì)算量還是比較大。比較幸運(yùn)的是YOLO這類(lèi)目標(biāo)檢測(cè)方法的出現(xiàn)讓實(shí)時(shí)性也變的成為可能。總的來(lái)說(shuō),從R-CNN,SPP-NET,FastR-CNN,FasterR-CNN一路走來(lái),基于深度學(xué)習(xí)目標(biāo)檢測(cè)的流程變得越來(lái)越精簡(jiǎn),精度越來(lái)越高,速度也越來(lái)越快。可以說(shuō)基于regionproposal的R-CNN系列目標(biāo)檢測(cè)方法是當(dāng)前目標(biāo)最主要的一個(gè)分支。三、基于回歸方法的深度學(xué)習(xí)目標(biāo)檢測(cè)算法FasterR-CNN的方法目前是主流的目標(biāo)檢測(cè)方法,但是速度上并不能滿足實(shí)時(shí)的要求。YOLO一類(lèi)的方法慢慢顯現(xiàn)出其重要性,這類(lèi)方法使用了回歸的思想,既給定輸入圖像,直接在圖像的多個(gè)位置上回歸出這個(gè)位置的目標(biāo)邊框以及目標(biāo)類(lèi)別。1.YOLO(CVPR2016,oral)O(nYloyuLookOnce:Unified,1.YOLO(CVPR2016,oral)O(nYloyuLookOnce:Unified,Real-TimeObjectDetection)Classprobabilitymap我們直接看上面YOLO的目標(biāo)檢測(cè)的流程圖:給個(gè)一個(gè)輸入圖像,首先將圖像劃分成7*7的網(wǎng)格對(duì)于每個(gè)網(wǎng)格,我們都預(yù)測(cè)2個(gè)邊框(包括每個(gè)邊框是目標(biāo)的置信度以及每個(gè)邊框區(qū)域在多個(gè)類(lèi)別上的概率)根據(jù)上一步可以預(yù)測(cè)出7*7*2個(gè)目標(biāo)窗口,然后根據(jù)閾值去除可能性比較低的目標(biāo)窗口,最后NMS去除冗余窗口即可。可以看到整個(gè)過(guò)程非常簡(jiǎn)單,不需要中間的regionproposal在找目標(biāo),直接回歸便完成了位置和類(lèi)別的判定。Co*nv.LayerT工7Co*nv.LayerT工7就小a?MosipglLdyer2i2-sr2Corrv.Laj^erCnnv.Loj^erL3x31192hli1?6Ma^pcchlL白?鼾3M3”5&2a2^2hljl2563x3x512MaxjHolU?*r2心中2Can*.LayersConv.LayersCorw.layers1kIi;56141x1*5121j3x3x102-13x3*512J3^1024J3^1034U1k5I23a3i1024JK3M.im43x3h102jU-2Mu品p*#ILaytr2x2^2Ccknaii.LayerConn.Layer那么如何才能做到直接在不同位置的網(wǎng)格上回歸出目標(biāo)的位置和類(lèi)別信息呢?上面是YOLO的網(wǎng)絡(luò)結(jié)構(gòu)圖,前邊的網(wǎng)絡(luò)結(jié)構(gòu)跟GoogLeNet的模型比較類(lèi)似,主要的是最后兩層的結(jié)構(gòu),卷積層之后接了一個(gè)4096維的全連接層,然后后邊又全連接到一個(gè)7*7*30維的張量上。實(shí)際上這7*7就是劃分的網(wǎng)格數(shù),現(xiàn)在要在每個(gè)網(wǎng)格上預(yù)測(cè)目標(biāo)兩個(gè)可能的位置以及這個(gè)位置的目標(biāo)置信度和類(lèi)別,也就是每個(gè)網(wǎng)格預(yù)測(cè)兩個(gè)目標(biāo),每個(gè)目標(biāo)的信息有4維坐標(biāo)信息(中心點(diǎn)坐標(biāo)+長(zhǎng)寬),1個(gè)是目標(biāo)的置信度,還有類(lèi)別數(shù)20(VOC上20個(gè)類(lèi)別),總共就是(4+1)*2+20=30維的向量。這樣可以利用前邊4096維的全圖特征直接在每個(gè)網(wǎng)格上回歸出目標(biāo)檢測(cè)需要的信息(邊框信息加類(lèi)別)。小結(jié):YOLO將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換成一個(gè)回歸問(wèn)題,大大加快了檢測(cè)的速度,使得YOLO可以每秒處理45張圖像。而且由于每個(gè)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)窗口時(shí)使用的是全圖信息,使得falsepositive比例大幅降低(充分的上下文信息)。但是YOLO也存在問(wèn)題:沒(méi)有了regionproposal機(jī)制,只使用7*7的網(wǎng)格回歸會(huì)使得目標(biāo)不能非常精準(zhǔn)的定位,這也導(dǎo)致了YOLO的檢測(cè)精度并不是很高。2.SSD(SSD:SingleShotMultiBoxDetector)上面分析了YOLO存在的問(wèn)題,使用整圖特征在7*7的粗糙網(wǎng)格內(nèi)回歸對(duì)目標(biāo)的定位并不是很精準(zhǔn)。那是不是可以結(jié)合regionproposal的思想實(shí)現(xiàn)精準(zhǔn)一些的定位?SSD結(jié)合YOLO的回歸思想以及FasterR-CNN的anchor機(jī)制做到了這點(diǎn)。(n)TtiiagewithGT(1))XxSfeaturemap(c)4x4featuremap上圖是SSD的一個(gè)框架圖,首先SSD獲取目標(biāo)位置和類(lèi)別的方法跟YOLO一樣,都是使用回歸,但是YOLO預(yù)測(cè)某個(gè)位置使用的是全圖的特征,SSD預(yù)測(cè)某個(gè)位置使用的是這個(gè)位置周?chē)奶卣鳎ǜ杏X(jué)更合理一些)。那么如何建立某個(gè)位置和其特征的對(duì)應(yīng)關(guān)系呢?可能你已經(jīng)想到了,使用FasterR-CNN的anchor機(jī)制。如SSD的框架圖所示,假如某一層特征圖(圖b)大小是8*8,那么就使用3*3的滑窗提取每個(gè)位置的特征,然后這個(gè)特征回歸得到目標(biāo)的坐標(biāo)信息和類(lèi)別信息(圖c)。不同于FasterR-CNN,這個(gè)anchor是在多個(gè)featuremap上,這樣可以利用多層的特征并且自然的達(dá)到多尺度(不同層的featuremap3*3滑窗感受野不同)。小結(jié):SSD結(jié)合了YOLO中的回歸思想和FasterR-CNN中的anchor機(jī)制,使用全圖各個(gè)位置的多尺度區(qū)域特征進(jìn)行回歸,既保持了YOLO

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論