人工智能多媒體計算課件 圖像處理-_第1頁
人工智能多媒體計算課件 圖像處理-_第2頁
人工智能多媒體計算課件 圖像處理-_第3頁
人工智能多媒體計算課件 圖像處理-_第4頁
人工智能多媒體計算課件 圖像處理-_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

CS330MIP–Lecture13圖像信息處理IIImage

Processing

IILecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像信息處理7個里程碑邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023數(shù)字圖像處理-維基百科圖像處理(ImageProcessing)是對圖像進行分析、加工和處理,以改善圖像的視覺效果或從中獲取有用信息的過程。根據(jù)抽象程度和處理方法的不同,主要可分為以下三個層次:圖像處理級別處理的抽象程度描述示例技術(shù)/方法低級處理基本圖像處理,改善視覺效果噪聲降低、對比度增強、銳化中級處理提取圖像特征邊緣檢測、圖像分割、特征提取高級處理圖像分析和理解圖像識別、圖像解釋、場景理解圖像采樣與量化圖像采樣是將連續(xù)圖像轉(zhuǎn)換為離散圖像的第一步。在采樣過程中,連續(xù)圖像被劃分為一個個小的區(qū)域(稱為像素),每個像素的位置由其坐標(x,y)表示。設(shè)連續(xù)圖像f(x,y)經(jīng)過數(shù)字化后,可以用一個離散量組成的矩陣g(i,j)(即二維數(shù)組)來表示。g(i,j)代表的點(i,j)即為采樣點(samplingpoint),也稱灰度值。圖像采樣與量化圖像量化是將采樣后得到的像素值(即灰度值)進行離散化處理的過程。原來在一個圖像塊中,幅值是連續(xù)變化的,量化操作將這些幅值量化成有限個離散值。圖像處理這四個術(shù)語經(jīng)常一起用,有些有時會混淆圖像處理圖像分析計算機視覺計算機圖形學(xué)它們都共享表示法、基礎(chǔ)數(shù)學(xué)和一些算法它們的目標非常不一致目標圖像測量圖像處理收集與計算機使用相關(guān)的主題和技術(shù)獲得處理/操作分析/解釋顯示存儲傳輸數(shù)字圖像適用于大多數(shù)來源圖像的常用技術(shù)圖像分析vs

圖像處理圖像分析對圖像進行定量分析:圖像采集受到限制,因此圖像測量是一些真實世界值的代理介于圖像處理和計算機視覺之間深度圖像處理覆蓋了圖像分析中廣泛使用的方法ObjectsImagesMeasurements圖像分析許多應(yīng)用領(lǐng)域:醫(yī)學(xué)的科學(xué)的產(chǎn)業(yè)方面的:食品,紡織品,制造業(yè),…..解決方案是針對應(yīng)用程序的盡可能使用通用操作,但采用工程方法,而不是科學(xué)方法。圖像處理不是計算機視覺ObjectsMeasurementsObjectsImages計算機視覺旨在反轉(zhuǎn)圖像形成和恢復(fù)有關(guān)所看世界的信息:3D形狀,運動,身份…圖像處理不是計算機圖形學(xué)計算機圖形學(xué)的重點是從對象模型創(chuàng)建圖像:照明和陰影建模體積模型曲線曲面建模可見性建模紋理合成角色動畫建模地形,液體,火/煙,布料,頭發(fā)、毛皮,羽毛,皮膚等概念比較及交叉融合概念描述主要內(nèi)容應(yīng)用領(lǐng)域圖像處理(ImageProcessing)對圖像進行各種操作以改善其質(zhì)量或提取所需信息的過程-圖像增強和復(fù)原,

圖像壓縮,圖像分割,

圖像識別和匹配等-醫(yī)學(xué)影像分析,衛(wèi)星遙感,指紋識別,

安全監(jiān)控圖像分析(ImageAnalysis)利用數(shù)學(xué)模型和圖像處理技術(shù)分析圖像,以提取圖像中的有用信息-特征提取,

目標檢測,場景識別,

語義理解等模式識別,遙感圖像處理計算機視覺(ComputerVision)賦予計算機從圖像或視頻中獲取、處理、理解和分析信息的能力-目標檢測,目標跟蹤,

三維重建,運動分析,場景理解等-自動駕駛,機器人導(dǎo)航,

安防監(jiān)控,

虛擬現(xiàn)實/增強現(xiàn)實計算機圖形學(xué)(ComputerGraphics)利用計算機技術(shù)生成、處理和展示圖形和圖像的科學(xué)-建模,渲染,動畫,

人機交互,虛擬現(xiàn)實等-視頻游戲,影視特效,虛擬人圖像處理發(fā)展里程碑1-邊緣檢測邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023邊緣檢測邊緣檢測算法是計算機視覺領(lǐng)域中一種常用的圖像處理技術(shù),用于檢測圖像中的邊緣信息。邊緣通常指的是圖像中灰度級發(fā)生突變的區(qū)域,這些區(qū)域通常表示物體的輪廓或?qū)ο蟮倪吔纭?/p>

邊緣檢測邊緣檢測算法描述特點Sobel算子結(jié)合高斯平滑和微分求導(dǎo)的邊緣檢測算法簡單、快速,可檢測水平和垂直邊緣,對斜向邊緣檢測效果較差Prewitt算子類似于Sobel算子的邊緣檢測算法可檢測水平、垂直和斜向邊緣,但斜向邊緣檢測精度可能較低Roberts算子計算圖像像素點與其對角線方向上的鄰域像素點差異對具有陡峭的低噪聲圖像效果較好,但定位準確性較差Canny邊緣檢測算法包含高斯濾波、梯度計算、非極大值抑制和雙閾值處理能檢測到真正的弱邊緣,同時抑制噪聲產(chǎn)生的假邊緣,經(jīng)典算法基于深度學(xué)習(xí)的邊緣檢測利用卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型提取邊緣特征具有更高的檢測精度和更廣泛的應(yīng)用場景,需要訓(xùn)練數(shù)據(jù)Canny邊緣檢測器的流程原始圖像高斯卷積平滑,以減少噪聲和細節(jié)對邊緣檢測的影響應(yīng)用微分算子來計算圖像像素點在x和y方向上的梯度幅值和方向在圖像梯度中,通過非極大值抑制來尋找局部最大值,即邊緣的峰值使用雙閾值(高閾值和低閾值)來區(qū)分強邊緣和弱邊緣強邊緣被直接接受為邊緣線條,而弱邊緣則需要與強邊緣相連才能被接受這個過程有助于連接斷裂的邊緣,并減少噪聲引起的假邊緣二值化的邊緣映射圖像圖像處理發(fā)展里程碑2-圖像壓縮邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023圖像壓縮圖像壓縮是指以較少的比特有損或無損地表示原來的像素矩陣的技術(shù),也稱圖像編碼。圖像壓縮主要是為了減少表示數(shù)字圖像時所需的數(shù)據(jù)量。圖像數(shù)據(jù)之所以能被壓縮,是因為其中存在著冗余。這種冗余主要表現(xiàn)為:圖像中相鄰像素間的相關(guān)性引起的空間冗余,不同彩色平面或頻譜帶的相關(guān)性引起的頻譜冗余等。數(shù)據(jù)壓縮的目的就是通過去除這些數(shù)據(jù)冗余來減少表示數(shù)據(jù)所需的比特數(shù)。圖像壓縮可以分為有損壓縮和無損壓縮兩種。無損壓縮方法適用于需要保持圖像完整性的情況。有損壓縮方法則非常適合于自然的圖像,如將色彩空間化減到圖像中常用的顏色,色度抽樣(利用人眼對于亮度變化的敏感性遠大于顏色變化),以及變換編碼)等。這些方法可能會帶來一些微小的圖像損失。圖像壓縮與語音壓縮

圖像壓縮語音壓縮定義使用盡可能少的比特數(shù)代表圖像或圖像中所包含的信息提高通信網(wǎng)中的信息傳輸效率及實現(xiàn)語音的高效存儲,對編碼后的數(shù)字語音進行壓縮目的減少表示數(shù)字圖像時所需的數(shù)據(jù)量,以便于存儲、傳輸和處理降低語音信號的編碼比特率,以滿足窄帶信道低碼率傳輸?shù)囊蠹皩崿F(xiàn)語音的高效存儲壓縮類型無損壓縮(如PNG、GIF)、有損壓縮(如JPEG)根據(jù)壓縮率的不同,可以分為高、中、低速率編碼應(yīng)用場景社交媒體分享、網(wǎng)頁設(shè)計開發(fā)、醫(yī)療圖像存檔等移動通信、衛(wèi)星通信、多媒體技術(shù)、IP電話通信等壓縮依據(jù)圖像數(shù)據(jù)中的冗余,如空間冗余和頻譜冗余語音信號中的冗余和人類的聽覺感知機理JPEG什么是JPEG文件?JPEG(JointPhotographicExpertsGroup)即聯(lián)合圖像專家組,是用于連續(xù)色調(diào)靜態(tài)圖像壓縮的一種標準,文件后綴名為.jpg或.jpeg,是最常用的圖像文件格式。其主要是采用預(yù)測編碼(DPCM)、離散余弦變換(DCT)以及熵編碼的聯(lián)合編碼方式,以去除冗余的圖像和彩色數(shù)據(jù),屬于有損壓縮格式,它能夠?qū)D像壓縮在很小的儲存空間,一定程度上會造成圖像數(shù)據(jù)的損傷。尤其是使用過高的壓縮比例,將使最終解壓縮后恢復(fù)的圖像質(zhì)量降低,如果追求高品質(zhì)圖像,則不宜采用過高的壓縮比例。JPEG圖像壓縮videoJPEG壓縮實例245,760bytes69,632bytes5,951bytesLecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像處理發(fā)展里程碑3-圖像去噪邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023圖像去噪圖像去噪是指減少數(shù)字圖像中噪聲的過程。噪聲是由于圖像采集、傳輸或存儲過程中的各種因素引起的干擾信號。這些噪聲信號以隨機的方式混入到原始圖像中,導(dǎo)致圖像出現(xiàn)模糊、顆粒狀、失真等問題,形成含噪圖像或噪聲圖像,從而降低了圖像的質(zhì)量。通過去除噪聲,可以恢復(fù)圖像的細節(jié)和清晰度,提高圖像的視覺質(zhì)量和觀感。圖像去噪方法類別方法原理特點基于濾波器的方法高斯濾波卷積操作,使用高斯核函數(shù)對高斯噪聲有效,可能導(dǎo)致邊緣模糊中值濾波替換像素值為鄰域像素的中位數(shù)對椒鹽噪聲有效,保留邊緣信息均值濾波替換像素值為鄰域像素的平均值簡單直接,但可能導(dǎo)致圖像模糊基于模型的方法P-M方程去噪偏微分方程,模擬熱傳導(dǎo)過程自適應(yīng)調(diào)整平滑程度,保留邊緣信息總變分最小化最小化圖像的總變分保留邊緣和細節(jié),去除平滑區(qū)域噪聲馬爾可夫隨機場圖像建模為馬爾可夫隨機場考慮像素空間關(guān)系,適用于不同噪聲和圖像內(nèi)容基于學(xué)習(xí)的方法深度學(xué)習(xí)方法使用深度學(xué)習(xí)模型預(yù)測噪聲并恢復(fù)圖像處理復(fù)雜噪聲,恢復(fù)高質(zhì)量圖像,需要大量數(shù)據(jù)和計算資源字典學(xué)習(xí)學(xué)習(xí)過完備字典表示圖像塊,利用稀疏編碼去噪自適應(yīng)表示圖像結(jié)構(gòu),去除噪聲非局部均值濾波替換像素值為相似像素的加權(quán)平均利用圖像冗余信息去噪,保留圖像細節(jié)圖像去噪實例1:基于暗原色先驗圖像去霧暗通道先驗或暗原色先驗(darkchannelprior)在計算機視覺和圖像處理領(lǐng)域,這個概念指的是觀察到的一種統(tǒng)計規(guī)律,即在戶外無霧圖像的任意局部小塊中,總存在少量(至少是一個)像素在某一個或幾個顏色通道上亮度值很低接近于零。這種特性被用來作為去霧、去霾等圖像處理任務(wù)的一種先驗知識或約束條件。實際生活中造成暗原色中低通道值主要有三個因素:汽車、建筑物和城市中玻璃窗戶的陰影,或者是樹葉、樹與巖石等自然景觀的投影;色彩鮮艷的物體或表面,在RGB的三個通道中有些通道的值很低(比如綠色的草地/樹/植物,紅色或黃色的花朵/葉子,或者藍色的水面);顏色較暗的物體或者表面,例如灰暗色的樹干和石頭。總之,自然景物中到處都是陰影或者彩色,這些景物的圖像的暗原色總是很灰暗的。圖像去噪實例1:基于暗原色先驗圖像去霧步驟具體描述1.計算暗原色圖將輸入的霧天圖像分解到R、G、B三個顏色通道。對于每個像素,找到它在三個通道中的最小值作為暗原色。對圖像進行分塊,并在每個像素塊內(nèi)找到暗原色的最小值,構(gòu)成暗原色圖。2.估計全局大氣光在暗原色圖中,選擇亮度最高的像素作為全局大氣光的估計值。這個亮度最高的像素最有可能是受到霧的影響最小的區(qū)域。3.估計透射率假設(shè)在局部區(qū)域內(nèi),暗原色的強度與透射率成反比。使用預(yù)設(shè)的閾值對暗原色圖進行二值化處理。計算每個像素塊內(nèi)非零像素的比例,這個比例就代表了該像素塊的透射率。4.恢復(fù)無霧圖像使用大氣散射模型來計算無霧圖像的亮度值。考慮光線在穿過霧層時受到的衰減和大氣光的影響。結(jié)合估計的全局大氣光和透射率,恢復(fù)出無霧的圖像。圖像去霧結(jié)果HeK,SunJ,TangX.Singleimagehazeremovalusingdarkchannelprior[J].IEEECVPR,2009.圖像去噪實例2:醫(yī)學(xué)圖像增強在醫(yī)學(xué)CT檢查中,低劑量CT可以使患者少暴露在X射線中,但同時噪聲影響大。從低劑量噪聲CT圖像去噪恢復(fù)成清晰圖像對臨床極具價值Lecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像處理發(fā)展里程碑4-圖像識別邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023圖像識別與流程圖像識別是對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象步驟描述1.數(shù)據(jù)采集獲取圖像數(shù)據(jù),可以通過攝像頭、傳感器、掃描儀等設(shè)備實現(xiàn)。圖像可以是靜態(tài)照片或視頻流。2.圖像預(yù)處理對圖像進行預(yù)處理操作,如縮放、裁剪、旋轉(zhuǎn)、灰度化等,以確保圖像數(shù)據(jù)的一致性和適應(yīng)性。預(yù)處理有助于減少噪聲和冗余信息。3.特征提取識別圖像中的重要模式、結(jié)構(gòu)和顏色等特征。常見的特征提取方法包括邊緣檢測、角點檢測、顏色直方圖等。深度學(xué)習(xí)技術(shù)(如卷積神經(jīng)網(wǎng)絡(luò))也可以自動學(xué)習(xí)圖像中的特征表示。4.模型訓(xùn)練利用已標記的圖像數(shù)據(jù)集訓(xùn)練機器學(xué)習(xí)模型或深度學(xué)習(xí)模型。在訓(xùn)練過程中,模型學(xué)習(xí)如何將輸入的特征映射到相應(yīng)的類別標簽。5.模型測試與推斷當(dāng)新的圖像輸入時,模型利用之前學(xué)到的知識識別圖像中的對象或模式。通過匹配輸入圖像的特征與模型中的特征表示,輸出最可能的類別標簽。AlexNet2012年,

AlexKrizhevsky、IlyaSutskever在多倫多大學(xué)Hinton的實驗室設(shè)提出基于卷積神經(jīng)網(wǎng)絡(luò)CNN的AlexNet,獲得ImageNet競賽冠軍。圖像識別成為應(yīng)用深度學(xué)習(xí)算法的一種實踐應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)是深度學(xué)習(xí)中最重要的基礎(chǔ)模型之一,以其強大的表征學(xué)習(xí)能力,已經(jīng)廣泛應(yīng)用于計算機視覺、自然語言處理、醫(yī)學(xué)圖像分析等任務(wù)中。簡單來說,卷積神經(jīng)網(wǎng)絡(luò)是一種專門用來處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),受生物學(xué)上感受野的機制啟發(fā)而提出的。顧名思義,它通過“卷積”操作,巧妙地進行參數(shù)共享和稀疏交互,自動學(xué)習(xí)數(shù)據(jù)的高級特征表示。卷積神經(jīng)網(wǎng)絡(luò)一般是由輸入層、卷積層、池化層、全連接層、輸出層等組成。卷積的定義卷積(convolution),又稱褶積,是分析數(shù)學(xué)中一種重要的運算,常用于信號或圖像處理。卷積是通過兩個函數(shù)生成第三個新函數(shù)的特殊積分變換,即:

二維卷積(卷積核翻轉(zhuǎn)或者不轉(zhuǎn)統(tǒng)一就好)

池化層與池化函數(shù)池化層是卷積神經(jīng)網(wǎng)絡(luò)中重要組件,它的作用是對特征圖進行下采樣或壓縮特征圖,提取主要特征,從而減少參數(shù)數(shù)量。池化函數(shù)使用某一位置的相鄰輸出的總體統(tǒng)計特征來代替網(wǎng)絡(luò)在該位置的輸出。常見的池化函數(shù)最大池化平均池化……最大池化(MaxPooling)平均池化(AveragePooling)最大池化(maxpooling)最大池化(maxpooling)全連接層在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,經(jīng)多個卷積層和池化層后,通常連接著1個或1個以上的全連接層。全連接層中的每個神經(jīng)元與其前一層的所有神經(jīng)元進行全連接,其可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息并輸出至輸出層。全連接層將一層中的每個神經(jīng)元連接到另一層中的每個神經(jīng)元。它在原理上與傳統(tǒng)的多層感知器神經(jīng)網(wǎng)絡(luò)(MLP)相同。平坦的矩陣通過一個全連接層對圖像進行分類。Relu激活函數(shù)卷積核步長Stride為2的卷積計算過程填充Padding

卷積零填充步長為2示例其他卷積方式:空洞卷積空洞卷積(dilatedconvolution)也叫擴張卷積或膨脹卷積,簡單地來說就是在卷積核元素間加入一些空格,以此來擴大感受野。我們一般用卷積擴張率(dilationrate)來表示卷積核擴張的程度。卷積擴張率為2的空洞卷積示例(步長為1,零填充為1)SOFTMAX函數(shù)AlexNet網(wǎng)絡(luò)練習(xí)和作業(yè)13-1:計算YGiventheImageXandtheConvolutionoperatorH.The2DdiscreteconvolutionofY=X*Hishereisdefinedas:Pleaseusethezero-paddingtoextendtheimageduringcalculationPleasecalculateY卷積練習(xí):Y(2,1)作業(yè)13-2給定一個簡單的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下,包含一個輸入層,兩個卷積層(Conv1和Conv2),一個最大池化層,一個全連接層,其中所有層都不包含偏置向量并且權(quán)重已在圖中給出。假設(shè)有一個如圖所示6x6的矩陣輸入到該模型中,請計算出模型的輸出值,同時給出中間層的計算結(jié)果。(注:本作業(yè)卷積計算要翻轉(zhuǎn))ImageNet類別描述數(shù)據(jù)集概述ImageNet是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫。包含超過1400萬的圖像,手動注釋以指示圖片中的對象。至少一百萬個圖像提供了邊界框。

擁有2萬多個類別,每個類別可能包含數(shù)百個圖像。數(shù)據(jù)集結(jié)構(gòu)結(jié)構(gòu)是金字塔型:目錄->子目錄->圖片集。每個子目錄(node)代表一個item或subcategory,并包含至少500個對應(yīng)物體的可供訓(xùn)練的圖片。注釋過程圖像級注釋表示圖像中是否存在某個對象類。對象級注釋提供指定對象周圍的邊界框。與WordNet的關(guān)系ImageNet根據(jù)WordNet層次結(jié)構(gòu)組織圖像數(shù)據(jù)集。WordNet為每一個synset(同義詞集)提供簡短定義,并記錄不同synset之間的語義關(guān)系。ImageNet的目標是為WordNet中的大多數(shù)concept提供數(shù)千萬個干凈整理的圖像。應(yīng)用與挑戰(zhàn)廣泛應(yīng)用于圖像分類、目標檢測和圖像生成等領(lǐng)域。每年舉辦ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC),評估各種視覺識別算法的性能。對深度學(xué)習(xí)的影響2012年,深度學(xué)習(xí)AlexNet在ImageNet挑戰(zhàn)賽上取得巨大突破,標志著深度學(xué)習(xí)革命的開始。在ImageNet上進行預(yù)訓(xùn)練,然后遷移到下游的視覺任務(wù),成為2D圖像領(lǐng)域的標準化方式。。ImageNetVGGNetVGGNet是由牛津大學(xué)視覺幾何組(VisualGeometryGroup,VGG)的KarenSimonyan和AndrewZisserman提出來的,VGGNet在ILSVRC-2014中獲得了定位任務(wù)的第一名和分類任務(wù)的第二名。其主要關(guān)鍵創(chuàng)新在于每個層中使用小的3*3卷積濾波器,具有相對小的感受野ReceptiveField.其允許構(gòu)建更深的網(wǎng)絡(luò),同時保持參數(shù)數(shù)量可管理。GoogleNetGoogLeNet是2014年ChristianSzegedy在ILSVRC挑戰(zhàn)賽上提出的一種全新的深度學(xué)習(xí)結(jié)構(gòu),在這之前的AlexNet、VGG等結(jié)構(gòu)都是通過增大網(wǎng)絡(luò)的深度(層數(shù))來獲得更好的訓(xùn)練效果,但層數(shù)的增加會帶來很多負作用,比如過擬合、梯度消失、梯度爆炸等。而inception的提出則從另一種角度來提升訓(xùn)練結(jié)果,它能夠更高效的利用計算資源,在相同的計算量下能提取到更多的特征。Inception模塊ResNet何愷明ResNet網(wǎng)絡(luò)框架2016年,何愷明等提出的殘差網(wǎng)ResNet在ImageNet大規(guī)模視覺識別競賽中獲得了圖像分類和物體識別的冠軍。Lecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像處理發(fā)展里程碑5-圖像生成邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023圖像生成圖像生成技術(shù)主要利用計算機算法和模型來創(chuàng)建或合成圖像。這些技術(shù)可以基于各種輸入,如文本描述、草圖、圖像數(shù)據(jù)等,生成具有特定風(fēng)格、內(nèi)容和質(zhì)量要求的圖像。圖像生成(GAN)在生成模型中比較有影響力的有VAE,

GAN,

Diffusionmodel,其中2014年提出的GAN是生成模型中最經(jīng)典的。GAN在圖像生成應(yīng)用最為突出。GAN的結(jié)構(gòu)包括一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的目標是生成盡可能真實的樣本以欺騙判別網(wǎng)絡(luò),而判別網(wǎng)絡(luò)的目標是盡可能準確地區(qū)分出真實樣本和生成樣本。通過兩個網(wǎng)絡(luò)的競爭和協(xié)作,不斷優(yōu)化生成網(wǎng)絡(luò),使其能夠生成更加逼真的樣本。在生成模型中比較有影響力的有VAE,

GAN,

Diffusionmodel,其中2014年提出的GAN是生成模型中最經(jīng)典的。圖像生成主要模型比較I特性VAE(VariationalAutoencoder)變分自編碼器GAN(GenerativeAdversarialNetworks)生成對抗網(wǎng)絡(luò)DiffusionModel擴散模型原理利用編碼器將輸入數(shù)據(jù)編碼為潛在空間表示,并通過解碼器從潛在空間生成數(shù)據(jù)。通過優(yōu)化潛在空間的概率分布來生成新的數(shù)據(jù)樣本。由一個生成器網(wǎng)絡(luò)和一個判別器網(wǎng)絡(luò)組成。生成器網(wǎng)絡(luò)生成假樣本,判別器網(wǎng)絡(luò)區(qū)分真實樣本和假樣本。兩者通過競爭和協(xié)作優(yōu)化。通過逐步去除噪聲圖像中的噪聲來生成圖像。從一個隨機噪聲開始,逐漸將噪聲轉(zhuǎn)化為真實圖像。穩(wěn)定性通常較為穩(wěn)定,但可能會生成模糊或失真的樣本。訓(xùn)練過程可能不穩(wěn)定,需要仔細平衡生成器和判別器的訓(xùn)練。通常較為穩(wěn)定,但可能需要更多的訓(xùn)練迭代。樣本質(zhì)量生成的樣本質(zhì)量可能不如GAN和DiffusionModel高,尤其是在圖像生成領(lǐng)域。可以生成高質(zhì)量的圖像,特別是在圖像生成和風(fēng)格遷移方面。生成的圖像質(zhì)量高,細節(jié)豐富,真實感強。圖像生成主要模型比較II特性VAE(VariationalAutoencoder)變分自編碼器GAN(GenerativeAdversarialNetworks)生成對抗網(wǎng)絡(luò)DiffusionModel擴散模型多樣性生成的樣本多樣性可能受限,尤其是在潛在空間表示有限的情況下。GAN的樣本多樣性取決于生成器和判別器的設(shè)計以及訓(xùn)練數(shù)據(jù)。可能面臨模式崩潰問題。通常可以生成多樣化的樣本,因為擴散過程從隨機噪聲開始。訓(xùn)練難度通常較為容易訓(xùn)練,但可能需要更多的迭代來達到滿意的效果。訓(xùn)練過程可能相對復(fù)雜,需要平衡生成器和判別器的訓(xùn)練,并且可能面臨訓(xùn)練不穩(wěn)定問題。訓(xùn)練可能需要更多的計算資源和時間,但過程相對穩(wěn)定。應(yīng)用數(shù)據(jù)增廣、異常檢測、推薦系統(tǒng)等。圖像生成、風(fēng)格遷移、超分辨率圖像重建等。圖像生成、音頻生成、視頻生成等。擴展性可以通過增加潛在空間的維度和復(fù)雜性來擴展模型。可以通過增加生成器和判別器的復(fù)雜性以及使用更先進的網(wǎng)絡(luò)結(jié)構(gòu)來擴展模型。可以通過增加擴散步驟和更復(fù)雜的去噪網(wǎng)絡(luò)來擴展模型。Lecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像處理發(fā)展里程碑6-圖像目標檢測邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像去噪Imagedenoising(Darkpriorchannel)2009圖像識別Imagerecognition(AlexNet)2012圖像生成Imagegeneration(GAN)2014圖像目標檢測ObjectionDetection(YOLO)2015圖像分割大模型Imagesegmentation

(SAM)2023圖像目標檢測圖像目標檢測的任務(wù)是確定某張給定圖像中是否存在給定類別的目標實例。如果存在目標實例,則檢測算法需要返回每個目標實例的空間位置和覆蓋范圍。具體步驟是先找到目標的位置,將目標截下來,在使用判別網(wǎng)絡(luò)去判斷物體的類別這樣就可以完美解決目標是什么Classification和在什么地方Localization

2個任務(wù)。目標檢測是解決分割、場景理解、目標追蹤、圖像描述、事件檢測和活動識別等更復(fù)雜更高層次的視覺任務(wù)的基礎(chǔ)。圖像目標檢測主要算法算法描述主要特點流程優(yōu)點R-CNN(Region-CNN)早期將DCNN應(yīng)用到目標檢測首次引入CNN提取特征選擇性搜索提取候選區(qū)域,CNN特征提取SVM分類邊界框回歸為目標檢測提供了新方向FastR-CNNR-CNN的改進版,共享卷積計算提高了檢測速度選擇性搜索提取候選區(qū)域CNN特征提取(整張圖像)ROIPooling截取特征全連接層分類和回歸顯著提高了檢測速度FasterR-CNNFastR-CNN的進一步改進,引入RPN(RegionProposalNetwork)端到端的檢測,進一步提高速度和精度CNN特征提取(整張圖像)RPN生成候選區(qū)域ROIPooling截取特征全連接層分類和回歸實現(xiàn)了端到端的訓(xùn)練,速度和精度均有提升YOLO將目標檢測視為回歸問題,引入NMS(非最大值抑制)確保每個目標被單個標注速度快,實時檢測用一個卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就可以從輸入圖像直接預(yù)測boundingbox和類別概率,實現(xiàn)了End2End訓(xùn)練,單次前向傳播輸出預(yù)測結(jié)果圖像劃分為SxS網(wǎng)格每個網(wǎng)格預(yù)測B個邊界框和置信度、類別概率Non-MaximumSuppression去除重疊邊界框速度快,實現(xiàn)實時目標檢測YOLO(YouOnlyLookOnce)算法類別詳細描述原理-將圖像劃分為S×S的網(wǎng)格,每個網(wǎng)格預(yù)測B個邊界框(boundingbox)-每個邊界框包含5個預(yù)測值:x,y,w,h,置信度-x,y表示邊界框中心點在該網(wǎng)格中的位置,w,h表示邊界框的寬度和高度-置信度表示該邊界框中是否存在目標-每個網(wǎng)格還預(yù)測C個條件類別概率特點-速度快:一次前向傳播即可預(yù)測所有目標實現(xiàn)使用單個卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接從輸入圖像預(yù)測邊界框(boundingbox)和類別概率。舉例每個單元格需要預(yù)測(B*5+C)個值。如果將輸入圖片劃分為S*S網(wǎng)格,那么最終預(yù)測值為S*S*(B*5+C)大小的張量。對于PASCALVOC數(shù)據(jù),其共有20個類別,如果使用S=7,B=2,那么最終的預(yù)測結(jié)果就是7*7*30大小的張量。圖像目標檢測YOLO及實現(xiàn)YOLO(YouOnlyLookOnce)算法是一種實時目標檢測算法,由Redmon等人于2015年提出。它不同于傳統(tǒng)的滑動窗口或區(qū)域提案的目標檢測算法,如R-CNN系列算法,而是采用單次前向傳播即可得到預(yù)測結(jié)果的方式,從而實現(xiàn)了更高的檢測速度和更準確的檢測性能。下面Yolo算法采用一個單獨的CNN模型實現(xiàn)端到端end-to-end的目標檢測,整個系統(tǒng)首先將輸入圖片resize到448x448,然后送入CNN網(wǎng)絡(luò),最后處理網(wǎng)絡(luò)預(yù)測結(jié)果得到檢測的目標。相比二階段算法,其是一個統(tǒng)一的框架,其速度更快,而且Yolo的訓(xùn)練過程也是端到端的。Lecture13ContentsReview

ofLecture12圖像信息處理7個里程碑之3-圖像去噪圖像信息處理7個里程碑之4-圖像識別圖像信息處理7個里程碑之6-圖像目標檢測6圖像信息處理7個里程碑之5-圖像生成圖像信息處理7個里程碑之7-圖像分割大模型圖像處理發(fā)展里程碑7-圖像分割大模型邊緣檢測Edge

Detection(Canny)1986圖像壓縮ImageCompression(JPEG)1992圖像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論