




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
相似度文獻總結相似度有兩種基本類別:(1)客觀相似度,即對象之間的相似度是對象的多維特征之間的某種函數關系,比如對象之間的歐氏距離;(2)主觀相似度,即相似度是人對研究對象的認知關系,換句話說,相似度是主觀認知的結果,它取決于人及其所處的環境,主觀相似度符合人眼視覺需求,帶有一定的模糊性[13]。客觀相似度客觀相似度可分為距離測度、相似測度、匹配測度。它們都是衡量兩對象客觀上的相近程度。客觀相似度滿足下面的公理,假設對象A與B的相似度判別為,有:自相似度是一個常量:所有對象的自相似度是一個常數,通常為1,即極大性:所有對象的自相似度均大于它與其他對象間的相似度,即。(3)對稱性:兩個對象間的相似度是對稱的,即。(4)唯一性:,當且僅當。距離測度這類測度以兩個矢量矢端的距離為基礎,因此距離測度值是兩矢量各相應分量之差的函數。設表示兩個矢量,計算二者之間距離測度的具體方式有多種,最常用的有:歐氏距離:EuclideanDistance-basedSimilarity最初用于計算歐幾里德空間中兩個點的距離,假設x,y是n維空間的兩個點,它們之間的歐幾里德距離是: () 當x,y是兩個直方圖時,該方法可稱為直方圖匹配法。可以看出,當n=2時,歐幾里德距離就是平面上兩個點的距離。當用歐幾里德距離表示相似度,一般采用以下公式進行轉換:距離越小,相似度越大。()范圍:[0,1],值越大,說明d越小,也就是距離越近,則相似度越大。說明:由于特征分量的量綱不一致,通常需要先對各分量進行標準化,使其與單位無關。歐氏距離能夠體現個體數值特征的絕對差異,所以更多的用于需要從維度的數值大小中體現差異的分析。優點:簡單,應用廣泛缺點:沒有考慮分量之間的相關性,體現單一特征的多個分量會干擾結果曼哈頓距離,絕對值距離(街坊距離或Manhattan距離):原理:曼哈頓距離來源于城市區塊距離,是將多個維度上的距離進行求和后的結果。同歐式距離相似,都是用于多維數據空間距離的測度范圍:[0,1],同歐式距離一致,值越小,說明距離值越大,相似度越大。說明:比歐式距離計算量少,性能相對高。()切氏(Chebyshev)距離(棋盤距離/切比雪夫距離):切比雪夫距離起源于國際象棋中國王的走法,我們知道國際象棋國王每次只能往周圍的8格中走一步,那么從棋盤中A格(x1,y1)走到B格(x2,y2)最少需要走幾步()明氏(Minkowski)距離/閔可夫斯基距離: ()可以看出,、、式實際上是式當的特殊情況。在實際中較多地使用歐氏距離。顯然,在觀測量的量綱取定的條件下,兩個矢量越相似,距離就越小,反之亦然。值得注意的是,在使用上述距離測度描述具體對象時,量綱選取不同會改變某特征的判斷依據,即改變該特征對判斷貢獻的大小,嚴重的可造成錯誤分類。這是因為改變特征矢量某分量的量綱,進行比較的兩個矢量的相應的兩個分量的數值也將改變。若變小,則其相應的特征在距離測度中“影響作用比重”將變小,即根據其判斷分類的作用變小,反之將增大,這樣便不能很好地反映事實。馬氏(Mahalanobis)距離是不受量綱影響的。馬氏距離(Mahalanobis):馬氏距離定義如下:設n維矢量和是矢量集中的兩個矢量,它們的馬氏距離d定義為()式中,。V的含義是這個矢量集的協方差矩陣的統計量。適用場合:度量兩個服從同一分布并且協方差矩陣為C的隨機變量的差異程度度量與某一類的均值向量的差異程度,判別樣本的歸屬,此時為類均值向量。優點:獨立于分量量綱排除了樣本之間的相關性影響缺點:不同的特征不能差別對待,可能夸大弱特征漢明距離(HammingDistance)在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數。換句話說,它就是將一個字符串變換成另一個字符串所需要替換的字符個數。例如:1011101與1001001之間的漢明距離是2。2143896與2233796之間的漢明距離是3。“toned”與“roses”之間的漢明距離是3。巴氏距離(Bhattacharyya)巴氏距離常用于計算直方圖間相似度,定義如下:其中,x、y為歸一化數據向量。Bhattacharyya系數取值在0~1之間,越靠近1,表示兩個模型之間相似度越高。如果,x、y向量未歸一化,則巴氏系數的計算定義為:()Hausdorff距離:Hausdorff距離(Hausdorffdistance,HD)是一種定義于兩個點集上的最大最小距離,是描述兩組點集之間的相似程度的一種量度,x、y之間的Hausdorff距離定義為:()式中,為x到y的有向Hausdorff距離;為y到x的有向Hausdorff距離;為某種定義在點集x、y上的距離范數。常用的是歐幾里得范數。 如果定義(表示空間中的任意點)則Hausdorff距離可定義為,這里稱分別為點集y和點集x在空間中的變化距離。由于Hausdorff距離是度量兩個點集之間最不匹配點的距離,因此它對遠離中心的噪聲、漏檢點都非常敏感,而這一點,在提取圖像特征點集特征時使不可避免的。為了克服這個缺點,需要對Hausdorff距離的定義進行擴展。改進的部分Hausdorff距離:為獲得準確的匹配結果,Sim提出了改進的部分Hausdorff距離(LTS-HD),它是用距離序列的線性組合來定義的:()式中,,p為x內點的個數,為一個屬于[0,1]的百分數。把點集x中的所有點到點集y的距離按由小到大的順序排列,將序號為1~k的k個距離求和,再求平均。所以,該匹配方法不僅能消除遠離中心的錯誤匹配點的影響,而且對零均值高斯噪聲的消除能力明顯。因襲,采用LTS-HD用于圖像特征點集的匹配,力求在所有可能的變換空間中尋找圖像特征點集之間的最優變換,以便通過使LTS-HD最小化來獲得最優匹配結果。 設g為變換空間T(通常由旋轉矩陣R、平移變換向量t、尺度c等變換組成)中的一個變換,則最優匹配變換g0滿足相關度距離常用于計算直方圖間相似度,定義如下:()卡方系數常用于計算直方圖間相似度,定義如下:()(備注:引自《基于混合圖結構的圖像相似度的研究_莊小芳》,2013年福建師范大學碩士學位論文第一章,節)(未命名)常用于計算直方圖間相似度,定義如下:()其中,N表示圖像顏色樣點空間,比起前面幾個計算公式,該式在給出圖像相似度的計算中更為直接,操作也更加簡便。(備注:引自《基于混合圖結構的圖像相似度的研究_莊小芳》,2013年福建師范大學碩士學位論文第一章,節)直方圖相交距離直方圖相交距離是常用于顏色特征相似性度量的一種方法,常用于計算直方圖間相似度。如果有兩幅圖像,則它們的相交距離定義式如下:()相似測度這類測度是以兩矢量的方向是否相近作為考慮的基礎,矢量長度并不重要,同樣設。角度相似系數(夾角余弦)原理:多維空間兩點與所設定的點形成夾角的余弦值。范圍:[-1,1],值越大,說明夾角越大,兩點相距就越遠,相似度就越小。說明:在數學表達中,如果對兩個項的屬性進行了數據中心化,計算出來的余弦相似度和皮爾森相似度是一樣的,所以皮爾森相似度值也是數據中心化后的余弦相似度。定義:矢量之間的相似度可用它們的夾角余弦來度量。兩個矢量x和y的夾角余弦定義如下:()與歐幾里德距離類似,基于余弦相似度的計算方法也是把特征點作為n-維坐標系中的一個點,通過連接這個點與坐標系的原點構成一條直線(向量),兩個特征點之間的相似度值就是兩條直線(向量)間夾角的余弦值。因為連接代表特征點與原點的直線都會相交于原點,夾角越小代表兩個特征越相似,夾角越大代表兩個特征的相似度越小。同時在三角系數中,角的余弦值是在[-1,1]之間的,0度角的余弦值是1,180角的余弦值是-1。借助三維坐標系來看下歐氏距離和余弦相似度的區別:從圖上可以看出距離度量衡量的是空間各點間的絕對距離,跟各個點所在的位置坐標(即個體特征維度的數值)直接相關;而余弦相似度衡量的是空間向量的夾角,更加的是體現在方向上的差異,而不是位置。如果保持A點的位置不變,B點朝原方向遠離坐標軸原點,那么這個時候余弦相似度cos是保持不變的,因為夾角不變,而A、B兩點的距離顯然在發生改變,這就是歐氏距離和余弦相似度的不同之處。應用:Cosine相似度被廣泛應用于計算文檔數據的相似度及數據挖掘類工作:特點:余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。它對于坐標系的旋轉和尺度的縮放是不變的(因矢量的長度已規格化),但對一般的線性變換和坐標系的平移不具有不變性。調整余弦相似度——AdjustedCosineSimilarity在余弦相似度的介紹中說到:余弦相似度更多的是從方向上區分差異,而對絕對的數值不敏感。因此沒法衡量每個維數值的差異,會導致這樣一個情況:比如用戶對內容評分,5分制,X和Y兩個用戶對兩個內容的評分分別為(1,2)和(4,5),使用余弦相似度得出的結果是,兩者極為相似,但從評分上看X似乎不喜歡這兩個內容,而Y比較喜歡,余弦相似度對數值的不敏感導致了結果的誤差,需要修正這種不合理性,就出現了調整余弦相似度,即所有維度上的數值都減去一個均值,比如X和Y的評分均值都是3,那么調整后為(-2,-1)和(1,2),再用余弦相似度計算,得到,相似度為負值并且差異不小,但顯然更加符合現實。應用:調整余弦相似度和弦相似度,皮爾遜相關系數在推薦系統中應用較多。在基于項目的推薦中GroupLens有篇論文結果表明調整余弦相似度性能要由于余弦相似度和皮爾遜相關系數。相關系數它實際上是數據中心化后的矢量夾角余弦。()此處將,視作兩個數據集的樣本,和分別是這兩個數據集的平均矢量。相關系數對于坐標系的平移、旋轉和尺度縮放是不變的。(備注:該節引自項德良【SAR圖像相似度評估技術研究】,2012年國防科大碩士論文節。)指數相似系數指數相似系數定義如下:()式中,為相應分量的方差,n為矢量維數。它不受量綱變化的影響。從函數的構造上看屬于距離方式(類似于馬氏距離),但從測度值和相似關系看屬于相似測度。(備注:該節引自項德良【SAR圖像相似度評估技術研究】,2012年國防科大碩士論文節。)對數似然相似度TedDunning在1993年提出一種對數似然比的概念,主要應用于自然文本語言庫中兩個詞的搭配關系問題。它是基于這樣一種思想,即統計假設可以確定一個空間的很多子空間,而這個空間是被統計模型的位置參數所描述。似然比檢驗假設模型是已知的,但是模型的參數是未知的。二項分布的對數似然比對于二項分布的情況,似然函數為()式中:——的統計模型,——試驗結果的參數。——給定模型的參數。假設二項分布有相同的基本參數集合,那么對數似然比就是()式中:——當取得某值時,統計模型的最大值。當時,分母取得最大值。當時,分子取得最大值。所以對數似然比簡化為()式中:——二項分布,——實驗重復的次數,——某事發生的概率,——該事件發生的次數,。兩邊取對數可以將對數似然比的公式變形為:()由于二項分布的對數似然比能夠合理的描述兩個事物的相似模型,所以常用對數似然比來計算兩個事物(用戶或物品)的相似度。對數似然相似度基于兩個用戶共同評估過的物品數目,但在給定物品總數和每個用戶評價的情況下,其最終結果衡量的是兩個用戶有這么多共同物品的“不可能性”,它是一種不考慮具體偏好值的方法。比如在用戶—物品偏好的二維矩陣中,我們可以將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度,或者將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度。備注:引自張明敏,張功萱《對數似然相似度算法的MapReduce并行化實現》《計算機工程與設計》2015,36卷,第5期。Levenshtein距離,又稱編輯距離兩個字符串(鏈)的相似度可以用Levenshtein距離(Levenshteindistance)表示,該距離定義為將一個串變為另一個串所需的最小操作步數,可能的操作有刪除、插入、替換[SchlesingerandHlavac,2002]。還可以給字符串元素變換賦一個變換代價,從而使計算得到的相似度(距離)更靈活,更敏感。同樣的原理也可以用在圖相似度的計算上。下定義可能的結點和弧的變換(刪除、插入、替換、重新標注)集合,再給每種變換賦一個變換代價。任一變換序列的代價用單個步驟代價的組合表示(類似代價步驟的和)。將一個圖變為另一個圖的所有變換集合中具有最小代價值的那個集合就定義了這兩幅圖間的距離[Niemann,1990]。用途:常用于字符串距離,類似可用于計算圖的距離備注:引用于《圖像處理、分析與機器視覺(第三版)》MilanSonka,VaclavHlavac,RogerBoyle著,艾海舟,蘇延超譯P298,圖的相似度 統計相關系數--皮爾遜相關系數(PearsonCorrelationCoefficient)皮爾遜相關也稱積差相關(積矩相關),即相關分析中的相關系數,分別對基于自身總體標準化后計算余弦向量的標準夾角。是英國統計學家皮爾遜于20世紀提出的一種計算直線相關的方法。皮爾遜相關系數一般用來反映兩個變量線性相關程度,它的取值在[-1,+1]之間。相關系數的絕對值越大,相關性越強。假設有兩個變量,那么;兩個變量間的皮爾遜相關系數可以通過以下公式計算:公式一:公式二:公式三:公式四:以上列出四個公式等價,其中E是數學期望,cov表示方差,N表示變量取值的個數。適用范圍:當兩個變量對的標準差都不為0時,相關系數才有定義,皮爾遜系數適用于:兩個變量之間是線性關系,都是連續數據兩個變量的總體是正態分布,或接近正態的單峰分布兩個變量的觀測值是成對的,每對觀測值之間互相獨立特點:(1)當兩個變量的線性關系增強時,相關系數趨于1或-1;(2)當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;(3)如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;(4)如果相關系數等于0,表明它們之間不存在線性相關關系。統計相關系數--斯皮爾曼相關(Spearman秩相關)系數--SpearmanCorrelation簡介在統計學中,斯皮爾曼等級相關系數以CharlesSpearman命名,并經常用希臘字母表示其值。斯皮爾曼等級相關系數用來估計兩個變量之間的相關性,其中變量間的相關性可以用單調函數來描述。如果兩個變量取值的兩個集合中均不存在相同的兩個元素,那么,當其中一個變量可以表示為另一個變量的很好的單調函數時(即兩個變量的變化趨勢相同),兩個變量之間的可以達到+1或-1。假設兩個隨機變量分別為(也可以看做是兩個集合),它們的元素個數均為N,兩個隨機變量取的第個值分別用表示。對進行排序(同為升序或降序),得到兩個元素排行集合,其中元素分別為在中的排行以及在中的排行。將集合中的元素對應相減得到一個排行差分集合d,其中,。隨機變量之間的斯皮爾曼等級相關系數可由或d計算得到,其計算方式如下:公式一:由排行差分集合d計算而得():公式二:由排行集合計算而得(斯皮爾曼等級相關系數同時也被認為是經過排行的兩個隨機變量的皮爾遜相關系數,以下實際是計算的皮爾遜相關系數):以下是一個計算集合中元素排行的例子(僅適用于斯皮爾曼等級相關系數的計算)變量元素的位置(依降序排列)變量的排行()154453(2+3)/2=2(2+3)/2=1011這里需要注意:當變量的兩個值相同時,它們的排行是通過對它們的位置進行平均得到的。適用范圍斯皮爾曼等級相關系數對數據條件的要求沒有皮爾遜相關系數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的整體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關系數來進行研究。原理:Spearman秩相關系數通常被認為是排列后的變量之間的Pearson線性相關系數。(3)取值范圍:{,},當一致時為,不一致時為。(4)說明:計算非常慢,有大量排序。針對推薦系統中的數據集來講,用Spearman秩相關系數作為相似度量是不合適的。一般用于學術研究或者是小規模的計算。(5)Spearman相關系數的特點:Spearman相關是根據等級資料研究兩個變量間相關關系的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為“等級差數法”Spearman相關系數對原始變量的分布不做要求,屬于非參數統計方法。因此它的適用范圍比Pearson相關系數要廣的多。即使原始數據是等級資料也可以計算Spearman相關系數。對于服從Pearson相關系數的數據也可以計算Spearman相關系數,統計效能比Pearson相關系數要低一些(不容易檢測出兩者事實上存在的相關關系)。spearman只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究。注:spearman與pearson:1.連續數據,正態分布,線性關系,用pearson相關系數是最恰當,當然用spearman相關系數也可以,就是效率沒有pearson相關系數高。2.上述任一條件不滿足,就用spearman相關系數,不能用pearson相關系數。3.兩個定序測量數據之間也用spearman相關系數,不能用pearson相關系數。4.只要在X和Y具有單調的函數關系的關系,那么X和Y就是完全Spearman相關的,這與Pearson相關性不同,后者只有在變量之間具有線性關系時才是完全相關的。統計相關系數--KendallRank(肯德爾等級)相關系數簡介在統計學中,肯德爾相關系數是以MauriceKendall命名的,并經常用希臘字母(tau)表示其值。肯德爾相關系數是一個用來測量兩個隨機變量相關性的統計值。一個肯德爾檢驗是一個無參假設檢驗,它使用計算而得的相關系數去檢驗兩個隨機變量的統計依賴性。肯德爾相關系數的取值范圍在-1到1之間,當為1時,表示兩個隨機變量擁有一致的等級相關性,當為-1時,表示兩個隨機變量擁有完全相反的等級相關性,當為0時,表示兩個隨機變量是相互獨立的。假設兩個隨機變量分別為(也可以看做是兩個集合),它們的元素個數均為N,兩個隨機變量取的第個值分別用表示。中的對應元素組成一個元素對集合,其包含的元素為。當集合中任意兩個元素與的排行相同時(也就是說當出現情況1或2時;情況1:,情況2:),這兩個元素就被認為是一致的。當出現情況3或4時(情況3:,情況4:),這兩個元素就被認為是不一致的。當出現情況5或6時(情況5:,情況6:),這兩個元素既不是一致也不是不一致的。這里有三個公式計算肯德爾相關系數的值:公式一:其中C表示XY中擁有一致性的元素對數(兩個元素為一對),D表示XY中擁有不一致性的元素對數。注意:這一公式僅適用于集合X與Y中不存在相同元素的情況(集合中各個元素唯一)公式二:注意:這一公式適用于集合X或Y中存在相同元素的情況(當然,如果X或Y中均不存在相同的元素時,公式二便等同于公式一)。其中C、D與公式一相同;N1、N2分別是針對集合X、Y計算的,現在以計算N1為例,給出N1的由來(N2的計算可以類推):將X中的相同元素分別組合成小集合,s表示集合X中擁有的小集合數(例如X包含元素:1234332,那么這里得到的s則為2,因為只有2、3有相同的元素),表示第i個小集合所包含的元素數。N2在集合Y的基礎上計算而得。公式三:注意:這一公式中沒有再考慮集合、或者中存在相同元素給最后的統計值帶來的影響。公式三的這一計算形式僅適用于用表格表示的隨機變量X、Y之間相關系數的計算(下面會介紹),參數M稍后會做介紹。以上都是圍繞用集合表示的隨機變量而計算肯德爾相關系數的,下面所講的則是圍繞用表格表示的隨機變量而計算肯德爾相關系數的。通常人們會將兩個隨機變量的取值制作成一個表格,例如有10個樣本,對每個樣本進行兩項指標些事(指標的取值均為1到3)。根據樣本的指標取值,得到以下二維表格(表1):表1 123Sum112032121430123sum25310由表1可以得到的可以以集合的形式表示為:得到的集合形式后就可以使用以上的公式一或公式二計算的肯德爾相關系數了(注意公式一、公式二的適用條件)當然如果給定的集合形式,那么也是很容易得到它們的表格形式的。這里需要注意的是:公式二也可以用來計算表格形式表示的二維變量的肯德爾相關系是,不過它一般用來計算由正方形表格表示的二維變量的肯德爾相關系數,公式三則只是用來計算由長方形表格表示的二維變量的Kendall相關系數。這里給出公式三種字母的含義,表示長方形表格中行數與列數中較小的一個。表1的行數及列數均為三。適用范圍肯德爾相關系數與斯皮爾曼相關系數對數據的條件要求相同。Tanimoto系數(TanimotoCoefficient)Tanimoto系數也稱為廣義Jaccard系數,是Cosine相似度的擴展,通常應用于、為布爾向量,即各分量只取0或1的時候,此時表示的是、的公共特征占、具有的所有特征的比例。其實質就是集合交集與并集的比。也多用于計算文檔數據的相似度,或兩個集合之間的相似程度。范圍:[0,1],越接近1說明越相似。Jaccard系數Jaccard系數主要用于計算符號度量或布爾值度量的個體間的相似度,因為個體的特征屬性都是由符號度量或者布爾值標識,因此無法衡量差異具體值的大小,只能獲得“是否相同”這個結果,所以Jaccard系數只關心個體間共同具有的特征是否一致這個問題。如果比較的Jaccard相似系數,只比較中相同的個數,公式如下:也就是關聯的交集除以關聯的并集。范圍:其值介于[0,1]之間,如果兩個個體間的特征完全相同,交集等于并集,值為1;如果沒有任何關聯,交集為空,值為0。匹配測度(備注:該節引自項德良【SAR圖像相似度評估技術研究】,2012年國防科大碩士論文節。)這種測度常用于醫學和生物的分類中。在有些情況下,特征只有兩個狀態,對象或具有此特征或不具有此特征。此時,若對象具有此特征,則相應分量定義為1,而相應分量為0表示對象無此特征,這就是所謂的二值特征。對于給定的二值特征矢量x和y中的某兩個相應分量和,若和,則稱和是(1-1)匹配,若和,則稱和是(1-0)匹配;若和,則稱和是(0-1)匹配;若,則稱和是(0-0)匹配,令()則a等于兩矢量x和y的(1-1)匹配的特征的數目,b等于x和y的(0-1)匹配的特征的數目,c等于x和y的(1-0)匹配的特征的數目,e等于x和y的(0-0)匹配的特征的數目。對于二值n維特征矢量可定義如下相似性測度:Tanimoto測度()可以看出,s(x,y)等于x和y都具有的特征的數目與x和y分別具有的特征種類總數之比。這里只考慮(1-1)匹配而不考慮(0-0)匹配。Rao測度()上式等于(1-1)匹配特征數目和所選用的特征數目之比。簡單匹配系數()上式表明,這時匹配系數分子為(1-1)匹配特征數目與(0-0)匹配特征數目之和,分母為所選用的特征數目。Dice系數 ()分子、分母無(0-0)匹配,對(1-1)匹配加權。Kulzinsky系數()上式分子為(1-1)匹配特征數目,分母為(1-0)和(0-0)匹配特征數目之和。主觀相似度結構相似度(SSIM,structuralsimilarity(SSIM)indexmeasurement)(備注:該節引自項德良【SAR圖像相似度評估技術研究】,2012年國防科大碩士論文節。)結構相似性理論認為,自然圖像信號是高度結構化的,即像素間有很強的相關性,特別是空域中最接近的像素,這種相關性蘊含著視覺場景中物體結構的重要信息;HVS的主要功能是從視野中提取結構信息,可以用對結構信息的度量作為圖像感知質量的近似。結構相似性理論是一種不同于以往模擬HVS低階的組成結構的全新思想,與基于HVS特性的方法相比,最大的區別是自頂向下與自底向上的區別。這一新思想的關鍵是從對感知誤差度量到對感知結構失真度量的轉變。它沒有試圖通過累加與心理物理學簡單認知模式有關的誤差來估計圖像質量,而是直接估計兩個復雜結構信號的結構改變,從而在某種程度上繞開了自然圖像內容復雜性及多通道去相關的問題.作為結構相似性理論的實現,結構相似度指數從圖像組成的角度將結構信息定義為獨立于亮度、對比度的,反映場景中物體結構的屬性,并將失真建模為亮度、對比度和結構三個不同因素的組合。用均值作為亮度的估計,標準差作為對比度的估計,協方差作為結構相似程度的度量。(fromInternet)ZhouWang在2004年提出一種結構相似度準則SSIM(StructuralSimilarityIndexMeasurement)來衡量光學圖像相似度。該準則分析了人眼視覺特性和圖像結構之間的關系,從圖像空間、人眼視覺和圖像結構等方面對SSIM進行了研究,在光學圖像的配準、目標識和圖像質量評估方面得到了有效驗證[16]。SSIM準則側重人眼的主觀感受,它是從圖像的客觀信息出發,通過建立模型從而得到的符合人眼視覺的準則。結構相似度定義如下:()為亮度相似度函數,其中,,為當、為零時定義的常量。對比度相似度函數定義如下:()其中,。也為一個常量。結構相似度函數定義如下: ()其中。綜上,結構相似度指數(SSIM)定義如下:()其中均大于0,為控制三個分量相似度權重的參數。SSIM(x,y)越接近于1,則表明x與y越相似,否則越不相似。近年來基于語義測度的主觀相似度準則得到越來越多學者的關注。該方法一般在圖像分割的基礎上,通過構建圖像區域子塊與語義元數據之間的統計映射關系,實現圖像內容的統計語義描述,建立圖像之間、圖像與語義類別、語義類別之間的分層語義相似測度[23-26]。該方法充分考慮人眼視覺的語義層面,在圖像檢索等應用中得到有效驗證。基于像素差值編碼的相似度像素差值編碼規則給定一幅SAR圖像,J和K為圖像高度和寬度。G(x,y)為圖像在(x,y)處灰度值。B是對應的編碼圖像,其大小也為,B(x,y)為(x,y)處編碼值,定義如下()式中SAR圖像像素值比較是按從左到右、從上到下的順序。圖所示為SAR圖像編碼圖示。相似性測度及其概率密度函數和為待比較的兩幅SAR圖像,和分別為對應的編碼圖像,基于像素差值編碼的相似性測度(Intensityincrementcode-IIC)定義如下所示:()式中,,分別為編碼圖像和在(x,y)處編碼值。衡量了兩幅編碼圖像的相似性,也即反映了兩幅SAR圖像灰度變化是否一致,評價:該方法對圖像噪聲、部分遮擋和一定程度模糊有一定魯棒性。然而該方法著重統計全局圖像灰度信息,較少考慮圖像局部細節,因此對細節豐富的SAR圖像并不太適用。基于KL距離準則的相似度比較灰度直方圖相似性的方法很多,本文采用一種對稱KL準則SKLD(SymmetryKullback-LeiblerDivergence)[64]。對兩個局部梯度比率直方圖H和Q,定義SKLD如下:()其中,和分別為H和Q的MLGRPH特征矢量,N為特征矢量的維數。由于相似度范圍為[0,1],即完全相似時,相似度為1,此時SKLD為0,當完全不相似時,相似度為0,SKLD為,因此這里需要將SKLD變換為范圍在[0,1]之間的相似度。我們采用最簡單的高斯隸屬度函數,如下所示:其中,為控制高斯函數寬度的參數,可通過來控制距離與相似度變化關系。基于hash方法的相似度計算基于hash的相似度計算方法,是一種基于概率的高維度數據的維度削減的方法,主要用于大規模數據的壓縮與實時或者快速的計算場景下,基于hash方法的相似度計算經常用于高維度大數據量的情況下,將利用原始信息不可存儲與計算的問題轉化為映射空間的可存儲計算問題,在海量文本重復性判斷方面,近似文本查詢方面有比較多的應用,google的網頁去重[1],googlenews的協同過濾[2,3]等都是采用hash方法進行近似相似度的計算,比較常見的應用場景Near-duplicatedetection、Imagesimilarityidentification、nearestneighborsearch,常用的一些方法包括I-match,Shingling、Locality-SensitiveHashing族等方法,下面針對幾種常見的hash方法進行介紹。minhash方法介紹Minhash方法是Locality-sensitivehashing[4,5]算法族里的一個常用方法,基本的思想是,對于每一個對象的itemlist,將輸入的item進行hash,這樣相似的item具有很高的相似度被映射到相同的buckets里面,這樣盡量保證了hash之后兩個對象之間的相似程度和原來是高相似的,而buckets的數量是遠遠小于輸入的item的,因此又達到降低復雜度的目的。minhash方法用Jaccard進行相似度的計算方法,則對于兩個集合和,和的相似性的計算方法為:()當兩個集合越相似,則該值越接近1,否則越接近0。用minhash方法,將一個集合映射到[0-R-1]之間的值,以相同的概率隨機的抽取一個[0-R-1]的一個排列,依次排列查找第一次出現1的行。設隨機排列為43201(edcab),對于C1列,第一次出現1的行是R4,所以h(C1)=3,同理有h(C2)=2,h(C3)=4,h(C4)=3。通過多次抽取隨機排列得到n個minhash函數h1,h2,…,hn,依此對每一列都計算n個minhash值。對于兩個集合,看看n個值里面對應相等的比例,即可估計出兩集合的Jaccard相似度。可以把每個集合的n個minhash值列為一列,得到一個n行C列的簽名矩陣。因為n可遠小于R,這樣在壓縮了數據規模的同時,并且仍能近似計算出相似度。simhash方法介紹simhash方法是在大文本重復識別常用的一個方法,該方法主要是通過將對象的原始特征集合映射為一個固定長度的簽名,將對象之間的相似度的度量轉化為簽名的漢明距離,通過這樣的方式,極大限度地進行了降低了計算和存儲的消耗。簽名計算過程該方法通過對輸入特征集合的計算步驟可以描述如下:將一個f維的向量V初始化為0;f位的二進制數S初始化為0;對每一個特征:用傳統的hash算法對該特征產生一個f位的簽名b。對i=1到f:如果b的第i位為1,則V的第i個元素加上該特征的權重;否則,V的第i個元素減去該特征的權重。如果V的第i個元素大于0,則S的第i位為1,否則為0;輸出S作為簽名。通過上述步驟將輸入的表示對象的特征集合轉化為該對象的一個簽名,在完成簽名之后,度量兩個對象的相似度的差異即變成了對量二者的指紋的K位的差異情況。漢明距離查找優化對于如何快速查找出某一個簽名是否與其存在最大差異不超過K個bit的指紋,DetectingNear-DuplicatesforWebCrawling這篇論文中進行了介紹。該查找方法的基本思想是利用空間換時間的方法,該方法的依據是需要查找的兩個指紋的差異很小,這樣可以通過將原始指紋進行分塊索引,如果兩個指紋的差異很小,則合理的分塊后,根據鴿籠原理,其中存在一定數量的塊是一致的,通過利用相同的塊進行相似的指紋的召回,只需要比對召回的塊中有差異的塊的bit差異,這樣減少了需要比對的數量,節省了比對的時間開銷。小結hash方法的相似度計算的主要應用場景,一般是針對大規模數據進行壓縮,在保證效果損失可接受的情況下,節省存儲空間,加快運算速度,針對該方法的應用,在目前的大規模的互聯網處理中,很多相似度的計算都是基于這種近似性的計算,并取得了比較好的效果。設隨機排列為43201(edcab),對于C1列,第一次出現1的行是R4,所以h(C1)=3,同理有h(C2)=2,h(C3)=4,h(C4)=3。通過多次抽取隨機排列得到n個minhash函數h1,h2,…,hn,依此對每一列都計算n個minhash值。對于兩個集合,看看n個值里面對應相等的比例,即可估計出兩集合的Jaccard相似度。可以把每個集合的n個minhash值列為一列,得到一個n行C列的簽名矩陣。因為n可遠小于R,這樣在壓縮了數據規模的同時,并且仍能近似計算出相似度。基于主題的相似度計算Bag-of-Words模型是NLP和IR領域中的一個基本假設。在這個模型中,一個文檔(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功,在計算機視覺領域(ComputerVision)也開始嶄露頭角,但在實際應用過程中,它卻有一些不可避免的缺陷,比如:稀疏性(Sparseness):對于大詞典,尤其是包括了生僻字的詞典,文檔稀疏性不可避免;多義詞(Polysem):一詞多義在文檔中是常見的現象,BOW模型只統計單詞出現的次數,而忽略了他們之間的區別;同義詞(Synonym):同樣的,在不同的文檔中,或者在相同的文檔中,可以有多個單詞表示同一個意思;從同義詞和多義詞問題我們可以看到,單詞也許不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關系,我們稱之為主題(Topic)。我們在寫文章時,首先想到的是文章的主題,然后才根據主題選擇合適的單詞來表達自己的觀點。主題的概念的引入,主要是在原有的基本特征粒度的基礎上,引入了更為豐富的隱含層特征,提高了相似性計算的效果,常用的主題分析方法包括LatentSemanticAnalysis(LSA)、ProbabilitisticLatentSemanticAnalysis(PLSA)、LatentDirichletAllocation(LDA)。這些方法在分類,聚類、檢索、推薦等領域都有著很多的應用,并取得了比較好的效果。下面就LSA及PLSA方法進行簡要介紹。LSA(LatentSemanticAnalysis)簡介LSA的基本思想就是,將document從稀疏的高維Vocabulary空間映射到一個低維的向量空間,我們稱之為隱含語義空間(LatentSemanticSpace).LSA最初是用在語義檢索上,為了解決一詞多義和一義多詞的問題:
1.一詞多義:美女和PPMM表示相同的含義,但是單純依靠檢索詞“美女”來檢索文檔,很可能喪失掉那些包含“PPMM”的文檔。
2.一義多詞:如果輸入檢索詞是多個檢索詞組成的一個小document,例如“清澈孩子”,那我們就知道這段文字主要想表達concept是和道德相關的,不應該將“春天到了,小河多么的清澈”這樣的文本包含在內。
為了能夠解決這個問題,需要將詞語(term)中的concept提取出來,建立一個詞語和概念的關聯關系(t-crelationship),這樣一個文檔就能表示成為概念的向量。這樣輸入一段檢索詞之后,就可以先將檢索詞轉換為概念,再通過概念去匹配文檔。LSA[6,7]模型認為特征之間存在某種潛在的關聯結構,通過特征-對象矩陣進行統計計算,將高維空間映射到低維的潛在語義結構上,構建出LSA空間模型,從而提取出潛在的語義結構,并用該結構表示特征和對象,消除了詞匯之間的相關性影響,并降低了數據維度。增強了特征的魯棒性LSA利用SVD分解的數學手段來進行計算,數學過程可以表述如下:對于的矩陣A,其中m為特征數,n為樣本數。令,經過奇異值分解,矩陣A可分解成3個矩陣的乘積:其中,U、V是和的正交矩陣,分別稱為矩陣A的奇異值對應的左、右奇異向量,是包含所有奇異值的的對角矩陣,稱為A的奇異標準形,其對角元素為矩陣A的奇異值。奇異值按照遞減的排列構成對角矩陣,取中前k個最大奇異值構成的,取U和V最前面的k列構成的Uk和的Vk,構建A的k-秩矩陣。(LSA降維的方式就是只取最大的K個奇異值,而其他置為0,于是得到了共生矩陣的近似。)其中,Uk和Vk中的行向量分別作為特征向量和對象向量,k是降維后的維數。下圖形象的展示了LSA的過程:LSA的優點低維空間表示可以刻畫同義詞,同義詞會對應著相同或相似的主題;降維可去除部分噪聲,是特征更魯棒;充分利用冗余數據;無監督/完全自動化;與語言無關;LSA的不足沒有刻畫term出現次數的概率模型;無法解決多義詞的問題;SVD的優化目標基于L-2norm或者是FrobeniusNorm的,這相當于隱含了對數據的高斯噪聲假設。而term出現的次數是非負的,這明顯不符合Gaussian假設,而更接近Multi-nomial分布;對于countvectors而言,歐式距離表達是不合適的(重建時會產生負數);特征向量的方向沒有對應的物理解釋;SVD的計算復雜度很高,而且當有新的文檔來到時,若要更新模型需重新訓練;維數的選擇是ad-hoc的;plas介紹PLSA和LSA基礎思想是相同的,都是希望能從term中抽象出概念,但是具體實現的方法不相同。PLSA使用了概率模型,并且使用EM算法來估計P(t|c)和P(c|d)矩陣。PLSA[8,9]模型是由Hofmann提出的用于文本檢索的概率生成模型,與相比較于LSA,PLSA是基于概率模型的,并直接引入了潛在class變量z∈Z={Z1…Zk},下面的用文本處理語言來描述該模型。圖4-1PLS模型選定一篇文檔的概率p(d),每篇文檔以概率p(z|d)屬于一個主題,而給定一個主題,每一個詞以概率p(w|z)產生。將這個過程形成聯合的概率模型表達式:(7)(8)則:(9)在PLSA實際的使用過程中,存在著overfit的風險,一般訓練過程是通過EM算法,進行模型參數訓練,獲得p(z|d)、p(w|z)概率。PLSA和其相關的變形,在分類、聚類、檢索等方面,特征相關性計算等方面,獲得了廣泛的應用,并取得了比較好的效果。pLSA的優勢定義了概率模型,而且每個變量以及相應的概率分布和條件概率分布都有明確的物理解釋;相比于LSA隱含了高斯分布假設,pLSA隱含的Multi-nomial分布假設更符合文本特性;pLSA的優化目標是是KL-divergence最小,而不是依賴于最小均方誤差等準則;可以利用各種modelselection和complexitycontrol準則來確定topic的維數;pLSA的不足概率模型不夠完備:在document層面上沒有提供合適的概率模型,使得pLSA并不是完備的生成式模型,而必須在確定documenti的情況下才能對模型進行隨機抽樣;隨著document和term個數的增加,pLSA模型也線性增加,變得越來越龐大;當一個新的document來到時,沒有一個好的方式得到$p(d_i)$;EM算法需要反復的迭代,需要很大計算量;針對pLSA的不足,研究者們又提出了各種各樣的topicbasedmodel,其中包括大名鼎鼎的LatentDirichletAllocation(LDA)。小結主題方法的引入,在一定程度上彌補了BOW的假設的獨立性,在工業中,主題的方法也越來越多的應用到實際的機器學習中,包括在圖像處理領域、傳統的分類、聚類、檢索等方面,都取得了比較好的效果。相似度的計算在數據挖掘方面有著廣泛的應用,根據不同的應用場景,各種方法各有其優劣特點,對于相似度效果的影響,除了方法本身之外,合理有效的特征的選擇和使用也是至關重要的,同時,根據應用場景的不同,選擇合理的方法,對于解決問題,有著重要的作用。圖像相似度相關分類圖像相似度的概念圖像相似度的概念可以總結如下1-1.圖像的相似度取決于圖像上具體內容的相似程度,如通過像素級比較或某些特定點的比較和分析得到相似度。1-2.基于語義相似度的圖像相似度計算,通過圖像空間上下文和情景上下文的聯系,得到圖像的一些基本信息進行比較,它是圖像目標實體的高層聯系,抽象程度高,理論還不成熟。1-3.計算將一個圖轉換成另一個圖的花費,即預先定義各種變換的操作集合,將兩個圖之間的最小變化步驟定義為兩圖的相似度,即圖像編輯距離。1-4.將圖像結構化,通過計算公式得出兩圖的最大公共子圖,該公共子圖能最大的表達兩個圖的共有信息,定義最大公共子圖為兩圖的相似度。1-5.定義一個大圖可以同時包含兩個圖像,稱為兩圖的最大關聯圖,從關聯圖中獲得最大子團表示兩圖的相似度。1-6.將圖像分解成若干部分,分別計算各個部分的相似度,再綜合得到整個圖像的相似度。圖像相似度的分類根據相似度計算參考的原理不同,可將圖像相似度算法分為三大類。1、基于像素灰度相關的相似度算法,如直方圖法等。2、基于圖像特征點的相似度算法:該算法抗干擾能力強。3、基于特定理論的圖像相似度算法:這一類的算法在圖像拓撲結構的基礎上進行,但沒有一個特定的定義。如基于相似度矩陣的算法,利用圖節點區域的相似度,迭代計算得出總體相似度;基于最大子圖或關聯圖的相似度算法等,這類算法因所處理的圖像類型的不同而各有優劣,圖像拓撲結構作為圖像穩定性特征之一,使得這類算法具有較好的魯棒性,關于這一方面的研究還仍有待繼續努力。
直方圖匹配。
比如有圖像A和圖像B,分別計算兩幅圖像的直方圖,HistA,HistB,然后計算兩個直方圖的歸一化相關系數(巴氏距離,直方圖相交距離)等等。
這種思想是基于簡單的數學上的向量之間的差異來進行圖像相似程度的度量,這種方法是目前用的比較多的一種方法,第一,直方圖能夠很好的歸一化,比如通常的256個bin條的。那么兩幅分辨率不同的圖像可以直接通過計算直方圖來計算相似度很方便。而且計算量比較小。
這種方法的缺點:
1、直方圖反映的是圖像像素灰度值的概率分布,比如灰度值為200的像素有多少個,但是對于這些像素原來的位置在直方圖中并沒有體現,所以圖像的骨架,也就是圖像內部到底存在什么樣的物體,形狀是什么,每一塊的灰度分布式什么樣的這些在直方圖信息中是被省略掉得。那么造成的一個問題就是,比如一個上黑下白的圖像和上白下黑的圖像其直方圖分布是一模一樣的,其相似度為100%。
2、兩幅圖像之間的距離度量,采用的是巴氏距離或者歸一化相關系數,這種用分析數學向量的方法去分析圖像本身就是一個很不好的辦法。
3、就信息量的道理來說,采用一個數值來判斷兩幅圖像的相似程度本身就是一個信息壓縮的過程,那么兩個256個元素的向量(假定直方圖有256個bin條)的距離用一個數值表示那么肯定就會存在不準確性。改進:1,FragTrack算法,其對圖像分成橫縱的小塊,然后對于每一個分塊搜索與之最匹配的直方圖。來計算兩幅圖像的相似度,融入了直方圖對應位置的信息。但是計算效率上很慢。
2,計算一個圖像外包多邊形,得到跟蹤圖像的前景圖后計算其外包多邊形,根據外包多邊形做Delauny三角形分解,然后計算每個三角形內部的直方圖,對于這兩個直方圖組進行相似距離計算。這樣就融入了直方圖的位置信息基于矩陣分解的方法方法描述:將圖像patch做矩陣分解,比如SVD奇異值分解和NMF非負矩陣分解等,然后再做相似度的計算。方法思想:因為圖像本身來講就是一個矩陣,可以依靠矩陣分解獲取一些更加魯棒的特征來對圖像進行相似度的計算。基于SVD分解的方法優點:奇異值的穩定性,比例不變性,旋轉不變性和壓縮性。即奇異值分解是基于整體的表示,不但具有正交變換、旋轉、位移、鏡像映射等代數和幾何上的不變性,而且具有良好的穩定性和抗噪性,廣泛應用于模式識別與圖像分析中。對圖像進行奇異值分解的目的是得到唯一、穩定的特征描述,降低特征空間的維度,提高抗干擾能力。基于SVD分解的方法缺點是:奇異值分解得到的奇異矢量中有負數存在,不能很好的解釋其物理意義。基于NMF分解的方法:將非負矩陣分解為可以體現圖像主要信息的基矩陣與系數矩陣,并且可以對基矩陣賦予很好的解釋,比如對人臉的分割,得到的基向量就是人的“眼睛”、“鼻子”等主要概念特征,源圖像表示為基矩陣的加權組合,所以,NMF在人臉識別場合發揮著巨大的作用。基于矩陣特征值計算的方法還有很多,比如Trace變換,不變矩計算等。基于特征點方法方法描述:統計兩個圖像patch中匹配的特征點數,如果相似的特征點數比例最大,則認為最相似,最匹配方法思想:圖像可以中特征點來描述,比如sift特征點,LK光流法中的角點等等。這樣相似度的測量就轉變為特征點的匹配了。以前做過一些實驗,關于特征點匹配的,對一幅圖像進行仿射變換,然后匹配兩者之間的特征點,選取的特征點有sift和快速的sift變形版本surf等。方法優點:能被選作特征點的大致要滿足不變性,尺度不變性,旋轉不變等。這樣圖像的相似度計算也就具備了這些不變性。方法缺點:特征點的匹配計算速度比較慢,同時特征點也有可能出現錯誤匹配的現象。基于峰值信噪比(PSNR)的方法當我們想檢查壓縮視頻帶來的細微差異的時候,就需要構建一個能夠逐幀比較差視頻差異的系統。最常用的比較算法是PSNR(Peaksignal-to-noiseratio)。這是個使用“局部均值誤差”來判斷差異的最簡單的方法,假設有這兩幅圖像:I1和I2,它們的行列數分別是i,j,有c個通道。每個像素的每個通道的值占用一個字節,值域[0,255]。注意當兩幅圖像的相同的話,MSE的值會變成0。這樣會導致PSNR的公式會除以0而變得沒有意義。所以我們需要單獨的處理這樣的特殊情況。此外由于像素的動態范圍很廣,在處理時會使用對數變換來縮小范圍。在考察壓縮后的視頻時,這個值大約在30到50之間,數字越大則表明壓縮質量越好。如果圖像差異很明顯,就可能會得到15甚至更低的值。PSNR算法簡單,檢查的速度也很快。但是其呈現的差異值有時候和人的主觀感受不成比例。所以有另外一種稱作結構相似性的算法做出了這方面的改進。圖像模板匹配一般而言,源圖像與模板圖像patch尺寸一樣的話,可以直接使用上面介紹的圖像相似度測量的方法;如果源圖像與模板圖像尺寸不一樣,通常需要進行滑動匹配窗口,掃面個整幅圖像獲得最好的匹配patch。在OpenCV中對應的函數為:matchTemplate():函數功能是在輸入圖像中滑動窗口尋找各個位置與模板圖像patch的相似度。相似度的評價標準(匹配方法)有:CV_TM_SQDIFF平方差匹配法(相似度越高,值越小),CV_TM_CCORR相關匹配法(采用乘法操作,相似度越高值越大),CV_TM_CCOEFF相關系數匹配法(1表示最好的匹配,-1表示最差的匹配)。
CV_TM_SQDIFF計算公式:CV_TM_CCORR計算公式:有一種新的用來計算相似度或者進行距離度量的方法:EMD,EarthMover'sDistancesEMDisdefinedastheminimalcostthatmustbepaidtotransformonehistogramintotheother,wherethereisa“grounddistance”betweenthebasicfeaturesthatareaggregatedintothehistogram。光線變化能引起圖像顏色值的漂移,盡管漂移沒有改變顏色直方圖的形狀,但漂移引起了顏色值位置的變化,從而可能導致匹配策略失效。而EMD是一種度量準則,度量怎樣將一個直方圖轉變為另一個直方圖的形狀,包括移動直方圖的部分(或全部)到一個新的位置,可以在任意維度的直方圖上進行這種度量。在OpenCV中有相應的計算方法:cvCalcEMD2()。結合著opencv支持庫,計算直方圖均衡后與原圖的HSV顏色空間直方圖之間的EMD距離。基于特定理論的圖像相似度算法這一類的相似度算法大都是建立在圖結構的基礎上進行的。假定分割后的圖像其區域都具有獨立性和唯一性,那么通過屬性特征提取和區域空間關系的描述,就可以把圖像對應地描述成圖結構。因此,對圖結構的相似度計算就可以從一定程度上代表圖像之間的相似情況。相似度傳播法為了計算圖的相似度,文獻[34]提出了這樣一個理論,如果兩個圖節點的鄰居節點是相似的,則這兩個節點也是相似的。換句話說,這兩個節點的相似度的一部分傳播給了它們各自的鄰居。這樣經過一系列的迭代,這種相似度就會傳遍整個圖,從而我們就可以得出兩個圖的最終整體相似度。因此,根據這種相似度觀點,可以對兩個圖構造出一個相似度矩陣,將圖中兩兩節點間的相似度都當成矩陣的一個元素,然后通過矩陣的相關運算,得出最終的一個相似度計算公式。其過程可為如下所示:相似度矩陣是用于描述圖結構的相似程度的一個整體情況的有效工具,最早是在UUman的算法中進行定義,而在隨后的各種算法中也得到了很好的應用。相似度傳播算法是基于矩陣的基本運算來進行的,矩陣運算是單純的數學運算,從數學運算的角度上去比較兩個圖之間的相似度,雖然簡便了很多,但同時也容易丟失圖像的信息。因此,該算法準確性方面還不夠。基于關聯圖的相似度算法基于最大公共子圖的相似度算法節點迭代匹配算法參照整體相似
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家具呆滯品管理制度
- 庫房配貨員管理制度
- 待寢室安全管理制度
- 德克士公司管理制度
- 志愿積分制管理制度
- 快遞站衛生管理制度
- 急救車藥品管理制度
- 總經辦衛生管理制度
- 意大利藥店管理制度
- 成品庫抽樣管理制度
- XFUSION超聚變 FusionServer 1288H V6 2288H V6 服務器 驗收測試指南
- 譯林牛津版英語五年級上冊全冊課件【精品】
- 特發性血小板減少性紫癜病人的護理教學查房ppt
- (完整版)車間班組長績效考核表
- 日照旅游PPT介紹日照幻燈片模板
- 城市管理行政執法專題講座培訓材料優質課件
- 細胞生物學丁明孝5版考研題
- 天津市2021年生物初中會考試卷
- 下肢神經阻滯麻醉課件
- 2022-2023學年北京市昌平區八年級(下)期末英語試卷(含解析)
- 口才三絕:會贊美 會幽默 會拒絕
評論
0/150
提交評論