計量地理 第九章地理系統聚類分析模型_第1頁
計量地理 第九章地理系統聚類分析模型_第2頁
計量地理 第九章地理系統聚類分析模型_第3頁
計量地理 第九章地理系統聚類分析模型_第4頁
計量地理 第九章地理系統聚類分析模型_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.第九章 地理系統聚類分析模型第一節 聚類分析的方法及變量模型 聚類分析(Cluster Analysis)是數理統計中研究“物以類聚”的一種方法。一、地理系統分類的意義 對地理系統的研究很重要的一個問題就是進行地理分區與分類。 聚類分析法可避免傳統分類法的主觀性和任意性的特點。 但應特別引起注意的是,對地理數據處理不當,或只要求方法的新穎,有時分類的結果可能與地理實際不符合。 一種科學的分類法,應能正確地反映客觀地理事物的內在聯系,并能表達出它們之間的相似性和差異性。聚類分析法的基本特點二、聚類分析的方法 聚類分析的職能是建立一種分類方法,它是將地理樣品或變量,按它們在性質上的親疏程度進行分

2、類。描述親疏程度的兩個途徑 當確定了樣品或變量的距離或相似系數后,就要對樣品或變量進行分類,分類的方法很多,主要的兩種是:分類方法分 類 方 法(續) 在進行聚類分析處理時,樣品間的相似系數和距離有各種不同的定義,而這些定義與變量的類型關系極大,通常按照它們的特性分類,變量的特性有三種類型:變量特性的三種類型、名義特性(無序多態)、順序特性(有序多態) 它是由一個有序狀態序列所確定,指標量度時沒有明確的數量關系,只有次序關系,如對某種地理要素的定性評價為“好的、比較好的、一般的、差的”,又如對某一事件的量度估價為“罕見的、偶然的、一般的、大量的”等。、數值特性(定 量) 它是由測量或計數、統計

3、所得的量,如長度、重量、壓力、經濟統計數字、人口普查數字、抽樣調查數據等。 不同類型的變量在定義距離相似性測度時有很大的差異,這里主要研究具有數值特性的變量的聚類分析問題。聚類分析的分類 R型聚類分析的作用 選擇變量的方法: 在聚合的每類變量中,各選出一個有代表性的變量作為典型變量,為此計算每一個變量與其同類的其它變量的決定系數r2(即相關系數的平方)的均值: r2 = ri2/(K-1) 式中,K為該類的變量個數。挑選r2值最大的變量xi作為該類的典型變量。 Q型聚類分析優點第二節 系統聚類分析 系統聚類分析(Hierachical Cluster Analysis)是聚類分析中應用最廣泛的

4、一種方法,凡是具有數值特征的變量和樣品都可以采用系統聚類法。 選擇不同的距離和聚類方法可獲得滿意的數值分類效果。 系統聚類法是把個體逐個地合并成一些子集,直至整個總體都在一個集合之內為止。 系統聚類法的分類步驟如下:(1)聚類前先對數據進行變換處理(假定在聚類處理之前,已經對變量進行了篩選,選擇了那些相關性不很顯著的而且貢獻大的指標,而剔除了相關性很強的變量)。(2)聚類分析處理的開始是各樣品自成一類(n個樣品一共有n類),計算各樣品之間的距離,并將距離最近的兩個樣品并成一類。(3)選擇并計算類與類之間的距離,并將距離最近的兩類合并,如果類的個數大于,則繼續并類,直至所有樣品歸為一類為止。(4

5、)最后繪制系統聚類譜系圖,按不同的分類標準或不同的分類原則,得出不同的分類結果。一、數據變換處理 在聚類分析處理過程中,首先應對原始數據矩陣進行變換處理。 由于在抽取樣本對數據進行量度處理時,不同指標(變量)一般都有不同的量綱,并且有不同的數量級單位,為了使不同量綱、不同數量級的數據能放在一起比較,通常需要對數據進行變換處理。例、研究世界各國森林、草原資源的分布規律,并抽取22個國家(即22個樣品)數據,每個國家有項指標,以此作聚類分析處理,原始數據見表 表中所列的幾個變量:森林面積、森林覆蓋率、林木蓄積量、草原面積都分別有不同的量綱,而且數值的數量級也相差很大,為了在一起進行比較,需進行變換

6、處理。 所謂數據變換,就是將原始數據矩陣中的每個元素,按照某種特定的運算把它變為一個新值,而且數值的變化不依賴于原始數據集合中其它數據的新值。常用的變換方法1、中心化變換 中心化是一種標準化處理方法,它是先求出每個變量的樣本平均值,再從原始數據中減去該變量的均值,就得到中心化后的數據。設原始數據矩陣為: X= 式中:m為樣本數,n為變量數。設中心化后的數據為xij 則有: xij = xij - xj I=1,2,m j=1,2,n 變換的結果使每列數據之和均為,而且每列數據的平方和是該列數據方差的(n-1)倍,任何不同兩列數據之交叉積是這兩列的協方差的(n-1)倍,所以這是一種很方便地計算方

7、差協方差的變換。中心化變換數據表、規格化變換 規格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每一個原始數據中減去該變量的最小值,再除以極差,就得到規格化數據。原始數據仍見上表,規格化后的數據為xij 則有: xij =(xij minxij)/(maxxij-minxij) I=1,2,m j=1,2,n 經過變換后,將每列的最大數據變為,最小數據變為,其余數據取值在之間。 變換后的數據表、標準化變換 標準化變換方法主要是對變量的屬性進行變換處理,首先對列進行中心化,然后用標準差進行標準化。 xij =( xij xj)/ Sj I=1,2,m j=1,2

8、,n其中: xj =(1/n)xij Sj=(1/(n-1)(xij xj)21/2 經過變換后,每列數據的平均值為,方差為,使用標準差標準化處理后,在抽樣樣本改變時,它仍然保持相對穩定性。 變換后的數據表、對 數 變 換 對數變換可將具有指數特征的數據結構化為線性數據結構。 對數變換數據表 此外,還有極差標準化、平方根變換、立方根變換等。 極差標準化變換和規格化類似,它是把每個變量的樣本極差皆化為,排除量綱的干擾。 立方根變換和平方根變換的主要作用是把非線性的數據結構變為線性數據結構,以適應某些統計方法的需要。二、相似系數和距離 目前已經設計了大量的相似系數和距離,據統計約有40多種。 但在

9、數值分類中比較常用的卻是少數,這里只介紹在聚類分析中常用 的相似系數和距離。1、距離 設有數據 矩陣為: xij表示i個樣品的第j個指標;第j個指標的均值和標準差為xj和sj;用dij表示i個樣品和j個樣品之間的距離。距離dij應滿足如下幾個條件:(1) dij 0(一切i,j)常用的距離 上述的各種距離是假定變量之間相互獨立,即在正交空間中討論的距離,但在實際問題中,變量之間往往存在著一定的相關性,為克服變量之間的相關性影響,可以采用馬氏距離。(6)馬氏距離(P.C.Mahalanobis) 馬氏距離雖然可以排除變量之間相關性的干擾,并且不受量綱的影響,但是在聚類分析處理之前,如果用全部數據

10、計算的均值和協方差陣來計算馬氏距離,效果不是很好的。 比較合理的辦法是用各個類的樣本來計算各自的協方差矩陣,同一類樣本的馬氏距離應當用這一類的協方差矩陣來計算。 而類的形成都要依賴于樣品之間的距離,而樣品的合理的馬氏距離又依賴于類,這樣就形成了一個惡性循環。 因此在實際聚類分析處理中,馬氏距離也不是理想的距離。 為了克服變量間相關性的影響,我們引入了斜交空間距離。(7)斜交空間距離 在m維空間中,為使具有相關性的變量的譜系結構不發生變形,采用斜交空間距離,公式為: 除了上述介紹的距離外,樣本之間還可以用圖論的方法來定義“鏈距離”,即有n 個樣本,其中任兩個樣本xi與 xj之間用鏈聯接,在所有鏈

11、中,最大邊長中的最小者稱為xi與 xj之間的“鏈距離”。、相似系數 聚類分析方法不僅用來對樣本進行分類,而且需要對變量進行分類,在對變量進行分類時,通常采用相似系數來表示變量之間的親疏程度。相似系數定義如下:設Cij表示變量yi與 yj之間的相似系數,則Cij應滿足如下關系:Cij應滿足的關系常用的相似系數3、距離與相似系數選擇原則 一般說來,同一批數據采用不同的相似性尺度,會得到不同的分類結果。產生不同結果的原因,主要是由于不同的指標所衡量的相似程度的物理意義不同,也就是說不同指標代表了不同意義上的相似性。 因此我們在進行數值分類時,應注意相似性尺度的選擇,注意遵循下列基本選擇原則:(1)所

12、選擇的相似性尺度在實際應用中應有明確的意義,如在地理變量分析中,常用相關系數表示地理意義之間的親疏程度。(2)根據原始數據的性質,選擇適當的變換方法,不同的變換方法涉及到選用不同的相似系數,如標準化變換處理下,相關相似系數和夾角余弦一致; 又如原始數據在進行聚類分析處理之前已經對變量的相關性作了處理,則通常可采用歐氏距離,而不必選用斜交空間距離。所選擇的距離,還須和選用的聚類方法一致,如聚類方法選用離差平方和法時,距離只能選用歐氏距離。()適當地考慮計算工作量的大小,如對大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時,計算工作量太大。一般情況下,相關系數比相似系數具有更強的不變性

13、,但相關系數比相似系數有絞強的分辨力。 距離系數與相似系數所得到的結果對比,相似系數的計算數值由大到小單調地減少,故聚類譜系圖反映分群明顯; 而距離系數的數據呈現非單調增加,譜系圖顯得不如相似系數那樣明顯分組。 距離的選擇是一個比較復雜、帶主觀性的問題,我們應根據研究對象,作具體分析,在多次進行聚類分析過程中,逐步總結經驗,以選擇合適的距離。在初次進行聚類分析處理時,不妨多試探選擇幾個距離,進行聚類,作對比、分析,以確定合適的距離系數。三、聚類方法 系統聚類方法的基本算法是將n個樣品自成一類,先計算(1/2)n(n-1)個相似性測度,并且把具有最小測度的兩個樣品合并成兩個元素的類; 然后按照某

14、種聚類方法計算這個類和其余n-2個樣品之間的蹴,這樣一直持續下去,并類過程中,每一步所做的并類 (樣品與樣品、樣品與類、類與類)都要使測度在系統中保持最小,這樣每次減少一類,直至所有樣品都歸為一類為止。 聚類的基本思想是把樣本看成m維(m個指標)空間的點,而把每個變量看成m維空間的坐標軸。如果我們選擇的聚類方法是通過各個類之間所起的界面起作用,但不改變原來空間中的點的位置,這種聚類方法稱為空間守恒; 如果我們所選擇的聚類方法,使得由于一個類的擴張,空間似乎圍繞著這個類擴張,因此當這個類擴張時,相應的距離也擴張,就好象它吸收了其它的點,這一類并類方法稱為空間擴張,這種方法凝聚速度快; 還有另一些

15、聚類方法,它由于一個類增長時,相應的距離比空間守恒距離縮短,空間似乎圍繞著它收縮,這叫空間收縮。 在系統聚類法中,設第一次并類的兩類的距離為D1,第二次合并的距離為D2,如果滿足D D2 ,則稱并類距離具有單調性。 并類距離有單調性符合系統聚類法的基本思想,但由于選擇的聚類方法不同,因而不一定所有的方法都滿足單調性的要求。常用的系統聚類方法(八種)1、最短距離法最短距離法的計算步驟 最短距離法是一個單調的,使空間很快收縮的對策,當兩類樣品合并后,它與其它類的距離是所有距離的最小者,從而縮小了新合并的類與其它樣品的距離。 由于最短距離法的空間收縮性很強,使得樣品有鏈接聚合的趨勢,這是它的一個缺點

16、,這種方法不適合一般數據的分類處理,除去特殊數據外,不提倡使用這種方法。 最短距離法在數學理論上有許多優點,圖論聚類分析中的最小支撐樹法與最短距離法思想一致。、最長距離法 最長距離法是一個單調的,使空間擴張的對策,該法使兩類樣品合并,合并后的類與其它類的距離是原來兩個類的距離最大者,這樣加大了合并后的類與其它類的距離,因此屬于空間擴張性質。、中間距離法 中間距離法屬于空間守恒性質。但中間距離法并非單調性,表現在聚類譜系中,上一級的聚合指標反而小于下一級聚合的指標,圖形將出現逆轉,因而譜系樹狀圖很難跟蹤,正因為如此,使得這個方法幾乎不被人們采用。、重 心 法 對樣本分類而言,每一類重心就是屬于該

17、類樣品的均值。 顯然,單個樣品的重心就是它本身,兩個樣品的類的重心就是兩點聯線的中點。 重心法的并類步驟和以上三種方法完全相同,所不同的是每合并一次類,要重新計算該類的重心,以及各類與新類之間的距離。 重心法是嚴格遵循空間守恒的。重心法與中間距離法一樣都是非單調性的,該法的譜系樹狀圖很難跟蹤,而且該法符號改變頻繁,并且計算也較麻煩。、類平均法 類平均法是空間守恒,又是單調性質,因而是一種使用廣泛、聚類效果較好的方法。、可變類平均法 類平均法的距離遞推公式中,類與類之間的距離沒有反映進去,為此將類平均法與中間距離法進行組合,得到一個組合模型,其遞推公式:可變類平均法具有單調性質。、可 變 法 可

18、變法是在研究統一的組合模型時,從代數角度規定的一種方法。 基于空間擴張性同于可變類平均法,具有單調性。、離差平方和法 離差平方和法是單調的、空間擴張的性質,該方法能得到局部最優解。 在實際應用中,離差平方和法的應用比較廣泛,分類效果較好,離差平方和法要求樣品之間的距離必須為歐氏距離。四、系統聚類法的統一公式 前述的八種聚類方法,并類原則與步驟都完全一樣,所不同的是類與類之間的距離有不同的定義,從而得到不同的遞推公式。 Wishart首先提出了統一公式,這樣就為編制統一的計算程序提供了很大的方便。系統聚類法統一公式參數表五、剩余信息的剔除 在進行Q模式聚類處理時,變量的選擇對于聚類分析的最后結果

19、影響較大,一般說來,變量的選擇應遵循兩個原則:變量選擇的兩個原則 如果所選的變量中,包含一些對聚類沒有什么意義,甚至于使聚類結果被歪曲的變量,就應該將其剔除。這稱為“剩余信息剔除”,其方法很多,如有:、根據所研究問題的特征和實際工作經驗,人為地挑選一些對聚類效果影響顯著的主要變量。、在進行Q模式聚類之前,先作R模式聚類分析,在相關系數矩陣基礎上,進行聚類處理,在聚得的各類變量中,各挑出一個有代表性的變量作為典型變量,這樣將這些典型變量作為分類的主要變量。、在作Q模式聚類分析之前,先作主成分分析,按照一定的比例關系(如按85%的信息量)選取主成分,在各個主成分中起主要作用的那個變量,分別取為進行聚類分析的主要變量。、對于所選擇的變量的分辨能力,可以通過判別分析加以檢驗。 實踐證明,選擇好最佳變量子集合,剔除其影響分類效果較小的變量,削減其部分彼此相關性較強的變量,將得到比較好的聚類結果。六、譜系分類的確定 經過系統聚類法后,得到聚類樹狀譜系圖,聚類樹最外邊一層叫樹根,其它類都是它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論