第10章 ArcGIS 空間統計分析.doc_第1頁
第10章 ArcGIS 空間統計分析.doc_第2頁
第10章 ArcGIS 空間統計分析.doc_第3頁
第10章 ArcGIS 空間統計分析.doc_第4頁
第10章 ArcGIS 空間統計分析.doc_第5頁
免費預覽已結束,剩余24頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章 空間統計分析統計分析是空間分析的主要手段,貫穿于空間分析的各個主要環節。空間統計分析方法不僅僅限于常規統計方法,還包括利用空間位置的空間自相關分析。本章主要介紹常用統計量、數據特征分析(即探索性數據分析)、分級統計分析、空間插值和空間回歸分析五方面內容。10.1概述10.1.1基本概念空間統計分析可包括“空間數據的統計分析”及“數據的空間統計分析”,前者著重于空間物體和現象的非空間特性的統計分析,解決的一個中心議題就是如何以數學統計模型來描述和模擬空間現象和過程,即將地理模型轉換成數學統計模型,以便于定量描述和計算機處理,著重于常規的統計分析方法,尤其是多元統計分析方法對空間數據的處理,而空間數據所描述的事物的空間位置在這些分析中不起制約作用。如趨勢面擬合被廣泛應用于地理數據的趨勢分析中,但在這種分析中,僅考慮了樣本值的大小,而并不考慮這些樣本在地理空間的分布特征及其相互間的位置關系。從這個意義上講,空間數據的統計分析在很多方面,與一般的數據分析并無本質差別,但是對空間數據的統計分析結果的解釋則必然要依托于地理空間進行,在很多情況下,分析的結果以地圖方式來描述和表達的。因此,空間數據的統計分析盡管在分析過程中沒有考慮數據抽樣點的空間位置,但描述的仍然是空間過程,揭示的也是空間規律和空間機制。數據的空間統計分析則是直接從空間物體的空間位置、聯系等方面出發,研究既具有隨機性又具有結構性,或具有空間相關性和依賴性的自然現象。凡是與空間數據的結構性和隨機性,或空間相關性和依賴性,或空間格局與變異有關的研究,并對這些數據進行最優無偏內插估計,或模擬這些數據的離散性、波動性,都是數據的空間統計分析的研究內容。數據的空間統計分析不是拋棄了傳統的統計學的理論和方法,它是在傳統的統計學基礎上發展起來的。數據的空間統計學與經典統計學的共同之處在于:它們都是在大量采樣的基礎上,通過對樣本屬性值的頻率分布、均值、方差等關系及其相應規則的分析,確定其空間分布格局與相關關系。數據的空間統計學區別于經典統計學的最大特點是:數據的空間統計學既考慮到樣本值的大小,又重視樣本空間位置及樣本間的距離。空間數據具有空間依賴性(空間自相關) 和空間非均質性(空間結構),扭曲了經典統計方法的假設條件,使得經典統計模型對空間數據的分析會產生虛假的解釋。經典統計學模型是在觀測結果相互獨立的假設基礎上建立的,但實際上地理現象之間大都不具有獨立性。數據的空間統計學研究的基礎是空間對象間的相關性和非獨立的觀測,它們與距離有關,并隨著距離的增加而變化。這些問題為經典的統計學所忽視,但卻成為數據的空間統計學的核心。10.1.2主要分析內容 空間統計分析與經典統計學的內容往往是交叉的。空間統計分析使用統計方法解釋空間數據,分析數據在統計上是否是“典型”的,或“期望”的。同時,它又具有自己獨有的空間自相關分析。主要分析內容包含以下幾點:1. 基本統計量統計量是數據特征的反映,也是統計分析的基礎。2. 探索性數據分析探索性數據分析能讓用戶更深入了解數據,認識研究對象,從而對與其數據相關的問題做出更好的決策。探索性數據分析主要包括確定統計數據屬性、探測數據分布、全局和局部異常值(過大值或過小值)、尋求全局的變化趨勢、研究空間自相關和理解多種數據集之間相關性。3. 分級統計分析分級統計是對數據的進一步處理分析,以便于更好得揭示數據規律或在制圖中獲得更好的效果。4. 空間插值基于探索性數據分析結果,選擇合適的數據內插模型,由已知樣點來創建表面,研究空間分布。5. 空間回歸研究兩個或兩個以上的變量之間統計關系,通過空間關系,包括考慮空間的自相關性,把屬性數據與空間位置關系結合起來,更好的解釋地理事物的空間關系。6. 空間分類基于地圖表達,采用與變量聚類分析相類似的方法來產生新的綜合性或者簡潔性專題地圖。包括多變量統計分析,如主成分分析、層次分析,以及空間分類統計分析,如系統聚類分析、判別分析等。10.2 基本統計量平均數中位數眾數分位數偏度峰度總和比率比例種類集中趨勢描述數據特征的統計量離散程度基本統計量其他統計量分布形狀極值極差離差平均離差離差平方和方差標準差變差系數常用的基本統計量主要包括:最大值、最小值、極差、均值、中值、總和、眾數、種類、離差、方差、標準差、變差系數、峰度和偏度等。這些統計量反映了數據集的范圍、集中情況、離散程度、空間分布等特征,對進一步的數據分析起著鋪墊作用(見圖10.1)。圖10.1 基本統計量10.2.1 代表數據集中趨勢的統計量代表數據集中趨勢的統計量包括平均數、中位數、眾數,它們都可以用來表示數據的分布位置和一般水平。表10.1中,列出了各統計量的含義以及在實際應用的作用。其中,表示數據集中的第i個變量,i=1,2,n。表10.1 代表集中趨勢的統計量的含義、特點及作用統計量含義特點及作用平均數算術平均數簡單算術平均數n個數據的總和與數據的總個數n的比值平均數是最常用的表示數據集中趨勢的指標,平均數可分為三種:算術平均數、幾何平均數、調和平均數。其中,前兩者在GIS分析中最常用到。算術平均數代表了數據集的平均水平,不受總體范圍的影響,因此可以作為比較分析的指標,還可作為評價事物的客觀標準。如一個地區某一年的人均收入可以作為衡量該地區當年經濟狀況的指標;要比較該地區近幾年的經濟增長水平,也需要用該地區近幾年的人均收入來比較,因為人均收入能代表該地區經濟狀況的平均水平,可以用來做比較分析。另外求取離差、平均離差、離差平方和、方差、標準差、變差系數、偏度系數和峰度系數等時,要先求得算術平均數;算術平均數也可用于圖像處理中的平滑運算。加權平均數與算術平均數的應用是大致相同的,但加權平均數要考慮各數據點的貢獻作用。加權算術平均數在求算術平均數時,考慮到數據集中的n個值有時會含有不同的比重,對平均數的影響也就不同。所以用加權平均法來計算其算術平均數。權重為出現的頻數,加權平均數可以按下式計算: 其中,幾何平均數n個數據的連乘積再開n次方所得的方根數幾何平均數用于分析和研究平均改變率、平均增長率、平均定比等,還在偏相關系數里有應用。中位數若將數據值按大小順序排列,位于中間的那個值就是中位數或稱中值。當數據集中有奇數個數據時,數據按大小順序排列,那么第位數就是中位數;當有偶數個數據時,中位數為第項與第項的平均數。中位數不受極端數值的影響,如果數據集的分布形狀是左右對稱的,則中位數等于平均數;當數據集的分布形狀呈左偏或右偏,以中位數表示它們的集中趨勢比算術平均數更合理。眾數是數據集中最常出現的,因此一定是數據集中的某個值,代表了多少意見,不受極端值的影響,在頻數分布曲線上位居最高點,即曲線的峰值。眾數常用于投票選舉。若數據集的分布并不是明顯集中在某個數值上,用眾數來代表集中情形就沒有多大意義,甚至會有誤導作用。眾數眾數是數據集中出現頻數(次數)最多的某個(或某幾個)數。10.2.2 代表數據離散程度的統計量平均數、中位數、眾數在反映總體一般數量水平的同時,也掩蓋了總體中各單位的數量差異。所以,只有這些統計量還不能充分說明一個數列中數值的分布情況和波動狀態。有時雖然兩個數據集的平均數相等,但各數據分布在平均數左右的疏密程度卻不相同,也就是它們的離散程度不一樣,為了把一個數據集的離散程度表現出來,就需要研究離散度。代表數據離散程度的統計量包括最大值、最小值、分位數、極差、離差、平均離差、離差平方和、方差、標準差、變差系數等。離散程度越大,數據波動性越大,以小樣本數據代表數據總體的可靠性越低;離散程度越小,則數據波動性小,以小樣本數據代表數據總體的可靠性越高。表10.2列出了表示離散程度各個統計量的含義及在實際應用的作用。表10.2 代表離散程度的統計量及其特點、作用統計量含義特點及作用最大值與最小值把數據從小到大排列,最前端的值就是最小值,最后一個就是最大值通過最大、最小值和極差,可以了解數據的取值范圍、分散程度,易于計算,容易理解,但他們都易受極端數值的影響,漠視了其他值的存在,無法精確地反映所有數據的分散情形,因此可能會有誤導作用。在地形分析中,極差主要用于求取一定區域內的高差。對于兩個不同地區,雖然它們的平均高程相同,但最高點、最低點及高差不同,說明了這兩個地區的高程分布狀況有差異。極差一個數據集的最大值與最小值的差值稱為極差,它表示這個數據集的取值范圍分位數將數列按大小排列,把數列劃分為相等個數的分段,處于分段點上的值就是分位數。分位數剔除了數據集中極端值的影響,但計算麻煩,且沒有用到數據集中的所有數據點。分位數在數據分級中應用較多。離差離差表示各數值與其平均值的離散程度,其值等于某個數值與該數據集的平均值之差d= x-兩個數據集的均值相同,但其離差可以有很大的差別,這說明這兩個數據集與各自平均值的離散程度不同。平均離差和離差平方和可以克服恒等于零的缺點,還可以把負數消除,只剩正值,這樣更易于描述離散程度,而且離差平方和得到的結果較大,使離散程度更明顯。離差平方和用于相關分析中求取相關系數在回歸分析中,對回歸方程進行顯著性檢驗時,需要對原始數據進行離差平方和的分解,即把離差平方和分解為剩余平方和與回歸平方和兩部分,這兩部分的比值可以反映回歸方程的顯著性。在趨勢面分析中,對于趨勢面的擬合程度可以用離差平方和來檢驗,其方法也是將原始數據的離差平方和分解為剩余平方和與回歸平方和兩部分,回歸平方和的值越大,表明擬合程度越高。平均離差平均離差是把離差取決對值,然后求和,再除以變量個數離差平方和離差平方和是把離差求平方,然后求和方差方差是均方差的簡稱。它是以離差平方和除以變量個數而得到的它們是表示一組數據對于平均值的離散程度的很重要的指標,為了應用上的方便,常對方差進行開方,即為標準差。方差和標準差都可應用于相關分析、回歸分析、正態分布檢驗等,還可用于誤差分析、評價數據精度、求取變差系數、偏度系數和峰度系數等。標準差還可用于數據分級。標準差對方差進行開方,即為標準差變差系數變差系數也稱為離差系數或變異系數,是標準差與均值的比值,以表示100%式中為變差系數,其值為百分率;S是標準差;為平均值。變差系數是用相對數的形式來刻畫數據離散程度的指標,它可以用來衡量數據在時間與空間上的相對變化(波動)的程度。變差系數可用來求算地形高程變異系數。10.2.3 代表數據分布形態的統計量分布形態可以從兩個角度考慮,一是數據分布對稱程度,另一個是數據分布集中程度。前者的測定參數稱為偏度或偏斜度,后者的測定參數稱為峰度。偏度和峰度是衡量數據分布特征的重要指標。表10.3 代表分布形態的統計量及其作用統計量含義作用偏度偏度是刻畫數據在均值兩側的對稱程度的參數,用偏度系數來衡量。標準偏度系數(g):g=當g0時,數據的分布情況如下圖:f(x)f(x)f(x)f(x) f(x)f(x)f(x)是數據分布的密度函數,是數據的平均值偏度可以表示數據分布的不對稱性,刻畫出是向正的方向偏還是向負的方向偏(小于或大于)峰度可以表示數據頻數分布曲線峰形的相對高聳程度或尖平程度。這兩個指標主要用于分析數據的頻率統計圖以及評價正態分布性,當g=0且g=0時,數據是標準正態分布。峰度峰度是刻畫數據在均值兩側的集中程度的參數,用峰度系數來衡量。標準峰度系數 g按下式計算:g=g0gR時,區域化變量Z(x)的空間相關性不存在,即當某點與已知點的距離大于變程時,該點數據不能用于內插或外推。4. Voronoi圖Voronoi地圖是由在樣點周圍形成的一系列多邊形組成的。某一樣點的Voronoi多邊形的生成方法是:多邊形內任何位置距這一樣點的距離都比該多邊形到其它樣點的距離要近。Voronoi 多邊形生成之后,相鄰的點就被定義為具有相同連接邊的樣點。Voronoi 圖中多邊形值可以采用多種分配和計算方法:l 簡化(Simple):分配到某個多邊形單元的值是該多邊形單元的值;l 平均(Mean):分配到某個多邊形單元的值是這個單元與其相鄰單元的平均值;l 模式(Mode):所有的多邊形單元被分為五級區間,分配到某個多邊形單元的值是這個單元與其相鄰單元的模式(即出現頻率最多的區間);l 聚類(Cluster):所有的多邊形單元被分配到這五級區間中,如果某個多邊形單元的級區間與它的相鄰單元的級區間都有不同,這個單元用灰色表示,以區別于其它單元;l 熵(Entropy):所有單元都根據數據值的自然分組分配到這五級中。分配到某個多邊形單元的值是根據該單元和其相鄰單元計算出來的熵;l 中值(Median):分配給某多邊形的值是根據該單元和其相鄰單元的頻率分布計算的中值;l 標準差(StDev):分配給某多邊形的值是根據該單元和其相鄰單元計算出的標準差;l 四分位數間間隔(IQR):第一和第三四分位數是根據某單元和其相鄰單元的頻率分布得出的。分配給某多邊形單元的值是用第三四分位數減去第一四分位數得到的差。圖10.7 簡化(Simple)Voronoi地圖圖10.8 熵(Entropy)Voronoi地圖圖10.7為簡化(Simple)Voronoi地圖,圖10.8為熵(Entropy)Voronoi地圖,顯然不同的多邊形賦值方式,獲取的Voronoi地圖提供信息也不同。簡化(Simple)Voronoi圖可以了解到每個采樣點控制的區域范圍,也可以體現出每個采樣點對區域內插的重要性。利用簡化(Simple)Voronoi地圖中就可以找出一些對區域內插作用不大且可能影響內插精度的采樣點值,可以將它剔除。用聚類和熵的方法生成的Vonoroi圖可用來幫助識別可能的離群值。熵值是量度相鄰單元相異性的一個指標。自然界中,距離相近的事物比距離遠的事物具有更大的相似性,因此,局部離群值可以通過高熵值的區域識別出來。同樣,一般認為某個特定單元的值至少應與它周圍單元中的某一個的值相近。因此聚類方法也能將那些與周圍單元不相同的單元識別出來。10.3.2檢驗數據分布在空間統計的分析中,許多統計分析模型,如地統計分析,都是建立在平穩假設的基礎上,這種假設在一定程度上要求所有數據值具有相同的變異性。另外,一些克里格插值(如普通克里格法、簡單克里格法和泛克里格法等)都假設數據服從正態分布。如果數據不服從正態分布,需要進行一定的數據變換,從而使其服從正態分布。因此,在進行地統計分析前,檢驗數據分布特征,了解和認識數據具有非常重要的意義。數據的檢驗可以通過直方圖和正態QQPlot分布圖完成。如果數據服從正態分布,數據的直方圖應該呈鐘形曲線,在正態QQPlot圖中,數據的分布近似成為一條直線。10.3.3尋找數據離群值數據離群值分為全局離群值和局部離群值兩大類。全局離群值是指對于數據集中所有點來講,具有很高或很低的值的觀測樣點。局部離群值值對于整個數據集來講,觀測樣點的值處于正常范圍,但與其相鄰測量點比較,它又偏高或偏低。離群點的出現有可能就是真實異常值,也可能是由于不正確的測量或記錄引起的。如果離群值是真實異常值,這個點可能就是研究和理解這個現象的最重要的點。反之,如果它是由于測量或數據輸入的明顯錯誤引起的,在生成表面之前,它們就需要改正或剔除。對于預測表面,離群值可能引起多方面的有害影響,包括影響半變異建模和鄰域分析的取值。離群值的尋找可以通過三種方式實現:1. 利用直方圖查找離群值離群值在直方圖上表現為孤立存在或被一群顯著不同的值包圍。但需注意的是,在直方圖中孤立存在或被一群顯著不同的值包圍的樣點不一定是離群值。2. 用半變異/協方差函數云圖識別離群值如果數據集中有一個異常高值的離群值,則與這個離群值形成的樣點對,無論距離遠近,在半變異/協方差函數云圖中都具有很高的值。3. 用Voronoi圖查找局部離群值用聚類和熵的方法生成的Voronoi圖可用來幫助識別可能的離群值。熵值是量度相鄰單元相異性的指標。通常,距離近的事物比距離遠的事物具有更大的相似性。因此,局部離群值可以通過高熵值的區域識別出來。同理,聚類方法也可將那些與它們周圍單元不相同的單元識別出來。圖10.9 直方圖查找離群值圖如圖10.9,直方圖最右邊被選中的一個柱狀條即是該數據的離群值。相應地,數據點層面上對應的樣點也被刷光。10.3.4全局趨勢分析(a)圖10.10 趨勢面分析透視面圖(b)通常一個表面主要由兩部分組成:確定的全局趨勢和隨機的短程變異。空間趨勢反映了空間物體在空間區域上變化的主體特征,它主要揭示了空間物體的總體規律,而忽略局部的變異。趨勢面分析是根據空間抽樣數據,擬合一個數學曲面,用該數學曲面來反映空間分布的變化情況。它可分為趨勢面和偏差兩大部分,其中趨勢面反映了空間數據總體的變化趨勢,受全局性、大范圍的因素影響。如果能夠準確識別和量化全局趨勢,在空間分析統計建模中就可以方便的剔除全局趨勢,從而能更準確地模擬短程隨機變異。透視分析是探測全局趨勢常用方法,準確的判定趨勢特征關鍵在于選擇合適的透視角度。同樣的采樣數據,透視角度不同,反映的趨勢信息也不相同。圖10.10(a)為顯示某地區東西方向(X軸)和南北方向(Y軸)的高程趨勢圖。圖10.10(b)逆時針旋轉45度后,顯示東南-西北方向和西南-東北方向的高程趨勢圖。趨勢分析過程中,透視面的選擇應盡可能使采樣數據在透視面上的投影點分布比較集中,通過投影點擬合的趨勢方程才具有代表性,才能有效反映采樣數據集全局趨勢。顯然,圖10.10(a)反映的趨勢比圖10.10(b)更為準確。10.3.5空間自相關及方向變異大部分的地理現象都具有空間相關特性,即距離越近的兩事物越相似。這一特性也是空間地統計分析的基礎。半變異/協方差函數云圖就是這種相似性的定量化表示。空間自相關分析包括全程空間自相關分析和局部空間自相關分析,自相關分析的結果可用來解釋和尋找存在的空間聚集性或“焦點”。 空間自相關分析需要的空間數據類型是點或面數據,分析的對象是具有點/面分布特征的特定屬性。全程空間自相關用來分析在整個研究范圍內指定的屬性是否具有自相關性。局部空間自相關用來分析在特定的局部地點指定的屬性是否具有自相關性。具有正自相關的屬性,其相鄰位置值與當前位置的值具有較高的相似性。下面介紹兩個常用的分析空間自相關的參數:MoransI和GearyC。1. 空間權重矩陣地理事物在空間上的此起彼伏和相互影響是通過它們之間的相互聯系得以實現的,空間權重矩陣是傳載這一作用過程的實現方法。因此,構建空間權重矩陣是研究空間自相關的基本前提之一。空間數據中隱含的拓撲信息提供了空間鄰近的基本度量。通常定義一個二元對稱空間權重矩陣Wnn來表達n個空間對象的空間鄰近關系,可根據鄰接標準或距離標準來度量,還可以根據屬性值xj和二元空間權重矩陣來定義一個加權空間鄰近度量方法。空間權重矩陣的表達形式為 (10.1)根據鄰接標準,當空間對象i和空間對象j相鄰時,空間權重矩陣的元素wij為1,其他情況為0,表達式如下: (10.2)根據距離標準,當空間對象i和空間對象j在給定距離d之內時,空間權重矩陣的元素wij 為1,否則為0,表達式為 (10.3)如果采用屬性值xj和二元空間權重矩陣來定義一個加權空間鄰近度量方法,則對應的空間權重矩陣可以定義如下: (10.4)2. MoransI參數MoransI是應用最廣的一個參數。對于全程空間自相關,MoransI定義是:Morans (10.5)對于局部位置i的空間自相關,MoransI定義是: (10.6)其中:n 是觀察值的數目;xi 是在位置i的觀察值;Zi 是xi 的標準化變換,。,。是對稱的空間權重矩陣,如果i與j相鄰,取值為,否則取值為。按照行和歸一化后的權重矩陣(每行的和為1),非對稱的空間權重矩陣。MoransI值介于-1到1之間,0為不相關。按照假定的空間數據分布可以計算Morans I的期望值和期望方差。對于正態分布假設, (10.7) (10.8)對于隨機分布假設, (10.9) (10.10)其中, ,是第行權重值之和,是第列權重值之和。原假設是沒有空間自相關。根據下面標準化統計量參照正態分布表可以進行假設檢驗。 (10.11)MoransI如果是正的而且顯著,表明具有正的空間相關性。即在一定范圍內各位置的值是相似的,如果是負值而且顯著的,則具有負的空間相關性,數據之間不相似。接近于0則表明數據的空間分布是隨機的,沒有空間相關性。3. GerayC參數對于全局空間自相關: (10.12)對于局部位置i的空間自相關: (10.13)其中,Wij是空間權重矩陣。C的值總是正的。假設檢驗是如果沒有空間自相關,C的均值為1。顯著性的低值(0和1之間)表明具有正的空間自相關,顯著性的高值(大于1)表明具有負的空間自相關。10.4分級統計分析分級是對數據進行加工處理的一種重要方法,通過分級可以把數據劃分成不同的級別,體現數據自身的特征,為應用研究及專題制圖提供基礎。10.4.1 分級的概念與目的數據分級根據一定的方法或標準把數據分成不同的級別,也就是把一個數據集劃分成不同的子集,在此過程中,還可設置分級精度和分級數目等。數據分級之后,僅使原來的數據重新歸類,數據的屬性沒有發生改變,研究人員可以根據分級后的數據進行下一步的應用分析。數據分級的根本目的在于區分數據集中個體的差別,分級統計的過程就是區別個體性質的過程。分級的應用目的有兩點:一是為了分級后,圖面制圖效果好,有利于用戶讀圖;二是用不同的分級方法來突出顯示制圖區域內不同的地貌特征。10.4.2 分級的原則 科學性原則:分級指標的確定要遵循一定的科學規律; 完整性原則:整個數據集中的所有數據都應被分到不同的級別中,沒有遺漏,而且同一數據集中的每一數據只能被分到某一級別中,不能同時分到兩個或多個級別中; 適用性原則:對于一個數據集,應該根據研究或應用的需要選擇合適的分級方法,使得分級結果能較好地滿足目的; 美觀性原則:分級方法及分級數目的確定不但要依據研究目的,還要注重制圖效果,制作專題地圖不僅要體現數據的空間分布特征,還要使得圖面色彩平衡,特征明顯,易于理解。10.4.3 分級統計的方法分級方法多種多樣,在應用時應根據研究的需要選擇合適的方法來突出需要的數據信息。分級方法的種類也很多,本書主要介紹以下三種: 按使用分級方法的多少可分為單一分級法和復合分級法:單一分級是指對于一個數據集只用了一種分級方法;復合分級是指由于數據自身的特點,需要對一部分數據使用某種分級方法,對另一部分數據使用另外一種分級方法,才能更好地滿足研究的需要。如一組坡度數據,一部分較小(坡面平緩),而另一部分很大(地勢陡峭),對這兩部分數據,就應選用兩種不同的分級方法,才能更好地突出變化特征。自定義分級模式分級等間距分級分位數分級等面積分級標準差分級自然裂點法其它分級方法有系統的不等間距分級面積正態分布分級嵌套平均值分級 按級差是否相等可分為等值分級法和不等值分級法:等值分級法又可以分為等面積分級、等間距分級、分位數分級等:不等值分級法可以分為自然裂點法、標準差分級、平均值嵌套分級等。 按確定級差的方法可分為自定義分級法和模式分級法。本節就是按這種分類體系展開討論的,其結構圖如下: 圖10.11 分級方法的類型1. 自定義分級自定義分級即對一個數據集,根據自己的應用目的設定各個級別的數值范圍來實現分級的方法。這種方法適用于研究者對該數據集比較了解,能夠找到合適的分級臨界點。在自定義分級中,臨界點的選擇非常重要,臨界點選擇得好,就能夠增強同一級別區域間的同質性分級和各級之間的差異性,分級結果就能夠很好地滿足各種分析需求。如在對坡度進行分級的過程中,應根據應用目標的要求, 確定臨界坡度。2. 模式分級模式分級就是指按固定模式進行分級,在固定模式中,級差由特定的算法自動設定。模式分級分為等間距分級、分位數分級、等面積分級、標準差分級、自然裂點法分級等。 等間距分級等間距分級是一種最簡單的分級方法,它按某個恒定間隔來對數據進行分級。假定數據集里有最大值和最小值,那么間距D=。圖10.12 等間距分級示意圖圖10.13 分位數分級示意圖等間距方法原理簡單、易操作,但當數據集中在某一小范圍內時,各分級之間數據個數的差別太大會造成圖面配置不均衡,影響了制圖效果。可見,當數據具有均勻變化的分布特征時,等間距分級法就簡明實用;若數據分布差異過大,將會以響制圖與對統計結果的分析。圖10.12為某一地區溫度數據的等間距分級示意圖。 分位數分級分位數分級是把數列劃分為相等個數的分段,根據實際需要選擇四分位、五分位、六分位十分位。為此,要先將數列按大小排列,從一端開始計算其分位數,把處于分位數上的那個值作為分級值。分位數分級可以使每一級別的數據個數接近一致,往往能產生較好的制圖效果。圖10.13為某地區溫度數據的分位數分級示意圖。 等面積分級對于矢量數據而言,對每個多邊形都可以求出其面積,將面積的值按大小順序排列并累加,把累加面積分為相等的幾段,作為分級范圍,這樣,每個級別中包含的樣本數目雖然不同,但總面積基本一致。等面積方法使得每一級在圖上占據的面積相等(或大致相等)。這種方法的特點是在圖面上只反映各級占有相同的面積,制圖效果好,但是沒有充分利用圖面表示級間的差異。對于規則柵格數據而言,一定區域內的面積可由該區域內的柵格個數乘以柵格分辨率得到,所以按等面積分級只需考慮柵格個數即可。這時可以將數據按大小順序排列,將數據個數累加,并把累加的個數分為相等的幾段,這與分位數分級法得到的分級結果基本上是一致的。 標準差分級標準差可以反映各數據間的離散程度,按標準差分級,首先要保證數據的分布具有正態分布的規律,才可計算平均值和標準差Std.Dev,然后根據數據波動情況劃分等級。以算術平均值作為中間級別的一個分界點,以一倍標準差參與分級時其余分界點為:Std.Dev,2Std.Dev,3Std.DeviStd.Dev。當然也可以采用1/2倍標準差參與分級,即1/2Std.Dev,2/2Std.Dev,3/2Std.Devi/2Std.Dev的形式,也可以用1/3倍標準差或1/4倍標準差。顯然,分級數目是由數據本身所決定的,且對于同一數據集,采用一倍標準差時,分級數目最少,采用1/4倍標準差時,分級數目最多。圖10.14為某地區溫度數據的標準差分級示意圖。 自然裂點法分級任何統計數列都存在一些自然轉折點、特征點,用這些點可以把研究的對象分成性質相似的群組,因此,裂點本身就是分級的良好界限。將統計數據制成頻率直方圖、坡度曲線圖、積累頻率直方圖,都有助于找出數據的自然裂點。如果頻率最低點與峰值構成一個近似正態分布曲線,可以把任意兩個正態分布曲線交點作為分級界線。圖10.15 自然裂點法分級示意圖圖10.14 標準差分級示意圖自然裂點法基本上是基于讓各級別中的變異總和達到最小的原則來選擇分級斷點的。由于自然裂點法是根據數據本身特征找出一些自然裂點進行分級的。圖10.15為某地區溫度數據的自然裂點法分級示意圖。 其他分級方法a. 有規律的不等間距分級這種方法與等間距分級法的區別在于它的間距是按一定規律變化的,而不是一個恒定的間隔。該方法采用的間隔或級差有算術級數和幾何級數兩種,每種又都可通過以下六種變化方法來確定各級的分級間隔:按某一恒定速率遞增、按某一加速度遞增、按某一減速度遞增、按某一恒定速率遞減、按某一加速度遞減、按某一減速度遞減。b. 按嵌套平均值分級該方法先計算整個數據集的平均值,它將數據集分為兩部分,每部分中再計算平均值,又各自把所有的那一部分分成兩段,以此類推,就可以把數據集區分為2個等級,即2的幾何級數。n是計算中的平均值的嵌套序數,用這種方法只能得到偶數個級別,而不可能得到奇數個級別。c. 按面積正態分布分級按數據的大小排列,累加其面積,然后按正態分布的規則使中間級別所占的面積較大,往高端和低端的級別中所占的面積都依次減小,并由此來確定每級的分界線。顯然,這種方法不僅使每個級別中樣本的數目不相等,而且各級別的累加面積呈正態分布。總之,關于數據的統計分級的研究還很多,其目的都在于改善分級間隔的規則性、同級之中的同質性和不同級別之間的差異性等等。10.5 空間插值空間數據插值是進行數據外推的基本方法。常用的插值方法有很多,分類并沒有統一的標準,例如從數據分布規律來講,有基于規則分布數據的內插方法、基于不規則分布的內插方法和適合于等高線數據的內插方法等;從內插函數與參考點的關系方面,又分為曲面通過所有采樣點的純二維插值方法和曲面不通過參考點的曲面擬合插值方法;從內插曲面的數學性質來講,有多項式內插、樣條內插、最小二乘配置內插等內插函數;從對地形曲面理解的角度,內插方法有克立金法、 多層曲面疊加法、加權平均法、分形內插等;從內插點的分布范圍,內插方法分為整體內插、局部內插和逐點內插法。空間內插的根本是對空間曲面特征的認識和理解,具體到方法上,則是內插點鄰域范圍的確定、權值確定方法(自相關程度)、內插函數的選擇等三方面的問題。由于每一種內插方法都有其自身的特點和適用范圍,了解方法的特點是本質所在。本書并不打算對各種內插算法從數學實現方法上進行分析討論,而是從內插范圍分類方法入手,對每一類內插方法的特點進行簡要的分析歸納,同時為保證內容上的完整性和連續性,在本節只介紹概念上的東西,而具體的實現方法與相應內容請查閱相關文檔。10.5.1整體內插整體內插,就是在整個區域用一個數學函數來表達地形曲面,如圖10.16所示。整體內插函數通常是高次多項式,要求地形采樣點的個數大于或等于多項式的系數數目。當地形采樣點的個數與多項式的系數相等時,這時能得到一個唯一的解,多項式通過所有的地形采樣點,屬純二維插值;而當采樣點個數多于多項式系數時,沒有唯一解,這時一般采用最小二乘法求解,即要求多項式曲面與地形采樣點之間差值的平方和為最小,屬曲面擬合插值或趨勢面插值。從數學角度講,任何復雜的曲面都可用多項式在任意精度上逼近,但由于以下原因,在空間內插中整體內插并不常用:曲面擬合Z=f (x,y )內插格網點高程圖10.16 整體內插l 整體內插函數保凸性較差,高次多項式雖然能在任意精度上逼近地形曲面,并且能使數學曲面與實際地形曲面有更多的重合點,但由于多項式是自變量冪函數的和的形式,采樣點的增減或移動都需要對多項式的系數作全面調整,從而采樣點之間會出現難以控制的振蕩現象,致使函數極不穩定,從而導致保凸性較差;l 不容易得到穩定的數值解解,高次多項式的系數求解一般要解算較高階的線性方程組,計算的舍入誤差和數據采樣誤差(平面位置誤差),都有可能引起多項式系數發生較大變化,使高次多項式不容易得到穩定的數值解。而且這種微小的數據擾動影響,在二元高次多項式中更為嚴重,因為在一元函數插值時,自變量誤差僅在一個方向上(x軸),而在二維平面上,采樣點的偏移方向卻是無限的。l 多項式系數物理意義不明顯,在低階多項式中,各個系數的物理意義非常明確,例如線性多項是中,a、b分別為兩個坐標軸方向的斜率,而在高次多項式中,各個系數的物理意義一般不明確,容易導致無意義的地形起伏現象。l 解算速度慢且對計算機容量要求較高。l 不能提供內插區域的局部地形特征;a. 二次趨勢擬合b. 三次趨勢擬合圖10.17 江蘇某地區GDP全局多項式趨勢擬合整體內插雖然有如上的缺點,但其優點也是明顯的,例如整個區域上函數的唯一性、能得到全局光滑連續的空間曲面、充分反映宏觀地形特征等。整體內插函數常常用來揭示整個區域內的地形宏觀起伏態勢。在空間內插中,一般是與局部內插方法配合使用,例如在使用局部內插方法前,利用整體內插去掉不符合總體趨勢的宏觀地物特征。圖10.17(a)和圖10.17(b)分別為江蘇某地區GDP二次擬合及三次擬合的全局多項式擬合圖。顯然,次數越低,擬合的表面越粗糙,實際表面擬合的效果越差,大致代表了此區域的宏觀趨勢;次數越高,擬合面越光滑,擬合的結果更接近實際的表面。但并不是次數越高越好,次數過高使得計算量大大增加而精度提高不大,一般選用到三次即可。10.5.2局部分塊內插利用數學曲面來模擬實際地形表面,是地形表達的一個常用的手段。例如一階線性平面可模擬具有單一坡度的斜坡地形表面,二次曲面方程可表達山頭、洼地區域,而三次曲面則能描述較為復雜的地形曲面。然而低階多項式雖然可表達各種地形曲面,但一個地區確常常包含各種復雜的地貌形態,簡單的曲面并不能很好的表達這些地形曲面。理論上任何復雜的曲面都可用多項式進行逼近,但高階多項式的上述缺點,也不是理想的地形描述工具。解決這類問題的辦法就是采取分而治之的辦法,即將復雜的地形地貌分解成一系列的局部單元,在這些局部單元內部地形曲面具有單一的結構,由于范圍的縮小和曲面形態的簡化,用簡單曲面就可較好的描述地形曲面。將地形區域按一定的方法進行分塊,對每一塊根據地形曲面特征單獨進行曲面擬合和高程內插,稱為空間分塊內插(圖10.18)。區域分塊簡化了地形的曲面形態,使得每一塊都可用不同的曲面進行表達,但隨之而來的是如何進行分塊和如何保證各個分塊之間的曲面的連續性。一般的可按地形結構線或規則區域進行分塊,而分塊大小取決于地形的復雜程度、地形采樣點的密度和分布;為保證相鄰分塊之間的平滑連接,相鄰分塊之間要有一定寬度的重疊,另外一種分塊之間的平滑連接是對內插曲面補充一定的連續性條件。圖10.18 局部分塊內插方法塊內逐點內插格網點高程分塊已知點格網點不同的分塊單元可用不同的內插函數,常用的內插數函數有線性內插、雙線性內插、多項式內插、樣條函數、多層曲面疊加法等。l 線性內插和雙線性內插形如的多項式稱為線性平面,它將分塊單元內部的地形曲面視為平面。如果在線性多項式中增加了交叉項,線性內插則變成雙線性內插函數:,之所以稱為雙線性內插,是因為當y為常數時,表達的是x方向的線性函數,而當x為常數時,則為y方向的線性函數。線性內插函數中有三個未知數,需要三個采樣點才能唯一確定,而雙線性內插函數中有四個未知數,需要四個已知點。線性內插和雙線性內插函數由于物理意義明確,計算簡單,是基于TIN和基于正方形格網分布采樣數據的DEM內插和分析應用的最常用的方法。l 二元樣條函數內插所謂樣條曲面,就是將一張具有彈性的薄板壓定在各個采樣點上,而其它的地方自由彎曲。從數學上講,就是一個分段的低次多項式,多項式的次數一般不超過三階。通過樣條函數,可以獲取在各個采樣點上具有最小曲率的擬合曲面。二元樣條函數首先對采樣區域進行分塊,對每一塊用一個多項式進行擬合,為保證各個分塊之間的平滑過渡,按照彈性力學條件設立分塊之間的連續性條件,即公共邊界上的導數連續條件。雖然樣條函數可適合的任意形狀的分塊單元,但一般還是將其應用在規則格網分布的采樣數據中。與整體內插函數相比較,樣條函數不但保留了局部地形的細部特征,還能獲取連續光滑的DEM。同時樣條函數在擬合時,由于多項式的階數比較低,對數據誤差的響應不敏感,具有較好的保凸性和逼真性,同時也有良好的平滑性。圖10.19為江蘇某地區GDP的張力樣條函數插值結果,圖10.19(A)取權重為0,圖10.19(B)取權重為5,圖10.19(C)為兩次插值結果的差值的絕對值。可以看出,權重越高,表面越粗糙,權重不同,局部地區插值結果變化比較劇烈。樣條函數將地表分塊視為彈性剛體,采取具有彈性力學條件的光滑連續條件。然后地形并不是一個狹義的剛體,也不具備滿足彈性力學光滑性條件。因此雖然樣條函數具有嚴密的理論基礎,但未必是數字地形內插的理想數學模型。圖10.19 張力樣條函數插值結果A: Weight = 0B: Weight = 5C:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論