




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章相關分析和回歸分析10/16/20231相關分析和回歸分析第一節
地理要素間的相關分析第二節地理要素間的回歸分析10/16/20232一相關關系與函數關系二地理要素的相關類型三相關程度的程度方法及顯著性檢驗
第一節地理要素間的相關分析10/16/20233一相關關系與函數關系1.確定性的函數關系
。
2.不確定性的統計關系—相關關系
3.相關關系與函數關系的共同點,區別與聯系(1)共同點:都是反映現象變量之間存在的相互依存關系。(2)區別:相關關系是一種不嚴格的依存關系,函數關系是嚴格確定的依存關系。(3)聯系:由于觀察值和測量誤差的存在,函數關系在現實生活中往往通過相關關系表現出來;而相關關系又往往要使用函數關系的形式來模擬描述。10/16/20234為了研究父親與成年兒子身高之間的關系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上,如圖。它的形狀象一塊橄欖狀的云,中間的點密集,邊沿的點稀少,其主要部分是一個橢圓。10/16/20235★正相關★負相關★完全正相關★完全負相關★零相關
10/16/20236二地理要素間的相關類型曲線相關(非線性相關)按變量數量兩個變量兩個以上變量直線相關(線性相關)復相關偏相關按質量等級相關(順序相關)品質相關10/16/20237
三相關程度的度量及顯著性檢驗由于地理相關類型各不相同,因此測度的方法也不同。(一)線性相關程度的測度所謂相關程度,就是研究它們之間的相互關系是否密切。所謂相關方向,又可以分兩種,即正相關和負相關。正相關——變量同方向變化,同增同減負相關——變量反方向變化,一增一減不相關用來測度直線相關程度和方向的指標就是相關系數。10/16/20238當兩個變量之間為直線相關時,可以利用皮爾遜相關系數表示變量之間的相關關系及程度
設表示變量,的取值,為兩個變量的算術平均數,,為這兩個變量的標準差,為自變量數列與因變量數列的協方差,為相關系數,則直線相關系數定義為:1.簡單相關系數公式及檢驗(1)簡單相關系數公式10/16/2023910/16/20231010/16/20231110/16/202312(2)相關系數的性質●相關系數的分布范圍,介于-1和+1之間●當相關系數為正值時,表示兩個要素(或變數)之間呈正相關,相關系數為負值時,表示兩個要素(或變數)之間為負相關;●相關系數的絕對值越大。表示兩個要素間相關程度越密切。當r=+1時,為完全正相關。R=-1時,為完全負相關;r=0則完全無直線相關,可能存在其他形式的相關關系。10/16/202313(3)相關程度的判斷當時,X與Y高度相關當時,X與Y顯著相關當時,X與Y低度相關當時,X與Y微相關或不相關10/16/202314例某企業生產某種產品的月產量和生產費用的統計資料如表,試判斷月產量與生產費用之間存在怎樣相關關系,相關程度為多少。表月產量和生產費用的統計資料(4)簡單相關系數的應用10/16/202315相關系數數據計算表10/16/202316表明X與Y之間存在線性相關關系,且是高度相關。10/16/202317●和都是相互對稱的隨機變量●
線性相關系數只反映變量間的線性相關程度,不能說明非線性相關關系●
樣本相關系數是總體相關系數的樣本估計值,由于抽樣波動,樣本相關系數是個隨機變量,其統計顯著性有待檢驗●
相關系數只能反映線性相關程度,不能確定因果關系,不能說明相關關系具體接近哪條直線
使用簡單相關系數時的注意事項10/16/202318相關系數是根據要素之間的樣本值計算出來的,它隨著樣本數的多少或取樣方式的不同而不同,因此它只是要素之間的樣本相關系數,只有通過檢驗,才能知道它的可信度。
(5)相關系數的顯著性檢驗為什么?
一般情況下,相關系數的檢驗,是在給定的置信水平下,通過查相關系數檢驗的臨界值表來完成的。
10/16/202319檢驗相關系數ρ=0的臨界值(ra)表p{|r|>ra}=α
f值稱為自由度,其數值為f=n-2,這里n為樣本數
a代表不同的顯著性水平
表內的數值代表不同的置信水平下相關系數ρ=0的臨界值,即ra
公式p={|r|>ra}=a的意思是當所計算的相關系數r的絕對值大于在a水平下的臨界值ra時,兩要素不相關(即ρ=0)的可能性只有a。
10/16/202320相關系數r的具體檢驗方法步驟如下:(1)計算相關系數r(2)給定顯著水平α,按n-2查相關系數臨界值,查出相應的臨界值(3)比較r的絕對值與臨界值的大小。當r的絕對值大于或等于臨界值時,說明兩變量在α水平上達到顯著性;若小于臨界值,則說明兩變量沒有達到所要求的精度。如果仍需研究二者的關系,可考慮降低精度,即修改顯著性水平α、相關系數的顯著性檢驗步驟10/16/2023212、等級相關系數的計算公式及檢驗——表示兩個變量順序間直線相關程度和方向的系數,稱為等級(或順序)相關系數。等級相關系數不僅適用于數量指標的相關分析,同時亦適用于質量指標的相關分析。——等級相關系數,又稱順序相關系數是將兩要素的樣本值按數值的大小順序排列位次,以各要素樣本值的位次代替實際數據而求得的一種統計量。實際上,它是位次分析方法的數量化。
10/16/202322(1)等級相關系數的計算公式10/16/202323(2)等級相關系數的計算及檢驗1985年全國各省(市,區)總人口與社會總產值
10/16/20232410/16/202325即:總人口(x)與社會總產值(y)的等級相關系數為0.72610/16/202326等級相關系數檢驗的臨界值
10/16/202327在上例中,n=29,表中沒有給出相應的樣本數下的臨界值ra,但我們發現,在同一顯著水平下,隨著樣本數的增大,臨界值ra減少。在n=28時,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是顯著的。
等級相關系數檢驗結果
10/16/202328(二)多要素間相關程度的測定
1.偏相關系數的計算與檢驗在多要素所構成的地理系統中,當我們研究某一個要素對另一個要素的影響或相關程度時,把其它要素的影響視為常數(保持不變),即暫不考慮其它要素的影響,而單獨研究那兩個要素之間的相互關系的密切程度時,則稱為偏相關。用以度量偏相關程度的統計量,稱為偏相關系數。
10/16/202329當研究2個相關變量x1、x2的關系時,用直線相關系數r12表示x1與x2線性相關的性質與程度。此時固定的變量個數為0,所以直線相關系數r12又叫做零級偏相關系數。當研究3個相關變量x1、x2、x3的相關時,我們把x3保持固定不變,x1與x2的相關系數稱為x1與x2的偏相關系數,記為r12.3,類似地,還有偏相關系數r13.2、r23.1。這3個偏相關系數固定的變量個數為1,所以都叫做一級偏相關系數。當研究4個相關變量x1、x2、x3、x4的相關時,須將其中的2個變量固定不變,研究另外兩個變量間的相關。即此時只有二級偏相關系數才真實地反映兩個相關變量間線性相關的性質與程度。二級偏相關系數共有6個:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。10/16/202330一般,當研究m個相關變量x1、x2、、、…、xm的相關時,只有將其中的m-2個變量保持固定不變,研究另外兩個變量的相關才能真實地反映這兩個相關變量間的相關,即此時只有m-2級偏相關系數才真實地反映了這兩個相關變量間線性相關的性質與程度。m-2級偏相關系數共有個。xi與xj的m-2級偏相關系數記為rij.(i,j=1,2,…,m,i≠j)。10/16/202331偏相關系數,可利用單相關系數來計算。假設有三個要素x1,x2,x3,其兩兩間單相關系數矩陣為10/16/202332對于上述三個要素x1,x2,x3,它們之間的偏相關系數共有三個,即r12·3,r13·2,r23·1(下標點后面的數字,代表在計算偏相關系數時,保持不變量,如r12·3即表示x3保持不變),其計算公式分別如下:式(5)—(7)表示三個偏相關系數,稱為一級偏相關系數。10/16/202333若有四個要素X1,X2,X3,X4,則有六個偏相關系數,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它們稱為二級偏相關系數,其計算公式分別如下:在式(8)中,r12·34表示在x3和x4保持不變的條件,x1和x2的偏相關系數。
10/16/202334實例:對于某四個地理要素X1,X2,X3,X4的23個樣本數據,經過計算得到了如下的單相關系數矩陣:10/16/202335為了計算二級偏相關系數,需要先計算一級偏相關系數,由(5)式可求得
同理,依次可以計算出其它各一級偏相關系數,見下表
10/16/202336在一級偏相關系數求出以后,便可代入公式計算二級偏相關系數,如由(8)式計算可得同理,依次可計算出其它各二級偏相關系數,見下表
10/16/202337偏相關系數具有下述性質:(1)偏相關系數分布的范圍在-1到1之間;(2)偏相關系數的絕對值越大,表示其偏相關程度越大;(3)偏相關系數的絕對值必小于或最多等于由同一系列資料所求得的復相關系數,即R1·23≥|r12·3|。10/16/202338偏相關系數的顯著性檢驗偏相關系數的顯著性檢驗,一般采用t檢驗法。其統計量計算公式為在(15)式中,r12·34…m為偏相關系數,n為樣本數,m為自變量個數。10/16/202339對于前述計算得到的偏相關系數r24·13=0.821,由于n=23,m=3,故查t分布表,可得出不同顯著水平上的臨界值ta,若t>ta
,則表示偏相關顯著;反之,t<ta,則偏相關不顯著。在自由度為23-3-1=19時,查表得t0.001=3.883,所以t>ta,這表明在顯著性水平a=0.001上,偏相關系數r24·13是顯著的。10/16/202340年份GDP(億元)人口(萬人)19901511.19842419911810.54853419922196.53858019932770.37862019943844.5865319954953.35870119965883.8874719976537.07881019987021.35887219997493.84892220008337.47897520019195.049024200210275.59069200312078.159108200415021.849163200518516.879212200622077.369282山東省1990-2006年GDP和人口情況10/16/2023411.計算簡單相關系數10/16/202342---PARTIALCORRELATIONCOEFFICIENTS--Controllingfor..時間
GDP人口GDP1.0000-.0690人口-.06901.00002.計算偏相關系數如果令時間T不變,計算人口與GDP的偏相關系數為=-0.0690,且t=-0.259>0.8=α。由此可以看出,如果去掉時間的因素,人口與GDP之間的偏相關系數很小,即如果固定時間不變,人口與GDP之間的關系是微弱的,且經檢驗人口與GDP之間沒有什么內在的必然的線性聯系。人口越多未必GDP越高,這是比較合乎實際的。10/16/2023432.復相關系數的計算與檢驗復相關系數:反映幾個要素與某一個要素之間的復相關程度。復相關系數的計算當有兩個自變量時當有三個自變量時10/16/202344當有k個自變量時復相關系數的性質
①復相關系數介于0到1之間,即10/16/202345
②復相關系數越大,則表明要素(變量)之間的相關程度越密切。復相關系數為1,表示完全相關;復相關系數為0,表示完全無關。
③復相關系數必大于或至少等于單相關系數的絕對值。復相關系數的顯著性檢驗F檢驗法。其統計量計算公式為10/16/202346例題:在上例中,若以x4為因變量,x1,x2,x3為自變量,試計算x4與x1,x2,x3之間的復相關系數。解:按照公式計算檢驗:,故復相關達到了極顯著水平。10/16/202347一回歸分析的意義與研究內容二一元回歸分析三多元回歸分析四非線性回歸模型第二節地理要素間的回歸分析10/16/2023481、回歸分析意義回歸的古典意義:高爾頓遺傳學的回歸概念(父母身高與子女身高的關系)回歸的現代意義:一個因變量對若干自變量依存關系的研究回歸的目的(實質):由固定的自變量去估計因變量的平均值一回歸分析的意義與研究內容10/16/2023492、回歸分析的概念就是對具有相互聯系的要素,根據其聯系的形態,選擇一個合適的數學模式,用來近似地表達要素間平均變化關系的數理統計方法。這個數學模式稱為回歸模型(回歸方程)10/16/2023503、回歸分析的目的
用樣本回歸函數去估計總體回歸函數。由于樣本對總體總是存在代表性誤差,樣本回歸函數總會過高或過低估計總體回歸函數。要解決的問題:尋求一種規則和方法,使得到的樣本回歸函數的參數和盡可能“接近”總體回歸函數中的參數和。這樣的“規則和方法”有多種,最常用的是最小二乘法10/16/202351
樣本
總體
A
10/16/2023524、回歸分析研究的主要內容——從一組地理數據出發,確定這些要素(變量)間的定量數學表達式,即回歸模型。——根據一個或幾個要素(自變量)的值來預測或控制另一個要素(因變量)的取值。——從影響某一地理過程中的許多要素中,找出哪些要素(變量)是主要的,哪些因素是次要的,這些要素之間又有什么聯系。
回歸分析研究的地理數學模型,依要素(變量)的多少可分為一元地理回歸模型和多元地理回歸模型。10/16/2023535、回歸分析與相關分析①相關分析所研究的變量是對等關系;回歸分析所研究的兩個變量不是對等關系。②對兩個變量來說,相關分析只能計算出一個相關系數,而回歸分析,可分別建立兩個不同的回歸方程。③相關分析要求兩個變量都必須是隨機的,而回歸分析的要求,自變量是給定的,因變量是隨機的。計量地理學關心:變量間的因果關系及隱藏在隨機性后面的統計規律性,這有賴于回歸分析方法10/16/202354二、一元回歸分析(一)一元線性回歸及其基本思想1.一元線性回歸的最小二乘法某城市各年居民生活費收入與消費支出額的數據表序號生活費收入消費支出額序號生活費收入消費支出額1234525029036042045017025029031033067891049057065075082037040050055064010/16/202355根據表中的資料,確定生活費收入與消費支出之間存在的關系。用X表示生活費收入,Y表示消費支出,把表中數據的關系用坐標系中的相關點表示,10/16/202356從圖中我們看到,相關點的分布呈現出線性的形態,這說明,生活費收入與消費支出之間不僅存在著相關關系,而且它們之間具有線性關系。因此我們就希望通過這些相關點確定出一條直線,利用這條直線表示它們的線性關系。設這條直線的方程為對于這些相關點,可以做出多條直線表示變量之間的關系,我們希望在這些直線中找出最有“代表性”的直線。尋找最有“代表性”直線的常用方法是“最小二乘法”。或10/16/202357
最小二乘法的基本思想是:最有“代表性”的直線應該是直線到各點的距離最近。等價的提法是:各點到直線的縱向距離最近。對于變量X的每一個值,相關點到直線的縱向距離是離差,為避免出現負號可用表示。對于多個點,點到直線的距離用表示。即利用離差的平方和表示多個點到直線的距離。根據最小二乘法的原理,最佳的直線是“的實際值與估計值之間的離差平方和為最小”10/16/202358稱為誤差平方和,將代入上式得到10/16/202359解方程組得10/16/2023602.一元回歸方程參數的求解公式10/16/202361(手算)3、具體計算方法(1)將原始數據根據需要列表(2)根據公式計算b(3)計算a(4)寫出回歸模型(5)一般情況下還要求出相關系數10/16/202362回歸方程數據表10/16/20236310/16/202364得回歸方程為:10/16/202365(二)一元線性回歸模型應用條件
自變量X與因變量Y,X與Y之間的線性相關關系用函數關系表達式一般可以表示為德國數學家高斯提出了如下理論假設.1.零均值假設。又稱為無偏性假設,在給定的條件下,的條件數學期望等于0.即2同方差假設。又稱為等方差性假設。即對所有的,的條件方差都相等,且為常數。即10/16/2023663.無自相關假設。又稱為獨立性假設。它假設隨機誤差項的逐次觀察值互不相關,即4.與X不相關假設。回歸模型中的隨機誤差項與自變量各自獨立影響因變量Yi。即5.正態性假設。假設隨機誤差項服從均值為零,方差為的正態分布。即:
10/16/2023671、線性關系檢驗線性關系檢驗:是指檢驗自變量與因變量之間關系能否用一個線性模型來表示。
擬合優度檢驗—判定系數法
擬合優度檢驗就是檢驗回歸模型擬和實際數據的擬和程度。一元分析中Y值的變化可以看成是由兩個原因的變化引起的,一個是由于自變量X變動引起的,二是由于其它因素變動引起的,如圖。(三)回歸模型的檢驗10/16/202368①擬合優度?
概念:樣本回歸線是對樣本數據的一種擬合,不同估計方法可擬合出不同的回歸線,擬合的回歸線與樣本觀測值總有偏離。樣本回歸線對樣本觀測數據擬合的優劣程度——擬合優度擬合優度的度量建立在對總變差分解的基礎上10/16/202369②總變差的分解
分析Y的觀測值、估計值與平均值的關系將上式兩邊平方加總,可證得
(TSS)(ESS)(RSS)
10/16/202370
總變差(TSS):因變量Y的觀測值與其平均值的離差平方和(總平方和)
解釋了的變差(ESS):因變量Y的估計值與其平均值的離差平方和(回歸平方和)
剩余平方和(RSS):因變量觀測值與估計值之差的平方和(未解釋的平方和)10/16/202371
變差分解的圖示10/16/202372③可決系數以TSS同除總變差等式兩邊:或
定義:回歸平方和(解釋了的變差ESS)在總變差(TSS)中所占的比重稱為可決系數,用表示:
或
10/16/202373簡捷計算公式:或10/16/202374作用:可決系數越大,說明在總變差中由模型作出了解釋的部分占的比重越大,模型擬合優度越好。反之可決系數小,說明模型對樣本觀測值的擬合程度越差。特點:●可決系數取值范圍:●隨抽樣波動,樣本可決系數是隨抽樣而變動的隨機變量●可決系數是非負的統計可決系數的作用和特點10/16/202375可決系數與相關系數的關系a聯系
數值上,可決系數等于因變量與自變量之間簡單相關系數的平方:10/16/202376可決系數與相關系數的關系可決系數相關系數就模型而言就兩個變量而言說明解釋變量對應變量的解釋程度度量兩個變量線性依存程度。度量不對稱的因果關系度量不含因果關系的對稱相關關系取值:[0,1]取值:[-1,1]b區別10/16/202377在上例中10/16/20237810/16/2023792、回歸系數檢驗回歸系數檢驗主要是對檢驗(1)假設(2)計算檢驗統計量其中是的標準差,n為樣本中數據的個數10/16/202380(3)根據統計知識可知服從自由度為n-2的分布(4)用樣本計算t的值若:則拒絕,認為X,Y之間有線性關系若:則接受,認為X,Y之間無線性關系給定顯著性水平,查自由度為n-2的t分布表得臨界值10/16/202381現對上例中的模型進行t檢驗(1)假設(3)給定顯著性水平α=0.05,查自由度為8的t分布臨界值表,得(4)因為則方程的t檢驗通過,說明X與Y之間是線性關系的假設成立.10/16/202382基本思想在多元回歸中有多個解釋變量,需要說明所有解釋變量聯合起來對應變量影響的總顯著性或整個方程總的聯合顯著性。對方程總顯著性檢驗需要在方差分析的基礎上進行F檢驗。3、回歸方程的顯著性檢。10/16/202383總變差自由度
模型解釋了的變差自由度
剩余變差自由度變差來源平方和自由度方差歸于回歸模型歸于剩余總變差方差分析表10/16/202384檢驗的步驟為:(1)提出假設(2)計算回歸方程的檢驗值(3)確定檢驗的臨界值10/16/202385服從自由度為,的分布,對于給定的顯著性水平,可以通過分布表查得顯著性水平為、自由度分別為、的臨界值
(4)檢驗1)若〉,則否定假設,回歸方程總體線性關系的顯著性檢驗通過,
將值與臨界值比較2)若〈,則接受假設,回歸方程總體線性關系的顯著性檢驗未通過,
10/16/202386對上例中的模型進行檢驗1)假設2)
計算3)
給定顯著性水平0.05,查分布的臨界值表4)檢驗:≥5.23=,則模型的檢驗通過。10/16/202387三、多元線性回歸分析(一)二元線性回歸分析二元線性回歸分析的模型可以由下式表示:二元線性回歸分析就是根據n個已知的樣本觀察值…,來計算出參數值,得到回歸模型參數的計算主要是采用最小二乘法10/16/202388由最小二乘法,參數的計算是使SSE10/16/20238910/16/202390(二)多元線性回歸分析k元線性回歸模型為1、多元線性回歸模型模型中參數是偏回歸系數。偏回歸系數:控制其它自變量不變的條件下,第k個自變量的單位變動對因變量平均值的影響。或10/16/2023912、多元線性回歸模型的矩陣表示
K個解釋變量的多元線性回歸模型的n個觀測樣本,可表示為
10/16/202392
用矩陣表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年護士執業資格考試題及答案
- 內蒙古自治區烏蘭察布市集寧區第二中學2024-2025學年高一下學期4月月考 數學試題(含解析)
- 本溪初二語文考試題目及答案
- 招生直播測試題及答案
- 網絡管理軟件應用分析試題及答案
- 計算機三級軟件測試在公共政策評估中的作用試題及答案
- 軟考網絡工程師常見考題預測試題及答案
- 西方政治考試的難點與突破口試題及答案
- 如何規劃信息系統項目管理師的復習時間試題及答案
- 公共政策在生態保護中的重要性試題及答案
- 2025年生態環境保護知識測試題及答案
- 道路監控系統培訓課件
- 2025年湖北省新高考信息卷(三)物理試題及答題
- 2025-2030年力控玩具項目投資價值分析報告
- 基于學校區域文化優勢背景下的小學水墨畫教學研究
- 設備欠款協議書范本
- 機柜租賃合同協議
- 2025年2月22日四川省公務員面試真題及答案解析(行政執法崗)
- 造價項目時效管理制度
- 腹腔鏡手術術后腹脹護理
- 泥水平衡-沉井-頂管及沉井施工方案
評論
0/150
提交評論