




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
相關分析
Correlations線性相關:當一個變量的值發生變化時,另外的一個變量也發生大致相同的變化。(+-)非線性相關:如果一個變量發生變動,另外的變量也隨之變動,但是,其觀察值分布近似的在一條曲線上。相關分析Correlations線性相關:當一個變量的值1如果僅僅研究變量之間的相互關系的密切程度和變化趨勢,并用適當的統計指標描述。這就是相關分析。
如果要把變量間相互關系用函數表達出來,用一個或多個變量的取值來估計另一個變量的取值,這就是回歸分析。
繪制散點圖和計算相關系數是相關分析最常用的工具,它們的相互結合能夠達到較為理想的分析效果相關分析
Correlations如果僅僅研究變量之間的相互關系的密切程度和變化趨勢,并用適當2是將數據以點的形式畫在直角坐標系上,通過觀察散點圖能夠直觀的發現變量間的相關關系及它們的強弱程度和方向。散點圖:完全負相關負相關無相關完全正相關正相關無相關是將數據以點的形式畫在直角坐標系上,通過觀察散點圖能夠直觀的3實際操作:實際操作:4簡單散點圖:生成一對相關變量的散點圖重疊散點圖:生成多對相關變量的散點圖矩陣散點圖:同時生成多對相關變量的矩陣散點圖三維散點圖:生產成三個變量之間的三維散點圖相關分析
Correlations簡單散點圖:生成一對相關變量的散點圖相關分析Correl5①表示一對變量間統計關系的散點圖②將縱軸變量選入【Y軸】,③將橫軸變量選入【X軸】,④將分組變量選入【設置標記】:用該變量分組,并在一張圖上用不同顏色繪制若干個散點圖。⑤將標記變量選入【標注個案】:將標記變量的各變量值標記在散點圖相應點的旁邊。簡單散點圖:①表示一對變量間統計關系的散點圖簡單散點圖:6計算相關系數:
利用相關系數進行變量間線性關系的分析通常需要完成以下兩個步驟:
1.計算樣本相關系數r;相關系數r的取值在-1---+1之間
r>0表示兩變量存在正的線性相關關系;r<0表示兩變量存在負的線性相關關系
r=1表示兩變量存在完全正相關;r=-1表示兩變量存在完全負相關;r=0表示兩變量不相關
|r|>0.8表示兩變量有較強的線性關系;|r|<0.3表示兩變量之間的線性關系較弱計算相關系數:利用相關系數進行變量間線性關系的分析通常需要7
2.對樣本來自的兩總體是否存在顯著的線性關系進行推斷。
由于存在隨機抽樣和樣本數量較少等原因,通常樣本相關系數不能直接用來說明樣本來自的總體是否具有顯著的線性相關而需要通過假設檢驗的方式對樣本來自的總體是否存在顯著的線性相關關系進行統計推斷。基本步驟是:
(1)提出原假設,即兩總體無顯著的線性關系。
(2)選擇檢驗統計量,即不同的相關系數。(3)計算檢驗統計量的觀測值和對應的概率值。(4)決策:p與a的關系。2.對樣本來自的兩總體是否存在顯著的線性關系進行推斷。8
對不同類型的變量應采用不同的相關系數來度量,常用的相關系數主要有Pearson簡單相關系數、Spearman等級相關系數和Kendall相關系數等。
1.Pearson簡單相關系數(適用于兩個變量都是數值型的數據)
Pearson簡單相關系數的檢驗統計量為:相關分析
Correlations對不同類型的變量應采用不同的相關系數來度量,常用的相關系數9Pearson系數用來度量定距型變量間的相關系數。積距相關分析,即最常用的參數相關分析,適用于雙正態連續變量。Spearman相關等級系數用來度量定序變量間的線性相關系數。該系數的設計思想與Pearson簡單相關系數完全相同,只是應用的范圍不一樣。對數據沒有嚴格的要求。Kendall采用非參數檢驗方法用來度量定序變量的線性相關關系。對數據分布沒有嚴格要求,適用于有序(等級)變量之間的關聯程度。相關分析
Correlations嘗試把收入分為等級然后kendellPearson系數用來度量定距型變量間的相關系數。Spear10正態分布:皮爾遜積矩相關只適用于雙元正態分別的變量。如果正態分布的前提不滿足,兩變量之間的關系可能屬于非線性相關。樣本獨立性:被試必須來自于總體的隨機樣本,且被試之間必須相互獨立。替換極值:變量中的極端如極值、離群值對相關系數的影響較大,最好加以剔除或代之以均值或中數。相關分析
Correlations正態分布:皮爾遜積矩相關只適用于雙元正態分別的變量。如果正態11
2Spearman等級相關系數Spearman等級相關系數用來度量定序變量間的線性相關關系,設計思想與Pearson簡單相關系數相同,只是數據為非定距的,故計算時不直接采用原始數據而是利用數據的秩,用兩變量的秩代替代入Pearson簡單相關系數計算公式于是其中的和的取值范圍被限制在1和n之間,且可被簡化為:相關分析
Correlations相關分析Correlations12如果兩變量的正相關性較強,它們秩的變化具有同步性,于是較小,r趨向于1;如果兩變量的正相關性較弱,它們秩的變化不具有同步性,于是較大,r趨向于0;小樣本下,在零假設成立時,Spearman等級相關系數服從Spearman分布;在大樣本下,Spearman等級相關系數的檢驗統計量為Z統計量,定義為Z統計量近似服從標準正態分布。如果兩變量的正相關性較強,它們秩的變化具有同步性,于是133.Kendall相關系數
用非參數檢驗方法度量定序變量間的線性相關關系
利用變量秩數據計算一致對數目和非一致對數目。
當兩個變量具有較強的正相關關系,則一致對數目較大,非一致對數目較小,當兩個變量具有較強的負相關關系,則一致對數目較小,非一致對數目較大,
當兩個變量相關性較弱,則一致對數目和非一致對數目大致相等3.Kendall相關系數14Kendall相關系數在小樣本下,Kendall相關系數服從Kendall分布;在大樣本下,Kendall相關系數的檢驗統計量為Z統計量,定義為:
Z統計量近似服從標準正態分布。Kendall相關系數在小樣本下,Kendall相關系15spss回歸分析相關分析課件16偏相關分析:偏相關分析和偏相關系數
簡單相關系數研究兩變量間線性相關性,若還存在其他因素影響,其往往夸大變量間的相關性,不是兩變量間線性相關強弱的真實體現。例如,研究商品的需求量、價格和消費者收入之間的線性關系時,需求量和價格的相關關系實際還包含了消費者收入對價格和商品需求量的影響。此時,單純利用簡單相關系數來評價變量間的相關性是不準確的,需要在剔除其他相關因素影響的條件下計算變量間的相關。偏相關分析:偏相關分析和偏相關系數17
(3)偏相關分析也稱凈相關分析,它在控制其他變量線性影響的條件下分析兩變量間的線性關系,所采用的工具是偏相關系數。
(4)控制變量個數為1時,偏相關系數稱一階偏相關;
控制兩個變量時,偏相關系數稱為二階偏相關;控制變量的個數為0時,偏相關系數稱為零階偏相關,也就是簡單相關系數。偏相關分析:(3)偏相關分析也稱凈相關分析,它在控制其他變量線性影響的18偏相關系數的分析步驟:計算樣本的偏相關系數假設有三個變量y、x1和x2,在分析x1和y之間的凈相關時,需控制x2的線性作用,則x1和y之間的一階偏相關定義為:偏相關系數的取值范圍及大小含義與相關系數相同。偏相關系數的分析步驟:計算樣本的偏相關系數19
(2)對樣本來自的兩總體是否存在顯著的凈相關進行推斷,檢驗統計量為:
其中,r為偏相關系數,n為樣本數,q為階數。t統計量服從n-q-2個自由度的t分布。(2)對樣本來自的兩總體是否存在顯著的凈相關進行推斷,檢驗20對于案例8-1,已經分析了家庭收入與計劃購房面積之間的相關性。直觀感覺這種相關性會受到家庭常住人口數影響。為此可將家庭常住人口數作為控制變量,對家庭收入與計劃購房面積作偏相關分析。分析(analyze)相關(correlate)偏相關(partial)對于案例8-1,已經分析了家庭收入與計劃購房面積之間的相關性21回歸分析:通過一個(些)變量的變化解釋另一變量的變化線性相關分析:計算線性相關系數r確定兩變量之間的相關方向與密切程度
無法表明兩變量之間的因果關系無法從一個或幾個變量(xi)的變化來推測另一個變量(y)的變化情況在于通過X的已知或設定值,去估計或預測Y的(總體)均值。變量Y是被預測或被解釋的變量,稱為因變量(DependentVariable)或被解釋變量(ExplainedVariable)變量X是用來預測或解釋因變量的變量,稱為自變量(IndependentVariable)或解釋變量(ExplanatoryVariable)回歸分析:通過一個(些)變量的變化解釋另一變量的變化線性相22理論和方法具有一致性;相關分析是回歸分析的基礎和前提,無相關就無回歸,相關程度越高,回歸越好;回歸分析是相關分析的繼續和深化;相關系數和回歸系數方向一致,可以互相推算。回歸分析理論和方法具有一致性;回歸分析23(二)回歸分析的種類按自變量的多少分
簡單(一元)回歸:y=a+bx
復(多元)回歸:y=0+1x1+2x2+…+nxn按回歸方程式的特征分線性回歸:因變量為自變量的線性函數。y=a+bx一元線性回歸方程非線性回歸:因變量為自變量的非線性函數(二)回歸分析的種類24定義:描述因變量y如何依賴于自變量x和誤差項方程一元線性回歸模型可表示為y是x的線性函數
部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項是隨機變量反映除了x和y之間的線性關系以外的隨機因素對y的影響是不能由x和y之間的線性關系所解釋的變異性
稱為模型的參數
回歸模型(regressionmodel)
定義:描述因變量y如何依賴于自變量x和誤差項25回歸方程的方差分析回歸方程的方差分析26SSR占SST的比例,用判定系數
表示;用來衡量回歸方程對y的解釋程度。
SSR占SST的比例,用判定系數表示;用來衡量回歸27在給定樣本中,SST不變,如果實際觀測點離樣本回歸線越近,則SSR在SST中占的比重越大,因此回歸直線的擬合優度可用下面的判定系數(可決系數)測度判定系數(coefficientofdetermination)的取值范圍:越接近1,說明實際觀測點離樣本線越近,擬合優度越高。
在給定樣本中,SST不變,如果實際觀測點離樣本回歸線越近,則28判定系數無方向性,相關系數則有方向,其方向與樣本回歸系數β1相同;判定系數說明變量值的總離差平方和中可以用回歸線來解釋的比例,相關系數只說明兩變量間關聯程度及方向;相關系數有夸大變量間相關程度的傾向,因而判定系數是更好的度量值。回歸分析判定系數無方向性,相關系數則有方向,其方向與樣本回歸系數β129定義:觀察值與回歸值之間的平均誤差。公式估計標準誤差定義:觀察值與回歸值之間的平均誤差。估計標準誤差30一元線性回歸模型的檢驗
線性回歸模型的檢驗分二大類:統計檢驗計量經濟檢驗從統計學的角度檢驗所估計的樣本回歸函數的有效性從基本假設是否成立這一角度檢驗最小二乘估計法的適用性及其改進擬合優度檢驗顯著性檢驗一元線性回歸模型的檢驗
線性回歸模型的檢驗分二大類31擬合優度檢驗
擬合優度檢驗主要用來檢驗樣本回歸函數與實際觀測點的“接近”程度,可用判定系數(或相關系數、估計標準誤差)測度。顯著性檢驗線性關系的檢驗回歸系數的檢驗回歸分析擬合優度檢驗回歸分析32多元線性回歸模型
多重線性回歸方程:Y=β0+β1x1+β2x2+…βpxp+εa是常數,β0,:回歸常數,β1…βp是偏回歸系數。偏回歸系數表示其他自變量假設不變時,某一個自變量變化而引起因變量變化的比率。若要比較各自變量對因變量的貢獻,則要將原始數據分別轉化為標準分數,以標準分數建立標準回歸方程:ZY=?1Zx1+?2Zx2此時的?是標準偏回歸系數。多元線性回歸模型
多重線性回歸方程:Y=β0+β1x1+β233多元線性回歸的條件線性走勢:自變量與因變量之間的關系是線性的。獨立性:因變量的取值必須獨立。正態性:就自變量的任何一個線性組合,因變量均服從正態分布。方差齊性:就自變量的任何一個線性組合,因變量的方差均相同。樣本要求:樣本數應當在希望分析的自變量數的20倍以上為宜。(逐步回歸:樣本個數/自變量個數>40)必須是連續變量多元線性回歸的條件線性走勢:自變量與因變量之間的關系是線性的34多元回歸方程中的自變量選擇強行進入法(enter),即一般所稱的復回歸分析法。強迫所有變量有順序地進入回歸方程。在研究設計中,如果研究者事先建立假設,決定變量的重要性層次,則應使用enter法比較合適。此法又稱“層次式進入法”(hierarchicalenter)
后退法(Backward),將已納入方程的變量按對因變量的貢獻大小由小到大依次剔除,每剔除一個自變量,即重新檢驗每一自變量對因變量的貢獻。
前進法(Forward),對已納入方程的變量不考察其顯著性,直到方程外變量均達不到入選標準。
強制剔除法(Remove)與后退法相同,只是篩選的是Block多元回歸方程中的自變量選擇強行進入法(enter),35逐步回歸法Stepwise運用很廣,報告中出現的幾率最高。結合了前進法和后退法的優點。第一,模型中先不包含任何預測變量,與因變量相關最高者首先進入回歸方程;第二,控制回歸方程中的變量后,根據每個預測變量與因變量的偏相關的高低來決定進入方程的順序;第三,已進入方程的自變量,每引入一個自變量,就對方程中的每一自變量進行顯著性檢驗,若發現不顯著,就剔除;每剔除一個自變量有也對留在方程中的自變量再進行顯著性檢驗,再不顯著,又剔除,直至沒有自變量引入,也沒有自變量剔除為止。在選擇回歸的方法時,注意專業上的要求要先于統計學檢驗的準則。Hower(1987)建議:(1)應優先使用enter或stepwise。(2)使用enter時,可根據研究計劃時的相關理論,決定變量投入的順序。逐步回歸法Stepwise運用很廣,報告中出現的幾率最高。36通過樣本數據建立回歸方程后一般不能立即用于對實際問題的分析和預測,通常要進行各種統計檢驗.包括回歸方程的擬合優度檢驗回歸方程的顯著性檢驗回歸系數的顯著性檢驗殘差分析等通過樣本數據建立回歸方程后一般不能立即用于對實際問題的分析和37擬合優度檢驗檢驗樣本數據點聚集在回歸線周圍的密集程度,從而評價回歸方程對樣本數據的代表程度。認為y各觀測值的之間的差異主要由兩個方面的原因造成:一是解釋變量x取值的不同造成的;二是由于其他隨機因素造成的。SST=SSA+SSE(回歸平方和+剩余平方和)若SSA所占的比例遠大于SSE所占的比例,那么回歸方程的擬合優度會比較高。擬合優度檢驗檢驗樣本數據點聚集在回歸線周圍的密集程度,從而評38擬合優度檢驗采用R2統計量,該統計量稱為判定系數或決定系數,它是SSA/SST反映因變量的全部變異中能夠通過回歸關系被自變量解釋的比例,即檢驗回歸的效果如何。如果自變量的個數很多,有時要以調整后的決定系數代替原先的決定系數。因為增加新的自變量會使決定系數增大,這種決定系數會有高人為控制的機制在內,此時用調整后的決定系數更好擬合優度檢驗擬合優度檢驗采用R2統計量,該統計量稱為判定系數或決定系數,39顯著性檢驗線性回歸方程能夠較好地反映被解釋變量和解釋變量之間統計關系的前提應是,被解釋變量和解釋變量之間確實存在顯著的線性關系。回歸方程的顯著性檢驗正是要檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著,用線性模型來描述它們之間的關系是否恰當。基本出發點與擬合優度檢驗非常相似。檢驗采用F統計量。主要目的是研究回歸方程中的每個解釋變量與被解釋變量之間是否存在顯著的線性關系,也就是研究解釋變量能夠有效地解釋被解釋變量的線性變化,他們能夠保留在線性回歸方程中。是圍繞回歸系數估計值的抽樣分布展開的,由此構造服從某種理論分布的檢驗統計量,并進行檢驗。顯著性檢驗線性回歸方程能夠較好地反映被解釋變量和解釋變量之間40t統計量:在一元線性回歸分析中,回歸方程顯著性檢驗和回歸系數顯著性檢驗的作用是相同的,兩者可以相互代替,同時回歸方程顯著性檢驗中F=t2。但在多元線性回歸中的這兩種檢驗通常不能互相替代。t統計量:在一元線性回歸分析中,回歸方程顯著性檢驗和回歸系數41殘差分析所謂殘差是指由回歸方程計算所得的預測值與實際樣本值之間的差距。殘差分析是回歸方程檢驗中的重要組成部分,其出發點是,如果回歸方程能較好地反映被解釋變量的特征和變化規律,那么殘差序列中應不包含明顯的規律行和趨勢性。殘差分析的主要任務可大致歸納為,分析殘差是否服從均值為0的正態分布、分析殘差是否為等方差的正態分布、分析殘差序列是否獨立、借助殘差探測樣本中的異常值等。圖形分析和數值分析是殘差分析的有效工具殘差分析所謂殘差是指由回歸方程計算所得的預測值與實際樣本值之42如何看回歸結果?哪些自變量(我們選定)進入了回歸方程對回歸方程進行檢驗,看方程是否有意義看回歸效果,R2如何看回歸結果?哪些自變量(我們選定)進入了回歸方程43回歸分析的三個重要指標方差分析:F檢驗用于檢驗回歸模型與數據的擬合程度。若F值顯著,表明預測變量與指標變量之間存在很強的線性關系,也可以說回歸方程顯著。回歸系數的顯著性檢驗:若b顯著,則表明預測變量與指標變量之間存在強線性相關。R2:解釋回歸平方和在總平方和中所占的比率,即解釋回歸的效果。回歸分析的三個重要指標方差分析:F檢驗用于檢驗回歸模型與數據44虛擬變量若某個自變量是分類變量,則須將分類變量轉化為二進制虛擬變量(dummyvariable),每個虛擬變量只代表2級(0,1),即某一屬性出現時,虛擬變量取值為1,否則為0。設虛擬變量時,以一種取值作為對比水平(基礎水平),若原自變量有幾個水平,就應使用n-1個虛擬變量,實則虛擬變量代表的是同一變量的不同取值如性別變量有男或女兩類,可將兩個類別分別以兩個0/1二值變量的形式重新編碼。設置變量X1表示是否男,取1表示男,取0表示不是男。再設置變量X2表示是否女,取1表示是女,取0表示不是女。產生的回歸方程中各虛擬變量回歸系數的含義是,相對參照類,各個類對解釋變量平均貢獻的差,進而可進一步研究各類別間對被解釋變量的平均貢獻差異。虛擬變量若某個自變量是分類變量,則須將分類變量轉化為二進制虛45共線性診斷Collinearitydiagnostics復共線問題(共線性,collinearity問題):由于自變量間的相關太高,造成回歸分析之情境困擾。如果自變量間有共線性問題,表示一個預測變量是其他自變量的線性組合。若有嚴重的共線性存在,則模型的參數就不能完全被估計出來。共線性診斷Collinearitydiagnostics46(1)VIF>=5,存在復共線。所以在回歸分析中,最好先做個相關分析,以探討變量間的相關情形,如果某些變量間的相關系數太高,可考慮挑選一個較重要的變量投入回歸分析。
(2)容忍度tolerance=1-R2
,其中R2是此自變量與其他自變量間的多元相關系數的平方。容忍度界于0和1之間,如果一個自變量的容忍度太小,表示此變量與其他自變量間有共線性問題;其值若接近0,表示此變量幾乎就是其他變量的線性組合。
(3)條件指針(conditionindex,CI),CI越大,越有共線性問題。Eigenvalueconditionindex(k)若k2>=100表示存在復共線,若k2>=1000,表示存在嚴重的復共線。
關于復共線問題,也有說法,即認為若torrence降至0.5以下,而VIF上升到2.0以上,就應檢查自變量是否為自相關。
(1)VIF>=5,存在復共線。所以在回歸分析中,最好先做個47對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方便地進行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對數據的充分描述(看修正AdjustedR2-->1)對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方48二項Logistic回歸利用多元回歸方法分析變量之間的關系或進行預測時的一個基本要求是,被解釋變量應是連續定距變量。如課題數、教育支出實際應用中這種要求未必能夠得到較好的滿足。例如,要分析消費群體的特征對汽車消費的影響中,職業、性別、年齡等并不是連續變量,不能滿足回歸分析的要求,且是個較普遍存在的問題。二項Logistic回歸利用多元回歸方法分析變量之間的關系或49Logistic回歸Logistic回歸是多元線性回歸方法不斷發展的成果。其將被解釋變量設置成“是”或者“否”:在現實中,經常需要判斷一些事情是否將要發生,候選人是否會當選?為什么一些人易患冠心病?為什么一些人的生意會獲得成功?此問題的特點是因變量只有兩個值,不發生(0)和發生(1)。這就要求建立的模型必須因變量的取值范圍在0~1之間。Logistic回歸Logistic回歸是多元線性回歸方50Logistic回歸模型Logistic模型:在邏輯回歸中,可以直接預測觀測變量相對于某一事件的發生概率。包含一個自變量的回歸模型和多個自變量的回歸模型公式:其中:z=B0+B1X1+…BpXp(P為自變量個數某一事件不發生的概率為Prob(noevent)=1-Prob(event)。因此最主要的是求B0,B1,…Bp(常數和系數)Logistic回歸模型Logistic模型:在邏輯回歸中51大部分人還是說不清楚,,然后可以嘗試分析這些原因是否繼續愿意獻血與性別之間的,,這是否還有意義呢大部分人還是說不清楚,,然后可以嘗試分析這些原因52實際操作實際操作53spss回歸分析相關分析課件54spss回歸分析相關分析課件55相關分析
Correlations線性相關:當一個變量的值發生變化時,另外的一個變量也發生大致相同的變化。(+-)非線性相關:如果一個變量發生變動,另外的變量也隨之變動,但是,其觀察值分布近似的在一條曲線上。相關分析Correlations線性相關:當一個變量的值56如果僅僅研究變量之間的相互關系的密切程度和變化趨勢,并用適當的統計指標描述。這就是相關分析。
如果要把變量間相互關系用函數表達出來,用一個或多個變量的取值來估計另一個變量的取值,這就是回歸分析。
繪制散點圖和計算相關系數是相關分析最常用的工具,它們的相互結合能夠達到較為理想的分析效果相關分析
Correlations如果僅僅研究變量之間的相互關系的密切程度和變化趨勢,并用適當57是將數據以點的形式畫在直角坐標系上,通過觀察散點圖能夠直觀的發現變量間的相關關系及它們的強弱程度和方向。散點圖:完全負相關負相關無相關完全正相關正相關無相關是將數據以點的形式畫在直角坐標系上,通過觀察散點圖能夠直觀的58實際操作:實際操作:59簡單散點圖:生成一對相關變量的散點圖重疊散點圖:生成多對相關變量的散點圖矩陣散點圖:同時生成多對相關變量的矩陣散點圖三維散點圖:生產成三個變量之間的三維散點圖相關分析
Correlations簡單散點圖:生成一對相關變量的散點圖相關分析Correl60①表示一對變量間統計關系的散點圖②將縱軸變量選入【Y軸】,③將橫軸變量選入【X軸】,④將分組變量選入【設置標記】:用該變量分組,并在一張圖上用不同顏色繪制若干個散點圖。⑤將標記變量選入【標注個案】:將標記變量的各變量值標記在散點圖相應點的旁邊。簡單散點圖:①表示一對變量間統計關系的散點圖簡單散點圖:61計算相關系數:
利用相關系數進行變量間線性關系的分析通常需要完成以下兩個步驟:
1.計算樣本相關系數r;相關系數r的取值在-1---+1之間
r>0表示兩變量存在正的線性相關關系;r<0表示兩變量存在負的線性相關關系
r=1表示兩變量存在完全正相關;r=-1表示兩變量存在完全負相關;r=0表示兩變量不相關
|r|>0.8表示兩變量有較強的線性關系;|r|<0.3表示兩變量之間的線性關系較弱計算相關系數:利用相關系數進行變量間線性關系的分析通常需要62
2.對樣本來自的兩總體是否存在顯著的線性關系進行推斷。
由于存在隨機抽樣和樣本數量較少等原因,通常樣本相關系數不能直接用來說明樣本來自的總體是否具有顯著的線性相關而需要通過假設檢驗的方式對樣本來自的總體是否存在顯著的線性相關關系進行統計推斷。基本步驟是:
(1)提出原假設,即兩總體無顯著的線性關系。
(2)選擇檢驗統計量,即不同的相關系數。(3)計算檢驗統計量的觀測值和對應的概率值。(4)決策:p與a的關系。2.對樣本來自的兩總體是否存在顯著的線性關系進行推斷。63
對不同類型的變量應采用不同的相關系數來度量,常用的相關系數主要有Pearson簡單相關系數、Spearman等級相關系數和Kendall相關系數等。
1.Pearson簡單相關系數(適用于兩個變量都是數值型的數據)
Pearson簡單相關系數的檢驗統計量為:相關分析
Correlations對不同類型的變量應采用不同的相關系數來度量,常用的相關系數64Pearson系數用來度量定距型變量間的相關系數。積距相關分析,即最常用的參數相關分析,適用于雙正態連續變量。Spearman相關等級系數用來度量定序變量間的線性相關系數。該系數的設計思想與Pearson簡單相關系數完全相同,只是應用的范圍不一樣。對數據沒有嚴格的要求。Kendall采用非參數檢驗方法用來度量定序變量的線性相關關系。對數據分布沒有嚴格要求,適用于有序(等級)變量之間的關聯程度。相關分析
Correlations嘗試把收入分為等級然后kendellPearson系數用來度量定距型變量間的相關系數。Spear65正態分布:皮爾遜積矩相關只適用于雙元正態分別的變量。如果正態分布的前提不滿足,兩變量之間的關系可能屬于非線性相關。樣本獨立性:被試必須來自于總體的隨機樣本,且被試之間必須相互獨立。替換極值:變量中的極端如極值、離群值對相關系數的影響較大,最好加以剔除或代之以均值或中數。相關分析
Correlations正態分布:皮爾遜積矩相關只適用于雙元正態分別的變量。如果正態66
2Spearman等級相關系數Spearman等級相關系數用來度量定序變量間的線性相關關系,設計思想與Pearson簡單相關系數相同,只是數據為非定距的,故計算時不直接采用原始數據而是利用數據的秩,用兩變量的秩代替代入Pearson簡單相關系數計算公式于是其中的和的取值范圍被限制在1和n之間,且可被簡化為:相關分析
Correlations相關分析Correlations67如果兩變量的正相關性較強,它們秩的變化具有同步性,于是較小,r趨向于1;如果兩變量的正相關性較弱,它們秩的變化不具有同步性,于是較大,r趨向于0;小樣本下,在零假設成立時,Spearman等級相關系數服從Spearman分布;在大樣本下,Spearman等級相關系數的檢驗統計量為Z統計量,定義為Z統計量近似服從標準正態分布。如果兩變量的正相關性較強,它們秩的變化具有同步性,于是683.Kendall相關系數
用非參數檢驗方法度量定序變量間的線性相關關系
利用變量秩數據計算一致對數目和非一致對數目。
當兩個變量具有較強的正相關關系,則一致對數目較大,非一致對數目較小,當兩個變量具有較強的負相關關系,則一致對數目較小,非一致對數目較大,
當兩個變量相關性較弱,則一致對數目和非一致對數目大致相等3.Kendall相關系數69Kendall相關系數在小樣本下,Kendall相關系數服從Kendall分布;在大樣本下,Kendall相關系數的檢驗統計量為Z統計量,定義為:
Z統計量近似服從標準正態分布。Kendall相關系數在小樣本下,Kendall相關系70spss回歸分析相關分析課件71偏相關分析:偏相關分析和偏相關系數
簡單相關系數研究兩變量間線性相關性,若還存在其他因素影響,其往往夸大變量間的相關性,不是兩變量間線性相關強弱的真實體現。例如,研究商品的需求量、價格和消費者收入之間的線性關系時,需求量和價格的相關關系實際還包含了消費者收入對價格和商品需求量的影響。此時,單純利用簡單相關系數來評價變量間的相關性是不準確的,需要在剔除其他相關因素影響的條件下計算變量間的相關。偏相關分析:偏相關分析和偏相關系數72
(3)偏相關分析也稱凈相關分析,它在控制其他變量線性影響的條件下分析兩變量間的線性關系,所采用的工具是偏相關系數。
(4)控制變量個數為1時,偏相關系數稱一階偏相關;
控制兩個變量時,偏相關系數稱為二階偏相關;控制變量的個數為0時,偏相關系數稱為零階偏相關,也就是簡單相關系數。偏相關分析:(3)偏相關分析也稱凈相關分析,它在控制其他變量線性影響的73偏相關系數的分析步驟:計算樣本的偏相關系數假設有三個變量y、x1和x2,在分析x1和y之間的凈相關時,需控制x2的線性作用,則x1和y之間的一階偏相關定義為:偏相關系數的取值范圍及大小含義與相關系數相同。偏相關系數的分析步驟:計算樣本的偏相關系數74
(2)對樣本來自的兩總體是否存在顯著的凈相關進行推斷,檢驗統計量為:
其中,r為偏相關系數,n為樣本數,q為階數。t統計量服從n-q-2個自由度的t分布。(2)對樣本來自的兩總體是否存在顯著的凈相關進行推斷,檢驗75對于案例8-1,已經分析了家庭收入與計劃購房面積之間的相關性。直觀感覺這種相關性會受到家庭常住人口數影響。為此可將家庭常住人口數作為控制變量,對家庭收入與計劃購房面積作偏相關分析。分析(analyze)相關(correlate)偏相關(partial)對于案例8-1,已經分析了家庭收入與計劃購房面積之間的相關性76回歸分析:通過一個(些)變量的變化解釋另一變量的變化線性相關分析:計算線性相關系數r確定兩變量之間的相關方向與密切程度
無法表明兩變量之間的因果關系無法從一個或幾個變量(xi)的變化來推測另一個變量(y)的變化情況在于通過X的已知或設定值,去估計或預測Y的(總體)均值。變量Y是被預測或被解釋的變量,稱為因變量(DependentVariable)或被解釋變量(ExplainedVariable)變量X是用來預測或解釋因變量的變量,稱為自變量(IndependentVariable)或解釋變量(ExplanatoryVariable)回歸分析:通過一個(些)變量的變化解釋另一變量的變化線性相77理論和方法具有一致性;相關分析是回歸分析的基礎和前提,無相關就無回歸,相關程度越高,回歸越好;回歸分析是相關分析的繼續和深化;相關系數和回歸系數方向一致,可以互相推算。回歸分析理論和方法具有一致性;回歸分析78(二)回歸分析的種類按自變量的多少分
簡單(一元)回歸:y=a+bx
復(多元)回歸:y=0+1x1+2x2+…+nxn按回歸方程式的特征分線性回歸:因變量為自變量的線性函數。y=a+bx一元線性回歸方程非線性回歸:因變量為自變量的非線性函數(二)回歸分析的種類79定義:描述因變量y如何依賴于自變量x和誤差項方程一元線性回歸模型可表示為y是x的線性函數
部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項是隨機變量反映除了x和y之間的線性關系以外的隨機因素對y的影響是不能由x和y之間的線性關系所解釋的變異性
稱為模型的參數
回歸模型(regressionmodel)
定義:描述因變量y如何依賴于自變量x和誤差項80回歸方程的方差分析回歸方程的方差分析81SSR占SST的比例,用判定系數
表示;用來衡量回歸方程對y的解釋程度。
SSR占SST的比例,用判定系數表示;用來衡量回歸82在給定樣本中,SST不變,如果實際觀測點離樣本回歸線越近,則SSR在SST中占的比重越大,因此回歸直線的擬合優度可用下面的判定系數(可決系數)測度判定系數(coefficientofdetermination)的取值范圍:越接近1,說明實際觀測點離樣本線越近,擬合優度越高。
在給定樣本中,SST不變,如果實際觀測點離樣本回歸線越近,則83判定系數無方向性,相關系數則有方向,其方向與樣本回歸系數β1相同;判定系數說明變量值的總離差平方和中可以用回歸線來解釋的比例,相關系數只說明兩變量間關聯程度及方向;相關系數有夸大變量間相關程度的傾向,因而判定系數是更好的度量值。回歸分析判定系數無方向性,相關系數則有方向,其方向與樣本回歸系數β184定義:觀察值與回歸值之間的平均誤差。公式估計標準誤差定義:觀察值與回歸值之間的平均誤差。估計標準誤差85一元線性回歸模型的檢驗
線性回歸模型的檢驗分二大類:統計檢驗計量經濟檢驗從統計學的角度檢驗所估計的樣本回歸函數的有效性從基本假設是否成立這一角度檢驗最小二乘估計法的適用性及其改進擬合優度檢驗顯著性檢驗一元線性回歸模型的檢驗
線性回歸模型的檢驗分二大類86擬合優度檢驗
擬合優度檢驗主要用來檢驗樣本回歸函數與實際觀測點的“接近”程度,可用判定系數(或相關系數、估計標準誤差)測度。顯著性檢驗線性關系的檢驗回歸系數的檢驗回歸分析擬合優度檢驗回歸分析87多元線性回歸模型
多重線性回歸方程:Y=β0+β1x1+β2x2+…βpxp+εa是常數,β0,:回歸常數,β1…βp是偏回歸系數。偏回歸系數表示其他自變量假設不變時,某一個自變量變化而引起因變量變化的比率。若要比較各自變量對因變量的貢獻,則要將原始數據分別轉化為標準分數,以標準分數建立標準回歸方程:ZY=?1Zx1+?2Zx2此時的?是標準偏回歸系數。多元線性回歸模型
多重線性回歸方程:Y=β0+β1x1+β288多元線性回歸的條件線性走勢:自變量與因變量之間的關系是線性的。獨立性:因變量的取值必須獨立。正態性:就自變量的任何一個線性組合,因變量均服從正態分布。方差齊性:就自變量的任何一個線性組合,因變量的方差均相同。樣本要求:樣本數應當在希望分析的自變量數的20倍以上為宜。(逐步回歸:樣本個數/自變量個數>40)必須是連續變量多元線性回歸的條件線性走勢:自變量與因變量之間的關系是線性的89多元回歸方程中的自變量選擇強行進入法(enter),即一般所稱的復回歸分析法。強迫所有變量有順序地進入回歸方程。在研究設計中,如果研究者事先建立假設,決定變量的重要性層次,則應使用enter法比較合適。此法又稱“層次式進入法”(hierarchicalenter)
后退法(Backward),將已納入方程的變量按對因變量的貢獻大小由小到大依次剔除,每剔除一個自變量,即重新檢驗每一自變量對因變量的貢獻。
前進法(Forward),對已納入方程的變量不考察其顯著性,直到方程外變量均達不到入選標準。
強制剔除法(Remove)與后退法相同,只是篩選的是Block多元回歸方程中的自變量選擇強行進入法(enter),90逐步回歸法Stepwise運用很廣,報告中出現的幾率最高。結合了前進法和后退法的優點。第一,模型中先不包含任何預測變量,與因變量相關最高者首先進入回歸方程;第二,控制回歸方程中的變量后,根據每個預測變量與因變量的偏相關的高低來決定進入方程的順序;第三,已進入方程的自變量,每引入一個自變量,就對方程中的每一自變量進行顯著性檢驗,若發現不顯著,就剔除;每剔除一個自變量有也對留在方程中的自變量再進行顯著性檢驗,再不顯著,又剔除,直至沒有自變量引入,也沒有自變量剔除為止。在選擇回歸的方法時,注意專業上的要求要先于統計學檢驗的準則。Hower(1987)建議:(1)應優先使用enter或stepwise。(2)使用enter時,可根據研究計劃時的相關理論,決定變量投入的順序。逐步回歸法Stepwise運用很廣,報告中出現的幾率最高。91通過樣本數據建立回歸方程后一般不能立即用于對實際問題的分析和預測,通常要進行各種統計檢驗.包括回歸方程的擬合優度檢驗回歸方程的顯著性檢驗回歸系數的顯著性檢驗殘差分析等通過樣本數據建立回歸方程后一般不能立即用于對實際問題的分析和92擬合優度檢驗檢驗樣本數據點聚集在回歸線周圍的密集程度,從而評價回歸方程對樣本數據的代表程度。認為y各觀測值的之間的差異主要由兩個方面的原因造成:一是解釋變量x取值的不同造成的;二是由于其他隨機因素造成的。SST=SSA+SSE(回歸平方和+剩余平方和)若SSA所占的比例遠大于SSE所占的比例,那么回歸方程的擬合優度會比較高。擬合優度檢驗檢驗樣本數據點聚集在回歸線周圍的密集程度,從而評93擬合優度檢驗采用R2統計量,該統計量稱為判定系數或決定系數,它是SSA/SST反映因變量的全部變異中能夠通過回歸關系被自變量解釋的比例,即檢驗回歸的效果如何。如果自變量的個數很多,有時要以調整后的決定系數代替原先的決定系數。因為增加新的自變量會使決定系數增大,這種決定系數會有高人為控制的機制在內,此時用調整后的決定系數更好擬合優度檢驗擬合優度檢驗采用R2統計量,該統計量稱為判定系數或決定系數,94顯著性檢驗線性回歸方程能夠較好地反映被解釋變量和解釋變量之間統計關系的前提應是,被解釋變量和解釋變量之間確實存在顯著的線性關系。回歸方程的顯著性檢驗正是要檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著,用線性模型來描述它們之間的關系是否恰當。基本出發點與擬合優度檢驗非常相似。檢驗采用F統計量。主要目的是研究回歸方程中的每個解釋變量與被解釋變量之間是否存在顯著的線性關系,也就是研究解釋變量能夠有效地解釋被解釋變量的線性變化,他們能夠保留在線性回歸方程中。是圍繞回歸系數估計值的抽樣分布展開的,由此構造服從某種理論分布的檢驗統計量,并進行檢驗。顯著性檢驗線性回歸方程能夠較好地反映被解釋變量和解釋變量之間95t統計量:在一元線性回歸分析中,回歸方程顯著性檢驗和回歸系數顯著性檢驗的作用是相同的,兩者可以相互代替,同時回歸方程顯著性檢驗中F=t2。但在多元線性回歸中的這兩種檢驗通常不能互相替代。t統計量:在一元線性回歸分析中,回歸方程顯著性檢驗和回歸系數96殘差分析所謂殘差是指由回歸方程計算所得的預測值與實際樣本值之間的差距。殘差分析是回歸方程檢驗中的重要組成部分,其出發點是,如果回歸方程能較好地反映被解釋變量的特征和變化規律,那么殘差序列中應不包含明顯的規律行和趨勢性。殘差分析的主要任務可大致歸納為,分析殘差是否服從均值為0的正態分布、分析殘差是否為等方差的正態分布、分析殘差序列是否獨立、借助殘差探測樣本中的異常值等。圖形分析和數值分析是殘差分析的有效工具殘差分析所謂殘差是指由回歸方程計算所得的預測值與實際樣本值之97如何看回歸結果?哪些自變量(我們選定)進入了回歸方程對回歸方程進行檢驗,看方程是否有意義看回歸效果,R2如何看回歸結果?哪些自變量(我們選定)進入了回歸方程98回歸分析的三個重要指標方差分析:F檢驗用于檢驗回歸模型與數據的擬合程度。若F值顯著,表明預測變量與指標變量之間存在很強的線性關系,也可以說回
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于區塊鏈的數據溯源技術-洞察闡釋
- 竹材生物質轉化-洞察闡釋
- 車庫使用權及附屬設施租賃合同規范
- 倉儲物流中心廠房場地出租及倉儲服務合同
- 車棚消防設施設計與施工合同
- 叉車操作員勞動合同及職業健康檢查協議
- 攤位使用權及廣告發布合作合同
- 餐廳裝修工程材料采購合同
- 特色餐廳股權轉讓與品牌運營管理合同
- 車庫租賃與新能源充電服務合同
- 青島版信息技術第二冊《第二單元 信息隱私與安全 1 個人隱私好習慣》教學設計
- Unit6RainorShine課文知識填空2024-2025學年人教版英語七年級下冊
- 三力老人測試題及答案
- 更換外窗施工方案
- 四年級下冊道德與法制全冊電子教案備課
- 《食源性疾病》課件
- JJF(鄂)149-2025 電力行業碳計量技術規范 火電機組碳排放量化
- 2025年春統編版語文一年級下冊第八單元單元任務群整體公開課一等獎創新教學設計
- 新疆三校生考試真題語文
- 《房顫教學查房》課件
- 危重患者護理課件(完整版)
評論
0/150
提交評論