




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第9章spss的相關分析和線性回歸分析相關分析和回歸分析是統計分析方法中最重要內容之一,是多元統計分析方法的基礎。相關分析和回歸分析主要用于研究和分析變量之間的相關關系,在變量之間尋求合適的函數關系式,特別是線性表達式。本章主要內容:對變量之間的相關關系進行分析(Correlate)。其中包括簡單相關分析(Bivariate)和偏相關分析(Partial)。建立因變量和自變量之間回歸模型(Regression),其中包括線性回歸分析(Linear)和曲線估計(CurveEstimation)。數據條件:參與分析的變量數據是數值型變量或有序變量。本章內容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸相關分析用于測量了解變量之間的密切程度。如:教育事業的發展與科學技術的發展存在著一定的關系,學生的數學成績與物理成績存在著一定的關系,相關分析就是要分析這種密切程度。相關類型:1、直線相關:兩變量呈線性共同增大,或一增一減。2、曲線相關:兩變量存在相關趨勢,但非線性。此時若進行直線相關,有可能出現無相關性的結論,曲線相關分析是一般都先將變量進行變量變換,以將趨勢變換為直線分析,或者采用曲線回歸方法來分析。相關的方向
依照兩種變量變動的方向分,有正相關、負相關和無相關(零相關)。相關分析基本步驟:1.繪制散點圖2.計算相關系數3.進行相關系數檢驗如果兩個定量變量沒有關系,就談不上建立模型或進行回歸。但怎樣才能發現兩個變量有沒有關系呢?最簡單的直觀辦法就是畫出它們的散點圖。下面是四組數據的散點圖;每一組數據表示了兩個變量x和y的樣本。第1點不相關正線性相關負線性相關相關但非線性相關但如何在數量上描述相關呢?下面引進幾種對相關程度的度量。Pearson相關系數Spearman秩相關系數Kendallt
相關系數Pearson相關系數(Pearson’scorrelationcoefficient)又叫相關系數或線性相關系數。它一般用字母r表示。
它是由兩個變量的樣本取值得到,這是一個描述線性相關強度的量,取值于-1和1之間。當兩個變量有很強的線性相關時,相關系數接近于1(正相關)或-1(負相關),而當兩個變量不那么線性相關時,相關系數就接近0。Pearson相關系數的局限性:①要求變量服從正態分布②只能度量線性相關性,對于曲線相關等更為復雜的情形,該相關系數的大小并不能代表相關性的強弱。如果Pearson系數很低,只能說明兩變量之間沒有線性關系,并不能說明兩者之間沒有相關關系。也就是說,該指標只能度量線性相關性,而不是相關性。(線性相關性隱含著相關性,而相關性并不隱含著線性相關性)另外:樣本中存在的極端值對Pearson相關系數的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變量變換,以避免因為一兩個數值導致出現錯誤的結論。Spearman秩相關系數
它和Pearson相關系數定義有些類似,只不過在定義中把點的坐標換成各自樣本的秩(即樣本點大小的“座次”)。,為兩變量各自對應的秩,為對應的秩之差。Spearman相關系數也是取值在-1和1之間,也有類似的解釋。Spearman秩相關系數適用范圍:Spearman相關系數更多用于測量兩個有序分類變量之間的相關程度。對于適合Pearson相關系數的數據亦可計算Spearman相關系數,但統計效能要低一些。通過它也可以進行不依賴于總體分布的非參數檢驗。側重于兩個分類變量均為有序分類的情況。這里的度量原理是把所有的樣本點配對(如果每一個點由x和y的秩組成的坐標(x,y)代表,一對點就是諸如(x1,y1)和(x2,y2)的點對),然后看每一對中的x和y的的秩的觀測值是否同時增加(或減少)。比如由點對(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說明x和y同時增長或同時下降,稱這兩點協同(concordant);否則就是不協同。如果樣本中協同的點數目多,兩個變量就更加正相關一些否則就更負相關些;如果樣本中不協同(discordant)與協同的點數差不過一樣多,兩個變量相關性就弱。Kendallτ
相關系數(Kendall’sτ
)Kendall’sτ統計量的數學定義為:Kendallτ
相關系數(Kendall’sτ
)U、V分別為協同和不協同的數目大樣本下采用的檢驗統計量為:Z統計量近似服從標準正態分布人們可能會問,上面的三種對相關的度量都是在其值接近1或-1時相關,而接近于0時不相關。到底如何才能夠稱為“接近”呢?這很難一概而論。但在計算機輸出中都有和這些相關度量相應的檢驗和p-值;因此可以根據這些結果來判斷是否相關畫散點圖Graphs→Scatter選擇散點圖的類型根據所選擇的散點圖類型,單擊Define對散點圖作具體定義。計算相關系數Analyze→Correlate→Bivariate選擇參加計算的變量到Variable中在CorrelationCoefficents框中選擇計算哪種相關系數在TestofSignificance框中選擇輸出單尾還是雙尾p值選擇Flagsignificancecorrelations輸出星號標記在Options中選擇其他描述統計量簡單相關分析菜單簡單相關分析實例:有50個從初中升到高中的學生。有他們在初三和高一的各科平均成績(數據在highschool.sav)。要求比較初三的成績是否和高中的成績相關。練習:利用數據SY-8.sav,對城鎮居民消費額與人均國內生產總值兩變量進行相關分析。分析結果從運行結果看,城鎮居民消費額與人均國內生產總值有很強的線形相關關系.本章內容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸偏相關分析
簡單相關分析計算兩個變量間的相關系數,分析兩個變量間線性關系的程度。往往因為第三個變量的作用,使相關系數不能真正反應兩個變量間的線性程度。例如用簡單相關系數檢驗,可以得到肺活量與身高、體重均存在較強的線性關系,如果對體重相同的人,分析身高和肺活量,是否身高越高肺活量越大呢?因為身高與體重有線性關系,體重又與肺活量存在線性關系,因此,很容易得出身高與肺活量存在較強線性關系的錯誤結論。
偏相關分析的任務就是在研究兩個變量之間的線性相關關系時控制可能對其產生影響的變量。分析身高與肺活量之間的相關性,就要控制體重在相關分析中的影響。正確運用偏相關分析,可以解釋變量間的真實關系,識別干擾變量并尋找隱含的相關性。偏相關系數的計算
控制了變量z,變量x、y之間的偏相關系數和控制了兩個變量,變量x、y之間的偏相關系數分別為
是控制了z的條件下,x、y之間的偏相關系數。是變量x、y間的簡單相關系數。偏相關系數的檢驗
檢驗的零假設:兩個變量間的偏相關系數為0。使用t檢驗,公式如下:r是相應的偏相關系數。n是觀測個數,k是控制變量的數目,n-k-2是自由度。在SPSS的偏相關分析過程的輸出中只給出偏相關系數和假設成立的概率p值。偏相關分析的操作
與簡單相關分析操作類似,只不過菜單為Analyze→Correlate→Partial實例:利用數據相關回歸分析(高校科研研究).sav,分析發表立項課題數與論文數之間的偏相關關系,其中投入高級職稱的人數為控制變量。練習:利用數據data10-03.sav,分析中山柏月生長量與4個氣候因素哪個因素有關。本章內容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸線性回歸分析
線性回歸是統計分析方法中最常用的方法之一。如果所研究的現象有若干個影響因素,且這些因素對現象的綜合影響是線性的,則可以使用線性回歸的方法建立現象(因變量)與影響因素(自變量)之間的線性函數關系式。由于多元線性回歸的計算量比較大,所以有必要應用統計分析軟件實現。這一節將專門介紹SPSS軟件的線性回歸分析的操作方法,包括求回歸系數,給出回歸模型的各項檢驗統計量值及相應的概率,對輸出結果的分析等相關內容。線性回歸模型假設條件與模型的各種檢驗1、線性回歸的假設理論(1)正態性假設:即所研究的變量均服從正態分布;(2)等方差假設:即各變量總體的方差是相等的;(3)獨立性假設,即各變量之間是相互獨立的;(4)殘差項無自相關性,即誤差項之間互不相關,
Cov(i,j)=02、線性回歸模型的檢驗項目(1)回歸系數的檢驗(t檢驗)。(2)回歸方程的檢驗(F檢驗)。(3)擬合程度判定(可決系數R2
)。(4)D.W檢驗(殘差項是否自相關)。(5)共線性檢驗(多元線性回歸)。(6)殘差圖示分析(判斷異方差性和殘差序列自相關)。
對初三和高一的各科平均成績這兩個變量的數據進行線性回歸,就是要找到一條直線來適當地代表圖中的那些點的趨勢。首先需要確定選擇這條直線的標準。這里介紹最小二乘回歸(leastsquaresregression)。古漢語“二乘”是平方的意思。這就是尋找一條直線,使得所有點到該直線的豎直距離的平方和最小。用數據尋找一條直線的過程也叫做擬合(fit)一條直線。根據計算,找到初三成績和高一成績的回歸直線。計算機輸出給出來截距(Constant)26.444和斜率(變量j3的系數)0.651。截距=26.444;斜率=0.651這個直線實際上是對所假設的下面線性回歸模型的估計(這里的e
是隨機誤差):我們得到的截距和斜率(26.444和0.651)是對b0和b1的估計。由于不同的樣本產生不同的估計,所以估計量是個隨機變量,它們也有分布,也可以用由他們構造檢驗統計量來檢驗b0和b1是不是顯著。拿回歸主要關心的來說,假設檢驗問題是計算機輸出也給出了這個檢驗:t檢驗統計量為9.089,而p-值為0.000。除了對b1的檢驗之外,還有一個說明自變量解釋因變量變化百分比的度量,叫做決定系數(coefficientofdetermination,也叫測定系數或可決系數),用R2表示。R2=0.632;這說明這里的自變量可以大約解釋63%的因變量的變化。R2越接近1,回歸就越成功。由于R2有當變量數目增加而增大的缺點,人們對其進行修改;有一修正的R2(adjustedRsquare)。此外,計算機還計算了一個在零假設下有F分布的檢驗統計量,它是用來檢驗回歸擬合好壞的(零假設是因變量和自變量沒有關系)。和剛才簡單的回歸模型類似,一般的有k個(定量)自變量x1,x2…,xk的對因變量y的線性回歸模型為(稱為多元回歸)這里b0,b1,…,bk稱為回歸系數。對計算機來說,計算多個自變量的回歸和計算一個自變量的情況類似,計算機也會自動輸出相應的檢驗結果。
用數據來擬合所選的一個模型時,并不一定所有的變量都顯著(并不一定所有的系數都有意義)。在多元回歸分析中,自變量的篩選一般有三種的策略和方法:
1.向前篩選法(Forward)。
2.向后篩選法(Backward)。
3.逐步回歸法(Stepwise)。各種方法的思路見課本P203。多元回歸中變量篩選問題畫散點圖先做數據散點圖,觀測因變量與自變量之間關系是否有線性特點若散點圖的趨勢大概呈線性關系,可以建立線性回歸模型Analyze→Regression→Linear選擇因變量變量到Dependent中,因變量選入Independent.在Method框中選擇回歸分析自變量篩選策略。選擇一個變量作為條件變量放到SelectionVariable中,并單擊Rule給定一個判斷條件,只有變量值滿足給定條件才參與回歸分析。在CaseLables框中指定哪個變量作為樣本數據點的標志變量,該變量的值將標在回歸分析的輸出圖形中。回歸分析基本操作線性回歸分析實例:利用數據相關回歸分析(高校科研研究).sav,分析發表立項課題數受那些因素的影響。練習:利用美國收入消費數據.sav,建立用消費來預測收入的回歸方程。利用數據A商品需求多元回歸.sav
建立一個以居民人均收入、A商品單價為自變量,銷售量為因變量的回歸模型。A商品需求多元回歸要注意的值有3個:adjustedRsquare,F,t由此得,回歸方程為Y=4.588+1.868X1-1.8X2t值(1.82)(6.93)(-2.455)本章內容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方便地進行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。不同模型的表示模型名稱回歸方程相應的線性回歸方程Linear(一元線性)Y=b0+b1tQuadratic(二次曲線)Y=b0+b1t+b2t2Compound(復合曲線)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(增長曲線)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對數曲線)Y=b0+b1ln(t)Cubic(三次曲線)Y=b0+b1t+b2t2+b3t3S曲線Y=eb0+b1/tLn(Y)=b0+b1/
tExponential(指數曲線)Y=b0*
eb1*tLn(Y)=ln(b0)+b1tInverse(逆函數)Y=b0+b1/tPower(冪函數)Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯函數)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)采用哪種擬合方式,可以畫散點圖判斷,但更主要的是取決于各種擬合模型對數據的充分描述(看修正AdjustedR2)曲線估計的基本操作Analyze→Regression→CurveEstimation選擇因變量變量到Dependent中。曲線估計的自變量可以是相關因素變量也可以是時間變量。如果自變量是相關因素變量,則選擇Variable選項,并把一個自變量指定到Independt里,如果是時間變量則選擇Time選項。在Models中選擇模型。選擇PlotModels選項繪制回歸線;選擇DisplayANOVAtable輸出各個模型的方差分析表和各回歸系數顯著性檢驗結果。在Save中選擇要保存的數據。實例:數據相關回歸分析(年人均消費支出和教育).sav1.利用1990~2002年的數據,以年人均消費性支出為自變量,教育支出為因變量擬合回歸模型。2.利用1981~2002年居民在外就餐消費的數據,對居民未來在外就餐的趨勢進行分析和預測。練習:利用數據居民收入支出情況,以人均生活費收入為自變量,人均生活費支出為因變量擬合回歸模型。曲線估計本章內容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸在現實中,經常需要判斷一些事情是否將要發生,候選人是否會當選?為什么一些人易患冠心病?為什么一些人的生意會獲得成功?此問題的特點是因變量只有兩個值,不發生(0)和發生(1)。這時,就無法直接采用一般線性回歸模型來分析了。Logistic(邏輯)回歸模型
設某一事件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寬波段激光Sn等離子體光譜特性及其動力學演化研究
- 氧化鋅基納米復合材料微結構調控及甲烷氣敏性能研究
- 漢初《老子》的傳承與老學新變研究
- 2025年全棉浴衣項目市場調查研究報告
- 房地產項目施工合同關鍵點
- Iduna蛋白的下調促進NLRP3介導的細胞焦亡在CAA發病中的作用
- 是花就要綻放800字15篇
- 2025年壓力管道作業特種作業操作證考試考前沖刺試卷
- 2025年初中地理學業水平考試模擬試卷三十四核心素養與環境保護
- 城市基礎設施項目安全負責人崗位職責
- 食品安全與質量檢測技能大賽考試題庫400題(含答案)
- 2024年浙江省嘉興市初三中考三模科學試卷試題(含答案詳解)
- 核心素養-空間觀念
- 吉林省長春市2024年中考語文真題試卷【附真題答案】
- DZ/T 0462.3-2023 礦產資源“三率”指標要求 第3部分:鐵、錳、鉻、釩、鈦(正式版)
- 梧州喜得寶礦業有限公司廣西梧州市金山頂金銀礦礦山地質環境保護與土地復墾方案
- 2024年職業衛生技術人員評價方向考試題庫附答案
- 安全管理之肉制品安全及防控措施
- 綠色算力基礎設施的能源與算力協同優化
- 中小學學生規范漢字書寫比賽硬筆格式
- 商品房買賣合同(示范文本)GF-2000-0171
評論
0/150
提交評論