回歸分析SPSS操作課件_第1頁
回歸分析SPSS操作課件_第2頁
回歸分析SPSS操作課件_第3頁
回歸分析SPSS操作課件_第4頁
回歸分析SPSS操作課件_第5頁
已閱讀5頁,還剩81頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

回歸分析回歸分析

回歸分析基本概念1

一元線性回歸分析2多元線性回歸分析3回歸分析基本概念1一元線回歸分析基本概念1

回歸分析主要解決以下幾方面的問題:

通過分析大量的樣本數據,確定變量之間的數學關系式。對所確定的數學關系式的可信程度進行各種統計檢驗,并區分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。利用所確定的數學關系式,根據一個或幾個變量的值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確度。回歸分析基本概念1回歸分析主要解決以下幾方面的問題:2.1統計學上的定義和計算公式

定義:一元線性回歸分析是分析某一個因素(自變量)是如何影響另一事物(因變量)的過程,所進行的分析是比較理想化的。其實,在現實生活中,任何一個事物(因變量)總是受到其他多種事物(多個自變量)的影響。一元線性回歸分析22.1統計學上的定義和計算公式定義:一元線性回歸

研究問題

合成纖維的強度與其拉伸倍數有關,測得試驗數據如表9-1所示。求合成纖維的強度與拉伸倍數之間是否存在顯著的線性相關關系。2.2SPSS中實現過程研究問題2.2SPSS中實現過程表1 強度與拉伸倍數的試驗數據序號拉伸倍數強度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1表1 強度與拉伸倍數的試驗數據序號拉伸倍數強度

實現步驟圖1在菜單中選擇“Linear”命令實現步驟圖1在菜單中選擇“Linear”命令圖2“LinearRegression”對話框因變量自變量指定回歸方法全部選入圖2“LinearRegression”對話框因變量自圖3“LinearRegression:statistics”對話框與回歸系數相關的統計量提供決定系數、估計標準誤、ANOVA表等異常值診斷報告殘差超過2個標準差的被試圖3“LinearRegression:statis

圖4“LinearRegression:Plots”對話框

調整預測值標準化預測值標準化殘差剔除殘差學生化殘差學生化剔除殘差輸出標準化殘差相對于因變量的散布圖標準化殘差圖直方圖正態概率圖圖4“LinearRegression:Plots”對應x值的殘差圖x0良好模式對應x值的殘差圖x0良好模式x0方差不齊x0方差不齊x0不滿足線性回歸假設x0不滿足線性回歸假設圖5“LinearRegression:Save”對話框

預測值殘差本對話框用來定義存儲進入數據文件的新變量預測區間均數的置信區間個體的容許區間學生化殘差標準化殘差未標準化殘差圖5“LinearRegression:Save”對話

(1)輸出的結果文件中的第一部分:X與Y的簡單相關系數2.3結果和討論(1)輸出的結果文件中的第一部分:X與Y的簡單相關系數21)決定系數R2

它表示在因變量y的總變異中可由回歸方程所解釋部分的比例。0<R2≤1,越接近于1,說明回歸方程效果越好。2)校正的決定系數AdjR20<AdjR2≤1,越接近于1,說明回歸方程效果越好。即使自變量對Y無顯著意義,R2也隨方程中的變量個數增加而增加。AdjR2可以懲罰復雜模型。1)決定系數R22)校正的決定系數AdjR2即使自變量對F=t2截距回歸系數標準化回歸系數結果顯示:回歸方程顯著,即合成纖維的強度受拉伸倍數的顯著影響F=t2截距標準化回歸系數結果顯示:回歸方程顯著,即合成纖維(2)第二部分異常值分析

如果標準化殘差超過2/-2,稱為異常值outliers。當樣本量比較小,異常值又會影響回歸系數的估計時,應該關注異常值的影響。

異常值a不影響

異常值b影響(2)第二部分異常值分析如果標準化殘差超過2/-2,稱為第i個觀察值的學生化殘差

考慮了用來計算殘差的值有不同的方差。這種調整能夠使殘差分析更加敏感地發現方差不齊。學生化殘差超過2和-2的點可認為是異常值第i個觀察值的學生化殘差考慮了用(3)第三部分數據窗口的存儲

未標準化殘差標準化殘差學生化殘差預測區間均數的置信區間個體的容許區間(3)第三部分數據窗口的存儲未標準化殘差預測區間1.7利用回歸方程進行估計和預測均數的置信區間:均數界值×標準誤個體的容許區間(參考值范圍):

均數界值×標準差1.7利用回歸方程進行估計和預測均數的置信區間:22可編輯22可編輯可信區間與預測區間示意圖可信區間與預測區間示意圖3.1統計學上的定義

定義:在上一節中討論的回歸問題只涉及了一個自變量,但在實際問題中,影響因變量的因素往往有多個。例如,商品的需求除了受自身價格的影響外,還要受到消費者收入、其他商品的價格、消費者偏好等因素的影響;影響水果產量的外界因素有平均氣溫、平均日照時數、平均濕度等。多元線性回歸分析33.1統計學上的定義定義:在上一節中討論的回歸問研究者往往是根據自己的經驗或借鑒他人的研究結果選定若干個自變量,這些自變量對因變量的影響作用是否都有統計學意義還有待于考察。在建立回歸方程的過程中有必要考慮對自變量進行篩選,挑選出若干個與因變量作用較大的變量建立回歸方程。剔除那些對因變量沒有影響的變量,從而建立一個較理想和穩定的回歸方程。3.2逐步回歸研究者往往是根據自己的經驗或借鑒他人的研究結果選定若干個自變逐步回歸的思想:1.開始方程中沒有自變量,然后按自變量對y的貢獻大小由大到小依次挑選進入方程,每選入一個變量,都要對進行檢驗,決定變量的取或舍。2.每一步都作一次如下的檢驗:

H0:p個自變量為好

H1:p+1個自變量為好

逐步回歸的思想:1.開始方程中沒有自變量,然后按自變量對y

采用F作為統計量。

SSE(H0)-SSE(H1)

F=

SSE(H1)/(n-p-2)

其中SSE(H0)表示用p個變量回歸的殘差平方和

SSE(H1)表示用p+1個變量回歸的殘差平方和。

若F≥F(界值),則拒絕H0

,可決定增多相應的自變量;否則,不拒絕H0

,可決定不增加相應的自變量。

采用F作為統計量。

研究問題

用多元回歸分析來分析36個員工多個心理變量值(z1~z5)對員工滿意度my的預測效果,測得試驗數據如表9-2所示。3.2SPSS中實現過程研究問題3.2SPSS中實現過程表9-2 員工多個心理變量值和員工滿意度數據z1z2z3z4Z5滿意度66.0064.0058.001.081.0025.0055.0050.0053.001.001.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.0052.0056.0063.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.081.1420.0053.0066.0055.001.001.0025.00表9-2 員工多個心理變量值和員工滿意度數據z1z2z3z4z1z2z3z4z5滿意度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.0052.0051.001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.1419.0053.0057.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00z1z2z3z4z5滿意度61.0055.0058.

實現步驟圖7-7“LinearRegression”對話框(二)逐步回歸Enter:所有自變量強制進入回歸方程實現步驟圖7-7“LinearRegressio圖3“LinearRegression:Statistics”對話框描述性統計量部分相關和偏相關共線性診斷德賓-沃森自相關關于回歸系數的選擇項非標準化回歸系數95%置信區間非標準化回歸系數的方差-協方差與回歸系數相關的統計量提供決定系數、估計標準誤、ANOVA表等顯示每個自變量進入方程后對R2和F值的影響觀測值診斷圖3“LinearRegression:Statist當自變量之間存在高度相關性,將引起回歸方程估計結果不穩定,參數(回歸系數)估計的標準誤大大增加,稱為共線性。共線性診斷:

1)條件數(ConditionIndex):k<10(輕度)10<k<30(中度)k>30(嚴重)

2)方差擴大因子(VIF):>5或10,嚴重

3)Tolence(容忍度):

<.1嚴重當自變量之間存在高度相關性,將引起回歸方程估計結果不穩定,參圖6“LinearRegression:Options”對話框逐步回歸法變量取舍標準用F值的顯著性水平作為標準用F值作為標準在回歸方程中包括常項缺失值的處理方式用均值代替缺失值圖6“LinearRegression:Options

(1)輸出結果文件中的第一部分:3.3結果和討論復相關=√R2YR2y.12YX1X2(1)輸出結果文件中的第一部分:3.3結果和討論

(1)輸出結果文件中的第一部分:3.3結果和討論R2的改變都是顯著的,說明增加自變量可以顯著地改善對因變量的預測第三個回歸方程的解釋率最高(1)輸出結果文件中的第一部分:3.3結果和討論2)輸出的結果文件中第二部分:F檢驗的結果顯示,三個回歸方程都顯著1H0:B1=02H0:B1=B2=03H0:B1=B2=B3=02)輸出的結果文件中第二部分:F檢驗的結果顯示,三個非標準化回歸方程:Y=7.337+.276×Z1+eY=14.129+.227×Z1-3.301×Z4+eY=4.335+.268×Z1-6.286×Z4+10.188×Z5+e標準化回歸方程:Y=.413×Z1+eY=.340×Z1-.336×Z4+eY=.401×Z1-6.639×Z4+.477×Z5+e多重回歸的矩陣表達

1.一般公式

2.矩陣表示

3.最小二乘估計非標準化回歸方程:標準化回歸方程:多重回歸的矩陣表達YX1X2Zero-Order零階相關/簡單相關YX1X2Zero-Order零階相關/簡單相關PartCorrelation部分相關YX1X2PartcorrelationCorrelationbetweenYandX1whenvariableduetoX2hasbeenpartialedoutofX1,butnotoutofY.PartCorrelation部分相關YX1X2PartPartialCorrelation偏相關YX1X2partialcorrelationofYandX,controllingforotherpredictors.SimplecorrelationofYandX,afterallinfluencesofpredictorshavebeenpartialedoutofbothYandX.PartialCorrelation偏相關YX1X2par作業等距、等級和分類變量的相關一元回歸二元回歸各做一個分析,數據“作業.sav”作業等距、等級和分類變量的相關43可編輯43可編輯回歸分析回歸分析

回歸分析基本概念1

一元線性回歸分析2多元線性回歸分析3回歸分析基本概念1一元線回歸分析基本概念1

回歸分析主要解決以下幾方面的問題:

通過分析大量的樣本數據,確定變量之間的數學關系式。對所確定的數學關系式的可信程度進行各種統計檢驗,并區分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。利用所確定的數學關系式,根據一個或幾個變量的值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確度。回歸分析基本概念1回歸分析主要解決以下幾方面的問題:2.1統計學上的定義和計算公式

定義:一元線性回歸分析是分析某一個因素(自變量)是如何影響另一事物(因變量)的過程,所進行的分析是比較理想化的。其實,在現實生活中,任何一個事物(因變量)總是受到其他多種事物(多個自變量)的影響。一元線性回歸分析22.1統計學上的定義和計算公式定義:一元線性回歸

研究問題

合成纖維的強度與其拉伸倍數有關,測得試驗數據如表9-1所示。求合成纖維的強度與拉伸倍數之間是否存在顯著的線性相關關系。2.2SPSS中實現過程研究問題2.2SPSS中實現過程表1 強度與拉伸倍數的試驗數據序號拉伸倍數強度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1表1 強度與拉伸倍數的試驗數據序號拉伸倍數強度

實現步驟圖1在菜單中選擇“Linear”命令實現步驟圖1在菜單中選擇“Linear”命令圖2“LinearRegression”對話框因變量自變量指定回歸方法全部選入圖2“LinearRegression”對話框因變量自圖3“LinearRegression:statistics”對話框與回歸系數相關的統計量提供決定系數、估計標準誤、ANOVA表等異常值診斷報告殘差超過2個標準差的被試圖3“LinearRegression:statis

圖4“LinearRegression:Plots”對話框

調整預測值標準化預測值標準化殘差剔除殘差學生化殘差學生化剔除殘差輸出標準化殘差相對于因變量的散布圖標準化殘差圖直方圖正態概率圖圖4“LinearRegression:Plots”對應x值的殘差圖x0良好模式對應x值的殘差圖x0良好模式x0方差不齊x0方差不齊x0不滿足線性回歸假設x0不滿足線性回歸假設圖5“LinearRegression:Save”對話框

預測值殘差本對話框用來定義存儲進入數據文件的新變量預測區間均數的置信區間個體的容許區間學生化殘差標準化殘差未標準化殘差圖5“LinearRegression:Save”對話

(1)輸出的結果文件中的第一部分:X與Y的簡單相關系數2.3結果和討論(1)輸出的結果文件中的第一部分:X與Y的簡單相關系數21)決定系數R2

它表示在因變量y的總變異中可由回歸方程所解釋部分的比例。0<R2≤1,越接近于1,說明回歸方程效果越好。2)校正的決定系數AdjR20<AdjR2≤1,越接近于1,說明回歸方程效果越好。即使自變量對Y無顯著意義,R2也隨方程中的變量個數增加而增加。AdjR2可以懲罰復雜模型。1)決定系數R22)校正的決定系數AdjR2即使自變量對F=t2截距回歸系數標準化回歸系數結果顯示:回歸方程顯著,即合成纖維的強度受拉伸倍數的顯著影響F=t2截距標準化回歸系數結果顯示:回歸方程顯著,即合成纖維(2)第二部分異常值分析

如果標準化殘差超過2/-2,稱為異常值outliers。當樣本量比較小,異常值又會影響回歸系數的估計時,應該關注異常值的影響。

異常值a不影響

異常值b影響(2)第二部分異常值分析如果標準化殘差超過2/-2,稱為第i個觀察值的學生化殘差

考慮了用來計算殘差的值有不同的方差。這種調整能夠使殘差分析更加敏感地發現方差不齊。學生化殘差超過2和-2的點可認為是異常值第i個觀察值的學生化殘差考慮了用(3)第三部分數據窗口的存儲

未標準化殘差標準化殘差學生化殘差預測區間均數的置信區間個體的容許區間(3)第三部分數據窗口的存儲未標準化殘差預測區間1.7利用回歸方程進行估計和預測均數的置信區間:均數界值×標準誤個體的容許區間(參考值范圍):

均數界值×標準差1.7利用回歸方程進行估計和預測均數的置信區間:65可編輯22可編輯可信區間與預測區間示意圖可信區間與預測區間示意圖3.1統計學上的定義

定義:在上一節中討論的回歸問題只涉及了一個自變量,但在實際問題中,影響因變量的因素往往有多個。例如,商品的需求除了受自身價格的影響外,還要受到消費者收入、其他商品的價格、消費者偏好等因素的影響;影響水果產量的外界因素有平均氣溫、平均日照時數、平均濕度等。多元線性回歸分析33.1統計學上的定義定義:在上一節中討論的回歸問研究者往往是根據自己的經驗或借鑒他人的研究結果選定若干個自變量,這些自變量對因變量的影響作用是否都有統計學意義還有待于考察。在建立回歸方程的過程中有必要考慮對自變量進行篩選,挑選出若干個與因變量作用較大的變量建立回歸方程。剔除那些對因變量沒有影響的變量,從而建立一個較理想和穩定的回歸方程。3.2逐步回歸研究者往往是根據自己的經驗或借鑒他人的研究結果選定若干個自變逐步回歸的思想:1.開始方程中沒有自變量,然后按自變量對y的貢獻大小由大到小依次挑選進入方程,每選入一個變量,都要對進行檢驗,決定變量的取或舍。2.每一步都作一次如下的檢驗:

H0:p個自變量為好

H1:p+1個自變量為好

逐步回歸的思想:1.開始方程中沒有自變量,然后按自變量對y

采用F作為統計量。

SSE(H0)-SSE(H1)

F=

SSE(H1)/(n-p-2)

其中SSE(H0)表示用p個變量回歸的殘差平方和

SSE(H1)表示用p+1個變量回歸的殘差平方和。

若F≥F(界值),則拒絕H0

,可決定增多相應的自變量;否則,不拒絕H0

,可決定不增加相應的自變量。

采用F作為統計量。

研究問題

用多元回歸分析來分析36個員工多個心理變量值(z1~z5)對員工滿意度my的預測效果,測得試驗數據如表9-2所示。3.2SPSS中實現過程研究問題3.2SPSS中實現過程表9-2 員工多個心理變量值和員工滿意度數據z1z2z3z4Z5滿意度66.0064.0058.001.081.0025.0055.0050.0053.001.001.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.0052.0056.0063.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.081.1420.0053.0066.0055.001.001.0025.00表9-2 員工多個心理變量值和員工滿意度數據z1z2z3z4z1z2z3z4z5滿意度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.0052.0051.001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.1419.0053.0057.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00z1z2z3z4z5滿意度61.0055.0058.

實現步驟圖7-7“LinearRegression”對話框(二)逐步回歸Enter:所有自變量強制進入回歸方程實現步驟圖7-7“LinearRegressio圖3“LinearRegression:Statistics”對話框描述性統計量部分相關和偏相關共線性診斷德賓-沃森自相關關于回歸系數的選擇項非標準化回歸系數95%置信區間非標準化回歸系數的方差-協方差與回歸系數相關的統計量提供決定系數、估計標準誤、ANOVA表等顯示每個自變量進入方程后對R2和F值的影響觀測值診斷圖3“LinearRegression:Statist當自變量之間存在高度相關性,將引起回歸方程估計結果不穩定,參數(回歸系數)估計的標準誤大大增加,稱為共線性。共線性診斷:

1)條件數(ConditionIndex):k<10(輕度)10<k<30(中度)k>30(嚴重)

2)方差擴大因子(VIF):>5或10,嚴重

3)Tolence(容忍度):

<.1嚴重當自變量之間存在高度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論