spss教程第三章相關分析與回歸模型的建立與分析_第1頁
spss教程第三章相關分析與回歸模型的建立與分析_第2頁
spss教程第三章相關分析與回歸模型的建立與分析_第3頁
spss教程第三章相關分析與回歸模型的建立與分析_第4頁
spss教程第三章相關分析與回歸模型的建立與分析_第5頁
已閱讀5頁,還剩29頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章相關分析與回歸模型的建立與分析相關分析和回歸分析是統計分析方法中最重要內容之一,是多元統計分析方法的基礎。相關分析和回歸分析主要用于研究和分析變量之間的相關關系,在變量之間尋求合適的函數關系式,特別是線性表達式。本章主要內容:1、對變量之間的相關關系進行分析(Correlate)。其中包括簡單相關分析TOC o 1-5 h z()和偏相關分析()。2、建立因變量和自變量之間回歸模型(),其中包括線性回歸分析()和曲線估計()。數據條件:參與分析的變量數據是數值型變量或有序變量。3.1相關分析在中,可以通過菜單進行相關分析(),菜單如圖所示。圖相關分析菜單3.1.簡1單相關分析兩個變量之間

2、的相關關系稱簡單相關關系。有兩種方法可以反映簡單相關關系。一是通過散點圖直觀地顯示變量之間關系,二是通過相關系數準確地反映兩變量的關系程度。3.1.1散.點1圖軟件的繪圖命令集中在菜單。下面通過例題來介紹具體操作方法。例1數據庫中的變量表示山東省人均國內生產總值,表示山東省城鎮居民的消費額(資料來源:山東省200年統3計年鑒),現畫出散點圖來觀察兩個變量的關聯程度。具體操作步驟如下:首先打開數據-然后單擊打開散點圖對話框,如圖所示。然后選擇需要的散點圖,圖中的四個選項依次是:Simple簡單散點圖Matrix矩陣散點圖Overlay重疊散點圖3-D三維散點圖圖3.2散點圖對話框如果只考慮兩個變

3、量,可選擇簡單的散點圖,然后點擊,打開對話框如圖所示。-圖對話框選擇變量分別進入X軸和Y軸,點擊0K后就可以得到散點圖,見圖3.4。從下面輸出的人均國內生產總值與城鎮居民消費額的散點圖3.4中可以粗略地看出,兩個變量之間有強正相關的線性關系。人均國內生產總值(元)圖3.4散點圖3.1.1簡.單2相關分析操作簡單相關分析是指兩個變量之間的相關分析,主要是指對兩變量之間的線性相關程度作出定量分析。仍然數據為例,說明居民收入與某商品的銷售量兩變量的相關分析過程,具體操作如下:1打開數據庫后,單擊打開對話框,見圖所示。2S1BivariateCorrelationsVariables:OKIPaste

4、CancelHelpI、從左邊的變量框中選擇需要考察的兩個變量進入框內,從欄內選擇相關系數的種類,有相關系數,d一致性系數和等級相關系數。從檢驗欄內選擇檢驗方式,有雙尾檢驗和單尾檢驗兩種。3單擊計描述,見圖3按紐,選擇輸出項和缺失值的處理方式。本例中選擇輸出基本統所示。圖:對話框4單擊,可以得到相關分析的結果。從表()可以得到兩個變量的基本統計描述,從表中可以得到相關系數及對相關系數的檢驗結果,由于尾概率就小于0.0,故1說明兩變量之間存在著顯著的線性相關性。表()基本統計描述DescriptiveStatisticsMeanStd.DeviationN城鎮居民消費額(元)2582.28002

5、335.9638425人均國內生產總值(元)3689.88003701.5079825表()相關系數檢驗Correlations城鎮居民消費額(元)人均國內生產總值(元)城鎮居民消費額(元)PearsonCorrelation1.998(*)Sig.(2-tailed)-.000N2525人均國內生產總值(元)PearsonCorrelation.998(*)1Sig.(2-tailed).000-N2525*Correlationissignificantatthe0.01level(2-tailed).從表()中可以看到兩個變量相關性分析的結果:相關系數是9相關程度非常高,且假設檢驗的P值

6、遠遠地小于,可以認為居民收入與某產品的銷量存在線性正相關關系。偏2相關分析簡單相關關系只反映兩個變量之間的關系,但如果因變量受到多個因素的影響時,因變量與某一自變量之間的簡單相關關系顯然受到其它相關因素的影響,不能真實地反映二者之間的關系,所以需要考察在其它因素的影響剔除后二者之間的相關程度,即偏相關分析。例2:為了考察火柴銷售量的影響因素,選擇煤氣戶數、卷煙銷量、蚊香銷量、打火石銷量作為影響因素,得數據表3.。2試求火柴銷售量與煤氣戶數的偏相關系數.表3.2火柴銷量及影響因素表(見參考文獻1)年份火柴銷售量煤氣戶數卷煙銷量蚊香銷量打火石銷量(萬件)(萬戶)(百箱)(十萬盒)(百萬粒)6823

7、.6925.6823.610.14.186924.125.7723.4213.312.437022.7425.8822.099.496.57117.8427.4321.4311.0925.787218.2729.9524.9614.4828.167320.2933.5328.3716.9724.267422.6137.3142.5720.1630.187526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.

8、8220.098029.2571.2553.2933.5721.228131.0573.3755.3639.5912.638232.2876.685448.4911.17解:根據數據表建立數據文件-求解火柴銷售量與煤氣戶數的偏相關系數具體操作如下:1首先打開數據文件-單擊,打開對話框,見圖所示?;鸩皲N量煤氣戶數打火石量蚊香銷量卷煙銷量2從左邊框內選擇要考察的兩個變量進入框內,其它客觀存在的變量作為控制變量進入框內,如本例中考察煤氣戶數與火柴銷量的偏相關系數進入框內,其它相關變量(除年份外)進入框內。3單擊按紐,打開對話框如圖所示。從欄中選擇輸出項,有平均值及標準差,表示在輸出偏相關系數的同時輸

9、出變量間的簡單相關系數。另外還有缺失值的處理方式。本例中選擇簡單相關系數。圖對話框、選擇結束后,單擊得輸出結果,如表所示。表偏相關分析輸出表-PARTIALCORRELATIONCOEFFICIENTS-ZeroOrderPartials簡單相關火柴銷量1.0000.8260-.4902.8083.8788(0)(13)(13)(13)(13)P=.P=.000P=.064P=.000P=.000煤氣戶數.82601.0000-.0230.9489.9029(13)(0)(13)(13)(13)P=.000P=.P=.935P=.000P=.000打火石量-.4902-.02301.0000-

10、.0070-.0295(13)(13)(0)(13)(13)P=.064P=.935P=.P=.980P=.917蚊香銷量.8083.9489-.00701.0000.9030(13)(13)(13)(0)(13)P=.000P=.000P=.980P=.P=.000卷煙銷量.8788.9029-.0295.90301.0000(13)(13)(13)(13)(0)P=.000P=.000P=.917P=.000P=.(Coefficient/(D.F.)/2-tailedSignificance)isprintedifacoefficientcannotbecomputedPARTIALCO

11、RRELATIONCOEFFICIE(簡單相關系數(自由度)(P值)NTS偏相關系數打火石量蚊香銷量卷煙銷量Controllingford控制變量)火柴銷量1.00006046(偏相關系數)(0)(10)(自由度)P=.P=.037(P值)火柴銷量煤氣戶數煤氣戶數.60461.0000(10)(0)P=.037P=.(Coefficient/(D.F.)/2-tailedSignificance)isprintedifacoefficientcannotbecomputed表中的上半部分是簡單相關系數,下半部分是偏相關系數。從表中可以看出,火柴銷量與煤氣戶數的簡單相關系數為,自由度為,檢驗的值

12、為0而偏相關系數為,自由度為,檢驗的值為,表示煤氣戶數對火柴銷量的真實影響是顯著的。3.2線性回歸分析線性回歸是統計分析方法中最常用的方法之一。如果所研究的現象有若干個影響因素,且這些因素對現象的綜合影響是線性的,則可以使用線性回歸的方法建立現象(因變量)與影響因素(自變量)之間的線性函數關系式。由于多元線性回歸的計算量比較大,所以有必要應用統計分析軟件實現。這一節將專門介紹軟件的線性回歸分析的操作方法,包括求回歸系數,給出回歸模型的各項檢驗統計量值及相應的概率,對輸出結果的分析等相關內容。3.2.線1性回歸模型假設條件與模型的各種檢驗、線性回歸的假設理論1)正態性假設:即所研究的變量均服從正

13、態分布;2)等方差假設:即各變量總體的方差是相等的;3)獨立性假設,即各變量之間是相互獨立的;()殘差項無自相關性,即誤差項之間互不相關,)、線性回歸模型的檢驗項目()回歸系數的檢驗(檢驗)。()回歸方程的檢驗(檢驗)。()擬合程度判定(可決系數)。()檢驗(殘差項是否自相關)。()共線性檢驗(多元線性回歸)。()殘差圖示分析(判斷異方差性和殘差序列自相關)。.線2性回歸分析的具體步驟。如圖軟件中進行線性回歸分析的選擇項為-所9示。下面通過例題介紹線性回歸分析的操作過程。分析功能菜單例仍然用例的數據,考察火柴銷售量與各影響因素之間的相關關系,建立火柴銷售量對于相關因素煤氣戶數、卷煙銷量、蚊香銷

14、量、打火石銷量的線性回歸模型,通過對模型的分析,找出合適的線性回歸方程。解:建立線性回歸模型的具體操作步驟如下:1打開數據文件,單擊打開對話框如圖所示。2從左邊框中選擇因變量進入框內,選擇一個或多個自變量進入框內。從框內下拉式菜單中選擇回歸分析方法,有強行進入法選消去法,向前選擇法,向后剔除法及逐步回歸法五種。本例中選擇逐步回歸法。圖對話框3單擊,打開:對話框,可以選擇輸出的統計量如圖所示。欄,回歸系數選項欄。系統默認輸出回歸系數的相關統計量:包括回歸系數,回歸系數標準誤、標準化回歸系數、回歸系數檢驗統計量(值)及相應的檢驗統計量概率的值()。本例中只選擇此項。輸出每一個非標準化回歸系數的置信

15、區間。輸出協方差矩陣。與模型擬合及擬合效果有關的選擇項。是默認項。能夠輸出復相關系數、及修正值,估計值的標準誤,方差分析表。引入或剔除一個變量時,的變化?;窘y計描述。:相關系數及偏相關系數。,共線性診斷。主要對于多元回歸模型,分析各自變量的之間的共線性的統計量:包括容忍度和方差膨脹因子、特征值,條件指數等。本例中選擇上面所有的統計項。殘差欄:檢驗奇異值診斷有兩個選項:奇異值判據,默認項標準差三i輸出所有觀測量的殘差值。本例中選擇檢驗及奇異值診斷,選擇標準差為2即置信度約為圖:4如果需要觀察圖形,可單擊按紐,打開:對話框如圖所示。在此對話框中可以選擇所需要的圖形。在左上角的源變量框中,選擇進入

16、(或)軸變量框,選擇其它變量進入(或)軸變量框,除因變量外,其客觀存在變量依次是:標準化預測值,標準化殘差,剔除殘差,修正后預測值,學生化殘差,學生化剔除殘差。欄,標準化殘差圖類型,有選擇項:標準化殘差直方圖標準化殘差序列的正態分布概率圖依次繪制因變量和所有自變量的散布圖本例中選擇因變量與標準化殘差的殘差圖。5單擊按紐,打開可以從中選擇模型擬合判斷準則對話框,如圖13。及缺失值的處理方式。欄,設置變量引入或剔除模型的判別標準。采用檢驗的概率為判別依據。采用值作為檢驗標準?;貧w方程中包括常數項。缺失值的處理方式。本例中選擇系統默認項。6如果要保存預測值等數據,可單擊按紐打開:對話框。選擇需要保存

17、的數據種類作為新變量存在數據編輯窗口。其中有預測值、殘差,預測區間等。本例中不做選擇。7當所有選擇完成后,單擊得到分析結果。主要的分析結果見表。表3.4(a)ModelSummary(d)模型綜合分析表ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatistics變動分析Durbin-WatsonRSquareChangeFChangedf1df2Sig.FChange1.879(a).772.7552.44047.77244.085113.0002.994(b).988.986.58304.216215.772112.00

18、03.997(c).994.993.41783.00612.365111.0052.066aPredictors:(Constant),卷煙銷量(萬箱)bPredictors:(Constant),卷煙銷量(萬箱),打火石銷量(百萬粒)cPredictors:(Constant),卷煙銷量(萬箱),打火石銷量(百萬粒),煤氣戶數(萬戶)dDependentVariable:火柴銷量(萬件)表()模型綜合分析中有模型的復相關系數,樣本決定系數,修正的可決系數R2,估計標準誤,模型變化導致的可決系數及值的變化,檢驗值等。由上表中知模型的修正的可決系數為9其模型的擬合程度最好,值為顯然通過檢驗,說明

19、殘差項不存在一階自相關。表()方差分析表ANOVAdModelSofSaesdfMeanSareFSig.1egression262.5661262.56644.085.000aesidal77.427135.956Total339.993142egression335.9142167.957494.090.000besidal4.07912.340Total339.993143egression338.0733112.691645.483.000cesidal1.92011.175Total339.99314Predict。rs:(Constant)萬箱Predictors:(Constan

20、t)萬箱百萬粒Predictors:(Constant)萬箱百萬粒萬戶DependentVariable:萬件方差分析表()同時給出了個模型的方差分析表。其中模型的值最大,說明模型的回歸效果最顯著。表()回歸系數非標準化回歸系標準化回歸數Unstandardized系數Standardized檢驗統計量P值相關系數共線性統計CollinearityModelCoefficientsCoefficientstSig.CorrelationsStatistics單相關容忍度方差膨Std.Zero-or偏相關Toleranc脹因子BErrorBetaderPartialParteVIF1(Const

21、ant)13.3921.9996.698.000卷煙銷量(萬箱).320.048.8796.640.000.879.879.8791.0001.0002(Constant)17.240.54531.647.000卷煙銷量(萬箱).315.012.86527.347.000.879.992.865.9991.001打火石銷量(百萬粒)-.243.017-.465-14.689.000-.490-.973-.464.9991.0013(Constant)17.420.39444.243.000卷煙銷量(萬箱).254.019.69813.228.000.879.970.300.1855.417打火

22、石銷量(百萬粒)-.243.012-.465-20.526.000-.490-.987-.465.9991.001煤氣戶數(萬戶).049.014.1853.516.005.826.727.080.1855.415aDependentVariable:火柴銷量(萬件)表()中的欄中,模型是先將卷煙銷量作為自變量進入模型,模型將卷煙銷量與打火石銷量兩個自變量進入模型,模型3是將卷煙、打火石和煤氣戶數三個自變量進入模型。第四個自變量蚊香銷量沒有通過檢驗自動剔除。回歸系數表的輸出結果可以看出,回歸系數都通過檢驗,模型中自變量與因變量的偏相關系數都在0.以7上,說明進入模型的自變量對因變量的影響都比較

23、顯著。由最后兩列的容忍度和方差膨脹因子的值來看,自變量之間不存在強烈的共線性。表()相關系數表Correlations火柴銷量(萬件)煤氣戶數(萬戶)卷煙銷量(萬箱)蚊香銷量(十萬盒)打火石銷量(百萬粒)PearsonCorrelation火柴銷量(萬件)1.000.826.879.808-.490煤氣戶數(萬戶).8261.000.903.949-.023卷煙銷量(萬箱).879.9031.000.903-.029蚊香銷量(十萬盒).808.949.9031.000-.007打火石銷量(百萬粒)-.490-.023-.029-.0071.000Sig.(1-tailed)火柴銷量(萬件)-.

24、000.000.000.032煤氣戶數(萬戶).000.000.000.468卷煙銷量(萬箱).000.000.000.458蚊香銷量(十萬盒).000.000.000.490打火石銷量(百萬粒).032.468.458.490.N火柴銷量(萬件)1515151515煤氣戶數(萬戶)1515151515卷煙銷量(萬箱)1515151515蚊香銷量(十萬盒)1515151515打火石銷量(百萬粒)1515151515相關分析表中表示的相關系數是全部變量(自變量與因變量)的兩兩變量之間的簡單相關系數和相關性檢驗。表()殘差統計esialstatistisiniaieanStd.eiatiorNPr

25、editedale17.927232.153225.98934.9140715esidal-.9332.9950.0000.3703715Std.Preditedale-1.6411.254.0001.00015Std.esidal-2.2332.381.000.88615a.eendentriaa:萬件殘差統計表()表示了預測值、殘差、標準化預測值和標準化殘差的特征值。其中包括預測值及殘差項的最小值和最大值、均值、標準誤和樣本容量。表()共線性診斷表:CollinearityDiagnosticsodelDienioiiienaleonditionndeVarianeeroportionon

26、tant萬箱百萬粒萬戶111z100(03032016184212z2100(010103221;3031284304636861331366z100(01000200226;3200014023064688401240401118321300aDependentVariale:萬件共線性診斷表中第二列是特征值,第三列是條件指數,最后一列是方差比。最大的條件指數小于2,0說明自變量之間不存在比較強烈的共線性。表()奇異值表(標準化殘差值大于)CasewiseDiagnosticsaaebe-Stdeidil萬件redietedValeeidal12238126286014-2233310318

27、32-332aDependentVariable:萬件奇異值表()中依次是序號,標準化殘差值,實際觀測值、預測值及殘差值。表中給出的兩個個體數據的標準化殘差(數據號為1和214超出了2。Scatterplot表()標準化殘差圖:DependentVariable:萬件16182022242628303234萬件由圖中可以看出,殘差圖中的點分布是隨機的,沒有出現趨勢性,所以回歸模型是有效的。最終得回歸模型為:j,17.42+0.254兀+0.049兀一0.243兀1243.3曲線估計上節介紹了線性回歸模型的分析和檢驗方法。如果某對變量數據的散點圖不是直線,而是某種曲線的形式時,可以利用曲線估計的

28、方法為數據尋求一條合適的曲線,也可用變量代換的方法將曲線方程變為直線方程,用線性回歸模型進行分析和預測。提供了多種曲線方程。列出表如下:表3.可5化為線性方程的曲線方程函數名稱方程形式相應的線性回歸方程線性函數v,b+bx01二次多項式v,b+bx+bx2012y,b+bx+bxx,x2012復合模型y,bbx01Iny,Inb+xInb01生長曲線y,e(b0+bix)y,b+bxy,lny對數函數y,b+bInx01y,b+bxx,lnx01三次多項式y,b+bx+bx2+bx30123y,b+bx+bx+bxxr,x2;x,x30123曲線y,e(b0+b1/x)y,b+bxy,lny;

29、x,1/x指數函數y,bebx丿01y,b+bxy,lny;b,lnb0100逆函數y,b+(b/x)01y,b+bxx,1/x01幕函數y,b(xb1)0y,b+bxy,lny;b,lnb0100 x,lnx邏輯曲線y,(1/u+bbx)-101y,b+bx01y,ln(1/y-1/u);b,lnb;b,lnb001這里以例題說明曲線擬合的具體操作方法。例4:表3.表6示的是全國199年0至200年2人均消費支出與教育支出的統計數據,試以人均消費性支出為解釋變量,教育支出作為被解釋變量,擬合用一條合適的函數曲線。表3.6人均消費支出與教育支出數據表(見參考文獻3)年份人均消費性支出(元)教育

30、支出(兀)解:首先根據上表建立數據-作出人均消費支出與教育支出的散點圖如下:人4均消費與教育支出的散點圖圖由上面圖形可以看出,兩個變量的散點圖為增長的曲線形式,故選擇合適的函數進行曲線估計。具體操作如下:打開1單擊-對話框。如圖3.1所5示、選擇估計曲線:有多條曲線形式供選擇。根據散點圖,本例中選擇,和曲線進行對比分析。、單擊按紐,打開對話框如圖所示。圖:對話框選擇需要保存到數據表中的項目。在欄中,復選項依次是:預測值、殘差、預測區間,可以在下方框中選擇置信度,默認值為。本例中不作選擇。4、所有選擇完成后,單擊OK,得到輸出結果如表3.7.:Independent:X決定系數自由度F值P值回歸

31、系數DependentMthRsqd.f.FSigfb0b1b2YQUA.98710382.64.000252.698-.14752.5E-05YCOM.995112086.35.00020.95501.0004YPOW.95411229.58.0003.6E-051.8460表3.7曲線估計輸出表與曲線圖ObservedQuadraticCompoundPower年人均消費性支出(元從表中可以看出,可決系數接近1的模型是證這三個模型對觀察值的擬合程度。下方選擇輸出方差分析表如表3.8所示:Display下面對以上三個模型進一步分析。在主對話框的AMOVAtable,可得到方差分析表的詳細分析

32、結果表3.8曲線估計及方差分析表Dependentvariable.Y復相關指數MultipleR可決系數RSquareMethod.QUADRATI二次多項式.99353.98710修正的可決系數AdjustedRSquare.98452標準誤StandardError45.70690AnalysisofVariance:方差分析表自由度平方和均方DFSumofSquaresMeanSquareRegression21598766.0799383.00Residuals1020891.22089.12F(檢驗統計量)382.64096SignifF(假設檢驗P值).0000Variables

33、intheEquationDependentvariable.YMethod.COMPOUND復合函數變量回歸系數標準誤標準化系數T值P值VariableBSEBBetaTSigTX-.147527.025041-1.134958-5.892.0002X*22.46018091E-052.2722E-062.08579710.827.0000(Constant)252.69789057.7922484.373.0014VariablesintheEquationVariablesintheEquationListwiseDeletionofMissingDataMultipleR.99737R

34、Square.99476AdjustedRSquare.99428StandardError.09002AnalysisofVariance:SumofSquares16.905289.089131MeanSquare16.905289.008103DFRegression1Residuals11F=2086.35111SignifF=.0000VariablesintheEquationVariablesintheEquationVariablesintheEquationVariableBSEBBetaTSigTX1.0004209.1977E-062.711154108768.23.00

35、00(Constant)20.9550191.22613917.090.0000Dependentvariable.YMethod.POWER冪函數ListwiseDeletionofMissingDataMultipleR.97687RSquare.95428AdjustedRSquare.95012StandardError.26578AnalysisofVariance:VariablesintheEquationVariablesintheEquationDFSumofSquaresMeanSquareVariablesintheEquationVariablesintheEquationRegression16.21738716.217387VariablesintheEqua

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論