SPSS相關分析案例講解_第1頁
SPSS相關分析案例講解_第2頁
SPSS相關分析案例講解_第3頁
SPSS相關分析案例講解_第4頁
SPSS相關分析案例講解_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、相關分析一、兩個變量的相關分析:Bivariate1相關系數的含義相關分析是研究變量間密切程度的一種常用統計方法。相關系數是描述相關關系強弱程度和方向的統計量,通常用r表示。相關系數的取值范圍在-1和+1之間,即:1r 1。計算結果,若r為正,則表明兩變量為正相關;若r為負,則表明兩變量為負相關。相關系數r的數值越接近于1(1或+1),表示相關系數越強;越接近于0,表示相關系數越弱。如果r=1或1,則表示兩個現象完全直線性相關。如果=0,則表示兩個現象完全不相關(不是直線相關)。,稱為微弱相關、,稱為低度相關、,稱為顯著(中度)相關、,稱為高度相關r值很小,說明X與Y之間沒有線性相關關系,但并

2、不意味著X與Y之間沒有其它關系,如很強的非線性關系。直線相關系數一般只適用與測定變量間的線性相關關系,若要衡量非線性相關時,一般應采用相關指數R。2常用的簡單相關系數(1)皮爾遜(Pearson)相關系數皮爾遜相關系數亦稱積矩相關系數,1890年由英國統計學家卡爾皮爾遜提出。定距變量之間的相關關系測量常用Pearson系數法。計算公式如下: (1)(1)式是樣本的相關系數。計算皮爾遜相關系數的數據要求:變量都是服從正態分布,相互獨立的連續數據;兩個變量在散點圖上有線性相關趨勢;樣本容量。(2)斯皮爾曼(Spearman)等級相關系數Spearman相關系數又稱秩相關系數,是用來測度兩個定序數據

3、之間的線性相關程度的指標。當兩組變量值以等級次序表示時,可以用斯皮爾曼等級相關系數反映變量間的關系密切程度。它是根據數據的秩而不是原始數據來計算相關系數的,其計算過程包括:對連續數據的排秩、對離散數據的排序,利用每對數據等級的差額及差額平方,通過公式計算得到相關系數。其計算公式為: (2)(2)式中,為等級相關系數;為每對數據等級之差;為樣本容量。斯皮爾曼等級相關對數據條件的要求沒有積差相關系數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究。(3)肯德爾(Kendal

4、l)等級相關系數肯德爾(Kendall)等級相關系數是在考慮了結點(秩次相同)的條件下,測度兩組定序數據或等級數據線性相關程度的指標。它利用排序數據的秩,通過計算不一致數據對在總數據對中的比例,來反映變量間的線性關系的。其計算公式如下: (3)(3)式中,是肯德爾等級相關系數;是不一致數據對數;為樣本容量。計算肯德爾等級相關系數的數據要求與計算斯皮爾曼等級相關系數的數據要求相同。3相關系數的顯著性檢驗通常,我們用樣本相關系數r作為總體相關系數的估計值,而r僅說明樣本數據的X與Y的相關程度。有時候,由于樣本數據太少或其它偶然因素,使得樣本相關系數r值很大,而總體的X與Y并不存在真正的線性關系。因

5、而有必要通過樣本資料來對X與Y之間是否存在真正的線性相關進行檢驗,即檢驗總體相關系數是否為零(即原假設是:總體中兩個變量間的相關系數為0)。SPSS的相關分析過程給出了該假設成立的概率(輸出結果中的Sig.)。樣本簡單相關系數的檢驗方法為:當原假設:,時,檢驗統計量為: (4)當原假設:,時,檢驗統計量為: (5)式中,為簡單相關系數;為觀測值個數(或樣本容量)。4背景材料設有10個廠家,序號為1,2,10,各廠的投入成本記為,所得產出記為。各廠家的投入和產出如表7-18-1所示,根據這些數據,可以認為投入和產出之間存在相關性嗎?表1 10個廠家的投入產出 單位:萬元廠家12345678910

6、投入產出20304060204030601030104020402050203030705操作步驟5-1 繪制散點圖的步驟(1)選擇菜單命令“Graphs”“Legacy Dialogs”“Scatter/Dot”,打開Scatter/Dot對話框,如圖1所示。圖1 選擇散點圖窗口(2)選擇散點圖類型。SPSS提供了五種類型的散點圖。(3)根據所選擇的散點圖類型,單擊“Define”按鈕設置散點圖。不同類型的散點圖的設置略有差別。簡單散點圖(Simple Scatter)簡單散點圖的設置窗口如圖2所示。圖2 簡單散點圖的設置窗口從對話框左側的變量列表中指定某個變量為散點圖的縱坐標和橫坐標,分別

7、選入Y-Axis和X-Axis框中。這兩項是必選項。可以把作為分組的變量指定到Set Markers by框中,根據該變量取值的不同對同一個散點圖中的各點標以不同的顏色(或形狀)。該項可以省略。把標記變量指定到Label Cases by框中,表示將標記變量的各變量值標記在散點圖的旁邊。該項可以省略。從左側變量列表框中選擇變量到Panel by框中作為分類變量,可以使該變量作為行(Rows)或列(Columns)將數據分成不同的組,便于比較。該項可以省略。選擇Use Chart Specifications From選項,可以選擇散點圖的文件模板,單擊“File”可以選擇指定的文件。單擊“Ti

8、tle”按鈕可以對散點圖的標題進行設置,單擊“Options”按鈕可以對缺失值以及是否顯示數據的標注進行設置。重疊散點圖(Overlay Scatter)重疊散點圖能同時生成多對相關變量間統計關系的散點圖,首先根據分類變量的不同取值對原始數據進行分類,然后對各分類數據做簡單散點圖。重疊散點圖的設置窗口如圖7-18-3所示。圖3 重疊散點圖的設置窗口從左側框中選擇一對變量進入Pairs框中,其中前一個為圖的縱坐標變量(Y-Variable),后一個作為圖的橫軸變量(X-Variable),可以通過點擊按鈕進行橫縱軸變量的調換。其他設置與同簡單散點圖都相同。矩陣散點圖(Matrix Scatter

9、)矩陣散點圖以方形矩陣的形式在多個坐標軸上分別顯示多對變量間的統計關系。矩陣散點圖的關鍵是弄清各矩陣單元中的橫縱變量。矩陣散點圖的設置窗口如圖4所示。圖4 矩陣散點圖的設置窗口把參與繪圖的若干變量指定到Matrix Variables框中。選擇變量的先后順序決定了矩陣對角線上變量的排列順序。其他設置也與簡單散點圖相同。三維散點圖(3-D Scatter)三維散點圖生成三個相關變量的三維散點圖,由三個坐標軸對應變量的數據決定,它以立體圖的形式展現三對變量間的統計關系。設置窗口如圖5所示。圖5 三維散點圖設置窗口從左側的變量列表中指定三個變量分別選入Y-Axis、X-Axis、Z-Axis框中。其

10、他設置均與簡單散點圖相同。單點散點圖(Sample Dot)單點散點圖生成單個變量的散點圖,顯示數值型變量的每一個觀測值,這些值都堆積在X軸附近,由于沒有指定Y軸,所以數據點的Y坐標沒有特殊的含義。設置窗口如圖6所示。圖6 單點散點圖設置窗口從左側變量列表中選擇一個變量選入X-Axis Variable框中。其他設置與簡單散點圖相同。5-2 計算簡單相關系數的操作步驟通過散點圖可以初步判斷變量是否具有線性趨勢。對具有線性趨勢的變量計算相應的簡單相關系數的步驟如下:(1)選擇菜單命令“Analyze”“Correlate”“Bivariate”,打開兩變量相關分析的對話框,如圖7所示。圖7 兩變

11、量相關分析窗口(2)選入需要進行相關分析的變量進入Variables框,至少需要選入兩個,如選入“投入”、“產出”變量。(3)在Correlation Coefficients復選框中選擇需要計算的相關系數。主要有:Pearson復選框:選擇進行積距相關分析,即最常用的參數相關分析;Kendall's tau-b復選框:計算Kendall's等級相關系數;Spearman復選框:計算Spearman相關系數,即最常用的非參數相關分析(秩相關)。(4)Test of Significance單選框用于確定是進行相關系數的單側(One-tailed)或雙側(Two-tailed)檢

12、驗,系統默認雙側檢驗。(5)Flag significant correlations用于確定是否在結果中用星號標記有統計學意義的相關系數,一般選中。此時P<0.05的系數值旁會標記一個星號,P<0.01的則標記兩個星號。(6)單擊Options按鈕,彈出Options對話框,選擇需要計算的描述統計量和統計分析,如圖8所示。圖8 兩變量相關分析的Options子對話框在Statistics復選框中定義各變量輸出的描述統計量。Means and standard deviations選項表示每個變量的樣本均值和標準差;Cross-product deviations and cova

13、riances選項表示各對變量的離差平方和、樣本方差、兩變量的叉積離差以及協方差陣。叉積離差為Pearson相關系數公式中的分子部分;協方差為叉積離差/(n-1)。在Missing Values單選框中定義分析中對缺失值的處理方法,可以是具體分析用到的兩個變量有缺失值才去除該記錄(Exclude cases pairwise),或只要該記錄中進行相關分析的變量有缺失值(無論具體分析的兩個變量是否缺失),則在所有分析中均將該記錄去除(Excludes cases listwise)。(7)單擊“OK”按鈕完成設置,提交運行。6結果解析根據背景資料,利用表1中的數據,建立SPSS數據文件,分別將變

14、量投入、產出選入Variables框中,并在Options子對話框選中Means and standard deviations選項和Cross-product deviations and covariances選項,其他選擇默認。結果如表2、表3所示。6-1 表2為描述統計量,表3為相關分析結果。從表3中可以看出皮爾遜相關系數為0.759,即投入與產出的相關系數為0.759,雙側檢驗的P值為0.011,明顯小于0.05,拒絕二者不相關的原假設。因此,我們可以得出結論:可以認為投入與產出之間存在正相關,當投入增加時,產出也會相應增加。表2 描述統計量 Descriptive Statisti

15、csMeanStd. DeviationN投入22.009.18910產出45.0014.33710表3 簡單相關系數分析結果Correlations投入產出投入Pearson Correlation1.759*Sig. (2-tailed).011Sum of Squares and Cross-products760.000900.000Covariance84.444100.000N1010產出Pearson Correlation.759*1Sig. (2-tailed).011Sum of Squares and Cross-products900.0001850.000Covari

16、ance100.000205.556N1010*. Correlation is significant at the 0.05 level (2-tailed).6-2 調用Bivariate過程命令時允許同時輸入兩個變量或兩個以上變量,但系統輸出的是變量間兩兩相關的相關系數。二、偏相關分析:Partial1偏相關分析的含義在實際問題中,兩變量的相關關系往往還要受到其他因素的影響,這些影響有時候會使相關分析的結果變得不那么可靠。因此,引入了偏相關分析的方法。偏相關分析,也稱凈相關分析,是指在研究兩個變量之間的線性相關關系時,將與這兩個變量有聯系的其他變量控制不變的統計方法。根據控制變量的個數

17、,偏相關分析分為零階偏相關分析、一階偏相關分析、二階偏相關分析等等。其中,零階偏相關分析是指沒有控制變量的相關分析,即一般的相關分析。一階偏相關分析是指有一個控制變量的相關分析,二階偏相關分析是指有兩個控制變量的偏相關分析,其他高階偏相關分析以此類推。2偏相關系數進行偏相關分析時要用到偏相關系數。偏相關系數是在多元相關分析中說明當某個自變量在其他自變量固定不變時,分別同因變量線性相關程度的指標。偏相關系數的取值范圍亦在-1+1之間,其計算公式分別為:當有一個控制變量為時,變量和之間的一階偏相關系數為: (6)3對偏相關系數的檢驗方法在偏相關分析中,由于兩個變量之間的相關系數是在固定(控制)了一

18、個或幾個變量后進行的,考慮到這種因素及抽樣誤差的影響,其檢驗統計量為: (7)式中,是特定的偏相關系數;為觀測值個數;為控制變量個數;為自由度。4背景材料某汽車制造商從某月中隨機抽出10天的電力消耗量、溫度、日產量等有關資料,數據如表4所示。結合多年管理經驗,對電力消耗量、溫度、日產量的關系做出相關分析。表4 某汽車制造商的電力消耗量、溫度、日產量等數據表電力消耗(千瓦)溫度(華氏)日產量1211139141012111411837985758781847785841201101281011051081101071121195操作步驟5-1 選擇菜單命令“Analyze”“Correlate”

19、“Partial”,打開偏相關分析的對話框,如圖9所示。圖9 偏相關分析窗口5-2 選入需要進行偏相關分析的變量進入Variables框中,至少需要選入兩個。5-3 選擇需要在偏相關分析時進行控制的協變量進入Controlling for框中,如果不選入,則進行的就是普通的相關分析。5-4 在Test of Significance單選框中確定是進行相關系數的單側(One-tailed)或雙側(Two-tailed)檢驗,一般選雙側檢驗。5-5 Display actual significance level復選框用于表示在結果中給出確切的P值,一般選中。5-6 單擊Options按鈕,彈出

20、Options對話框,選擇需要計算的描述統計量和統計分析。如圖10所示。 圖10 偏相關分析的Options子對話框(1)Statistics復選框用于定義可選的描述統計量。其中,Means and standard deviations表示每個變量的樣本均值和標準差;Zero-order correlations表示輸出包括控制變量在內所有變量的相關矩陣。(2)Missing Values單選框用于定義分析中對缺失值的處理方法,可以是具體分析用到的兩個變量有缺失值才去除該記錄(Exclude cases pairwise),或只要該記錄中進行相關分析的變量有缺失值(無論具體分析的兩個變量是否

21、缺失),則在所有分析中均將該記錄去除(Excludes cases listwise)。系統默認為前者,以充分利用數據。6結果解析這里我們選擇電力消耗、溫度作為待分析變量,把日產量作為控制變量,在Options子對話框中選中Means and standard deviations選項,其他選擇系統默認。具體分析結果見表4、表5所示。6-1 表5偏相關系數表中的結果表明,在控制了日產量變量后,電力消耗與溫度之間的偏相關系數為0.815,概率P值為0.007<0.05,從而表明兩者之間有高度的相關關系。表4 偏相關分析描述統計量Descriptive StatisticsMeanStd. DeviationN電力消耗11.701.63610溫度82.003.88710日產量112.008.08310表5 偏相關系數表CorrelationsControl Variables電力消耗溫度日產量電力消耗Corr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論