用SPSS對計數(shù)數(shù)據(jù)進行統(tǒng)計分析和檢驗_第1頁
用SPSS對計數(shù)數(shù)據(jù)進行統(tǒng)計分析和檢驗_第2頁
用SPSS對計數(shù)數(shù)據(jù)進行統(tǒng)計分析和檢驗_第3頁
用SPSS對計數(shù)數(shù)據(jù)進行統(tǒng)計分析和檢驗_第4頁
用SPSS對計數(shù)數(shù)據(jù)進行統(tǒng)計分析和檢驗_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第七節(jié)計數(shù)數(shù)據(jù)統(tǒng)計分析的SPSS操作

對于計數(shù)數(shù)據(jù)的統(tǒng)計分析,SPSS提供了不同的分析和檢驗方法,從總體上來說,大致可以分為:

用于比率差異的非參數(shù)二項檢驗,用于禽散型變量配合度檢驗的卡方檢驗、用于連續(xù)型變量配合

度檢驗的單樣本K-S檢驗和正態(tài)圖檢驗法和用于獨立性檢驗的列聯(lián)表分析等,這一節(jié)我們簡單介

紹如何通過SPSS操作解決這些常見的計數(shù)數(shù)據(jù)分析的統(tǒng)計問題。

一、二項分布的非參數(shù)臉驗方法

我們常常需要檢驗一個事件在特定條件下發(fā)生的概率是否與己知結論相同,如某地區(qū)出生嬰

兒的性別比例是否與通常男女各半的結論相符,或在一次抽樣中,男女兩性所占的比例是否與原

先設計好的比例相符。此時即可用二項分布(Binomial)方法進行檢驗。下面結合具體數(shù)據(jù)說明

Binomial方法在檢驗比率差異時的應用。

1.數(shù)據(jù)

所用數(shù)據(jù)文件為SPSS目錄下之GSS93subset.sav,這里我們將該數(shù)據(jù)文件另寸為,8-6-Lsav”。

該文件中有一變量SEX,是回答者的性別,我們想檢驗這些回答者的性別是否各占一半。

2.理論分析

從上面數(shù)據(jù)來看,我們的目的是檢驗數(shù)據(jù)中男生和女生所占的比例是否相等,這等價于檢驗男

生所占的比例是否等于0.5,可以用比例檢驗的方法進行檢驗。在SPSS中對應于二項分布的檢驗

(BinomialTest)過程。

3.二項分布檢驗過程

(1)打開該數(shù)據(jù)文件后點擊菜單Analyze,在卜拉菜單中選擇NonparamctricsTests子菜單中的

Binomial…,單擊可進入二項檢驗(BinomialTest)的主菜單。把SEX變量選入到檢驗變量表列

中,其他選項請保持默認(圖8-1)。

圖8-1:二項分布檢驗主對話框

(2)請單擊Oplions…度鈕,打開對話框如圖8-2所示。在此我們想同時在結果中輸出一些描述

統(tǒng)計量及百分位數(shù),可設置如圖所示。設置完成單擊Continue按鈕回到主對話框。

圖8-2:二項分布Options窗口

(3)在主對話框中點擊OK得到程序運行結果。

4.結果及解釋

(1)輸出數(shù)據(jù)描述統(tǒng)計量信息

NParTests

DescriptiveStatistics

NMeanStd.DeviatioMinimumMaximumPercentiles

n

25th50th75th

(Median)

Respondent15001.57.49121.002.002.00

'sSex

在描述統(tǒng)計表中,程序提供了樣本容量、平均數(shù)、標準差、極值及三個百分位數(shù)。

(2)輸出二項分布檢驗結果

BinomialTest

CategoryNObservedProp.TestProp.Asymp.Sig.(2-tail

ed)

Respondent'sGroup1Male641.43.50.000

Sex

Group2Female859.57

Total15001.00

aBasedonZApproximation.

在BinomialTest表中,所檢驗變量的有關信息,如男女兩性的數(shù)目及比例,最后

一項是雙側檢驗的顯著性水平值。本例數(shù)據(jù)檢驗結果表明:男生組的人數(shù)641,在總

人數(shù)中所占的比例為0.43,假設的總體比例為0.5,雙側檢驗的顯著性小于.05,所以

我們可以說男女兩性回答者比例相同的假設不能成立,從表中可以看出,女性被試遠

多于男性被試(女生人數(shù)859人,所占比例0.57)。

5.非對稱二項分布的檢驗

也可以用該程序來檢驗樣本數(shù)據(jù)分布是否來自非對稱分布的二項總體。以剛才我們用過的數(shù)

據(jù)為例,假如在調(diào)查設計時,調(diào)查者想控制被試性別比例(男:女)為4:6,在調(diào)查結束后分析

數(shù)據(jù)資料中的性別比例是否與原先所設想的?致。操作如下:打開Binomial對話框,設置如下圖

8-3所小(指定檢驗的概率值為0.40):

圖8-3:非對稱二項分布比率定義

用戶可以自行檢驗程序運行的結果。

如果用戶指定分析的變量中含有三個或更多的變量值,在定義二分值時,需要選擇Cutpoint

項,并在后面的方框中填入一個分界點,該分界點必須小于最大變量值,大于最小變量值。小于或

等于分界點的值形成第一項,大于分界點的值將形成第二項。此時請注意如果指定檢驗概率值,

它所對應的將是第一項的概率值。請用戶自行檢驗該程序。

二、配合度的檢驗

(一)、離散變量配合度檢驗一一單樣本好檢驗

這種方法可用于離散型變量的配合度檢驗,分析實際頻數(shù)與理論頻數(shù)是否一致。它要求至少

有一個變量,變量值為幾個固定值,即一個因素多項分類的情況。

1.數(shù)據(jù)

采用SPSS文件夾中的CARS.SAV數(shù)據(jù)為例,具體說明這一方法的應用。CARS.SAV數(shù)據(jù)文

件中有一變量為origin,變量值為1.2.3三個整數(shù),分別代表三個地區(qū),這三個整數(shù)出現(xiàn)的總次數(shù)

是405。我們現(xiàn)在欲檢驗這三個地區(qū)所出現(xiàn)的頻率是否與預期的270、65.70一致。將該數(shù)據(jù)文件

另存為“8-6-2.sav“.

2.理論分析

從上面數(shù)據(jù)來看,我們的主要目的是檢驗三個地區(qū)的實際觀測頻率與理論假設的270、65.70是否

存在差異,屬于離散變置:配合度檢驗的問題,應用卡方檢驗。

3.單樣本(2檢驗過程和結果

(1)請單擊主菜單Analyze/NonparametricTests/Chi-Square…,可進入單樣本(2檢驗的

主對話框。從左邊變量表列中把指定分析的地區(qū)變量選入到右邊檢驗變量表中去,在卜面

Expectedvalues中選擇Values一項,并分別把理論次數(shù)填入到小方框中,并點擊Add按鈕完成

設置。如果我們欲檢驗的理論次數(shù)各組相等,則可以直接選擇AUcategorieseaqual項即可。

在Expectedrange項中保持默認選擇項即Getfromdala。如果我們只想使用一部分按大小順序

排列的數(shù)據(jù)來進行分析,就可以選擇Usespecifiedrange,并指定數(shù)據(jù)的下限與上限。本例設

置如下圖HT所示:

圖11-1

(2)Exact…按鈕可以保持默認選項。Oplions…按鈕允許用戶指定輸出結果是否包括描述性統(tǒng)

計量,以及對缺失值的處理方法。因與前面所講述的用法相同,在此不再贅述。點擊Continue

返回主對話框。

(3)在主對話框中點擊0K,得到輸出結果。

4.結果及解釋

(1)描述統(tǒng)計量表列出了變量名、樣本容量、平均數(shù)、標準差、最小值、最大值。

DescriptiveStatistics

NMeanStd.DeviationMinimumMaximum

CountryofOrigin4051.57.8013

(2)實際觀測數(shù)與理論次數(shù)對照表列出了每個變最值的實際頻數(shù)與理論次數(shù)及差值。

CountryofOrigin

ObservedNExpectedNResidual

American253270.0-17.0

European7365.08.0

Japanese7970.09.0

Total405

本例中,美國(American)實際觀測次數(shù)253人,理論期望次數(shù)270人,實際觀測次數(shù)與理論次數(shù)的

差異為-17;歐洲(European)實際觀測次數(shù)73人,理論期望次數(shù)65人,實際觀測次數(shù)與理論次數(shù)

的差異為8:日本(Japanese)實際觀測次數(shù)79人,理論期望次數(shù)70人,實際觀測次數(shù)與理論次數(shù)

的差異為9。

(3)(2檢驗表列出了(2值,自由度及顯著性水平值。在這種基于漸近分布的檢驗方法中,顯著

性水平小于0.05即可認為實際次數(shù)與理論次數(shù)差異顯著,否則差異不顯著。

TestStatistics3

CountryofOrigin

Chi-Square3.212

df2

Asymp.Sig..201

a0cells(.0%)haveexpectedfrequencieslessthan5.Theminimumexpectedcell

frequencyis65.0.

在本例中,對應的卡方統(tǒng)計量的值為3.212((2=3.212),對應的自由度為2(df=2),顯著性水

平值為0.201>0.05,故可認為實際次數(shù)與理論次數(shù)無差異。

(二).連續(xù)型變量的配合度檢驗一一正態(tài)分布的檢驗

有時在執(zhí)行統(tǒng)計分析前,需要確定樣本是否來自一個正態(tài)分布的總體。在此我們介紹一種

非參數(shù)檢驗的方法及相應的圖形檢驗法。

I.單樣本的K-S檢驗

(1)數(shù)據(jù)我們?nèi)砸許PSS目錄下的數(shù)據(jù)文件GSS93subset,sav(或盤中文件8-6-1.sav)為例,

我們欲檢驗educ變量值是否來自正態(tài)分布的總體。

(2)變量受教育程度可以看成是?個連續(xù)型的變量,要檢驗其分布是否為正態(tài)分布屬于配合度

檢驗的問題,可以用單.樣本的K-S檢驗。

(3)操作過程

①單擊主菜單Analyze/NonparametricsTest/1-Sample進入主對話框,請設置如卜

圖8-4所示:

圖8-4:單樣本的柯爾莫哥洛夫一斯米諾夫檢驗主對話框

程序所能檢驗的四種分布:Normal(正態(tài)分布)、Uniform(均勻分布)、Poisson(普阿松分布)

和Exponedlial(指數(shù)分布

②單擊Exact…可進入選擇檢驗方法的對話框,如下圖8-5所示:

圖8-5:K—S檢驗的Exact選項

Asymptoticonly是一種基于漸近分布的顯著性水平的檢驗指標,通常顯著性水平小于0.05

則認為顯著,適于大樣本,如果樣本過小或分布不好,該指標的適用性會降低。

MonteCarlo精確顯著性水平的無偏估計.適用干樣本過大無法使用漸近方法估計顯著性水

平的情況,可以不必依賴漸近方法的假設前提。

Exact精確計算觀測結果的概率值,通常小于0.05即被認為顯著,表明行變量與列變量之間

存在相關。同時允許用戶鍵入每次檢驗的最長時間限制,可以鍵入1到9,999,999,999之間的數(shù)

字,但只要一次檢驗超過指定時間的30分鐘,就應該使用MonteCarlo方法。

注:只要有可能,程序會提供顯著性水平的精確值,而不是MonteCarlo估計值。

③單擊Options按鈕可以進入對話框。選擇建否輸出描述統(tǒng)計量和百分位數(shù),以及以缺

失值的處理,由于與以前所用過的程序相差無幾,所以在此不贅述。

④在主對話框點擊OK得到程序執(zhí)行結果。

(4)結果及解稀

①描述統(tǒng)計量信息

DescriptiveStatistics

NMeanStd.DeviaMinimumMaximumPercentiles

tion

25th50th75th

(Median)

HighestYear149613.043.0702012.0012.0015.75

ofSchool

Completed

描述統(tǒng)計量表列指定檢驗變量的標簽、樣本容量、平均數(shù)、標準差、最大值、最小值及三

個百分位數(shù)。

②單樣本的R-S檢驗結果

One-SampleKolmogorov-SmirnovTest

HighestYearofSchoolCompleted

N1496

NormalParametersMean13.04

Std.Deviation3.07

MostExtremeDifferencesAbsolute.163

Positive.134

Negative-163

Ko1mogorov-SmirnovZ6.317

Asymp.Sig."2-tailed).000

aTestdistributionisNormal.

bCalculatedfromdata.

上表中輸出了指定檢驗變最的正態(tài)參數(shù),包括平均數(shù)與標準差,極端差的最大絕對佳、正值及負

值,K-SZ值,雙側檢驗的顯著性水平。由于漸近方法所檢驗的顯著性水平小于0.05,所以變量

educ的值并非來自一個正態(tài)分布的總體。

2.檢驗正態(tài)分布的圖形

(1)Q-Q正態(tài)檢驗圖

為了更形象地說明這一種結果,我們還將介紹一種圖形檢驗方法。仍以K-S檢驗所用數(shù)據(jù)文

件和分析變量為例。

Q-Q正態(tài)檢驗圖的操作過程如下:單擊主菜單Graphs/Q-Q-,請保持對話框如下圖8-6所示

的設置(即把欲檢驗的變量選入到指定變量表列中去,在TesiDisiribulion選項中選擇Normal即

正態(tài)分布檢驗,其他設置保持默認):

;Q?QPlot,xj

RespondentIDNumtqTestDistributionOK

LaborForceStatus|\■OHiqhcstYearofSchool

〔Normal;]

^MaritalStatus[marihPaste

磅AgeWhenFirstMarrdt:r

^NumberofBrothers;Reset

DistributionParameters

/NumberofChildren(—

?AgeofRespondent|tPEstimatefromdataCancel

MonthInWhichRW1ocation:[fl

Help

^RespondentsAstrolo:

3RSHighestDegree(>Scalef

蘇Fathc/sHighestDec

MothersHighestDe1TransformProportionEstimationFormula

^Respondent'sSex|s

FNaturallogtransform<?Blom'srRankit廠Tuke/s

^>RacewofResponder

「Standardizevalues

TotalFamilyIncomerVandcrWaerden's

^Respondent'sIncomrDiVerencc:RonkAssignedtoTics

磅RegionofInterview[

rSeasonallydifference:。MeanCHighCLow

[ExpandedN.O.R.C.S

修SizeofPlacein100JCurrentPeriodicity:NonerBreaktiesarbitrarily

圖8-6:Q-Q圖定義窗口

單擊完成后輸出兩個統(tǒng)計圖如下所示。圖8-7為正態(tài)分布Q-Q檢驗圖,橫坐標為實際觀測值

按從小到大的順序排列,縱坐標為正態(tài)分布下的期望值。如果實際觀測值取自正態(tài)分布的總體,

那么圖中所示的落點應該分布在趨勢線的附近,并且應該表現(xiàn)出一定的集中趨勢,即平均數(shù)附近

應該聚集較多的落點,越靠近兩個極端落點越少。現(xiàn)在圖中落點的分布盡管呈現(xiàn)出線性狀態(tài),但

由于沒有表現(xiàn)出集中趨勢,所以可以判斷它并非正態(tài)分布或接近正態(tài)分布。

NormalQ-QPlotofHighestYearofSchooCompl

ObservedValue

圖8-7:正態(tài)分布Q-Q檢驗圖

DetrendedNormalQ-QPlotofHighestYearofSd

io20

ObservedValue

圖8-8為無趨勢正態(tài)檢驗圖

圖8-8為無趨勢正態(tài)檢驗圖,它以實際觀測值為橫坐標,以實際觀測值與期望值的差為縱坐

標。在符合正態(tài)分布的情況下,圖中的落點應該分布在中央橫線的附近,甚至完全落到這條橫線

上,而且也應表現(xiàn)出集中在平均數(shù)周圍的趨勢。現(xiàn)在圖中所示的落點分布離散性較大,不符合正

態(tài)分布標準,所以我們可以說該樣本屬非正態(tài)分布。從這個圖中,我們還可以發(fā)現(xiàn)極端值的存在,

例如圖中離中央線最遠的幾個落點,都落在下方,表明樣本數(shù)據(jù)中存在極端小的觀測值,這時,

需要檢查數(shù)據(jù)錄入是否有誤。如果變量分布明顯地呈現(xiàn)非正態(tài),在進行一些要求正態(tài)分布前提下

的分析以前,應當考慮對數(shù)據(jù)進行必要的變換。

(2)P?P正態(tài)檢驗圖

單擊主菜單Graphs/P-P…,進入主對話框。設置與Q-Q程序相同,它的輸出圖形也與Q-Q極

相似,唯一不同之處在干圖形的橫縱坐標都變成了累加百分比,橫坐標為實際觀測值的累加百分

比.縱坐標為假定正態(tài)分布下有累加百分比。是否接聽正態(tài)分布的判斷標準與Q-Q輸出圖相同.

三.獨立性檢驗一列聯(lián)表分析

列聯(lián)表分析可以為我們提供每類的實際觀測值、理論值、所占百分比、及差異檢驗結果。

1.數(shù)據(jù)

仍以SPSS文件夾中的數(shù)據(jù)文件GSS93subset.sav(或盤中文件"”8-6-l.sav)為例,在此數(shù)

據(jù)中,有兩個變最為income”(家庭仔收入)4degree(學歷兀這兩個變量都是按人為標準劃分

的定性變量(用戶可以雙擊變量名,并在Labels按鈕中看到變量值及其標簽說明)。現(xiàn)在我們想

知道這兩個變量之間是否存在關聯(lián),也就是說學歷是否在年收入的不同分類上存在差異,反之亦

然。

2.理論分析

如果要研究的兩個變量都具有兩項或更多的分類值,如體育項目的劃分、人種的劃分,或只

是研究者按一定的標準分為不同的類別,如優(yōu)、良、口、差,這種定性數(shù)據(jù)(或“數(shù)數(shù)據(jù))之間

關系(是指一個變量的不同分類在另一變量分類上是否存在差異,或者說兩個變量是否相互關聯(lián))

的研究通常使用列聯(lián)表分析。在分析過程中由于主要杈據(jù)(2分布進行,所以乂常稱其為(2檢驗。

3.操作過程

(1)單擊主菜單Analyze/DescriptiveStatistics/Crosstabs…可進入列聯(lián)表分析的主對話框。

從左邊變量表列中把指定分析的兩個變量degree與income4分別選到到右邊Row與Column框中,

如圖8-9所示:

Crosstabs

瞥Gj:_______________

⑥RespondentSoci-OK

?④TctalFamilyIncom

⑥YearofBirth[Paste

<^>CollegeDegreea

Reset

④A,eCategories;olumn(s):___________

⑥PoliticalOutlo?④>RSHighestDegreeCancel

?Region[regxon4□Help

磅Married?[marr

ClassicalMusic

磅JazzMusic(3)

⑥RapMusic(3)[

⑥BluesandR&BM

I-Displayclusteredbarcharts

r~Suppresstabl>

Exact...:atistics..Cells...Format...

圖8-9:Crosstabs…主對話窗I1

(2)為了檢驗兩個變量是否關聯(lián),我們需要對其進行檢聆.這一步可以通過Statistics按鑰進

行。單擊該按扭可進入其設置對話框。一般我們都需要輸出(2值及其檢驗結果,同時,在

Nominal組中,我們還發(fā)現(xiàn)可以選擇列聯(lián)相關系數(shù)C,即Contingencycoefficient,這是檢驗R

XC表品質相關常用的一個指標。完成設置如下圖8-10所示:

圖8-10:Crosstabs…統(tǒng)計量輸出選擇窗口

(3)SPSS在列玦表時,允許用戶自己控制表中的輸出內(nèi)容。該項設置可以單擊主菜單中

Cells按鈕來進行。打開它的對話框如圖8-11所示,可以看到共有三組可■選項,下面具體說明:

,Counts次數(shù)

Observed實際觀測頻數(shù)

Expected理論次數(shù)

,Percentages百分比

Row橫行次數(shù)百分比

Column縱列次數(shù)百分比

Total總共

,Rcsduals殘差

Unstandardized殘差,實際次數(shù)與理論次數(shù)之差。

Standardized標準化殘差,殘差除以其標準識,乂稱Pearson殘差,其均值為0,準差為

Adj.Standardized調(diào)整標準化殘差

圖8-11:Crosstabs…單元格輸出選擇窗口

點擊Continue,返回I主對話框。

(4)在主對話框中點擊0K,得到程序運行結果。

4.結果及解釋

(1)文件中觀測量的概括描述列出了有效觀測量、缺失值及全部觀測量的個數(shù)和百分比。

CaseProcessingSummary

Cases

ValidMissingTotal

NPercentNPercentNPercent

INCOME4TotalFamilyIncome149699.7%4.3%1500100.0%

*DEGREERSHighestDegree

上表顯示,總的觀測為1500個,有效樣本1496個,占99。7%,缺失值4個,占0。3%。

(2)R(C表表中列出了兩個變量每項分類,由用戶指定輸出的內(nèi)容,如實際次數(shù)與理論次數(shù)。

INCOME4TotalFamilyIncome*DEGREERSHighestDegreeCrosstabulation

DEGREERSHighestDegreeTotal

0Less1High2Junior34

thanHSschoolcollegeBachelorGraduate

INCOME41.00Count19631525399584

Total24,999or

Familyless

IncomeExpected108.9304.535.191.344.1584.0

Count

200Count28175215818300

25,000to

39,999

Expected55.9156.418.046.922.7300.0

Count

3.00Count16121235218230

40,000to

59,999

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論