




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
SPSS基本統(tǒng)計分析SPSS的主要分析工具——Analyze菜單報告--Rports描述性統(tǒng)計分析--Descriptive
Statistics菜單表格--Tables均數(shù)間的比較--Compare
Means菜單一般線性模型――General
Linear
Model菜單相關(guān)分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應分析——Data
Reduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――Nonparametric
Tests菜單時間序列分析--Time
series描述性統(tǒng)計分析是統(tǒng)計分析的第一步,做好這第一步是下面進行正確統(tǒng)計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在【描述統(tǒng)計】菜單中,包括:【頻數(shù)】:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)【描述】:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量)【探索】:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析【交叉表】:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)【比率】:比率分析4.1.1
頻數(shù)分析的目的和基本任務1、目的:基本統(tǒng)計分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。2、基本任務(1)頻數(shù)分析的第一個基本任務是編制頻數(shù)分布表。頻數(shù)(Frequency):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比(Percent):即各頻數(shù)占總樣本數(shù)的百分比
有效百分比(ValidPercent):即各頻數(shù)占有效樣本數(shù)的百分比,這里有效樣本數(shù)=總樣本-缺失樣本數(shù)累計百分比(Cumulative
Percent):即各百分比逐級累加起來的結(jié)果。最終取值為100。(2)頻數(shù)分析的第二個任務是繪制統(tǒng)計圖條形圖(BarChart):用寬度相同的條形的高度或長短來表示頻數(shù)分布變化的圖形,適用于定序和定類變量的分析。餅圖(PieChart):用圓形及圓內(nèi)扇形的面積來表示頻數(shù)百分比變化的圖形,以利于研究事物內(nèi)在結(jié)構(gòu)組成等問題。直方圖(Histograms):用矩形的面積來表示頻數(shù)分布變化的圖形,適用于定距型變量的分析。注:變量的計量尺度:a
定類(Category
Scale):只能計次b
定序(Ordinal
Scale):計次、排序c
定距(Interval
Scale):計次、排序、加減d定比(RatioScale):計次、排序、加減、乘除4.1.2
頻數(shù)分析的基本操作選擇菜單【分析】—【描述分析】—【頻率】。將若干頻數(shù)分析變量選擇到【變量】框中。單擊【圖表】按鈕選擇繪制統(tǒng)計圖形,在【圖表值】框中選擇條形圖中縱坐標(或餅圖中扇形面積)的含義,有【頻數(shù)】;【百分比】。輸出百分位數(shù):輸出四分位數(shù),顯示
25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100
的整數(shù)。離散趨勢分布形態(tài)欄集中趨勢欄輸出統(tǒng)計量對話框4.1.3
SPSS頻數(shù)分析的擴展功能1、計算分位數(shù)(Percentile
Values)分位數(shù)是變量在不同分位點上的取值。分位點在0-100之間。一般使用較多的是四分位點(Quartiles),即將所有數(shù)據(jù)按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是四分位數(shù)便分別是25%,50%,75%點所對應的變量值。此外,還有八分位數(shù)、十六分位數(shù)等。SPSS提供了計算任意分位數(shù)的功能,用戶可以指定將數(shù)據(jù)等分為n份(Cut
points
for
n
equal
groups)。還可以直接指定分位點(Percentile)。2、計算其他基本描述統(tǒng)計量SPSS頻數(shù)分析還能夠計算其他基本統(tǒng)計量,其中包括描述集中趨勢(CentralTendency)的基本統(tǒng)計量、描述離散程度(Dispersion)的基本統(tǒng)計量、描述分布形態(tài)(Distribution)的基本統(tǒng)計量等。Format
對話框控制頻數(shù)表輸出的分類數(shù)量。默認為10多變量框中可設定多變量表格輸出的格式設置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列3、頻數(shù)分布表格式(Format)的定義(1)調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序(Orderby):頻數(shù)分布表中的內(nèi)容的輸出順序可以按變量值的升序輸出(Ascendingvalues),按變量值的降序輸出(Descending
values),按頻數(shù)的升序輸出(
Ascending counts),按頻數(shù)的降序輸出(
Descending counts)。(2)【多個變量】單選框組:如果選擇了兩個以上變量作頻數(shù)表,則
compare
variables可以將所有變量的結(jié)果在同一個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較;organize
output
byvariables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示,每一個變量一張表。(3)壓縮頻數(shù)分布表(Suppress
tableswith
more
than
n
categories)如果變量取值的個數(shù)或取值區(qū)間的個數(shù)太多,頻數(shù)分布表將很龐大,此時可以壓縮它。
SPSS默認,如果變量取值的個數(shù)或取值區(qū)間的個數(shù)大于10,則不輸出相應的頻數(shù)分布表。應用中可以修改該值。4.1.4
頻數(shù)分析的應用舉例利用商品房購買意向的調(diào)查數(shù)據(jù)進行頻數(shù)分析,有以下兩個分析目標:目標一:分析被調(diào)查者的戶籍狀況以及他們認為房價的變化狀況。目標二:分析月住房開銷的分布,并對不同居住類型進行比較。4.2.1
基本描述統(tǒng)計量常見的基本描述統(tǒng)計量有三大類:刻畫集中趨勢的統(tǒng)計量刻畫離中趨勢的統(tǒng)計量刻畫分布形態(tài)的統(tǒng)計量1、刻畫集中趨勢的描述統(tǒng)計量集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向。(1)均值(Mean):即算術(shù)平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標。如某企業(yè)職工的平均月收入。其計算公式為:ini
=1nx
=
1
x中位數(shù)(Median):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。如評價社會的老齡化程度時,可用中位數(shù)。眾數(shù)(Mode):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。如生產(chǎn)鞋的廠商在制定各種型號鞋的生產(chǎn)計劃時應該運用眾數(shù)。(4)均值標準誤差(Standard
Error
of
Mean):描述樣本均值與總體均值之間的平均差異程度的統(tǒng)計量。其計算公式為:為總體標準差,n為樣本單位數(shù)nn
snS
.E
.of
.M
ean
===
(
x
-
X
)
2
[
x
-
E
(
x
)]2其中:s2、刻畫離散程度的描述統(tǒng)計量離散程度是指一組數(shù)據(jù)遠離其“中心值”的程度。如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值
”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。常見的刻畫離散程度的描述統(tǒng)計量如下:全距(Range):也稱極差,是數(shù)據(jù)的最大值(Maximum)與最小值(Minimum)之間的絕對離差。方差(Variance):也是表示變量取值距均值的離散程度的統(tǒng)計量,是各變量值與算數(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。其計算公式為:221nis
=(
x
-
x
)n
-
1i
=1(3)標準差(Standard
Deviation:StdDev):表示變量取值距離均值的平均離散程度的統(tǒng)計量。其計算公式為:標準差值越大,說明變量值之間的差異越大,距均值這個“中心值”的離散趨勢越大。ii
=1s
=
(
x
-
x
)
2n
-
1n
1
3、刻畫分布形態(tài)的描述統(tǒng)計量數(shù)據(jù)的分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等。刻畫分布形態(tài)的統(tǒng)計量主要有兩種:(1)偏度(Skewness):描述變量取值分布形態(tài)對稱性的統(tǒng)計量。其計算公式為:ii=1n
-1nSkewness
=
1
(x
-
x)3
/
s3當分布為對稱分布時,正負總偏差相等,偏度值等于0;當分布為不對稱分布時,正負總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏;偏度值小于0表示負偏差值大,稱為負偏或左偏。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系圖示左偏分布均值中位數(shù)眾數(shù)對稱分布均值中位數(shù)眾數(shù)右偏分布中位數(shù)眾數(shù)均值(2)峰度(Kurtosis):描述變量取值分布形態(tài)陡峭程度的統(tǒng)計量。其計算公式為:當數(shù)據(jù)分布與標準正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標準正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標準正態(tài)分布平緩,為平峰分布。4
41nini
=1Kurtosis
=(
x
-
x) /
s-
35.2.2
計算基本描述統(tǒng)計量的操作(1)選擇菜單【分析】-【描述統(tǒng)計】-【描述】,出現(xiàn)如下窗口:將需計算的數(shù)值型變量選擇到【變量】框中。單擊【選擇】按鈕指定計算哪些基本描述統(tǒng)計量,出現(xiàn)如下窗口:Options
對話框基本統(tǒng)計量當Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布在上面窗口中,用戶可以指定分析多變量時結(jié)果輸出的次序(DisplayOrder)。其中,Variablelist表示按變量在數(shù)據(jù)窗口中從左到右的次序輸出;Alphabetic表示按字母順序輸出;AscendingMeans表示按均值升序輸出;DescendingMeans表示按均值降序輸出。至此,SPSS便自動計算所選變量的基本描述統(tǒng)計量并顯示到輸出窗口中。5.2.3
計算基本描述統(tǒng)計量的應用舉例利用商品房購買意向的調(diào)查數(shù)據(jù),對月住房開銷變量計算基本描述統(tǒng)計量。有以下分析目標:計算月住房開銷的基本描述統(tǒng)計量,并分別對不同居住類型進行比較分析:首先按居住類型對數(shù)據(jù)進行拆分(Splitfile),然后計算月住房開銷的基本描述統(tǒng)計量。2.
分析月住房開銷的數(shù)量是否存在不均衡現(xiàn)象。據(jù)的標準化處理來判斷。標準化的數(shù)學定義為:分析:假設月住房開銷的分布服從正態(tài)分布,跟據(jù)3s
原則,異常值通常為3個標準差范圍之外的值,可通過對數(shù)xi
-
xzi
=s通過標準化可以得到一系列新變量值,通常稱為標準化值或z分數(shù)。計算標準化值可以通過對話框中的復選框【將標準化得分另存為變量(Z)】來實現(xiàn),并將結(jié)果保存在一個新變量中。該變量的命名規(guī)則為字母z+原變量名的前七個字符。接下來可對新變量進行排序并瀏覽其標準化值的取值情況,可以發(fā)現(xiàn)z分數(shù)值得絕對數(shù)大于3的樣本是存在的。對其分組為三組:zt10<-3,-3<zt10<3,zt10>3并進行頻數(shù)分析可以發(fā)現(xiàn)月住房開銷存在一定的不均衡現(xiàn)象。4.3.1
目的和基本任務1、目的:交叉分組下的頻數(shù)分析又稱列聯(lián)表分析。通過前面的頻數(shù)分析能夠掌握單個變量的數(shù)據(jù)分布情況,在實際分析中,不僅要了解單個變量的分布特征,還要分析多個變量不同取值下的分布,進而分析變量之間的相互影響和關(guān)系。對于這種涉及兩個或兩個以上變量分布情況的研究通常要利用交叉分組下的頻數(shù)分析來完成。2、基本任務:根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在一定的相關(guān)性進行分析。4.3.2
交叉列聯(lián)表的主要內(nèi)容編制交叉列聯(lián)表是交叉分組下頻數(shù)分析的第一個任務。交叉列聯(lián)表是兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表。例:職工基本情況數(shù)據(jù)按職稱和文化程度編制的二維交叉列聯(lián)表(見下頁表):職職*
文文文文Crosstabulation文文文文Total本本專本高高初高職職高高高文高Count11103%within
職職33.3%33.3%33.3%.0%100.0%%within
文文文文25.0%25.0%20.0%.0%18.8%%
of
Total6.3%6.3%6.3%.0%18.8%高文高Count13004%within
職職25.0%75.0%.0%.0%100.0%%within
文文文文25.0%75.0%.0%.0%25.0%%
of
Total6.3%18.8%.0%.0%25.0%助助高文高Count20136%within
職職33.3%.0%16.7%50.0%100.0%%within
文文文文50.0%.0%20.0%100.0%37.5%%
of
Total12.5%.0%6.3%18.8%37.5%無無無職職Count00303%within
職職.0%.0%100.0%.0%100.0%%within
文文文文.0%.0%60.0%.0%18.8%%
of
Total.0%.0%18.8%.0%18.8%TotalCount445316%within
職職25.0%25.0%31.3%18.8%100.0%%within
文文文文100.0%100.0%100.0%100.0%100.0%%
of
Total25.0%25.0%31.3%18.8%100.0%上表中的職稱變量稱為行變量(Row),文化程度稱為列變量(Column)。行標題和列標題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)(Observed
Counts)和各種百分比。16名職工中,本科、專科、高中、初中的人數(shù)分別為4,4,5,3,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;高級工程師、工程師、助理工程師、無技術(shù)職稱的人數(shù)分別為3,4,6,3,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;4個本科學歷職工中各職稱的人數(shù)分別是1,1,2等,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。在交叉列聯(lián)表中,除了頻數(shù)外還引進了各種百分比。例如表中第一行中的33.3%,33.3%,33.3%分別是高級工程師3人中各學歷人數(shù)所占的比例,稱為行百分比(Row
percentage),一行的百分比總和為100%;表中第一列的25.0%,25.0%,50.0%分別是本科學歷4人中各職稱人數(shù)所占的比例,稱為列百分比(Column
percentage),一列的列百分比總和為100%,表中的6.3%,6.3%,12.5%等分別是總?cè)藬?shù)16人中各交叉組中人數(shù)所占的百分比,稱為總百分比(Totalpercentage),所有格子中的總百分比之和也為100%。4.3.3
交叉分組下的頻數(shù)分析的基本操作(1)菜單選【分析】-【描述統(tǒng)計】-【交叉表】,出現(xiàn)窗口如下:該框中的變量作為分布表中的行變量和列變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量。顯示每一組中各變量的分類條形圖。只輸出統(tǒng)計量,不輸出多維列聯(lián)表。(2)如果進行二維列聯(lián)表分析,則將行變量選擇到Row(s)框中,將列變量選擇到Column(s)框中。如果Row(s)和Column(s)框中有多個變量名,SPSS會將行列變量一一配對后產(chǎn)生多張二維列聯(lián)表。如果進行三維或多維列聯(lián)表分析,則將其他變量作為控制變量選到Layer框中。多控制變量間可以是同層次的,也可以是逐層疊加的,可通過Previous或Next按鈕確定控制變量間的層次關(guān)系。選擇【顯示復式條形圖】Display
clustered
barcharts選項,指定繪制各變量交叉分組下頻數(shù)分布條形圖。【取消表格】Suppresstables表示不輸出列聯(lián)表,在僅分析行列變量間關(guān)系時可選擇該選項。單擊【單元格】Cells按鈕指定列聯(lián)表單元格中的輸出內(nèi)容,窗口如下:選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測量的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關(guān)的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標準化殘差計算標準化殘差
計算調(diào)整后殘差feSPSS默認列聯(lián)表單元格中只輸出觀測頻數(shù)(Observed)。為便于分析,通常還應指定輸出
Percentage框中的行百分比(Row)、列百分比(Column)、總百分比(Total)。Counts框中的
Expected表示輸出期望頻數(shù);Residuals框中的各個選項表示在各個單元格中輸出剩余。其中,
Unstandardized為非標準化剩余,定義為觀測頻數(shù)-期望頻數(shù);Standardized為標準化剩余,又稱Pearson剩余,定義為:Std.Re
siduals
=
f0
-
fe單擊【格式】Format按鈕指定列聯(lián)表各單元格的輸出排列順序。【升序】Ascending表示以行變量取值的升序排列,是SPSS默認項;【降序】
Descending表示以行變量取值的降序排列。單擊【統(tǒng)計量】Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系,窗口如下,其中,Chi-Square為卡方檢驗。4.3.4
交叉列聯(lián)表行列變量間關(guān)系的分析對交叉列聯(lián)表中的行變量和列變量之間關(guān)系進行分析是交叉分組下頻數(shù)分析的第二個任務。為了理解行、列變量之間的關(guān)系,可以從分析兩個極端的例子出發(fā):(1)年齡與工資收入的交叉列聯(lián)表(一)工資收入年齡段低中高青40000中05000老00600(2)年齡與工資收入交叉列聯(lián)表(二)表一中表示年齡與工資收入呈正相關(guān)關(guān)系,表二表示年齡與工資收入呈負相關(guān)關(guān)系。但大多數(shù)情況下,觀測頻數(shù)分散在列聯(lián)表的各個單元格中,不容易直接發(fā)現(xiàn)行列變量之間的關(guān)系強弱程度,此時就要借助非參數(shù)檢驗方法。通常用的方法是卡方檢驗。工資收入年齡段低中高青00600中05000老40000卡方檢驗屬假設檢驗的范疇,步驟如下:建立原假設H0在列聯(lián)表分析中卡方檢驗的原假設為行變量與列變量獨立選擇和計算檢驗統(tǒng)計量列聯(lián)表分析卡方檢驗統(tǒng)計量是Pearson卡方統(tǒng)計量,其數(shù)學定義為:其中,r為列聯(lián)表的行數(shù),c為列聯(lián)表的列數(shù);f
0
為觀察頻數(shù),f
e
為期望頻數(shù)(Expected
Count)。期望頻數(shù)的計算方法是:其中,RT是指定單元格所在行的觀測頻數(shù)合計,CT是指定單元格所在列的觀測頻數(shù)合計,n是觀測頻數(shù)的合計。期望頻數(shù)的分布反映的是行列變量互不相干下的分布。r
cijf
ei=1
j=1(
f
0
-
f
e
)2c2
=
ij
ij
ef=
R
T
·
C
T
·
n
=
R
T
·
C
Tn
n
n職職*
文文文文Crosstabulation文文文文Total本本專本高高初高職職高高高文高Count11103%within
職職33.3%33.3%33.3%.0%100.0%%within
文文文文25.0%25.0%20.0%.0%18.8%%
of
Total6.3%6.3%6.3%.0%18.8%高文高Count13004%within
職職25.0%75.0%.0%.0%100.0%%within
文文文文25.0%75.0%.0%.0%25.0%%
of
Total6.3%18.8%.0%.0%25.0%助助高文高Count20136%within
職職33.3%.0%16.7%50.0%100.0%%within
文文文文50.0%.0%20.0%100.0%37.5%%
of
Total12.5%.0%6.3%18.8%37.5%無無無職職Count00303%within
職職.0%.0%100.0%.0%100.0%%within
文文文文.0%.0%60.0%.0%18.8%%
of
Total.0%.0%18.8%.0%18.8%TotalCount445316%within
職職25.0%25.0%31.3%18.8%100.0%%within
文文文文100.0%100.0%100.0%100.0%100.0%%
of
Total25.0%25.0%31.3%18.8%100.0%例如,具有本科學歷的高級工程師的期望頻數(shù)是0.75的計算公式是3*4/16=0.75。這里,期望頻數(shù)可以理解為,總共16個職工的學歷分布是25%:25%:31.3%:18.8%,如果遵從這種學歷的總體比例關(guān)系,高級職稱三人的學歷分布也應為25%:25%:31.3%:18.8%,于是期望頻數(shù)為3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,總共16個職工的職稱分布為18.8%:25%:37.5%:18.8%,本科學歷4人的期望頻數(shù)分別為4*18.8%、4*25%、4*37.5%、4*18.8%。卡方統(tǒng)計量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。在列聯(lián)表確定的情況下,卡方統(tǒng)計量觀測值的大小取決于觀測頻數(shù)與期望頻數(shù)的總差值。當總差值越大時,卡方值也就越大,實際分布與期望分布的差距越大,表明行列變量之間越相關(guān);反之表明行列變量之間越獨立。那么,在統(tǒng)計上卡方統(tǒng)計量的觀測值究竟達到什么程度才能斷定行列變量不獨立呢?由于該檢驗中的pearson卡方統(tǒng)計量近似服從卡方分布,因此可依據(jù)卡方理論找到某自由度和顯著性水平下的卡方值,即卡方臨界值。絕的風險,即棄真的概率。通常設為0.05或0.01。在卡方檢驗中,由于卡方統(tǒng)計量服從自由度為(行數(shù)-1)×(列數(shù)-1)的卡方分布,因此,在行列數(shù)目和顯著性水平確定時,卡方臨界值是可唯一確定的。(3)確定顯著性水平(SignificantLevel)和臨界值顯著性水平a
是指原假設為真卻將其拒(4)結(jié)論和決策對統(tǒng)計推斷做決策通常有兩種方式:根據(jù)統(tǒng)計量觀測值和臨界值比較的結(jié)果進行決策。如果卡方觀測值大于臨界值,則認為實際分布與期望分布之間的差距顯著,可以拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在相關(guān)關(guān)系;反之,接受原假設。根據(jù)統(tǒng)計量觀測值的概率p值和顯著性水平a
比較的結(jié)果進行決策。如果p值小于等于a
,則認為卡方觀測值出現(xiàn)的概率是很小的,拒絕原假設,斷定列聯(lián)表的行列變量間不獨立,存在依存關(guān)系;反之,接受原假設。是一個概率值;如果原假設為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率;被稱為觀察到的(或?qū)崪y的)顯著性水平。a/2a/2Z拒絕拒絕H0值臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2
P
值1/2
P
值H0值臨界值樣本統(tǒng)計量拒絕域a1
-
aP
值抽樣分布置信水平計算出的樣本統(tǒng)計量H0值拒絕域抽樣分布1
-
a置信水平臨界值計算出的樣本統(tǒng)計量aP
值(決策準則)若p-值>a,不拒絕H0若p-值<a,拒絕H04.3.5
交叉分組下的頻數(shù)分析應用舉例利用商品房購買意向調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下目標:1、不同居住類型的被訪者未來的購房預期是否一致。分析:1、該問題列聯(lián)表的行變量為居住類型,列變量為購房,在列聯(lián)表中輸出各種百分比、期望頻數(shù)、剩余、標準化剩余,顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對不同居住類型對購房預期的態(tài)度是否一致進行分析。戶戶*
未未未未未未Crosstabulation未未未未未未Total增增基本基基減減戶戶城城戶戶
Count%within
戶戶%within
未未未未未未%
of
Total651401822329.1%62.8%8.1%100.0%84.4%70.4%48.6%71.2%20.8%44.7%5.8%71.2%農(nóng)農(nóng)戶戶
Count%within
戶戶%within
未未未未未未%
of
Total1259199013.3%65.6%21.1%100.0%15.6%29.6%51.4%28.8%3.8%18.8%6.1%28.8%TotalCount7719937313%within
戶戶24.6%63.6%11.8%100.0%%within
未未未未未未100.0%100.0%100.0%100.0%%
of
Total24.6%63.6%11.8%100.0%未未未未未未*
戶戶Crosstabulation戶戶Total城城戶戶農(nóng)農(nóng)戶戶未未增增Count%within
未未未未未未%within
戶戶%
of
Total651277未未未未84.4%15.6%100.0%29.1%13.3%24.6%20.8%3.8%24.6%基本基基Count%within
未未未未未未%within
戶戶%
of
Total1405919970.4%29.6%100.0%62.8%65.6%63.6%44.7%18.8%63.6%減減Count%within
未未未未未未%within
戶戶%
of
Total18193748.6%51.4%100.0%8.1%21.1%11.8%5.8%6.1%11.8%TotalCount22390313%within
未未未未未未71.2%28.8%100.0%%within
戶戶100.0%100.0%100.0%%
of
Total71.2%28.8%100.0%Chi-Square
TestsValuedfAsymp.
Sig.(2-sided)Pearson
Chi-Square15.819a2.000Likelihood
Ratio15.7292.000Linear-by-LinearAssociation15.2961.000N
of
Valid
Cases313a.
0
cells
(.0%)
have
expected
count
less
than
5.
Theminimum
expected
count
is
10.64.5.3.6
SPSS中列聯(lián)表分析的其他方法對列聯(lián)表中行列變量的分析,除上述卡方檢驗方法之外,SPSS還提供了其他測度變量間相關(guān)關(guān)系的檢驗方法,包括:適用于兩定類變量的方法:Nominal框中列出的方法屬該類方法。適用于兩定序變量的方法:Ordinal框中列出的方法屬該類方法。適用于一定類變量、一定距變量的方法:Nominal
byinterval框中的Eta方法屬該類方法。其他方法。多選項問題的概念:多選項問題是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領(lǐng)域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題。可以選多個,分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。編號調(diào)查內(nèi)容選
項1您喜歡紅色嗎□是□否2您喜歡橙色嗎□是□否3您喜歡黃色嗎□是□否4您喜歡綠色嗎□是□否5您喜歡青色嗎□是□否6您喜歡藍色嗎□是□否7您喜歡紫色嗎□是□否8您喜歡黑色嗎□是□否9您喜歡白色嗎□是□否多選項二分法及其編碼(multiple
dichotomies
method):多選項二分法是將多選項問題中的每一個答案設為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇了該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只能有表明“是”和“否”的兩個代碼0或者1。左邊的表格為向顧客發(fā)放的顏色調(diào)查,在選擇服裝時,您喜歡什么顏色作為主體顏色,在答案的“□”中打“”(可多選)這是一組問題,每個問題均有兩
個答案,回答者只能選擇其中一種。
在建立數(shù)據(jù)文件時,變量名使用相同
的變量主名,后面加以不同序號組成,本組問題的9個變量名可以是color1-color9。而答案的編碼規(guī)則為:回答
“是”變量值為1,回答“否”變量值為0,其他值為缺失值。多選項分類法及其編碼(multiple
categorymethod):多選項分類法中,首先應估計多選項問題最多可能出現(xiàn)的答案個數(shù);然后為每個答案設置一個SPSS變量,變量取值為多選項問題中的所有可選答案。如上面有關(guān)選擇服裝的主體顏色,您可以選擇喜歡的三種,在提供的10種答案前上選擇。1、紅2、橙3、黃4、綠5、青6、藍7、紫8、黑9、白10說不清這是一個問題,可以有三個答案。在建立數(shù)據(jù)文件時,要建立三個變量color1-color3表示回答者選擇的三個顏色。如選擇結(jié)果為1、紅、6、藍、8、黑,則變量color1的值為1,變量color2的值為6,變量color3的值為8。問題1:您家中是否有下列物品:(可多選)
1
3
5
61、電話2、傳真機3、有線電視4、衛(wèi)星電視5、手機6、電腦如果采用多選二分法則有6個選項,故應設6個變量,運用0-1編碼方法編碼,即:1,0,1,0,1,1。如果采用多選分類法,則編碼為1,3,5,6,0,0。問題2:擇業(yè)中考慮的主要因素(多選)1經(jīng)濟收入2專業(yè)對口4地理區(qū)位6風險大小8社會福利3發(fā)展前途5個人愛好7勞動強度9其他編碼應為:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。問題3:您擇業(yè)中考慮的主要因素有(限選三項)1361經(jīng)濟收入3發(fā)展前途5個人愛好7勞動強度9社會地位2
專業(yè)對口4地理區(qū)位6風險大小8社會福利10其他因為限選三項,故應設三個變量,編碼依次為1,3,6。首先將每個題的若干答案組成一個綜合變量即變量集
(Set),然后對綜合變量的各種取值進行分析。只有通過定義多選項變量集,spss才能確定應對哪些變量取相同值的個案數(shù)進行累加。多選項分析在SPSS中是通過Analyze-Multiple
Response中的各項功能實現(xiàn)的。1.Define
Sets:(1)從左邊的變量中將多選變量集的變量選擇到
variables
insets框中,建立多選二分變量集或多選分類變量集。(2)在variables
are
coded
as框中指定多選變量集中的變量是按照那種方法編碼的。Dichotomies表示以多選二分法編碼,并在countedvalue中輸入用哪個數(shù)值來表示選中該選項。categories表示以多選分類法編碼,并在
range框中輸入變量取值的最小值和最大值。(3)為多選項變量集命名,系統(tǒng)會自動在該名字前加字符$。(4)單擊add按鈕將定義好的多選項變量集加到multresponse
sets框中。Spss可以定義多個多選項變量集。2.Frequencies:對多選變量集進行頻數(shù)分析。從multresponsesets中把待分析的多選項變量集選擇到tables
for框中;3.Crosstabs:對多選變量集與其他變量集或與原基本變量進行交叉表分析。(1)選擇列聯(lián)表的行變量并定義取值范圍;(2)選擇列聯(lián)表的列變量并定義取值范圍;(3)選擇列聯(lián)表的控制變量并定義取值范圍;(4)單擊option按鈕選擇列聯(lián)表的輸出內(nèi)容和計算方法。Match
variableacrossresponsesets選項表示,如果列聯(lián)表的行列變量均為多選項變量集時,第一個變量集的第一個變量與第二個變量集的第一個變量作交叉分組,依次類推。結(jié)果中:注意Pct
of
Responses(占總回答數(shù)的%)和Pct
of
Case(占總個案數(shù)%)的區(qū)別。利用居民儲蓄調(diào)查數(shù)據(jù)進行分析,實現(xiàn)以下兩個分析目標:分析儲戶的儲蓄目的;分析不同年齡段儲戶的儲蓄目的。為進行多選項分析,首先定義名為cxmd的多選項變量集,其中包括a7_1、a7_2、a7_3三個變量,然后對多選項變量集進行頻數(shù)分析;對不同年齡段儲戶儲蓄目的進行分析,采用多選項交叉分組下的頻數(shù)分析。1.
分析目的和方法奇異性:數(shù)據(jù)過大或過小(找出、分析原因、是否剔除)分布特征:數(shù)據(jù)是否來自正態(tài)總體考察方法:統(tǒng)計量和統(tǒng)計圖形(箱式圖、莖葉圖、QQ圖)2.
一般是考察定距變量3.
Analyze
+
Descriptive
Statistics
+
Explore分析變量(Dependent
List):數(shù)值型變量分組變量(Factor
List):分類變量標識變量(Label
Cases
by):用某變量的值作為觀察值得標識如id選擇一個或多個變量進入Dependent框作為分析變量,單擊OK可獲得分析變量的一系列基本統(tǒng)計量和圖形。此作為分組變量,可以是字符變量,對分析變量的分析將按該變量的觀測值進行分組分析。可有多個分組變量,這時會按多個變量的交叉組合進行分組。該框中的變量作為標識
符,在輸出諸如異常值
時,用該變量進行標識,只允許有一個標識符。可同時輸出基本統(tǒng)計量和圖形只輸出基本統(tǒng)計量只輸出圖形輸出基本統(tǒng)計量均值的置信區(qū)間,可鍵入1—99%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢的最大似然比的穩(wěn)健估計量,當數(shù)據(jù)分布均勻,且兩尾較長,或當數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。輸出最大和最小的5個數(shù),且在輸出窗口中加以標明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。Statistics子對話框:用于選擇需要的描述統(tǒng)計量;
descriptives:輸出均值、中位數(shù)、眾數(shù)、5%修正均值、估計標準誤、方差、標準差、最小值、最大值、全距、四分位差、峰度系數(shù)及其標準誤、偏度系數(shù)及其標準誤及指定的均值置信區(qū)間;m-estmators:做集中趨勢的最大穩(wěn)健估計,該統(tǒng)計量是利用迭代方法計算出來的,受異常值的影響要小得多。如果該估計量離均值較遠,則說明數(shù)據(jù)可能存在異常值,此時宜用該估計量替代均值以反映集中趨勢。一共會輸出四種m估計量,其中huber適用于數(shù)據(jù)接近正態(tài)分布時,另三種則適用于數(shù)據(jù)中有許多異常值的情況;outliers:輸出五個最大值和五個最小值。percentiles:輸出第5%、10%、25%、50%、75%、90%、95%分位數(shù)。plots子對話框:用于選擇需要的統(tǒng)計圖;boxplots復選框:確定箱式圖的繪制方式,可以分組繪制(factorlevelstogether),也可以不分組繪制(dependentstogether),或者不繪制(none);descriptive復選框:可以選擇繪制莖葉圖(stem-and-leaf)和直方圖(histogram);normality
plot
with
test:繪制正態(tài)分布圖(QQ圖),并進行變量是否符合正態(tài)分布的檢驗;1.用于顯示未分組的原始數(shù)據(jù)的分布2.由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的3.以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉4.樹葉上只保留一位數(shù)字5.莖葉圖類似于橫置的直方圖,但又有區(qū)別:直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息6.圖的下方會標示出莖寬和實際值的倍數(shù),每行的莖和葉組成的數(shù)字再乘以莖寬,即得到實際數(shù)據(jù)的近似值如莖寬為10,則圖中的2.3代表23,同樣在圖的下方也會標示出每片葉子代表的記錄數(shù)。利用居民儲蓄調(diào)查數(shù)據(jù),對一次存款金額變量進行探索性分析。5.6.1
比率分析的目的和主要指標比率分析用于對兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量。例如根據(jù)1999年各地區(qū)保險業(yè)務情況的數(shù)據(jù),分析各地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比例情況。通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務的保費收入占全部業(yè)務保費收入的比率變量,然后對該比率變量計算基本描述統(tǒng)計量(如均值、中位數(shù)、標準差、全距等),進而刻畫比率變量的集中趨勢和離散程度。SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標,大致也屬于集中趨勢描述指標和離散程度描述指標的范疇,具體包括:其中,Ri
是比率數(shù),M是比率變量的中位數(shù),N為樣本數(shù)N加權(quán)比率均值(Weightedmean):兩變量均值的比,屬集中趨勢描述指標。AAD(AverageAbsoluteDeviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為:AAD
=
Ri
-
M相對數(shù)或平均數(shù)計算平均數(shù)的計算相對數(shù)(或平均數(shù))用Y
表示,有Y=a/b,a、b為總量指標。求各期Y的平均一般不能采用簡單算術(shù)平均法,即Y
?
Yn因為各期數(shù)據(jù)Yi的對比基礎(chǔ)bi不同,它們對全期總平均水平的影響作用應輕重有別.計算公式:1.分別計算其分子、分母的平均數(shù)2.對比得:b上式實質(zhì)上等于對各期Y加權(quán)算術(shù)平均。Y
=
a(3)COD(CoefficientofDispersion)離散系數(shù):也是對比率變量離散程度的描述,計算公式為:(
)M(4)PRD(Price-relatedDifferential)相關(guān)價格微分:是比率均值與加權(quán)比率均值的比,也是比率變量離散程度的描述。COD
=
N
Ri
-
R(5)COV變異系數(shù):用于對比率變量離散程度的描述,分為基于均值的變異系數(shù)(Meancentered
COV)和中位數(shù)的變異系數(shù)(MediancenteredCOV)。前者是通常意義下的變異系數(shù),是標準差除以均值;后者定義為:2(
)iM(
R
-
M
)COV
=
N
5.6.2
比率分析的基本步驟(1)選擇菜單Analyze-Descriptive
Statistics-Radio,出現(xiàn)窗口將比率變量的分子選擇到Numerator框中,將比率變量的分母選到Denominator框中。如果做不同組間的比率比較,則將分組變量選擇到Group
Variable框中。單擊Statistics按鈕指定輸出哪些關(guān)于比率的描述統(tǒng)計量,出現(xiàn)如下窗口:至此,SPSS將自動計算比率變量,并將相關(guān)指標輸出到輸出窗口中。(case
summaries)過程casesummaries過程用于按指定的分組變量的不同水平進行交叉描述性統(tǒng)計分析。Analyze-report-case
summary進入。
variables框:選擇需要進行分析的變量,可多選;grouping
variables框:選擇用于分組的變量。如果選擇了多個分組變量,則系統(tǒng)會按各個變量的不同取值的交叉組合對匯總變量進行分析。Display
case:用于確定是否輸出詳細的記錄列表,下面的三個復選框用于選擇具體的輸出方式。Statistics子對話框用于選擇一些常用的統(tǒng)計量。title子對話框:
title框:用于定義輸出表格的標題,默認標題為case
summaries。caption框:用于給輸出表格加上注解文字。subheadingsfortotals:用于選擇是否給每個分組均顯示所計算統(tǒng)計量的名稱;exclude case
with
missing
valueslistwise:用于選擇是否在分析中刪除帶有缺失值的變量。missingstatisticsappearas:用于輸出一個字符串,用于在輸出結(jié)果中表示缺失值。1.對居民儲蓄調(diào)查數(shù)據(jù)中的居民存款金額按照戶口和職業(yè)進行分類匯總得到均值、中位數(shù)及標準差。分析:可以使用split
file過程,然后使用
descriptive過程來完成。但是我們用這里的
case
summary過程一步就能完成。(
Basic
tables過程)Basictables過程可對定類資料或定量資料進行各種復雜格式的描述。菜單操作:Analyze-
tables
-
Basic
tablessummaries框:選擇需要進行匯總的變量,可以是定類變量也可以是定距變量,可以選入多個,但所有變量只能使用同樣的匯總指標。subgroups框:用于定義分組匯總時的分組情況。(
Basic
tables過程)down框:選入分行匯總變量;表格中的匯總指標按照該變量的不同取值分行輸出,可以選入多個。
across框:選入分列匯總變量;separate
table框:選入分層匯總變量;allcombination:默認選項,所有分組變量按照選入順序依次嵌套;eachseparately:所有分組變量分別輸出分組統(tǒng)計結(jié)果,只是放在同一個表格中。(
Basic
tables過程)statistics子對話框:percentilecutpoint框:選中percentile統(tǒng)計量時可用,用于選擇分界百分位點。format框:用于設置各種統(tǒng)計量的顯示格式。label框:用于設定各種統(tǒng)計量的顯示標簽,默認為統(tǒng)計量名稱,可以更改為中文。sortingbycellcount框:選擇是否按照表中的頻數(shù)順序輸出。(
Basic
tables過程)layout子對話框:用于設定各種標題/標簽的顯示方式。
summaryvariablelables框:用于選擇匯總變量標簽的顯示方式,可以在左側(cè)、頂部和分不同表格輸出中選擇。statistics
lables框:用于選擇統(tǒng)計量標簽的顯示方式。group
in
summary
variable
dimension框:如果在前面將匯總變量和分組變量選在了同一方向顯示,則可在此處選擇是將匯總變量是與各亞組之下還是將分則變量值與匯總變量之下。lable
groups
with
value
lables
only框:如果選中該框,則各分組的變量名標簽將被省略,他們將用數(shù)值標簽或數(shù)值本身來表示。(
Basic
tables過程)totals子對話框:選擇是否進行匯總以及設定匯總標簽。totals
over
each
group
variable框:要求給出每一分組的匯總結(jié)果,缺失值將不納入?yún)R總分析。可在下方的lable框中更改分組匯總標簽。table-margintotals框:為表格的每一個維度生成匯總結(jié)果,缺失值將不納入?yún)R總分析。format子對話框:(
Basic
tables過程)format子對話框:emptycellappearance框:選擇無頻數(shù)單元格的表示方式,默認為空,可改為用零表示。missingstatisticsappearas框:選擇對缺失值的表示方式,默認為小數(shù)點,可更改為十個字符長度內(nèi)的任意字符串。(
Basic
tables過程)例如:將收入情況和未來收入情況按照戶口和職業(yè)進行頻數(shù)統(tǒng)計。(general
tables過程)Basictables過程已經(jīng)為我們提供了非常強大的制表能力但它只能分別對定量資料或分類資料進行匯總而且對于多選題數(shù)據(jù)無能為力,
general
tables則可以解決以上問題。菜單操作:Analyze-
tables
-
generaltablesstatisticslablesappear:選擇統(tǒng)計量標簽的顯示方式。(
general
tables
過程)acrossthetop:每個統(tǒng)計量單獨占一列,標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 錨地維護合同協(xié)議書模板
- 新零售對傳統(tǒng)零售業(yè)的沖擊
- 項目投資合同協(xié)議書模板
- 數(shù)化制作創(chuàng)業(yè)計劃書
- 老年人攝影營銷策劃方案
- 2025年社區(qū)團購行業(yè)調(diào)研分析報告
- 出租快艇合同協(xié)議書模板
- 海洋公園營銷策劃方案舉例
- 欠款房屋抵押合同協(xié)議書
- 加盟瑞幸商業(yè)計劃書
- 山東省青島市平度市2024屆中考二模語文試題含解析
- GB/T 43635-2024法庭科學DNA實驗室檢驗規(guī)范
- 門診突發(fā)事件應急處理培訓
- 安全生產(chǎn)重在提升執(zhí)行力
- 建筑工程《擬投入本項目的主要施工設備表及試驗檢測儀器設備表》
- 亞健康調(diào)理行業(yè):調(diào)理產(chǎn)品效果評估
- 小學語文作文:五感法描寫課件
- 常用不規(guī)則動詞變化表
- 《法律的基本原則》
- 酒店客房技能實訓中式鋪床
- 物理競賽所有公式
評論
0/150
提交評論