第4章數據的統計描述_第1頁
第4章數據的統計描述_第2頁
第4章數據的統計描述_第3頁
第4章數據的統計描述_第4頁
第4章數據的統計描述_第5頁
已閱讀5頁,還剩73頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第4章 4.連續變量的統計描述 4.分類變量的統計描述 4.多選題的統計描述 4.4 統計圖的呈現 u描述性統計分析:用少量數字(即描述指標)概括大量原 始數字,對數據進行描述; u 推斷性統計分析:從樣本信息回推總體特征。 u統計描述中可用的工具 n各種初步匯總描述方法:分組匯總、百分位數刻畫各種初步匯總描述方法:分組匯總、百分位數刻畫 n各種統計描述指標:均數、標準差、四分位數間距、百分各種統計描述指標:均數、標準差、四分位數間距、百分 比等;比等; n統計表:將統計指標組成表格,可同時呈現多種統計指標,統計表:將統計指標組成表格,可同時呈現多種統計指標, 并進行復雜的樣本分組、合并計算;

2、并進行復雜的樣本分組、合并計算; n統計圖:按照統計指標的大小將其繪制成一張圖形,對于統計圖:按照統計指標的大小將其繪制成一張圖形,對于 連續變量數據,常用直方圖、箱圖加以展示,對于分類變連續變量數據,常用直方圖、箱圖加以展示,對于分類變 量,常用條圖、餅圖加以展示。量,常用條圖、餅圖加以展示。 變量的類型 Nominal變量變量 (名義型)(名義型) 分類變量分類變量 Ordinal變量變量 (定序型)(定序型) 可視作分類變量,可視作分類變量, 也可處理后視作也可處理后視作 連續變量連續變量 Scale變量變量 (定(定 距定比型)距定比型) 連續變量連續變量 5 u集中趨勢是指一組數據向

3、某一中心值靠攏的傾向,是關于 中心位置的描述。 u在統計學中,關于數據分布的中心位置的統計量被稱為位 置統計量(Location Statistic)。 u常用的位置統計量有: n均數均數適用于正態分布和對稱分布資料;適用于正態分布和對稱分布資料; n中位數中位數適用于所有分布類型的資料。適用于所有分布類型的資料。 n眾數眾數適用于所有分布類型的資料。適用于所有分布類型的資料。 u算術均數(Arithmetic Mean)是最常用的描述數據分布的 集中趨勢的統計量。總體均數用表示,樣本均數用X表示。 12 i n X XXX X nn n均數的最重要意義在于它高度濃縮了數據,使大量的觀測均數的

4、最重要意義在于它高度濃縮了數據,使大量的觀測 數據變為一個代表性數值。但它掩蓋了各個觀測數據之間數據變為一個代表性數值。但它掩蓋了各個觀測數據之間 的差異性,且對極端值比較靈敏,在某些情況下也有一定的差異性,且對極端值比較靈敏,在某些情況下也有一定 欺騙性。欺騙性。 均數適用范圍:均數適用范圍: 單峰和基本對稱的分布情況下適用于描述集中趨勢。單峰和基本對稱的分布情況下適用于描述集中趨勢。 嚴格講均數只適用于定距變量,但有時對于定序變量,求嚴格講均數只適用于定距變量,但有時對于定序變量,求 平均等級也可使用均數。平均等級也可使用均數。 u中位數(Median)是將總體各單位的標志值按大小順序 排

5、列,處于中間位置的那個標志值。剩下的值一半比它大, 一半比它小。 n中位數是位置平均數,因此不受極端值的影響。中位數是位置平均數,因此不受極端值的影響。 中位數適用范圍:中位數適用范圍: 非基本對稱的分布情況下可使用于中位數描述集中趨勢。非基本對稱的分布情況下可使用于中位數描述集中趨勢。 中位數對于定序變量、連續變量都可以使用。中位數對于定序變量、連續變量都可以使用。 中位數只考慮居中位置,因此用于描述連續變量會損失很中位數只考慮居中位置,因此用于描述連續變量會損失很 多信息。所以對于對稱分布的資料,往往優先考慮均數。多信息。所以對于對稱分布的資料,往往優先考慮均數。 123 (1)/2 /2

6、/2 1 ()/2 n n nn XXXX MXn MXXn 設標志值 則中位數當 為奇數時 當 為偶數時 u眾數(Mode)是樣本數據中出現頻次最大的那個數字。 n眾數不受極端值影響,但對資料的使用不完全,使用眾數眾數不受極端值影響,但對資料的使用不完全,使用眾數 反映連續變量會損失很多信息。反映連續變量會損失很多信息。 當數據為對稱分布或接近對稱分布時: 應選擇均值作為集中趨勢的代表值,因為此時均值與眾 數和中位數的差異很小,而又是全部數據的綜合,因此具有 很好的代表性。 當數據為偏斜度較大的非對稱分布時: 均值此時受極端值的影響,而偏離數據的集中點;此時應 選擇眾數和中位數來代表。 X

7、正偏或右偏分布 負偏或左偏分布 對稱分布 u 由于均數較易受極端值的影響,因此可以考慮將數據排序 后,按一定比例去掉兩端的數據,只使用中部的數據來求均數, 即截尾均數。 n 如果截尾均數和原均數相差不大,則說明數據不存在極端如果截尾均數和原均數相差不大,則說明數據不存在極端 值,或者兩側極端值的影響正好抵消;反之,則說明數據中有值,或者兩側極端值的影響正好抵消;反之,則說明數據中有 極端值,此時截尾均數能更好地反映數據的集中趨勢。極端值,此時截尾均數能更好地反映數據的集中趨勢。 n 常用的截尾均數有常用的截尾均數有5%5%截尾均數,即兩端各去掉截尾均數,即兩端各去掉5%5%的數。的數。 u離散

8、趨勢是指一組數據遠離其中心值的程度,是關于數據 波動范圍的描述。 u在統計學中,關于數據離散趨勢的統計量被稱為尺度統計 量(Scale Statistic)。 u常用的尺度統計量有: n全距全距適用于所有分布類型的資料適用于所有分布類型的資料 n標準差、方差標準差、方差適用于正態分布資料適用于正態分布資料 n四分位數間距四分位數間距適用于所有分布類型的資料適用于所有分布類型的資料 u全距又稱為極差,是一組數據中最大值(Maximum)與 最小值(Minimum)之差. n極差衡量的是變量分布的變異范圍或離散幅度。極差衡量的是變量分布的變異范圍或離散幅度。 n它僅僅取決于兩個極端值的水平,不能反

9、映其間的變量分它僅僅取決于兩個極端值的水平,不能反映其間的變量分 布。布。 n它容易受個別極端值的影響,并不穩定。它容易受個別極端值的影響,并不穩定。 u 全距一般只用于預備性檢查,目的是大體上了解數據的分 布范圍。 maxmin RXX u方差:即平均了每個數據的離均差的平方值。可用于不同 含量樣本數據分布離散程度的比較。 n方差越大,數據分布的離散程度越大。方差越大,數據分布的離散程度越大。 u標準差:將方差開方得到標準差。標準差度量了偏離平均 數的大小,相當于平均偏差,可直接地、概括地、平均地 描述數據變異的大小。 n標準差越小,表明數據越整齊,變異程度越小。標準差越標準差越小,表明數據

10、越整齊,變異程度越小。標準差越 大,表明數據分布越分散,變異程度越大。大,表明數據分布越分散,變異程度越大。 1 )( 1 2 2 n xx S n i i 1 )( 1 2 n xx S n i i 方差和標準差的適用范圍:方差和標準差的適用范圍: 由于方差和標準差的計算涉及到每一個變量值,所以它們由于方差和標準差的計算涉及到每一個變量值,所以它們 反映的信息在離散指標中是最全面、最可靠的變異描述指標。反映的信息在離散指標中是最全面、最可靠的變異描述指標。 由于涉及每一個變量值,方差和標準差也會受極端值的影由于涉及每一個變量值,方差和標準差也會受極端值的影 響,當數據中有明顯的極端值時不宜使

11、用。響,當數據中有明顯的極端值時不宜使用。 只有均數能反映集中趨勢時才能使用方差和標準差來反映只有均數能反映集中趨勢時才能使用方差和標準差來反映 離散趨勢。因此,方差和標準差的適用范圍應當是離散趨勢。因此,方差和標準差的適用范圍應當是正態分布。 u 百分位數(Percentile)是一種位置指標,用Px表示。一個 百分位數將一組觀察值分為兩部分,理論位置有x%的觀察值 比它小,(100 x)%的觀察值比它大。 u 四分位數即三個數據的總稱,分別是P25、P50和P75分位數。 這三個分位數將全部總體單位按標志值的大小等分為四部分。 分別記為Q1、Q2和Q3。 u 四分位數間距即(Q3 Q1)

12、四分位數間距(四分位數間距( Q3 Q1 )的適用范圍:的適用范圍: 四分位數間距包括了中間四分位數間距包括了中間50%的觀察值,因此既排除了兩的觀察值,因此既排除了兩 端極端值的影響,又能夠反映較多數據的離散程度,是當方端極端值的影響,又能夠反映較多數據的離散程度,是當方 差、標準差不適用時較好的離散程度描述指標。差、標準差不適用時較好的離散程度描述指標。 四分位數間距越大表明中間的數據越分散,越小表明中間四分位數間距越大表明中間的數據越分散,越小表明中間 的數據越集中,在描述數據的離散程度上比極差的穩定性要的數據越集中,在描述數據的離散程度上比極差的穩定性要 高。高。 u數據的分布形態主要

13、指數據分布是否對稱,偏斜程度如何, 分布陡緩程度等。 u在統計學中,關于數據分布形態的統計量被稱為分布統計 量(Distribution Statistic)。 u常用的分布統計量有: n偏度系數偏度系數 n峰度系數峰度系數 u偏度系數是描述變量取值分布形態對稱性的統計量。 n當分布為對稱分布時,正負總偏差相等,偏度值等于當分布為對稱分布時,正負總偏差相等,偏度值等于0 0;當;當 分布為不對稱分布時,正負總偏差不相等,偏度值大于分布為不對稱分布時,正負總偏差不相等,偏度值大于0 0或或 小于小于0 0; n偏度值大于偏度值大于0 0表示正偏差值大,為正偏或右偏,直方圖中有表示正偏差值大,為正

14、偏或右偏,直方圖中有 一條長尾拖在右邊;偏度小于一條長尾拖在右邊;偏度小于0 0表示負偏差數值大,為負偏表示負偏差數值大,為負偏 或左偏,直方圖中有一條長尾拖在左邊;或左偏,直方圖中有一條長尾拖在左邊; n正偏態說明數據多集中在偏低的一端,但存在較大的極端正偏態說明數據多集中在偏低的一端,但存在較大的極端 值;負偏態說明數據多集中在偏高的一端,但存在較小的值;負偏態說明數據多集中在偏高的一端,但存在較小的 極端值。極端值。 n偏度絕對值越大,表示數據分布形態的偏斜程度越大。偏度絕對值越大,表示數據分布形態的偏斜程度越大。 u峰度系數是描述變量取值分布形態的陡緩程度的統計量。 n當數據分布與標準

15、正態分布的陡緩程度相同時,峰度值等當數據分布與標準正態分布的陡緩程度相同時,峰度值等 于于0 0; n峰度大于峰度大于0 0表示數據的分布比標準正態分布更陡峭,為尖峰表示數據的分布比標準正態分布更陡峭,為尖峰 分布;峰度小于分布;峰度小于0 0表示數據的分布比標準正態分布平緩,為表示數據的分布比標準正態分布平緩,為 平峰分布。平峰分布。 n尖峰分布說明集中在眾數附近的數值多,兩側數值少;平尖峰分布說明集中在眾數附近的數值多,兩側數值少;平 峰分布說明集中在眾數附近的數值少,兩側數值多。峰分布說明集中在眾數附近的數值少,兩側數值多。 u正態分布:在自然現象和社會現象中,大量的隨機變量都 服從或近

16、似服從正態分布,也叫高斯分布。 u正態分布的特征: n正態分布曲線是一條對稱曲線,關于均數對稱;正態分布曲線是一條對稱曲線,關于均數對稱; n曲線是單峰,在均值處達到最高點;曲線是單峰,在均值處達到最高點; n正態分布曲線的矮闊與尖峭與標準差有關。標準差越大,正態分布曲線的矮闊與尖峭與標準差有關。標準差越大, 個體差異越大,正態曲線也越矮闊;反之,標準差越小,個體差異越大,正態曲線也越矮闊;反之,標準差越小, 個體差異越小,正態曲線也越尖峭。個體差異越小,正態曲線也越尖峭。 n曲線無論向左或向右延伸,都越來越接近橫軸,但不會與曲線無論向左或向右延伸,都越來越接近橫軸,但不會與 橫軸相交,以橫軸

17、為漸近線。橫軸相交,以橫軸為漸近線。 u正態曲線下的面積: n約約68%的個體的取值與平均數的距離在的個體的取值與平均數的距離在1個標準差個標準差( )之之 內,或者說內,或者說1個標準差范圍內的曲線下面積為個標準差范圍內的曲線下面積為68%; n約約95%的個體的取值與平均數的距離在的個體的取值與平均數的距離在1.96個標準差個標準差 (1.96)之內;之內; n約約99.7%個體的取值與平均數的距離在個體的取值與平均數的距離在3個標準差個標準差(3)之之 內。內。 u3個標準差之外的值通常看作異常值。 u標準正態分布即將原始數據進行標準化變換,也被稱為Z 分布。 n通過標準化可得到一系列的

18、變量值,通常稱為標準化值,通過標準化可得到一系列的變量值,通常稱為標準化值, 或或Z分數。分數。 n標準化值反映的是變量值與變量均值的差是幾個標準差單標準化值反映的是變量值與變量均值的差是幾個標準差單 位。如果標準化值等于位。如果標準化值等于0,則表明該變量值等于變量均值;,則表明該變量值等于變量均值; 如果標準化值大于如果標準化值大于0,則表明該變量值大于變量均值;如,則表明該變量值大于變量均值;如 果標準化值小于果標準化值小于0,則表明該變量值小于變量均值;,則表明該變量值小于變量均值; u異常值的判斷 n將數據標準化后分為三組:將數據標準化后分為三組:Z-3,-3Z 3,Z3 n如果數據

19、在第一組或第三組的比例大于理論值如果數據在第一組或第三組的比例大于理論值0.3%,則可,則可 認為存在異常值。認為存在異常值。 XX Z uFrequencies過程即頻數分析,是最基本的數據分析過程。 u主要功能: n既可用于連續變量,也可用于分類變量既可用于連續變量,也可用于分類變量 n生成頻數表生成頻數表 n計算各種基本統計量,可計算百分位數計算各種基本統計量,可計算百分位數 n對于連續變量可繪制帶正態曲線的直方圖對于連續變量可繪制帶正態曲線的直方圖 n對于分類變量可繪制餅圖、條圖等對于分類變量可繪制餅圖、條圖等 u針對數據“住房狀況調查” I.分析戶主的分析戶主的“從業情況從業情況”和

20、和“房屋產權情況房屋產權情況 ”,繪制頻數,繪制頻數 表和條圖表和條圖 II.針對針對“家庭收入家庭收入”和和“現住面積現住面積”計算均數、標準差、中計算均數、標準差、中 位數以及位數以及P5、P95,并繪制帶正態曲線的直方圖,并繪制帶正態曲線的直方圖 ; III. 比較本地戶口和外地戶口的人均住房面積比較本地戶口和外地戶口的人均住房面積 情況。情況。 IV. 分析人均住房面積是否存在不均衡現象。分析人均住房面積是否存在不均衡現象。 uI. 使用Frequencies過程繪制頻數表和條圖(Charts選項卡)。 可同時選入多可同時選入多 個需要描述的個需要描述的 變量,系統依變量,系統依 次進

21、行分析次進行分析 確定是否在結果中確定是否在結果中 輸出頻數表。連續輸出頻數表。連續 變量通常不輸出頻變量通常不輸出頻 數表。數表。 集中趨勢選集中趨勢選 項組項組 百分點數值選百分點數值選 項組項組 按某一數值等按某一數值等 分分 輸入給定位置輸入給定位置 的百分點的百分點 離散趨勢選項離散趨勢選項 組組 分布選項組分布選項組 偏度偏度 峰度峰度 uII. 使用Frequencies過程計算統計量(Statistics)并繪制直方圖 (Charts選項卡)。 條圖條圖 指統計圖數值給指統計圖數值給 出頻數或百分比出頻數或百分比 餅圖餅圖 直方圖直方圖 uII. 使用Frequencies過程

22、計算統計量(Statistics)并繪制直方圖 (Charts選項卡)。 uIII. 先用Split File 將數據進行拆分,然后使用Descriptives過 程計算統計量。 結果說明: l本市戶口的人均面積均值低于外地戶口。但外地 戶口的標準差高于本地戶口。因此相對于本市戶口, 外地戶口的住房面積離散程度更高。 l人均住房面積的分布均呈右偏分布,且本市戶口 的右偏程度更大,說明本市戶口的人均住房面積主 要集中在數值較低的一端。 l人均住房面積的分布均呈尖峰分布,且本市戶口 的峰態更高,說明本市戶口的人均住房面積在眾數 附近的分布更密集。 uIV. (1)取消數據拆分,使用Descript

23、ives過程將數據標準化。 將標準化后的變量將標準化后的變量 值作為一個新變量值作為一個新變量 保存在數據集中。保存在數據集中。 u(2)將標準化后的Z值進行排序(Sort Cases),看是否存在 絕對值大于3的Z值,即為異常值。 u(3)用Recode命令將Z值分組,計算異常值組的百分比,與 理論值0.3%相比較判斷是否存在不均衡現象。 uDescriptives過程通常用于輸出連續變量的基本描述統計 量。 u主要功能: n只可用于連續變量。只可用于連續變量。 n計算各種基本統計量,計算各種基本統計量,但與但與Frequencies相比,不可計算分相比,不可計算分 位數、中位數、眾數等。位

24、數、中位數、眾數等。 n重要功能在于將數據標準化。重要功能在于將數據標準化。 uExplorer過程可用于輸出將變量分類后的連續變量的基本 描述統計量。 u主要功能: n用于連續變量統計量與統計圖的輸出。用于連續變量統計量與統計圖的輸出。 n可指定分類變量,功能相當于拆分數據文件。可指定分類變量,功能相當于拆分數據文件。 n可輸出異常值、計算截尾均數。可輸出異常值、計算截尾均數。 n可輸出莖葉圖、盒須圖。可輸出莖葉圖、盒須圖。 n可輸出判斷正態性的可輸出判斷正態性的P-P圖、圖、Q-Q圖。圖。 u根據“住房狀況調查.sav”,根據“從業狀況”對“現住 面積”進行數據探測。 選入需要分選入需要分

25、 析的連續變析的連續變 量量 選入按某種選入按某種 因素分組的因素分組的 分類變量分類變量 輸出描述性輸出描述性 統計量,指統計量,指 定置信區間定置信區間 極端值,輸極端值,輸 出出5個最大個最大 值,值,5個最個最 小值。小值。 輸出輸出5%、 10%、25%、 50%、75%、 95%分位數分位數 箱圖箱圖 莖葉圖莖葉圖 直方圖直方圖 繪制正態分布圖,進行變量是否繪制正態分布圖,進行變量是否 符合正態分布的檢驗符合正態分布的檢驗 u結果說明:數據探測之描述性統計量 集中趨集中趨 勢指標勢指標 離散趨離散趨 勢指標勢指標 分布特分布特 征指標征指標 去除去除5%極端值極端值 的截尾均數的截

26、尾均數 95%的置信區間的置信區間 參數參數 估計估計 u結果說明:數據探測之直方圖 u結果說明:數據探測之莖葉圖 u對樣本量較小的情形,直方圖會損失一部分信息,此時可 以使用莖葉圖來進行更精確的描述。 u莖葉圖(Stem-and-Leaf Graph)的形狀與功能與直方 圖非常相似,是一種文本化的圖形。 u莖葉圖的生成:ExplorePlots 現住面積現住面積 Stem-and-Leaf Plot for 從業狀況從業狀況= 大專院校科研單位大專院校科研單位 Frequency Stem & Leaf 1.00 Extremes (=120) Stem width: 10.00 Each

27、leaf: 1 case(s) u結果說明:數據探測之箱圖(盒須圖) u箱圖也稱箱線圖、盒須圖。和直方圖一樣用于考察連續變 量的分布情況。 u直方圖側重對一個連續變量的分布情況進行詳細考察,箱 圖注重勾勒出統計上的主要信息 u箱圖也可通過GraphsBoxplot輸出 中位數中位數 上限上限:1.5(Q3-Q1) 下限:下限:1.5(Q3-Q1) Q3 :第:第75 個百分點個百分點 Q1 :第:第25個個 百分點百分點 離群值:與離群值:與 四分位數值四分位數值 的距離超過的距離超過 1.5倍四分位倍四分位 數間距的值數間距的值 極值:與四分位數極值:與四分位數 值的距離超過值的距離超過3倍

28、倍 四分位數間距的值四分位數間距的值 用表示用表示 u結果說明:數據探測之箱圖(盒須圖) u箱圖可同時反映出中位數(集中趨勢)和四分位數(離散 趨勢)的位置; u中位數距離方框邊界和最值邊界是否對稱則直接體現了數 據分布的對稱性; u異常值對統計分析有較大的影響,箱圖可直接標示出統計 上認為可疑的離群值和極端值。 u箱圖主要是對以百分位數為基礎的信息進行呈現,因此當 百分位數不穩定時,箱圖并不適用。即當樣本量太少,或 者相同數值過多時,不宜使用箱圖。此時莖葉圖或條圖是 更好的選擇。 u結果說明:數據探測之正態性檢驗 u結果說明:數據探測之正態性檢驗 (1) 正態概率圖 正態概率圖是在統計圖中

29、描繪比較變量的實際累積 概率以及所考察分布類型 的理論累積概率符合程度, 以判斷資料是否服從所考 察的分布類型。如果變量 服從正態分布,則實際累 積概率與理論累積概率應 基本一致。 如果數據呈正態如果數據呈正態 分分 布,則圖中數據點布,則圖中數據點 和理論直線(對角和理論直線(對角 線)基本重合線)基本重合 實際(觀測)實際(觀測) 概率值概率值 理論(期望)理論(期望) 概率值概率值 u結果說明:數據探測之正態性檢驗 (2) 偏離正態圖 偏離正態圖是根據變量 的實際分位數與理論分 布進行繪圖,并據此判 斷變量是否服從特定的 分布。 ExplorerPlots Normality Plots

30、 with test 如果數據呈正態如果數據呈正態 分分 布,則圖中數據點布,則圖中數據點 應較均勻地分布在應較均勻地分布在 y=0這條直線的上下。這條直線的上下。 實際值實際值 按正態分布計按正態分布計 算的理論值算的理論值 45 u頻數分布情況的描述 n頻數:在一張頻數表中,描述各個類別的樣本數;頻數:在一張頻數表中,描述各個類別的樣本數; n百分比:本類別出現的次數占總次數的比例;百分比:本類別出現的次數占總次數的比例; n累積頻數:本類別及較低類別出現的次數之和;累積頻數:本類別及較低類別出現的次數之和; n累積頻率(累積百分比):本類別及較低類別出現的次數累積頻率(累積百分比):本類

31、別及較低類別出現的次數 之和占總次數的百分比。之和占總次數的百分比。累積指標適用于描述分類有序變量。 例如學歷調查: 1. 高中及以下;2. 大專;3. 大學;4. 研究生及以上。 u集中趨勢的描述 n可以使用眾數來描述它的集中趨勢。可以使用眾數來描述它的集中趨勢。 n眾數只反映了頻數最多的類別的情況,而浪費了其他所有的眾數只反映了頻數最多的類別的情況,而浪費了其他所有的 信息。信息。 n只有集中趨勢顯著時,才使用眾數作為總體的代表值。只有集中趨勢顯著時,才使用眾數作為總體的代表值。 u使用相對數進行深入描述 n比(比(Ratio)指兩個有關指標之比)指兩個有關指標之比A/B,用于反映這兩個指

32、標在用于反映這兩個指標在 數量數量/頻數上的大小關系。如:兩個電視臺相同時段收視份額頻數上的大小關系。如:兩個電視臺相同時段收視份額 之比。之比。 n構成比(構成比(Proportion):百分比和累積百分比百分比和累積百分比 n率(率(Rate)用于說明某個時期內某個事件發生的頻率或強度。)用于說明某個時期內某個事件發生的頻率或強度。 u分類變量的聯合描述 n頻數表頻數表: :可以描述一個分類變量的數值分布情況。可以描述一個分類變量的數值分布情況。 對財經類節目的喜愛程度頻數表 FrequencyPercentValid Percent Cumulative Percent Valid 很喜

33、歡3225.625.625.6 一般6048.048.073.6 不喜歡3326.426.4100.0 Total125100.0100.0 u分類變量的聯合描述 n列聯表:當一共有兩個分類變量時,這種因分類變量的類別列聯表:當一共有兩個分類變量時,這種因分類變量的類別 交叉而成的復合頻數表被稱為行交叉而成的復合頻數表被稱為行列表,也稱列聯表。列表,也稱列聯表。 對財經類節目的喜歡程度與受教育水平的列聯表 Count favor Total 很喜歡一般不喜歡 edu 高205328 中10201040 低2352057 Total326033125 u分類變量的聯合描述 n行百分比:每一單元格

34、的頻數占所在行的單元格取值之和的行百分比:每一單元格的頻數占所在行的單元格取值之和的 百分比。百分比。 n列百分比:每一單元格的頻數占所在列的單元格取值之和的列百分比:每一單元格的頻數占所在列的單元格取值之和的 百分比。百分比。 n行、列百分比選擇的通常原則行、列百分比選擇的通常原則 自變量為行變量,則選擇行百分比!自變量為行變量,則選擇行百分比! 自變量為列變量,則選擇列百分比!自變量為列變量,則選擇列百分比! 對財經類節目的喜歡程度與受教育水平的列聯表 favor Total 很喜歡一般不喜歡 edu 高 Count205328 % within edu71.4%17.9%10.7%100

35、.0% 中 Count10201040 % within edu25.0%50.0%25.0%100.0% 低 Count2352057 % within edu3.5%61.4%35.1%100.0% Total Count326033125 % within edu25.6%48.0%26.4%100.0% AnalyzeDescriptive StatisticsCrosstabs 顯示分組顯示分組 的條形圖的條形圖 單擊打開統單擊打開統 計量對話框計量對話框 單擊打開單單擊打開單 元格對話框元格對話框 單擊打開表格單擊打開表格 格式對話框格式對話框 加入層變量加入層變量 可得到三維可得

36、到三維 交叉列聯表交叉列聯表 53 u應答人數:是指選擇了本選項的人數,或者說就是原始頻 數。 u應答人數百分比(Percent of Cases):選擇該項的人占 總人數的比例。應答人數百分比可以反映該選項在人群中 的受歡迎程度。 u應答次數百分比(Percent of Responses):在做出的 所有選擇中,選擇該項的次數占總次數(總反應數)的比 例。應答次數百分比可以用于不同選項受歡迎程度的比較。 u根據數據“上網行為調查.sav”分析多選題: 4、您上網的主要目的是(可多選): (1)玩網絡游戲 (2)聊天或交友 (3)看動漫、電影、下載音樂等 (4)獲取信息 (5)學習或工作 (

37、6)通訊或聯絡 (7) 其它 第一步:定義多選題變量集 第一步:定義多選題變量集。 選入多選題選入多選題 的對應變量的對應變量 二分法二分法 輸入答案為輸入答案為 “是是”的代碼的代碼 多重分多重分 類法類法 $q4 Frequencies Responses Percent of CasesNPercent 上網的主要目的a玩網絡游戲473917.7%77.6% 聊天或交友375414.0%61.5% 看動漫、電影、下 載音樂等 278510.4%45.6% 獲取信息24329.1%39.8% 學習或工作332412.4%54.4% 通訊或聯絡410315.3%67.2% 其他568621.

38、2%93.1% Total26823100.0%439.4% a. Dichotomy group tabulated at value 0. 第二步:對變量集進行分析頻數分析 AnalyzeMultiple ResponseFrequencies 應答次數應答次數 百分比百分比 應答人數應答人數 百分比百分比 第三步:對變量集進行分析交互分析 AnalyzeMultiple ResponseCrosstabs 設置自變量的設置自變量的 取值取值范圍范圍 設置單元格設置單元格 輸出指標輸出指標 第三步:對變量集進行分析交互分析 AnalyzeMultiple ResponseCrosstabs

39、 設置單元格設置單元格 輸出指標輸出指標 輸出行列百輸出行列百 分比分比 輸出應答人輸出應答人 數百分比數百分比 輸出應答次輸出應答次 數百分比數百分比 q1*$q4 Crosstabulation 上網的主要目的a Total 玩網絡游 戲聊天或交友 看動漫、電 影、下載音 樂等獲取信息 學習或工 作 通訊或聯 絡其他 你的性別 男Count21761992151013631852223729273184 % within q1 68.3%62.6%47.4%42.8%58.2%70.3%91.9% 女Count25631762127510691472186627592921 % withi

40、n q1 87.7%60.3%43.6%36.6%50.4%63.9%94.5% TotalCount47393754278524323324410356866105 Percentages and totals are based on respondents. a. Dichotomy group tabulated at value 0. 結果說明: (1)通訊聯絡、網絡游戲和聊天交友是男性和女性上網最主要的三 大目的。 (2)除網絡游戲外,男性在聊天交友、學習工作、通訊聯絡、獲取 信息以及看動漫電影下載音樂等上網目的上均高于女性。 61 u餅圖 u條圖 u線圖 u直方圖 u莖葉圖 u箱

41、圖 u餅圖用于表示各類別某種特征的構成比情況。圓形總面積 為100%,扇形面積的大小表示事物內部各部分的百分比。 u一般以12點為起點,各部分按習慣順序或數值大小順時 針排列。 GraphsLegacy DialogsPie 注:只有當分類數的百分 比之和為100%時,餅圖 才適用。 u條圖用等寬的直條長短代表相互獨立的各指標數值大小, 該指標可以是連續變量的匯總指標,也可是分類變量的頻 數或百分比。 u條圖的縱軸從0開始,各部分按大小或自然順序排列。 GraphsLegacy DialogsBar Simple簡單條圖簡單條圖 Clustered復式條圖復式條圖 Stacked堆積條圖堆積條

42、圖 簡單條圖: 用于單變量 GraphsLegacy DialogsBar Summaries of Groups of Cases 指定直條代指定直條代 表的意義表的意義 指定分類軸指定分類軸 變量(通常變量(通常 為橫軸)為橫軸) 指定第二分指定第二分 類變量(直類變量(直 條組變量)條組變量) 可指定第三分類可指定第三分類 變量(層變量)變量(層變量) 輸出行或列條圖輸出行或列條圖 u個案分組匯總模式(Summaries of Groups of Cases) 下的條形圖。 分組條圖:兩個以上變量 分段條圖:兩個以上變量 u單個變量匯總模式(Summaries of separate variables) 下的條形圖。 根據數據文件“我國電影片產量.sav”繪制逐年產量的分組條形圖 和分段條形圖。 GraphsL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論