第3章樣本數特征的初步_第1頁
第3章樣本數特征的初步_第2頁
第3章樣本數特征的初步_第3頁
第3章樣本數特征的初步_第4頁
第3章樣本數特征的初步_第5頁
已閱讀5頁,還剩59頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 樣本數據特征的初步分析提示 如何將你收集的數據中的信息概括或集中起來3.1 樣本數據結構的基本特征:頻次與頻率頻次(frequency):在樣本數據集合中,同樣的數據值(樣本值)出現的次數。頻率(percentage或relative frequency) 頻次與頻率的概念適用于所有測度級別的數據例 3.1.19.98 10.0210 10.04 10.019.99 10.05 10.04 10.06 10.0110.039.99 9.979.93 10.01 10.03 10.03 10.02 10.059.999.959.96 9.98109.97 10.01109.999.981

2、09.939.95 9.969.979.979.989.989.989.999.999.999.9910101010 10.01 10.01 10.01 10.0110.02 10.0210 10.03 10.03 10.04 10.04 10.05 10.05 10.06價格(元)9.939.949.959.969.979.989.991010.01 10.0210.03 10.04 10.05 10.06頻次10112344423221頻率(%)3.330.003.333.336.6710.0013.3313.3313.336.6710.006.676.673.339.939.949.95

3、9.969.979.989.991010.0110.0210.0310.0410.0510.06例 3.1.2 小學 大學 大學 初中 高中 碩士研究生大學大學大學 高中 大學 大學 初中 大學碩士研究生大學受教育程度小學 初中 高中 大學碩士研究生合計各受教育程度出現的頻次1229216各受教育程度出現的頻率(%)6.25 12.5 12.5 56.2512.5100例 3.1.3r y r g y y w y g g r y y r wg y r w y g g b r y y w r r wr暗紅色,y淡黃褐色,g淺綠色,w白色,b黑色家具的基色調bgrwy合計各基色調出現的頻次1685

4、1030各基色調出現的頻率( % )3.3320.0026.6716.6733.33100.00數據集合中所有取值不同的數據出現的頻率,稱為該數據集合的頻率分布3.1.2 觀察樣本數據基本特征(頻次和頻率)的圖形方法(某樣本值對應的圓心角的大小=該樣本值的頻率360039.98元49.99元410.00元410.01元210.02元210.05元110.06元19.93元19.95元19.96元29.97元210.04元310.03元9.93元 19.94元 09.95元 19.96元 19.97元 29.98元 39.99元 410.00元 410.01元 410.02元 210.03元 3

5、10.04元 210.05元 210.06元 1初中12.50%高中12.50%大學56.25%碩士研究生12.50%小學6.25%小學初中高中大學碩士研究生黑色3.33%淺綠色20.00%暗紅色26.67%白色16.67%淡黃褐色33.33%黑色淺綠色暗紅色白色淡黃褐色餅圖主要用于表示分類變量的頻率(或頻次)結構,但須注意分類變量不重復的取值不能太多。淡黃褐色白色暗紅色淺綠色黑色淡黃褐色白色暗紅色淺綠色黑色用spss作的餅圖未經編輯經過編輯2. 表示頻次和頻率的條形圖表示頻次和頻率的條形圖的構成是(1)橫坐標表示樣本數據的不同取值。如果樣本數據的測度是順序級以上的,橫坐標上的樣本數據就應該從

6、小到大排列。如果是刻度級的數據,還應注意各數據刻度保持一致的比例。(2)縱坐標表示相應樣本值出現的頻次或頻率條形圖常用于表示分類變量數據集合的頻次(或頻率)結構,但分類變量不重復的取值也不能太多。101123444232210123459.93元9.94元9.95元9.96元9.97元9.98元9.99元10.00元10.01元10.02元10.03元10.04元10.05元10.06元3.33%20.00%26.67%16.67%33.33%0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%黑色淺綠色暗紅色白色淡黃褐色黑色淺綠色暗紅色白色淡黃褐色注:

7、 利用excel作圖, 對顏色進行了編輯.3.1.3 樣本數據集合的基本特征的延伸:累積頻率(cumulative percentage)對數據測度在順序級以上的樣本數據,設x1 x2 xm, 是樣本數據集合中的不重復的樣本值。m n, n是樣本數據集合中樣本值的總個數。若把樣本值小于等于某個樣本數據xi的頻率(percentage)都累加起來,就得到“小于等于xi”的累積頻率累積頻率。價格(元)9.939.949.959.969.979.989.991010.0110.0210.0310.04頻率(%)3.330.003.333.336.6710.0013.3313.3313.336.671

8、0.006.67累積頻率(%)3.333.336.6710.0016.6726.6740.0053.3366.6773.3383.3390.00商品價格 xi的累積頻率3.33%6.67%10.00%16.67%26.67%40.00%53.33%66.67%73.33%83.33%90.00%96.67%100.00%0.00%20.00%40.00%60.00%80.00%100.00%120.00%9.93元9.94元9.95元9.96元9.97元9.98元9.99元10.00元10.01元10.02元10.03元10.04元10.05元10.06元6.25%18.75%31.25%87

9、.50%100.00%0.00%20.00%40.00%60.00%80.00%100.00%120.00%小學初中高中大學碩士研究生受教育程度xi的累積頻率3.2 觀察刻度級樣本數據結構的莖葉圖與直方圖方法1. 莖葉圖的基本概念與適用范圍莖葉圖適用于刻度級的樣本數據,不適用于名義級的樣本數據。順序級的樣本數據本質上是半定量的。如果一定要用莖葉圖來表示,也是可以的,但它不能比條形圖提供更多的信息。莖莖葉的基本含義是,按照某個一致的規則,把所有葉的基本含義是,按照某個一致的規則,把所有的樣本值分成的樣本值分成“莖節莖節”和和“葉葉”兩個部分。兩個部分。“莖節莖節”在左,在左,“葉葉”在右。在右。

10、“莖節莖節”、“葉葉”之間用小數點之間用小數點隔開。隔開。莖節葉記作9129.126346.341231.23102110.21明顯地,樣本值=莖節.葉莖節的寬度將所有的樣本數據的不同將所有的樣本數據的不同“莖節莖節”按從小到大的順序按從小到大的順序連接起來,就構成了該樣本數據集合的連接起來,就構成了該樣本數據集合的“莖莖”。樣本。樣本數據數據“莖節莖節”的寬度就是樣本數據集合的的寬度就是樣本數據集合的“莖莖”的寬的寬度。度。確定確定“莖節莖節”寬度的原則:樣本數據集中,寬度的原則:樣本數據集中,“莖節莖節”必須是有變化的。必須是有變化的。2.莖葉圖的基本作法(1)依據樣本數據集合中數字的大小

11、,確定“莖”的數字位和“葉”的數字位;(2)把樣本數據集合中的所有樣本數據,分成“莖節”、“葉”兩部分;(3)把樣本數據集合中的所有“莖節”,從小到大,從上到下縱向排列,并在“莖節”后標出小數點,小數點縱向對齊;(4)依次將數據集合中的所有“莖節”相同的數據取出來,把這些數據的“葉”,按從小到大的順序,排列在這個“莖節”后小數點的右邊,直到這個樣本數據集合中的所有數據處理完。例 3.2.1 171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183某班級男生的身高數據(單位:厘米

12、)莖16171819.葉0,3,5,80,1,2,5,5,6,6,7,7,8,80,1,2,3,5,60頻次41161莖16171819.葉0358012556677880123560 頻次 莖 & 葉 2 16 . 03 2 16 . 58 3 17 . 012 8 17 . 55667788 4 18 . 0123 2 18 . 56 1 19 . 0 莖寬度: 10 莖節長度: 5莖節長度=允許的最大葉值允許的最小葉值+1每個莖節長度都應相等“l”子莖節(低段子莖節)“h”子莖節(高段子莖節)為了避免“葉”過長,還可將莖節再分為幾個(通常是2個)子莖節。3.2.2 直方圖(his

13、togram)的概念與作法2. 數據分組數據分組數據分組一般采用等區間長度的原則。數據分組一般先確定各組區間的長度,然后用下式確定組的個數:1區間長度數據集合中的最小值數據集合中的最大值組的個數r其中r表示用四舍五入法,對括號中的數字取整。也可先確定組的個數,然后再來確定區間的長度。但這種做法相對較少使用。確定分組區間長度的方法多了少了合適其中k,h的選擇應注意,要使最終得到的區間長度便于在坐標軸上標示出來。確定分組區間起點位置的方法首先把樣本數據集合中的最小數據首先把樣本數據集合中的最小數據y以取定的量以取定的量綱為單位取整綱為單位取整y;取滿足取滿足kd1個量綱單位的最大整數個量綱單位的最

14、大整數k,并以,并以y+0,y+d,y+kd為備選的最小分組區間中點的為備選的最小分組區間中點的位置;位置;選出上述備選中點坐標中與選出上述備選中點坐標中與y的差的絕對值最小的差的絕對值最小者,并以該點為最小分組區間的中點。再由者,并以該點為最小分組區間的中點。再由d值值的大小可確定該區間的起點。的大小可確定該區間的起點。注:若某個數據恰好位于兩個分組區間的分界點上,則習慣上將其劃歸右邊的區間關于直方圖的幾個概念關于直方圖的幾個概念x =(組上界+組下界)/ 2 160 163 165 168 170 171 172 175 175 176 176 177 177 178 178 180 18

15、1 182 183 185 186 190某班級男生的身高數據排序(單位:厘米)組別組別組組1組組2組組3組組4組組5組組6組組7組界組界(157.5, 162.5)162.5,167.5)167.5, 172.5)172.5,177.5)177.5, 182.5)182.5,187.5)187.5,192.5)身高身高160.163, 165168, 170, 171, 172175, 176, 177178, 180, 181, 182183, 185, 186190頻次頻次11, 11, 1, 1, 12, 2, 2 2, 1, 1, 11, 1, 1 1組頻次組頻次1246531繪直方

16、圖:(1)在橫軸上,從小到大依次標出分組區間的邊界;(2)沿縱軸方向,依據各區間的組頻次或組頻率的大小,分別繪制不同高度的矩形。身高頻次條形圖00.511.522.5160厘米163厘米166厘米169厘米172厘米175厘米178厘米181厘米184厘米187厘米190厘米身高頻次身高(厘米)190.0185.0180.0175.0170.0165.0160.0頻次76543210std. dev = 7.56 mean = 175.8n = 22.00身高頻次直方圖身高(分米)19.0018.7518.5018.2518.0017.7517.5017.2517.0016.7516.5016

17、.2516.00543210std. dev = .76 mean = 17.58n = 22.00excel的直方圖r語言中的直方圖sas中的直方圖156162168174180186192f102468frequency3.3 樣本數據的位置特征:對數據中心的描述 樣本中位數 樣本眾數 樣本均值3.3.1 樣本眾數(sample mode)樣本眾數的定義樣本眾數的定義1: 樣本數據集合中出現頻次最高的那個樣本值,稱為樣本眾數,簡稱為眾數。按此定義,對給定的樣本數據集合,樣本眾數可能不唯一。若樣本眾數是唯一的,稱為單一眾數,否則稱為復眾數。例如 某單位職工受教育程度的結構為(順序級數據)受教

18、育程度小學 初中 高中 大學碩士研究生合計各受教育程度出現的頻次1229216各受教育程度出現的頻率(%)6.25 12.5 12.5 56.2512.5100則對應的樣本數據集合的眾數為“大學”。家具的基色調bgrwy合計各基色調出現的頻次16851030各基色調出現的頻率( % )3.3320.0026.6716.6733.33100.00家具基色調出現的頻次(名義級數據)則對應的樣本數據集合的眾數為“y(即淡黃褐色)”。價格(元)9.939.949.959.969.979.989.991010.01 10.0210.03 10.04 10.05 10.06頻次10112344423221

19、頻率(%)3.330.003.333.336.6710.0013.3313.3313.336.6710.006.676.673.33某商品價格出現的頻次(刻度級數據)對應的樣本數據集合的眾數為9.99、10.00和10.01(復眾數)樣本眾數定義樣本眾數定義2及例子及例子樣本眾數的定義樣本眾數的定義2:對刻度級的樣本數據集合,其直方圖中,最高的矩形(即直方圖中的峰peak)對應的數據區間,稱為該數據集合的眾數區間,簡稱為眾數。身高(厘米)190.0185.0180.0175.0170.0165.0160.0頻次76543210std. dev = 7.56 mean = 175.8n = 22

20、.00如右圖表示的數據集合的眾數區間為1752.5(厘米)眾數區間也有單一眾數區間與復眾數區間之分。3.3.2 樣本中位數(sample median)當樣本數據集合中的所有數據排序后,正中間位置當樣本數據集合中的所有數據排序后,正中間位置的數據即中位數的數據即中位數me按下式確定:按下式確定:是偶數是奇數nxxnxnnn,2,me12221正中間位置:5 . 0) 1(n 17.0 17.1 17.2 17.5 17.5 17.6 17.6其中位數為me=x4=17.5 16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6其中位數為45.1725 .172 .172

21、me54xx對名義級數據,不考慮中位數;對順序級數據,只在樣本容量n為奇數時,考慮中位數。3.3.3 樣本均值(sample mean)樣本均值僅適合于刻度級數據。樣本數據集合的(又稱為樣本平均值),是把樣本數據集合中所有數據加起來,然后再除以樣本數據集合中樣本個數(樣本容量)所得到的結果。樣本均值的數學定義為:niixnx11式中, x1 , x2 , , xn, n為樣本容量均值、中位數與眾數的區別對數據中心測量的比較對數據中心測量的比較測度級別眾數中位數均值名義級次序級*測度級優點不受極端值的影響,計算簡便對數值變化不敏感,較不易受到極端值的影響,計算比較簡便測量最為精確,考慮到了每一個

22、樣本數據,具有較好的代表性缺點測量過于粗糙,沒有反映所有樣本數據的信息沒有利用所有數據的信息易受樣本數據的極端值的影響*中位數的使用是有條件的。有一個叫做薩姆的工人到吉斯莫先生的工廠應聘,吉斯莫對有一個叫做薩姆的工人到吉斯莫先生的工廠應聘,吉斯莫對他說:我們這里報酬不錯,平均薪金每周他說:我們這里報酬不錯,平均薪金每周300元。你在學徒元。你在學徒期間每周得期間每周得75元,不過很快就可以加工資。薩姆感到工資水元,不過很快就可以加工資。薩姆感到工資水平不低,自己好好干,至少可以很快接近平均工資,便應約平不低,自己好好干,至少可以很快接近平均工資,便應約上班了上班了。但不久,薩姆就覺得上當了。因

23、為他發現竟然沒有。但不久,薩姆就覺得上當了。因為他發現竟然沒有一個工人的工資多于一個工人的工資多于100元。吉斯莫先生是否騙了薩姆?元。吉斯莫先生是否騙了薩姆?員工員工老板老板老板弟弟老板弟弟老板親戚老板親戚領工領工工人工人人數人數116510每人工資每人工資24001000250200100中位數眾數數據中心與數據分布形狀的關系眾數中位數均值左偏分布右偏分布對稱分布3.4 樣本數據的離散特征2. 下四分點(lower quartile)與上四分點(upper quartile)下四分點將排序以后的數據集合,分為左右兩部分,使左邊部分包含25%的樣本總個數,右邊部分包含75%的樣本總個數。上四

24、分點將排序以后的數據集合,分為左右兩部分,使左邊部分包含75%的樣本總個數,右邊部分包含25%的樣本總個數。上、下四分點在一定意義上反映了樣本數據的離散程度。5 . 0) 1(n25. 0) 1(n75. 0) 1(n當下、上四分點位置為整數時,相應整數位置上的樣本值就分別為下四分點q1的值和上四分點q3的值。當上述位置計算結果不為整數時,下、上四分點位置不是整數時,下、上四分點的值分別由下兩式確定 考慮如下的樣本數據集合99.8,99.9,100.1,100.2n=4,下四分點、中位數、上四分點的位置分別為(4+1) 0.25=1.25(4+1) 0. 5=2.5(4+1) 0.75=3.7

25、50123499.899.9100.1100.2q1的位置q2的位置q3的位置現計算下、上四分點q1、q3的值和中位數q2的值.由前面給出的中位數的計算公式,有0 .1005 . 0)9 .991 .100(9 .992 meq類似地,由下、上四分點的計算公式,得825.9925. 0)8 .999 .99(8 .991q175.10075. 0) 1 .1002 .100(1 .1003q由于本例中需要對數據進行計算才可得到下、上四分點以及中位數,因此該計算僅適合于刻度級數據。反之若n+1可以被4整除,則得到的下、上四分點及中位數位置是整數,于是下、上四分點以及中位數就是相應位置的樣本數據。

26、見例3.4.2。這時這些概念也適合順序級數據。3. 上、下百分位點(percentile)仿照上、下四分點的概念,不難給出上、下十分點的概念。下十分點把經過排序后的樣本數據集合,分成左右兩部分,使左邊部分包含10%的樣本數據,右邊包含90%的樣本數據。上十分點把經過排序后的樣本數據集合,分成左右兩部分,使左邊部分包含90%的樣本數據,右邊包含10%的樣本數據。上、下十分點也在一定意義上反映了樣本數據的離散情況。進而可以定義任意小于50%的上下百分點,并借此反映一定意義上的樣本數據的離散情況。3.4.2 對樣本數據離散特征的區間描述:極差、四分位距與離差由于需要涉及樣本數據的加減運算,因此區間描

27、述僅適合于刻度級數據。級差(r)被定義為樣本數據的極大值與極小值的差,即r = 極大值 - 極小值它反映了樣本數據在數軸上的分布范圍。x2. 四分位距(interquartile range) 四分位距(iqr)指的是樣本排序后的上四分點與下四分點的差:iqr = q3 - q1 。nixxi, 2 , 1,樣本離差又稱為樣本中心化數據。常用離差平方和的方式來反映樣本數據對均值總偏離的情況。3.4.3 離散狀況的統計描述:樣本方差(sample variance),即niixxns122)(11它反映了樣本數據對均值偏離的平均情況。也常它反映了樣本數據對均值偏離的平均情況。也常用用樣本標準差樣

28、本標準差(standard deviations)s來反映樣本來反映樣本數據對均值偏離的平均情況。數據對均值偏離的平均情況。niixxns12)(11對數據離散測度的比較對數據離散測度的比較測度級別 全距四分位距方差/標準差名義級次序級測度級優點計算簡便不易受到極端值的影響,計算比較簡便測量最為精確,考慮到了每一個樣本數據,具有較好的代表性缺點測量過于粗糙,沒有反映所有樣本數據的全貌無法反映所有數據的狀態易受樣本數據的極端值的影響補充:斜度(skewness)偏斜度的計算公式定義如下: 式中:s 為樣本的標準偏差。若數據分布完全對稱,則斜度為零。但數據分布如果偏左分若數據分布完全對稱,則斜度為零。但數據分布如果偏左分布,則斜度為正;否則當數據偏向右分布時,斜度為負。布,則斜度為正;否則當數據偏向右分布時,斜度為負。31)2)(1(niisxxnnn補充:峰度(kurtosis)峰值的計算公式如下: 式中:s 為樣本的標準偏差。峰度的計算公式如下: 式中:s

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論