統計數據的描述_第1頁
統計數據的描述_第2頁
統計數據的描述_第3頁
統計數據的描述_第4頁
統計數據的描述_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章統計數據的描述在對一組統計數據的分布變化進行深入研究之前,我們首先研究一組數據 的特征。為了比較精確地描述一組統計資料的特征,需要使用一些統計指標來 描述它。一組數據的統計特征通常包括以下四個方面:1、集中趨勢,也稱作中心位置。即表示一組數據的中心位置的數據點是 在什么地方,也就是數據位置的度量。2、離散性。即一組數據的分散程度,也就是數據散布的范圍。3、傾斜度。一組數據所描述的曲線既可以是左右對稱的,也可能是傾斜 的,即通過曲線最高點的垂線把曲線分為兩半,是左右對稱還是并不對稱。4、尖削度。這就是一組數據所描繪的曲線頂部的峰態特征。根據一組數 據所描繪的曲線頂部既可能是尖峰狀的,也可能

2、是扁平狀的。即使根據兩組數 據所描繪的曲線具有相同的中心位置和離散程度,但它們的尖削度也可能是不 一樣的。在管理科學中,我們最感興趣的常常是數據的集中趨勢和離散程度,本章 就主要介紹度量這兩個特征的統計量。第一節數據集中趨勢的度量一組數據的集中趨勢通常用平均數、中位數和眾數等來表示。這些統計量 均稱為平均指標。它表明同類社會經濟現象的各單位的某一數量指標在一定時 間、地點等條件下達到的平均水平。平均指標的特點是將一組數據中各個數據之間的差異抽象化,用一個指標 來代表各個數據的一般水平,它反映了一組數據中各個數據的典型水平、中心 位置或集中趨勢。一、平均數管理統計中常用的平均數有算術平均數、調和

3、平均數和幾何平均數等幾 種。但這里我們主要介紹算術平均數。算術平均數又稱均值,常用I來表示。 根據計算方法的不同,算術平均數又可分為簡單算術平均數和加權算術平均 數。1、簡單算術平均數簡單算術平均數的計算公式如下:歹x x + x + + XiX _ T 希 _ N式中:N是數據的個數;七是各數據的觀察值。2、加權算術平均數如一組數據是已經經過分組的,共有N組。尤為各相應組中數據的觀察值 或每一組的中心值,f是觀察值為七的相應組中數據出現的次數,又稱為頻 率,則可以采用加權平均勻法來計算其均值,其公式為x f + x f H F x f*/iX = 12_2NN = 41f1 +f2+fN粉i

4、i=1式中:f.INX是各相應組中數據的觀察值;是觀察值為尤,的相應組中數據出現的次數,又稱為頻率;是組數。均值在度量數組的集中化趨勢的統計量中是應用最廣的。這是因為任何一 組數據都有一個平均數,而且只有一個平均數。計算平均數時全部數據都參加 運算,因此,用它來反映一組數據的集中化趨勢的代表性比較好。但是它也有 缺點,主要的問題是因為平均數是根據一組數據中的全部數據來計算的,會受 到資料中那些沒有代表性的極端值的影響。因此,有時在計算平均數時先剔除 個別缺乏代表性的特殊值所得到的結果可能會具有更大的代表性。二、中位數將數據的各觀察值X ,X,,X按其數值由小到大的順序排列后,處于數 1 2 n

5、列中間位置上的觀察值稱為中位數。如果數據個數為奇數,則中位數數值恰為 (n+1)/2位置上的數值。如果數據個數為偶數,則中位數數值為最中間位置上兩 個數值的平均值。中位數不是一個數組中各數據的算術平均值,它主要受一組數據中的中間 位置上的數值的影響,用中位數來反映一個數組中各數據大小的一般水平并不 很精確。但中位數計算簡單,與平均數相比,中位數不受數據中兩端異常的特 殊值的影響。從這個意義上它可以作為數據平均指標的代表值。對于數據分布 不很規則的情況,中位數是度量數據集中趨勢的較合理的統計量之一。同時, 無論是分組資料還是不分組資料都可以計算中位數。但是中位數也有它的缺點。對于有些問題,中位數

6、的處理比平均數更為復 雜。在計算中位數之前必須把數據依次加以排列,這對于觀察值個數很多的資 料來說是很費時的。對于未分組的數據的中位數的求法如上所述比較簡單,但對于按分段形式 組織起來的分組數據,要計算出中位數一般就比較繁瑣。下面我們就介紹分組 數據的中位數的求法。我們先用對于未分組數據的方法找出中位數所在的組, 然后再在假設中位數所在組的所有數據的標志值都均勻分布的前提下,運用線 性插值公式來求出中位數。n如圖2-1所示,設L和U分別為中位數所在的組,即累計頻數達到g的F 1為中位為各組單位組的下限和上限.則組距d=U-L。設fm為中位數所在組的頻數。 數所在組前一組的累計頻數,F為中位數所

7、在組的累計頻數,n 數的總和。則中位數Me即為m=L+ n 2 - Fm-1 X dfmn事實上,從圖2-1可以看出,中位數處于累計頻率為一組的上,下限之 間的某一數值。這一數值是中位數所在組的下限加上按一定比例分配所得的那 段組距。令 M =L+XX n 2 - F因為-= m-1d fmn 2 - Fx =,m-L x dfmn2-F所以 M = L +m-1 x dm同樣可得:M = U F 2 x d。 efm三、眾數眾數是指數據中出現次數最多的那個變量值。眾數并沒有通常意義上的“平均”的含義。但眾數在數據中出現的次數最頻繁,說明該數值在數據中最 具有代表性,因而從另一個側面反映了數據

8、的集中化趨勢。同中位數一樣,眾 數不會受到資料中極端值的影響。但并不是每一組數據都是具有眾數的,只有 當數組中不同數值的數據出現的次數具有明顯的差異時,才有眾數可言。對于 分組數據而言,眾數常常依賴于分組的情況,分組數改變時,眾數可能就要有 較大的變化,穩定性較差。眾數也可能是不唯一的。在管理實踐中,有時沒有必要計算算術平均數,只需要掌握最普遍、最常 見的標志值就能說明社會經濟現象的一般水平,這時就可以采用眾數。例如, 要反映市場上某種商品的一般價格水平,價格中的眾數就是最好的代表值。要 預測市場上對服裝或鞋子大小的需求情況時往往也需要應用眾數。但眾數作為 度量中心趨勢的指標并不象平均數和中位

9、數那樣應用得廣泛,而且對于有的資 料而言眾數根本就不存在。例1-1。對某城市某商品在不同商店中的零售價格調查所得到的觀察值如 下:195, 186, 179, 168, 156, 113, 148, 179, 179請分別計算出反映價格平均水平的統計指標。這是一個未經分組的數組,可計算得到這組數據的算術平均數:X =( 195+186+179+168+156+113+148+179+179) / 9 = 167把原數組按從小到大排列以后,就得到:113,148,156,168,179,179,179,186,195該數組共有9個數據,按中位數的定義應當取第5個數據為中位數。于是 得到其中位數為

10、179,同時我們發現眾數也是179。例1-2。根據對某單位300名職工每月平均存款數的調查,結果如表1-1 所示。請分別計算出反映平均存款水平的統計指標。根據上述分組數據,我們以組中值作為各組的代表值,計算其平均值如下:X =(50*39+150.5*63+250.5*98+350.5*41+450.5*26+550.5*23+650.5*6+750.5*3+900.5*1)/ 300 = 272.6這一分組數據的中位數應落在第155個觀察值與第156個觀察值之間,顯 然是落在表2-1:某單位300名職工每月平均存款數組別頻率0-10039101-20063201-30098301-40041

11、401-50026501-60023601-7006700-8003801-10001201-300的一組內,我們把這一組稱為中位數組。但是中位數的具體值還是應 通過在這一組內的插值來確定。計算如下:M =201+(150-102)*99/98=300-(200-150)*99/98=249.5這一分組數據的眾數就是201-300 一組,稱為眾數組。綜上所述,當數組的分布比較有規則,不存在極端的數值時,用均值來代 表整個數組的集中趨勢效果較好,而在數組包含有極端值時,則用中位數更合 適,眾數盡管穩定性最差,但有時卻十分方便而有用。第二節數據離散趨勢的度量僅僅用集中趨勢來描述數據的分布特征是不夠

12、的。我們經常碰到平均數相 同的兩組數據其離散程度可以是相當不同的。一組數據的分布可能比較集中, 差異較小,則平均數的代表性較好。另一組數據可能比較分散,變異較大,則 平均數的代表性就較差。離散趨勢的度量常用標志變異指標來描述,常用的指 標有極差、平均差、方差和標準差。一、極差極差又稱全距,是指一組數據的觀察值中的最大值和最小值之差。用公式 表示為:極差=M.D =最大觀察值一最小觀察值極差的計算簡單,但是它只考慮了數據中的最大值和最小值,而忽略了全 部觀察值之間的差異。兩組數據的最大值和最小值可能相同,于是它們的極差 相等,但是離散的程度可能相當不一致。由此可見,極差往往不能反映一組數 據的實

13、際離散程度,實際上極差所反映的是一組數據的最大的離散值。二、平均差平均差是指一組數據中的各數據對平均數的離差絕對值的平均數。一組數 據中的各數據對平均數的離差有正有負,其和為零,因此平均差必須用離差的 絕對值來計算。平均差愈大,表示數據之間的變異程度愈大,反之則變異程度 愈小。平均差通常用字母A.D來表示,計算公式為: x - xA.D =n三、方差和標準差(b 2和。)平均差用絕對值來進行度量,雖然避免了正負離差求和時相互抵消,但不 便于運算。因此,通常用方差來度量一組數據的離散性。方差通常用字母b2 來表示。對于未分組的數據其計算公式為:Z(x - x)b 2 =n對于分組數據,計算公式為

14、:N(x-X)fh為了使統計量的單位同觀察值的單位相一致,通常將方差開平方,即得到 標準差b,.標準差也稱為均方差。其計算公式相應地變為:,以-X)n由定義可知,方差和標準差所反映的是一組數據對其均值為代表的中心的 某種偏離程度。而且我們可以猜測到,標準差(或方差)較小的分布一定是比 較集中在均值附近的,反之則是比較分散的。標準差的缺點是計算起來比較麻 煩。標準差也是根據全部數據來計算的,因此,資料中的極端值對它的影響要 比極差小一些,但是它也會受到極端值的一定的影響。標準差的計算要比平均 差方便,因此,標準差是用得最經常的描述數組離散趨勢的量。在統計中我們通常用b 2和b分別表示總體(總體的

15、具體概念將在下章中 討論)的方差和標準差。當總體中的個體數很大時,我們希望通過抽樣,用樣 本標準差來估計總體的標準差時,就需要計算樣本的方差和標準差。但為了使 估計更正確,我們需要對相應的計算公式作一調整。此時,樣本的方差和標準 差分別記作s 2和s,、其計算公式如下:Z(X-X)S 2 =n 1S = n -1值得注意的是,在計算樣本的方差和標準差時分母是n-1,而不是n,其 原因我們在第三章中將加以說明。標準差的概念在統計上具有重要的作用。對于任意一個總體,在確定了標 準差以后就可以精確地確定總體中的單位落在平均數兩側某個范圍內的頻率 大小。統計學中的契比雪夫定理證明,不管是何種形狀的分布

16、,至少有75% 的數值落在分布的平均數加減兩個標準差的范圍內。至少有89%的數值落在 平均數加減三個標準差的范圍內。對于正態分布的情形,在下一章中我們將介紹數據落在某個特定范圍內概率的更精確的結果。四、離散系數標準差是表示所有數據離散性大小的一個絕對值,其度量單位與原數據的 度量單位相同。因此,標準差只能度量一組數據對其均值的偏離程度。但若要 比較兩組數據的離散程度,用兩個標準差直接進行比較顯然就不合適了。例如, 如果一個總體的標準差是20,均值是10。如果另有一個總體的標準差是30, 均值是3000。如果直接用標準差來進行比較,后一總體的標準差是前一總體標準差的1.5倍,似乎前一總體的 分布

17、集中而后一總體的分布分散。但前一總體用標準差來衡量的各數據的差異 量是其均值的兩倍。后一總體用標準差來衡量的各數據差異是其均值的1/100, 是微不足道的。可見用標準差與均值的比值大小來衡量不同總體數據的分散程 度更合理。統計上把這一比例稱為離散系數。離散系數是一個表示標準差相對 于平均數的大小的相對量,即標準差相對于均值的百分比,其計算公式如下:離散系數=-x 100% P其中:-為數組的標準差;R為數組的平均值。例1-3。某公司過去10年間的年利潤如表1-2所示。要求計算出反映該公 司歷年利潤波動的指標。表2-2:某公司過去10年的利潤表單位:百萬元年份 19871988198919901

18、99119921993199419951996利潤 163280170190285290300350390400該公司過去十年利潤波動的最大值就是極差,結果為:M.D=400-163=237為了計算平均差,我們先計算均值:X =(163+280+170+190+285+290+300+350+390+400) / 10=281.8 于是,平均差為:A.D = (118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2) / 10= 64.84方差為:-2 =(118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2) / 10= (14113.44+3.24+12499.24+8427.24+10.24+67.24+331.24+4651.24+11707.24+13971.24)/10= 6578.16標準差為:-=81.10練習題1、某一地區水稻的收獲量分組統計資料如下:水稻畝產(斤/畝)耕地面積(畝)水稻畝產(斤/畝)耕地面積(畝)30035018350400324004505345050069500550

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論