數據的描述性分析(201上傳)_第1頁
數據的描述性分析(201上傳)_第2頁
數據的描述性分析(201上傳)_第3頁
數據的描述性分析(201上傳)_第4頁
數據的描述性分析(201上傳)_第5頁
已閱讀5頁,還剩91頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

§4

數據的描述性分析

數據分布的特征:數據分布的集中趨勢

數據分布的離散程度

平均指標變異指標數據分布的形狀

偏態與峰度相對程度的描述

相對指標總量指標(一)按說明總體特征的內容不同可分為:

總體標志總量:總體單位的數量標志的標志值之和。

總體單位總量:總體單位數(二)按反映的時間狀態不同可分為:時點指標:反映事物總體在某一時點上的數量狀態。時期指標:指總體在一段時期內數量發展過程的累積結果。

相對指標(一)相對指標的表現形式1、有名數:一種有具體名稱的數值。一般將對比的分子指標和分母指標的計量單位結合使用,以表明事物的密度、普遍程度、強度等。2、無名數:一種抽象化的數值

(二)相對指標的種類

結構相對指標

比例相對指標

強度相對指標

動態相對指標

比較相對指標

計劃完成程度相對指標

系數:當分子數值與分母數值相差不大時、常用系數形式表示。系數可以大于1,也可以小于1。倍數:當分子數值比分母數值大得多時常用倍數。(倍數與系數均是將對比的基數抽象為1。)成數:將對比的基數抽象為10,是對十分數的一種習慣叫法。百分數:將對比的基數抽象為100,最常用的一種表現形式。.千分數:將對比的基數抽象為1000,適用于對比的分子數值比分母數值小得多的情況。無名數的表現形式a、一般用百分數表示;b、同一總體各部分比重之和必須等于1;c、結構相對指標反映總體內部的構成。

0~14歲15~49歲50歲以上增加型40%50%10%穩定型26.5%50.5%23%減少型20%50%30%a、可用百分數、1︰m、或連比(1︰m︰n)等形式表示;例:我國第四次人口普查結果顯示,我國擁有男性人口58182萬人,女性人口54869萬人。男女人口的性別比=58182︰54869=1.06或106%

也可表示為女性人數與男性人數的比例是1︰1.06.b、比例相對指標對于分析和調整國民經濟中的各種比例關系具有重要意義。

例如:2000年末中國人口總量為129533萬人。我國人口密度=129533萬人/960萬km2=135(人/km2)用途:可以反映現象分布的密度或普遍程度;有些強度相對指標分子、分母可以互換,因此有正指標和逆指標兩種形式。強度相對指標數值的大小與密度的大小成正比例時,稱正指標;與密度大小成反比時,稱逆指標。

強度相對指標與平均指標有何異同?可以說明一個國家、地區或部門的經濟實力;可以反映社會生產條件或效果。

例:某地2003年總人口為280萬人,擁有零售商店5200個。則:百元流動資金提供的產值和百元產值占用的流動資金,哪個是正指標,哪個是逆指標?基期:作為對比基準的時期。報告期:同基期比較的時期,統計所要研究和說明的時期,也稱為計算期。增長速度=發展速度—1(或100%)例:某地區旅游外匯收入2010年為27.5萬美元,2011年為32.4萬美元,例1:2008年甲工廠總產值為5000萬元,乙工廠總產值為4000萬元。甲廠產值為乙廠產值的125%,或1.25倍(5000/4000);乙廠產值為甲廠產值的80%(4000/5000)。工廠名稱全員勞動生產率(元/人)比較相對數(%)差距(%)紡織機械廠12500100.0——醫療機械廠860068.8-31.2重型機械廠750060.0-40.0農業機械廠680054.4-45.6例2:a、當計劃數以相對指標(提高率或降低率)表示時,計劃完成程度相對指標=(1+實際提高率)/(1+計劃提高率)計劃完成程度相對指標=(1-實際降低率)/(1-計劃降低率)b、對于愈高愈好的正指標,計算結果大于100%為超額完成計劃;而對于愈低愈好的逆指標,計算結果小于100%,為超額完成計劃。例:某企業2003年10月計劃產量為950臺,實際生產980臺。計劃完成程度相對指標=980/950=115.3%,表明該企業超額15.3%完成了計劃任務。例1:某商業企業計劃2010年商品銷售額比上年提高8%,而實際提高了4%。例2:某工廠計劃今年第一季度產品廢品率降低1%,而實際降低了2%。六種相對數指標的比較不同時期比較動態相對數強度相對數不同現象比較不同總體比較比較相對數同一總體中部分與部分比較部分與總體比較實際與計劃比較比例相對數結構相對數計劃完成相對數同一時期比較同類現象比較一組數據向其中心值靠攏的傾向和程度。測度集中趨勢就是尋找數據一般水平的代表值或中心值。不同類型的數據適用不同的集中趨勢測度值(平均指標)。

集中趨勢(Centraltendency)的描述數據集中區變量x平均指標平均指標的種類

按所反映的時間狀態劃分

靜態平均數

動態平均數

按計算方法劃分

算術平均數

調和平均數

幾何平均數

眾數

中位數

數值平均數

位置平均數

算術平均數(Arithmeticmean)簡單算術平均數(Simplemean)

——依據未分組的原始數據直接計算

X1、X2、X3、Xn表示總體各單位變量值;

n表示總體單位數(或總體變量值個數);

Σ為求和(連加)符號;

表示從X1連加到Xn;也可簡寫成ΣXi或ΣX。式中:表示算術平均數(讀作X-bar);某大學生職業介紹所對商學院的畢業生進行問卷調查,獲得12名畢業生的起始薪金(元)信息如下。24502550238022552210239026302440282524202380加權算術平均數(Weightedmean)

——原始數據經過分組,已編成次數分布數列

式中:f——各組次數。

X——當分布數列為單項數列時,即各組變量值。

——當分布數列為組距數列時,用各組組中值代表各組變量值。工人按日產量分組/件(X)工人人數(f)Xf20120214842261322381842412288251025026718227254合計501194按月銷售額分組(萬元)分公司數(f)320~3603360~4007400~44013440~4805480~5202合計30組中值(x)340380420460500——x·f1020266054602300100012440加權算術平均數受兩個因素的影響分布數列中各組變量值的大?。ɑ蚪M中值的大?。└鹘M中單位數的多少/次數f的大小當各組變量值固定不變時,出現次數多的變量值對平均數的影響較大,使平均數向其靠攏;出現次數少的變量值對平均數的影響較小,平均數遠離該變量值。次數f在計算平均數的過程中起著權衡輕重的作用,故將其稱為權數。權數的兩種表現形式

以絕對數表示——次數/頻數f

以相對數表示——頻率f/∑f

工人按日產量分組/件(X)每組工人數占總人數的比重(f/∑f)x·f/∑f200.020.40210.081.68220.122.64230.163.68240.245.76250.205.00260.143.64270.041.08合計1.0023.88算術平均數的權數客觀權數次數分布數列中,各組變量值出現的次數或頻率;與變量存在直接數量關系的指標主觀權數某公司利潤情況統計表利潤率分公司數(個)職工人數(人)銷售額(萬元)5%以下5%~10%10%~15%15%以上289120050060012030050008000400合計20142013700要求:計算該公司的平均利潤率。算術平均數的數學性質

各變量值與其算術平均數的離差之和為零。

各變量值與其算術平均數的離差平方和最小。

算術平均數的特點

易于理解和運算受極端數值的影響較大例如:有5個數,分別為:9、11、12、13、55,解決途徑:切尾平均法(trimmedmean)采用其他不受極端值影響的平均數市場上有三種蘋果,每公斤的價格分別為3.00元、3.60元、4.00元,分別在下述情況下求平均價格:

(1)三種蘋果各購買1公斤;(2)三種蘋果分別購買1公斤、2公斤、3公斤;(3)三種蘋果各購買1元錢。(保留小數點后兩位數)

調和平均數(Harmonicmean)一、含義:調和平均數是變量值(標志值)倒數的算術平均數的倒數,也稱倒數平均數。

——變量值不能為零。

——受極端數值的影響。

三、計算方法簡單調和平均法加權調和平均法四、應用二、特點:簡單調和平均數(Simpleharmonicmean)

——依據未分組的原始數據直接計算

即先計算總體中各變量值倒數的簡單算術平均數,然后求其倒數。加權調和平均數(Weightedharmonicmean)

——原始數據經過分組,已編成次數分布數列

例(4)若三種蘋果分別購買7.5元、10.8元、16元,求其平均價格。

H=(7.5+10.8+16)/(7.5/3+10.8/3.6+16/4)=34.3/9.5=3.61元/公斤

市場批發價X(元/公斤)成交量(公斤)

甲0.7020000

乙0.6830000

丙0.7410000例:某市有三個西瓜的批發交易市場,三個市場某日西瓜的批發價格和成交量如下:

要求計算該市這天西瓜的平均價格。

f市場批發價X(元/公斤)成交額(元)甲0.7014000乙0.6820400丙0.747400例:某市有三個西瓜的批發交易市場,三個市場某日西瓜的批發價格和成交額如下:

要求計算該市這天西瓜的平均價格。

mm=x·f

調和平均數是算術平均數的變形。

調和平均數的應用

用于計算相對數的平均數。

工廠計劃完成程度(%)x計劃產值(萬元)甲951200乙10512800丙1152000例:某工業公司有三個工廠,已知其計劃完成程度及計劃產值資料如下:

要求計算該公司的平均計劃完成程度。

平均計劃完成程度=總實際產值/總計劃產值

f工廠計劃完成程度(%)x實際產值(萬元)甲951140乙10513440丙1152300例:某工業公司有三個工廠,已知其計劃完成程度及實際產值資料如下:

要求計算該公司的平均計劃完成程度。

m如何選擇平均數的計算方法?關鍵以基本公式為依據

當所掌握的是公式中的分母資料,就將其作為權數,采用加權算術平均法;

當所掌握的是公式中的分子資料,就將其作為權數,采用加權調和平均法。

原來只是計算時使用了不同的數據!

幾何平均數

(Geometricmean)一、應用它主要用于計算社會經濟現象的平均比率或平均速度。凡是各變量值的連乘積等于事物總量,應使用幾何平均法求其平均數。例:某鋼鐵廠第一年的鋼產量為100萬噸,第二年為110萬噸,比第一年增產10%,第三年又比第二年增長了20%,達到132萬噸。

發展總速度=110%×120%=132%幾何平均數是n個變量值乘積的n次方根。

簡單幾何平均數的計算

——未分組資料式中,G——幾何平均數;

x——變量值;

∏——連乘符號二、計算例:x1=110%x2=120%100×114.89%×114.89%=132萬噸

若采用算術平均法求平均發展速度:100×115%×115%=132.25萬噸算術平均數與調和平均數是應用于按算術級數形式變化的事物,即在事物總量等于各變量值的總和時求平均水平。幾何平均數適用于按幾何級數形式變化的事物,即在事物總量等于各變量值乘積時求平均水平。

加權幾何平均數的計算

——分組資料f——各變量出現的次數三、幾何平均數的特點2、幾何平均數是算術平均數的變形。1、用以計算幾何平均數的各變量值必須大于零,否則不能計算幾何平均數或計算的結果無意義。

例:某銀行在10年內幾次調整貸款利率(按復利計息),第1至第2年為4%,第3至第5年為5%,第6至第9年為6.5%,第10年為8%。求這10年銀行貸款的平均年利率。平均年利率=105.69%-100%=5.69%

簡單幾何平均數:∴

簡單幾何平均數的對數是各個變量值對數的簡單算術平均。加權幾何平均數:∴

加權幾何平均數的對數是各個變量值對數的加權算術平均。中位數(Median)

將總體各單位的變量值按大小順序排列,處于數列中點位置的變量值為中位數。

二、中位數的特點一、確定中位數Me的方法

由未分組的原始數據確定中位數

由單項式數列確定中位數

由組距數列確定中位數Me50%50%

由未分組的原始數據確定中位數

中位數位置=n——總體變量值個數

當n為奇數時,中間位置所對應的數值即為中位數。當n為偶數時,居于中間位置的兩個數值的算術平均數為中位數。

例:有5個工人,每天生產某產品的件數,按序排列如下:20,23,26,29,30中位數位置=(5+1)/2=3Me=26(件)例:有6個工人,每天生產某產品的件數,按序排列如下:20,23,26,29,30,32中位數位置=(6+1)/2=3.5Me=(26+29)/2=27.5(件)

由單項式數列確定中位數2、計算各組的累計次數(較小制累計或較大制累計)

累計次數剛剛超過中位數位次的組即為中位數所在組。

3、中位數所在組的變量值即為中位數

按日產量分組(件)工人數(人)較小制累計次數較大制累計次數26313234364131014271883132754728080776753268合計80——中位數位次=80/2=40中位數所在組的累計次數應剛剛超過40,即第四組。

∴Me=34

例:某工廠工人某日產量資料如下,要求其中位數。

由組距數列確定中位數2、計算各組的累計次數(較小制累計或較大制累計)

累計次數剛剛超過中位數位次的組即為中位數所在組。

3、利用公式計算中位數的近似值

L:中位數所在組的下限

fm:中位數所在組的次數∑f:總次數

i:中位數所在組的組距

Sm-1

:中位數所在組以前的各組的累計次數(較小制累計)

按成績分組(分)學生人數較小制累計較大制累計60以下224060~70683870~8010183280~9019372290~1003403合計40————中位數位次=40/2=20中位數在第四組內以各組內變量值均勻分布為假定前提,用比例插值法計算中位數的近似值。按比例分配,第四組內每個變量值所占據的組距單位為10/19,從較小制累計得出,從第三組到中位數相差2人(20-18=2),則2人在第四組所占據的組距單位為2×(10/19)=1.05分所以中位數的具體數值為80+1.05=81.05分按日產量分組(Kg)工人數(人)較小制累計次數較大制累計次數60以下60~7070~8080~9090~100100~110110以上10195036271481029791151421561641641541358549228合計164——中位數位次=∑f/2=164/2=82即中位數在第4組內。

中位數的特點

不受極端值的影響例:五個人年齡分別為18、19、20、21、60歲。若用算術平均法,得平均年齡為27.6歲。

而用中位數20歲,更能代表五個人年齡的一般水平。主要用于定序數據,也可用于定距數據,但不能用于定類數據。四分位數(quartiles)1.集中趨勢的測度值之一。2.將所有數據排序后處于25%、50%和75%位置上的值。3.不受極端值的影響。4.主要用于定序數據,也可用于定距數據,但不能用于定類數據。Q1Q2Q325%25%25%25%四分位數位置的確定未分組數據:分組數據:第一四分位數(Q1)的位置=N+14第三四分位數(Q3)的位置=3(N+1)4第一四分位數(Q1)的位置=N4第三四分位數(Q3)的位置=3N4未分組定距數據的四分位數n+1Q1=237+1Q1位置=4=4=2Q3位置=3(n+1)43(7+1)4==6Q3=30

原始數據:

23213032282526

排序:21232526283032未分組定距數據的四分位數

原始數據:

232130282526

排序:212325262830

Q1=21+0.75(23-21)=22.5Q1位置=n+14=6+14=1.75Q3位置=3(n+1)43(6+1)4==5.25Q3=28+0.25(30-28)

=28.5

某城市家庭對住房滿意狀況評價如下,要求計算評價結果的四分位數。解:第一四分位數(Q1)的位置為:

Q1位置=(300)/4=75第三四分位數(Q3)的位置為:

Q3位置=(3×300)/4=225從累計頻數看,

Q1在“不滿意”這一組別中;Q3在“一般”這一組別中。因此

Q1=不滿意

Q3=一般

某城市家庭對住房狀況評價的頻數分布回答類別某城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—定序數據的四分位數眾數(Mode)

眾數(Mo)是總體中出現次數最多的變量值。

確定眾數的方法

根據未分組數據或單項數列確定眾數

根據組距數列確定眾數

(1)根據各組次數確定眾數所在的組,(2)利用公式計算眾數的近似值。

下限公式

其中,L——眾數所在組的下限;

fm-1——眾數所在組前一組的次數;fm+1——眾數所在組后一組的次數;i——眾數所在組組距;fm——眾數所在組的次數;

一家公司的網絡系統管理需要研究一天中發生的服務失敗的次數,以下數據為過去兩周的每天服務失敗次數,求這些數據的眾數。130326274023363解:先將數據排序如下:001223333346726一天中最有可能發生的服務失敗數為3次。眾數為出現次數最多的數值3。按日產量分組(Kg)工人數(人)60以下1060~701970~805080~903690~10027100~11014110以上8合計164解:眾數所在組為70~80組

眾數的特點及應用

眾數不受極端數值的影響。

一般只對等距數列確定眾數。若為異距數列,需根據次數密度確定眾數所在組。

眾數可根據頻率(相對數)確定。

數據類型定類數據定序數據定距數據定比數據適用的測度值眾數中位數算術平均數算術平均數——眾數中位數調和平均數————眾數幾何平均數——————中位數——————眾數數據的類型和所適用的集中趨勢測度值某校學生的父親職業狀況職業人數(人)比重(%)干部11020.0工人15227.6農民28852.4合計550100眾數Mo=農民某城市家庭對住房狀況的評價回答類別戶數(戶)累計戶數非常不滿意2424不滿意108132一般93225滿意45270非常滿意30300合計300——中位數位置=(300+1)/2=150.5從累計次數可以看出,中位數在第三組,即Me=一般算術平均數、中位數和眾數之間的關系

例:某企業工人的月收入眾數為800元,月收入的算術平均數為1100元,求月收入中位數的近似值。

=1/3(800+2×1100)=1000元

英國統計學家卡爾·皮爾遜發現:

在輕微偏態分布中,三者之間存在以下關系:

2/31/3MoMe§4.3離散程度的描述

極差(Range)四分位差(interquartilerange)

平均差(Meandeviation)MD

標準差(Standarddeviation)σ

方差(Variance)σ2

離散系數(Coefficientofvariation)變異指標:用于測定各變量值離散程度的統計指標。

1、變異指標是評價平均數代表性的依據。

變異指標值愈大,平均數代表性愈小,

變異指標值愈小,平均數代表性愈大。

變異指標的作用

2、變異指標可用來反映社會經濟活動過程的均衡性、協調性,以及產品質量的穩定性等。

鋼廠第一季度供貨計劃完成百分比(%)合計(%)一月二月三月—甲323434100乙203050100例:某車間有兩個生產小組。各組7名工人,各人日產件數如下:

甲組:20,40,60,70,80,100,120乙組:67,68,69,70,71,72,73R甲=120-20=100R乙=73-67=6甲組平均數的代表性小,乙組平均數的代表性大。R=Xmax-Xmin

極差(Range)——從變動范圍測度總體數據的離散程度

數列中最高組的上限與最低組的下限的差。——偏大數列中最高組的組中值與最低組的組中值的差。——偏小數列中最高組的組中值與最低組的下限的差。數列中最高組的上限與最低組的組中值的差?!容^接近

特點:

組距數列的全距計算方法:計算簡單,容易理解。過于粗略。受極端值影響大。數據利用率低,信息喪失嚴重。受抽樣變動影響大。1. 離散趨勢的測度值之一2. 也稱內距或四分間距3. 第三四分位數與第一四分位數之差

Qr

=Q3–Q14. 反映了中間50%數據的離散程度5.不受極端值的影響6.可用于衡量中位數的代表性四分位差(interquartilerange)

平均差(Meandeviation)MD已分組資料未分組資料優點:包含了總體中各個變量值的差異

缺點:不適于代數運算

標準差(Standarddeviation)σ未分組資料已分組資料方差(Variance)σ2甲乙中環數中環數4-243-395-11104166007117114-24824600合計---10------30日產量(Kg)工人數60以下1060~701970~805080~903690~10027100~11014110以上8合計164例:某車間工人日產量資料如下表所示,要求日產量的標準差。日產量(㎏)

工人數組中值x60以下1055-27.627628.644060~701965-17.625898.823670~805075-7.622903.220080~9036852.38203.918490~100279512.384138.1388100~1101410522.387012.1016110以上811532.388387.7152合計164——36172.5616是非標志的標準差

成數:

具有某種表現或不具有某種表現的單位數占所有單位數的比重稱為成數。

品質標志標志值次數頻率是1n1p否0n0q合計---n1是非標志的平均數:

是非標志的標準差:

交替標志的標準差即被研究標志的成數p與q乘積的平方根。

離散系數(Coefficientofvariation)應用:

比較具有不同計量單位的資料的差異程度.

比較計量單位相同而均值不相同的資料的差異程度;例:對成年人身高之間的差異和幼兒身高之間的差異狀況進行抽樣調查,得10名成年人和10名幼兒身高(㎝)資料如下。要求比較哪組身高差異大。成年組:166169172177180170172174168173幼兒組:

6869

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論