統計學數據的概括性度量課件_第1頁
統計學數據的概括性度量課件_第2頁
統計學數據的概括性度量課件_第3頁
統計學數據的概括性度量課件_第4頁
統計學數據的概括性度量課件_第5頁
已閱讀5頁,還剩71頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4章數據的概括性度量1集中趨勢的度量2離散程度的度量3偏態與峰態的度量統計學數據的概括性度量甲、乙兩個班的統計學成績序號成績序號成績序號成績序號成績序號成績173108119882880377527711792090298538873781275218230743951461137122953174407457314892376328541966921584248933744277778166925953482439188117862686358244829791876275936824572序號成績序號成績序號成績序號成績序號成績1869461792256933752641079189026893496383117719862779357947412732098287436885581385216429853794693148122923067387177115642391318439558691675248732824095請對兩個班的成績進行對比分析,你會從哪幾個方面著手?統計學數據的概括性度量兩班成績的對比分析指標數值平均79.66667標準誤差1.378405中位數80眾數82標準差9.246621方差85.5峰度1.31565偏度-0.70131最小值51最大值96求和3585觀測數45指標數值平均79標準誤差1.923872中位數80眾數64標準差12.16763方差148.0513峰度0.037583偏度-0.62146最小值46最大值98求和3160觀測數40甲班成績的描述性指標乙班成績的描述性指標統計學數據的概括性度量學習目的和重難點提示

本章學習目的領會數據分布的各種特征:集中趨勢、離散趨勢、偏斜程度和峰度。掌握數據分布特征各測定值的計算方法、特點及其應用場合。本章重難點提示數據分布特征的描述方法,如何使用一些統計量來對數據進行概括性測定。數據分布特征各測定值的計算方法、特點及其應用場合。統計學數據的概括性度量數據分布的特征和測度峰度偏度數據的特征和測度分布的形狀集中趨勢離散程度眾數中位數離散系數方差和標準差四分位差異眾比率位置平均數數值平均數算術平均數調和平均數幾何平均數統計學數據的概括性度量4.1集中趨勢的度量一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據一般水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的集中趨勢測度值適用于高層次的測量數據,反過來,高層次數據的集中趨勢測度值并不適用于低層次的測量數據選用哪一個測度值來反映數據的集中趨勢,要根據所掌握的數據的類型來確定集中趨勢(位置)統計學數據的概括性度量集中趨勢指標的種類從總體各單位變量值中抽象出具有一般水平的量,這個量是根據各個單位的具體標志值計算出來的,有算術平均數、調和平均數、幾何平均數等形式。數值平均數取得集中趨勢代表值方法的不同,可分為數值平均數和位置平均數。先將總體各單位的變量值按一定順序排列,然后取某一位置的變量值來反映總體各單位的一般水平。位置平均數有眾數、中位數、四分位數等形式。位置平均數統計學數據的概括性度量4.1.1眾數

1.定義:出現次數最多的變量值。是集中趨勢的測度值之一,不受極端值的影響。因而在實際工作中有時有它特殊的用途。諸如,要說明一個企業中工人最普遍的技術等級,說明消費者需要的內衣、鞋襪、帽子等最普遍的號碼,說明農貿市場上某種農副產品最普遍的成交價格等,都需要利用眾數適用:主要用于定類數據,也可用于定序數據和數值型數據注意:有些數據可能沒有眾數或有幾個眾數統計學數據的概括性度量眾數

(眾數的不唯一性)無眾數

原始數據:10591268一個眾數

原始數據:659855多于一個眾數

原始數據:252828364242統計學數據的概括性度量眾數的計算方法**品質變量的眾數——觀察次數,出現次數最多的變量值就是眾數。

例如:企業的所有制結構分布、人口的城鄉分布。**數值變量的眾數未分組資料——觀察次數,出現次數最多的數據就是眾數。分組資料(1)單項式數列——直接觀察,次數最多的組的變量值即為眾數。

統計學數據的概括性度量定類數據的眾數

表4-1某城市居民關注廣告類型的頻數分布

廣告類型人數(人)比例頻率(%)

商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計2001100【例】根據表4-1中的數據,計算眾數解:這里的變量為“廣告類型”,這是個定類變量,不同類型的廣告就是變量值。我們看到,在所調查的200人當中,關注商品廣告的人數最多,為112人,占總被調查人數的56%,因此眾數為“商品廣告”這一類別,即

Mo=商品廣告統計學數據的概括性度量定序數據的眾數

【例】根據表4-2中的數據,計算眾數解:這里的數據為定序數據。變量為“回答類別”。甲城市中對住房表示不滿意的戶數最多,為108戶,因此眾數為“不滿意”這一類別,即

Mo=不滿意表4-2甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510合計300100.0統計學數據的概括性度量[例]單項式變量數列確定眾數實例

表4-3某市居民家庭按家庭人口數分組

由上表可以看出,家庭人口數為3人的家庭數最多,因此本例中家庭人口數的眾數為3人。統計學數據的概括性度量數值型分組數據的眾數

1.眾數的值與相鄰兩組頻數的分布有關該公式假定眾數組的頻數在眾數組內均勻分布2.相鄰兩組的頻數相等時,眾數組的組中值即為眾數Mo3.相鄰兩組的頻數不相等時,眾數采用下列近似公式計算MoMo統計學數據的概括性度量算例某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—統計學數據的概括性度量4.1.2順序數據:中位數和分位數1.中位數me集中趨勢的測度值之一排序后處于中間位置上的值不受極端值的影響主要用于定序數據,也可用數值型數據,但不能用于定類數據各變量值與中位數的離差絕對值之和最小,即Me50%50%統計學數據的概括性度量原始數據:

2422212620位

置: 12345中位數的計算排序: 2021222426原始數據:

10591268位

置:123456 排序: 56891012中位數=(8+9)/2=8.5統計學數據的概括性度量計算公式未分組數據的中位數數值型分組數據的中位數統計學數據的概括性度量

例:某企業50名工人加工零件中位數計算表,計算50名工人日加工零件數的中位數按零件數分組(個)頻數(人)向上累計(人)向下累計(人)105~1103350110~1155847115~12081642120~125143034125~1301040201301404504Sm-1Sm+1統計學數據的概括性度量2.四分位數 人們經常會將數據劃分為4個部分,每一個部分大約包含有1/4即25%的數據項。QLQMQU25%25%25%25%1.集中趨勢的測度值之一2.排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數據,也可用于數值型數據,但不能用于定類數據統計學數據的概括性度量四分位數(位置的確定)未分組數據:組距分組數據:下四分位數(QL)位置=N+14上四分位數(QU)位置=3(N+1)4下四分位數(QL)位置=N4上四分位數(QL)位置=3N4統計學數據的概括性度量甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—計算甲城市家庭對住房滿意狀況評價的四分位數解:下四分位數(QL)的位置為:

QL位置=(300)/4=75

上四分位數(QL)的位置為:

QU位置=(3×300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此

QL

=不滿意

QU

=一般統計學數據的概括性度量原始數據:23213032282526排序:21232526283032位置:1 23 4567QL=23N+17+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30

數值型未分組數據的四分位數統計學數據的概括性度量原始數據:232130282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5

統計學數據的概括性度量數值型分組數據的四分位數(計算公式)上四分位數:

下四分位數:

統計學數據的概括性度量計算50名工人日加工零件數的四分位數某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—QL位置=50/4=12.5QU位置=3×50/4=37.5統計學數據的概括性度量4.1.3數值型數據:均值1.集中趨勢的測度值之一2.最常用的測度值3.一組數據的均衡點所在4.易受極端值的影響5.用于數值型數據,不能用于定類數據和定序數據統計學數據的概括性度量均值的種類及計算

1.算術平均數**

(1)概念

算術平均數又稱平均值,是用一組數據中所有值之和除以該組數據的個數。

(2)基本公式統計學數據的概括性度量平均數計算公式設一組數據為:X1,X2,…,XN簡單均值的計算公式為設分組后的數據為:X1,X2,…,XK

相應的頻數為:F1,F2,…,FK加權均值的計算公式為統計學數據的概括性度量簡單均值(算例)原始數據: 10 5 9 13 6 8加權均值(算例4.7)統計學數據的概括性度量(1)算術平均數的大小,不僅取決于研究對象的變量值(x),而且受各變量值重復出現的頻數(f)或頻率(f/∑f)大小的影響,頻數或頻率較大,該組數據的大小對算術平均數的影響就大,反之則小。(2)權數的表現形式問題:絕對權數與相對權數注意事項統計學數據的概括性度量是非標志的平均數是非標志:如果按照某種標志把總體只能分為具有某種特征的單位和不具有該種特征的單位兩部分,這個標志就是是非標志。平均數的計算:把具有某種特征的用“1”表示,不具有該種特征的用“0”表示。

是非標志x單位數f比重

1

0

合計N1統計學數據的概括性度量加權平均數(權數對平均數的影響)甲乙兩組各有10名學生,他們的考試成績及其分布數據如下甲組:考試成績(X):020100人數分布(F):118乙組:考試成績(X):020100人數分布(F):811X甲0×1+20×1+100×8n

10i=1

Xi

82(分)X乙0×8+20×1+100×1n

10i=1

Xi

12(分)統計學數據的概括性度量平均數(數學性質)1. 各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小統計學數據的概括性度量性質(3、4)3、給每個變量值增加或減少一個任意數A,則算術平均數也相應增增加或減少這個任意數A。4、給每個變量值乘以或除以一個任意數A,則算術平均數也相應擴大或縮小A倍。統計學數據的概括性度量2.調和平均數(1)概念:

調和平均數又稱倒數平均數,是各個變量值倒數的算術平均數的倒數。

(2)計算簡單調和平均數:針對未分組資料。計算公式為:統計學數據的概括性度量2.調和平均數

加權調和平均數:針對分組資料。

計算公式為:

其中:

是一種特殊權數,它不是各組變量值出現的次數,表示各組標志總量。即統計學數據的概括性度量[例]根據某商場職工月工資資料計算月平均工資。

某商場職工月工資資料統計學數據的概括性度量3.幾何平均數(1)概念:幾何平均數(geometricmean)又稱對稱平均數,它是各變量值乘積的n次方根。(2)計算基本公式:

對數公式:在實際工作中,由于變量個數較多,通常要應用對數來進行計算。即

統計學數據的概括性度量(3)幾何平均數的應用及特點

①應用條件現象的總比率是若干項變量的乘積,或現象的總發展速度是各時期發展速度的連乘積時,計算平均比率或平均發展速度。②特點a.如果數列中有一個標志值等于零或負值,則無法計算。b.受極端值影響較小,故較穩健。統計學數據的概括性度量幾何平均數(算例)【例4.10】一位投資者持有一種股票,2001-2004年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率。平均收益率=108.0787%-1=8.0787%統計學數據的概括性度量例1:某企業的一條生產流水線有四道工序,每一道工序完成的產品都要作一次質量檢查,只有合格的中間件才進入下一道工序。工序C工序A工序B工序D合格率98%合格率97%合格率94%合格率95%請問:平均合格率=?適用于連續作業的情況:統計學數據的概括性度量例2:據網上報到,成都溫江的蘭花節(2006年2月27日)上,一盆蘭花賣價是1100萬元,這背后是迅速壯大的10萬戶成都養蘭、炒蘭戶,不少人是在借高利貸炒蘭,圖謀暴利。紅荷黃金海岸龍女彩蝶設某炒蘭投資者從朋友處借得一筆高利貸,以季度為結算單位,每個季度生成的利息到期自動轉為本金,一年連本帶利付清。各季利率根據蘭花價格變化適當調整。實際一年下來,第一季度的利率是3%,第二季度的利率是3.2%,第三季度的利率是3.6%,第四季度的利率是2.8%。問:平均利率是多少?統計學數據的概括性度量

解答:本題需要注意的是,不能夠直接對利率進行幾何平均,而應該通過連本帶利計算,即若借款總額為L萬元,則一年之后的付款額(本息和)為:如果平均利率為G,則應該有:統計學數據的概括性度量1.算術平均數易受極端值影響;2.調和平均數也受極端值影響,但受極小值影響較大;3.幾何平均數受極端值影響較小。對同一資料來說:幾何平均數大于調和平均數而小于算術平均數,即有:數字12345幾何平均數2.61算術平均數3調和平均數2.19一般來說:統計學數據的概括性度量各種平均數的比較(一)各種平均數的特點及應用場合是就全部數據計算的,具有優良的數學性質,實際中應用最為廣泛。其主要缺點是易受極端值的影響,對偏態分布其代表性較差。H主要用于不能直接計算的數據易受極端值的影響。G主要用于計算比率數據的平均數,易受極端值的影響。不受極端值大小的影響,對偏態分布其代表性較好。但不是根據所有的變量值計算的.不受極端值的影響,對偏態分布其代表性較好.但不是根據所有的變量值計算的.統計學數據的概括性度量左偏分布均值

中位數

眾數對稱分布

均值=中位數=

眾數右偏分布眾數

中位數均值中位數、眾數和算術平均數的關系統計學數據的概括性度量數據類型和所適用的集中趨勢測度值數據類型定類數據定序數據定距數據定比數據適用的測度值眾數中位數均值均值—四分位數眾數調和平均數—眾數中位數幾何平均數——四分位數中位數———四分位數———眾數統計學數據的概括性度量4.2離散程度的度量數據分布的另一個重要特征離中趨勢的各測度值是對數據離散程度所作的描述反映各變量值遠離其中心值的程度,因此也稱為離中趨勢從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值統計學數據的概括性度量4.2.1分類數據:異眾比率1. 離散程度的測度值之一2. 非眾數組的頻數占總頻數的比率3. 計算公式為

4.用于衡量眾數的代表性統計學數據的概括性度量異眾比率(算例)根據表中的數據,計算異眾比率某城市居民關注廣告類型的頻數分布

廣告類型人數(人)頻率(%)商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告1125191610256.025.54.58.05.01.0合計200100解:在所調查的200人當中,關注非商品廣告的人數占44%,異眾比率還是比較大。因此,用“商品廣告”來反映城市居民對廣告關注的一般趨勢,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%統計學數據的概括性度量4.2.2順序數據:四分位差1. 離散程度的測度值之一2. 也稱為內距或四分間距3. 上四分位數與下四分位數之差QD=QU-QL4. 反映了中間50%數據的離散程度5.不受極端值的影響6.用于衡量中位數的代表性統計學數據的概括性度量四分位差(定序數據的算例)根據表中的數據,計算甲城市家庭對住房滿意狀況評價的四分位差甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2,

QU=一般=3四分位差:

QD=QU-QL =3–2=1統計學數據的概括性度量4.2.3數值型數據:方差和標準差1.極差1.一組數據的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數據的分布7891078910未分組數據R

=max(Xi)-min(Xi).=組距分組數據R

最高組上限-最低組下限5.計算公式為統計學數據的概括性度量第一組:60,70,80,90,100第二組:78,79,80,81,82很明顯,兩個小組的考試成績平均分都是80分,但是哪一組的分數比較集中呢?如果用全距指標來衡量,則有R甲=100-60=40(分)R乙=82-78=4(分)這說明第一組資料的標志變動度或離中趨勢遠大于第二組資料的標志變動度。例:有兩個學習小組的統計學開始成績分別為:統計學數據的概括性度量2.平均差1.離散程度的測度值之一2.各變量值與其均值離差絕對值的平均數3.能全面反映一組數據的離散程度4.數學性質較差,實際中應用較少5.計算公式為未分組數據組距分組數據統計學數據的概括性度量平均差(計算過程及結果)某廠按月收入水平分組的組距數列如表中前兩列,計算平均差。統計學數據的概括性度量3.方差和標準差離散程度的測度值之一最常用的測度值反映了數據的分布反映了各變量值與均值的平均差異根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差4681012X=8.3統計學數據的概括性度量總體方差和標準差(計算公式)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式統計學數據的概括性度量總體標準差(計算過程及結果)根據表中的數據,計算工人日加工零件數的標準差某車間50名工人日加工零件標準差計算表按零件數分組組中值(Xi)頻數(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合計—50—3100.5統計學數據的概括性度量樣本方差和標準差(計算公式)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!統計學數據的概括性度量樣本方差自由度一組數據中可以自由取值的數據的個數當樣本數據的個數為n

時,若樣本均值

x確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則

x=5。當

x=5確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量統計學數據的概括性度量樣本方差與標準差(算例)原始數據:10 591368統計學數據的概括性度量方差(簡化計算公式)樣本方差總體方差統計學數據的概括性度量方差(數學性質)各變量值對均值的方差小于對任意值的方差設X0為不等于X的任意數,D2為對X0的方差,則統計學數據的概括性度量是非標志的標準差如前:是非標志的平均數為P。標志值x單位數f10合計N由于標準差有良好的數學性質,相比較而言,它的應用最為廣泛。統計學數據的概括性度量4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論