數據的特征值_第1頁
數據的特征值_第2頁
數據的特征值_第3頁
數據的特征值_第4頁
數據的特征值_第5頁
已閱讀5頁,還剩95頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據的特征值第一頁,共一百零八頁,2022年,8月28日2023/2/121本章重點與難點重點:

了解和掌握算術平均數、眾數、中位數、方差、標準差、標準分數的含義及其計算方法;正確使用離散系數比較不同均值的代表性。難點:

是偏度和峰度的含義及其計算方法。第二頁,共一百零八頁,2022年,8月28日2023/2/122學習目標正確理解平均指標與變異指標的概念的、意義與作用,明確其種類和區別;掌握平均指標和變異指標的計算方法,以及應用的原則和條件;掌握偏度和峰度的含義及其計算方法;了解各種分位數的概念與意義。第三頁,共一百零八頁,2022年,8月28日2023/2/123數據分布的特征:一、集中趨勢:反映數據向其中心靠攏或聚集程度;二、離中趨勢;數據遠離中心的趨勢(又稱離散程度);三、偏態和峰態;偏態是對數據分布對稱性的度量;峰度是指數據分布的平峰或尖峰程度(形狀)。第四頁,共一百零八頁,2022年,8月28日2023/2/124數據分布的特征集中趨勢:反映數據向其中心靠攏或聚集程度

(位置)偏態和峰態;偏態:反映數據偏斜程度;峰度:數據分布的平峰或尖峰程度(形狀)離中趨勢;數據遠離中心的趨勢

(分散程度)第五頁,共一百零八頁,2022年,8月28日數據分布特征的測度數據特征的測度平均數眾數中位數離散系數標準分數方差和標準差峰態四分位差異眾比率偏態分布的形狀集中趨勢離散程度第六頁,共一百零八頁,2022年,8月28日第一節集中趨勢——數值平均數

p75

一、算術平均數二、調和平均數三、幾何平均數數值型數據的平均數第七頁,共一百零八頁,2022年,8月28日2023/2/127集中趨勢

(centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值注意:低層次數據的測度方法也適用于高層次的數據,但高層次數據的測度方法往往不適用于低層次的數據。第八頁,共一百零八頁,2022年,8月28日2023/2/128一、算術平均數

均值(算術平均數)定義:將一組數據相加后除以數據的個數所得到的一個數值,稱為算術平均數(average)或均值(mean)。

算數平均數,又有簡單算數平均數和加權平均數之分第九頁,共一百零八頁,2022年,8月28日2023/2/129一、算術平均數

設一組數據為:x1,x2,…,xn(未分組數據)各組的組中值為:x1,x2,…,xk

(組距分組數據)

相應的頻數為:f1,f2,…,fk簡單算術平均數加權算術平均數第十頁,共一百零八頁,2022年,8月28日【例3.1】根據表3.1中的數據,計算職工通信費用支出額平均水平。p72解:第十一頁,共一百零八頁,2022年,8月28日

身高組中值人數比重(cm)xi(cm)fi(人)(%)150-155152.533.61155-160157.51113.25160-165162.53440.96165-170167.52428.92170以上172.51113.25

總計--83100.00

例3.2分組資料均值的計算:某年級83名女生身高資料組距數據次數f頻率f/∑f變量值x加權算術平均數第十二頁,共一百零八頁,2022年,8月28日【例3.3】依據整理所得表3-5中的數據,計算職工通信費用支出額平均水平。p74解:或第十三頁,共一百零八頁,2022年,8月28日

計算算數平均數,

注意:用各組的組中值代表其實際數據計算算術平均數時,通常假定各組數據在組內是均勻分布的,相應的組中值近似等于各組的平均數。權數:衡量變量值相對重要性的數值。各個變量值的權數要起作用必須具備兩個條件:一是各個變量值之間有差異;二是各個變量值的權數有差異。簡單算術平均數是加權算術平均數在權數相等時的特例。第十四頁,共一百零八頁,2022年,8月28日2023/2/1214算術平均數的性質p75-76

1.各變量值與其算術平均數的離差之和等于零,即。第十五頁,共一百零八頁,2022年,8月28日2023/2/1215算術平均數的性質第十六頁,共一百零八頁,2022年,8月28日集中趨勢的最常用測度值;一組數據的均衡點所在;易受極端值的影響;各變量值與其均值的離差之和等于零;5、6.由組距分組資料計算的均值有近似值性質;7、用于數值型數據,不能用于分類數據和順序數據算術平均數(均值)特征:第十七頁,共一百零八頁,2022年,8月28日二、調和平均數調和平均數也稱“倒數平均數”,它是對變量的倒數求平均,然后再取倒數而得到的平均數,以表示。根據掌握的資料不同,調和平均數也有簡單調和平均數和加權平均數兩種形式。其計算公式為:

第十八頁,共一百零八頁,2022年,8月28日2023/2/1218例題分析【例3.4]假設甲、乙、丙三種蘋果的價格分別為每斤2.4元、1.8元及1.5元(1)若三種蘋果各買1元,試問所購蘋果的平均價格又為多少?(2)如果甲、乙、丙三種蘋果分別購買5元、8元和10元,試問其平均價格為多少?解:計算平均價格的是用所付金額除以所購數量。(1)(2)第十九頁,共一百零八頁,2022年,8月28日2023/2/1219計算調和平均數,注意:1.從數學定義角度看算術平均數與調和平均數是不一樣的,但在社會經濟應用領域,調和平均數實際上只是算術平均數的另一種表現形式,二者本質上是一致的,惟一的區別是計算時使用了不同的數據。2.計算比率的平均數時,如果已知比率及其基本計算式的分母資料,則采用加權算術平均法;如果已知比率及其基本計算式的分子資料,則采用加權調和平均法。第二十頁,共一百零八頁,2022年,8月28日2023/2/1220三、幾何平均數(geometricmean)p78幾何平均數也稱幾何均值,它是n個變量值乘積的n次方根。幾何平均法是計算平均比率或平均發展速度最適用的一種方法。如果分布數列中各變量值呈幾何級數變化或頻率分布極不對稱,也常采用幾何平均法來計算平均數。根據統計資料的不同,幾何平均數也有簡單幾何平均數和加權幾何平均數之分。

第二十一頁,共一百零八頁,2022年,8月28日2023/2/1221幾何平均數的計算公式用途:適用于對比率數據的平均。主要用于計算平均發展速度、平均增長率、平均比率對于未分組的資料,幾何平均數的計算公式為第二十二頁,共一百零八頁,2022年,8月28日2023/2/1222補充:發展速度、增長速度概念及關系環比發展速度y1/y0y2/y1y3/y2yn/yn-1定基發展速度y1/y0y2/y0y3/y0yn/y0注意:環比發展速度的連乘積=相應的定基發展速度增長速度=發展速度-1

環比增長速度=環比發展速度-1

定基增長速度=定基發展速度-1第二十三頁,共一百零八頁,2022年,8月28日平均增長率(averagerateofincrease)①序列中各逐期環比值(也稱環比發展速度)的幾何平均數減1后的結果②描述現象在整個觀察期內平均增長變化的程度③通常用幾何平均法求得。計算公式為第二十四頁,共一百零八頁,2022年,8月28日例題分析【例3.8】已知某市2001~2005年國內生產總值的發展速度(以上年為100)依次分別為112%、108%、114%、116%和113%。試計算這5年國內生產總值的平均發展速度。如果已知的是各年的增長速度,要計算若干年的平均增長速度,則需要先將增長率加上100%得到發展速度,再根據上述方法計算平均發展速度,最后用平均發展速度減100%則得到平均增長速度。第二十五頁,共一百零八頁,2022年,8月28日2023/2/1225例題分析【例3.9】甲投資銀行某項投資的年利率是按復利計算的,若將過去20年的年利率資料如表3.9所示.要求:試計算20年的平均年利率。解:第二十六頁,共一百零八頁,2022年,8月28日2023/2/1226應用幾何平均數時注意幾何平均數在實際應用中受到很多限制;如果被平均的變量值中有一個為零,則不能計算幾何平均數;如果變量值為負數,開偶次根會形成虛根,失去意義;幾何平均數在實際應用中的范圍比算術平均數要窄。第二十七頁,共一百零八頁,2022年,8月28日2023/2/1227幾何平均數的特點

1.幾何平均數受極端值的影響較算術平均數小。2.如果變量值有負值,計算出的幾何平均數就會成為負數或虛數。3.它僅適用于具有等比或近似等比關系的數據。4.幾何平均數的對數是各變量值對數的算術平均數。第二十八頁,共一百零八頁,2022年,8月28日2023/2/1228第二節集中趨勢—位置平均數p80一、眾數Mo二、中位數Me三、四分位數QU、QL第二十九頁,共一百零八頁,2022年,8月28日2023/2/1229集中趨勢—位置平均數位置平均數,就是根據總體中處于特殊位置上的個別單位或部分單位的標志值來確定的代表值;對于整個總體來說,具有非常直觀的代表性,常用來反映分布的集中趨勢;常用的位置平均數有眾數和中位數。第三十頁,共一百零八頁,2022年,8月28日2023/2/1230一、眾數p80(一)眾數的含義眾數是指一組數據中出現次數最多的變量值,用表示。眾數直觀地說明分布的集中趨勢,并用它作為反映變量值一般水平的代表值。在某些場合只有眾數才適合作為總體的代表值。第三十一頁,共一百零八頁,2022年,8月28日2023/2/1231(二)眾數的計算方法1.觀察法求眾數如果數據已按單個變量值整理成頻率分布表或者是分類數據表,則次數出現最多或頻率最大的那個變量值即為眾數。【例3.11】某制鞋廠要了解消費者最需要哪種型號的男皮鞋,調查了某百貨商場2005年10月男皮鞋的銷售情況,得到資料如表3.10所示。第三十二頁,共一百零八頁,2022年,8月28日2023/2/1232眾數的計算--例題分析要求:試根據上表資料計算男皮鞋銷售量的眾數。解:銷售量最多的是規格為25.5厘米的鞋號,銷售量320雙,占32%,故眾數為25.5公分。第三十三頁,共一百零八頁,2022年,8月28日眾數的計算--例題分析p81【例3.10】某高校電影院在安排2010年影片放映計劃時,分別按性別隨機抽取200名男女學生,登記其對影片類型的取向。統計結果如表3.10所示。要求:試分析學生對影片取向的集中趨勢。解:

7種類型的影片中,男生最喜歡看動作片,人數為48人,占24%,眾數即為動作片這種影片類型;女生最喜歡看言情片,人數為46人,占23%,眾數即為言情片這種影片類型;男女生對影片類型的取向,綜合而言是動作片,眾數為動作片這種影片類型。

第三十四頁,共一百零八頁,2022年,8月28日數值型數據眾數的確定方法單變量值分組資料某年級83名女生身高資料

身高人數(CM)(人)152115421552156415711582159216012161716281634

身高人數(CM)(人)1643165816651673168716911705171217231741總計83

STAT眾數第三十五頁,共一百零八頁,2022年,8月28日2023/2/1235

注意:

眾數不僅適用于測度順序數據和數值型數據的集中趨勢,而且適用于測度不能計算平均數的分類數據的集中趨勢。第三十六頁,共一百零八頁,2022年,8月28日2023/2/1236眾數的計算方法2.插值法求眾數對于組距分組形成的分布數列,當頻率分布屬于完全對稱分布,而眾數所在組的變量值分布比較均勻時,可用觀察法求眾數,即以眾數組的組中值作為所求的眾數。完全對稱分布不存在,眾數組前后各組的次數不一定相等,眾數就不等于組中值,因此需要采用插值法求眾數。第三十七頁,共一百零八頁,2022年,8月28日2023/2/1237組距分組數據,眾數的計算步驟1、先找到眾數所在的組;2、按該組次數與前后相鄰兩組分布次數之差所占的比重來推算眾數值。如果眾數組前一組的次數大于后一組的次數,則眾數值小于其所在組的組中值;反之,眾數值則大于其所在組的組中值;若眾數組前后相鄰組的次數相等,則眾數值等于其所在組的組中值。3、計算眾數有上限和下限公式之分。

第三十八頁,共一百零八頁,2022年,8月28日2023/2/1238眾數的計算方法第三十九頁,共一百零八頁,2022年,8月28日2023/2/1239

身高人數比重(CM)(人)(%)150-15533.61155-1601113.25160-1653440.96165-1702428.92170以上1113.25

總計83100某年級83名女生身高資料③數值型數據眾數的確定方法組距分組資料STAT眾數組第四十頁,共一百零八頁,2022年,8月28日

眾數的特點1.眾數不受分布數列的極大或極小值的影響,眾數對分布數列有好的代表性。2.數據的分布沒有明顯的集中趨勢或最高峰點,眾數可能不存在;3.有兩個或多個高峰點,可以有兩個或多個眾數。眾數不具有唯一性。3.眾數缺乏敏感性。第四十一頁,共一百零八頁,2022年,8月28日2023/2/1241二、中位數Mep83(一)中位數的含義中位數是將數據按大小順序排列起來,形成一個數列,居于數列中間位置的那個變量值稱為中位數。中位數用Me表示。特點:在一個等差數列或一個正態分布數列中,中位數就等于算術平均數。中位數不受極端變量值的影響。第四十二頁,共一百零八頁,2022年,8月28日2023/2/1242中位數的計算中位數概念:排序后處于中間位置上的值1.根據未分組數據計算中位數。Me50%50%第四十三頁,共一百零八頁,2022年,8月28日2023/2/1243例題分析【例3.12】某班第一、二兩個小組統計學期末考試成績排序結果如表3.13所示。要求:分別計算兩小組成績的中位數解:兩個學習小組的考試成績已經分別按由低到高排列。第一小組有7個學生,第4位為中位數的位置,Me=75.第二小組有8個學生,中位數的位置處于第四和第五個學生之間。第四十四頁,共一百零八頁,2022年,8月28日2023/2/1244中位數的計算2.由分組資料確定中位數

如果由組距數列確定中位數,應先按的公式求出中位數所在組的位置,然后再按下限公式或上限公式確定中位數。第四十五頁,共一百零八頁,2022年,8月28日2023/2/1245組距分組數據中位數的確定方法

身高fi人數累計(CM)(人)人數150-15533155-1601114160-1653448165-1702472170以上1183

總計83某年級83名女生身高資料STAT中位數組第四十六頁,共一百零八頁,2022年,8月28日

中位數的特點1.不受分布數列的極大或極小值影響。2.有些離散型變量的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。3.中位數缺乏敏感性。第四十七頁,共一百零八頁,2022年,8月28日2023/2/1247三、四分位數p85中位數是根據其在數列中所處的位置來確定的一個平均數,作為各變量值的一個代表值,以反映分布數列的集中趨勢。為了進一步了解一組數據分布的內部結構,觀察變量值在各個區間的一般水平,還可以計算四分位數、十分位數和百分位數。第四十八頁,共一百零八頁,2022年,8月28日2023/2/1248

四分位數四分位數是通過3個點將全部數據等分為四個部分,其中每部分包含25%的數據。

QLMeQU25%25%25%25%處于25%和75%位置上的值即四分位數特點:不受極端值的影響要用于順序數據,也可用于數值型數據,但不能用于分類數據(各種分位數可由spss計算)第四十九頁,共一百零八頁,2022年,8月28日2023/2/1249四分位數的計算1.根據未分組數據計算四分位數時,先對數據進行排序,然后再確定四分位數所在的位置當四分位數的位置不是整數時,可根據四分位數的位置,按比例分攤四分位數所在位置兩側變量值之差的數值。第五十頁,共一百零八頁,2022年,8月28日2023/2/1250四分位數的計算—例題分析【例3.14】將例3.13中兩個學習小組的統計學考試成績合并如下:

要求:(1)計算前15個學生統計學考試成績的四分位數;(2)如果增加一個學生的成績95分,試計算16個學生統計學考試成績的四分位數。第五十一頁,共一百零八頁,2022年,8月28日2023/2/1251四分位數的計算—例題分析第五十二頁,共一百零八頁,2022年,8月28日2023/2/1252四分位數的計算2.根據組距數列計算四分位數

第五十三頁,共一百零八頁,2022年,8月28日2023/2/1253四分位數的計算第五十四頁,共一百零八頁,2022年,8月28日2023/2/1254(二)十分位數

十分位數是指將按大小順序排列的一組數據劃分為10等分的9個變量值,用以反映一組數據在各個區間的一般水平。第五十五頁,共一百零八頁,2022年,8月28日2023/2/1255十分位數的計算十分位數的具體計算方法與計算四分位數類似,即先計算出各個十分位數所處的位置。如果為整數,與計算的位置相對應的變量值就是所求的十分位數;如果不是整數,每個位置的值出現小數,此時,所求的十分位數等于整數位的變量值加上小數乘以前后兩項變量值之差的數值。第五十六頁,共一百零八頁,2022年,8月28日2023/2/1256(三)百分位數第五十七頁,共一百零八頁,2022年,8月28日2023/2/1257百分位數的計算求出各個百分位數所處的位置后,具體計算每個百分位數的方法與四分位數類似,故不再詳細介紹。如果數據比較多,計算百分位數可以更詳細地反映數據分布中每個小區間的一般水平,用以補充說明平均數所反映的集中趨勢。第五十八頁,共一百零八頁,2022年,8月28日2023/2/1258算術平均數簡評算術平均數:算術平均數符合上述六個條件,應用范圍最廣。易受極端值的影響。當分布數列中存在開口組時,會影響平均數的準確性。算術平均數適用于數值型數據。第五十九頁,共一百零八頁,2022年,8月28日2023/2/1259(三)眾數、中位數和算術平均數的關系在數據分布呈完全對稱的正態分布時,算術平均數、眾數和中位數三者相等。在次數分布非對稱時,算術平均數、眾數和中位數三者不相等,但具有相對固定的關系。在尾巴拖在右邊的正偏態(或右偏態)分布中,眾數最小,中位數適中,算術平均數最大。第六十頁,共一百零八頁,2022年,8月28日2023/2/1260

眾數、中位數和平均數的關系

左偏分布均值

中位數

眾數對稱分布

均值=中位數=

眾數右偏分布眾數

中位數均值對何種數據而言的?第六十一頁,共一百零八頁,2022年,8月28日2023/2/1261眾數、中位數和算術平均數的關系p84偏斜適度時,三者的關系:第六十二頁,共一百零八頁,2022年,8月28日2023/2/1262第三節離中趨勢的測度p85數據分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一個側面說明了集中趨勢測度值的代表性注意:數據的離散程度越大,集中趨勢的測度對該組數據的代表性越差;數據的離散程度越小,集中趨勢的測度值對該組數據的代表性越好。不同類型的數據有不同的離散程度測度值第六十三頁,共一百零八頁,2022年,8月28日2023/2/1263下面是兩個總體關于年齡分布的數據,相對而言,那個總體的年齡分布分散,差異大些?46、47、48、49、50、51、52、53、548、15、20、30、5070、80、85、92總體1總體2第六十四頁,共一百零八頁,2022年,8月28日2023/2/1264離中趨勢;數據遠離中心的趨勢

(分散程度)總體2總體1第六十五頁,共一百零八頁,2022年,8月28日數值型數據:①全距(或稱極差)(range)②平均差(meandeviation)③方差和標準差(Varianceandstandarddeviation)④相對離散程度:離散系數(CoefficientofVariation)分類數據:異眾比率(variationratio)順序數據:四分位差(quartilerange)離散程度的測度第六十六頁,共一百零八頁,2022年,8月28日一、全距(Range)全距也稱為極差,是指一組數據的最大值與最小值之差,用R表示。即:R=最大變量值-最小變量值沒有開口組的組距分布數列計算全距,可以用最大組的上限值減去最小組的下限值,得到全距的近似值。全距可以反映一組數據的差異范圍。第六十七頁,共一百零八頁,2022年,8月28日2023/2/1267全距的計算【例3.16】表3-14是兩組人口關于年齡分布的數據,要求計算全距。解:第一組全距第二組全距

注意:如果組距分布數列中有開口組,則不能計算全距。全距計算簡單,易理解,易受極端值的影響;不能反映中間數據分散狀況,不能準確描述數據的分散程度。第六十八頁,共一百零八頁,2022年,8月28日2023/2/1268

二、異眾比率

(variationratio)① 非眾數組的頻數占總頻數的比率②計算公式為③用于對分類數據離散程度的測度

④用于衡量眾數的代表性第六十九頁,共一百零八頁,2022年,8月28日異眾比率異眾比率主要用于衡量眾數對一組數據的代表程度。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。異眾比率適合測度分類數據、測度順序數據和數值型數據的離散程度。第七十頁,共一百零八頁,2022年,8月28日2023/2/1270異眾比率的應用

p89【例3.17】根據例3.10(第34張)的數據計算學生對影片取向的異眾比率。【解】根據公式得說明:比較上面的三個異眾比率,全部樣本學生的異眾比率最大,說明其眾數的代表性最差;男生的異眾比率略小于女生的異眾比率,說明男生對影片取向的眾數的代表性略好于女生對影片取向的眾數的代表性。第七十一頁,共一百零八頁,2022年,8月28日2023/2/1271三、四分位差p89

注意:①上四分位數與下四分位數之差

Qd=QU

–QL反映了中間50%數據的離散程度②對順序數據離散程度的測度③不受極端值的影響④用于衡量中位數的代表性第七十二頁,共一百零八頁,2022年,8月28日2023/2/1272四分位差的應用注意:四分位差不易受極端值的影響,可以測量含有開口組的數據分布的差異程度,但不能反映所有變量值的差異程度。【例】依據前面例3.16中兩組人口年齡的四分位差:

結論:第一、第二組的中位數均為50歲,但其代表性不同。第一小組的中位數代表性相對高些,因為相對而言,四分位差小,數據分布集中。第二組年齡中位數代表性低些,因為該組年齡差異大,年齡分布相對分散。第七十三頁,共一百零八頁,2022年,8月28日2023/2/1273四、平均差(AverageDeviation)平均差就是各個變量值與其算術平均數離差的絕對值的平均數,以AD表示。它綜合反映了各變量值的變動程度,是各個離差的代表值。平均差越大,則表示變量值的離散程度越大,說明平均數的代表性越小;平均差越小,則表示變量值的離散程度越小,說明平均數的代表性越大。第七十四頁,共一百零八頁,2022年,8月28日2023/2/1274平均差的計算①各變量值與其均值離差絕對值的平均數計算公式為未分組數據組距分組數據諸變量值與均值的偏差②能全面反映一組數據的離散程度③數學性質較差,實際中應用較少第七十五頁,共一百零八頁,2022年,8月28日2023/2/1275平均差的計算【例3.18】要求:根據例3.16所給的資料分別計算第一、第二組人口年齡的平均差,并比較其平均年齡的代表性。解:結論:

比較兩個平均差可知,兩組人口年齡平均數均為50歲,第一組平均差小,人口年齡分布的差異小,平均年齡的代表性好;第二組平均差大,年齡分布的離散水平大,平均年齡的代表性差些。第七十六頁,共一百零八頁,2022年,8月28日2023/2/1276

平均差的計算【例3.19】根據表的資料計算120名職工通信費用支出額的平均差。解:第七十七頁,共一百零八頁,2022年,8月28日2023/2/1277平均差的含義:

每名職工通信費用支出額有高有低,與平均數165元相比,差異有大有小。平均差表明:以平均通信費用165元為中心,每名職工通信費用支出額與平均水平的平均差距為42.42元。注意:平均差易理解、計算簡便;可以說明數據分布的離中趨勢;不適宜進行代數運算,其應用范圍易受限制。第七十八頁,共一百零八頁,2022年,8月28日五、方差與標準差p92方差是各個數據與其算術平均數的離差平方的平均數,通常以表示總體方差,s2表示樣本方差。標準差又稱均方差,是方差的平方根,一般用表示總體標準差,以S表示樣本標準差。方差和標準差的計算也分為簡單平均法和加權平均法。對于總體數據和樣本數據,公式略有不同。

第七十九頁,共一百零八頁,2022年,8月28日2023/2/1279方差與標準差注意:方差和標準差是根據全部數據計算的,它反映了每個數據與其均值相比平均相差的數值;它能準確地反映出數據的離散程度;方差和標準差是應用最廣泛的離散程度測度值。

第八十頁,共一百零八頁,2022年,8月28日2023/2/1280總體方差與標準差的計算公式總體標準差第八十一頁,共一百零八頁,2022年,8月28日2023/2/1281樣本方差和標準差(記住)p92

(simplevarianceandstandarddeviation)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!第八十二頁,共一百零八頁,2022年,8月28日方差與標準差的應用【例3.20】要求:根據表中的數據計算120名職工通信費用支出額的方差和標準差。第八十三頁,共一百零八頁,2022年,8月28日2023/2/1283方差與標準差的計算【解】已知平均數為165元,因是隨機抽取的樣本資料,故依據樣本方差及標準差的公式計算。計算結果表明,樣本中每名職工月通信費用支出額與月平均通信費用支出額165元的水平相比,差異有大有小,但平均偏差是51.4元。第八十四頁,共一百零八頁,2022年,8月28日2023/2/1284方差與標準差的應用【例3.22】考察一臺機器的生產狀況,利用抽樣程序來檢驗其生產出來的產品質量是否穩定。據行業標準,如果樣本零件尺寸的標準差大于0.3公分,則表明該零件的質量不穩定,需要對該機器進行停工檢修。數據如下:要求:根據資料,判斷該機器是否需要停工修。第八十五頁,共一百零八頁,2022年,8月28日2023/2/1285方差與標準差的應用解:計算的樣本標準差0.2126公分,小于0.3分,表明該臺機器不需要停工檢修。注意:標準差是一個重要的偏差,描述了各觀察值與均值的平均距離。第八十六頁,共一百零八頁,2022年,8月28日六、離散系數p94離散系數(標準差系數或變異系數)通常是用標準差來計算的,它是一組數據的標準差與其相應的均值之比,是測度數據離散程度的相對指標,其計算公式為:式中:Vσ和Vs分別表示總體離散系數和樣本離散系數。第八十七頁,共一百零八頁,2022年,8月28日2023/2/1287離散系數的應用平均水平或計量單位不同的不同組別的變量值,不能直接用離散程度的測度值比較。平均水平或計量單位不同的不同組別進行比較,需計算離散系數。離散系數大的說明該組數據的離散程度也就大,離散系數小的說明該組數據的離散程度小。第八十八頁,共一百零八頁,2022年,8月28日2023/2/1288離散系數的應用【例3.22】從某管理局所屬的兩家企業中各隨機抽取10名職工,調查獲得他們的年收入數據如表所示:要求:根據上表數據計算男女生的平均身高以及標準差系數,說明兩組數據的離散程度及平均數的代表性。第八十九頁,共一百零八頁,2022年,8月28日2023/2/1289結論:

計算結果表明,v乙<v甲,說明乙企業職工年收入的離散程度小于甲企業的。說明乙企業職工年收入平均水平比的甲企業的更具有代表性。

注意:解決問題的程序與步驟。(四步)v甲=4667014354.25=30.76%v乙=5338015277.4=28.62%第九十頁,共一百零八頁,2022年,8月28日2023/2/1290七、標準分數問題:某同學在期末考試中,英語成績91分,數學成績85分,問該同學這兩門課,哪門成績更好些?該班英語平均成績105分,標準差7分;該班數學平均成績80分標準差5分。該班80人,成績服從對稱分布標準分數的計算公式為:第九十一頁,共一百零八頁,2022年,8月28日2023/2/1291標準分數的計算

(標準分數又稱標準化值)

①對某一個值在一組數據中相對位置的度量②可用于判斷一組數據是否有離群點(離群數)③用于對變量值的標準化處理前例中,

Z<0,觀察值低于平均數,位于平均值左側;Z>0,觀察值高于平均水平,位于平均值右側。第九十二頁,共一百零八頁,2022年,8月28日標準分數(性質)P97注意:

z分數只是將原始數據進行了線性變換,它并沒有改變一個數據在該組數據中的位置,也沒有改變該組數分布的形狀,而只是將該組數據變為均值為0,標準差為1。

第九十三頁,共一百零八頁,2022年,8月28日2023/2/1293標準分數(性質)一組數據的標準分數的均值等于02. 一組數據的標準分數的方差等于1第九十四頁,共一百零八頁,2022年,8月28日2023/2/1294經驗法則

p97標準分數可用以判斷一組數據是否有離群點。經驗法則表明:當一組數據對稱分布時,約有68%的數據在平均數加減1個標準差的范圍之內;約有95%的數據在平均數加減2個標準差的范圍之內;約有99%的數據在平均數加減3個標準差的范圍之內。第九十五頁,共一百零八頁,2022年,8月28日2023/2/1295切比雪夫不等式

(Chebyshev’sinequality)p97如果一組數據不是對稱分布,經驗法則就不再適用。切比雪夫不等式,它對任何分布形狀的數據都適用對于任意分布形態的數據,根據切比雪夫不等式,至少有1-1/k2的數據落在k個標準差之內。其中k是大于1的任意值,但不一定是整數切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”第九十六頁,共一百零八頁,2022年,8月28日2023/2/1296切比雪夫不等式

(Chebyshev’sinequality)p97至少有75%的數據在平均數加減2個標準差的范圍內至少89%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論