




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學第三章變量分布特征的描述第一頁,共一百一十八頁,2022年,8月28日學習要求①理解變量分布三大特征即集中趨勢、離中趨勢和分布形狀的的含義;②理解平均指標、離散指標和形狀指標的意義與作用;③熟練掌握各種平均數的計算方法并加以正確的應用,科學理解加權平均數中權數的意義,正確認識算術平均數與調和平均數之間的應用關系,以及算術平均數、中位數和眾數三者之間的數量關系;④熟練掌握各種離散指標的計算方法并加以正確的應用,尤其是要深刻理解方差、標準差和離散系數的內涵;⑤熟練掌握偏度系數和峰度系數的計算方法并加以正確的應用,尤其是要了解動差的含義。第二頁,共一百一十八頁,2022年,8月28日變量分布特征集中趨勢
(位置)離中趨勢
(分散程度)偏態和峰度(形狀)第三頁,共一百一十八頁,2022年,8月28日數據分布的測度峰度偏態數據的特征和測度分布的形狀集中趨勢離散程度眾數中位數變異系數方差和標準差四分位差極差位置平均數數值平均數算術平均數調和平均數幾何平均數第四頁,共一百一十八頁,2022年,8月28日第一節集中趨勢的描述集中趨勢
亦稱為趨中性,是指變量分布以某一數值為中心的傾向,一般用平均指標來表示。一、集中趨勢與平均指標平均指標主要用來表明同質總體中某一標志值,在一定時間、地點條件下所達到的一般水平。其數值表現平均數。概念第五頁,共一百一十八頁,2022年,8月28日平均指標的種類從總體各單位變量值中抽象出具有一般水平的量,這個量是根據各個單位的具體標志值計算出來的,有算術平均數、調和平均數、幾何平均數等形式。數值平均數1、反映時間不同,分為靜態和動態平均數。2、取得集中趨勢代表值方法的不同,可分為數值平均數和位置平均數。先將總體各單位的變量值按一定順序排列,然后取某一位置的變量值來反映總體各單位的一般水平。位置平均數有眾數、中位數、四分位數等形式。位置平均數第六頁,共一百一十八頁,2022年,8月28日
算術平均數
計算平均數調和平均數靜態平均數幾何平均數位置平均數眾數平均指標中位數分位數發展水平平均數動態平均數發展速度平均數第七頁,共一百一十八頁,2022年,8月28日平均指標的作用(1)通過反映變量分布的一般水平,幫助人們對研究現象的一般數量特征有一個客觀的認識。(2)利用平均指標可以對不同空間的發展水平進行比較。(3)利用平均指標可以對某一現象總體在不同時間上的發展水平進行比較,以說明這種現象發展變化的趨勢或規律性。(4)利用平均指標可以分析現象之間的依存關系或進行數量上的推算。(5)平均指標還可以作為研究和評價事物的一種數量標準或參考。第八頁,共一百一十八頁,2022年,8月28日二、數值(計算)平均數數值平均數調和平均數算術平均數幾何平均數第九頁,共一百一十八頁,2022年,8月28日(一)算術平均數算術平均數一般就稱為平均數(mean)。其定義是:觀察值的總和除以觀察值個數的商。在實際工作中,由于所掌握的統計資料的不同,利用上述公式進行計算時,可分為簡單算術平均數和加權算術平均數兩種。簡單算術平均數
(SimpleArithmeticMean)
加權算術平均數
(WeightedArithmeticMean)
第十頁,共一百一十八頁,2022年,8月28日1.簡單算術平均數
簡單算術平均數的公式根據未經分組整理的原始數據計算的均值。設一組數據為x1,x2,x3,…xn.則簡單算術平均數的計算公式如下:第十一頁,共一百一十八頁,2022年,8月28日例1:據南方人才服務中心調查,從事IT行業的從業人員年薪在40000-55000元之間,表中的數據是IT從業人員年薪的一個樣本:24名IT從業人員年薪資料表491004860049950488004720049900513505460049300512005100049400514005180049600534004870050300490004980048900486505130051900計算IT從業人員的平均年薪第十二頁,共一百一十八頁,2022年,8月28日2.加權算術平均數
根據分組整理的數據計算的算術平均數。
加權算術平均數的公式
f代表各組變量值出現的頻數。第十三頁,共一百一十八頁,2022年,8月28日設某廠職工按日產量分組后所得組距數列如下,據此求平均日產量。按日產量分組(千克)工人數f(人)60以下1060–701970–805080–903690–10027100–11014110以上8合計164例2組中值X(千克)Xf555506512357537508530609525651051470115920-13550第十四頁,共一百一十八頁,2022年,8月28日(1)算術平均數的大小,不僅取決于研究對象的變量值(x),而且受各變量值重復出現的頻數(f)或頻率(f/∑f)大小的影響,頻數或頻率較大,該組數據的大小對算術平均數的影響就大,反之則小。(2)權數的表現形式問題注意點第十五頁,共一百一十八頁,2022年,8月28日按日產量分組(千克)組中值X(千克)工人數f(人)ff/∑f60以下55100.063.360–7065190.127.870–8075500.3022.580–9085360.2218.790–10095270.1615.2100–110105140.099.45110以上11580.055.75合計-1641.0082.7例3:第十六頁,共一百一十八頁,2022年,8月28日3.算術平均數的數學性質
(1)各變量值與其算術平均數的離差之和等于零.(2)各變量值與其算術平均數的離差平方和最小.
(3)兩個獨立的同性質變量代數和的平均數等于各變量平均數的代數和.(4)兩個獨立的同性質變量乘積的平均數等于各變量平均數的乘積.第十七頁,共一百一十八頁,2022年,8月28日4.算術平均數的優缺點優點(1)可用于推算總體標志總量。(2)代表性強,在抽樣中具有良好的穩定性和可靠性.(3)可以進行代數運算。
缺點(1)當總體中個別單位標志值特別大或特別小時,會導致算術平均數偏大或偏小。(2)當組距數列有開口組時,組中值有較大假定性。第十八頁,共一百一十八頁,2022年,8月28日(二)調和平均數小學四年級的算術題:一輛小車以每小時80公里的速度從山下開到山頂,又以每小時100公里的速度沿原路返回到山下,問:該車的平均速度。80km/h100km/h鏈接例子:F1比賽時,A車手第一圈時速300公里,第二圈時速340公里,B車手第一圈時速320公里,第二圈時速318。請問:只賽兩圈誰獲勝?第十九頁,共一百一十八頁,2022年,8月28日問題的解答:速度=距離/時間,故平均速度=總距離/總時間。推廣:如果該車山下——山頂來回開,n次的速度分別為x1,x2,x3,…,xn,則平均速度就成為:第二十頁,共一百一十八頁,2022年,8月28日這一計算方式被定義為“調和平均數”(H)。變量值倒數的算術平均數的倒數,故又稱為倒數平均數第二十一頁,共一百一十八頁,2022年,8月28日1、簡單調和平均數(1)作為算術平均的變形例1:三種不同等級的青菜,每公斤單價分別為2元、4元、5元。每種等級各買1元,則均價是多少?例2:某人在30元/股、50元/股、100元/股的三個不同價位各買進“貴州茅臺”股票6000元,則所持該股票的均價是多少?定義:調和平均數是變量值倒數的算術平均數的倒數。又稱倒數平均數。調和平均通常是作為算術平均數的變形來使用的。但一些特殊的領域,如綜合評價,調和平均卻是一種獨立的統計平均數,有著特定的應用價值。第二十二頁,共一百一十八頁,2022年,8月28日例1等價于:三種等級的青菜單價分別為2元/公斤、4元/公斤、5元/公斤,分別購買0.5公斤、0.25公斤、0.2公斤,要求計算平均價格。等價的計算方式是:例2等價于:A股票30元/股時買了200股,50元/股時買了120股,100元/股時買了60股。要求計算股票均價。等價的計算方式是:第二十三頁,共一百一十八頁,2022年,8月28日(2)作為獨立公式運用例1:計算1與2的調和平均。例2:編制價格總指數時,代表品1的價格指數是110%,代表品2的價格指數是105%,則可用兩者的調和平均值作為這一小類的價格指數。例3:甲員工的“德”、“才”、“能”測量分值分別是90分、86分、84分;乙員工的“德”、“才”、“能”測量分值分別為84分、98分、78分。要求采用簡單調和平均方法計算并比較甲、乙兩人的綜合素質。第二十四頁,共一百一十八頁,2022年,8月28日第二十五頁,共一百一十八頁,2022年,8月28日2、加權調和平均數例1:法拉利隊的車王邁克爾·舒馬赫在2004年9月初的一次試車中(F2004),以每小時320公里的速度開了52圈,以每小時345公里的速度開了35圈,而隊友巴里切羅以每小時322公里的速度開了45圈,以每小時337公里的速度開了42圈,求兩人各自的平均車速。例2:三種不同等級的青菜分別買5元、6元、10元,每公斤單價分別為2元、4元、5元,則平均價格是多少?第二十六頁,共一百一十八頁,2022年,8月28日(1)加權調和平均數的基本公式
(2)加權調和平均公式的應用
——作為算術平均的變形當mi=xifi
時,有:第二十七頁,共一百一十八頁,2022年,8月28日(3)加權調和平均公式應該注意的幾個問題A.與加權算術平均公式類似,加權調和平均公式的權數也有兩種類型:絕對權重與比重權重,相應就有兩種不同形式的加權方式.調和平均數的權數不是“次數”而是各組的標志值。絕對權重比重權重第二十八頁,共一百一十八頁,2022年,8月28日B.計算加權調和平均值時,同樣需要注意選擇合適的x,以及合適的權重m.
應該以組平均作為x,若無,則用組中值近似代表。權重m應該是具有實際意義的“各組標志總量”。C.調和平均與算術平均的正確選擇問題
作為算術平均數變形,調和平均數主要用于“平均數的平均”與“相對數的平均”計算之中。如果掌握了變量值,以及該變量的分子資料時,需要通過基本數量關系推導出分母數值,此時即為“加權調和平均”。第二十九頁,共一百一十八頁,2022年,8月28日甲乙兩農貿市場三種農產品的價格和成交量和成交額如下:產品價格甲市場成交額乙市場成交量(元/斤)(萬元)(萬斤)A1.21.22B1.42.81C1.51.51分別求兩個市場農產品的平均價格。第三十頁,共一百一十八頁,2022年,8月28日這是以分母為權重的加權算術平均數這是以分子為權重的加權調和平均數第三十一頁,共一百一十八頁,2022年,8月28日D.簡單調和平均與加權調和平均的關系m1=m2=m3=…=mn=m第三十二頁,共一百一十八頁,2022年,8月28日調和平均數易受極端值的影響,且受極小值的影響比受極大值的影響更大。只要有一個變量值為零,就不能計算調和平均數。當組距數列有開口組時,其組中值即使按相鄰組距計算了,假定性也很大,這時,調和平均數的代表性就很不可靠。調和平均數應用的范圍較小。
E.調和平均的特點第三十三頁,共一百一十八頁,2022年,8月28日
某魚攤有兩種鯽魚:大的每公斤18元,小的每公斤12元,并不能還價。一顧客欲各買一條,但提出兩條一起稱,每公斤15元,魚攤主答應。問誰占便宜?思考題:第三十四頁,共一百一十八頁,2022年,8月28日3.由相對數或平均數計算平均數(1)由相對數計算平均數例1:設有某行業150個企業的有關產值和利潤資料如表所示,計算該行業一、二季度的平均產值利潤率。產值利潤率(%)一季度二季度企業數(個)實際產值(萬元)企業數(個)實際利潤(萬元)5-103057005071010-20702050080351420-305022500202250合計150487001506474第三十五頁,共一百一十八頁,2022年,8月28日計算第一季度的平均產值利潤率,應該采用實際產值加權,進行算術平均,即有:計算第二季度的平均產值利潤率,則應該采用實際利潤加權,即有:第三十六頁,共一百一十八頁,2022年,8月28日產值計劃完成程度%)組中值(%)X企業數(個)實際產值(萬元)M計劃產值(萬元)M/X80~9085268080090~10095323752500100~110105101806017200110~120115350604400合計-182617524900例2:計算下表企業的平均計劃完成程度第三十七頁,共一百一十八頁,2022年,8月28日(2)由平均數計算平均數例3:某車間各班組工人的平均勞動生產率和實際工時數據如表所示,要求計算車間平均勞動生產率班組平均勞動生產率(件/工時)實際工時(小時)123412162028200320300190合計1000我們掌握的資料是平均數的母項數值即實際工時數,因而應該以實際工時數為權數,采用加權算術平均數的形式來計算平均勞動生產率。第三十八頁,共一百一十八頁,2022年,8月28日平均勞動生產率(件/工時)實際工時實際產品總量(件)班組1234121620282003203001902400512060005320合計101018840車間平均勞動生產率(件/工時)==第三十九頁,共一百一十八頁,2022年,8月28日(三)幾何平均數(GeometricMean)幾何平均數也稱幾何均值,它是n個變量值乘積的n次方根。適用對象:現象的總比率是若干項變量的乘積,或現象的總發展速度是各時期發展速度的連乘積時,計算平均比率或平均發展速度。1.簡單幾何平均數
(SimpleGeometricMean)
直接將n項變量連乘,對其連乘積開n次方根所得的平均數即為簡單幾何平均數。計算公式為:第四十頁,共一百一十八頁,2022年,8月28日例1:某企業的一條生產流水線有四道工序,每一道工序完成的產品都要作一次質量檢查,只有合格的中間件才進入下一道工序。工序C工序A工序B工序D合格率98%合格率97%合格率94%合格率95%請問:平均合格率=?第四十一頁,共一百一十八頁,2022年,8月28日所謂平均“合格率”,是指每一道工序合格率是相同的。這也就是說,如果記“平均合格率為G,則只有”四道工序全部合格的產品才是合格的,因而,有以下等式:第四十二頁,共一百一十八頁,2022年,8月28日例2:據網上報到,成都溫江的蘭花節(2006年2月27日,溫江第三屆蘭花節)上,一盆蘭花賣價是1100萬元,這背后是迅速壯大的10萬戶成都養蘭、炒蘭戶。他們當中,不少人是在借高利貸炒蘭,圖謀暴利。專家稱,成都蘭市價格已漲到了瘋狂的境地,投資蘭花不能盲目跟風,“擊鼓傳花”式的投機最終會讓人血本無歸。紅荷黃金海岸龍女彩蝶第四十三頁,共一百一十八頁,2022年,8月28日設某炒蘭投資者從朋友處借得一筆高利貸,以季度為結算單位,每個季度生成的利息到期自動轉為本金,一年連本帶利付清。各季利率根據蘭花價格變化適當調整。實際一年下來,第一季度的利率是3%,第二季度的利率是3.2%,第三季度的利率是3.6%,第四季度的利率是2.8%。問:平均利率是多少?解答:即若借款總額為L萬元,則一年之后的付款額(本息和)為:如果平均利率為G,則應該有:第四十四頁,共一百一十八頁,2022年,8月28日2.加權幾何平均數
(WeightedGeometricMean)
與算術平均數一樣,當資料中的某些變量值重復出現時,相應地,簡單幾何平均數就變成了加權幾何平均數。計算公式為:第四十五頁,共一百一十八頁,2022年,8月28日
例3:投資銀行某筆投資的年利率是按復利計算的,25年的年利率分配是:有1年為3%,有4年為5%,有8年為8%,有10年為10%,有2年為15%,求平均年利率。本利率(%)X年數f本利率的對數lgXf·lgX10312.01282.012810542.02128.084810882.033416.2672110102.041420.414011522.06074.1214合計25-50.9002第四十六頁,共一百一十八頁,2022年,8月28日
25年的平均本利率為108.6%,年平均利率即為8.6%。例4:設某生產流水線由12道工序組成,據統計,有3道工序的不合格率為2%,有4道工序的不合格率為4%,有5道工序的不合格率為5%,求平均不合格率第四十七頁,共一百一十八頁,2022年,8月28日幾何平均數特點(1)受極端值的影響較算術平均數小。(2)如果變量值有負值,計算出的幾何平均數就會成為負數或虛數。(3)僅適用于具有等比或近似等比關系的數據。(4)其對數是各變量值對數的算術平均數。第四十八頁,共一百一十八頁,2022年,8月28日(四)幾何平均數、算術平均數和調和平均數的關系冪平均函數第四十九頁,共一百一十八頁,2022年,8月28日某公司所屬三個企業有關生產資料如下:(1)若三個企業生產同一種產品,試計算平均合格率(2)若三個企業生產不同一種產品,試計算平均合格率(3)若三個企業為流水作業生產同一種產品,試計算平均合格率企業合格率(%)產品產量(件)實際消耗工時(工時)甲96100500乙95200450丙98300400思考題:第五十頁,共一百一十八頁,2022年,8月28日三、位置平均數
位置平均數,就是根據總體中處于特殊位置上的個別單位或部分單位的標志值來確定的代表值,它對于整個總體來說,具有非常直觀的代表性,因此,常用來反映分布的集中趨勢。常用的眾數、中位數。第五十一頁,共一百一十八頁,2022年,8月28日(一)中位數與分位數1.中位數(Median)的含義中位數是將數據按大小順序排列起來,形成一個數列,居于數列中間位置的那個數據就是中位數。中位數用Me表示。Me50%50%在一個等差數列或一個正態分布數列中,中位數就等于算術平均數。第五十二頁,共一百一十八頁,2022年,8月28日2.中位數的計算確定中位數,必須將總體各單位的標志值按大小順序排列,最好是編制出變量數列。這里有兩種情況:A.對于未分組的原始資料,首先必須將標志值按大小排序。設排序的結果為:第五十三頁,共一百一十八頁,2022年,8月28日491004860049950488004720049900513505460049300512005100049400514005180049600534004870050300490004980048900486505130051900例1:24名IT從業人員年薪資料表如下所示,計算該24名IT人員的中位數排序得:中位數的位置在(24+1)/2=12.5,中位數在第12個數值(49800)和第13個數值(49900)之間,即
Me=(49800+49900)/2=49850(元)。第五十四頁,共一百一十八頁,2022年,8月28日B.由分組資料確定中位數(1)由單項數列確定中位數,直接按的公式求出中位數所在組的位置,計算累計次數確定中位數所在的組,組值即是中位數。第五十五頁,共一百一十八頁,2022年,8月28日例2:某車間50名工人日加工零件數分組表零件數(個)頻數(人)零件數(個)頻數(人)零件數(個)頻數(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112第五十六頁,共一百一十八頁,2022年,8月28日第五十七頁,共一百一十八頁,2022年,8月28日(2)由組距數列確定中位數,應先按的公式求出中位數所在組的位置,然后再按下限公式或上限公式確定中位數。Sm-1-中位數所在組以下的累計次數。Sm-1-中位數所在組以上的累計次數。第五十八頁,共一百一十八頁,2022年,8月28日LU第五十九頁,共一百一十八頁,2022年,8月28日
例3:某企業50名工人加工零件中位數計算表,計算50名工人日加工零件數的中位數按零件數分組(個)頻數(人)向上累計(人)向下累計(人)105~1103350110~1155847115~12081642120~125143034125~1301040201301404504Sm-1Sm+1第六十頁,共一百一十八頁,2022年,8月28日中位數特點(1)中位數是以它在所有標志值中所處的位置確定的全體單位標志值的代表值,不受分布數列的極大或極小值影響,從而在一定程度上提高了中位數對分布數列的代表性。(2)有些離散型變量的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。(3)缺乏敏感性。
第六十一頁,共一百一十八頁,2022年,8月28日2.分位數分位數是將變量的數值按大小順序排列并等分為若干部分后,處于等分點位置的數值。常用的分位數有四分位數、十分位數和百分位數根據中位數的原理,你能寫出四分位數的公式嗎?第六十二頁,共一百一十八頁,2022年,8月28日第六十三頁,共一百一十八頁,2022年,8月28日(二)眾數(Mode)1.眾數的含義眾數是指總體中出現次數最多的那個標志值。用Mo表示。它主要用于定類(品質標志)數據的集中趨勢,當然也適用于作為定序(品質標志)數據以及定距和定比(數量標志)數據集中趨勢的測度值。眾數也不受數列中極端變量值的影響,它可反映總體各單位某一標志值的集中趨勢。第六十四頁,共一百一十八頁,2022年,8月28日2.眾數的計算(眾數的不唯一性)無眾數
原始數據:
10591268一個眾數
原始數據:
659855多于一個眾數
原始數據:
252828
364242第六十五頁,共一百一十八頁,2022年,8月28日(1)數值型分組數據的眾數A.眾數的值與相鄰兩組頻數的分布有關D.該公式假定眾數組的頻數在眾數組內均勻分布B.相鄰兩組的頻數相等時,眾數組的組中值即為眾數MoC.相鄰兩組的頻數不相等時,眾數采用下列近似公式計算MoMoMoMo第六十六頁,共一百一十八頁,2022年,8月28日UdLab第六十七頁,共一百一十八頁,2022年,8月28日某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—例:根據表中的數據,計算50名工人日加工零件數的眾數第六十八頁,共一百一十八頁,2022年,8月28日(2)組距數列確定眾數的方法下限公式上限公式第六十九頁,共一百一十八頁,2022年,8月28日眾數特點1.眾數不受分布數列的極大或極小值的影響.2.當分組數列沒有任何一組的次數占多數,而是近似于均勻分布時,則該次數分配數列無眾數。若將無眾數的分布數列重新分組或各組頻數依序合并,又會使分配數列再現出明顯的集中趨勢。第七十頁,共一百一十八頁,2022年,8月28日3.如果與眾數組相比鄰的上下兩組的次數相等,則眾數組的組中值就是眾數值;如果與眾數組比鄰的上一組的次數較多,而下一組的次數較少,則眾數在眾數組內會偏向該組下限;如果與眾數組比鄰的上一組的次數較少,而下一組的次數較多,則眾數在眾數組內會偏向該組上限。4.缺乏敏感性。這是由于眾數的計算只利用了眾數組的數據信息,不象數值平均數那樣利用了全部數據信息。第七十一頁,共一百一十八頁,2022年,8月28日(三)中位數、眾數和算術平均數的關系在對稱分布(即正態)時在右偏時在左偏時適度偏態時眾數與算術平均數的距離約為中位數與算術平均數距離的3倍第七十二頁,共一百一十八頁,2022年,8月28日對稱分布右偏分布左偏分布第七十三頁,共一百一十八頁,2022年,8月28日一組工人的月收入眾數為700元,月收入的算術平均數為1000元,則月收入的中位數近似值是:例:第七十四頁,共一百一十八頁,2022年,8月28日第二節離中趨勢的描述一、離中趨勢和離散指標
離中趨勢,就是變量分布中各變量值背離中心值的傾向。如果說集中趨勢是總體或變量分布同質性的體現,那么離中趨勢就是總體或變量分布變異性的體現。離散指標就是反映變量值變動范圍和差異程度的指標,即反映變量分布中各變量值遠離中心值或代表值程度的指標,亦稱為變異指標或標志變動度指標。
第七十五頁,共一百一十八頁,2022年,8月28日離散指標是衡量平均指標代表性的尺度。一般來講,數據分布越分散,變異指標越大,平均指標的代表性越小;數據分布越集中,變異指標越小,平均指標的代表性越大。常用的變異指標有:全距、平均差、方差和標準差、變異系數。
第七十六頁,共一百一十八頁,2022年,8月28日離散指標的作用
用離散指標衡量和比較平均指標的代表性。用離散指標反映經濟活動過程的均衡性、穩定性和節奏性。離散指標為統計推斷提供依據。第七十七頁,共一百一十八頁,2022年,8月28日接吻定律
第一次接吻以后,女人會把這個吻當作一筆放出去的投資,男人卻會把它當做一筆收回來的貸款。樂觀與悲觀定律
樂觀者發明了游艇,悲觀者發明了救生圈;樂觀者建造了高樓,悲觀者生產了救火栓;樂觀者都去做了玩命的賽車手,悲觀者卻穿起了白大褂當了醫生;最后樂觀者發射了宇宙飛船,悲觀者則開辦了保險公司。人力定律
一個人在一分鐘內可以挖一個洞,六十個人在一秒鐘內就辦不到。做飯定律
因為怕做飯,男人下了班也不忙著回家;因為要做飯,女人沒下班就忙著溜回家。第七十八頁,共一百一十八頁,2022年,8月28日二、離散指標的測度(一)全距(Range)全距(R)也稱為極差,是指總體各單位的兩個極端標志值之差,即:R=最大標志值-最小標志值
特點(優點與缺點)(1)簡明;(2)只反映變異范圍;(3)只受兩個數值影響;最容易受極端值影響。沒有反映中間數值的影響,沒有反映分布情況。第七十九頁,共一百一十八頁,2022年,8月28日例1:有兩個學習小組的統計學開始成績分別為:第一組:60,70,80,90,100第二組:78,79,80,81,82很明顯,兩個小組的考試成績平均分都是80分,但是哪一組的分數比較集中呢?如果用全距指標來衡量,則有R甲=100-60=40(分)R乙=82-78=4(分)這說明第一組資料的標志變動度或離中趨勢遠大于第二組資料的標志變動度。第八十頁,共一百一十八頁,2022年,8月28日(二)四分位差四分位差是四分位數中第一個四分位數與第三個四分位數之差,也稱為內距或四分間距,通常用表示,即:第八十一頁,共一百一十八頁,2022年,8月28日(三)異眾比率異眾比率是分布數列中非眾數組的頻數與總頻數之比,通常用來表示,即:
第八十二頁,共一百一十八頁,2022年,8月28日在資料未分組的情況下,平均差的計算公式為:
在資料已分組的情況下,要用加權平均差公式:
第八十三頁,共一百一十八頁,2022年,8月28日例2:某廠按月收入水平分組的組距數列如表所示,計算平均差
例1:以甲組學生數學成績為例,平均差如下:A.D=職工工資(元)職工人數(f)250-27015270-29025290-31035310-33065330-35040合計180組中值(x)xfx-2603900-507502807000-3075030010500-10350320208001065034013600301200-55800-3700第八十四頁,共一百一十八頁,2022年,8月28日解:根據公式列表計算,得到A.D=
由于平均差采用了離差的絕對值,不便于運算,這樣使其應用受到了很大限制。第八十五頁,共一百一十八頁,2022年,8月28日(四)平均差(MeanDeviation)
平均差是總體各單位標志值對其算術平均數的離差絕對值的算術平均數。特點(1)反映了全部標志值的變動情況;(2)受平均數水平高低、計量單位(不同性質的現象)影響;(3)取絕對值的方法消除離差正負號,不便于代數處理。第八十六頁,共一百一十八頁,2022年,8月28日(五)方差(Variance)、
標準差(StandardDeviation)
方差和標準差是測度數據變異程度的最重要、最常用的指標。方差是各個數據與其算術平均數的離差平方的平均數,通常以σ2表示。標準差又稱均方差,一般用σ表示。方差和標準差的計算也分為簡單平均法和加權平均法,另外,對于總體數據和樣本數據,公式略有不同。第八十七頁,共一百一十八頁,2022年,8月28日1.總體方差和標準差
設總體方差為,對于未經分組整理的原始數據,方差的計算公式為:對于分過組的數據,方差的計算公式為:第八十八頁,共一百一十八頁,2022年,8月28日方差的平方根即為標準差,其相應的計算公式為:未分組數據:分組數據:
第八十九頁,共一百一十八頁,2022年,8月28日2.樣本方差和標準差樣本方差與總體方差在計算上的區別是:總體方差是用數據個數或總頻數去除離差平方和,而樣本方差則是用樣本數據個數或總頻數減1去除離差平方和,其中樣本數據個數減1即n-1稱為自由度。第九十頁,共一百一十八頁,2022年,8月28日設樣本方差為,根據未分組數據和分組數據計算樣本方差的公式分別為:未分組數據:分組數據:
第九十一頁,共一百一十八頁,2022年,8月28日根據未分組數據和分組數據計算樣本標準差的公式分別為:未分組數據:分組數據:
第九十二頁,共一百一十八頁,2022年,8月28日例1:考察一臺機器的生產能力,利用抽樣程序來檢驗生產出來的產品質量,假設搜集的數據如下:根據該行業通用法則:如果一個樣本中的14個數據項的方差大于0.005,則該機器必須關閉待修。問此時的機器是否必須關閉?第九十三頁,共一百一十八頁,2022年,8月28日解:根據已知數據,計算因此,該機器工作正常。第九十四頁,共一百一十八頁,2022年,8月28日例2:以下是江蘇省和浙江省2005年年營業收入最大的前15個企業,試用標準差來比較兩省企業收入的穩定程度.江蘇前15名營業收入(萬元)浙江前15名營業收入(萬元)江蘇沙鋼集團有限公司3112365浙江物產集團3476937熊貓電子集團2804390浙江省興合集團2261710南京鋼鐵集團2788062浙江冶金集團2159445江蘇華西集團公司2603864廣廈控股創業投資有限公司2137266蘇寧電器集團2246465萬向集團2092908太平洋建設集團2122634浙江省能源集團有限公司1838372南京斯威特集團有限公司1960673橫店集團1429810春蘭集團1706942雅戈爾集團1397123徐州工程機械集團有限公司1700551浙江省建設投資集團1383451華芳集團有限公司1691373正泰集團1196121江蘇悅達集團1538658寧波電子信息集團1194889江蘇國泰國際集團有限公司1206262杭州娃哈哈集團1144323江蘇永鋼集團有限公司1166189德力西集團1076741江蘇交通控股有限公司1118380奧克斯集團1034198躍進汽車集團1113675華立集團1033388第九十五頁,共一百一十八頁,2022年,8月28日江蘇省:
=1925365.533(萬元)
=667382.6891(萬元)浙江省=1657112.133(萬元)
=675072.0375(萬元)從標準差看江蘇企業比浙江省企業的營業收入穩定第九十六頁,共一百一十八頁,2022年,8月28日營業收入(億元)企業個數(江蘇)(浙江)10-20487520-30262430-4040-5050-6060-7070-8080-9090-100100以上15166878988163111810合計144154例3:以下是江蘇省和浙江省2005年年營業收入超過10億元企業,試用標準差來比較兩省營業收入超過10億元企業收入的穩定程度.第九十七頁,共一百一十八頁,2022年,8月28日江蘇:先計算平均數:=43.26(億元)
標準差
=31.52(億元)浙江:=32.98(億元)=26.07(億元)第九十八頁,共一百一十八頁,2022年,8月28日在實際計算方差時,可以采用另一種較為簡便的方法:方差和標準差也是根據全部數據計算的,它反映了每個數據與其均值相比平均相差的數值,因此它能準確地反映出數據的離散程度。第九十九頁,共一百一十八頁,2022年,8月28日σ與R的關系σ與A.D.的關系經驗表明,當分布數列接近于正態分布時,R和σ之間存在以下經驗公式:R為4至6個σ:當標志值項數較少時,R≈4σ
當標志值項數較多時,R≈6σ對同一資料,所求的平均差一般比標準差要小,即A.D.≤σ3.標準差與全距、平均差的關系第一百頁,共一百一十八頁,2022年,8月28日(六)離散系數(CoefficientofVariation)上面介紹的各離散程度測度值都是反映數據分散程度的絕對值,其數值的大小依賴于兩方面:1.原變量值本身水平高低的影響。2.它們與原變量值的計量單位相同,采用不同計量單位計量的變量值,其離散程度的測度值也就不同。第一百零一頁,共一百一十八頁,2022年,8月28日對于平均水平不同或計量單位不同的不同組別的變量值,是不能直接用上述離散程度的測度值直接進行比較的。為了消除變量值水平高低和計量單位不同對離散程度測度值的影響,需要計算離散系數。離散系數也稱為標準差系數,它是一組數據的標準差與其相應的均值之比,是測度數據離散程度的相對指標。第一百零二頁,共一百一十八頁,2022年,8月28日其計算公式為:Vσ和Vs分別表示總體離散系數和樣本離散系數。離散系數要是用于對不同組別數據的離散程度進行比較,離散系數大的說明該組數據的離散程度也就大,離散系數小的說明該組數據的離散程度也就小。第一百零三頁,共一百一十八頁,2022年,8月28日例1:甲乙兩個城市的居民年收入情況表中前三欄的數據來看,乙城市不僅人均年收入兩倍于甲城市,而且收入的差距也似乎顯著于甲城市.但通過計算標準差系數可以看出:乙城市的實際收入差距相對于它的平均收入來說,比甲城市要低的多.或者說,以居民對收入收入差距所承受的壓力而言,甲城市要比乙城市高得多.人均年收入收入標準差標準差系數甲城市60001502.5乙城市120001801.5第一百零四頁,共一百一十八頁,2022年,8月28日例2:江蘇企業江蘇企業的經營收入比浙江企業穩定浙江企業例3:火箭隊每場比賽失誤的均值是5.6分,全賽季失誤的標準差是10分,馬刺隊每場比賽失誤的均值是4.2分,全賽季失誤的標準差是10分.你認為以下哪一種敘述是正確的()火箭隊比馬刺隊打球水平差火箭隊比馬刺隊在失誤上比較穩定馬刺隊比火箭隊在失誤上比較穩定馬刺隊很少不失誤第一百零五頁,共一百一十八頁,2022年,8月28日(七)是非標志的平均數和標準差
是非標志,又稱交替標志,它是用“是”
“否”或“有”“無”來表示的。由于是非標志只有兩個標志表現,使得研究
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業設計在智能產品開發中的作用和價值研究
- 工業領域的智能化數據分析
- 工業設計原理與產品設計創新
- 工業設計的創新方法與技術應用
- 工業風格商業空間設計
- 工業風辦公室裝修風格解讀
- 工作場合有效表達的技巧
- 工廠用電安全操作規范
- 工程力學中動載材料特性研究
- 工程測量中的新方法與新技術探討
- 部編版高一上冊語文第三課《百合花》課文原文教案及知識點
- 北京理工附中小升初分班考試真題
- 膀胱鏡檢查記錄
- 英語社團活動課件
- 學前兒童發展心理學-情感
- 二年級下冊數學教案 《生活中的大數》練習課 北師大版
- GB∕T 16762-2020 一般用途鋼絲繩吊索特性和技術條件
- 電網施工作業票模板
- T∕CAEPI 31-2021 旋轉式沸石吸附濃縮裝置技術要求
- 國家級高技能人才培訓基地建設項目實施管理辦法
- 彩盒成品檢驗標準
評論
0/150
提交評論