數據的統計分析與描述PPT課件_第1頁
數據的統計分析與描述PPT課件_第2頁
數據的統計分析與描述PPT課件_第3頁
數據的統計分析與描述PPT課件_第4頁
數據的統計分析與描述PPT課件_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實驗目的實驗目的實驗內容實驗內容2、掌握用數學軟件包求解統計問題。、掌握用數學軟件包求解統計問題。1、直觀了解統計基本內容。、直觀了解統計基本內容。1 1、統計的基本理論。、統計的基本理論。3 3、實驗作業。、實驗作業。2、用數學軟件包求解統計問題。、用數學軟件包求解統計問題。第1頁/共46頁2021-11-132統計的基本概念參數估計假設檢驗數據的統計描述和分析數據的統計描述和分析第2頁/共46頁2021-11-133統計工具箱中的基本統計命令統計工具箱中的基本統計命令1.數據的錄入、保存和調用數據的錄入、保存和調用2.基本統計量基本統計量3.常見概率分布的函數常見概率分布的函數4.4.頻頻

2、 數數 直直 方方 圖圖 的的 描描 繪繪5.參數估計參數估計6.假設檢驗假設檢驗返回返回第3頁/共46頁2021-11-134一、數據的錄入、保存和調用一、數據的錄入、保存和調用 例例1 上海市區社會商品零售總額和全民所有制職工工資總額的數據如下年份78798081828284858687職工 工 資 總 額(億元)23.827.631.632.433.734.943.252.863.873.4商品 零 售 總 額(億元)41.451.861.767.968.777.595.9137.4155.0175.0統計工具箱中的基本統計命令第4頁/共46頁2021-11-1351、年份數據以1為增量

3、,用產生向量的方法輸入。 命令格式: x=a:h:bx=a:h:b t=78:872、分別以x和y代表變量職工工資總額和商品零售總額。 x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、將變量t、x、y的數據保存在文件data中。 save data t x y 4、進行統計分析時,調用數據文件data中的數據。 load data第5頁/共46頁2021-11-1361、輸入矩陣:data=78,79,80,81,82,83,8

4、4,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.02、將矩陣data的數據保存在文件data1中:save data1 data3 3、進行統計分析時,先用命令: load data1load data1 調用數據文件data1中的數據,再用以下命令分別將矩陣data的第一、二、三行的數據賦給變量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:)若要調用矩陣data的第j列的數

5、據,可用命令: data(:,j)第6頁/共46頁1、 表示位置的統計量平均值和中位數 平均值平均值(或均值,數學期望) :niiXnX11 中位數中位數:將數據由小到大排序后位于中間位置的那個數值.2、 表示變異程度的統計量標準差、方差和極差 標準差標準差:2112)(11niiXXns 它是各個數據與均值偏離程度的度量. 方差方差:標準差的平方. 極差極差:樣本中最大值與最小值之差.二、統計量mean(x)median(x)std(x)var(x)第7頁/共46頁 3. 表示分布形狀的統計量偏度和峰度偏度偏度:niiXXsg1331)(1 峰度峰度:niiXXsg1442)(1 偏度反映分

6、布的對稱性,g1 0 稱為右偏態,此時數據位于均值右邊的比位于左邊的多;g1 0 稱為左偏態,情況相反;而 g1接近 0則可認為分布是對稱的. 峰度是分布形狀的另一種度量,正態分布的峰度為 3,若 g2比 3大很多,表示分布有沉重的尾巴,說明樣本中含有較多遠離均值的數據,因而峰度可用作衡量偏離正態分布的尺度之一. 4. k 階原點矩階原點矩:nikikXnV11 k 階中心矩階中心矩:nikikXXnU1)(1偏度:skewness(x) 峰度:kurtosis(x)第8頁/共46頁n 矩的計算1.隨機變量的k階中心矩-Bk=moment(X,k)2.隨機變量的k階原點矩-Ak=sum(X.k

7、)/length(X)nikikxxnB1)(1nikikxnA1)(1第9頁/共46頁n 常見分布的期望和方差1.二項分布-E,D=binostat(n,p)說明:n,p可以是標量,向量,矩陣,則E,D是對應的標量,向量,矩陣2.超幾何分布-E,D=hygestat(M,N,K)3.泊松分布-E,D=poissstat(lambda)4.均勻分布-E,D=unifstat(a,b)5.指數分布-E,D=expstat(lambda)6.正態分布-E,D=normstat(mu,sigma)其他:gamstat(),tstat(),fstat(),chi2stat()等等第10頁/共46頁n

8、協方差與相關系數的計算1.隨機變量的協方差-cov(X,Y)=E(X-EX)(Y-EY)2.隨機變量的相關系數-=cov(X,Y)/sqrt(DX*DY)3.統計數據的協方差cov(X)-當X為向量時,cov(X)=var(X);當X為矩陣時,結果為X的協方差矩陣.對角線是X每列的方差,Xij為X的第i列和第j列的協方差值。cov(X,Y)-計算向量X和Y的協方差值4.統計數據的相關系數corrcoef(X),corrcoef(X,Y)-說明與用法與cov()相同第11頁/共46頁2021-11-1312三三、常見概率分布的函數常見概率分布的函數常見的幾種分布的命令字符為:正態分布:norm

9、指數分布:exp帕松分布:poiss 分布:beta威布爾分布:weib 2分布:chi2 t 分布:t F 分布:FMatlab工具箱對每一種分布都提供五類函數,其命令字符為:概率密度:pdf pdf 概率分布:cdfcdf逆概率分布:inv inv 均值與方差:statstat隨機數生成:rnd (當需要一種分布的某一類函數時,將以上所列的分布命令字符與函數命令字符接起來,并輸入自變量(可以是標量、數組或矩陣)和參數即可.)第12頁/共46頁2021-11-1313例例 2 畫出正態分布) 1 , 0(N和)2 , 0(2N的概率密度函數圖形.在Matlab中輸入以下命令:x=-6:0.0

10、1:6; y=normpdf(x); z=normpdf(x,0,2);plot(x,y,x,z)1、密度函數、密度函數:p=normpdf(x,mu,sigma) (當mu=0,sigma=1時可缺省)如對均值為mu、標準差為sigma的正態分布,舉例如下:第13頁/共46頁2021-11-1314例例 3 3 計算標準正態分布的概率 P-1X1. 命令為:P=normcdf(1)-normcdf(-1) 結果為:P =0.68273、逆概率分布、逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得PXx=P.此命令可用來求分位數.2、概率分布、概率分布:P=normc

11、df(x,mu,sigma)例例 4 取05. 0,求21u 21u的含義是:) 1 , 0( NX,PX50),按中心極限定理,它近似地服從正態分布;第25頁/共46頁點估計舉例n 正態分布 N (, 2) 中, 最大似然估計是 , 2 的最大似然估計是X 2211niiXXn x=load(data1.txt);x=x(:);mu,sigma=normfit(x)例 6:已知例 1 中的數據服從正態分布 N (, 2) ,試求其參數 和 的值。使用 normfit 函數第26頁/共46頁參數估計:區間估計q 構造樣本 X 與某個統計量有關的兩個函數,作為該統計量的下限估計與上限估計,下限與

12、上限構成一個區間,這個區間作為該統計量的估計,稱為區間估計。q Matlab 統計工具箱中,一般也采用最大似然估計法給出參數的區間估計。第27頁/共46頁區間估計舉例x=load(data1.txt); x=x(:);mu,sigma,muci,sigmaci=normfit(x)例 7:已知例 1 中的數據服從正態分布 N (, 2) ,試求出 和 2 的置信度為 95% 的區間估計。x=load(data6.txt); x=x(:);mu,sigma,muci,sigmaci=normfit(x,0.01)例 8:從自動機床加工的同類零件中抽取16件,測得長度值見 data6.txt,已知

13、零件長度服從正態分布 N (, 2) ,試求零件長度均值 和標準差 的置信度為 99% 的置信區間。第28頁/共46頁假設檢驗q 對總體的分布律或分布參數作某種假設,根據抽取的樣本觀察值,運用數理統計的分析方法,檢驗這種假設是否正確,從而決定接受假設或拒絕假設,這就是假設檢驗問題。q 以正態假設檢驗為例,來說明假設檢驗的基本過程。第29頁/共46頁 假設檢驗假設檢驗 在在MatlabMatlab中,假設檢驗問題都提出兩種假設:即中,假設檢驗問題都提出兩種假設:即原假設和備擇假設。對于正態總體均值的假設檢原假設和備擇假設。對于正態總體均值的假設檢驗給出了檢驗函數:驗給出了檢驗函數: ztest

14、已知已知 ,檢驗正態總體均值,檢驗正態總體均值 ; ttest 未知未知 ,檢驗正態總體均值,檢驗正態總體均值 ; ttest2 兩個正態總體均值比較。兩個正態總體均值比較。22第30頁/共46頁1 1 單個正態總體單個正態總體N N( )的假設檢驗)的假設檢驗 已知,對期望已知,對期望 的假設檢驗的假設檢驗Z Z檢驗法檢驗法 調用函數調用函數 H=ztest(X,m,sigma) H=ztest(X,m,sigma,alpha) H,sig,ci=ztest(X,m,sigma,alpha,tail) 說明:說明:X X:樣本;:樣本;m:m:期望值;期望值;sigma:sigma:正態總體

15、標準差;正態總體標準差;alpha:alpha:經驗水平經驗水平 ; tail:tail:備擇假設的選項,若備擇假設的選項,若tail=0(tail=0(缺省缺省) ),則則 ; 若若tail=1tail=1,則,則 ;若;若tail=-1tail=-1,則,則 。 即即tail=0(tail=0(缺省缺省) )為雙邊檢驗,其余為單邊檢驗問題。為雙邊檢驗,其余為單邊檢驗問題。 H H:檢驗結果,分兩種情況:若:檢驗結果,分兩種情況:若H=0H=0,則在水平,則在水平 下,下,接受原假設;若接受原假設;若H=1H=1,則在水平,則在水平 下,拒絕原假設。下,拒絕原假設。 sigsig為當原假設為

16、真時(即為當原假設為真時(即 成立),得到觀成立),得到觀察值的概率,當察值的概率,當sigsig為小概率時,則對原假設提出質疑。為小概率時,則對原假設提出質疑。Ci:Ci:均值均值 的的1-alpha1-alpha置信區間。置信區間。22,mmmm第31頁/共46頁應用舉例 例例7 71 1 某車間用一臺包裝機包裝葡萄糖,包得的袋裝糖重是一個隨機變量,它某車間用一臺包裝機包裝葡萄糖,包得的袋裝糖重是一個隨機變量,它服從正態分布。當機器正常時,其均值為服從正態分布。當機器正常時,其均值為0.50.5公斤,標準差為公斤,標準差為0.0150.015。某日開工。某日開工后檢驗包裝機是否正常,隨機地

17、抽取所包裝的糖后檢驗包裝機是否正常,隨機地抽取所包裝的糖9 9袋,稱得凈重為:(公斤)袋,稱得凈重為:(公斤) 0.497 0.518 0.524 0.498 0.511 0.52 0.515 0.5120.497 0.518 0.524 0.498 0.511 0.52 0.515 0.512 問機器是否正常?問機器是否正常?第32頁/共46頁 解:解: 已知,在水平已知,在水平 =0.05=0.05下檢驗假設:下檢驗假設:原假設:原假設: 備擇假設:備擇假設: 程序:程序:X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512; H,S

18、IG=ztest(X,0.5,0.015,0.05,0)運行后顯示結果如下:運行后顯示結果如下: H=1 SIG=0.0248 結果表明:結果表明:H=1,說明在水平=0.05下,可拒絕原假設,即認為包裝機工作不正常。25 . 0:00H5 . 0:1H第33頁/共46頁1 1 單個正態總體單個正態總體N N( )的假設檢驗)的假設檢驗 未知,對期望未知,對期望 的假設檢驗的假設檢驗t t檢驗法檢驗法調用函數調用函數 H=ttest(X,m,sigma) H=ttest(X,m,sigma) % %在水平在水平 =sigma=sigma下檢驗是否成立。下檢驗是否成立。 說明:說明:X X:樣本

19、;:樣本;m:m:期望值;期望值;alpha:alpha:經驗水平經驗水平 ; tail:tail:備擇假設的選項,若備擇假設的選項,若tail=0(tail=0(缺省缺省) ),則備擇假,則備擇假設為設為 ;若;若tail=1tail=1,則,則 ;若;若tail=-1tail=-1,則則 。即。即tail=0(tail=0(缺省缺省) )為雙邊檢驗,其余為單為雙邊檢驗,其余為單邊檢驗問題。邊檢驗問題。 H H:檢驗結果,分兩種情況:若:檢驗結果,分兩種情況:若H=0H=0,則在水平,則在水平 下,下,接受原假設;若接受原假設;若H=1H=1,則在水平,則在水平 下,拒絕原假設。下,拒絕原假

20、設。 sigsig為當原假設為真時(即為當原假設為真時(即 成立),得到觀成立),得到觀察值的概率,當察值的概率,當sigsig為小概率時,則對原假設提出質疑。為小概率時,則對原假設提出質疑。Ci:Ci:均值均值 的的1-alpha1-alpha置信區間。置信區間。22,mmmm第34頁/共46頁應用舉例 例例7.2 7.2 某種電子元件的壽命某種電子元件的壽命X X(以小時計)服從正態分布,(以小時計)服從正態分布, 均未知,現測得均未知,現測得1616只元件壽命如下:只元件壽命如下:159 280 101 212 224 379 179 264 222 362 168 250 149 26

21、0 485 170159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 問是否有理由認為元件的平均壽命大于問是否有理由認為元件的平均壽命大于225225(小時)?(小時)?2,第35頁/共46頁 解:解: 未知,在水平未知,在水平 =0.05=0.05下檢驗假設:下檢驗假設: 程序:程序: X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170; H,SIG=ttest(X,225,0.05,1) 運行后顯示結果如下:運行后顯示結果如下: H=0

22、 SIG=0.2570 結果表明:結果表明:H=0,說明在水平=0.05下,應接受原假設,即認為元件的平均壽命不大于225小時。2225:,225:0100HH第36頁/共46頁2 2、兩個正態總體均值差的檢驗(、兩個正態總體均值差的檢驗(t t檢驗)檢驗) 調用函數調用函數 h,sig,ci=ttest(X,Y) h,sig,ci=ttest2(X,Y,alpha) h,sig,ci=ttest2(X,Y,alpha,tail) 說明:說明:原假設為:當原假設為:當tail=0時,表示時,表示 (缺省);當(缺省);當tail=1時,表示時,表示 ; 當當tail=-1時,表示時,表示 。

23、為為X,Y的期望,的期望,h,sig,ci與前面與前面相同。YXYXYXYX,第37頁/共46頁應用舉例 例例7.3 7.3 在平爐上進行一項試驗以確定改變操作方在平爐上進行一項試驗以確定改變操作方法的建議是否會增加鋼的得率,試驗是在同一平法的建議是否會增加鋼的得率,試驗是在同一平爐上進行的。每煉一爐鋼時除操作方法外,其它爐上進行的。每煉一爐鋼時除操作方法外,其它條件都盡可能做到相同。先用標準方法煉一爐,條件都盡可能做到相同。先用標準方法煉一爐,然后用建議的新方法煉一爐,以后交替進行,各然后用建議的新方法煉一爐,以后交替進行,各煉煉1010爐,其得率分別為爐,其得率分別為 標準方法:標準方法:

24、78.1 72.4 76.2 74.3 77.4 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.378.4 76.0 75.5 76.7 77.3 新方法:新方法:79.1 81.0 77.3 79.1 80.0 79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1 79.1 77.3 80.2 82.1 設這兩個樣本相互獨立,且分別來自正態總體設這兩個樣本相互獨立,且分別來自正態總體N N( )和)和N N( ),均未知。問建議的新),均未知。問建議的新方法能否提高得率?(取方法能否提高得率?(取=0.05

25、=0.05)21,22,第38頁/共46頁解:解:兩個總體方差不變時,在水平兩個總體方差不變時,在水平 =0.05=0.05下經下經驗假設:驗假設:程序:程序: X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3; Y=79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1; H,SIG,CI=ttest2(X,Y,0.05,-1)運行后顯示結果如下:運行后顯示結果如下:H =1SIG =3.6151e-004CI = -Inf -1.8683結果表明:結果表明:H=1H=1,說明在水平,說明在水平 =0.0

26、5=0.05下,應拒下,應拒絕原假設,即認為建議的新方法能提高得率,因絕原假設,即認為建議的新方法能提高得率,因此,比原方法好。此,比原方法好。211210:,:HH第39頁/共46頁2021-11-1340非參數檢驗:總體分布的檢驗非參數檢驗:總體分布的檢驗Matlab工具箱提供了兩個對總體分布進行檢驗的命令:(1)h = normplot(x)(2)h = weibplot(x) 此命令顯示數據矩陣x的正態概率圖.如果數據來自于正態分布,則圖形顯示出直線性形態.而其它概率分布函數顯示出曲線形態. 此命令顯示數據矩陣x的Weibull概率圖.如果數據來自于Weibull分布,則圖形將顯示出直

27、線性形態.而其它概率分布函數將顯示出曲線形態.第40頁/共46頁2021-11-1341例例 一道工序用自動化車床連續加工某種零件,由于刀具損壞等會出現故障.故障是完全隨機的,并假定生產任一零件時出現故障機會均相同.工作人員是通過檢查零件來確定工序是否出現故障的.現積累有100次故障紀錄,故障出現時該刀具完成的零件數如下: 459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781

28、474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851試觀察該刀具出現故障時完成的零件數屬于哪種分布.第41頁/共46頁2021-11-1342解解 1、數據輸入2、作頻數直方圖 hist(x,10) 3、分布的正態性檢驗 normplot(x)4、參數估計: muhat,sigmahat,muci,sigmaci = normfit(x)(看起來刀具壽命服從正態分布)(刀具壽命近似服從正態分布)估計出該刀具的均值為594,方差204,均值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論