抽樣分布與參數估計-研_第1頁
抽樣分布與參數估計-研_第2頁
抽樣分布與參數估計-研_第3頁
抽樣分布與參數估計-研_第4頁
抽樣分布與參數估計-研_第5頁
已閱讀5頁,還剩34頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2幾個重要概念的回顧:幾個重要概念的回顧:總體:總體:樣本:樣本:統計量:統計量:參數:參數:統計分析:統計分析:統計描述統計描述 統計推斷統計推斷:參數估計、假設檢驗參數估計、假設檢驗3 欲了解某地欲了解某地20002000年年正常成年男性血清總正常成年男性血清總膽固醇膽固醇的平均水平,隨機抽取該地的平均水平,隨機抽取該地200200名正常名正常成年男性作為成年男性作為樣本樣本。 由于存在個體差異,抽得的樣本均數不由于存在個體差異,抽得的樣本均數不太可能恰好等于總體均數。太可能恰好等于總體均數。 45統計推斷統計推斷:用樣本信息推論總體特征的過程。用樣本信息推論總體特征的過程。 包括:包括:

2、 參數估計參數估計: : 運用統計學原理,用樣本統計運用統計學原理,用樣本統計量對總體參數進行估計。量對總體參數進行估計。 假設檢驗:假設檢驗:是指由樣本間存在的差別對樣是指由樣本間存在的差別對樣本所代表的總體間是否存在著差別做出判斷本所代表的總體間是否存在著差別做出判斷。 方法:方法:均數的參數估計、均數均數的參數估計、均數u 檢驗檢驗 、均數、均數t 檢驗檢驗6(一)抽樣誤差:(一)抽樣誤差:由于個體差異和抽樣引由于個體差異和抽樣引起的樣本統計量與總體參數之間的差異起的樣本統計量與總體參數之間的差異或各樣本統計量之間的差異。或各樣本統計量之間的差異。 均數的抽樣誤差:均數的抽樣誤差: X

3、X 率的抽樣誤差:率的抽樣誤差: p 7例題例題 某市某市1616歲女中學生身高分布服從均數歲女中學生身高分布服從均數 =168.15cm=168.15cm、標準差、標準差 =15.6cm =15.6cm的的正態分布,從正態分布,從該該N(168.15, 15.6N(168.15, 15.62 2) )總體中隨機抽樣。總體中隨機抽樣。樣本含量分別為樣本含量分別為4 4、1616、3636人,分別隨機抽取人,分別隨機抽取樣本樣本g=10000g=10000個,得到個,得到1000010000個樣本均數個樣本均數 及及標準差標準差S Sj j 。將上述將上述1000010000個樣本均數看成新變量

4、值,這個樣本均數看成新變量值,這1000010000個樣本均數構成一新分布。個樣本均數構成一新分布。 jX8 的平均數168.198 的標準差3.0XX樣本含量n=4 樣本含量n=16 的平均數168.198 的標準差1.5XX樣本含量n=36 的平均數168.198 的標準差1.0XX 若 服從正態分布:iX9 的平均數0.9903 的標準差0.4891 的中位數0.9087 XX樣本含量n=4 樣本含量n=9 的平均數1.0068 的標準差0.3313 的中位數0.9696 XX樣本含量n=100 的平均數0.9995 的標準差0.1002 的中位數0.9976 XX 若若 不服從正態分布

5、:不服從正態分布:XXXiX (從總體均數為(從總體均數為1 1的指數分布總體中抽樣)的指數分布總體中抽樣)10正態總體中樣本均數抽樣分布具有如下特點:正態總體中樣本均數抽樣分布具有如下特點:各樣本均數未必等于總體均數;各樣本均數未必等于總體均數;各樣本均數間存在差異;各樣本均數間存在差異;樣本均數圍繞總體均數呈正態分布;樣本均數圍繞總體均數呈正態分布;樣本均數變異范圍較原變量變異范圍大大縮樣本均數變異范圍較原變量變異范圍大大縮小。小。在非正態分布總體中可進行類似抽樣。在非正態分布總體中可進行類似抽樣。11 根據數理統計推理和中心極限定理可得到如下結論: 若 服從正態分布 則 服從正態分布 若

6、 不服從正態分布 n大:則 近似服從正態分布 n小:則 為非正態分布iXjXiXjXjX121 1、從正態總體、從正態總體N N( , 2 2)中,隨機抽取例)中,隨機抽取例數為數為n n的樣本,樣本均數的樣本,樣本均數 X X也服從正態分也服從正態分布;即使從偏態總體抽樣,當布;即使從偏態總體抽樣,當n n足夠大時足夠大時 X X也近似正態分布。也近似正態分布。2 2、從均數為、從均數為 ,標準差為標準差為 的正態或偏態總的正態或偏態總體中抽取例數為體中抽取例數為n n的樣本,樣本均數的樣本,樣本均數 X X的的總體均數也為總體均數也為 ,標準差為標準差為 X X 13樣本均數的標準差稱為樣

7、本均數的標準差稱為均數的標準誤均數的標準誤(standard error of mean, SEM)計算:計算:xn xSSn (標準誤的估計值)(標準誤的估計值)注意:注意: X X 、S S X X均為樣本均數的標準誤均為樣本均數的標準誤14意義:意義: 反映抽樣誤差的大小。標準誤越小,抽反映抽樣誤差的大小。標準誤越小,抽樣誤差越小,用樣本均數估計總體均數的可樣誤差越小,用樣本均數估計總體均數的可靠性越大。靠性越大。與樣本量的關系:與樣本量的關系:S 一定,一定,n,標準誤,標準誤15用途:用途:衡量抽樣誤差大小衡量抽樣誤差大小估計總體均數可信區間估計總體均數可信區間用于假設檢驗用于假設檢

8、驗16率的抽樣誤差:由抽樣造成的樣本率率的抽樣誤差:由抽樣造成的樣本率(p)(p)與總與總體率體率()()的差異。的差異。率的標準誤率的標準誤(p p) ):表明率的抽樣誤差的大小:表明率的抽樣誤差的大小(1)pn(1)pppSn例例3.13.1:P31P3117 當樣本量較大時,其統計量的抽樣分布近似當樣本量較大時,其統計量的抽樣分布近似為正態分布。隨著為正態分布。隨著N的增大,越來越接近于的增大,越來越接近于正態正態分布分布(樣本均數的分布)。(樣本均數的分布)。 但當樣本量較小時,抽樣分布不能再用正但當樣本量較小時,抽樣分布不能再用正態分布來近似,隨著態分布來近似,隨著N的減小,與正態分

9、布的差的減小,與正態分布的差別越來越大,需要用別越來越大,需要用小樣本理論小樣本理論來解釋(樣本來解釋(樣本均數的分布)均數的分布) 。大樣本、小樣本概念:大樣本、小樣本概念:30 、 50 、 100。18若某一隨機變量X服從總體均數為、總體標準差為 的正態分布N(,2)(0,1)XuN(0,1)XXuN由于樣本均數服從總體均數為、總體標準差為 的正態分布N(, ) X2X19對正態變量樣本均數對正態變量樣本均數 X X做正態變換(做正態變換(u u變換變換):XtSnXun X X 常未知而用常未知而用S S X X估計估計, ,則為則為t t變換變換:20t分布最早由英國統計學家W.S.

10、 Gosset于1908年以“Student”筆名發表,故又稱Students t-distribution。它的發現,開創了小樣本統計推斷的新紀元。 , 1XXXtnSSn t t值的分布即為值的分布即為t t分布分布21t 分布的曲線:與分布的曲線:與有關有關2223t分布的圖形與特征t分布是一簇曲線。不同,曲線形狀不同。單峰分布,以0為中心,左右對稱越小,t值越分散,t分布的峰部越矮而尾部翹得越高;當逼近, 逼近 ,t分布逼近u分布。XSX24t t 界值表(界值表(P P269269附表附表2 2 )t t /2/2, :表示自由度為:表示自由度為 ,雙側概率,雙側概率P P為為 時時

11、t t的界值的界值25t分布曲線下面積(概率P或)與橫軸t值間的關系: 在相同自由度時, t值增大,P減小;在相同t值時,雙尾P為單尾P的兩倍。如雙尾 =單尾 =1.812。0.10/2,10t0 .0 5 ,1 0t 在在t界值表中,一側尾部面積稱單側概率,界值表中,一側尾部面積稱單側概率,兩側尾部面積之和稱雙側概率。兩側尾部面積之和稱雙側概率。26t t分布曲線下面積的規律:分布曲線下面積的規律:中間中間95%95%的的t t值:值:- t- t0.05/20.05/2, t t0.05/20.05/2, 中間中間99%99%的的t t值:值:- t- t0.01/20.01/2, t t

12、0.01/20.01/2, (1) (1) 自由度(自由度()一定時,)一定時,p p與與tt成反比成反比; ;(2) (2) 概率(概率(p p)一定時,)一定時,與與t成反比成反比; ;271 1、二者都是單峰分布,以、二者都是單峰分布,以0 0為中心左右對稱為中心左右對稱2 2、t t分布的峰部較矮而尾部翹得較高說明遠側分布的峰部較矮而尾部翹得較高說明遠側的的t t值個數相對較多即尾部面積(概率值個數相對較多即尾部面積(概率P P值)較值)較大。當大。當逐漸增大時,逐漸增大時,t t分布逐漸逼近分布逐漸逼近標準正標準正態分布,態分布,當當 時,時,t t分布完全成為分布完全成為標準正標準

13、正態分布態分布28統計推斷:用樣本信息推論總體特征。統計推斷:用樣本信息推論總體特征。 包括參數估計和假設檢驗包括參數估計和假設檢驗參數估計:參數估計:用樣本統計量估計總體參數。用樣本統計量估計總體參數。 1 1、 點(值)估計:用樣本統計量作為對點(值)估計:用樣本統計量作為對總體參數的估計值總體參數的估計值292 2、 區間估計:根據選定的置信度(或可區間估計:根據選定的置信度(或可信度,用概率表示)估計總體參數所在信度,用概率表示)估計總體參數所在的范圍的范圍可信度:估計正確的概率。可信度:估計正確的概率。1- 1- 可信區間可信區間(confidence level, CI)(conf

14、idence level, CI):30 按一定的按一定的可信度可信度由樣本均數計算的總體由樣本均數計算的總體均數可能所在的均數可能所在的范圍范圍,這個范圍稱為總體均,這個范圍稱為總體均數的可信區間。數的可信區間。方法:方法:(1) u (1) u 分布法分布法(2) t (2) t 分布法分布法31總體均數的總體均數的9595可信區間可信區間:從總體中作隨機:從總體中作隨機抽樣,作抽樣,作100100次抽樣,每個樣本可算得一個次抽樣,每個樣本可算得一個可信區間,得可信區間,得100100個可信區間,平均有個可信區間,平均有9595個個可信區間包括總體均數可信區間包括總體均數( (估計正確估計

15、正確) ),只有,只有5 5個可信區間不包括總體均數個可信區間不包括總體均數( (估計錯誤估計錯誤) )32(1)t分布分布 法法 未知、未知、n小時按小時按t分布原理分布原理總體均數的總體均數的100(1-)%CI:/2,/2,(,)XXXtSXtS例3.2:P3333(2)u 分布分布 法法 未知但未知但n足夠大時按正態分布原理足夠大時按正態分布原理總體均數總體均數100(1-)%CI :/2/2(,)XXXuSXuS34(3 3)u u 分布法分布法 已知時按正態分布原理已知時按正態分布原理100(1-)%CI :(1.96,1.96)XXXX/2/2(,)XXXuXu9595的的CIC

16、I:35區間估計的準確度:區間估計的準確度:說對的可能性大小,說對的可能性大小, 用用 (1-(1- ) ) 來衡量。來衡量。99%99%的可信區間好于的可信區間好于95%95%的的可信區間可信區間(n, S n, S 一定時)一定時)。區間估計的精確度:區間估計的精確度:指區間范圍的寬窄,范指區間范圍的寬窄,范圍越寬精確度越差。圍越寬精確度越差。99%99%的可信區間的可信區間差于差于95%95%的的可信區間可信區間(n, S n, S 一定時)。一定時)。 準確度與精確度的關系:準確度與精確度的關系:36標準差標準差標準誤標準誤意義意義描述觀察值的變異程描述觀察值的變異程度。其值越小,觀察

17、度。其值越小,觀察值的變異程度越小,值的變異程度越小,均數的代表性越好均數的代表性越好描述樣本均數的變異程描述樣本均數的變異程度,說明抽樣誤差的大度,說明抽樣誤差的大小。其值越小,估計總小。其值越小,估計總體均數的可靠性越大體均數的可靠性越大計算計算用途用途描述資料的頻數分布描述資料的頻數分布狀況,可用于制定醫狀況,可用于制定醫學參考值范圍學參考值范圍用于表示抽樣誤差大小、用于表示抽樣誤差大小、總體均數的區間估計和總體均數的區間估計和均數的假設檢驗等均數的假設檢驗等37總體均數的可信區間總體均數的可信區間參考值范圍參考值范圍含義含義按預先給定的概率確按預先給定的概率確定的未知參數定的未知參數的可的可能范圍能范圍總體均數的可能范圍總體均數的可能范圍“正常人正常人”的解剖、的解剖、生理、生化某項指標生理、生化某項指標的波動范圍的波動范圍個體值的波動范圍個體值的波動范圍計算計算方法方法U U分布法或分布法或t t分布法分布法正態分布法或正態分布法或百分位數法百分位數法用途用途總體均數的區間估計總體均數的區間估計絕大多數觀察對象某絕大多數觀察對象某項指標的分布范圍項指標的分布范圍38練習題練習題是非判斷:是非判斷:1 1標準誤是一種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論