第四章 抽樣誤差與假設檢驗ppt課件_第1頁
第四章 抽樣誤差與假設檢驗ppt課件_第2頁
第四章 抽樣誤差與假設檢驗ppt課件_第3頁
第四章 抽樣誤差與假設檢驗ppt課件_第4頁
第四章 抽樣誤差與假設檢驗ppt課件_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、流行病與衛生統計學教研室金英良第四章 抽樣誤差與假設檢驗.本章主要內容:第一節 均數的抽樣誤差與規范誤差第二節 總體均數的估計第三節 假設檢驗的意義和步驟.第一節 均數的抽樣誤差與規范誤差 假定某年某地一切13歲女學生身高服從總體均數=155.4cm,總體規范差=5.3cm的正態分布N(155.4,5.32。隨機抽取30人為一個樣本n=30,并計算樣本的均數和規范差,共抽取100次,可以得到100份樣本,每份樣本可以計算相應的均數和規范差。.1. 156.7 5.16 158.1 5.21 155.6 5.32 99. 154.6 5.15100. 156.6 5.25 =155.4cm=5.

2、3cm X S一百個樣本.抽樣誤差(smpling error) 這種由抽樣呵斥的樣本統計量與總體參數之間的差別成為抽樣誤差.總體樣本 隨機抽樣 統計量 參 數 只需有個體變異和隨機抽樣研討,抽樣誤差就是不可防止的。.假設從正態總體N(, 2中,反復多次隨機抽取樣本含量固定為n的樣本,那么這些樣本均數 也服從正態分布。樣本均數 的總體均數仍為,樣本均數的規范差為 ,其計算公式為:中心極限定理.SAMPLE 1:x11 x12 x13 x14.x1nSAMPLE 2:x21 x22 x23 x24.x2nSAMPLE k:xk1 xk2 xk3 xk4.xkn原始總體k個樣本均數的頻數分布圖.規

3、范誤(standard error,SE) 樣本均數的規范差。它反映了來自同一總體的樣本均數之間的離散程度以及樣本均數和總體均數的差別程度,即均數的抽樣誤差的大小。統計上用規范誤來衡量抽樣誤差的大小!.由于在實踐任務中,總體規范差往往未知,而是用樣本規范差S來替代,故只能求得樣本均數規范誤的估計值S X ,其計算公式為:估計.例 4.1 某市隨機抽查成年男子140人,得紅細胞均數4.771012/L,規范差0.381012/L,計算其規范誤。.第二節 總體均數的估計1.統計推斷statistical inference在總體中隨機抽取一定數量察看單位作為樣本進展抽樣研討,然后由樣本信息推斷總體

4、特征,這一過程稱為統計推斷。一、可信區間的概念統計推斷參數估計假設檢驗點估計區間估計可信區間.2.參數估計parameter estimation是指由樣本統計量估計總體參數,是統計推斷的一個重要內容。1點估計point estimation用樣本統計量直接作為總體參數的估計值。2區間估計interval estimation又稱可信區間置信區間,CI按預先給定的概率,計算出一個區間,使它可以包含未知的總體均數。.=155.4cm身高cm總體均數的95%可信區間,平均有95個可信區間包括了總體均數,只需5個可信區間不包括,即估計錯誤。進展100次抽樣,每次樣本量為n=30,利用樣本均數和規范差

5、估計總體均數范圍。.3.可信區間有兩個要素:1準確度accuracy可信度的大小,即可信區間包容的概率大小1-。2精細度precision反映在區間的長度,區間長度越小精細度越高。普通情況下,95%的可信區間更為常用。在可信度確定的情況下,添加樣本量,可減少區間長度,提高精細度。.t分布是t檢驗的根底,亦稱 student t檢驗,是計量資料中最常用的假設檢驗方法。戈塞特(William Sealey Gosset) 英國著名統計學家。出生于英國肯特郡坎特伯雷市,求學于曼徹斯特學院和牛津大學,主要學習化學和數學。二、總體均數可信區間的計算. 1899年作為一名釀酒師進入愛爾蘭的都柏林一家啤酒廠

6、任務,在那里他涉及到有關釀造過程的數據處置問題。 由于釀酒廠的規定制止戈塞特發表關于釀酒過程變化性的研討成果,因此戈塞特不得不于1908年,初次以“學生 (Student)為筆名,在雜志上發表了“平均數的概率誤差。Gosset在文章中運用Z統計量來檢驗常態分配母群的平均數。由于這篇文章提供了“學生t檢驗的根底,為此,許多統計學家把1908年看作是統計推斷實際開展史上的里程碑。.隨機變量XNm,s2規范正態分布N0,12u變換當總體均數與規范差未知時.均數規范正態分布N0,12在實踐任務中, 往往未知,常用 替代進展變換,即 不服從規范正態分布!而服從自在度=n-1的t分布. f(t) =(規范

7、正態曲線) =5 =10.10.2-4-3-2-1012340.3t分布.1、以0為中心,左右對稱的單峰分布。2、t分布曲線是一簇曲線,其形狀變化與自在度的大小有關系 =n-1。t分布的特征:自在度越小,t分布的峰越低,而兩側尾部翹得越高;自在度逐漸增大時,t分布逐漸逼近規范正態分布,當自在度為無窮大時,t分布就是規范正態分布。.為便于運用,統計學家編制了不同自在度對應的t界值表。t分布的用途:主要用于總體均數的區間估計及t檢驗。.s未知 且 n較小 n50 按u分布s知 按u分布 總體均數可信區間的計算方法,隨總體規范差s能否知,以及樣本含量n的大小而異。通常有t分布和u分布兩類方法:.一知

8、u變換公式:-1.96+1.962.5%2.5%95%.二未知1.n較小n50).例4.2 某醫生測得25名動脈粥樣硬化患者血漿纖維蛋白原含量的均數為3.32g/L,規范差為0.57g/L,試計算該種病人血漿纖維蛋白原含量總體均數的95%可信區間。該種病人血漿纖維蛋白原含量總體均數的95%可信區間為3.09g/L 3.56g/L.例4.3 試計算例4.1中該地成年男子紅細胞總體均數的95%可信區間。該地成年男子紅細胞總體均數的95%可信區間為4.711012/L 4.831012/L.第三節 假設檢驗的意義和步驟一、假設檢驗的根本思想“反證法的思想先根據研討目的建立假設,從H0假設出發,先假設

9、它是正確的,再分析樣本提供的信息能否與H0有較大矛盾,即能否支持H0,假設樣本信息不支持H0,便回絕之并接受H1,否那么不回絕H0 。 .例4.4 以往經過大規模調查知某地新生兒出生體重為3.30kg. 從該地難產兒中隨機抽取35名新生兒作為研討樣本,平均出生體重為3.42kg, 規范差為0.40kg。問該地難產兒出生體重能否與普通新生兒體重不同?.0=3.30kg次/分 知總體未知總體n=35, =3.42kgS=0.40kg 與0之間的差別不相等,有兩種能夠:1、 = 0,僅由于用 去估計時存在抽樣誤差,所以導致了 與0之間的差別。2、 與0本身就不相等,所以導致了 與之間的差別。.假設檢驗的根本原理: 抽樣誤差所致 P0.05 來自同一總體 ? 假設檢驗回答 本身存在差別 P0(單側檢驗) 0 (單側檢驗) =0.05.例如:要比較經常參與體育鍛煉的中學男生心率能否低于普通中學男生的心率,就屬于單側檢驗。H1: 0,雙側,0都有能夠H1: 0,單側H1: ,那么接受H0,回絕H1檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論