生物統計學:參數估計基礎_第1頁
生物統計學:參數估計基礎_第2頁
生物統計學:參數估計基礎_第3頁
生物統計學:參數估計基礎_第4頁
生物統計學:參數估計基礎_第5頁
已閱讀5頁,還剩45頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、參數估計基礎 抽樣研究的目的就是要用樣本信息來推斷相應總體的特征,這一過程稱為統計推斷。 統計推斷包括兩方面的內容:參數估計和假設檢驗總體樣本抽取部分觀察單位 統計量 參 數 統計推斷統計推斷statistical inference如:樣本均數 樣本標準差S 樣本率 P如:總體均數 總體標準差 總體率內容:參數估計(estimation of parameters) 包括:點估計與區間估計2. 假設檢驗(test of hypothesis)誤差:泛指測得值與真值之差,樣本指標與總體指標之差。誤差按其產生的原因與性質分為兩大類(系統誤差和偶然誤差)。1.系統誤差:由于受試對象、研究者、儀器設

2、備、研究方法、非實驗因素影響等確定性原因造成,有一定傾向性或規律性的誤差。可以避免。2.隨機測量誤差:由于多種無法控制的偶然因素引起,對同一樣品多次測量數據的不一致。無傾向性,不可避免。只可控制在一定的范圍內。3.抽樣誤差:由個體變異產生的、由于抽樣而造成的樣本統計量與樣本統計量及樣本統計量與總體參數之間的差異稱為抽樣誤差。無傾向性,不可避免。均數的抽樣誤差、總體均數的估計、分布 1、均數的抽樣誤差和標準誤抽樣試驗以110名20歲健康男大學生的身高作為假設的有限總體,其總體均數 ,標準差 。每次隨機抽取10個人的身高作為一個樣本,記錄下數據并計算均數、標準差,再放回重新抽樣,共重復100次,求

3、得100個樣本均數和標準差,其樣本均數列入表3.1。 表3.1 100個樣本均數上海市20歲男 大學生身高 X1=172.7 X4 =172.49X2=173.09X3=172.96同濟復旦交大上大例3-1 某市1999年18歲男生身高服從 =167.7cm、 =5.3cm正態分布,從該N(167.7, 5.32)總體中隨機抽樣。每次 =10人,共有樣本g=100個,得到每個樣本均數 及標準差 。將上述100個樣本均數看成新變量值,這100個樣本均數構成一新分布。 樣本均數抽樣分布具有如下特點:各樣本均數未必等于總體均數;各樣本均數間存在差異;樣本均數圍繞總體均數(167.7cm) 呈正態分布

4、;樣本均數變異范圍較原變量變異范 圍大大縮小,這100個樣本均數的 均數為167.69cm、標準差為1.69cm。在非正態分布總體中可進行類似抽樣。 數理統計推理和中心極限定理表明:從 中隨機抽取n例的樣本,樣本均數 也服從正態分布,且即使從非正態總體中抽取樣本,當n足夠大(n30), 分布仍近似正態分布。隨著樣本量的增大, 樣本均數的變異范圍也逐漸變窄。 均數的抽樣誤差(sampling error of mean)-由于抽樣而造成的樣本均數與總體均數之差異或各樣本均數之差異稱為均數的抽樣誤差。標準誤(standard error) -反映均數抽樣誤差大小的指標是樣本均數 的標準差,簡稱標準

5、誤。 理論值 估計值 標準誤的計算標準誤用于說明抽樣誤差的大小。實例分析例如:某地成年男子紅細胞數的抽樣調查,求其標準誤。例例: 2000年某研究所隨機調查某地健康成年男子27人,得到血紅蛋白的均數為125g/L,標準差為15g/L 。試估計該樣本均數的抽樣誤差。2 樣本頻率的抽樣分布與抽樣誤差 從同一總體中隨機抽出觀察單位相等的多個樣本,樣本率與總體率及各樣本率之間都存在差異,這種差異是由于抽樣引起的,稱為頻率的抽樣誤差。 表示頻率的抽樣誤差大小的指標叫頻率的標準誤。 :總體率,n:樣本例數。 當未知時,p (為樣本含量足夠大,且p和1-p不太小) 公式為: :率的標準誤的估計值,p:樣本率

6、。 據數理統計的原理,率的標準誤用 表示 例: 某市隨機調查了50歲以上的中老年婦女776人,其中患有骨質疏松癥者322人,患病率為41.5%,試計算該樣本頻率的抽樣誤差。標準差和標準誤的比較 標準差 標準誤1.概念 是衡量個體觀察值變異 描述樣本均數距總體均數的離散 不同 程度的指標。 程度,是抽樣誤差大小的尺度。2.用途 A.衡量均數的代表性 A.衡量樣本均數代表總體均數的 不同 可靠性 B.與均數結合估計正常值范圍 B.與樣本均數結合估計總體均數 的可信區間 C.計算變異系數和標準誤 C.進行顯著性檢驗3.與例數的 當樣本含量足夠大時,標準差 隨例數的增大而減小,若樣本含 關系不同 趨于

7、穩定。 量趨于總體例數,則標準誤近似 零,即抽樣誤差為零。4.相同之處 變異指標 變異指標 (個體觀察值距樣本均數) (樣本均數距總體均數) t分布最早由英國統計學家W.S. Gosset于1908年以“Student”筆名發表,故又稱Students t-distribution。它的發現,開創了小樣本統計推斷的新紀元。 2、t 分布(distribution) 隨機變量X標準正態分布變換 均數標準正態分布Student t分布自由度: t變換 t 分布曲線 分布的特征:以t0為中心的對稱分布,曲線在t0 處最高與正態分布相比,曲線最高處較矮,兩尾部翹得高(見綠線) 隨自由度增大,曲線逐漸接

8、近正態分布;分布的極限為標準正態分布。t 根據不同自由度時曲線下面積與t值的關系編制 橫標目為自由度 ,縱標目為概率P,表中數字為 。 表中只列出正值,負的t 值用其絕對值查表。 相同自由度時, t 的絕對值越大,概率P越小.相同 、相同t 界值下,雙側P為單側P的兩倍。t 界值表=9 t分布與 u分布的異同相同點:1.二者都是以0為中心,左右對稱。 2.已平均數為最高點向兩側逐漸降。 3.尾部無限延伸,不與基線相交。不同點:1. t分布峰部矮尖尾翹,尤其自由度小 時更為明顯。當自由度逐漸增時, t 分布逐漸逼近u分布。 2.標準正態分布(u分布)曲線下面積 95%和99%的界值是一個常量,而

9、 t分布曲線不是常量,而是隨著自由 度大小而變化。3、總體均數可信區間的估計 點值估計(point estimation) 將樣本指標作為總體指標的估計 值。 區間估計(interval estimation ) 按一定的可信度估計總體均數所在 的范圍。參數估計參數估計是指用樣本指標(統計量)估計總體指標(參數). ,即認為2000年該地所有健康成年男性血紅蛋白量的總體均數為125g/L 。1.點估計: 用樣本統計量直接作為總體參數的估計值。 例如 于2000年測得某地27例健康成年男性血紅蛋白量的樣本均數為125g/L,試估計其總體均數。同理,例5-2中776名50歲以上的中老年婦女骨質疏松

10、癥的樣本患病率作為總體患病率的點值估計值,即認為該市所有50歲以上的中老年婦女骨質疏松癥的總體患病率約為41.5%。 1.單一總體均數的可信區間(1)未知:雙側1可信區間單側1可信區間 例3-2 在例3-1中抽得第15號樣本的 =166.95(cm),S=3.64(cm),求其總體均數的95%可信區間。 該故地18歲男生身高均數的95%可信區間為(164.35, 169.55)cm。(cm)例: 已知某地27例健康成年男性血紅蛋白量的均數為 ,標準差S=15g/L ,試問該地健康成年男性血紅蛋白量的95%和99%置信區間。 本例n=27,S=1595%CI:99%CI:(2)已知或未知但n足夠

11、大:已知:雙側1可信區間 單側1可信區 未知但n足夠大:雙側1可信區間 單側1可信區間 例3-3 某地抽取正常成年人200名,測得其血清膽固醇均數為3.64 mmol/L,標準差為1.20mmol/L,估計該地正常成年人血清膽固醇均數95%可信區間。 本例 =3.64、S=1.20、n=200、 =0.0849, =(3.47, 3.81)(mmolL) 該地正常成年人血清膽固醇均數雙側95%可信區間為(3.47, 3.81)mmolL。例5-4 某市2000年隨機測量了90名19歲健康男大學生的身高,其均數為172.2cm,標準差為4.5cm,,試估計該地19歲健康男大學生的身高的95%置信

12、區間。例該市19歲健康男大學生的身高的95%置信區間(171.3,173.1)cm總體均數可信區間的估計 可信 已知 未知 未知 區間 但n足夠大 且n小 95% X1.96x X1.96Sx Xt 0.05( )Sx 99% X2.58x X2.58Sx Xt 0.01()Sx 總體概率的置信區間與樣本含量n,陽性頻率p的大小有關,可根據n和p的大小選擇以下兩種方法。1. 正態近似法 當樣本含量足夠大,且p和1-p不太小,則樣本率的分布近似正態分布。公式為: P為樣本率, 為率的標準誤的估計值, (二)、總體概率的置信區間 例5-7 用某種儀器檢查已確診的乳腺癌患者94例,檢出率為78.3%

13、。估計該儀器乳腺癌總體檢出率的95%置信區間。分析:本例樣本例數較大,且樣本率p不太小,可用正態近似法:2. 查表法 當n較小,如n50,特別是p和1-p接近0或1時,應按照二項分布的原理估計總體率的可信區間。 例5-5 某醫院對39名前列腺癌患者實施開放手術治療,術后有合并癥者2人,試估計該手術合并癥發生概率的95%置信區間。 例5-6 某醫生用某藥物治療31例腦血管梗塞患者,其中25例患者治療有效,試求該藥物治療腦血管梗塞有效概率的95%置信區間。注意:此表僅列出Xn/2 的95%置信區間。可信區間和可信限可信區間(confidence interval 簡記為CI) 可信區間是以上下可信限為界的一個范圍。例如95%的可信區間為(171.97,173.49)cm。可信限( confidence limit 簡記為CL) 可信限是指上限和下限兩個點值。如171.97為下限結果報告:可將點值估計和區間估計同時寫出 如 172.72(171.97,173.49)cm 可信區間的兩個要素1、準確度即區間包含總體均數可能性(概率)大小,反映在可信度 的大小。愈接近1愈好,如可信度 99%比95%好。2、精度反映在區間的長度,長度愈小愈精確。 在樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論