醫學統計學及SAS應用:第四章 總體均數的估計和t檢驗_第1頁
醫學統計學及SAS應用:第四章 總體均數的估計和t檢驗_第2頁
醫學統計學及SAS應用:第四章 總體均數的估計和t檢驗_第3頁
醫學統計學及SAS應用:第四章 總體均數的估計和t檢驗_第4頁
醫學統計學及SAS應用:第四章 總體均數的估計和t檢驗_第5頁
已閱讀5頁,還剩62頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章總體均數的估計和t檢驗

2

從總體中隨機抽取部分觀察單位形成樣本的過程稱為抽樣。

利用樣本信息推斷總體特征的研究稱為抽樣研究

抽樣的目的是樣本信息推斷總體特征總體樣本

參數(、)統計量3樣本1樣本2樣本3樣本k抽樣研究…………………45抽樣誤差(samplingerror)

指由于抽樣本身的隨機性而導致的樣本統計量與總體指標之間的差異。

由于生物間的個體差異是客觀存在的,因此在抽樣研究中抽樣誤差無法避免。數理統計研究表明,抽樣誤差遵循一定的規律并可以控制。6第一節總體均數的估計一、標準誤1.均數的抽樣誤差:

從同一總體中隨機抽取樣本含量相等的若干個樣本,得到若干個樣本均數,這些樣本均數不完全相等,并且與總體均數也存在差異。由于抽樣而產生的樣本均數和總體均數間的差異稱為均數的抽樣誤差7標準誤(standarderror,SE):樣本統計量的標準差。標準誤小,表示抽樣誤差小,統計量較穩定,與所估計的參數較接近。

均數的標準誤(standarderrorofmean):樣本均數的標準差,它反映來自同一總體的樣本均數的離散程度,即均數的抽樣誤差大小。8均數標準誤的計算:均數標準誤的用途

衡量樣本均數的可靠性;

估計總體均數的可信區間;

用于均數的假設檢驗。(估計值)通過增加樣本例數來減少標準誤,降低抽樣誤差9標準差:描述某總體或樣本內部個體值的變異標準誤:描述樣本統計量的變異標準誤與標準差除了均數的標準誤外,還有率的標準誤,回歸系數的標準誤等。通常用“均數±標準差”:表示一組數據的平均水平和離散程度。有時用“均數±標準誤”:表達樣本均數及其離散程度。

——必須注明以免誤解。區別意義描述原始數據的離散程度,衡量均數對原始數據的代表性

反映抽樣誤差的大小,衡量樣本均數估計總體均數的可靠性

計算直接法、加權法

與均數的關系s越小,對樣本數據的代表性好

越小,估計

的可靠性大

與n的關系n→∞,s→

n→∞,→0應用表示觀察值波動的大小

表示抽樣誤差的大小

用于計算變異系數

用于均數的假設檢驗

計算標準誤

結合樣本均數和正態分布的規律,估計參考值范圍結合樣本均數和正態分布的規律,估計參數的可信區間區別11總體均數μ的估計包括點估計和區間估計:點估計:用樣本均數來估計總體均數。區間估計:按一定的概率估計總體均數在哪個范圍內,這個范圍稱為可信區間(或置信區間)這個概率稱為可信度(或置信度),用1-α表示,常取95%或99%。

二、總體均數的估計1-aa/2a/2Pa/2P1-a/212正態曲線下的面積規律

-1.96

+1.96

2.5%2.5%95%13中心極限定理當樣本容量足夠大時(n>30),樣本均數的抽樣分布逐漸趨于正態分布中心極限定理:設從均數為

,方差為

2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均數的抽樣分布近似服從均數為μ、方差為σ2/n的正態分布一個任意分布的總體X14落在總體均值某一區間內的樣本X95%的樣本

-1.96

x

+1.96

xX=

1.96

x2.5%2.5%

=X

1.96

x15總體均值的置信區間

(

2已知)1.假定條件

總體服從正態分布,且總體方差(

2)已知如果不是正態分布,可以由正態分布來近似(n>30)2.使用正態分布統計量u3.總體均值

在95%置信水平下的置信區間為16總體均值的置信區間

(

2未知)1.假定條件

總體方差(

2)未知總體必須服從正態分布2.使用t分布統計量3.總體均值

在95%置信水平下的置信區間為)1(~--=ntnsxtm)1(~--=ntnsxtm17m均數抽樣分布呈一般正態分布

=1u標準正態分布

t不同自由度的t分布標準正態分布(df=∞)t(df=13)t(df=5)u18

095%19總體均數的95%可信區間為:

例4.2隨機抽樣調查了某市120名4歲男童的身高(cm),得到這120名4歲男童的平均身高為104.89cm,標準差為3.54cm,求該地區4歲男童身高總體均數的95%可信區間。n=120,=104.89,s=3.54,==0.32自由度ν=n-1=119,查t界值表得20可信區間的兩個要素可信區間的準確度:表現為可信度(1-

)的大小,即區間包含總體均數的概率大小,可信區間的精度:表現為區間的長度正確理解可信區間的涵義

可信區間一旦形成,它要么包含總體參數,要么不包含總體參數,二者必居其一,無概率可言。所謂95%的可信度是針對可信區間的構建方法而言的。

以均數的可信區間為例,其涵義是:如果重復100次抽樣,每次樣本含量均為n,每個樣本均按構建可信區間,則在此100個可信區間內,理論上有95個包含總體均數,而有5個不包含總體均數。

圖4.1100個來自N(0,1)的樣本所估計的可信區間示意

95%可信區間99%可信區間

公式區間范圍

窄寬

估計錯誤的概率大(0.05)小(0.01)例題程序ch4_1procmeansdata=shgnmeanstdclm;varx;run;Procmeansdata=shgnmeanstdclmalpha=0.01;varx;run;選擇項clm表示要計算總體均數的可信區間可信區間的可信水平α可用選擇項alpha=α規定

第二節t檢驗目的:推斷樣本所代表的未知總體均數與已知總體均數是否相等。假設:檢驗統計量:一.樣本均數和總體均數比較的t檢驗26求得t值后,據ν查t臨界值表得t0.05/2,進行比較:樣本均數與總體均數比較的t檢驗

如果,t<t0.05/2,ν

,則P>0.05,不拒絕H0。樣本均數和μ0的差別無統計學意義。 如果,

t≥t0.05/2,ν

,則P≤

0.05,在α=0.05水平上拒絕H0,樣本均數和μ0的差別有統計學意義。認為該樣本并非來自均數為μ0的總體。27

例4.3據大量調查,健康成年男子脈搏的均數為72次/分,某醫生在某山區隨機調查了25名健康成年男子,得其脈搏均數為74.2次/分,標準差為6.5次/分,能否據此認為該山區成年男子的脈搏均數高于一般人群?總體均數

=72次/分

樣本均數由于抽樣誤差所致?由于環境條件的影響?28建立假設

(在假設的前提下有規律可循)

零假設(nullhypothesis),記為H0

H0:

=72備擇假設(alternativehypothesis),記為H1H1:

>72根據專業知識,山區成年男子的脈搏數一般不會低于正常人29其中H0假設比較單純、明確,在H0下若能弄清抽樣誤差的分布規律,便有規律可循。而H1假設包含的情況比較復雜。因此,我們著重考察樣本信息是否支持H0假設(因為單憑一份樣本資料不可能去證明哪個假設是正確的,哪一個不正確)。

30選定檢驗方法計算檢驗統計量

(計算樣本與總體的偏離)統計量t表示,在標準誤的尺度下,樣本均數與總體均數

0的偏離。這種偏離稱為標準t離差。31根據抽樣誤差理論,在H0假設前提下,統計量t服從自由度為n-1的t分布,即t值在0的附近的可能性大,遠離0的可能性小,離0越遠可能性越小。t值越小,越利于H0假設

t值越大,越不利于H0假設自由度:25-1=2432計算概率P(與統計量t值對應的概率)

在H0成立的前提下,獲得現有這么大的標準t離差以及更大離差的可能性。P=P(t≥1.692)

33單側t0.05,24=1.71101.7115%

=24P=P(t>1.692)>0.05本研究樣本得到的t(1.692)34確定檢驗水準

(確定最大允許誤差)

設定檢驗水準的目的就是確定拒絕假設H0時的最大允許誤差。醫學研究中一般取

=0.05。檢驗水準實際上確定了小概率事件的判斷標準。35

結論(根據小概率原理作出推斷)

在H0成立的前提下出現現有差別或更大差別的可能性是否小于檢驗水準,如小于,則是小概率事件,即現有樣本信息不支持H0。抉擇的標準為:當P≤

時,拒絕H0,接受H1

當P>

時,不拒絕H0

本例P>0.05,按

=0.05的水準,不能拒絕H0,差別無統計學意義。36假設檢驗的意義從樣本得到關于總體的結論如本例假設檢驗的意義在于分辨手頭樣本所代表的未知總體和已知總體是否為同一總體,換句話說,即分辨手頭樣本是否為已知總體的一個隨機樣本。37假設檢驗的基本思想“反證法”的思想先根據研究目的建立假設,從H0假設出發,先假設它是正確的,再分析樣本提供的信息是否與H0有較大矛盾,即是否支持H0,若樣本信息不支持H0,便拒絕之并接受H1,否則不拒絕H0

。38假設檢驗的基本步驟

建立假設確定檢驗水準計算檢驗統計量計算概率P

結論

當P≤

時,拒絕H0,接受H1,差別有統計學意義。當P>

時,不拒絕H0,差別尚無統計學意義。不論拒絕H0,還是不拒絕H0都可能犯錯誤。39解:H0:μ=72H1:μ>72

ν=25-1=24現t=1.692<單側t0.05,24=1.711,故P>0.05。所以按=0.05水準不拒絕H0,差異無統計學意義,根據現有樣本的信息,尚不能認為該山區健康成年男子的脈搏均數高于一般健康成年男子的脈搏均數。

=0.05(單側)40二.配對t檢驗(PairedtTest)醫學科研中配對資料的三種主要類型:按性質相近配對,配對的兩個受試對象分別給予兩種處理;同源配對,同一受試對象或同一樣品的兩個部分分別給予兩種處理,推斷兩種處理的效果有無差別;自身配對,同一受試對象治療前后某些生理、生化指標的比較,推斷該處理有無作用。配對實驗設計得到的資料稱為配對資料。

41表4.1不同飼料組大白鼠肝中維生素A含量(IU/g)按性質相近配對(大白鼠對號⑴正常飼料組⑵維生素E缺乏組⑶差值d⑷=⑵-⑶d2⑸13550245011001210000220002400-4001600003300018001200144000043950320075056250053800325055030250063750270010501102500734502500950902500830501750130016900009335021001250156250010365025501100121000088501014250042表4.2兩種方法測定14份血清樣品Mg2+(mmol/L)結果血清樣品號⑴葡萄糖激酶兩點法⑵甲基百里酚藍法⑶10.850.8421.021.0131.131.1341.081.0650.920.9261.171.1671.221.2381.061.0791.141.14100.980.98111.251.24121.111.11131.231.23141.101.10同源配對43表4.3康復療法治療前后的癌癥患者生命質量得分患者號⑴治療后⑵治療前⑶170.5564.29288.6064.07368.4445.88461.6445.23564.7350.40674.6861.59769.1551.85860.5160.13965.5964.291069.0451.93自身配對44假設:檢驗統計量:45

例4.5

某單位研究飲食中缺乏維生素E與肝中維生素A含量的關系,將同種屬的大白鼠按性別相同、年齡、體重相近者配成10對后,將每對中的兩只大白鼠隨機分到正常飼料組和維生素E缺乏組,過一定時期將大白鼠殺死,測其肝中維生素A的含量,結果見表4.1第⑴~⑶欄。問兩組大白鼠肝中維生素A的含量有無差別?46解:H0:μd=0,即兩組大白鼠肝中維生素A含量相同

H1:μd≠0,即兩組大白鼠肝中維生素A含量不同

α=0.05

=8850/10=885,=506.65

查t界值表,df=9時,t0.05/2,9=2.262

現t>t0.05/2,9,故P<0.05,所以按=0.05水準拒絕H0,差異有統計學意義,可認為兩組大白鼠肝中維生素A的含量不同,即維生素E缺乏對大白鼠肝中維生素A的含量有影響。47三.成組設計的兩樣本均數比較的t檢驗

也稱為團體t檢驗(GroupedtTest)按完全隨機化設計的兩個樣本均數比較比較的目的是它們各自所代表的總體是

否具有相同的均數其假設檢驗為H0:μ1=μ2,H1:μ1≠μ2

48兩個獨立樣本之差的抽樣分布m1s1總體1s2

m2總體2抽取簡單隨機樣樣本容量n1計算X1抽取簡單隨機樣樣本容量n2計算X2計算每一對樣本的X1-X2所有可能樣本的X1-X2m1-m2抽樣分布第四節團體t檢驗

H0:μ1-μ2=0492.大樣本時,用各自方差估計法:t檢驗公式:(自由度:df=n1+n2-2)分母:兩樣本之差的標準誤1.小樣本時,用合并方差估計法:50例4.8

為研究某種治療兒童貧血新藥的療效,以常規藥作為對照,將30名貧血的兒童隨機分到新藥組和常規藥組,每組15名,分別接受兩種藥物治療,過一定時期測量他們血紅蛋白的增加量(g/L),結果見表4.4。

問兩組貧血兒童的血紅蛋白的增加量是否相同?

新藥組常規藥組血紅蛋白增加量

x1血紅蛋白增加量

x2266762144132102423529256251832422484245762040023529287841936124576162561936122484298412040017289256253411562352921441172892040015225235292667627729224843679315314672851H0:

1=2,即新藥組與常規藥組兒童的血紅蛋白增加量均數相同H1:1

2,即新藥組與常規藥組兒童的血紅蛋白增加量均數不同

=0.05水準拒絕H0,差異有統計學意義,可認為新藥組與常規藥組兒童的血紅蛋白增加量均數不同,新藥的療效比常規藥的療效好。521.樣本均數和總體均數比較的t檢驗:樣本來自正態分布的總體。2.配對t檢驗:差值的總體為正態分布。3.團體t檢驗:

1)兩個樣本都來自正態分布的總體。

2)兩個總體方差相等。t檢驗的條件53t檢驗條件不滿足時的對策1.進行變量變換,如對數變換,變換成正態分布后再進行t檢驗。2.用非參數檢驗的方法。3.兩樣本比較的t檢驗時,如正態分布但方差不齊,可用t’檢驗。54

變量變換

服從對數正態分布的資料可用對數變換

y=log(x)服從泊松分布的資料可用平方根變換

y=

表達成百分數的資料可用平方根反正弦變換

y=

55

第三節方差齊性檢驗和t’檢驗

方差齊性檢驗(TestforHomogeneityofVariance)

兩個均數比較的t檢驗,其中重要前提是兩個樣本所代表的總體具有相同的方差56兩個方差齊性檢驗

H0:,即兩總體的方差相等

H1:,即兩總體的方差不等

F檢驗:

s12:為較大樣本方差,

1為其自由度

s22:為較小樣本方差,

2為其自由度

方差齊性檢驗(TestforHomogeneityofVariance)

第三節方差齊性檢驗和t’檢驗57自由度值有2個,分別為分子的自由度與分母的自由度。據分子,分母的自由度查方差齊性檢驗專用的F界值(附表四,P428)得:F0.05

,F0.01值

如果F<F0.05,則P>0.05,不拒絕H0;如果F≥F0.05

,則P≤0.05,在α=0.05水平上,拒絕H0;58t’檢驗檢驗統計量:界值結論59第四節正態性檢驗(normalitytest)統計指標:偏度系數、峰度系數;檢驗法:W檢驗(3<n<50)、D檢驗(50<n<1000)、矩法(對偏度系數和峰度系數進行U檢驗)等統計圖:P-P圖、Q-Q圖、直方圖、莖葉圖、箱圖等

60假設檢驗應注意的問題

1.

要有嚴密的研究設計,組間要具有可比性要保證樣本是從同質總體中隨機抽取。除了對比的因素外,其它影響結果的因素應一致。

2.選用的假設檢驗方法應符合其應用條件要了解變量的類型是計量的還是計數的,設計類型是配對設計還是成組設計,是大樣本還是小樣本。613.正確理解差別有無統計意義差別有統計意義,指我們有很大的把握認為原假設不正確,并非是說它們有較大的差別。差別無統計意義,我們只是認為以很大的把握拒絕原假設的理由還不夠充分,并不意味著我們很相信它。4.結論不能絕對化

結論具有概率性,并受抽樣誤差大小、檢驗水平高低、單/雙側檢驗的影響。5.統計學意義和顯著性的意義不同例題程序ch4_2datamb;inputx@@;d=x-72;cards;747368757582806972748372717476796773817067707869707267748066;procmeansdata=mbmeanstdstderrtprt;varxd;run;例題程序ch4_3datava;inputzhchquefa@@;d=zhch-quefa;cards;35502450200024003000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論