卡方檢驗講解_第1頁
卡方檢驗講解_第2頁
卡方檢驗講解_第3頁
卡方檢驗講解_第4頁
卡方檢驗講解_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

VIP免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

χ2檢驗(Chi-squaretest)是現代統計學的創始人之一,英國人K.Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統計方法,可用于兩個率或構成比間的比較,多個率或構成比間的比較,多個樣本率比較的χ2分割,兩個分類變量間有無關聯性,擬合優度的χ2檢驗等等。

卡方檢驗重點掌握:1.卡方檢驗的基本思想;2.完全隨機設計和配對設計四格表資料卡方檢驗的步驟及應用條件;3.行×列表資料的卡方檢驗及應用中應注意的問題。主要內容:1.卡方檢驗的基本思想;2.四格表資料的卡方檢驗;3.行×列表資料的卡方檢驗;4.率的多重比較;5.頻數分布擬合優度的卡方檢驗;6.四格表資料的確切概率法;

7.線性趨勢檢驗。χ2分布的特征:

(1)χ2分布是一種連續型分布,其形狀依賴于自由度ν的大小:當自由度ν≤2時,曲線呈L型;隨著ν的增加,曲線逐漸趨于對稱;當自由度ν∞時,χ2分布趨向正態分布。

(2)χ2分布具有可加性:如果兩個獨立的隨機變量X1和X2分別服從自由度n1和n2的χ2分布,那么它們的和(X1+X2)服從自由度n1+n2的χ2分布。

(3)χ2分布的分位數:當自由度ν確定后,χ2分布曲線下右側尾部的面積為α時,橫軸上相應的χ2值記作χ2α,ν

即χ2分布的分位數。v=1v=4v=6v=9例7-1某神經內科醫師欲比較A、B兩種藥治療腦血管栓塞病人的療效,將病情、病程相近且滿足試驗入選標準的156例腦血管栓塞患者隨機分為兩組,結果見表7-1。問兩藥治療近期有效率是否有差別?表7-1兩藥治療腦血管病有效率比較第一節卡方檢驗的基本思想藥物有效無效合計有效率(%)A73(65.7)9(16.3)8289.02B52(59.3)22(14.7)7470.27合計1253115680.132.卡方檢驗的基本思想實際頻數A

(actualfrequency)(a、b、c、d)的理論頻數T(theoreticalfrequency)(H0:π1=π2=π):a的理論頻數=(a+b)×pc=(a+b)×[(a+c.)/n]=nRnC/n=65.7b的理論頻數=(a+b)×(1-pc)=(a+b)×[(b+d.)/n]=nRnC/n=16.3c的理論頻數=(c+d)×pc=(c+d)×[(a+c)/n]=nRnC/n=59.7d的理論頻數=(c+d)×(1-pc)=(c+d)×[(b+d.)/n]=nRnC/n=14.32.卡方檢驗的基本思想卡方檢驗的基本思想可以通過卡方檢驗的基本公式來理解。從基本公式可以體會到卡方值反映了實際頻數和理論頻數吻合的程度。A與T相差越大,則(A-T)2的值越大,反之則越小。然而由(A-T)2的值來衡量實際頻數與理論頻數相差的程度,尚有不足之處。因為絕對差異值的大小還不能完全表示相差的程度,例如:某一資料的實際頻數為386,理論頻數為380,另一資料實際頻數為20,理論頻數為14,兩者的(A-T)2均為36,然而前者為386例中僅差6,后者在20例中就差6,兩者所占的比重極不相同。為彌補這一缺點,需把(A-T)2的值變為相對數,即把(A-T)2的值與相應的理論頻數T值相比,即(A-T)2/T,以此來反映(A-T)2應占的比重。將每組的(A-T)2/T的值相加,即得基本公式。(A-T)2為什么與理論頻數T相比,而不是與實際頻數A相比?其理由是:①當理論頻數的數值極小時,由于抽樣誤差可使實際頻數為零,所以不如用理論頻數可靠;②理論頻數是大量的經驗和自然規律推算得來,而實際頻數來自有限的樣本,變動較大,所以用理論頻數比較合理。

各種情形下,理論頻數與實際頻數偏離的總和即為卡方值(chi-squarevalue),它服從自由度為ν的卡方分布。2.卡方檢驗的基本思想

上述基本公式由Pearson提出,因此軟件上常稱這種檢驗為Pearson卡方檢驗,下面將要介紹的其他卡方檢驗公式都是在此基礎上發展起來的。它不僅適用于四格表資料,也適用于其它的“行×列表”。2.卡方檢驗的基本思想二、四格表資料的χ2檢驗

(一)四格表資料的χ2檢驗的基本步驟1、建立檢驗假設,確定檢驗水準H0

1=2H1

1

2

=0.05。2、計算檢驗統計量ν=(2-1)(2-1)=13、確定p值,作出推斷結論查ν=1的χ2界值表得P<0.05,按=0.05水準,拒絕H0,接受H1,差別有統計學意義,可以認為A、B兩藥治療有效率有差別

。(二)四格表專用公式

為了不計算理論頻數T,

當n

40,所有T

5時,可由基本公式推導出,直接由各格子的實際頻數(a、b、c、d)計算卡方值的公式:四格表專用公式結果與基本公式計算的相同當n

40,所有T

5時,

2(1)~u2將上例例數據代入專用公式,得(三)四格表資料卡方檢驗的校正

χ2分布是一連續型分布,而行×列表資料屬離散型分布,對其進行校正稱為連續性校正(correctionforcontinuity),又稱Yates校正(Yates'correction)。⑴當n≥40,且所有T

5時,用基本公式或四格表專用公式;當P≈α時,用四格表資料的Fisher確切概率法。⑵當n≥40,而1≤T<5時,用連續性校正公式。⑶當n<40或T<1時,用四格表資料的Fisher確切概率法。校正公式:例7-2某醫師采用復合氨基酸膠囊治療肝硬化病人,觀察兩組病人指標ALT的變化,數據見表7-2,試比較治療后兩組病情改善率是否有差別。四格表資料卡方檢驗的校正公式分組改善未改善合計有效率(%)實驗組23(20.24)2(4.76)2592.00對照組11(13.76)6(3.24)1764.71合計3484280.95因為1<T<5,且n>40時,所以應用連續性校正χ2檢驗表7-2復合氨基酸膠囊對肝硬化病人病情改善效果分析

在計量資料方面,同一對象試驗前后差別的統計意義檢驗(或個別配對資料)與兩個樣本均數差別的統計意義檢驗方法是不同的,在計數資料方面也是如此。下面討論配對設計,試驗結果為“二分類”的計數資料,從設計來說,與前面介紹的計量資料配對t檢驗是一樣的,配對計數數據的結果僅有四種情況。三、配對設計分類變量資料的χ2檢驗甲乙合計+-+aba+b-cdc+d合計a+cb+dn配對四格表形式分組+-合計甲aba+b乙cdc+d合計a+cb+dn一般四格表形式例7-3某研究組采用病理(甲法)與超聲(乙法)檢查兩種方法,檢查確診乳腺癌患者257例,結果見表7-4,問兩種方法檢出率是否有差別?表7-4兩種方法的檢驗結果

甲法乙法合計+-+130(a)75(b)205-11(c)41(d)52合計141116257配對四格表資料的χ2檢驗也稱McNemar檢驗H0:兩種方法的總體檢出率相同,即兩總體B=C

H1:兩種方法的總體檢出率不同,即兩總體B≠Cα=0.05已知b=75,c=11,b+c≥40,故將其代入上面公式,有按α=0.05水準拒絕H0,接受H1,有統計學意義,故可認為兩種方法的檢出率不同,病理檢查檢出率(205/257)高于超聲檢查(141/257)。配對四格表資料的χ2檢驗公式推導第三節、行×列表資料的χ2檢驗(一)多個樣本率的比較(二)兩組或多組構成比的比較(三)行×列表資料的關聯性檢驗

(四)行×列表χ2檢驗的注意事項R×C表的χ2檢驗通用公式(一)多個樣本率的比較例7-4將133例尿路感染患者隨機分為3組,接受甲法治療44例,接受乙法治療45例,接受丙法治療44例。一個療程后檢測尿路感染陰轉情況,結果整理見表7-5,問三種療法尿培養陰轉率是否有差別?

表7-5三種療法對尿路感染患者的治療效果療法陰轉人數陽性人數合計陰轉率%)甲30144468.2乙9364520.0丙32124472.7合計716213353.41、建立檢驗假設,確定檢驗水準H0

1=2=3H1

1

、2

、3不全相等=0.052、計算檢驗統計量ν=(3-1)(2-1)=23、確定p值,作出推斷結論查ν=2的χ2界值表,得P<0.005。按=0.05水準拒絕H0,接受H1,差別有統計學意義,故可認為3種療法對尿路感染療效有差別。

(二)兩組或多組構成比的比較例7-5某院對胃鏡檢測胃十二指腸球部潰瘍患者239例和健康輸血員187例血型分布資料整理見表7-6,問胃十二指腸球部潰瘍患者與健康輸血員血型分布是否不同?239例胃十二指腸疾病患者與187例健康輸血員血型分布分組ABABO合計胃十二指腸疾病組476620106239健康輸血員組52541962187合計99120391684261、建立檢驗假設,確定檢驗水準H0:胃十二指腸疾病患者與健康輸血員血型分布的構成相同;H1:胃十二指腸疾病患者與健康輸血員血型分布的構成不同

=0.052、計算檢驗統計量3、確定p值,作出推斷結論查χ2界值表,得P>0.05,以

=0.05水準,不拒絕H0,差別無統計學意義,尚不能認為胃十二指腸疾病患者與健康輸血員血型分布的構成不同。三、行×列表資料的關聯性檢驗例7-6某醫院觀察了三年間四個季節中四種甲狀腺疾病檢出情況,整理結果如表7-7,問四種甲狀腺疾病檢出情況是否與季節有關聯?疾病分類季節合計春夏秋冬甲亢4114512942841440亞甲炎2493293312041113甲低60615952232甲狀腺腫瘤45504640181合計7658917305802966表7-7某院季節與甲狀腺疾病檢出情況關聯性分析1、建立檢驗假設,確定檢驗水準H0:甲狀腺疾病的檢出與季節無關聯;H1:甲狀腺疾病的檢出與季節有關聯

=0.052、計算檢驗統計量3、確定p值,作出推斷結論查χ2界值表,得P<0.005,以

=0.05水準,拒絕H0,接受H1,差別有統計學意義,可認為甲狀腺疾病的檢出情況與季節有關聯。

欲進一步說明兩變量間關聯程度的大小,可計算列聯系數,常用的有:Pearson列聯系數

Cramér列聯系數(修正)式中,:根據樣本資料計算的值;:樣本含量;:取和列聯系數值界于0-1之間,列聯系數為0表示尚不能認為兩變量間有關聯;列聯系數愈接近于1,可認為兩變量間的關聯程度越高。中的較小者。本例由此看出甲狀腺疾病的檢出雖然與季節有關聯性,但數值較小,盡管有統計學意義,但兩變量間關聯性較小。四、R×C表χ2檢驗注意事項1.計算x2值時,必須用絕對數,而不能用相對數,因為x2值的大小與頻數大小有關。2.x2檢驗要求理論數不宜太小,否則有可能導致分析的偏性。理論頻數太小界定為:有1/5以上格子的理論頻數小于5大于等于1,或至少有1個格子的理論頻數小于1。長期以來,對于理論頻數太小的情形,大致有3種處理方法:①適量增大樣本含量,增大理論頻數;②相鄰組進行合理歸并。按專業知識考慮,將理論數太小的行(或列)的實際頻數與性質相近的鄰行(或鄰列)合并;③舍棄部分數據。在無法實施前兩條措施時,考慮刪除理論頻數太小的行或列,但這種做法會損失資料的部分信息;④采用確切概率法,可由SAS、SPSS軟件實現。

3.行×列表資料檢驗的結果分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論