生物統計學—卡方檢驗_第1頁
生物統計學—卡方檢驗_第2頁
生物統計學—卡方檢驗_第3頁
生物統計學—卡方檢驗_第4頁
生物統計學—卡方檢驗_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第五章 卡方檢驗應用統計學應用統計學 卡方 (c2) 分布設總體服從設總體服從正態分布正態分布N (, 2 ), X1,X2,Xn為來自該正態總體的樣本,則樣本為來自該正態總體的樣本,則樣本方差方差 s2 的分布為的分布為將將稱為自由度為稱為自由度為的卡方分布的卡方分布) 1() 1(222nsnc 主要適用于對擬合優度檢驗和獨立性主要適用于對擬合優度檢驗和獨立性檢驗,以及對總體方差的估計和檢驗等檢驗,以及對總體方差的估計和檢驗等 選擇容量為選擇容量為n 的的簡單隨機樣本簡單隨機樣本計算樣本方差計算樣本方差S2計算卡方值計算卡方值c c2 = (n-1)S2/2計算出所有的計算出所有的c c

2、2值值不同容量樣本的抽樣分布不同容量樣本的抽樣分布總體總體卡方 (c2) 分布卡方 (c2) 分布的特點不同容量樣本的抽樣分布不同容量樣本的抽樣分布1 1、 c c2分布是一個以自由度分布是一個以自由度n為參數為參數的的分布族分布族,自由度,自由度n決定了分布的決定了分布的形狀,對于不同的形狀,對于不同的n有不同的卡方有不同的卡方分布分布2 2、卡方分布于區間、卡方分布于區間0, )0, ),是一種,是一種非對稱分布。一般為非對稱分布。一般為正偏分布正偏分布3 3、卡方分布的偏斜度隨自由度降低而增大,當自由度、卡方分布的偏斜度隨自由度降低而增大,當自由度為為1 1時,曲線以縱軸為漸近線;當自由

3、度增大的時,時,曲線以縱軸為漸近線;當自由度增大的時,分布曲線漸趨近左右對稱,當自由度分布曲線漸趨近左右對稱,當自由度大于等于大于等于3030的的時候,卡方分布接近時候,卡方分布接近正態分布正態分布4、卡方分布具有卡方分布具有“可加性可加性” X、Y 獨立,獨立, X c c2(n1) ,Y c c2(n2) 則則 X + Y c c2(n1+ n2) 卡方 (c2) 分布的函數CHIDIST:自由度為自由度為n的卡方分布在的卡方分布在x點處的點處的單尾概率單尾概率CHIINV: 返回自由度為返回自由度為n的卡方分布的單尾概率函數的的卡方分布的單尾概率函數的逆函數逆函數xP2cCHIDISTX

4、 需要計算分布的數字需要計算分布的數字 (X0)Degrees_freedom 自由度自由度 CHIINV Probability 卡方卡方分布的分布的單尾單尾概率概率Degrees_freedom 自由度自由度 c c2檢驗是以檢驗是以c c2分布為基礎的一種假設檢驗方分布為基礎的一種假設檢驗方法,主要用于分類變量,根據樣本數據推斷法,主要用于分類變量,根據樣本數據推斷總體的分布與期望分布是否有顯著差異,或總體的分布與期望分布是否有顯著差異,或推斷兩個分類變量是否相關或相互獨立。推斷兩個分類變量是否相關或相互獨立。卡方檢驗基礎卡方檢驗基礎c c2值的計算:值的計算:22()AEEc由英國統計

5、學家由英國統計學家Karl Pearson首次提出,故被首次提出,故被稱為稱為Pearson c c2 。卡方檢驗基礎卡方檢驗基礎 檢驗某個連續變量的分布是否與某種理論分布一致,如是否符合正態檢驗某個連續變量的分布是否與某種理論分布一致,如是否符合正態分布等分布等 檢驗某個分類變量各類的出現概率是否等于指定概率檢驗某個分類變量各類的出現概率是否等于指定概率 檢驗兩個分類變量是否相互獨立,如吸煙是否與呼吸道疾病有關檢驗兩個分類變量是否相互獨立,如吸煙是否與呼吸道疾病有關 檢驗控制某種或某幾種分類變量因素的作用之后,另兩個分類變量是檢驗控制某種或某幾種分類變量因素的作用之后,另兩個分類變量是否獨立

6、,如上例控制年齡、性別之后,吸煙是否與呼吸道疾病有關否獨立,如上例控制年齡、性別之后,吸煙是否與呼吸道疾病有關 檢驗兩種方法的結果是否一致,如兩種診斷方法對同一批人進行診斷,檢驗兩種方法的結果是否一致,如兩種診斷方法對同一批人進行診斷,其診斷結果是否一致其診斷結果是否一致卡方檢驗基礎用途卡方檢驗基礎用途卡方檢驗的用途卡方檢驗的用途一個樣本方差和一個樣本方差和總體方差是否相同總體方差是否相同同質性檢驗同質性檢驗適合性檢驗適合性檢驗獨立性檢驗獨立性檢驗觀察值和理論觀察值和理論值是否符合值是否符合兩個或兩個以兩個或兩個以上因素之間是上因素之間是否相關否相關計數計數資料資料和和屬性屬性資料資料一個樣本

7、方差的同質性檢驗從從標準正態總體中標準正態總體中抽取抽取k個獨立個獨立u2之和為卡之和為卡方方其其服從自由度為服從自由度為的卡方分布的卡方分布22221cxx當用樣本平均數估計總體平均數時,有:當用樣本平均數估計總體平均數時,有:2221xxc將樣本方差代入,則:將樣本方差代入,則:222) 1(csk 卡方函數的使用卡方函數的使用假設假設假設假設222020,:cc,其否定區為:適用右尾檢驗H2122020,:cc,其否定區為:適用左尾檢驗H假設假設22222122020,:cccc和其否定區為:,適用雙尾檢驗H例:例:已知某農田受到重金屬污染,經抽樣測定鉛濃度分別為已知某農田受到重金屬污染

8、,經抽樣測定鉛濃度分別為: :4.2, 4.5, 3.6, 4.7, 4.0, 3.8, 3.7, 4.2 (ug/g),4.2, 4.5, 3.6, 4.7, 4.0, 3.8, 3.7, 4.2 (ug/g),方差為方差為0.150, 0.150, 試檢驗受到試檢驗受到污染的農田鉛濃度的方差是不是和正常濃度鉛濃度的方差污染的農田鉛濃度的方差是不是和正常濃度鉛濃度的方差(0.0650.065)相同)相同分析:分析:1 1)一)一個樣本方差同質性檢驗個樣本方差同質性檢驗 2 2)事先不知道受污染的農田與正常農田的鉛濃度事先不知道受污染的農田與正常農田的鉛濃度 方差的大小,故方差的大小,故雙尾檢

9、驗雙尾檢驗 (2 2)選取顯著水平)選取顯著水平05. 0解:解:(1 1)假設)假設 即受到污染的農田鉛濃度的方差與即受到污染的農田鉛濃度的方差與正常農田鉛濃度的方差相同,對正常農田鉛濃度的方差相同,對065. 0:20H065. 0:2AH (3 3)檢驗計算)檢驗計算15.16065. 0150. 018) 1(222csk (4 4)推斷:)推斷:當當df8-18-17 7,由,由CHIINV(0.025,7)16.01,即,即 2025. 02cc 否定否定H H0 0,接受,接受H HA A,即樣本方差與總體方差,即樣本方差與總體方差試不同質的,認為受到污染的農田鉛濃度的方差與正試

10、不同質的,認為受到污染的農田鉛濃度的方差與正常農田的方差有顯著差異常農田的方差有顯著差異卡方檢驗的原理和方法卡方檢驗的原理和方法Pearson定理定理:當(當(P1 1,P2 2,,Pk k)是總體的真實)是總體的真實概率分布時,統計量概率分布時,統計量kiiiinpnpn122c隨著隨著n的增加漸近于自由度的增加漸近于自由度df=k-1的卡方分布的卡方分布。其中。其中P1 1,P2 2,,Pk k為為k種不同屬性出現的頻率,種不同屬性出現的頻率,n為樣為樣本容量,本容量,ni i為樣本中第為樣本中第i種屬性出現的次數,是觀種屬性出現的次數,是觀測值,記為測值,記為O Oi i,pi i為第為

11、第i i種屬性出現的概率,種屬性出現的概率,npi i則則可以看成理論上該樣本第可以看成理論上該樣本第i種屬性出現的次數,理種屬性出現的次數,理論值記為:論值記為:Ei i,即,即) 1( ,122kdfEEOkiiiic卡方檢驗的原理和方法卡方檢驗的原理和方法Pearson定理的基本含義定理的基本含義: 如果樣本確實是抽自由(如果樣本確實是抽自由(P1 1,P2 2,,Pk k)代)代表的總體,表的總體,Oi i和和Ei i之間的差異就只是隨機誤差,之間的差異就只是隨機誤差,則則Pearson統計量可視為服從卡方分布統計量可視為服從卡方分布 反之,如果樣本不是抽自由(反之,如果樣本不是抽自由

12、(P1 1,P2 2,,Pk k)代表的總體,代表的總體,Oi i和和Ei i之間的差異就不只是是隨機之間的差異就不只是是隨機誤差,從而使計算出的統計量有偏大的趨勢誤差,從而使計算出的統計量有偏大的趨勢 因此,對因此,對Pearson統計量進行統計量進行單尾檢驗單尾檢驗(即(即右尾檢驗右尾檢驗)可用于判斷離散型資料的觀測值與理)可用于判斷離散型資料的觀測值與理論值是不是吻合論值是不是吻合卡方檢驗的原理和方法卡方檢驗的原理和方法統計假設:統計假設: H0:觀測值與理論值的差異是由:觀測值與理論值的差異是由隨機誤差隨機誤差引起引起 HA A:觀測值與理論值之間有:觀測值與理論值之間有真實差異真實差

13、異 所以卡方值是度量實際觀測值與理論值偏南所以卡方值是度量實際觀測值與理論值偏南程度的一個統計量程度的一個統計量 卡方值越卡方值越小小,表明觀測值與理論值越,表明觀測值與理論值越接近接近 卡方值越卡方值越大大,表明觀測值與理論值,表明觀測值與理論值相差越大相差越大 卡方值為卡方值為0 0,表明,表明H0嚴格成立,且它不會有下側嚴格成立,且它不會有下側否定區,只能進行否定區,只能進行右尾檢驗右尾檢驗卡方檢驗的原理和方法卡方檢驗的原理和方法 由于離散型資料的卡方檢驗只是由于離散型資料的卡方檢驗只是近似地服從連近似地服從連續型續型變量的卡方分布,所以在對離散型資料進行變量的卡方分布,所以在對離散型資

14、料進行卡方檢驗計算的時,結果常常偏低,特別是當自卡方檢驗計算的時,結果常常偏低,特別是當自由度由度df=1=1時,有較大偏差,為此需要進行矯正:時,有較大偏差,為此需要進行矯正: 當自由度當自由度df1時,與連續型隨機變量卡方分相時,與連續型隨機變量卡方分相近似,這時可以近似,這時可以不做連續性矯正不做連續性矯正 注意:注意:要求各個組內的理論次數要求各個組內的理論次數不小于不小于5 5,如某,如某組理論次數小于組理論次數小于5 5,則應把它與其相鄰的一組或,則應把它與其相鄰的一組或幾組合并,知道理論次數大于幾組合并,知道理論次數大于5 5為止為止kiiiicEEO1225 . 0c適合性檢驗

15、適合性檢驗 適合性檢驗(吻合性檢驗或擬合優度檢驗)適合性檢驗(吻合性檢驗或擬合優度檢驗)步驟:步驟: 1. 1. 提出無效假設,即認為觀測值和理論值之間提出無效假設,即認為觀測值和理論值之間沒有差異沒有差異 2. 2. 規定顯著性水平規定顯著性水平 3. 3. 計算樣本卡方值計算樣本卡方值 4. 4. 根據規定的顯著水平和自由度計算出卡方值,根據規定的顯著水平和自由度計算出卡方值,再和實際計算的卡方值進行比較再和實際計算的卡方值進行比較例:例:有一鯉魚遺傳試驗,以荷包鯉魚(紅色,隱性)與湘江有一鯉魚遺傳試驗,以荷包鯉魚(紅色,隱性)與湘江野鯉(青灰色,顯性)雜交,其野鯉(青灰色,顯性)雜交,其

16、F2F2獲得下表的所列的體色分獲得下表的所列的體色分離尾數,問這一資料的實際觀測值是否符合孟德爾一對等位離尾數,問這一資料的實際觀測值是否符合孟德爾一對等位基因的遺傳規律?基因的遺傳規律? 鯉魚遺傳試驗鯉魚遺傳試驗F2F2觀測結果觀測結果分析:分析:1 1)適合性檢驗問題適合性檢驗問題 2 2) 自由度為自由度為(2-1)=1,需要連續性矯正,需要連續性矯正 (2 2)選取顯著水平)選取顯著水平05. 0解:解:(1 1)假設)假設 鯉魚體色鯉魚體色F2F2性狀分離性狀分離符合符合3:1 3:1 對對 鯉魚體色鯉魚體色F2F2性狀分離性狀分離不不符合符合3:1 3:1 :0H:AH體色體色青灰

17、色青灰色紅色紅色總數總數F2F2觀測觀測尾數尾數15031503999916021602(3 3)檢驗計算:)檢驗計算: 計算鯉魚體色的理論值計算鯉魚體色的理論值63.3015 . 0122kiiiicEEOc體色體色青灰色青灰色紅色紅色總數總數F2F2理論理論尾數尾數1201.51201.5400.5400.516021602(4 4)推斷:)推斷:由由CHIDIST(301.63, 1)=1.45E-67,CHIDIST(301.63, 1)=1.45E-67,即即 故應否定故應否定H0,接受,接受HA,認為鯉魚體色,認為鯉魚體色F2F2性狀比不符合性狀比不符合3:13:1比率比率 01.

18、 063.3012cP(4 4)推斷:)推斷:由由CHIINV(0.025, 1)=5.02, CHIINV(0.025, 1)=5.02, 即即 故應否定故應否定H0,接受,接受HA,認為鯉魚體色,認為鯉魚體色F2F2性狀比不符合性狀比不符合3:13:1比率比率 05. 0,2)1 (05. 02Pc即cc獨立性檢驗獨立性檢驗步驟:步驟: 1. 1. 提出無效假設,即認為所觀測的各屬性之間提出無效假設,即認為所觀測的各屬性之間沒有關聯沒有關聯 2. 2. 規定顯著性水平規定顯著性水平 3. 3. 根據無效假設計算出理論數根據無效假設計算出理論數 4. 4. 根據規定的顯著水平和自由度計算出卡

19、方值,根據規定的顯著水平和自由度計算出卡方值,再和計算的卡方值進行比較。再和計算的卡方值進行比較。 如果接受假設,則說明因子之間無相關聯,如果接受假設,則說明因子之間無相關聯,是相互獨立的是相互獨立的 如果拒絕假設,則說明因子之間的關聯是顯如果拒絕假設,則說明因子之間的關聯是顯著的,不獨立著的,不獨立一、一、2X2列聯表的獨立性檢驗列聯表的獨立性檢驗設設A A、B B是一個隨機試驗中的兩個事件,其中是一個隨機試驗中的兩個事件,其中A A可能可能出現出現r1 1、r2 2個結果,個結果,B B可能出現可能出現c1 1、c2 2個結果,兩個結果,兩因子相互作用形成因子相互作用形成4 4個數,分別以

20、個數,分別以O1111、O1212、O2121、O2222表示,即表示,即 2 2X2 2列聯表的一般形式列聯表的一般形式c1c2總和r1r2O11O21O12O22R1O11O12R2O21O22總和C1O11O21C2O12O22T一、一、2X2列聯表的獨立性檢驗列聯表的獨立性檢驗2 2X2 2列聯表的卡方檢驗步驟:列聯表的卡方檢驗步驟:1 1、提出無效假設、提出無效假設H0:事件:事件A和和B無關,即事件無關,即事件A和和B相互獨立,同時給出相互獨立,同時給出HA:事件:事件A和和B有關聯關系有關聯關系2 2、給出顯著水平、給出顯著水平3 3、依據、依據H0,可以推算出理論值,計算卡方值

21、,可以推算出理論值,計算卡方值4 4、進行推斷、進行推斷例:例:現隨機抽樣對吸煙人群和不吸煙人群是否患有氣管炎病現隨機抽樣對吸煙人群和不吸煙人群是否患有氣管炎病進行了調查,其調查結果如下表,試檢驗吸煙與患氣管炎病進行了調查,其調查結果如下表,試檢驗吸煙與患氣管炎病有無關聯?有無關聯? 不同人群患氣管炎病調查不同人群患氣管炎病調查分析:分析:1 1)獨立性檢驗問題獨立性檢驗問題 2 2) 自由度為自由度為df=(2-1)*(2-1)=1,需要,需要連續性矯正連續性矯正 (2 2)選取顯著水平)選取顯著水平05. 0解:解:(1 1)假設)假設 吸煙與患氣管炎無關吸煙與患氣管炎無關 對對 吸煙與患

22、氣管炎有關聯吸煙與患氣管炎有關聯 :0H:AH不同人群患病不患病總和Ri吸煙人群50250300不吸煙人群5195200總和Cj55445T500(3 3)檢驗計算:)檢驗計算: 計算聯表中的各項的理論次數計算聯表中的各項的理論次數174.235 . 0122kiiiicEEOc不同人群患病不患病總和Ri吸煙人群3333267267300不吸煙人群2222178178200總和Cj55445T500(4 4)推斷:)推斷:由由CHIDIST(23.174, 1)=1.48E-6,CHIDIST(23.174, 1)=1.48E-6,即即 故應否定故應否定H0,接受,接受HA,認為吸煙與患氣管病

23、,認為吸煙與患氣管病極顯著極顯著相關相關 01. 0174.232cP(4 4)推斷:)推斷:由由CHIINV(0.025, 1)=6.63, CHIINV(0.025, 1)=6.63, 即即 故應否定故應否定H0,接受,接受HA,認為吸煙與患氣管炎病密切相關,認為吸煙與患氣管炎病密切相關 05. 0,2)1 (05. 02Pc即cc二、二、rXc列聯表的獨立性檢驗列聯表的獨立性檢驗rXc列聯表是指列聯表是指r2, 2, c22的計數資料,一般形式如下的計數資料,一般形式如下 rXc列聯表的一般形式列聯表的一般形式12c總和12rO11O21Or1O12O22Or2O1cO2cOrcR1R2

24、總和C1C2CcT二、二、rXc列聯表的獨立性檢驗列聯表的獨立性檢驗 rXc列聯表中各項理論頻率的計算方法如列聯表中各項理論頻率的計算方法如2X2列聯列聯表,即:表,即:Eij=(RiCj/T),由于自由度,由于自由度df(r-1)( c-1),由由于于r2, c2,故自由度,故自由度df1,因而不需要進行連續性矯因而不需要進行連續性矯正,其計算公式如下:正,其計算公式如下: 122jiijCROTc例:例:某醫院用碘劑治療地方性甲狀腺腫,不同年齡的治療效某醫院用碘劑治療地方性甲狀腺腫,不同年齡的治療效果如下表,試檢驗不同年齡的治療效果有無差異?果如下表,試檢驗不同年齡的治療效果有無差異? 不同年齡用碘劑治療甲狀腺腫效果比較不同年齡用碘劑治療甲狀腺腫效果比較分析:分析:1 1)獨立性檢驗問題獨立性檢驗問題 2 2) 自由度為自由度為df=(4-1)*(3-1)=6,不不需要需要連續性矯正連續性矯正 (2 2)選取顯著水平)選取顯著水平05. 0解:解:(1 1)假設)假設 治療效果與年齡無關治療效果與年齡無關 對對 治療效果與年齡有關治療效果與年齡有關 :0H:AH年齡年齡治愈治愈顯效顯效好轉好轉無效無效總和總和1111303067910591313150503223204795050歲以上歲以上101123549總和總和109435314219(3 3)檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論