第九章 秩和檢驗_第1頁
第九章 秩和檢驗_第2頁
第九章 秩和檢驗_第3頁
第九章 秩和檢驗_第4頁
第九章 秩和檢驗_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

10.1非參數統計的概念和應用范圍一、非參數統計概念參數統計(parametricstatistics):在前面所討論的方法中,如總體均數的區間估計、兩個或多個均數的比較、相關系數與回歸系數的假設檢驗等,常有一個關于總體變量分布的前提。都以變量的總體分布已知作為前提的。如t檢驗和方差分析都要求總體變量服從正態分布,即假設樣本所來自的總體分布具有某個已知的函數形式,而其中有的參數是未知的,統計分析的目的就是對這些未知參數進行估計或檢驗。這類方法稱為參數統計(parametricstatistics),所用的檢驗稱為參數檢驗(parametrictest)。非參數統計(nonparametricstatistics):在許多實際問題中總體分布的函數形式往往不知道,或者知道得很少,例如只知道總體分布是連續型的或離散型的。這時參數統計方法就不大適用了,而需要借助于另一種不依賴總體分布的具體形式,也不對參數進行估計或檢驗的統計方法,而是對總體的分布型或分布的位置進行檢驗,這種假設檢驗方法稱為非參數統計(nonparametricstatistics),其檢驗方法就是非參數檢驗(nonparametrictest),它檢驗的是分布或分布位置,而不是參數。即在假設檢驗中不對參數作明確的斷定,也不涉及關于樣本所來自的總體分布的檢驗。如卡方檢驗,本章要講到的秩和檢驗和Ridit分析等。二、非參數統計方法的適用范圍1、有序分類資料(變量)。有的教材中稱為等級分組資料。如臨床上療效等級。2、未知分布型的資料和一端或兩端無界的資料。3、極度偏態資料。經一定變量變換方法轉換后仍不能成正態分布或某種特定的分布。4、個體變異較大,各比較組間方差不齊的資料。三、非參數統計方法的優缺點非參數統計的主要優點是:適用范圍廣。因為非參數統計方法不受總體分布的限制,即使分布是未知時也能適用,尤其適用于對有序分類資料,它們是有序分類資料最有效的統計方法。搜集資料方便。由于非參數統計在搜集資料時可用“等級”或“符號”來評定觀察結果,因而搜集資料十分方便。非參數統計的主要缺點是:對適宜用參數方法的資料,若用非參數法處理,因沒有充分利用資料提供的信息,而效率降低。如對于適用參數檢驗的資料,若用非參數檢驗,導致檢驗功能下降。即當無效假設H0不真時,非參數檢驗不如參數檢驗能較靈敏地拒絕H0,犯第II類錯誤的概率要比參數檢驗大。本章介紹的一些秩和檢驗,其效率是相應參數檢驗的95%;Spearman等級相關的效率同功效最強的參數相關檢驗?相比大約為91%。非參數統計方法很多,本章僅介紹秩和檢驗(ranksumtest)、等級相關(rankcorrelation)和Ridit分析等一些常用的、效率較高又比較系統的方法。10.2兩樣本比較秩和檢驗一、適用資料:兩樣本比較秩和檢驗(Wilcoxon兩樣本比較法)適用于完全隨機設計中兩組或調查研究中兩樣本比較,其資料類型可以為數值變量資料,也可以是兩組有序分類變量資料。下面結合實例加以介紹二、檢驗方法與步驟(見例10.2)(一)原始數據的兩樣本檢驗例10.2測得鉛作業與非鉛作業工人的血鉛值(”mol/L),見表10.1,問兩組工人的血鉛值有無差別?表1口1兩組工人的血鉛值(^rngVL)鉛作業組(1)秩很⑵⑶秩次⑷'0.8290.241.0.S7.10:5W-20.9712.K叫31.21140.3341.64150.4452.081662.13'170.6370.72S0.S710.51.0113虹7Ti=93.5以=1口分析:此資料為從鉛作業和非鉛作業工人的兩個總體中隨機抽取的兩個樣本比較的數值變量資料,其分布為偏態分布。1、檢驗假設HO:鉛作業工人和非鉛作業工人血鉛值分布的位置相同。H1:鉛作業工人和非鉛作業工人血鉛值分布的位置不同。a=0.052、求檢驗統計量T值⑴編秩。將兩組數據分別由小到大排序,然后統一編秩。編秩時如遇有原始數據相同時,可分兩種情況處理:①相同數據在同一組,如非鉛作業組第1、2兩個數據皆是0.24,其秩次按位置的順序記為1、2。②相同數據分在兩組,如鉛作業和非鉛作業組各有一個0.87,應編秩次10、11,均取其平均秩次(10+11)/2=10.5。⑵求秩和,確定檢驗統計量。分別求兩組秩和,以樣本含量較小者為n1,其秩和為統計量T。若n1=n2,可取任一組的秩和為T。本例n1=7,n2=10,T=93.5。3、確定P值和作出推斷結論⑴查表法。由n1,n2-n1查附表18,若T值在界值Ta范圍內,則P>a若T值在界值Ta夕卜,或恰好等于下界值(或上界值),則PWa。本例n1=7,n2-n1=3,T=93.5,查附表18得雙側P<0.05,按a=0.05水準,拒絕H0,接受H1,故認為鉛作業工人比非鉛作業工人的血鉛值高。⑵u檢驗法。如果n1或n2-n1超出附表18的范圍,可用正態近似法即u檢驗,按式(10.2)計算u值。(1口?矽"-小(心1)制—0.5式中N=n1+n2,0.5為連續性校正數。標拉+】/和1)門2分別是統計量丁的均數和標準誤。公式(10.2)是在無相同秩次(tie)(1口?矽當相同秩次較多時,尤其在有序分類資料中,常采用頻數表作秩和檢驗,以各組段的平均秩次代表該組段的所有觀察值。故按(10.2)式計算的u偏小,須按(10.3)式校正。D京(1粉式中C=1一以I)仞頃)tj為第j個相同秩次的個數。(二)頻數表資料的兩樣本比較例10.2用某藥治療不同病情的老年慢性支氣管炎病人,療效見表10.2第(1)、(2)兩欄,問該藥對兩種病情的老年慢性支氣管炎病人的療效是否相同?表糖對兩神病情的老年慢性支氣管炎病入的療效比較療效單舞性(1)單純性合并肺氣腫(2)合計矛-(11)+雋)秩次范圍(4)平均秩決(5)秩和單覿性合并肺氣腫〔7岸甲心1控制65-42107U1075435102268顯效1862410S-131119.52151717有效302353132.^1841炙47403634無效13112418茂196':52554.52161,5-合計126§2208'12955.5§780.5分析:本資料兩組有序分類資料的比較。1、檢驗假設H0:兩種病情病人的療效分布相同H1:兩種病情病人的療效分布不同,a=0.052、計算檢驗統計量u值編秩。兩樣本秩和檢驗的基本思想是先將兩組數據分別從小到大排序,然后統一編秩;對于兩組有序分類資料,如表10.2,實際上已按等級進行群體排隊,如表10.2中第一欄,65個“控制”排在最前,其次是18個“顯效”,?;由于有序分類資料,在兩組統一編秩時,相同秩次很多,如表10.2中的第四欄。為對兩組數值進行編秩,需先計算各等級的合計人數,見第(3)欄,再確定各等級的合計例數在兩組所有數值中所處的秩次,即秩次范圍。如療效為“控制”者共107人,其秩次范圍1?107,這107人屬同一等級,不能分高低,故一律以其平均秩次(1+107)/2=54代表,仿此得(4)、(5)欄。求秩和。分別將每組各等級的頻數乘以每個等級的平均秩次,即表中的第(5)欄乘以(1)、(2)欄人數,相加即得兩組各自的秩和,見第(6)、(7)欄,因n1=82,T=8780.5。此例n1=82,n2=126,n2-n1=44,已超過附表18所列范圍,可由公式(10.2)求u值。又由于此資料的相同秩次很多,須按(10.3)式作校正。

|8780.5-l/2^82^i20S+li-0.5'.一=0.4974J82:xl26><(208+11/12208^-20811073-1071+1245-241+1533-53:|+(24s-24I.、=0S443208^-20804974一====0.541-./014433、確定P值和作出結論推斷uc<1.96,P>0.05,按a=0.05水準不拒絕H0,故認為本療法對上述兩種病情的患者并未顯示出不同療效。注意:本例也可用第8章中RXC表滄檢驗,但在滄檢驗中,各級的秩序任意排列所得X2值相同,因而判斷結果相同。但各級別有強弱之分,不能任意排列,只能從強到弱或從弱到強。因此,X2檢驗沒有考慮等級的強弱信息,而秩和檢驗考慮了這點,說明秩和檢驗更適合于單向有序分類資料。三、本法的基本思想如果H0成立,則當n1與n2確定后,樣本含量為n1的樣本之T與其平均秩和n1(N+1)/2應相差不大;若相差懸殊,超出了附表18中按a水準所列的范圍,說明隨機抽得現有樣本統計量T值的概率P小于a,因而在a水準上拒絕H010.3多個樣本的秩和檢驗在第7章里我們介紹過完全隨機設計資料的方差分析法。這里介紹一種與之對應的非參數統計方法一H檢驗(Kruskal-Wallis法),此法適用于有序分類資料及不宜用參數檢驗(F檢驗)的數值變量資料。方法步驟見例10.3。例10.3在研究白血病時,測得鼠脾的DNA含量如表10.3第(1)、(3)、(5)、(7)欄。問不同病情的鼠脾DNA含量有無差別?216J134J123.5J54.5++216J134J123.5J54.5+++8798正常C1)秩毒自發件白而秩袱⑷患移植性白血病眩蹣片組)⑸秩次(6)患移植性白血病OB【召組)(7)秩彼頃⑵病時的脾(3)12.310.8W9.3195.213.22211.61310.33;510.33.513.72612:.31811.11110/5515.2招12.72111.71410:5615.42913.52311.71510:5115..S-3013.52412.01610.P916.P3114.82712.311.01017.3321242011.51213.215Bi2161341.23.5.54:5879%-3x(32+1)=19.8991

假設:H0:四種鼠脾DNA含量的總體分布位置相同。H1:四種鼠脾DNA含量總體分布位置不同或不全相同。a=0.05(2)計算檢驗統計量H值先將四組觀察值分別由小到大排隊,統一編秩,見表10.3第(2)、(4)、(6)、(8)欄;遇有相同觀察值時,若相同數據在不同組內,取其平均秩次,如第(5)、(7)欄各有一個10.3,均取原秩次3及4的平均秩次3.5,若相同數據在同一組內,其秩次按位置順序編號,如第3)欄有兩個13.5,可不必計算平均秩次,但校正時仍視為相同秩序。再求出各組秩和,記為Ri,下標i表示組序(i=1、2、3、4)。按式(10.3)計算統計量H值。(10.4)式中ni為各組例數,N=為總例數。本例:確定P值和作出推斷結論若組數k=3,每組例數niW5,可查附表19,H界值表得出P值。若k>3最小樣本例數不小于5,則H近似服從v=k-1的X分布。本例k=4,ni>5,v=k-1=4-1=3,查附表4,X界值表,得P<0.005。按a=0.05水準拒絕H0,接受H1,認為不同病情的鼠脾DNA含量有差別。當各樣本相同秩次較多時,由式(10.3)計算所得的H值偏小,此時應按式(10.4)作H值的校正。(10.5)N3-N例10.4某醫生用三種方劑治療某婦科病,療效如表10.4,問三種方劑的療效有無差別?表1D.4三種方劑的療效比較療效(1)糖衣片⑵黃酮片⑶復方組⑷合計⑸秩次范圍平均秩次⑺無效485131~免33.5好轉1843623667-3021845顯效771811106303-408355項控制5219178S452.5S645951^.11618680.53615877(1)假設H0:三種方劑療效分級的總體分布相同。

H1:三種方劑療效分級的總體分布不同或不全同。a=0.05(2)求檢驗統計量Hc為了對三組有分類資料進行統一編秩,需計算各等級的合計數,見表10.4(5)欄,再決定各等級的合計例數在所有數值中所處的秩次范圍如(6)欄所示。由于同一等級的數據為相同的數值,故應計算平均秩次如(7)欄。再求秩和Ri。如(2)欄R1是用(2)欄各等級的頻數與⑺欄平均秩次相乘再求和,即A,=48x33.5+184x184.5+77x355.5+52x452.5=86459.5,七小曰主“/1,仿此得表10.4下部Ri行。按(10.4)式(10.5)計算H值。12H.=又12H.=又

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論