卡方檢驗與非參數檢驗_第1頁
卡方檢驗與非參數檢驗_第2頁
卡方檢驗與非參數檢驗_第3頁
卡方檢驗與非參數檢驗_第4頁
卡方檢驗與非參數檢驗_第5頁
已閱讀5頁,還剩43頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、卡方檢驗和非參數檢驗卡方檢驗和非參數檢驗u在總體分布形式已知條件下未知參數檢在總體分布形式已知條件下未知參數檢驗問題。但實際問題中總體的分布形式驗問題。但實際問題中總體的分布形式往往是未知的,雖然根據中心極限定理往往是未知的,雖然根據中心極限定理可以有相當的把握認為大多數經濟變量可以有相當的把握認為大多數經濟變量服從或近似服從正態分布,但有時為了服從或近似服從正態分布,但有時為了使所做的統計推斷更具說服力,就需要使所做的統計推斷更具說服力,就需要對總體的分布形式進行檢驗。對總體的分布形式進行檢驗。 1 本章主要內容本章主要內容:u(1)總體分布的卡方()總體分布的卡方( )檢驗;)檢驗;u(2

2、)兩個比例差異的卡方()檢驗(獨立樣本);)兩個比例差異的卡方()檢驗(獨立樣本);u(3)兩個以上比例差異的卡方()檢驗(獨立樣本);)兩個以上比例差異的卡方()檢驗(獨立樣本);u(4)獨立性的卡方()檢驗;)獨立性的卡方()檢驗;u(5)兩個比例差異的)兩個比例差異的McNEMAR檢驗(相關樣本);檢驗(相關樣本);u(6)兩個獨立總體的非參數檢驗()兩個獨立總體的非參數檢驗(Wilcoxon秩和檢驗);秩和檢驗);u(7)單因素方差分析的非參數檢驗()單因素方差分析的非參數檢驗(Kruskal-Wallis秩秩檢驗)檢驗)22222u檢驗的基本原理檢驗的基本原理u(1)設設x1,x2,

3、xn為總體為總體X的一組樣本觀察值,的一組樣本觀察值,F(x)為某一已知分布的分布函數,為某一已知分布的分布函數, 1, 2, r是的是的r個待定參數,分別是個待定參數,分別是r個參數的點估計,個參數的點估計,以分別代替以分別代替 1, 2,., r ,作原假設,作原假設 H0:總體:總體X的分布函數為的分布函數為F(x) u(2) 將將F(x)的定義域劃分為的定義域劃分為k個互不相交的區個互不相交的區間間 (ai , ai+1 ,i =1,2, k;記;記fi為樣本為樣本觀 察 值觀 察 值 x 1 , x 2 , , x n 落 在 第 個 區 間落 在 第 個 區 間(ai ,ai+1

4、內的頻數,并記內的頻數,并記 Pi=Pai X ai+1= F(ai+1)-F(ai ) 32.1總體分布的總體分布的 檢驗檢驗u為以為以F(x)為分布函數的隨機變量在區間為分布函數的隨機變量在區間 (ai ,ai+1 上取值的概率,上取值的概率,i =1,2, k。則當則當H0為真時,由貝努里定理,當為真時,由貝努里定理,當n充分大時,充分大時,n次獨立重復試驗結果的實際頻率次獨立重復試驗結果的實際頻率 與其概率與其概率Pi之間的差異并不顯著,于是顯然可以用統計之間的差異并不顯著,于是顯然可以用統計量來刻畫它們間總的差異的大小。其中量來刻畫它們間總的差異的大小。其中nPi為為理論頻數。當理論

5、頻數。當H0為真時,下式的值就應當較為真時,下式的值就應當較小小 4nfi221()kiiiifnPnPu(3) 可以證明,當可以證明,當n充分大時充分大時(n 50),若,若H0為真,則統計量為真,則統計量u近似服從近似服從(k -r -1)分布。其中分布。其中r為分布為分布F(x)中待定參數的個數中待定參數的個數 u于是在給定顯著性水平于是在給定顯著性水平 下,若下,若u就拒絕就拒絕H0,說明總體,說明總體X的真實分布函數與的真實分布函數與F(x)間存在顯著差異;否則接受間存在顯著差異;否則接受H0,即可以認為,即可以認為兩者在水平兩者在水平 下并無顯著差異。下并無顯著差異。5221()k

6、iiiifnPnP22(1)k r 某廠有一臺經常需要維修的設備,該設備中有一個易損某廠有一臺經常需要維修的設備,該設備中有一個易損壞的重負荷軸承,設備故障的主要原因是軸承損壞。為了壞的重負荷軸承,設備故障的主要原因是軸承損壞。為了制定該設備的維修計劃和維修預算,需要了解該軸承的壽制定該設備的維修計劃和維修預算,需要了解該軸承的壽命分布。表命分布。表10.1給出了給出了100個軸承壽命的觀察數據,問:個軸承壽命的觀察數據,問:該軸承壽命是否服從正態分布?該軸承壽命是否服從正態分布?6107 155 105 148 49 143 120 115 142 87 103 141 118 168 12

7、3 105 80 107 172 122 89 69 97 135 92 31 68 88 95 146 99 121 104 63 12 57 120 139 107 156 167 136 173 136 179 129 88 75 144 105 192 149 128 111 127 91 103 145 113 114 123 136 8 190 181 121 158 83 223 93 72 120 130 103 144 89 113 60 76 176 94 190 139 140 151 145 142 118 185 140 59 118 212 117 52 128 1

8、68 174 155 116 解:由表中數據,用解:由表中數據,用Excel可求得可求得 =120.95, S2=40.582 ,故可作原假設,故可作原假設 H0:X N (120,402) 將實軸劃分為如下將實軸劃分為如下7個互不相交的區間。用個互不相交的區間。用Excel的的FREQUENCY函數計算數據落在各區間內的頻函數計算數據落在各區間內的頻數,用數,用NORMDIST函數求出各理論頻數函數求出各理論頻數nPi ,統計量的計算如表所示。統計量的計算如表所示。7x區 間 fi nPi iiinPnPf2)( (- , 70 11 10.56 0.0183 (70, 90 10 12.1

9、0 0.3645 (90, 110 18 17.47 0.0161 (110, 130 21 19.74 0.0804 (130, 150 19 17.47 0.1340 (150, 170 10 12.10 0.3645 (170, +) 11 10.56 0.0183 合計 100 100 0.9961 8u取顯著性水平取顯著性水平 = 0.25 (由于原假設由于原假設H0是我們希望得到的結果,為使檢驗結論更是我們希望得到的結果,為使檢驗結論更具說服力,控制的重點應是與原假設具說服力,控制的重點應是與原假設H0不不真而接受真而接受H0的概率,故的概率,故 應取的稍大些應取的稍大些)。本例中

10、本例中k = 7,r = 2,k r -1 = 4。u故在水平故在水平 = 0.25下接受原假設下接受原假設H0,即,即可認為該軸承的使用壽命服從可認為該軸承的使用壽命服從N (120,402)分布。分布。9220.250.9961(4)5.385.2 比例差異的比例差異的 檢驗(獨立樣本)檢驗(獨立樣本) u10.2.1 兩個比例差異的檢驗兩個比例差異的檢驗 u前面,我們研究了兩個比例的前面,我們研究了兩個比例的Z檢驗。這部分從不同角檢驗。這部分從不同角度檢驗數據。假設檢驗過程使用近似卡方()分布的度檢驗數據。假設檢驗過程使用近似卡方()分布的檢驗數據。檢驗數據。u如果想要比較兩個獨立樣本組

11、的分類變量,可以做兩如果想要比較兩個獨立樣本組的分類變量,可以做兩維的列聯表,顯示每組的第維的列聯表,顯示每組的第1類(正向類,如類(正向類,如“成功成功”,“是是”等)和第等)和第2類(反向類,如類(反向類,如“失敗失敗”,“否否”等)等)出現的頻數,如表所示出現的頻數,如表所示 22102u為了檢驗組一樣本有關類為了檢驗組一樣本有關類1的比例是否等于第二組樣本的比例是否等于第二組樣本有關類有關類1的比例,即假設檢驗為:的比例,即假設檢驗為:u原假設為兩比例之間無顯著差異:原假設為兩比例之間無顯著差異: u備擇假設為兩比例之間有差異:備擇假設為兩比例之間有差異: u使用卡方(使用卡方( )檢

12、驗的基本思路為:)檢驗的基本思路為:u(1).確定統計量為確定統計量為 (10.2.1) u其中其中 為列聯表中特定單元的觀測頻數,為列聯表中特定單元的觀測頻數, 為列聯表中為列聯表中特定單元的期望頻數,因此這里的統計量特定單元的期望頻數,因此這里的統計量 是觀測頻數是觀測頻數和期望頻數差的平方除以每單元的期望頻數,并對表中和期望頻數差的平方除以每單元的期望頻數,并對表中的所有單元格取和求得;的所有單元格取和求得;211012:Hpp112:Hpp22()oeefff表 格 中 所 有 元ofef22u(2)可以證明上述統計量)可以證明上述統計量 近似服從自由度為近似服從自由度為1的的 分布,

13、因此在顯著性水平下,決策規則為:分布,因此在顯著性水平下,決策規則為:u如果如果 ,拒絕,拒絕 u否則,接受否則,接受 。0H122222(1)0H為了計算任意單元期望頻數ef, 必須知道如果原假設為真, 兩項比例1p和2p是相同的。但要計算的每組樣本比例有可能不同。每組的樣本比例都可以作為參數1p和2p的估計值。 將兩個獨立比例參數估計組合起來的統計量比各自獨立的比例參數估計提供更多的信息。用p表示兩組組合樣本屬于表 10.3 中類 1 比例的估計值,則1p就是兩組組合樣本中屬于類 2 比例的估計值。使用表 10.3 中的符號,p的定義如式(10.2.2)所示。 1212xxXpnnn13這

14、樣,為了計算屬于類 1(即列聯表中第一行)的期望頻數ef,用p乘以組一(或組二)的樣本容量1n(或2n)即可得到;類似的,為了計算屬于類 2(即列聯表中第二行)的期望頻數ef,用1p乘以組一(或組二)的樣本容量1n(或2n)即可得到,如表 10.4 所示。 行變量 列變量 組一 組二 類 1(正向) 1pn 2pn 類 2(反向) 1(1)pn 2(1)pn 應用案例應用案例 u 有兩家酒店,為了確定服務質量,要求有兩家酒店,為了確定服務質量,要求顧客離開時做滿意度調查,顧客可能會再顧客離開時做滿意度調查,顧客可能會再次入住;根據調查數據得到的列聯表如表次入住;根據調查數據得到的列聯表如表10

15、.5所示。問在顯著性水平的情況下,顧所示。問在顯著性水平的情況下,顧客會回到酒店一和酒店二的比例是否相同客會回到酒店一和酒店二的比例是否相同。 14酒店 是否再次入住 酒店一 酒店二 總計 類 1(是) 163 154 317 類 2(否) 64 108 172 總計 227 262 489 解:(1)設1p和2p分別為顧客會回到酒店一和酒店二的比例。 原假設為顧客回到兩酒店的比例之間無顯著差異:012:Hpp 備擇假設為兩比例之間有差異:112:Hpp; (2)由表 10.5,利用公式,計算得到 1212163 1540.6483227262xxpnn; (3)根據表 10.4,計算各個單元

16、的期望頻數ef,如表 10.6 所示 15(3)根據表 10.4,計算各個單元的期望頻數ef,如表 10.6 所示 表 10.6 酒店滿意度的 22 列聯表的期望頻數ef 列變量 是否再次入住 酒店一 酒店二 類 1(是) 1p n0.6483 227147.16 20.6483 262169.84p n 類 2(否) 1(1)0.3517 22779.84pn 2(1)0.3517 26292.16pn 16(4)根據公式,計算2,計算過程如表 10.7 所示。得到計算結果29.05。 表 10.7 酒店顧客滿意度調查的2檢驗計算 0f ef (0f-ef) 20eff eefff/20 1

17、63 147.16 15.84 250.91 1.71 154 169.84 -15.84 250.91 1.48 64 79.84 -15.84 250.91 3.14 108 92.16 15.84 250.91 2.72 9.05 (5) 查附錄 3 的2分布表, 由于0.05, 自由度為 1, 查得20.05(1)3.841。 171810.2.2 兩個以上比例差異的檢驗兩個以上比例差異的檢驗 假設有c組獨立樣本,對兩類指標(類 1 和類 2)有不同的頻數,形成c個對于類 1 指標的獨立比例12,cppp。 如此, 可以構建具有兩行c列的列聯表 (如表 10.8) 。 表 10.8 2

18、c 列聯表 列變量 行變量 組一 組二 組c 總計 類 1(正向) 1x 2x cx 12, ()cXxxx 類 2(反向) 11nx 22nx ccnx nX 總計 1n 2n cn 12, ()cnnnn 為了檢驗c項比例有沒有區別的假設,假設檢驗需要解決的是: 原假設為: cpppH.:210 備擇假設為: :1H不是所有的ip都相同(1,2,ic) u統計量是觀測頻數和期望頻數差的平方除以每統計量是觀測頻數和期望頻數差的平方除以每單元的期望頻數,并對表中的單元的期望頻數,并對表中的2c個所有單元個所有單元格取和求得格取和求得 因此統計量因此統計量 的自由度為的自由度為 192(1)c因

19、此在顯著性水平下,兩個以上源自獨立樣本的比例差異假設檢驗的決策規則為: 如果22(1)c,拒絕cpppH.:210 否則,接受0H。 類似兩個比例差異的假設檢驗,為了計算式(10.2.1)中的期望頻數ef, 引入p作為組合 c 項獨立檢驗為一個總比例檢驗的統計量,如式(10.2.4)。 nXnnnxxxpcc2121 (10.2.4) 20表 10.9 2c 列聯表中ef的計算 行變量 列變量 組一 組二 組c 類 1(正向) 1p n 2p n cp n 類 2(反向) 1(1) pn 2(1)pn (1)cpn 應用案例應用案例 u如果有四家酒店,根據調查數據得到的列聯表如果有四家酒店,根

20、據調查數據得到的列聯表如表如表10.10所示。問在顯著性水平的情況下,所示。問在顯著性水平的情況下,顧客會回到這四家酒店的比例是否相同。顧客會回到這四家酒店的比例是否相同。21表 10.10 酒店滿意度的 24 列聯表 酒店 是否再次入住 酒店一 酒店二 酒店三 酒店四 總計 類 1(是) 173 164 186 199 722 類 2(否) 66 108 71 33 278 總計 239 272 257 232 1000 解:(1)設1p,2p,3p和4p分別為顧客會回到酒店一、酒店二、酒店三和酒店四的比例。 原假設為顧客回到四家酒店的比例之間無顯著差異:01234:Hpppp;備擇假設為不

21、是四個比例都相等。 (2)由表 10.10,利用公式(10.2.4),計算得到 12341234173 1641861990.722239272257232xxxxpnnnn; (3)根據表 10.9,計算各個單元的期望頻數ef,如表 10.11 所示 22表 10.11 酒店滿意度的 24 列聯表的期望頻數ef 列變量 是否再次入住 酒店一 酒店二 酒店三 酒店四 類 1(是) 172.56 196.38 185.55 167.50 類 2(否) 66.44 75.62 71.45 64.50 表 10.12 酒店顧客滿意度調查的2檢驗計算 0f ef (0f-ef) 20eff eefff

22、/20 173 172.56 0.44 0.19 0.00 164 196.38 -32.38 1048.72 5.34 186 185.55 0.45 0.20 0.00 199 167.50 31.5 992.25 5.92 66 66.44 -0.44 0.19 0.00 108 75.62 32.38 1048.72 13.87 71 71.45 -0.45 0.20 0.00 33 64.50 -31.5 992.25 15.38 40.52 23(5) 查附錄 3 的2分布表, 由于0.05, 自由度為 3, 查得20.05(3)7.815。由于220.0540.52(3)7.81

23、5,因此,拒絕原假設0H,可以認為顧客會回到四家酒店的比例不是都相同的 獨立性檢驗獨立性檢驗對于獨立性檢驗,要檢驗的原假設和備擇假設分別是: 0H:兩類變量獨立(即它們間沒有聯系) 1H:兩類變量不獨立(即它們間有聯系) 再次使用公式(10.2.1)計算統計量2。則類似的,在顯著性水平下,檢驗的決策規則為: 拒絕0H,如果)1)(1(2rc2 否則,不拒絕0H 24獨立性的2檢驗與比例2檢驗相似。檢驗變量和決策規則相同,但假設和結論不同。在比例檢驗中,有一個因子有兩個或兩個水平以上(組別,即列聯表中的列)。這些水平之間是相互獨立的。每一水平下有兩類結果(類別,即列聯表中的行),例如成功和失敗。

24、目的是比較和計算不同水平下成功比例間的差異。然而,在獨立檢驗中,存在兩個因子,每個因子有兩個或兩個以上的水平(即列聯表中的行數和列數可能分別有兩個或兩個以上)。選擇一個樣本,在列聯表單元中記錄兩類變量不同水平間組合的個數。 u假設在上面例子中的酒店顧客滿意度的調查中,假設在上面例子中的酒店顧客滿意度的調查中,向表明不會再次入住酒店的顧客問第二個問題。向表明不會再次入住酒店的顧客問第二個問題。即不會再次入住的原因是什么,包括價格、位即不會再次入住的原因是什么,包括價格、位置、客房服務和其他等。調查結果的列聯表如置、客房服務和其他等。調查結果的列聯表如表表10.14所示。試問在顯著性水平的情況下,

25、所示。試問在顯著性水平的情況下,不會再次入住理由與酒店之間是否有聯系?不會再次入住理由與酒店之間是否有聯系?25表 10.14 不會再次入住酒店理由的列聯表 酒店 不再入住理由 酒店一 酒店二 酒店三 酒店四 總計 價格 23 20 40 10 93 位置 35 55 5 10 105 客房服務 6 11 20 6 43 其他 2 22 6 7 37 總計 66 108 71 33 278 解:在上述44列聯表中,每個單元的觀測頻數表示顧客不會再次入住酒店的聯合記錄。檢驗所要完成的任務是分析這些不再入住理由與酒店之間是否獨立。因此,分析步驟如下: (1) 原假設與備擇假設分別是: 0H:不會再

26、次入住理由和酒店間沒有聯系 1H:不會再次入住理由和酒店間有聯系 26(1) 根據公式(10.2.1)計算統計量2,這里公式中0f即為表 10.14 中特定單元的觀測頻數;ef為如果獨立假設為真,特定單元的期望頻數。為了計算ef,根據獨立事件概率的乘法法則,引入公式(10.2.6) n nnn 列總計行總計列總計行總計樣本容量列 因 子 概 率行 因 子 概 率PPfe (10.2.6) 表 10.15 不會再次入住酒店理由的期望頻數ef 酒店 不再入住理由 酒店一 酒店二 酒店三 酒店四 總計 價格 22.08 36.13 23.75 11.04 93 位置 24.93 40.79 26.8

27、2 12.46 105 客房服務 10.21 16.71 10.98 5.10 43 其他 8.78 14.37 9.45 4.39 37 總計 66 108 71 33 278 27通過計算得統計量07.692 (1) 顯著性水平0.05,自由度=(4 1)(4 1)9,查附錄 3 得到919.16) 9 (205. 0,由于919.16) 9 (07.69205. 02,因此拒絕原假設,即認為不會再次入住的理由與酒店之間是不獨立的,存在很大的相關性, 結果也可以通過 Excel 表求得的 P值說明 (如圖 10.3 所示) ,P值等于112.31 10遠遠小于0.05。 2810.3 兩個

28、相關樣本比例差異檢驗兩個相關樣本比例差異檢驗 上述幾節用2檢驗來檢驗比例差異時都要求獨立性條件。 然而, 有時檢驗比例間差異的數據來自重復度量或配對取樣,因此樣本相關。譬如,當希望確定在一段時期態度、比例、或行為是否發生變化時,這樣的情況經常發生。 29下面首先介紹 McNEMAR 檢驗的基本思路。假設從一樣本總體中調查條件 1 和條件 2 的情況,得到結果的匯總表如表 10.17 的列聯表。 表 10.17 McNEMAR 檢驗的 22 列聯表 條件(組)條件(組)2 條件(組)條件(組)1 是是 否否 總計總計 是是 A B A+B 否否 C D C+D 總計總計 A+C B+D n 則樣

29、本比例是 nBAfo1為對條件 1 反應為是的比例; nAfCo2為對條件 2 反應為是的比例; 總體比例為: 1ef:對條件 1 反應為是的總體比例; 2ef:對條件 2 反應為是的總體比例; 30McNEMAR 檢驗所要進行的檢驗任務是: 原假設為012:eeHff 備擇假設是112:eeHff 為此,定義如公式(10.3.1)的統計量 CBCBZ (10.3.1) 該統計量近似服從標準正態分布,因此在特定的顯著性水平下,可以運用如下的檢驗決策規則: 如果2/ZZ ,則拒絕原假設0H 否則,就接受原假設0H。 31應用案例應用案例假設有一 600 人的顧客組被選擇來作酒店入住的市場調查,顧

30、客被要求在兩競爭酒店 S 和 V 之間作選擇。有 282 位成員選擇 S 酒店,318 位成員選擇 V 酒店。在得知 V 酒店實行市場競爭策略后,同樣的 600 人組被詢問選擇,得出以下結果:在先前選擇 S 酒店的 282 人中,246 人維持原有選擇,36 人改投 V 酒店。在先前選擇V 酒店的 318 人中,306 人維持原有選擇,12 人改投 S 酒店。結果顯示于表 10.18所示。請問在顯著性水平0.05下,V 酒店實行市場競爭策略前后,兩個總體比例之間是否有差異。 32表 10.18 酒店的支持率 市場競爭后 市場競爭前 S 酒店 V 酒店 總計 S 酒店 246 36 282 V

31、酒店 12 306 318 總計 258 342 600 解:(1)設12,eeff為 S 酒店實行市場競爭策略前后的兩個總體比例。為了確定市場競爭策略對總體比例的差異,問題抽象成為兩個相關樣本的比例差異檢驗,其原假設為012:eeHff,備擇假設是112:eeHff (1) 確定統計量36 123.464136 12BCZBC,得到47. 0600362461nBAfo, 43. 060012246Co2nAf (2) 查 附 錄 2 的 標 準 正 態 分 布 表 , 得 到/20.0251.96ZZ, 由 于0.0253.46411.96ZZ, 因此拒絕原假設, 即認為實行市場競爭策略后

32、,選擇兩酒店的比例是顯著不同的。由于12ooff,因此說明實行市場競爭策略后,更多的顧客選擇了 V 酒店,放棄了 S 酒店。 33u如果樣本容量很小,并且無法確定樣本數據是如果樣本容量很小,并且無法確定樣本數據是否來自正態分布總體,此時可以選擇以下兩種否來自正態分布總體,此時可以選擇以下兩種方法來分析兩獨立總體均值間的區別:方法來分析兩獨立總體均值間的區別:u(1)用不依賴于正態總體假設的)用不依賴于正態總體假設的Wilcoxon秩和檢驗;秩和檢驗;u(2)對于數據進行正態轉換后使用合并方差)對于數據進行正態轉換后使用合并方差的的t檢驗。檢驗。u本節介紹用本節介紹用Wilcoxon秩和檢驗來檢

33、驗兩組值秩和檢驗來檢驗兩組值間是否有差別。在合乎這些檢驗的條件下,間是否有差別。在合乎這些檢驗的條件下,Wilcoxon秩和檢驗和合并方差及獨立方差的秩和檢驗和合并方差及獨立方差的t檢驗一樣有效;當檢驗一樣有效;當t檢驗假設不符合時,檢驗假設不符合時,Wilcoxon秩和檢驗更有效。秩和檢驗更有效。3410.4 兩個獨立總體的非參數分析:兩個獨立總體的非參數分析:Wilcoxon秩和檢驗秩和檢驗秩 設X為一總體,將一容量為n的樣本觀察值按從小到大的次序編號排列成 (1)(2)( )nXXX,稱( ) iX的足標i為( ) iX的秩,1,2,in。當其中幾個數據相等時,那么這幾個數據的秩取平均值

34、。 35現設自總體 1,2 分別抽取容量為12,n n的樣本,設兩樣本獨立,且設12nnn。這里總假定12nn,將這12nn個樣本值放在一起,按自小到大的次序排列,求出每個樣本值的秩,然后將屬于第 1 個總體的樣本值的秩相加,設為1T,稱為第 1 個樣本的秩和;其余樣本的秩總和記為2T,稱為第 2 樣本的秩和。且滿足公式(10.4.1)。 2) 1(2) 1)(212121nnnnnnTT (10.4.1) 當樣本1n和2n都不大于 10 時,使用附表 6 找出檢驗數據1T的臨界值。對于雙邊檢驗, 如果計算值1T等于或大于上臨界值或1T等于或小于下臨界值, 拒絕原假設。對于備擇假設 211:M

35、MH的單邊檢驗,如果觀測值1T等于或小于下臨界值,拒絕原假設。 對于備擇假設211:MMH的單邊檢驗, 如果觀測值1T等于或大于上臨界值,拒絕原假設。 36對于大樣本,檢驗統計量1T近似服從均值1T,標準差為1T的正態分布,其中 2111nnT (10.4.2) 121211nnnT (10.4.3) 因此,可以采用 Z 檢驗,統計量為: 121212111nnnnnTZ (10.4.4) 應用案例應用案例為了說明超市物品的銷售情況是否跟物品的擺放位置有關。考慮如某一物品的擺放位置:正常貨架和過道擺放。假設共有 20 家配置基本相同的店面,隨機選擇其中的 10 家作為第 1 組,將物品放置在正

36、常貨架;剩余 10 家作為第 2 組,將物品放置在過道;一周后,記錄該物品的銷售額,表 10.20 所示。如果認為總體不服從正態分布,請用 Wilcoxon 秩和檢驗說明在顯著性水平0.05的情況下,兩種擺放位置是否影響銷售額。 表 10.20 兩種不同的銷售位置的每周銷量比較 正常 過道 22 34 52 62 30 40 64 84 56 59 52 71 76 54 67 83 66 90 77 84 37解:(1)由于不能確定哪個位置的均值高,使用以下原假設和備擇假設的雙邊檢驗: 210:MMH(均值相等) 211:MMH(均值不等) (2)為了進行 Wilcoxon 秩和檢驗,計算1

37、n=10 正常貨架分布銷售和2n=10 過道銷售的秩。表 10.21 顯示了組合秩。 38表 10.21 組合秩 銷售銷售 正常貨架(正常貨架(1n=10=10) 組合秩組合秩 過道擺放(過道擺放(2n=10=10) 組合秩組合秩 22 1.0 52 5.5 34 3.0 71 14.0 52 5.5 76 15.0 62 10.0 54 7.0 30 2.0 67 13.0 40 4.0 83 17.0 64 11.0 66 12.0 84 18.5 90 20.0 56 8.0 77 16.0 59 9.0 84 18.5 (3) 計算小樣本秩的總和1T。 在這案例中, 兩樣本容量相等,

38、任一組可計算1T。選擇正常貨架擺放作為第一樣本, 1T=1+3+5.5+10+2+4+11+18.5+8+9=72 為了對秩和檢驗進行檢驗,計算2T 2T=5.5+14+15+7+13+17+12+20+16+18.5=138 使用公式(10.4.1)顯示組合秩的總和等于1T+2T: 2121nnTT 72+138=20(21)/2=210 210=210 (4)為了檢驗原假設,兩總體均值間沒有區別,使用附表 6 決定檢驗數據1T的上下臨界值。表 10.22 是附表 6 的一部分,在 0.05 顯著性水平下,臨界值是 78 和132。決策規則是 拒絕0H,如果1T78 或1T132; 否則,接

39、受0H 39(5)因為檢驗統計量1T=7278,拒絕0H,認為兩種擺放的銷售均值間有很大差異。因為通道銷售秩總和較高,因而通道銷售均值較高 4010.5 單因素方差分析的非參數分析:單因素方差分析的非參數分析:Kruskal-Wallis秩檢驗秩檢驗u如果第如果第9章中單因素方差分析的章中單因素方差分析的F檢驗的正態分檢驗的正態分布假設條件不符合時,可以使用布假設條件不符合時,可以使用Kruskal-Wallis秩檢驗。秩檢驗。Kruskal-Wallis秩檢驗是秩檢驗是兩獨立總體兩獨立總體Wilcoxon秩和檢驗的延伸,主要秩和檢驗的延伸,主要用于檢驗項獨立總體是否有相等均值。用于檢驗項獨立

40、總體是否有相等均值。Kruskal-Wallis秩檢驗和單因素方差分析的秩檢驗和單因素方差分析的F檢驗一樣有效。檢驗一樣有效。41使用Kruskal-Wallis秩檢驗來檢驗(2)c c項獨立總體是否有相等均值。 原假設: cMMMH.:210 備擇假設: ),都相等(其中不是所有的c.21j:j1MH 其中,(1,2, )jMjc是第j個總體的均值。 為了進行Kruskal-Wallis秩檢驗,首先將各自樣本容量為(1,2, )jn jc的樣本組合形成總樣本容量為n(12cnnnn)的組合樣本,并用它們的復合秩替代樣本數據。組合樣本最小值的秩為 1,最大值的秩為n。如果幾個樣本數據是相等的,那么這幾個數據的秩取平均值。 42

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論