




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、非參數統計學講義第六章 分布檢驗和某些卡方檢驗§1 引 言本章屬于擬合優度檢驗問題,即模型檢驗或分布的檢驗,屬于非參數檢驗的范疇。在初等統計中,人們要想知道數據是否服從某一特定分布,可以通過直方圖,或P-P圖,Q-Q圖來直接判斷,但這種直觀的方式很不精確。本章將介紹幾種分布的檢驗:K-S檢驗,Lilliefors檢驗和檢驗。實際上,K-S檢驗是在針對檢驗的缺點 檢驗與K-S檢驗均屬擬合優度檢驗,但檢驗常用于定類尺度測量數據,K-S檢驗還用于定序尺度測量數據;當預期頻數較小時,檢驗常需要合并鄰近的類別才能計算,K-S檢驗則不需要,因此它能比檢驗保留更多的信息;對于特別小的樣本數目,檢驗
2、不能應用,而K-S檢驗則不受限制。上提出的。它們是建立在經驗分布函數基礎上的檢驗結果。§2 Kolmogorov檢驗一、 基本假設一般地要檢驗手中的樣本是否來自某個已知,假定其真實分布為,對應的檢驗類型有 對 至少有一個x 對 至少有一個x 對 至少有一個x設為該組數據的經驗分布函數,則二、 基本方法Kolmogorov于三十年代提出了一種基于經驗分布的檢驗方法,基本思想是:由格里文科定理,當時,樣本經驗分布以概率1一致收斂到總體分布F,為此可以定義到的距離為當H0成立時,由格氏定理,D以概率1收斂到0,因此D的大小可以度量對總體分布擬合的好壞。可供選擇的檢驗統計量分別為;類型A 類
3、型B 類型C 在實際操作時,如果有n個觀察值,用下面的統計量代替上面的DNOTE:由的取值是離散的,考慮到跳躍性,該能夠保證S與F0之間取得最大距離;在H0下的分布有表可查,P201在大樣本時,有近似分布,這里的分布函數有表達式,P122,該分布有表可查P203:三、 應用舉例【例6-1】軸承的內徑檢驗檢驗某車間生產的20個軸承外座圈的內徑,測得數據如下(單位:mm)表6-1 軸承內徑數據15.0415.3614.5714.5315.5714.6915.3714.6614.5215.4115.3414.2815.0114.7614.3815.8713.6614.9715.2914.95按照設計
4、要求,這個內徑應在15±0.2mm,檢驗是否符合標準,即檢驗該數據是否來自均值,方差的正態分布。分析:方法一,可以利用直方圖、Q-Q圖、P-P圖進行直觀判斷;方法二,利用Kolmogorov檢驗由P122表中數據得:,拒絕H0,認為不滿足要求。近似,P-值=0.9790.05,接受H0。【例6-2】數理統計與管理論文作者服從洛特卡分布 洛特卡定律是1926年6月19日洛特卡(Vlachy)在美國頗有影響的學術刊物華盛頓科學院雜志上首先提出,它第一次提示了作者與文獻量的統計規律性。在這之后,洛特卡進一步發展了洛特卡定律,得出這樣的一個關系:若以x表示每一作者所著的論文數,與其相應的寫x
5、篇論文的作者數為y,則y與x成反比關系。將46期的數理統計與管理的文章按第一作者統計,得到表7-2的結果。論文作者數是否服從洛特卡分布。表6-2 論文數目與作者數的統計表論文數(x)1234567作者(y)3432791112分析:洛特卡得出這樣的一個關系:若以x表示每一作者所著的論文數,與其相應的寫x篇論文的作者數為y,則y與x成反比關系。即有式中,N為論文總數,m、C為兩個特定的常數,在不同的學科領域數值不同。假定根據表62提供的數據,認為論文作者服從洛特卡分布,并對其真實性進行檢驗,首先必須確定它的理論分布,即計算出m、C的值。估計m的值,通常采用最小二乘法。將(6.1)式進行對數變換,
6、使其線性化,得到:m相當于一元線性回歸方程中的回歸系數b,根據表中的數據運用最小二乘法,得到m=3.0550。關于C值,可以用這樣一個公式進行近似計算。這是1985年美國情報學家M.L.Pao教授在數學家的協助之下提出的。計算式為:經計算,。因此46期數理統計與管理的論文與作者數的理論洛特卡分布為 為了判定數理統計與管理論文作者的實際分布是否與理論分布一致,可以采用Kolmogorov檢驗。建立的假設組為 對 至少有一個x理論累積頻率的各個值,可以將x分別代入(6.3)式計算得到,實際累積頻率是將累計的作者數分別除以作者總人數得到。計算結果,作者實際累積頻率及理論累積頻率及各個差值如表6-3。
7、表6-3 作者實際累積頻率與理論累積頻率表12345670.83890.93980.96900.98110.98720.99070.99290.89320.96350.98700.98960.99220.99481.00000.05430.02370.01800.00850.00500.00410.0071根據顯著性水平,作者人數,查表,由于,得臨界值。顯然因此數據在1%的顯著性水平上不能拒絕H0,若顯著性水平,查表得臨界值。顯然因此,數據在5%的顯著性水平上也不能拒絕H0,可以認為,數理統計與管理作者的分布服從洛特卡分布。§3 Lilliefors正態性檢驗Lilliefors正態
8、性檢驗實質上是對Kolmogorov檢驗的一個改進。當用Kolmogorov檢驗某樣本是否來自一正態總體時,當和未知時,就會用樣本均值作為總體均值的估計,樣本方差作為總體方差的估計,從而將數據標準化為:,再用標準正態分布作來計算K氏統計量。但這時統計量在H0下的分布發生了改變,Lilliefors(1976)對Kolmogorov的檢驗臨界值表作了修正。§4 Smirnov兩樣本檢驗一、 Smirnov檢驗主要用來檢驗兩個樣本是否同時來自于某一總體,設樣本來自分布,而樣本來自分布為的總體。Smirnov檢驗的基本思想和Kolmogorov檢驗一樣,因此經常通稱這兩個檢驗為Kolmog
9、orov-Smirnov擬合優度檢驗,簡稱K-S檢驗。1 基本假設檢驗類型為:類型A 對 至少有一個x類型B 對 至少有一個x類型C 對 至少有一個x2 基本方法設和分別為這兩個樣本的經驗分布函數。則檢驗A的統計量可以取式中NOTE:含義其它檢驗類型的統計量仿此可以寫出的分布有表可查,P204,P205大樣本時,有近似分布二、 應用舉例【例6-4】檢驗兩個地區的GDP指數是否具有相同的分布華北五省市區和華東七省市1996年的GDP指數(前一年為100)數據如下:表6-4 兩個地區的GDP指數華北109.2114.3113.5111.0112.7華東113.0112.2112.7114.4115
10、.4113.4112.2檢驗這兩個地區的GDP指數的分布是否相同。分析:數據的計算過程詳見P126接受H0。§5 2擬合優度檢驗檢驗目的:檢驗樣本是否來自于某一特定的分布或總體。在20世紀初,Pearson提出了擬合優度的統計量。其基本做法是:首先將樣本區間進行分割,抽取n個觀察值(相當于做了n次試驗),則X落在每個區間中的數目服從多項分布,我們就是讓這個多項分布去逼近X的分布其中:r為總體分布里待估參數的個數,k為劃分的組數。卡方擬合優度檢驗就是用來檢驗一批分類數據所來自的總體分布是否與某種理論分布相一致,即檢驗。其基本思想是:設總體可以分成類,現對總體作了n次觀察,各類出現的頻數
11、分別為,且,則在成立時,應有實際頻數與理論頻數相差不大。為此,在20世紀初,Pearson提出了擬合優度的統計量。§6 二維列聯表的齊性和獨立性的檢驗統計量特別適合于分類數據的各種模型的檢驗。因為在分類數據的場合不存在假設分布與由對總體支撐集的劃分所導出分布的區別。雖然檢驗統計量的形式一樣,但對不同的目的和不同的數據結構的解釋是不一樣的。一、 列聯表的齊性檢驗實際問題中,常遇到:有n組從不同來源得到的數據,要判定這些數據的來源是否相同 如:有來自不同地區的地質樣品,通過這些樣品來了解這些地區的地質結構是否相同。(有相同的分布),統計上我們可以將這些問題表述為:假定有組樣本,分別取自k
12、個總體,要檢驗這k個總體的分布是否相同。這樣的假設檢驗問題稱為“齊次性檢驗”。對一般的二維列聯表P130,可以提出假設不全相等在H0下,這些概率與j無關,因此的期望值(理論頻數)為,因此期望值,則檢驗統計量為二、 列聯表的獨立性檢驗關心的目標是兩個變量是否相互影響(獨立)至少有一個不相等式中,NOTE:對立聯表的齊次性檢驗和獨立性檢驗,雖然檢驗的統計量均為統計量且有相同的分布形式。但兩者之間有一些實質性區別獨立性檢驗中的數據是取自一個總體的二維樣本,而齊次性檢驗中的數據是取自多個總體的一維樣本;獨立性檢驗是要檢驗兩個變量的獨立性,而齊次性檢驗則是要檢驗多個總體分布的齊次性;在獨立性檢驗中是隨機
13、變量,而齊次性檢驗中的不是隨機變量;獨立性檢驗中的統計量的極限分布只要在時,就成立,而齊次性檢驗中的統計量的極限分布要在都趨于無窮時才成立。三、 應用舉例【例6-7】人們去三個商場的概率是否一樣在一個有三個主要百貨商場的商貿中心,調查者問479個不同年齡段的人首先去三個商場中的哪個,結果如下表表6-6 調查結果年齡段商場1商場2商場3總和3083704519831509186151925041381089總和21519470479問:人們去這三個商場的概率是否一樣。分析:列聯表的齊次性檢驗不全相等拒絕H0。【例6-8】在喪偶問題上的性別因素和地區因素是否獨立按照1996年一個抽樣,我國華北五省市區的喪偶人數按性別分為表6-7 1996年華北地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 腫瘤患兒營養測評指南
- 機關檔案管理工作培訓
- 拆遷工程安全施工管理合同
- 車輛合伙經營汽車售后服務合同
- 成都科技園區研發樓租賃及科研服務平臺合同
- 房地產投資借款合同模板
- 房產繼承與財產分配協議
- 高端酒店特色食材直供及研發協議范本
- 果樹種植與水果代銷綜合服務合同
- 茶葉茶藝館與文化活動策劃合作合同范本
- 2025攝影服務合同模板
- 2025年全國統一高考語文試卷(全國一卷)含答案
- 2025年福建省高中自主招生模擬數學試卷試題(含答案)
- 2025年中考一模卷(貴州)英語試題含答案解析
- 餐飲運營餐飲管理流程考核試題及答案在2025年
- T/ISEAA 006-2024大模型系統安全測評要求
- 2025龍巖市上杭縣藍溪鎮社區工作者考試真題
- 礦山股東協議書
- 少隊工作計劃的風險控制措施
- 2025-2031年中國天然氣勘探行業市場運行態勢及投資潛力研判報告
- 2025年新媒體運營專員面試題及答案
評論
0/150
提交評論