非參數統計第二章課件_第1頁
非參數統計第二章課件_第2頁
非參數統計第二章課件_第3頁
非參數統計第二章課件_第4頁
非參數統計第二章課件_第5頁
已閱讀5頁,還剩37頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章單樣本問題經典統計關心的問題:已知總體

均值——位置變量

方差、標準差、極差——尺度變量非參數統計關心的問題:已知:樣本

位置變量?

尺度變量?例如:在對人們的收入進行抽樣之后,自然要對“人均收入”和“中間收入”等概念感興趣。這就與統計中的對總體的均值(mean),中位數(median)和眾數(mode)等位置參數的推斷有關。

也可能想要知道收入多少才能夠算“最富的百分之五”之類的問題。這與分位點的推斷有關系。

除了位置,我們也希望通過數據知道它的趨勢和走向,這都是本章要研究的內容。2.1廣義符號檢驗和有關的置信區間例2.1

下面是世界上71個大城市的花費指數(包括租金),按遞增次序牌類如下(這里上海是44位,指數為63.5)

27.827.829.132.232.732.736.436.537.537.738.841.945.245.84647.648.249.951.852.754.95555.355.558.260.862.763.564.665.365.365.365.466.266.767.771.271.773.974.374.576.276.676.877.777.979.180.98182.685.786.286.489.489.590.390.891.892.895.297.598.299.199.3100100.6104.1104.6105109.4122.4問題:(1)樣本中位數M是否大于64.或者說是否指數小于64的城市的比例少于0.5(或指數大于64的比例是否大于0.5)(2)樣本下四分位點(0.25分位點)是否小于64,。等價的說,是否指數小于64的城市的比例大于0.25(或指數小于64城市的比例是否小于0.75)由于中位數也是分位點(0.5分位點)。所以,這兩個問題實際上都是關于分位點的檢驗問題,只不過一個是關于分位點,另一個是關于分位點。這里面也出現了求分位點的置信區間問題。

本例中,分布未知,觀察直方圖

從圖中很難說這是什么分布,我們根據

分位點的定義,并通過與分位點相關的Bernoulli試驗及二項分布的性質得到需要的結果。

如果是總體的分位點,那么意味著總體中約有比例那么多的個體小于。

顯然,關于分位點的推斷等價于關于比例的推斷。2.1.1廣義符號檢驗:對分位點進行的檢驗廣義符號檢驗:對連續變量分位點進行的檢驗。狹義符號檢驗:僅針對中位數(或0.5分位點)

進行的檢驗。假定檢驗的假設是:

備擇假設可能是:記樣本中小于的點數為,

大于的點數為。并用小寫的和分別代表和的實現值。記按照零假設,

與之比應該約為左右,或大約等于,而

與之比應該約為左右,或者說

大約等于。如果與與此相差的很遠,那么零假設可能有問題

。在零假設下,應該服從二項分布。下面就在二項分布變量的檢驗中如何計算p值的問題給出一個表這類檢驗之所以叫做“符號檢驗”,是因為為用所有樣本點減去之后,差為正的個數,而

為用所有樣本點減去之后,差為負的個數。大樣本正態近似

比較小時,可以用二項分布的公式來計算精確值。但當比較大時,也可以用正態分布來近似。如果在零假設下,那么當較大時,則可以認為2.1.2基于符號檢驗的中位數及分位點的置信區間例2.2下面是隨機抽取的22個企業的納稅額(單位:萬元)。數據已經按照升冪排列

1.001.351.992.052.062.102.302.612.862.952.983.233.734.034.825.246.106.646.816.867.119.002.2Wilcoxon符號秩檢驗,點估計和區間估計Wilcoxon符號秩檢驗符號檢驗利用率觀察值與零假設的中心位置之差的符號來檢驗,但沒有利用這些差的大小(距

的遠近)的信息。

已知信息越多,結論越有效,所以把已知距離考慮進去更好,即Wilcoxon符號秩檢驗。宗旨:把觀測值和零假設的中心位置之差的絕對值的秩分別按照不同的符號相加作為其檢驗統計量。注意:假定樣本點來自連續對稱總體分布。此時,總體中位數=均值其目的與符號檢驗一致,即檢驗例2.3下面是10個歐洲城鎮每人每年平均消費的酒類相當于純酒精數(單位:升)。數據已經按照升冪排列。

4.125.817.639.7410.3911.9212.3212.8913.5414.45人們普遍認為歐洲各國人均年消費酒量的中位數相當于純酒精8升。為此進行檢驗:設,即上述數據的中位數為11.160,因此備擇假設為即檢驗為Wilcoxon符號秩檢驗步驟如下:(1)對,計算對于例2.3有3.882.190.371.742.393.924.324.895.546.45(2)把上面的個絕對值排序,并找出它們的個秩。如果有相同的樣本點,每個點取平均秩(如1,4,4,5的秩為1,2.5,2.5,4)

對于例2.3有秩為53124678910(3)令等于的的秩的和。

等于的的秩的和。

注意:加符號的秩為:-5-3-124678910(4)對雙邊檢驗

在零假設下,與應差不多。因而,當其中之一很小時,應懷疑零假設。取檢驗統計量類似地,對,取

對,取

例2.3,取(5)根據得到的W的值,得到零假設下的值。

如果很大要用正態近似

如果不是很大,可以通過軟件或者查Wilcoxon符號秩檢驗的分布表,得到值(6)比較與,若則拒絕零假設。在零假設下的分布并不復雜。例如時絕對值的秩只有1,2和3,共有8種可能的符號排列

出現了2次,因而秩

符號的8種組合1-+--++-+2--+-+-++3---+-+++01233456概率1/81/81/81/81/81/81/81/8注意和的Wilcoxon分布有關系為由于Wilcoxon符號秩檢驗要求總體分布對稱,我們現在將與的檢驗結果進行比較.2.2.2基于Wilcoxon符號秩檢驗的點估計和置信區間樣本:n個尋找對稱中心,樣本中位數即可為了利用更多的信息,可以擴大樣本數目:求每兩個數的平均(共有個)這樣的平均稱為Walsh平均。則

這里符號#{}是滿足符號{}內條件的表達式的個數(“#”相當于thenumberof)若,即有位移則有來做Wilcoxon符號秩檢驗。則按升冪排列Walsh平均,記則的置信區間為這里由決定。大樣本時,有回看例2.3歐洲人酒精人均消費Walsh平均有中位數10.390是的估計量。再求的置信區間

時,查表有,對于所以,置信區間為§2.4Cox-Staut趨勢檢驗

在客觀世界中會有許多各種各樣隨時間變動的數據序列,我們通常關心這些數據隨時間變化的規律,也就是進行趨勢分析。例如:依據病患人數判斷疫情是否已經得到控制,或者是否還在增長等等?;貧w分析是常用的趨勢分析工具,說明數據是否存在著線性趨勢,存在著怎樣的線性趨勢。但用回歸分析也有其局限性,問題在于:如果模型不能通過檢驗,那么趨勢是否存在?是否應該將所有可能的檢驗窮盡才能回答這個問題?即使模型通過檢驗,也只能說在模型的假設下,數據的趨勢是存在的。趨勢檢驗(不依賴于趨勢結構):Cox-Stuart趨勢檢驗趨勢的秩檢驗。(多樣本問題)Cox-Stuart趨勢檢驗的理論基礎是符號檢驗,可認為是符號檢驗的一個應用。例2.4天津機場從1995年1月到2003年12月的108個月旅客吞吐量(人次)如下表.從這些數據,我們能否說明這個差額總的趨勢是增長,還是減少,還是都不明顯呢?

543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603Cox-Staut趨勢檢驗的一般提法:

H0:無趨勢H1:有增長趨勢

H0:無趨勢H1:有減少趨勢

H0:無趨勢H1:有增長或減少趨勢

解:將數據自己與自己比較。我們以第54個數為界把數據分成兩部分,即前半部分和后半部分。用第1個數減去第55個數,第2個數減去第56個數,……,第54個數減去第108個數。即記,i=1,2,3,…,54。計算后得出,54個差值中,有38個取負值,16個取正值。負值的情況比較多,說明數據有增大的趨勢。引入假設檢驗:

H0:數據無趨勢,H1:數據有增長的趨勢。

檢驗統計量:類似于符號檢驗,令

取S+或S-為檢驗統計量,檢驗統計量的分布:在H0成立條件下,S+和S-服從參數為54和1/2的二項分布。取檢驗統計量K=S+,

p值=P(K<s+)=P(K<16)=0.00192,取水平α=0.05或更小的0.002,拒絕原假設,即認為數據有增長的趨勢。這個方法就是Cox-Stuart趨勢檢驗。檢驗的思想直接考慮數據的變化趨勢,若數據有上升趨勢,那么排在后面的數據的值要比排在前面的數據的值顯著得大;反之,若數據有下降的趨勢,那么排在后面的數據的值要比排在前面的數據的值顯著得小。利用前后兩個時期不同數據的差值正負來判斷數據總的變化趨勢。

注意:每對數據中前后兩個數的間隔應固定。為保證數對不受局部干擾,前后兩個數的間隔應該較大,但又不能過大,否則數對數量過少,難以判斷。所以Cox-Stuart提出最優的拆分點是數列的中間位置的數。檢驗方法令取xi和xi+c組成數對(xi,xi+c),則當n為偶數時,共有c對;當n為奇數時,共有c-1對。計算每對數對前后兩值之差:

Di=xi+c

-xi

檢驗統計量記S+=#{Di為正數,i=1,2,…,n},等價于:

其中,其中,表示不等于0的數對個數。則H0成立時,S+服從參數為和1/2的二項分布,即

S+~b(,1/2)。

記S-=#{Di為負數,i=1,2,…,n},等價于:

其中,其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論