統(tǒng)計(jì)學(xué)06總體參數(shù)的假設(shè)檢驗(yàn)課件_第1頁
統(tǒng)計(jì)學(xué)06總體參數(shù)的假設(shè)檢驗(yàn)課件_第2頁
統(tǒng)計(jì)學(xué)06總體參數(shù)的假設(shè)檢驗(yàn)課件_第3頁
統(tǒng)計(jì)學(xué)06總體參數(shù)的假設(shè)檢驗(yàn)課件_第4頁
統(tǒng)計(jì)學(xué)06總體參數(shù)的假設(shè)檢驗(yàn)課件_第5頁
已閱讀5頁,還剩131頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論1第六章總體參數(shù)的假設(shè)檢驗(yàn)第六章總體參數(shù)的假設(shè)檢驗(yàn)2如果一個(gè)人說他從來沒有罵過人。他能夠證明嗎?要證明他沒有罵過人,他必須出示他從小到大每一時(shí)刻的錄音錄像,所有書寫的東西等等,還要證明這些物證是完全的、真實(shí)的、沒有間斷的。這簡(jiǎn)直是不可能的。即使他找到一些證人,比如他的同學(xué)、家人和同事,那也只能夠證明在那些證人在場(chǎng)的某些片刻,他沒有被聽到罵人。如果一個(gè)人說他從來沒有罵過人。他能夠證明嗎?3反過來,如果要證明這個(gè)人罵過人很容易,只要有一次被抓住就足夠了。看來,企圖肯定什么事物很難,而否定卻要相對(duì)容易得多。這就是假設(shè)檢驗(yàn)背后的哲學(xué)。科學(xué)總往往是在否定中發(fā)展反過來,如果要證明這個(gè)人罵過人很容易,只要有一次被抓住就足夠4在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè)(上面的“從來沒罵過人”就是一個(gè)例子);而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)與現(xiàn)實(shí)之間的矛盾,從而否定這個(gè)假設(shè)。在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè)(上面的“從來沒罵過人”就5在多數(shù)統(tǒng)計(jì)教科書中(除理論探討外)假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。如否定不了,說明證據(jù)不足,無法否定原假設(shè)。但不能說明原假設(shè)正確。就像一兩次沒有聽過他罵人還遠(yuǎn)不能證明他從來沒有罵過人。在多數(shù)統(tǒng)計(jì)教科書中(除理論探討外)假設(shè)檢驗(yàn)都是以否定原假設(shè)為6§6.1假設(shè)檢驗(yàn)的過程和邏輯先要提出個(gè)原假設(shè),比如某正態(tài)總體的均值等于5(m=5)。這種原假設(shè)也稱為零假設(shè)(nullhypothesis),記為H0。與此同時(shí)必須提出備選假設(shè)(或稱為備擇假設(shè),alternativehypothesis),比如總體均值大于5(m>5)。備選假設(shè)記為H1或Ha。形式上,這個(gè)關(guān)于總體均值的H0相對(duì)于H1的檢驗(yàn)記為§6.1假設(shè)檢驗(yàn)的過程和邏輯先要提出個(gè)原假設(shè),比如某正態(tài)總7§6.1假設(shè)檢驗(yàn)的過程和邏輯備選假設(shè)應(yīng)該按照實(shí)際世界所代表的方向來確定,即它通常是被認(rèn)為可能比零假設(shè)更符合數(shù)據(jù)所代表的現(xiàn)實(shí)。比如上面的H1為m>5;這意味著,至少樣本均值應(yīng)該大于5;至于是否顯著,依檢驗(yàn)結(jié)果而定。檢驗(yàn)結(jié)果顯著(significant)意味著有理由拒絕零假設(shè)。因此,假設(shè)檢驗(yàn)也被稱為顯著性檢驗(yàn)(significanttest)。§6.1假設(shè)檢驗(yàn)的過程和邏輯備選假設(shè)應(yīng)該按照實(shí)際世界所代表8§6.1假設(shè)檢驗(yàn)的過程和邏輯有了兩個(gè)假設(shè),就要根據(jù)數(shù)據(jù)來對(duì)它們進(jìn)行判斷。數(shù)據(jù)的代表是作為其函數(shù)的統(tǒng)計(jì)量;它在檢驗(yàn)中被稱為檢驗(yàn)統(tǒng)計(jì)量(teststatistic)。根據(jù)零假設(shè)(不是備選假設(shè)!),可得到該檢驗(yàn)統(tǒng)計(jì)量的分布;再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realization)屬不屬于小概率事件。§6.1假設(shè)檢驗(yàn)的過程和邏輯有了兩個(gè)假設(shè),就要根據(jù)數(shù)據(jù)來對(duì)9§6.1假設(shè)檢驗(yàn)的過程和邏輯也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇;如果的確是小概率事件,那么就有可能拒絕零假設(shè),或者說“該檢驗(yàn)顯著,”否則說“沒有足夠證據(jù)拒絕零假設(shè)”,或者“該檢驗(yàn)不顯著。”§6.1假設(shè)檢驗(yàn)的過程和邏輯也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,10§6.1假設(shè)檢驗(yàn)的過程和邏輯注意:在我們所涉及的問題中,零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱。因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的,因此,如果發(fā)生矛盾,就對(duì)零假設(shè)不利了。不發(fā)生矛盾也不能說明零假設(shè)沒有問題。§6.1假設(shè)檢驗(yàn)的過程和邏輯注意:在我們所涉及的問題中,零11§6.1假設(shè)檢驗(yàn)的過程和邏輯在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量取其實(shí)現(xiàn)值及(沿著備選假設(shè)的方向)更加極端值的概率稱為p-值(p-value)。如果得到很小的p-值,就意味著在零假設(shè)下小概率事件發(fā)生了。如果小概率事件發(fā)生,是相信零假設(shè),還是相信數(shù)據(jù)呢?當(dāng)然多半是相信數(shù)據(jù),拒絕零假設(shè)。§6.1假設(shè)檢驗(yàn)的過程和邏輯在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量取其實(shí)現(xiàn)12§6.1假設(shè)檢驗(yàn)的過程和邏輯但小概率并不能說明不會(huì)發(fā)生,僅僅發(fā)生的概率很小罷了。拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤(typeIerror)。在備選假設(shè)正確時(shí)反而說零假設(shè)正確的錯(cuò)誤,稱為第二類錯(cuò)誤(typeIIerror)。在本書的假設(shè)檢驗(yàn)問題中,由于備選假設(shè)不是一個(gè)點(diǎn),所以無法算出犯第二類錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯但小概率并不能說明不會(huì)發(fā)生,僅13§6.1假設(shè)檢驗(yàn)的過程和邏輯零假設(shè)和備選假設(shè)哪一個(gè)正確,是確定性的,沒有概率可言。而可能犯錯(cuò)誤的是人。涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率。負(fù)責(zé)任的態(tài)度是無論做出什么決策,都應(yīng)該給出該決策可能犯錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯零假設(shè)和備選假設(shè)哪一個(gè)正確,是14§6.1假設(shè)檢驗(yàn)的過程和邏輯到底p-值是多小時(shí)才能夠拒絕零假設(shè)呢?也就是說,需要有什么是小概率的標(biāo)準(zhǔn)。這要看具體應(yīng)用的需要。但在一般的統(tǒng)計(jì)書和軟件中,使用最多的標(biāo)準(zhǔn)是在零假設(shè)下(或零假設(shè)正確時(shí))根據(jù)樣本所得的數(shù)據(jù)來拒絕零假設(shè)的概率應(yīng)小于0.05,當(dāng)然也可能是0.01,0.005,0.001等等。這種事先規(guī)定的概率稱為顯著性水平(significantlevel),用字母a來表示。§6.1假設(shè)檢驗(yàn)的過程和邏輯到底p-值是多小時(shí)才能夠拒絕零15§6.1假設(shè)檢驗(yàn)的過程和邏輯a并不一定越小越好,因?yàn)檫@很可能導(dǎo)致不容易拒絕零假設(shè),使得犯第二類錯(cuò)誤的概率增大。當(dāng)p-值小于或等于a時(shí),就拒絕零假設(shè)。所以,a是所允許的犯第一類錯(cuò)誤概率的最大值。當(dāng)p-值小于或等于a時(shí),就說這個(gè)檢驗(yàn)是顯著的。無論統(tǒng)計(jì)學(xué)家用多大的a作為顯著性水平都不能脫離實(shí)際問題的背景。統(tǒng)計(jì)顯著不一定等價(jià)于實(shí)際顯著。反過來也一樣。§6.1假設(shè)檢驗(yàn)的過程和邏輯a并不一定越小越好,因?yàn)檫@很可16§6.1假設(shè)檢驗(yàn)的過程和邏輯歸納起來,假設(shè)檢驗(yàn)的邏輯步驟為:1.寫出零假設(shè)和備選假設(shè);2.確定檢驗(yàn)統(tǒng)計(jì)量;3.確定顯著性水平a;4.根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值;5.根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值;6.進(jìn)行判斷:如果p-值小于或等于a,就拒絕零假設(shè),這時(shí)犯(第一類)錯(cuò)誤的概率最多為a;如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。§6.1假設(shè)檢驗(yàn)的過程和邏輯歸納起來,假設(shè)檢驗(yàn)的邏輯步驟為17§6.1假設(shè)檢驗(yàn)的過程和邏輯實(shí)際上,多數(shù)計(jì)算機(jī)軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定所得到的p-值等于0.001。這時(shí)如果采用p-值作為新的顯著性水平,即新的a=0.001,于是就可以說,在顯著性水平為0.001時(shí),拒絕零假設(shè)。這樣,拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是舊的a所表明的百分之五。在這個(gè)意義上,p-值又稱為觀測(cè)的顯著性水平(observedsignificantlevel)。§6.1假設(shè)檢驗(yàn)的過程和邏輯實(shí)際上,多數(shù)計(jì)算機(jī)軟件僅僅給出18§6.1假設(shè)檢驗(yàn)的過程和邏輯在統(tǒng)計(jì)軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個(gè)道理。根據(jù)數(shù)據(jù)產(chǎn)生的p-值來減少a的值以展示結(jié)果的精確性總是沒有害處的。這好比一個(gè)身高180厘米的男生,可能愿意被認(rèn)為高于或等于180厘米,而不愿意說他高于或等于155厘米,雖然這第二種說法數(shù)學(xué)上沒有絲毫錯(cuò)誤。§6.1假設(shè)檢驗(yàn)的過程和邏輯在統(tǒng)計(jì)軟件輸出p-值的位置,有19§6.1假設(shè)檢驗(yàn)的過程和邏輯關(guān)于“臨界值”的注:作為概率的顯著性水平a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè)臨界值(criticalvalue),它定義為,統(tǒng)計(jì)量取該值或更極端的值的概率等于a。也就是說,“統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端”等價(jià)于“p-值小于a”。使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算p-值。只比較統(tǒng)計(jì)量的取值和臨界值的大小。§6.1假設(shè)檢驗(yàn)的過程和邏輯關(guān)于“臨界值”的注:作為概率的20§6.1假設(shè)檢驗(yàn)的過程和邏輯使用臨界值而不是p-值來判斷拒絕與否是前計(jì)算機(jī)時(shí)代的產(chǎn)物。當(dāng)時(shí)計(jì)算p-值不易,只采用臨界值的概念。但從給定的a求臨界值同樣也不容易,好在習(xí)慣上僅僅在教科書中列出相應(yīng)于特定分布的幾個(gè)有限的a臨界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根據(jù)分布表反過來查臨界值(很不方便也很粗糙)。現(xiàn)在計(jì)算機(jī)軟件大都不給出a和臨界值,但都給出p-值和統(tǒng)計(jì)量的實(shí)現(xiàn)值,讓用戶自己決定顯著性水平是多少。§6.1假設(shè)檢驗(yàn)的過程和邏輯使用臨界值而不是p-值來判斷拒21§6.1假設(shè)檢驗(yàn)的過程和邏輯在一些統(tǒng)計(jì)教科書中會(huì)有不能拒絕零假設(shè)就“接受零假設(shè)”的說法。這種說法是不嚴(yán)格的。首先,如果你說“接受零假設(shè)”,那么就應(yīng)該負(fù)責(zé)任地提供接受零假設(shè)時(shí)可能犯第二類錯(cuò)誤的概率。這就要算出在備選假設(shè)正確的情況下錯(cuò)誤接受零假設(shè)的概率。但是,這只有在備選假設(shè)僅僅是一個(gè)與零假設(shè)不同的確定值(而不是范圍)時(shí)才有可能。多數(shù)基本統(tǒng)計(jì)教科書的備選假設(shè)是一個(gè)范圍而根本無法確定犯第二類錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯在一些統(tǒng)計(jì)教科書中會(huì)有不能拒絕22§6.1假設(shè)檢驗(yàn)的過程和邏輯在許多統(tǒng)計(jì)教科書中,往往把一系列不能拒絕零假設(shè)的檢驗(yàn)當(dāng)成接受這些假設(shè)的通行證。比如不能拒絕某樣本的正態(tài)性就變成了證明了該樣本是正態(tài)的等等。不能拒絕這些零假設(shè),僅僅說明根據(jù)所使用的檢驗(yàn)方法(或檢驗(yàn)統(tǒng)計(jì)量)和當(dāng)前的數(shù)據(jù)沒有足夠證據(jù)拒絕這些假設(shè)而已。§6.1假設(shè)檢驗(yàn)的過程和邏輯在許多統(tǒng)計(jì)教科書中,往往把一系23§6.1假設(shè)檢驗(yàn)的過程和邏輯對(duì)于同一個(gè)假設(shè)檢驗(yàn)問題,往往都有多個(gè)檢驗(yàn)統(tǒng)計(jì)量;而且人們還在構(gòu)造更優(yōu)良的檢驗(yàn)統(tǒng)計(jì)量。人們不可能把所有的目前存在的和將來可能存在的檢驗(yàn)都實(shí)施。因此,只能夠說,按照目前的證據(jù),不足以拒絕零假設(shè)而已。后面將會(huì)用例子說明“接受零假設(shè)”的說法是不妥當(dāng)?shù)摹!?.1假設(shè)檢驗(yàn)的過程和邏輯對(duì)于同一個(gè)假設(shè)檢驗(yàn)問題,往往都24§6.2對(duì)于正態(tài)總體均值的檢驗(yàn)

§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.1一個(gè)顧客買了一包標(biāo)有500g重的一包紅糖,覺得份量不足,于是找到監(jiān)督部門;當(dāng)然他們會(huì)覺得一包份量不夠可能是隨機(jī)的。于是監(jiān)督部門就去商店稱了50包紅糖(數(shù)據(jù)在sugar.txt);其中均值(平均重量)是498.35g;這的確比500g少,但這是否能夠說明廠家生產(chǎn)的這批紅糖平均起來不夠份量呢?于是需要統(tǒng)計(jì)檢驗(yàn)。可以畫出這些重量的直方圖§6.2對(duì)于正態(tài)總體均值的檢驗(yàn)

§6.2.1根據(jù)一個(gè)樣本2550包紅糖重量的直方圖

50包紅糖重量的直方圖26§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)這個(gè)直方圖看上去象是正態(tài)分布的樣本。不妨假定這一批袋裝紅糖有正態(tài)分布。由于廠家聲稱每袋500g(標(biāo)明重量),因此零假設(shè)為總體均值等于500g(被懷疑對(duì)象總是放在零假設(shè));而且由于樣本均值少于500g(這是懷疑的根據(jù)),把備選假設(shè)定為總體均值少于500g(備選假設(shè)為單向不等式的檢驗(yàn)稱為單尾檢驗(yàn),為不等號(hào)“≠”的稱為雙尾檢驗(yàn))§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)這個(gè)直方圖27§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量就是第四章引進(jìn)的作為對(duì)均值的某種標(biāo)準(zhǔn)化的符號(hào)中的m0通常表示為零假設(shè)中的均值(這里是500)。在零假設(shè)之下,它有自由度為n-1=49的t分布。當(dāng)然實(shí)際上不必代入這個(gè)公式去手工計(jì)算了,讓計(jì)算機(jī)去代勞好了。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量28§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)計(jì)算結(jié)果是t=-2.696(也稱為t值),同時(shí)得到p-值為0.005(由于計(jì)算機(jī)輸出的為雙尾檢驗(yàn)的p-值,比單尾的大一倍,應(yīng)該除以2)。看來可以選擇顯著性水平為0.005,并宣稱拒絕零假設(shè),而錯(cuò)誤拒絕的概率為0.005。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)計(jì)算結(jié)果是29統(tǒng)計(jì)量t=-2.696相應(yīng)于左邊尾概率(p-值)0.005統(tǒng)計(jì)量t=-2.696相應(yīng)于左邊尾概率(p-值)0.00530§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)上面例子的備選假設(shè)為小于(“<”)某個(gè)值。同樣也可能有備選假設(shè)為均值大于(“>”)某個(gè)值的情況。取備選假設(shè)為均值大于或小于某個(gè)值的檢驗(yàn)稱為單尾檢驗(yàn)(one-tailedtest,也稱為單側(cè)檢驗(yàn)或單邊檢驗(yàn))。下面舉一個(gè)選假設(shè)為均值大于(“>”)某個(gè)值的例子。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)上面例子的31§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.2(exh.txt)汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺(tái)發(fā)動(dòng)機(jī)之后,得到下面的排放數(shù)據(jù):17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認(rèn)為該指標(biāo)均值超過20?這次的假設(shè)檢驗(yàn)問題就是§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.2(32§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)和前面的例子的方法類似,可以發(fā)現(xiàn)p-值為0.1243(計(jì)算機(jī)輸出的雙尾檢驗(yàn)的p-值除以2),因此,沒有證據(jù)否定零假設(shè)。這時(shí)的檢驗(yàn)統(tǒng)計(jì)量t=1.2336。也可以畫出類似于圖6.2的圖(圖6.3)這時(shí)的t分布的自由度為9。下面是結(jié)果的計(jì)算機(jī)輸出:§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)和前面的例33統(tǒng)計(jì)量t=1.2336相應(yīng)于右邊尾概率(p-值)0.1243統(tǒng)計(jì)量t=1.2336相應(yīng)于右邊尾概率(p-值)0.124334§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)注意:在假設(shè)檢驗(yàn)中往往也用帶等號(hào)的不等式來表示零假設(shè),比如上述的檢驗(yàn)記為但這里用于計(jì)算p-值的零假設(shè)還是m=20;但如果能夠拒絕零假設(shè)m=20,那么對(duì)于任何m小于20的零假設(shè)就更有理由拒絕了。這和以拒絕零假設(shè)為初衷的假設(shè)檢驗(yàn)思維方式是一致的。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)注意:在假35§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)還有所謂的雙尾檢驗(yàn)(twotailedtest,也稱為雙側(cè)檢驗(yàn)或雙邊檢驗(yàn))問題,即在這種情況下,尾概率不僅是左邊或右邊的一個(gè)尾概率,而是兩邊尾概率之和。因此如果是一個(gè)單尾檢驗(yàn)問題,用了雙尾檢驗(yàn)的模式,p-值就比用單尾檢驗(yàn)時(shí)大了一倍。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)還有所謂的36§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)如果上面發(fā)動(dòng)機(jī)排放指標(biāo)例子的檢驗(yàn)問題改為是否該發(fā)動(dòng)機(jī)的排放指標(biāo)均值等于20。即這時(shí)t統(tǒng)計(jì)量還是取原來的值1.2336,但p-值為0.1243×2=0.2486。圖6.3就變成圖6.4的樣子§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)如果上面發(fā)37統(tǒng)計(jì)量t=1.2336,而p-值等于左右尾概率之和,即0.2486統(tǒng)計(jì)量t=1.2336,而p-值等于左右尾概率之和,即0.238§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)例6.3(數(shù)據(jù):drug.txt)為檢測(cè)某種藥物對(duì)攻擊性情緒的影響,對(duì)處理組的100名服藥者和對(duì)照組的150名非服藥者進(jìn)行心理測(cè)試,得到相應(yīng)的某指標(biāo)。要檢驗(yàn)處理組指標(biāo)的總體均值m1是否等于對(duì)照組指標(biāo)的總體均值m2。相應(yīng)的假設(shè)檢驗(yàn)問題為:或§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)例39§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)通過計(jì)算,t統(tǒng)計(jì)量等于0.942,p-值為0.1735(輸出中的雙尾檢驗(yàn)p-值的一半)。因此無法拒絕零假設(shè),即不能得出處理組的平均指標(biāo)大于對(duì)照組的結(jié)論。計(jì)算機(jī)輸出的相應(yīng)表格(部分,刪除了置信區(qū)間部分)為:§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)通40§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)注意:這個(gè)輸出的前面三列用Levene的F-檢驗(yàn)來看這兩個(gè)樣本所代表的總體之方差是否相等(零假設(shè)為相等)。第一行是該檢驗(yàn)的零假設(shè):兩個(gè)總體方差相等,而第二行為備選假設(shè):兩個(gè)總體方差不等。如果該檢驗(yàn)顯著,即在Sig列中的該Levene檢驗(yàn)p-值很小(這里是0.008),就應(yīng)該看第二行備選假設(shè)的t檢驗(yàn)輸出,這里是0.347;由于是單邊檢驗(yàn),p-值=0.347/2=0.1735;如果Levene檢驗(yàn)的p-值較大(本例并不大),則看第一行原假設(shè)下的結(jié)果。之所以要檢驗(yàn)總體方差,是因?yàn)榭傮w方差相同時(shí)使用的檢驗(yàn)統(tǒng)計(jì)量與方差不同時(shí)使用的不同。§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)注41§6.2.3成對(duì)樣本的問題例6.4減肥數(shù)據(jù)(diet.txt)。這里有50對(duì)數(shù)據(jù)。為50人是減肥前后的重量要比較50個(gè)人在減肥前后的重量。不能用前面的獨(dú)立樣本均值差的檢驗(yàn);這是因?yàn)閮蓚€(gè)樣本并不獨(dú)立。每一個(gè)人減肥后的重量都和自己減肥前的重量有關(guān)。但不同人之間卻是獨(dú)立的。令所有個(gè)體減肥前后重量差(減肥前重量減去減肥后重量)的均值為mD;這樣所要進(jìn)行的檢驗(yàn)為§6.2.3成對(duì)樣本的問題例6.4減肥數(shù)據(jù)(diet.tx42§6.2.3成對(duì)樣本的問題我們可以把兩個(gè)樣本中配對(duì)的觀測(cè)值逐個(gè)相減,形成一個(gè)由獨(dú)立觀測(cè)值組成的樣本;然后用單樣本檢驗(yàn)方法,看其均值是否為零。在相減之后公式和單樣本均值檢驗(yàn)無異。當(dāng)然,如果直接選用軟件中成對(duì)樣本均值的檢驗(yàn),就不用事先逐個(gè)相減了。這里也有單尾和雙尾檢驗(yàn)。這里介紹的是假定總體分布為正態(tài)分布時(shí)的t檢驗(yàn)。總體分布未知時(shí),應(yīng)該利用第十六章的非參數(shù)檢驗(yàn)方法。§6.2.3成對(duì)樣本的問題我們可以把兩個(gè)樣本中配對(duì)的觀測(cè)值43§6.2.3成對(duì)樣本的問題再接著看例6.4。計(jì)算機(jī)輸出了雙尾p-值0.002,這里的單尾p-值于是為0.001。因此在顯著性水平為0.001時(shí),可以拒絕零假設(shè)。也就是說,減肥后和減肥前相比,平均重量顯著要輕。下面是這個(gè)檢驗(yàn)的SPSS的部分計(jì)算機(jī)輸出為(刪去了置信區(qū)間):§6.2.3成對(duì)樣本的問題再接著看例6.4。計(jì)算機(jī)輸出了雙44§6.3對(duì)于比例的檢驗(yàn)

§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)例6.5(two.txt)為評(píng)價(jià)電視的收視率,電話調(diào)查,在某一節(jié)目播出的時(shí)候,被訪的正在觀看電視的人中有23%的正在觀看這個(gè)節(jié)目。現(xiàn)在想知道,這是否和該節(jié)目的制作人所期望的p0=25%有顯著不足。這顯然是一個(gè)參數(shù)為p的二項(xiàng)分布問題。形式上的假設(shè)檢驗(yàn)問題是§6.3對(duì)于比例的檢驗(yàn)

§6.3.1對(duì)于離散變量總體比例45§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如果n為訪問的正在看電視的人數(shù),x為其中觀看該節(jié)目的人數(shù),那么樣本中的觀看比例為檢驗(yàn)統(tǒng)計(jì)量則是在零假設(shè)下當(dāng)大樣本時(shí)近似有標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如果n為訪問的正在看46§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)這個(gè)數(shù)值用手算也不費(fèi)力氣。請(qǐng)注意,前面第五章提起過,即使被訪者的百分比一樣,但樣本少的信息就少。對(duì)于假設(shè)檢驗(yàn)也是一樣。樣本量對(duì)于假設(shè)檢驗(yàn)的結(jié)果就十分重要。對(duì)于本例,現(xiàn)在還未給出樣本量n呢!下面看看不同的樣本量會(huì)得到什么結(jié)果(假定x/n=0.23不變)§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)這個(gè)數(shù)值用手算也不費(fèi)47§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如樣本量為n=1500(和數(shù)據(jù)給的一樣),那么,上面的檢驗(yàn)得到的p-值為0.0368。因此,可以認(rèn)為(如果選顯著性水平為0.05的話)說收視率有25%是過分了。即拒絕零假設(shè)。如樣本量為n=100,那么,上面的檢驗(yàn)得到的p-值為0.3221。因此,沒有足夠的理由拒絕收視率有25%的零假設(shè)(如果選顯著性水平為0.05的話)注意,利用軟件時(shí),上面的p-值計(jì)算往往在公式中加上用連續(xù)變量近似離散變量分布時(shí)常用的連續(xù)性糾正,因此結(jié)果和用上面公式直接手算的稍有不同。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如樣本量為n=15048§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)下面是對(duì)于n=1500時(shí),例6.5的SPSS輸出。這里正在觀看該節(jié)目的人數(shù)為n1=345,而1500人中觀看其他節(jié)目的人數(shù)為n2=1155。樣本中收視比例為n1/n=345/1500=0.23。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)下面是對(duì)于n=15049§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)前面對(duì)總體比例的檢驗(yàn)所用的公式利用了二項(xiàng)分布的大樣本正態(tài)近似;怎樣才是大樣本呢?這和第五章求比例的置信區(qū)間時(shí)大樣本的近似標(biāo)準(zhǔn)類似,即當(dāng)區(qū)間完全包含在(0,1)區(qū)間內(nèi)部時(shí),可以認(rèn)為樣本足夠大,能夠用正態(tài)近似。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)前面對(duì)總體比例的檢驗(yàn)50§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)對(duì)于兩個(gè)樣本,也有關(guān)于兩個(gè)總體比例之差p1-p2的檢驗(yàn)。還拿收視率為例。節(jié)目甲的樣本收視率為20%,節(jié)目乙為21%,是不是節(jié)目甲的總體收視率就真的低于節(jié)目乙?即檢驗(yàn)這里的零假設(shè)意味著節(jié)目甲和節(jié)目乙收視率相等。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)對(duì)于兩個(gè)樣本,也有關(guān)51§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)假定n1=1200,n2=1300,檢驗(yàn)統(tǒng)計(jì)量則是在零假設(shè)下當(dāng)大樣本時(shí)有近似標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量得到p-值等于0.2679。因此,在顯著性水平即使是0.1時(shí),也沒有足夠證據(jù)可以拒絕“節(jié)目甲和節(jié)目乙收視率相等”的零假設(shè)。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)假定n1=1200,52§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)有時(shí)需要檢驗(yàn)收入低于某個(gè)水平的人占有的比例p是否和預(yù)期的p0一樣。和6.3.1節(jié)一樣,只要把大于某水平的觀測(cè)值看作Bernoulli試驗(yàn)的“成功”,而把小于某水平的觀測(cè)值看成“失敗”,就回到二項(xiàng)分布的問題了。當(dāng)然,用不著把這些連續(xù)變量的觀測(cè)值都變成“成功”和“失敗”之后,再數(shù)各有多少。統(tǒng)計(jì)軟件會(huì)替我們做所有的事情。下面通過一個(gè)例子來說明。§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)有時(shí)需要檢驗(yàn)收入低于某個(gè)53§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)例6.6某微生物的壽命問題(數(shù)據(jù)life.txt)。這里有某微生物在一種污染環(huán)境下生存的壽命數(shù)據(jù)(單位:小時(shí))§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)例6.6某微生物的壽命54§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)問題是存活時(shí)間低于2小時(shí)的是否少于70%(存活時(shí)間多于2小時(shí)的是否多于30%)?零假設(shè)為存活時(shí)間低于2小時(shí)的少于或等于70%,備選假設(shè)為存活時(shí)間低于2小時(shí)的多于70%。該檢驗(yàn)用符號(hào)表示,對(duì)于p0=0.7,§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)問題是存活時(shí)間低于2小時(shí)55§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)由計(jì)算機(jī)很容易得到檢驗(yàn)結(jié)果這說明,活不過2小時(shí)的有52個(gè)觀測(cè)值,所占的比例為90%。檢驗(yàn)的精確p-值和大樣本近似的p-值均為0.002。因此,可以拒絕“存活時(shí)間低于2小時(shí)的少于70%”的零假設(shè)。§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)由計(jì)算機(jī)很容易得到檢驗(yàn)結(jié)56§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)這個(gè)檢驗(yàn)的假設(shè)還可以有另一種等價(jià)形式。前面第三、四章介紹過樣本和總體的a-分位數(shù)的概念。例6.6的檢驗(yàn)問題等價(jià)于檢驗(yàn)0.7分位數(shù)q是等于2(q0=2)還是小于2;即:該例的結(jié)論是實(shí)際存活時(shí)間的0.7分位數(shù)q小于2小時(shí)。§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)這個(gè)檢驗(yàn)的假設(shè)還可以有另57§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)上面的檢驗(yàn)又稱為(推廣的)符號(hào)檢驗(yàn)(signtest)。它用不著對(duì)總體分布進(jìn)行任何假定。而狹義的符號(hào)檢驗(yàn)是指上面的p0=0.5或者(等價(jià)地)q0等于中位數(shù)的情況。通常把符號(hào)檢驗(yàn)歸于非參數(shù)檢驗(yàn)范疇(參見后面介紹非參數(shù)檢驗(yàn)的一章)。§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)上面的檢驗(yàn)又稱為(推廣的58§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥雖然前面已經(jīng)有了一些例子說明“接受零假設(shè)”說法的不妥,但還可能會(huì)有些人對(duì)于在檢驗(yàn)結(jié)果不顯著時(shí)只能說“不能拒絕零假設(shè)”而不能說“接受零假設(shè)”感到不解。下面用一個(gè)個(gè)描述性例子來說明。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥雖然前面已經(jīng)59§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥例6.7(數(shù)據(jù)rice.txt)一個(gè)大米加工廠賣給一個(gè)超市一批標(biāo)明10kg重的大米。而該超市懷疑該廠家缺斤短兩,對(duì)10包大米進(jìn)行了稱重,得到下面結(jié)果(單位:千克)這里假定打包的大米重量服從正態(tài)分布。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥例6.7(60§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥由于發(fā)生分歧,于是各方同意用這個(gè)數(shù)據(jù)進(jìn)行關(guān)于大米重量均值m的t檢驗(yàn);以廠家所說的平均重量為10kg作為零假設(shè),而以超市懷疑的份量不足10kg作為備選假設(shè):于是,超市、加工廠老板和該老板的律師都進(jìn)行了檢驗(yàn)。結(jié)果是:§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥由于發(fā)生分歧61§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥1.超市用全部數(shù)據(jù)進(jìn)行t檢驗(yàn),得到拒絕零假設(shè)的結(jié)論。他們根據(jù)計(jì)算得到:樣本均值為9.92kg,而p-值為0.0106。因此超市認(rèn)為,對(duì)于顯著性水平a=0.05,應(yīng)該拒絕零假設(shè)。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥1.超市用全62§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥2.大米加工廠老板只用2個(gè)數(shù)據(jù),得到“接受零假設(shè)”的結(jié)論。大米加工廠老板也懂些統(tǒng)計(jì),他只取了上面樣本的頭兩個(gè)個(gè)數(shù)目9.93和9.83進(jìn)行同樣的t檢驗(yàn)。通過對(duì)這兩個(gè)數(shù)進(jìn)行計(jì)算得到:樣本均值為9.88kg,而p-值為0.1257。雖然樣本均值不如超市檢驗(yàn)的大,但p-值大大增加。加工廠老板于是下了結(jié)論:對(duì)于水平a=0.05,“接受零假設(shè)”,即加工廠的大米平均重量的確為10kg。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥2.大米加工63§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥3.大米加工廠老板的律師用了全部數(shù)據(jù),但不同的檢驗(yàn)方法,得到“接受零假設(shè)”的結(jié)論。大米加工廠老板的律師說可以用全部數(shù)據(jù)。他利6.3.2節(jié)對(duì)于連續(xù)變量比例的檢驗(yàn),也就是關(guān)于中位數(shù)的符號(hào)檢驗(yàn)(注意對(duì)于正態(tài)分布,對(duì)中位數(shù)的檢驗(yàn)等價(jià)于對(duì)均值的檢驗(yàn))。根據(jù)計(jì)算,得到該檢驗(yàn)的p-值為0.0547。所以這個(gè)律師說在顯著性水平a=0.05時(shí),應(yīng)該“接受零假設(shè)”。還說,“既然三個(gè)檢驗(yàn)中有兩個(gè)都接受零假設(shè),就應(yīng)該接受。”§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥3.大米加工64§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥加工廠老板實(shí)際上減少了作為證據(jù)的數(shù)據(jù),因此只能得到“證據(jù)不足,無法拒絕零假設(shè)”的結(jié)論。但加工廠老板利用一些錯(cuò)誤的統(tǒng)計(jì)教科書的說法,把“證據(jù)不足以拒絕零假設(shè)”改成“接受零假設(shè)”了。而且,從樣本中僅選擇某些數(shù)目(等于銷毀證據(jù))違背統(tǒng)計(jì)道德。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥加工廠老板實(shí)65§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥律師雖然用了全部數(shù)據(jù),但用了不同的方法。他也只能夠說“在這個(gè)檢驗(yàn)方法下,證據(jù)不足以拒絕零假設(shè)”而不能說“接受零假設(shè)”。另外,律師對(duì)超市用更有效的檢驗(yàn)方法得到的“拒絕零假設(shè)”的結(jié)論視而不見,這也違背了統(tǒng)計(jì)原理。其實(shí),對(duì)于同一個(gè)檢驗(yàn)問題,可能有多種檢驗(yàn)方法。但只要有一個(gè)拒絕,就可以拒絕。那些不能拒絕的檢驗(yàn)方法是能力不足。用統(tǒng)計(jì)術(shù)語來說,該拒絕而不能拒絕的檢驗(yàn)方法是勢(shì)(power)不足,或者效率(efficiency)低。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥律師雖然用了66§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥該例說明了幾個(gè)問題:在已經(jīng)得到樣本的情況下,隨意舍取一些數(shù)目是違背統(tǒng)計(jì)原理和統(tǒng)計(jì)道德的。這相當(dāng)于篡改或銷毀證據(jù)。由于證據(jù)不足而不能拒絕零假設(shè)絕對(duì)不能說成“接受零假設(shè)”。如果一定要說,請(qǐng)給出你接受零假設(shè)所可能犯第二類錯(cuò)誤的概率(這是無法算出的)。這是加工廠老板和律師所犯的錯(cuò)誤。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥該例說明了幾67§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥例中律師的檢驗(yàn)和超市所做的檢驗(yàn)都針對(duì)同樣的檢驗(yàn)問題,但由于超市的檢驗(yàn)方法比律師的檢驗(yàn)更強(qiáng)大(或更強(qiáng)勢(shì),morepowerful,更有效率,moreefficient),所以超市拒絕了零假設(shè),而律師的檢驗(yàn)則不能拒絕。如果有針對(duì)同一檢驗(yàn)問題的許多檢驗(yàn)方法,那么,只要有一個(gè)拒絕,就必須拒絕。絕對(duì)不能“少數(shù)服從多數(shù)”,也不能“視而不見”。§6.4從一個(gè)例子說明“接受零假設(shè)”的說法不妥例中律師的檢68統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論69第六章總體參數(shù)的假設(shè)檢驗(yàn)第六章總體參數(shù)的假設(shè)檢驗(yàn)70如果一個(gè)人說他從來沒有罵過人。他能夠證明嗎?要證明他沒有罵過人,他必須出示他從小到大每一時(shí)刻的錄音錄像,所有書寫的東西等等,還要證明這些物證是完全的、真實(shí)的、沒有間斷的。這簡(jiǎn)直是不可能的。即使他找到一些證人,比如他的同學(xué)、家人和同事,那也只能夠證明在那些證人在場(chǎng)的某些片刻,他沒有被聽到罵人。如果一個(gè)人說他從來沒有罵過人。他能夠證明嗎?71反過來,如果要證明這個(gè)人罵過人很容易,只要有一次被抓住就足夠了。看來,企圖肯定什么事物很難,而否定卻要相對(duì)容易得多。這就是假設(shè)檢驗(yàn)背后的哲學(xué)。科學(xué)總往往是在否定中發(fā)展反過來,如果要證明這個(gè)人罵過人很容易,只要有一次被抓住就足夠72在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè)(上面的“從來沒罵過人”就是一個(gè)例子);而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)與現(xiàn)實(shí)之間的矛盾,從而否定這個(gè)假設(shè)。在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè)(上面的“從來沒罵過人”就73在多數(shù)統(tǒng)計(jì)教科書中(除理論探討外)假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。如否定不了,說明證據(jù)不足,無法否定原假設(shè)。但不能說明原假設(shè)正確。就像一兩次沒有聽過他罵人還遠(yuǎn)不能證明他從來沒有罵過人。在多數(shù)統(tǒng)計(jì)教科書中(除理論探討外)假設(shè)檢驗(yàn)都是以否定原假設(shè)為74§6.1假設(shè)檢驗(yàn)的過程和邏輯先要提出個(gè)原假設(shè),比如某正態(tài)總體的均值等于5(m=5)。這種原假設(shè)也稱為零假設(shè)(nullhypothesis),記為H0。與此同時(shí)必須提出備選假設(shè)(或稱為備擇假設(shè),alternativehypothesis),比如總體均值大于5(m>5)。備選假設(shè)記為H1或Ha。形式上,這個(gè)關(guān)于總體均值的H0相對(duì)于H1的檢驗(yàn)記為§6.1假設(shè)檢驗(yàn)的過程和邏輯先要提出個(gè)原假設(shè),比如某正態(tài)總75§6.1假設(shè)檢驗(yàn)的過程和邏輯備選假設(shè)應(yīng)該按照實(shí)際世界所代表的方向來確定,即它通常是被認(rèn)為可能比零假設(shè)更符合數(shù)據(jù)所代表的現(xiàn)實(shí)。比如上面的H1為m>5;這意味著,至少樣本均值應(yīng)該大于5;至于是否顯著,依檢驗(yàn)結(jié)果而定。檢驗(yàn)結(jié)果顯著(significant)意味著有理由拒絕零假設(shè)。因此,假設(shè)檢驗(yàn)也被稱為顯著性檢驗(yàn)(significanttest)。§6.1假設(shè)檢驗(yàn)的過程和邏輯備選假設(shè)應(yīng)該按照實(shí)際世界所代表76§6.1假設(shè)檢驗(yàn)的過程和邏輯有了兩個(gè)假設(shè),就要根據(jù)數(shù)據(jù)來對(duì)它們進(jìn)行判斷。數(shù)據(jù)的代表是作為其函數(shù)的統(tǒng)計(jì)量;它在檢驗(yàn)中被稱為檢驗(yàn)統(tǒng)計(jì)量(teststatistic)。根據(jù)零假設(shè)(不是備選假設(shè)!),可得到該檢驗(yàn)統(tǒng)計(jì)量的分布;再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realization)屬不屬于小概率事件。§6.1假設(shè)檢驗(yàn)的過程和邏輯有了兩個(gè)假設(shè),就要根據(jù)數(shù)據(jù)來對(duì)77§6.1假設(shè)檢驗(yàn)的過程和邏輯也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇;如果的確是小概率事件,那么就有可能拒絕零假設(shè),或者說“該檢驗(yàn)顯著,”否則說“沒有足夠證據(jù)拒絕零假設(shè)”,或者“該檢驗(yàn)不顯著。”§6.1假設(shè)檢驗(yàn)的過程和邏輯也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,78§6.1假設(shè)檢驗(yàn)的過程和邏輯注意:在我們所涉及的問題中,零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱。因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的,因此,如果發(fā)生矛盾,就對(duì)零假設(shè)不利了。不發(fā)生矛盾也不能說明零假設(shè)沒有問題。§6.1假設(shè)檢驗(yàn)的過程和邏輯注意:在我們所涉及的問題中,零79§6.1假設(shè)檢驗(yàn)的過程和邏輯在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量取其實(shí)現(xiàn)值及(沿著備選假設(shè)的方向)更加極端值的概率稱為p-值(p-value)。如果得到很小的p-值,就意味著在零假設(shè)下小概率事件發(fā)生了。如果小概率事件發(fā)生,是相信零假設(shè),還是相信數(shù)據(jù)呢?當(dāng)然多半是相信數(shù)據(jù),拒絕零假設(shè)。§6.1假設(shè)檢驗(yàn)的過程和邏輯在零假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量取其實(shí)現(xiàn)80§6.1假設(shè)檢驗(yàn)的過程和邏輯但小概率并不能說明不會(huì)發(fā)生,僅僅發(fā)生的概率很小罷了。拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤(typeIerror)。在備選假設(shè)正確時(shí)反而說零假設(shè)正確的錯(cuò)誤,稱為第二類錯(cuò)誤(typeIIerror)。在本書的假設(shè)檢驗(yàn)問題中,由于備選假設(shè)不是一個(gè)點(diǎn),所以無法算出犯第二類錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯但小概率并不能說明不會(huì)發(fā)生,僅81§6.1假設(shè)檢驗(yàn)的過程和邏輯零假設(shè)和備選假設(shè)哪一個(gè)正確,是確定性的,沒有概率可言。而可能犯錯(cuò)誤的是人。涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率。負(fù)責(zé)任的態(tài)度是無論做出什么決策,都應(yīng)該給出該決策可能犯錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯零假設(shè)和備選假設(shè)哪一個(gè)正確,是82§6.1假設(shè)檢驗(yàn)的過程和邏輯到底p-值是多小時(shí)才能夠拒絕零假設(shè)呢?也就是說,需要有什么是小概率的標(biāo)準(zhǔn)。這要看具體應(yīng)用的需要。但在一般的統(tǒng)計(jì)書和軟件中,使用最多的標(biāo)準(zhǔn)是在零假設(shè)下(或零假設(shè)正確時(shí))根據(jù)樣本所得的數(shù)據(jù)來拒絕零假設(shè)的概率應(yīng)小于0.05,當(dāng)然也可能是0.01,0.005,0.001等等。這種事先規(guī)定的概率稱為顯著性水平(significantlevel),用字母a來表示。§6.1假設(shè)檢驗(yàn)的過程和邏輯到底p-值是多小時(shí)才能夠拒絕零83§6.1假設(shè)檢驗(yàn)的過程和邏輯a并不一定越小越好,因?yàn)檫@很可能導(dǎo)致不容易拒絕零假設(shè),使得犯第二類錯(cuò)誤的概率增大。當(dāng)p-值小于或等于a時(shí),就拒絕零假設(shè)。所以,a是所允許的犯第一類錯(cuò)誤概率的最大值。當(dāng)p-值小于或等于a時(shí),就說這個(gè)檢驗(yàn)是顯著的。無論統(tǒng)計(jì)學(xué)家用多大的a作為顯著性水平都不能脫離實(shí)際問題的背景。統(tǒng)計(jì)顯著不一定等價(jià)于實(shí)際顯著。反過來也一樣。§6.1假設(shè)檢驗(yàn)的過程和邏輯a并不一定越小越好,因?yàn)檫@很可84§6.1假設(shè)檢驗(yàn)的過程和邏輯歸納起來,假設(shè)檢驗(yàn)的邏輯步驟為:1.寫出零假設(shè)和備選假設(shè);2.確定檢驗(yàn)統(tǒng)計(jì)量;3.確定顯著性水平a;4.根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值;5.根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值;6.進(jìn)行判斷:如果p-值小于或等于a,就拒絕零假設(shè),這時(shí)犯(第一類)錯(cuò)誤的概率最多為a;如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。§6.1假設(shè)檢驗(yàn)的過程和邏輯歸納起來,假設(shè)檢驗(yàn)的邏輯步驟為85§6.1假設(shè)檢驗(yàn)的過程和邏輯實(shí)際上,多數(shù)計(jì)算機(jī)軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定所得到的p-值等于0.001。這時(shí)如果采用p-值作為新的顯著性水平,即新的a=0.001,于是就可以說,在顯著性水平為0.001時(shí),拒絕零假設(shè)。這樣,拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是舊的a所表明的百分之五。在這個(gè)意義上,p-值又稱為觀測(cè)的顯著性水平(observedsignificantlevel)。§6.1假設(shè)檢驗(yàn)的過程和邏輯實(shí)際上,多數(shù)計(jì)算機(jī)軟件僅僅給出86§6.1假設(shè)檢驗(yàn)的過程和邏輯在統(tǒng)計(jì)軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個(gè)道理。根據(jù)數(shù)據(jù)產(chǎn)生的p-值來減少a的值以展示結(jié)果的精確性總是沒有害處的。這好比一個(gè)身高180厘米的男生,可能愿意被認(rèn)為高于或等于180厘米,而不愿意說他高于或等于155厘米,雖然這第二種說法數(shù)學(xué)上沒有絲毫錯(cuò)誤。§6.1假設(shè)檢驗(yàn)的過程和邏輯在統(tǒng)計(jì)軟件輸出p-值的位置,有87§6.1假設(shè)檢驗(yàn)的過程和邏輯關(guān)于“臨界值”的注:作為概率的顯著性水平a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè)臨界值(criticalvalue),它定義為,統(tǒng)計(jì)量取該值或更極端的值的概率等于a。也就是說,“統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端”等價(jià)于“p-值小于a”。使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算p-值。只比較統(tǒng)計(jì)量的取值和臨界值的大小。§6.1假設(shè)檢驗(yàn)的過程和邏輯關(guān)于“臨界值”的注:作為概率的88§6.1假設(shè)檢驗(yàn)的過程和邏輯使用臨界值而不是p-值來判斷拒絕與否是前計(jì)算機(jī)時(shí)代的產(chǎn)物。當(dāng)時(shí)計(jì)算p-值不易,只采用臨界值的概念。但從給定的a求臨界值同樣也不容易,好在習(xí)慣上僅僅在教科書中列出相應(yīng)于特定分布的幾個(gè)有限的a臨界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根據(jù)分布表反過來查臨界值(很不方便也很粗糙)。現(xiàn)在計(jì)算機(jī)軟件大都不給出a和臨界值,但都給出p-值和統(tǒng)計(jì)量的實(shí)現(xiàn)值,讓用戶自己決定顯著性水平是多少。§6.1假設(shè)檢驗(yàn)的過程和邏輯使用臨界值而不是p-值來判斷拒89§6.1假設(shè)檢驗(yàn)的過程和邏輯在一些統(tǒng)計(jì)教科書中會(huì)有不能拒絕零假設(shè)就“接受零假設(shè)”的說法。這種說法是不嚴(yán)格的。首先,如果你說“接受零假設(shè)”,那么就應(yīng)該負(fù)責(zé)任地提供接受零假設(shè)時(shí)可能犯第二類錯(cuò)誤的概率。這就要算出在備選假設(shè)正確的情況下錯(cuò)誤接受零假設(shè)的概率。但是,這只有在備選假設(shè)僅僅是一個(gè)與零假設(shè)不同的確定值(而不是范圍)時(shí)才有可能。多數(shù)基本統(tǒng)計(jì)教科書的備選假設(shè)是一個(gè)范圍而根本無法確定犯第二類錯(cuò)誤的概率。§6.1假設(shè)檢驗(yàn)的過程和邏輯在一些統(tǒng)計(jì)教科書中會(huì)有不能拒絕90§6.1假設(shè)檢驗(yàn)的過程和邏輯在許多統(tǒng)計(jì)教科書中,往往把一系列不能拒絕零假設(shè)的檢驗(yàn)當(dāng)成接受這些假設(shè)的通行證。比如不能拒絕某樣本的正態(tài)性就變成了證明了該樣本是正態(tài)的等等。不能拒絕這些零假設(shè),僅僅說明根據(jù)所使用的檢驗(yàn)方法(或檢驗(yàn)統(tǒng)計(jì)量)和當(dāng)前的數(shù)據(jù)沒有足夠證據(jù)拒絕這些假設(shè)而已。§6.1假設(shè)檢驗(yàn)的過程和邏輯在許多統(tǒng)計(jì)教科書中,往往把一系91§6.1假設(shè)檢驗(yàn)的過程和邏輯對(duì)于同一個(gè)假設(shè)檢驗(yàn)問題,往往都有多個(gè)檢驗(yàn)統(tǒng)計(jì)量;而且人們還在構(gòu)造更優(yōu)良的檢驗(yàn)統(tǒng)計(jì)量。人們不可能把所有的目前存在的和將來可能存在的檢驗(yàn)都實(shí)施。因此,只能夠說,按照目前的證據(jù),不足以拒絕零假設(shè)而已。后面將會(huì)用例子說明“接受零假設(shè)”的說法是不妥當(dāng)?shù)摹!?.1假設(shè)檢驗(yàn)的過程和邏輯對(duì)于同一個(gè)假設(shè)檢驗(yàn)問題,往往都92§6.2對(duì)于正態(tài)總體均值的檢驗(yàn)

§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.1一個(gè)顧客買了一包標(biāo)有500g重的一包紅糖,覺得份量不足,于是找到監(jiān)督部門;當(dāng)然他們會(huì)覺得一包份量不夠可能是隨機(jī)的。于是監(jiān)督部門就去商店稱了50包紅糖(數(shù)據(jù)在sugar.txt);其中均值(平均重量)是498.35g;這的確比500g少,但這是否能夠說明廠家生產(chǎn)的這批紅糖平均起來不夠份量呢?于是需要統(tǒng)計(jì)檢驗(yàn)。可以畫出這些重量的直方圖§6.2對(duì)于正態(tài)總體均值的檢驗(yàn)

§6.2.1根據(jù)一個(gè)樣本9350包紅糖重量的直方圖

50包紅糖重量的直方圖94§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)這個(gè)直方圖看上去象是正態(tài)分布的樣本。不妨假定這一批袋裝紅糖有正態(tài)分布。由于廠家聲稱每袋500g(標(biāo)明重量),因此零假設(shè)為總體均值等于500g(被懷疑對(duì)象總是放在零假設(shè));而且由于樣本均值少于500g(這是懷疑的根據(jù)),把備選假設(shè)定為總體均值少于500g(備選假設(shè)為單向不等式的檢驗(yàn)稱為單尾檢驗(yàn),為不等號(hào)“≠”的稱為雙尾檢驗(yàn))§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)這個(gè)直方圖95§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量就是第四章引進(jìn)的作為對(duì)均值的某種標(biāo)準(zhǔn)化的符號(hào)中的m0通常表示為零假設(shè)中的均值(這里是500)。在零假設(shè)之下,它有自由度為n-1=49的t分布。當(dāng)然實(shí)際上不必代入這個(gè)公式去手工計(jì)算了,讓計(jì)算機(jī)去代勞好了。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量96§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)計(jì)算結(jié)果是t=-2.696(也稱為t值),同時(shí)得到p-值為0.005(由于計(jì)算機(jī)輸出的為雙尾檢驗(yàn)的p-值,比單尾的大一倍,應(yīng)該除以2)。看來可以選擇顯著性水平為0.005,并宣稱拒絕零假設(shè),而錯(cuò)誤拒絕的概率為0.005。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)計(jì)算結(jié)果是97統(tǒng)計(jì)量t=-2.696相應(yīng)于左邊尾概率(p-值)0.005統(tǒng)計(jì)量t=-2.696相應(yīng)于左邊尾概率(p-值)0.00598§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)上面例子的備選假設(shè)為小于(“<”)某個(gè)值。同樣也可能有備選假設(shè)為均值大于(“>”)某個(gè)值的情況。取備選假設(shè)為均值大于或小于某個(gè)值的檢驗(yàn)稱為單尾檢驗(yàn)(one-tailedtest,也稱為單側(cè)檢驗(yàn)或單邊檢驗(yàn))。下面舉一個(gè)選假設(shè)為均值大于(“>”)某個(gè)值的例子。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)上面例子的99§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.2(exh.txt)汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺(tái)發(fā)動(dòng)機(jī)之后,得到下面的排放數(shù)據(jù):17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認(rèn)為該指標(biāo)均值超過20?這次的假設(shè)檢驗(yàn)問題就是§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)例6.2(100§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)和前面的例子的方法類似,可以發(fā)現(xiàn)p-值為0.1243(計(jì)算機(jī)輸出的雙尾檢驗(yàn)的p-值除以2),因此,沒有證據(jù)否定零假設(shè)。這時(shí)的檢驗(yàn)統(tǒng)計(jì)量t=1.2336。也可以畫出類似于圖6.2的圖(圖6.3)這時(shí)的t分布的自由度為9。下面是結(jié)果的計(jì)算機(jī)輸出:§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)和前面的例101統(tǒng)計(jì)量t=1.2336相應(yīng)于右邊尾概率(p-值)0.1243統(tǒng)計(jì)量t=1.2336相應(yīng)于右邊尾概率(p-值)0.1243102§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)注意:在假設(shè)檢驗(yàn)中往往也用帶等號(hào)的不等式來表示零假設(shè),比如上述的檢驗(yàn)記為但這里用于計(jì)算p-值的零假設(shè)還是m=20;但如果能夠拒絕零假設(shè)m=20,那么對(duì)于任何m小于20的零假設(shè)就更有理由拒絕了。這和以拒絕零假設(shè)為初衷的假設(shè)檢驗(yàn)思維方式是一致的。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)注意:在假103§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)還有所謂的雙尾檢驗(yàn)(twotailedtest,也稱為雙側(cè)檢驗(yàn)或雙邊檢驗(yàn))問題,即在這種情況下,尾概率不僅是左邊或右邊的一個(gè)尾概率,而是兩邊尾概率之和。因此如果是一個(gè)單尾檢驗(yàn)問題,用了雙尾檢驗(yàn)的模式,p-值就比用單尾檢驗(yàn)時(shí)大了一倍。§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)還有所謂的104§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)如果上面發(fā)動(dòng)機(jī)排放指標(biāo)例子的檢驗(yàn)問題改為是否該發(fā)動(dòng)機(jī)的排放指標(biāo)均值等于20。即這時(shí)t統(tǒng)計(jì)量還是取原來的值1.2336,但p-值為0.1243×2=0.2486。圖6.3就變成圖6.4的樣子§6.2.1根據(jù)一個(gè)樣本對(duì)其總體均值大小進(jìn)行檢驗(yàn)如果上面發(fā)105統(tǒng)計(jì)量t=1.2336,而p-值等于左右尾概率之和,即0.2486統(tǒng)計(jì)量t=1.2336,而p-值等于左右尾概率之和,即0.2106§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)例6.3(數(shù)據(jù):drug.txt)為檢測(cè)某種藥物對(duì)攻擊性情緒的影響,對(duì)處理組的100名服藥者和對(duì)照組的150名非服藥者進(jìn)行心理測(cè)試,得到相應(yīng)的某指標(biāo)。要檢驗(yàn)處理組指標(biāo)的總體均值m1是否等于對(duì)照組指標(biāo)的總體均值m2。相應(yīng)的假設(shè)檢驗(yàn)問題為:或§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)例107§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)通過計(jì)算,t統(tǒng)計(jì)量等于0.942,p-值為0.1735(輸出中的雙尾檢驗(yàn)p-值的一半)。因此無法拒絕零假設(shè),即不能得出處理組的平均指標(biāo)大于對(duì)照組的結(jié)論。計(jì)算機(jī)輸出的相應(yīng)表格(部分,刪除了置信區(qū)間部分)為:§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)通108§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)注意:這個(gè)輸出的前面三列用Levene的F-檢驗(yàn)來看這兩個(gè)樣本所代表的總體之方差是否相等(零假設(shè)為相等)。第一行是該檢驗(yàn)的零假設(shè):兩個(gè)總體方差相等,而第二行為備選假設(shè):兩個(gè)總體方差不等。如果該檢驗(yàn)顯著,即在Sig列中的該Levene檢驗(yàn)p-值很小(這里是0.008),就應(yīng)該看第二行備選假設(shè)的t檢驗(yàn)輸出,這里是0.347;由于是單邊檢驗(yàn),p-值=0.347/2=0.1735;如果Levene檢驗(yàn)的p-值較大(本例并不大),則看第一行原假設(shè)下的結(jié)果。之所以要檢驗(yàn)總體方差,是因?yàn)榭傮w方差相同時(shí)使用的檢驗(yàn)統(tǒng)計(jì)量與方差不同時(shí)使用的不同。§6.2.2根據(jù)來自兩個(gè)總體的獨(dú)立樣本對(duì)其總體均值的檢驗(yàn)注109§6.2.3成對(duì)樣本的問題例6.4減肥數(shù)據(jù)(diet.txt)。這里有50對(duì)數(shù)據(jù)。為50人是減肥前后的重量要比較50個(gè)人在減肥前后的重量。不能用前面的獨(dú)立樣本均值差的檢驗(yàn);這是因?yàn)閮蓚€(gè)樣本并不獨(dú)立。每一個(gè)人減肥后的重量都和自己減肥前的重量有關(guān)。但不同人之間卻是獨(dú)立的。令所有個(gè)體減肥前后重量差(減肥前重量減去減肥后重量)的均值為mD;這樣所要進(jìn)行的檢驗(yàn)為§6.2.3成對(duì)樣本的問題例6.4減肥數(shù)據(jù)(diet.tx110§6.2.3成對(duì)樣本的問題我們可以把兩個(gè)樣本中配對(duì)的觀測(cè)值逐個(gè)相減,形成一個(gè)由獨(dú)立觀測(cè)值組成的樣本;然后用單樣本檢驗(yàn)方法,看其均值是否為零。在相減之后公式和單樣本均值檢驗(yàn)無異。當(dāng)然,如果直接選用軟件中成對(duì)樣本均值的檢驗(yàn),就不用事先逐個(gè)相減了。這里也有單尾和雙尾檢驗(yàn)。這里介紹的是假定總體分布為正態(tài)分布時(shí)的t檢驗(yàn)。總體分布未知時(shí),應(yīng)該利用第十六章的非參數(shù)檢驗(yàn)方法。§6.2.3成對(duì)樣本的問題我們可以把兩個(gè)樣本中配對(duì)的觀測(cè)值111§6.2.3成對(duì)樣本的問題再接著看例6.4。計(jì)算機(jī)輸出了雙尾p-值0.002,這里的單尾p-值于是為0.001。因此在顯著性水平為0.001時(shí),可以拒絕零假設(shè)。也就是說,減肥后和減肥前相比,平均重量顯著要輕。下面是這個(gè)檢驗(yàn)的SPSS的部分計(jì)算機(jī)輸出為(刪去了置信區(qū)間):§6.2.3成對(duì)樣本的問題再接著看例6.4。計(jì)算機(jī)輸出了雙112§6.3對(duì)于比例的檢驗(yàn)

§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)例6.5(two.txt)為評(píng)價(jià)電視的收視率,電話調(diào)查,在某一節(jié)目播出的時(shí)候,被訪的正在觀看電視的人中有23%的正在觀看這個(gè)節(jié)目。現(xiàn)在想知道,這是否和該節(jié)目的制作人所期望的p0=25%有顯著不足。這顯然是一個(gè)參數(shù)為p的二項(xiàng)分布問題。形式上的假設(shè)檢驗(yàn)問題是§6.3對(duì)于比例的檢驗(yàn)

§6.3.1對(duì)于離散變量總體比例113§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如果n為訪問的正在看電視的人數(shù),x為其中觀看該節(jié)目的人數(shù),那么樣本中的觀看比例為檢驗(yàn)統(tǒng)計(jì)量則是在零假設(shè)下當(dāng)大樣本時(shí)近似有標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如果n為訪問的正在看114§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)這個(gè)數(shù)值用手算也不費(fèi)力氣。請(qǐng)注意,前面第五章提起過,即使被訪者的百分比一樣,但樣本少的信息就少。對(duì)于假設(shè)檢驗(yàn)也是一樣。樣本量對(duì)于假設(shè)檢驗(yàn)的結(jié)果就十分重要。對(duì)于本例,現(xiàn)在還未給出樣本量n呢!下面看看不同的樣本量會(huì)得到什么結(jié)果(假定x/n=0.23不變)§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)這個(gè)數(shù)值用手算也不費(fèi)115§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如樣本量為n=1500(和數(shù)據(jù)給的一樣),那么,上面的檢驗(yàn)得到的p-值為0.0368。因此,可以認(rèn)為(如果選顯著性水平為0.05的話)說收視率有25%是過分了。即拒絕零假設(shè)。如樣本量為n=100,那么,上面的檢驗(yàn)得到的p-值為0.3221。因此,沒有足夠的理由拒絕收視率有25%的零假設(shè)(如果選顯著性水平為0.05的話)注意,利用軟件時(shí),上面的p-值計(jì)算往往在公式中加上用連續(xù)變量近似離散變量分布時(shí)常用的連續(xù)性糾正,因此結(jié)果和用上面公式直接手算的稍有不同。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)如樣本量為n=150116§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)下面是對(duì)于n=1500時(shí),例6.5的SPSS輸出。這里正在觀看該節(jié)目的人數(shù)為n1=345,而1500人中觀看其他節(jié)目的人數(shù)為n2=1155。樣本中收視比例為n1/n=345/1500=0.23。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)下面是對(duì)于n=150117§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)前面對(duì)總體比例的檢驗(yàn)所用的公式利用了二項(xiàng)分布的大樣本正態(tài)近似;怎樣才是大樣本呢?這和第五章求比例的置信區(qū)間時(shí)大樣本的近似標(biāo)準(zhǔn)類似,即當(dāng)區(qū)間完全包含在(0,1)區(qū)間內(nèi)部時(shí),可以認(rèn)為樣本足夠大,能夠用正態(tài)近似。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)前面對(duì)總體比例的檢驗(yàn)118§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)對(duì)于兩個(gè)樣本,也有關(guān)于兩個(gè)總體比例之差p1-p2的檢驗(yàn)。還拿收視率為例。節(jié)目甲的樣本收視率為20%,節(jié)目乙為21%,是不是節(jié)目甲的總體收視率就真的低于節(jié)目乙?即檢驗(yàn)這里的零假設(shè)意味著節(jié)目甲和節(jié)目乙收視率相等。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)對(duì)于兩個(gè)樣本,也有關(guān)119§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)假定n1=1200,n2=1300,檢驗(yàn)統(tǒng)計(jì)量則是在零假設(shè)下當(dāng)大樣本時(shí)有近似標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量得到p-值等于0.2679。因此,在顯著性水平即使是0.1時(shí),也沒有足夠證據(jù)可以拒絕“節(jié)目甲和節(jié)目乙收視率相等”的零假設(shè)。§6.3.1對(duì)于離散變量總體比例的檢驗(yàn)假定n1=1200,120§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)有時(shí)需要檢驗(yàn)收入低于某個(gè)水平的人占有的比例p是否和預(yù)期的p0一樣。和6.3.1節(jié)一樣,只要把大于某水平的觀測(cè)值看作Bernoulli試驗(yàn)的“成功”,而把小于某水平的觀測(cè)值看成“失敗”,就回到二項(xiàng)分布的問題了。當(dāng)然,用不著把這些連續(xù)變量的觀測(cè)值都變成“成功”和“失敗”之后,再數(shù)各有多少。統(tǒng)計(jì)軟件會(huì)替我們做所有的事情。下面通過一個(gè)例子來說明。§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)有時(shí)需要檢驗(yàn)收入低于某個(gè)121§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)例6.6某微生物的壽命問題(數(shù)據(jù)life.txt)。這里有某微生物在一種污染環(huán)境下生存的壽命數(shù)據(jù)(單位:小時(shí))§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)例6.6某微生物的壽命122§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)問題是存活時(shí)間低于2小時(shí)的是否少于70%(存活時(shí)間多于2小時(shí)的是否多于30%)?零假設(shè)為存活時(shí)間低于2小時(shí)的少于或等于70%,備選假設(shè)為存活時(shí)間低于2小時(shí)的多于70%。該檢驗(yàn)用符號(hào)表示,對(duì)于p0=0.7,§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)問題是存活時(shí)間低于2小時(shí)123§6.3.2對(duì)于連續(xù)變量比例的檢驗(yàn)由計(jì)算機(jī)很容易得到檢驗(yàn)結(jié)果這說明,活不過2小時(shí)的有52個(gè)觀測(cè)值,所占的比例為90%。檢驗(yàn)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論