




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
./引言一般統計分析分為參數分析與非參數分析,參數分析是指,知道總體分布,但其中幾個參數的值未知,用統計量來估計參數值,但大部分情況,總體是未知的,這時候就不能用參數分析,如果強行用可能會出現錯誤的結果。例如:分析下面的供應商的產品是否合格?合格產品的標準長度為〔8.50.1〕,隨即抽取n=100件零件,數據如下:表1.18.5038.5088.4988.3478.4948.5008.4988.5008.5028.5018.4918.5048.5028.5038.5018.5058.4928.4978.1508.4968.5018.4898.5068.4978.5058.5018.5008.4998.4908.4938.5018.4978.5018.4988.5038.5058.5108.4998.4898.4968.5008.5038.4978.5048.5038.5068.4978.5078.3468.3108.4898.4998.4928.4978.5068.5028.5058.4898.5038.4928.5018.4998.8048.5058.5048.4998.5068.4998.4938.4948.4908.5058.5118.5028.5058.5038.7828.5028.5098.4998.4988.4938.8978.5048.4938.4947.7808.5098.4998.5038.4948.5118.5018.4978.4938.5018.4958.4618.5048.691經計算,平均長度為,非常接近中心位置8.5cm,樣本標準差為cm.一般產品的質量服從正態分布,。這說明產品有接近三分之一不合格,三分之二合格,所以需要更換供應廠商,而用非參數分析卻是另外一個結果。以下是100個零件長度的分布表:長度〔cm〕頻率〔%〕~8.4058.40~8.4608.46~8.4818.48~8.50458.50~8.52458.52~8.6008.60~4合計100這說明有90%的零件長度在cm之間,有9%的零件不合格,所以工廠不需要換供應商。例2哪一個企業職工的工資高?表1.3兩個企業職工的工資企業1111213141516171819204060企業23456789103050顯然,企業1職工的工資高,倘若假設企業1與企業2的職工工資分別服從正態分布,則這兩個企業職工的工資比較問題就可以轉化為一個參數的假設檢驗問題,原假設為,備擇假設為則若為真,則其中拒絕域為:檢測值為:故不能拒絕原假設,認為兩企業的工資水平無差異。也可以用檢驗由于故不能拒絕原假設,認為兩企業的工資水平無差異。這里我們采用的顯著性水平為0.1.但這個統計結論與實際數據不相符合。主要是因為假設工資服從正態分布,這個假設是錯誤的,用錯誤的假設結合參數分析自然得出的結論不可靠。這時候有兩種方法處理,一種更換其他分布的假設,二是用非參數數據的方法的分析。非參數統計如同光譜抗生素,應用X圍十分廣泛。參數統計與非參數統計針對不同的情況提出的統計方法,它們各有優缺點,互為補充。描述性統計§2.1表格法和圖形法表格法主要有列頻數分布表和頻率分布表例2.1某公司測試新燈絲的壽命,列表如下:10773689776799459985773815465718084799863656679866874618265986371621166479787977868976748573806878897258927888771038863688881647375906289717470856165617562947185848363926881找到最小值43,最大值116;將組數分為5~20組,,分16組,組距為5表2.2燈絲壽命的頻率分布表燈絲壽命〔小時〕個數頻率〔%〕40--4410.545--4910.550--5421.055--5984.060--642412.065--692814.070--743015.075--793417.080--842311.585--892211.090--94147.095--9984.0100--10431.5105--10910.5110--11400.0115--11910.5總和200100對應的直方圖為:§2.2表格法和圖形法數值方法主要是用數值來表示數據的中心位置〔或者平均大小〕和離散程度等。135331323244列1平均2.833333標準誤差0.34451中位數3眾數3標準差1.193416方差1.424242峰度-0.20317偏度-0.00713區域4最小值1最大值5求和34觀測數12它的平均數,中位數,眾數差不多大。但大部分情況不是這樣的,例如:§表2.3某保險公司賠款樣本數據頻率分布表賠款數賠款次數0--4002400--80032800--1200241200--1600191600--2000102000--240062400--280032800--320023200--360013600--40001合計100平均數,中位數,眾數分別為:1224,1000,600,這三者相差較大。左峰的時候:眾數中位數平均數,右峰的時候:平均數中位數眾數。平均數容易受到異常值的影響,故不能很好地代表中心位。例如某地農戶收入增長了2.9%,但減收的農戶卻是60%,為了更好地反映中心位,所以很多情況采用的切尾平均數。人們熟知的去掉最大值與最小值的平均數也是切尾平均數。§2.4經濟專業畢業生的月收入數據畢業生月收入畢業生月收入118502195032050418805175061700718908213091940102340111920121880去掉最大值2340,最小值1700,的切尾平均數比總體平均數要小,它為1924,而總體平均數為1940.但中位數都一樣,均為1905,中位數表現了穩定性。因此我們不僅用平均數表示中心位置,有時候也用中位數描述數據的中心位置。另外,眾數也能用來描述數據的中心位置,尤其是定性數據的中心位置,例如:§2.5有缺陷的小巧克力不合格品問題的頻數頻率分布表代碼問題頻數頻率〔%〕1外層不夠48652.832兩個粘在一起434.673被壓扁29532.074外層太多849.135破裂121.30這種情況下計算平均數和中位數沒有多大意義,相反眾數為1,眾數值得關注。一般情況,平均數,中位數,眾數應該綜合考量,這三個數目,使得我們可以從不同角度表達數據的中心位置,給評估對象一個全面的評價,例如:某企業的職工收入的平均數為5700,元,中位數為3000元,眾數為2000元,這說明收入2000元的人最多,有一半職工低于3000元,有一半職工高于3000元,平均數5700大于中位數,說明有些員工工資特別高。平均數與中位數為何可以表示數據的中心位置呢?主要是因為:〔2.1〕〔2.2〕這說明用不同的距離標準衡量,平均數與中位數到各點的距離最近。另外平均數的物理意義還有重心的意義,在重心位置,系統可以平衡,在圖2.8處,平均數為4,中位數為3,就意味著把樹木集中在3這點,所走的路最短。***********123456789中位數平均數§2.2.2表示離散程度的數值表示離散程度的數值一般有方差,四分位數,而四分位數又分上四分位數與下四分位數。為表示數據的離散程度,我們一般用五個數概括,即最小值,下四分位數,中位數,上四分位數,最大值,分別記為例如:將12名經濟專業畢業生月收入數據處理結果如下:〔用Minitab〕數據容量N12平均數Mean1940中位數Median1905切尾平均數TrMean1924標準差StDev170.6標準誤SEMean49.3最小值Minimum1700最大值Maximum2340下四分位數1857.5上四分位數2025用統計軟件Minitab畫箱線圖〔見圖2.9〕圖2.9四分位數的計算分位數是將總體的全部數據按大小順序排列后,處于各等分位置的變量值.如果將全部數據分成相等的兩部分,它就是中位數;如果分成四等分,就是四分位數;八等分就是八分位數等.四分位數也稱為四分位點,它是將全部數據分成相等的四部分,其中每部分包括25%的數據,處在各分位點的數值就是四分位數.四分位數有三個,第一個四分位數就是通常所說的四分位數,稱為下四分位數,第二個四分位數就是中位數,第三個四分位數稱為上四分位數,分別用Q1、Q2、Q3表示.四分位數作為分位數的一種形式,在統計中有著十分重要的作用和意義,現就四分位數的計算做一詳細闡述.一、資料未分組四分位數計算第一步:確定四分位數的位置.Qi所在的位置=i〔n+1〕/4,其中i=1,2,3.n表示資料項數.第二步:根據第一步四分位數的位置,計算相應四分位數.例1:某數學補習小組11人年齡〔歲〕為:17,19,22,24,25,28,34,35,36,37,38.則三個四分位數的位置分別為:Q1所在的位置=〔11+1〕/4=3,Q2所在的位置=2〔11+1〕/4=6,Q3所在的位置=3〔11+1〕/4=9.變量中的第三個、第六個和第九個人的歲數分別為下四分位數、中位數和上四分位數,即:Q1=22〔歲〕、Q2=28〔歲〕、Q3=36〔歲〕我們不難發現,在上例中〔n+1〕恰好是4的整數倍,但在很多實際工作中不一定都是整數倍.這樣四分位數的位置就帶有小數,需要進一步研究.帶有小數的位置與位置前后標志值有一定的關系:四分位數是與該小數相鄰的兩個整數位置上的標志值的平均數,權數的大小取決于兩個整數位置的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和應等于1.例2:設有一組經過排序的數據為12,15,17,19,20,23,25,28,30,33,34,35,36,37,則三個四分位數的位置分別為:Q1所在的位置=〔14+1〕/4=3.75,Q2所在的位置=2〔14+1〕/4=7.5,Q3所在的位置=3〔14+1〕/4=11.25.變量中的第3.75項、第7.5項和第11.25項分別為下四分位數、中位數和上四分位數,即:Q1=0.25×第三項+0.75×第四項=0.25×17+0.75×19=18.5;Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5;Q3=0.75×第十一項+0.25×第十二項=0.75×34+0.25×35=34.25.二、資料已整理分組的組距式數列四分位數計算第一步:向上或向下累計次數〔因篇幅限制,以下均采取向上累計次數方式計算〕;第二步:根據累計次數確定四分位數的位置:Q1的位置=〔∑f+1〕/4,Q2的位置=2〔∑f+1〕/4,Q3的位置=3〔∑f+1〕/4式中:∑f表示資料的總次數;第三步:根據四分位數的位置計算各四分位數〔向上累計次數,按照下限公式計算四分位數〕:Qi=Li+fi×di式中:Li——Qi所在組的下限,fi——Qi所在組的次數,di——Qi所在組的組距;Qi-1——Qi所在組以前一組的累積次數,∑f——總次數.例3:某企業工人日產量的分組資料如下:根據上述資料確定四分位數步驟如下:〔1〕向上累計方式獲得四分位數位置:Q1的位置=〔∑f+1〕/4=〔164+1〕/4=41.25Q2的位置=2〔∑f+1〕/4=2〔164+1〕/4=82.5Q3的位置=3〔∑f+1〕/4=3〔164+1〕/4=123.75〔2〕可知Q1,Q2,Q3分別位于向上累計工人數的第三組、第四組和第五組,日產量四分位數具體為:Q1=L1+■×d1=70+■×10=72.49〔千克〕Q2=L2+■×d2=80+■×10=80.83〔千克〕Q3=L3+■×d3=90+■×10=90.96〔千克〕shitouwa43202014-10-23§2.2.3標準誤假設產生數據的總體的均值為,方差為。它們的估計分別為樣本平均值,樣本方差和樣本標準差,由于平均數的標準差為,所以它的估計取為,稱為標準誤。由得在顯著性水平0.95的條件下,得置信區間的端點即得.用Mintab計算得到:VariableNN*MeanSEMeanStDevMinimumQ1MedianQ3MaximumC11201940.049.3170.61700.01857.51905.02025.02340.0算得到所求置信區間為:用Excel計算得到:平均1940標準誤差49.25198中位數1905眾數1880標準差170.6139方差29109.09峰度1.874516偏度1.102987區域640最小值1700最大值2340求和23280觀測數12置信度<95.0%>108.4029所求置信區間為:兩款軟件計算結果相差不大。§2.2.4偏度偏度〔Skewness〕反應單峰分布的對誠性,總體偏度用表示樣本偏見度用表示,國家標準的計算公式為:其中在Excel中的計算公式為:一般數據的分布是右偏的,數據的分布是左偏的,我們傾向于認為總體的分布是對稱的。§2.2.4峰度峰度〔Kurtosis〕反映峰的尖峭程度,總體峰度用表示,總體的峰度的定義為〔國家標準〕樣本峰度用,國家標準的計算公式為由于正態分布的峰度系數為3,當時為尖峰分布,當時為扁平分布。第三章符號檢驗法符號檢驗是一種較為簡單的非參數檢驗,中位數檢驗是符號檢驗的一個重要應用。例3.1某市勞動和社會保障部門的資料說明,1998年高級技師的年收入的中位數為21700元,該市某個行業有一個由50名高級技師組成的樣本,數據如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假設與備擇假設為:選擇統計量,即為大于中位數的的個數,表示計數,也可表示為:若為真,則而檢測值計算P值即檢測值落入拒絕域。故拒絕原假設,接受備擇假設在excel中如何使用BINOMDIST函數返回一元二項式分布的概率值BINOMDIST函數用于返回一元二項式分布的概率值。函數語法語法形式BINOMDIST<number_s,trials,probability_s,cumulative>number_s:表示實驗成功的次救。trials:表示獨立實驗的次數。probability_s:表示一次實驗中成功的概率。cumulative:表示一邏輯值,決定函數的形式,如果cumulative為TRUE,函數BINOMDIST返回積累分布函數,即至多number_s次成功的概率;如果為FALSE,返回概率密度函數,即number_s次成功的概率。例如,拋硬幣正反面的概率是0.5若要計算出拋10次硬幣6次是正面的概率。可以使用BINOMDIST函數來實現。Step01選中C4單元格,在公式編輯欄中輸入公式:=BINOMDIST<A2,B2.C2,TRUE>按Enter鍵即可計算出積累分布函數,即至多6次成功概率,如圖8-73所示。Step02選中C5單元格,在公式編輯欄中輸入公式:=BINOMDIST<A2,B2.C2.FALSE>按Enter鍵即可計算出概率密度函數,即6次成功的概率,如圖8-74所示。§3.2符號檢驗在定性數據分析中的應用有的時候,觀察值是一些定性數據,如果定性數據僅取兩個值,就可以使用符號檢驗對它進行統計分析。例3.2某項調查詢問了2000名年輕人。問題是:你認為我們的生活環境是比過去更好,更差,還是沒有變化?有800人覺得"越來越好",有720人感覺一天不如一天,有400人表示沒有變化,還有80人說不知道,根據調查結果,你是否相信,在總體認為我們的生活比過去更好的人,比認為我們的生活比過去差的人多?解:原假設與備擇假設為選擇統計量,也可表示為:則由于n很大,所以可以近似認為其中利用正態分布的計算結果修正后由于P值較小,所以我們認為我們的生活環境變好了。§3.3成對數據的比較問題由于同一塊田的生長環境相同,不同的地生長環境各不相同,所以將這批數據寫成成對的形式。,為品種差,為隨機差。關于原點對稱的分布。由于都服從關于原點對稱的分布,〔同分布〕則所以關于原點對稱。其它分位點的檢驗以往的資料表明,某種圓鋼的90%的產品的硬度不小于103〔〕,為了檢驗這個結論是否屬實,現在隨機挑選20根圓鋼進行硬度實驗,測得其硬度分別是:14213411998131102154122931378611916114415816581117128113問這批鋼材是否達標?解:原假設與備擇假設為:選取統計量,若原假設成立,則檢測值,檢驗的P值為即檢測值落入拒絕域,故拒絕原假設,接受備擇假設即產品不達標。例7.6.4工廠有兩個化驗室,每天同時從工廠的冷卻水中取樣,測量水中的含氯量〔〕一次,記錄如下:i<實驗室A><實驗室B>差11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191.121.23-0.11100.90.97-0.07111.41.52-0.12問兩個化驗室測定的結果之間有無顯著性差異?解:設A,B實驗室的測量誤差分別為:并設的分布函數分別為。由于選取統計量原假設與備擇假設為:若為真,則在Z的分布關于原點對稱選取統計量即表示中正數的個數。檢驗值,檢驗的P值為:在顯著性水平為,檢測值未落入拒絕域,故接受原假設,認為兩個化驗室的檢測結果之間無顯著性差異。例7.6.5在某保險類中,一次20xx索賠數額的隨機抽樣為〔按照升序排列〕:4632472850525064548469727596948014760150121872021240228365278867200已知20xx索賠數額的中位數為5063元,問20xx索賠的中位數較上一年是否有所變化?解:這是一個雙側檢驗問題:原假設與備擇假設為:選取統計量顯著性水平。計算得:所以雙側拒絕域為:而檢測值,落入拒絕域.故拒絕原假設,接受備擇假設,即可以認為20xx索賠的中位數較上一年有所變化。方法二:也可采用值檢驗檢驗的值為:故檢測值落入拒絕域,所以拒絕原假設,接受備擇假設,即可以認為20xx索賠的中位數較上一年有所變化。例7.6.6.1984年一些國家每平方公里可開發的水資源數據如下表所示〔萬度/年〕國家每平方可開發水資源國家每平方可開發水資源蘇聯4.9印度8.5巴西4.1哥倫比亞26.3美國7.5日本34.9加拿大5.4阿根廷6.9扎伊爾28.1印度尼西亞7.9墨西哥4.9瑞士78.0瑞典22.3羅馬利亞10.1意大利16.8西德8.8奧地利58.6英國1.7南斯拉夫24.8法國11.5挪威37.4西班牙13.4而當年中國的該項指標為20萬度/年。請用符號檢驗方法檢驗:這22個國家每平方公里可開發的水資源的中位數不高于中國,求檢驗的P值,并寫出結論。解:原假設與備擇假設為:選取統計量,若原假設成立,則顯著性水平,查表得:右側拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認為這22個國家可開發的水資源的中位數不高于中國。例7.6.7.下面是亞洲十個國家1996年的每1000個新生兒中的死亡數〔按從小到大的次序排列〕日本以色列韓國斯里蘭卡中國敘利亞伊朗印度孟加拉巴基斯坦46915233136657788以M表示1996年1000個新生兒中死亡數的中位數,試檢驗:,求檢驗的P值,并寫完出結論。解:原假設與備擇假設為:選取統計量,若原假設成立,則顯著性水平,查表得:左側拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認為1996年1000個新生兒中死亡數的中位數不低于34。例7.6.8.某煙廠稱其生產的每支香煙的尼古丁含量在12mg以下,實驗室測定的該煙廠的12支香煙的尼古丁含量〔單位:mg〕分別為:16.717.714.111.413.410.513.611.612.012.611.713.7問是否該廠所說的尼古丁含量比實際要少?求檢驗的P值,并寫出結論。由于對于非正態總體,小樣本場合不能用樣本均值檢驗,所以下面采用中位數檢驗。解:原假設與備擇假設為:選取統計量,若原假設成立,則顯著性水平,查表得:右側拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認為該廠的尼古丁含量比實際含量要少。第四章符號秩和檢驗法§4.1對稱中心為原點的檢驗問題設對稱中心為,則原假設與備擇假設分別為:引入符號檢驗統計量為:將排序。設的秩為引入符號秩和檢驗統計量為:表4.110個觀察值和它們的符號,絕對值和絕對值的秩觀察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符號絕對值7.65.54.32.74.82.11.26.63.38.5絕對值的秩97536218410,下面討論符號秩和檢驗的檢驗方法,原假設與備擇假設為:如果,則對于任意的正數a,即此時較大,為檢驗的臨界值為原假設與備擇假設為:此時此時較小,為檢驗的臨界值為原假設與備擇假設為:我們在較大或者較小的時候拒絕原假設,檢驗的臨界值,為§4.2符號秩和檢驗統計量的性質性質4.1令,則在總體的分布關于原點0對稱時,與同分布:表4.110個觀察值和它們的符號,絕對值和絕對值的秩觀察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符號絕對值7.65.54.32.74.82.11.26.63.38.5絕對值的秩97536218410表4.310個觀察值和它們的符號,絕對值和絕對值的秩觀察值-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.5符號絕對值1.22.12.73.34.34.85.56.67.68.5絕對值的秩97536218410,這樣就初步說明了性質4.1的概率分布,在總體關于原點0分布時,相互獨立,同分布,且所以是離散的分布,它的取值X圍是,且〔4.1〕其中表示從中取若干個,其和恰好為d的取法數,例如:。,,性質4.2在總體的分布關于原點0對稱時,與同分布:所以的分布〔4.2〕于是這說明的密度是以中心對稱的。性質4.3在總體的分布關于原點0對稱時,的分布的對稱中心為:例4.1有12個工人,每個工人用兩種生產方式完成一項生產任務,所用時間對比如下表所示:表4.4用兩種方式完成一項生產任務的完工時間與其差值工人方式1方式2差值工人方式1方式2差值120.318.02.3716.117.2-1.1223.521.71.8818.514.93.6322.022.5-0.5921.920.01.9419.117.02.11024.221.13.1521.021.2-0.21123.422.70.7624.724.8-0.11225.023.71.3表4.5差值的符號,絕對值與絕對值的秩工人差值符號差的絕對值絕對值的秩工人差值符號差的絕對值絕對值的秩12.32.3107-1.11.1521.81.8783.63.6123-0.50.5391.91.9842.12.19103.13.1115-0.20.22110.70.746-0.10.11121.31.36符號秩和統計量原假設與備擇假設為我們在較大或者較小的時候拒絕原假設由于而檢測值既有故檢測值落入拒絕域所以拒絕原假設,接受備擇假設即認為兩種生產方法有差異,方法1不如方法2,方法1需要更多的時間。例:7.6.99名學生到英語培訓學習,培訓前后各進行了一次水平測驗,成績如下:學生編號i123456789入學前成績767170574969652659入學后成績818570525263833362-5-1405-36-18-7-3假設測驗成績服從正態分布,問學生的培訓效果是否顯著?不假定總體分布,采用符號檢驗的方法檢驗學生的培訓效果是否顯著?采用符號秩和檢驗方法檢驗學生的培訓效果是否顯著,三種檢驗方法結論是否相同?解:〔1〕由于測驗成績符合正態分布,而未知,所以我們采用原假設與備擇假設為:由于未知,所以我們選取統計量顯著性水平左側拒絕域為.而檢測值另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值.故檢測值.故接受,拒絕,即認為培訓效果不明顯。〔2〕原假設與備擇假設為:選取符號檢驗統計量:則這里顯著性水平查表得所以左側拒絕域為而檢測值.另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值.故檢測值.故接受,拒絕,即認為培訓效果不明顯。〔3〕原假設與備擇假設為:選取統計量.這里顯著性水平查表計算得:滿足,右側臨界點為37,由于密度的對稱中心為,所以左側臨界點為左側拒絕域為.而檢測值故接受,拒絕,即認為培訓效果不明顯.7.6.10為了比較來做鞋子的兩種材料的質量,選取15個男子,每人穿一雙新鞋,其中一只是以材料A做后跟,另外一只是以材料B做后跟,其厚度均為10mm,過一個月再測量厚度,數據如下:序號123456789101112131415材料A6.67.08.38.25.29.37.98.57.87.56.18.96.19.49.1材料B7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1問是否可以認為材料A制成的鞋子比材料B耐穿?設來自正態總體,結論是什么?采用符號秩和檢驗,結論是什么?解:〔1〕由于符合正態分布,而未知,所以我們采用原假設與備擇假設為:由于未知,所以我們選取統計量顯著性水平右側拒絕域為.而檢測值另一方面也可以用P-值也可判斷檢測值在拒絕域。檢驗的P值.故檢測值.故拒絕,接受,即認為材料A制成的鞋后跟比材料B耐穿。〔2〕原假設與備擇假設為:選取統計量.這里顯著性水平查表計算得:滿足,右側臨界點為90。右側拒絕域為.而檢測值故拒絕,接受,即認為材料A制成的鞋后跟比材料B耐穿。7.6.11某飲料商用兩種不同的配方推出兩種新的飲料,現在調查10位消費者,他們對兩種飲料的評分如下:品嘗者12345678910A飲料10868751397B飲料6522464578問兩種飲料評分是否有顯著性差異?采用符號檢驗法作檢驗;采用符號秩和檢驗法作檢驗.解:<1>解:原假設與備擇假設為:選取統計量即為更喜歡A飲料的人數,若原假設成立,則計算得:所以雙側拒絕域為:檢測值,檢驗的P值為即檢測值未落入拒絕域,故接受,拒絕。即認為兩種飲料的評分沒有顯著性差異。〔2〕原假設與備擇假設為:選取統計量.這里顯著性水平查表計算得:滿足,右側臨界點為47,則左側臨界點為雙側拒絕域為.而檢測值故接受,拒絕,即認為兩種飲料的評分沒有顯著性差異。7.6.12測試精神壓力和沒有精神壓力的血壓差別,10個志愿者進行了相應的實驗,數據如下〔單位:毫米汞柱收縮壓〕:無精神壓力時107108122119116118121111114108有精神壓力時127119123113125132121131116124該數據是否表明有精神壓力的情況下的血壓是否有所增加?解:采用符號秩和檢驗原假設與備擇假設為:其中為總體密度函數的對稱中心,選取統計量.這里顯著性水平查表計算得:滿足,右側臨界點為45,則左側臨界點為左側拒絕域為.而檢測值故拒絕,接受,即認為有精神壓力導致血壓增加。§4.3符號秩和檢驗統計量的漸近正態性期望與方差在總體的分布關于原點o對稱時,相互獨立,每一個的分布都是。而,則它的期望與方差分別為:由于與有相同的分布,所以<2>漸近正態性性質4.5如果總體關于原點對稱,則在樣本容量n趨于無窮大時,有漸近正態性:或者簡記為.§4.4平均秩法平均秩的基本定義:即對于相同的樣本取平均秩。每個元素賦予平均秩為:平均時的秩和與平方和為非平均的時候秩和與平方和為<4.8>與〔4.10〕結果一樣。由〔4.11〕減去〔4.9〕得到于是由〔4.11〕與〔4.12〕得:性質4.6在總體的分布關于原點o對稱,有結秩取平均時,在有結的情況下,如果總體關于原點對稱,則在樣本容量n趨于無窮大時,有漸近正態性:嚴格上以上期望與方差是在有結的情況下的計算結果,所以嚴格書寫應該按照以下方式:§4.5對稱中心的檢驗問題有以下幾種情形:原假設與備擇假設為例4.5:通常認為人在放松條件下入睡的時間比緊X狀態下的入睡時間要少兩分鐘,現在有十名男性,他們在放松下與緊X狀態下的入睡時間分別為,,表4.10顯示10個差值8個小與-2,只有2個不小于-2,所以我們有理由猜測放松狀態下比非放松狀態下入睡時間要少2分鐘,這個猜測是否正確?表4.10成年人在放松的條件下和沒有放松的條件下入睡所需的時間研究對象i放松條件非放松條件差值差值+2絕對值秩11015-5-3372912-3-11331222-10-88104815-7-5595910-111367702267816-6-4488710-3-11391114-3-1131069-3-113符號秩和檢測值為原假設與備擇假設為左側拒絕域為.而檢測值故拒絕,接受,即認為成年男性在放松條件下入睡的時間比緊X狀態下入睡時間要少于2分鐘。由于樣本容量n足夠大的時候,有漸近正態性,所以也可以用正態分布作檢測。原假設與備擇假設為在為真的時,即檢測值為:檢測p值為所以在顯著性水平為0.05下,檢測值落入拒絕域故拒絕,接受,即認為成年男性在放松條件下入睡的時間比緊X狀態下入睡時間要少于2分鐘。第五章兩樣本問題§5.1Mood中位數檢驗法例2哪一個企業職工的工資高?表1.3兩個企業職工的工資企業1111213141516171819204060企業23456789103050他們的合樣本為其中帶表示企業2的職工的工資,其他的為企業1的工資,合樣本的中位數為13.5,將以上數據轉化為四表格表5.1四格表工資<13.5千元工資>13.5千元合計企業1企業2合計,這說明服從超幾何分布設總體的的中位數分別為原假設與備擇假設為在成立的情況下,服從超幾何分布這是一個單側檢驗問題,拒絕域在左邊.檢測值為,檢測P值為所以檢測值落入拒絕域,故拒絕,接受,即認為企業1的職工比企業2的職工的工資要高。§5.2Wilcoxon秩和檢驗法設有獨立同分布的樣本,不妨設總體是連續的隨機變量,從而可以以概率為1保證樣本單元互不相等,則單個的秩服從均勻分布:由以上結論,我們可以得出定理5.1對任意的都有證明:對于任意的,都有定理5.2對于任意的,都有證明:對于任意的,都有于是所以5.22秩和檢驗的求解過程例1.2將兩個企業22名職工合在一起,從小到大排序得到下表:工資秩1234567891011工資秩1213141516171819202122帶表示企業2的工資,不帶表示企業1的工資.考慮到人數多的檢驗效果一樣,所以一般我們選擇人數少的企業的秩和作檢驗。設公司1與公司2的中位數分別為原假設與備擇假設為選取統計量,這里代表公司2的員工工資的秩和。這是一個單側檢驗問題,拒絕域在左邊.查表得:所以檢測p值故檢測值在拒絕域,所以拒絕原假設,接受備擇假設,即認為企業2的工資比企業1要低.§5.3Wilcoxon秩和檢驗統計量的性質假設樣本和分別來自相互獨立的連續隨機變量總體,不妨設合樣本各元素互不相同,樣本容量為,原假設.記在合樣本中的秩為。在原假設為真的條件下,服從均勻分布:所以記的樣本的秩和為下面討論Wilcoxon秩和統計量的分布性質它依次取由于服從均勻分布:所以具有以下性質性質5.1設原假設成立,的概率分布和累積概率分別為為從取n數,其和恰好為d的取法數。從中任取10個數,其和恰好為d的取法故故故故故對稱性假設從中取出n個數,其和為d,則剩下的數,其和為,故和為d的取法數與和為的取法數一樣多。從而故概率密度的對稱軸為.從而有性質5.2在原假設為真的條件下,概率密度的對稱軸為.由定理5.1和5.2知由于在原假設為真的條件下,當時,有漸進正態性.由以上分析,有以下結論.性質5.4在原假設為真的條件下,當時,有§5.2.4Wilcoxon秩和檢驗的備擇假設原假設與備擇假設為在成立的條件下,的值較小.在成立的條件下,的值較大.在成立的條件下,的值可能較小也可能較大.§5.2.5Wilcoxon秩和檢驗的平均秩法對于任意的記分函數,我們有定理5.6設有獨立的隨機變量,,則對于任意的,都有證明:又故定理5.7設樣本和分別來自相互獨立的連續型隨機變量總體和.令,記在合樣本中的秩為設有計分函數,則在和同分布時,有利用證明。針對有結的情況下,在下,由〔4.13〕〔4.14〕于是〔5.4〕〔5.5〕〔5.6〕在有結的情況下,wilcoxon秩和檢驗統計量的期望與方差分別為由以上結論,有例5.2.5為了比較兩種型號的汽車每加侖汽油的行駛里程,合樣本中的秩見表如下:第一種型號汽油第二種型號汽油汽車行駛里程〔英里〕秩序汽車行駛里程〔英里〕秩序120.621121.324219.916217.64318.68317.43418.911418.57518.89.5519.713620.218621.123721.022717.32820.519.5818.89.5919.814.5917.851019.814.51016.911119.2121118.061220.519.51220.117解;原假設與備擇假設為選取統計量則檢測值這是一個雙側檢驗問題,拒絕域在兩側檢測P值故檢測值落入拒絕域,所以拒絕原假設,接受備擇假設,即對于每加侖汽油汽車行駛的里程數不相同,而且認為對于每加侖汽油,第一種汽油行駛的里程數大。§5.2.5Wilcoxon秩和處理位置參數差的檢驗問題原假設與備擇假設為原假設與備擇假設為以上檢測均可用Wilcoxon秩和處理.注明:課本74-77的Mann-WhitneyU統計量檢驗法與Wilcoxon檢驗法類似,因為兩種檢測統計量只相差一個常數,故檢測模式類似,這里就不做詳細介紹.§5.4兩樣本尺度參數的秩檢驗法設的分布函數分別為,則,成立的充分必要條件證明:充分性證明.由知,對于任意的都有必要性的證明.若對任意都有,則由于的分布函數所以.當時即即由以上式子知:在左右兩邊的尾部概率比要大.即樣本傾向于排兩邊,樣本傾向于排中間。類似的當時,既有由以上式子知:在左右兩邊的尾部概率比要小.即樣本傾向于排中間,樣本傾向于排兩邊。§5.4.2尺度參數檢驗問題Mood檢驗取計分函數為單谷函數,〔2〕Ansari-Bradley檢驗取計分函數為單峰函數,即在時,即在時,例如時123456781234432112345678912
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 私募證券投資收益分配協議
- 高端裝備制造技術入股分紅及市場拓展合作協議
- 抖音直播火花主播打賞分成比例調整協議
- 石油勘探區塊合作開發投資合同
- 抖音火花汽車行業深度合作營銷協議
- 混凝土抵款協議書
- 維也納市場協議書
- 開飯店入股協議書
- 咨詢推廣費協議書
- 服務費勞動協議書
- 2025年計算機二級MySQL經典試題及答案
- 《研究生就業指導課件(說課)》
- 北京2025年商務部直屬事業單位第二批招聘169人筆試歷年參考題庫附帶答案詳解
- 2025年武漢鐵路局集團招聘(180人)筆試參考題庫附帶答案詳解
- 2025-2030全球及中國免疫磁珠行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2025統編版(2024)小學道德與法治一年級下冊《第13課-快樂兒童節》教學設計
- 2025冶金工業信息標準研究院招聘筆試參考題庫附帶答案詳解
- 三方協議空白合同
- 【MOOC】當代社會中的科學與技術-南京大學 中國大學慕課MOOC答案
- 車輛安全設施設備定期檢查臺賬
- 超危大工程實施指導手冊宣貫
評論
0/150
提交評論