




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學導論3-1統計學導論3-1第六章假設檢驗與方差分析第一節假設檢驗的基本原理第二節總體均值的假設檢驗第三節總體比例的假設檢驗第四節單因子方差分析第五節雙因子方差分析第六節Excel在假設檢驗與方差分析中的應用2第六章假設檢驗與方差分析第一節假設檢驗的基本原理2第一節假設檢驗的基本原理一、什么是假設檢驗二、原假設與備擇假設三、檢驗統計量四、顯著性水平、P-值與臨界值五、雙側檢驗和單側檢驗六、假設檢驗的兩類錯誤七、關于假設檢驗結論的理解3第一節假設檢驗的基本原理一、什么是假設檢驗3一、什么是假設檢驗【例6-1】假定咖啡的分袋包裝生產線的裝袋重量服從正態分布N(μ,σ2)。生產線按每袋凈重150克的技術標準控制操作。現從生產線抽取簡單隨機樣本n=100袋,測得其平均重量為=149.8克,樣本標準差s=0.872克。問該生產線的裝袋凈重的期望值是否為150克(即問生產線是否處于控制狀態)?4一、什么是假設檢驗【例6-1】假定咖啡的分袋包裝生產線的裝袋所謂假設檢驗,就是事先對總體的參數或總體分布形式做出一個假設,然后利用抽取的樣本信息來判斷這個假設(原假設)是否合理,即判斷總體的真實情況與原假設是否存在顯著的系統性差異,所以假設檢驗又被稱為顯著性檢驗。5所謂假設檢驗,就是事先對總體的參數或總體分布一個完整的假設檢驗過程,包括以下幾個步驟:(1)提出假設;(2)構造適當的檢驗統計量,并根據樣本計算統計量的具體數值;(3)規定顯著性水平,建立檢驗規則;(4)做出判斷。6一個完整的假設檢驗過程,包括以下幾個步驟:6二、原假設與備擇假設原假設一般用H0表示,通常是設定總體參數等于某值,或服從某個分布函數等備擇假設是與原假設互相排斥的假設,原假設與備擇假設不可能同時成立。所謂假設檢驗問題實質上就是要判斷H0是否正確,若拒絕原假設H0,則意味著接受備擇假設H1。如在例6-1中,我們可以提出兩個假設:假設平均袋裝咖啡重量與所要控制的標準沒有顯著差異,記為;假設平均袋裝咖啡重量與所要控制的標準有顯著差異,記為。7二、原假設與備擇假設原假設一般用H0表示,通常是設定總體參數三、檢驗統計量所謂檢驗統計量,就是根據所抽取的樣本計算的用于檢驗原假設是否成立的隨機變量。檢驗統計量中應當含有所要檢驗的總體參數,以便在“總體參數等于某數值”的假定下研究樣本統計量的觀測結果。檢驗統計量還應該在“H0成立”的前提下有已知的分布,從而便于計算出現某種特定的觀測結果的概率。8三、檢驗統計量所謂檢驗統計量,就是根據所抽取的樣本計算的用于991010四、顯著性水平、P-值與臨界值1、判斷的依據:小概率原理:小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。2、判斷的邏輯:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬于小概率事件,那么可以認為原假設不可信,從而否定它,轉而接受備擇假設。11四、顯著性水平、P-值與臨界值1、判斷的依據:11什么是小概率?這要根據實際問題而定。假設檢驗中,通常取α=0.01,α=0.05,最大到α=0.10。α又稱為顯著性水平。3、判斷規則:一是P-值規則;二是臨界值規則。12什么是小概率?這要根據實際問題而定。121)P-值規則所謂P-值,實際上是檢驗統計量超過(大于或小于)具體樣本觀測值的概率。單側檢驗若p-值>
,不拒絕H0若p-值<,拒絕H0雙側檢驗若p-值>
/2,不拒絕H0若p-值</2,拒絕H0131)P-值規則13【例6-3】假定,根據例6-2的結果,計算該問題的P-值,并做出判斷。解:查標準正態概率表,當z=2.29時,(0.9774+0.9786)/2=0.9780,尾部面積為(1–0.9780)/2=0.011,由對稱性可知,當z=–2.29時,左側面積為0.011。0.011≤α/2=0.0250.011這個數字意味著,假若我們反復抽取n=100的樣本,在100個樣本中僅有可能出現一個使檢驗統計量等于或小于–2.29的樣本。該事件發生的概率小于給定的顯著性水平,所以,可以判斷μ=150的假定是錯誤的,也就是說,根據觀測的樣本,有理由表明總體均值與150克的差異是顯著存在的。14【例6-3】假定,根據例6-2的結果,計算該問題的P-值,并(二)臨界值規則假設檢驗中,根據所提出的顯著性水平標準(它是概率密度曲線的尾部面積)查表得到相應的檢驗統計量的數值,稱作臨界值,直接用檢驗統計量的觀測值與臨界值作比較,觀測值落在臨界值所劃定的尾部(稱之為拒絕域)內,便拒絕原假設;觀測值落在臨界值所劃定的尾部之外(稱之為不能拒絕域)的范圍內,則認為拒絕原假設的證據不足。15(二)臨界值規則15注意:1)P-值規則和臨界值規則是等價的。在做檢驗的時候,只用其中一個規則即可。2)P-值規則較之臨界值規則具有更明顯的優點。第一,它更加簡捷;第二,在P-值規則的檢驗結論中,對于犯第一類錯誤的概率的表述更加精確。推薦使用P-值規則。16注意:16【例6-4】假定,根據例6-2的結果,用臨界值規則做出判斷。解:查表得到,臨界值z0.025=–1.96。由于z=–2.29<–1.96,即,檢驗統計量的觀測值落在臨界值所劃定的左側(即落在拒絕域),因而拒絕μ=150克的原假設。上面的檢驗結果意味著,由樣本數據得到的觀測值的差異提醒我們:裝袋生產線的生產過程已經偏離了控制狀態,正在向裝袋重量低于技術標準的狀態傾斜。17【例6-4】假定,根據例6-2的結果,用臨界值規則做出判斷。五、雙側檢驗和單側檢驗圖6-1雙側、單側檢驗的拒絕域分配α/21–α
α/2–Zα/2
Zα/2
α–Zα0
α0Zα(a)雙側檢驗(b)左側檢驗(c)右側檢驗18五、雙側檢驗和單側檢驗圖6-1雙側、單側檢驗的拒絕域表6-1拒絕域的單、雙側與備擇假設之間的對應關系拒絕域位置P-值檢驗的顯著性水平判斷標準原假設備擇假設雙側α/2H0:θ=θ0H1:θ≠θ0左單側αH0:θ≥θ0H1:θ<θ0右單側αH0:θ≤θ0H1:θ>θ019表6-1拒絕域的單、雙側與備擇假設之間六、假設檢驗的兩類錯誤20六、假設檢驗的兩類錯誤20212122222323例;某工廠準備購買一批較便宜的原材料,要是這批原材料的次品率大到5%以上,就拒絕購買。當假設檢驗后拒絕購買,就會犯第一類錯誤,失去購買便宜原材料,而出高價購買,增加產品成本;當假設檢驗后接受購買,就會犯第二類錯誤,不合格原材料使產品的次品率上升。怎么辦?工廠決策者有必要搞清楚哪一類錯誤造成的損失小,以減少成本。24例;某工廠準備購買一批較便宜的原材料,要是這批原材料的次品率七、關于假設檢驗結論的理解在假設檢驗中,當原假設被拒絕時,我們能夠以較大的把握肯定備擇假設的成立。而當原假設未被拒絕時,我們并不能認為原假設確實成立。25七、關于假設檢驗結論的理解25第二節總體均值的假設檢驗一、單個總體均值的檢驗二、雙總體均值是否相等的檢驗26第二節總體均值的假設檢驗一、單個總體均值的檢驗26一、單個總體均值的檢驗27一、單個總體均值的檢驗27282829293030313132323333例:某車間生產一種機器零件,已知其直徑平均長度為32.05,方差為1.21。現進行工藝改革,如果質量不下降,可以進行全面改革,如果質量下降則暫不改革。現隨機抽取6個零件,測得其直徑為:32.56,29.66,31.64,30.00,31.87,31.03。試以95%的顯著水平檢驗該改革是否可以實行?34例:某車間生產一種機器零件,已知其直徑平均長度為32.05,解:假設為:臨界值:接受域:否定域:Z>1.96或Z<-1.96檢驗統計量:判斷:Z值落在否定域內,故拒絕H0。表明工藝改革前后,零件的平均直徑有顯著的差別,對生產影響是顯著。該改革是不可以實行35解:假設為:35例:已知總體服從N(90,502)。從該總體中隨機抽取容量為25的樣本,得出樣本平均值為70。試以95%的顯著水平檢驗原假設。36例:已知總體服從N(90,502)。從該總體中隨機抽取容解:結論:否定原假設37解:37例:某廠生產一種產品,原月產量服從N(75,14)。設備更新后,為了考察產量是否提高,抽查了六個月產量,得到平均月產量為78。問在顯著水平95%下,設備更新后月產量是否有顯著的提高?38例:某廠生產一種產品,原月產量服從N(75,14)。設備更新解:為什么是單側檢驗?結論:否定原假設,說明設備更新后,月產量有所提高。39解:為什么是結論:否定原假設,說明設備更新后,月產量有所提高例:已知某種汽油用二某種型號的汽車,每公升油可行駛18公里。現研制出一種添加劑以后,每公升汽油行駛的里程是否有變化?現隨機抽取25輛汽車作試驗,結果平均行駛里程為18.5公里,方差為2.2。試作出檢驗。40例:已知某種汽油用二某種型號的汽車,每公升油可行駛18公里。解:結論:接受原假設,有95%把握預言加入添加劑后每公升汽油行駛的里程無顯著變化。雙側41解:雙側41例:已知某種柴油發動機,使用柴油每升運轉時間服從正態分布。現測試裝配好的6臺,它們運轉時間分別為28,27,31,29,30,27(分鐘)。按設計要求應在30分鐘以上。據測試結果,在95%的顯著水平時,能否說明這種發動機是否符合設計要求?42例:已知某種柴油發動機,使用柴油每升運轉時間服從正態分布。現解:接受域:單側43解:單側43檢驗統計量的值:結論:接受原假設,即認為裝配的這種發動機符合設計要求。44檢驗統計量的值:44二、雙總體均值是否相等的檢驗45二、雙總體均值是否相等的檢驗45然后,從總體A和B中各選一個可能樣本配成對,計算每一對樣本平均數之差兩個樣本平均數之差的抽樣分布——就是指來自兩個總體成對樣本平均數之關的分布。2)性質:總體A:樣本:總體B:樣本:則:為什么是取加號?46然后,從總體A和B中各選一個可能樣本配成對,計算每一對樣本平假設檢驗形式:47假設檢驗形式:47(1)兩個總體是正態分布,且方差已知,則檢驗統計量為:48(1)兩個總體是正態分布,且方差已知,則檢驗統計量為:48(2)兩個總體是正態分布,且方差未知但相等,若為小樣本(即),則檢驗統計量為:49(2)兩個總體是正態分布,且方差未知但相等,若為小樣本(即3)兩個總體是正態分布,且方差未知但相等,若為大樣本(即),則檢驗統計量為:503)兩個總體是正態分布,且方差未知但相等,若為大樣本(即例:某農業研究所試驗磷肥和氮肥能否提高小麥產量,為此做了兩種試驗:(1)選八塊試驗田不施磷肥和氮肥;(2)選取十塊試驗田在播種前施磷肥,播種后分三次加施氮肥,而其它條件相同。成熟后,分別測量了它們的畝產,數據如下:試驗1252,204,234,246,222,210,212,244;試驗2172,158,186,214,224,228,196,190,202,170試以95%的顯著水平檢驗施肥與不施肥的平均產量有沒有差異?51例:某農業研究所試驗磷肥和氮肥能否提高小麥產量,為此做了兩種解:設兩個總體服從正態分布,且方差未知但相等。試驗1的數據計算如下:試驗2:52解:設兩個總體服從正態分布,且方差未知但相等。試驗2:52提出假設:臨界值:接受域:(-2.12,2.12)統計檢驗量的值為:53提出假設:53結論:t值落在拒絕域,故拒絕H0接受H1。即說明適當施肥對小麥增產有顯著的作用。54結論:t值落在拒絕域,故拒絕H0接受H1。54例:假定有人作一次調查,評判甲、乙兩個城市的工人單位時間工資是否相同。資料如下:城市樣本平均樣本樣本小時的收入(元)標準差容量甲6.950.40200乙7.100.60175試在95%的顯著水平下檢驗兩個城市工人單位時間平均工資是否有差別?55例:假定有人作一次調查,評判甲、乙兩個城市的工人單位時間工資解:假設檢驗統計量的值為:56解:假設56臨界值:結論:Z值落在否定域中,故拒絕H0,接受H1,說明兩個城市工人單位時間工資之間明顯的差異。57臨界值:57例:某工廠為了比較兩種裝配方法的效率,分別組織了兩組員工,每組9人,一組采用新的裝配方法,另外一組采用舊的裝配方法。假設兩組員工設備的裝配時間均服從正態分布,兩總體的方差相等但未知。現有18個員工的設備裝配時間見表6-2,根據這些數據,是否有理由認為新的裝配方法更節約時間?(顯著性水平0.05)表6-2兩組員工設備的裝配時間單位:小時新方法(x2)353129253440273231舊方法(x1)32373538414435313458例:某工廠為了比較兩種裝配方法的效率,分別組織了兩組員工,每595960606161第三節總體比例的假設檢驗一、單個總體比例的假設檢驗二、兩個總體的比例是否相等的檢驗62第三節總體比例的假設檢驗一、單個總體比例的假設檢驗62一、單個總體比例的假設檢驗63一、單個總體比例的假設檢驗636464
【例6-7】一項調查結果聲稱,某市小學生每月零花錢達到200元的比例為40%,某科研機構為了檢驗這個調查是否可靠,隨機抽選了100名小學生,發現有47人每月零花錢達到200元,調查結果能否證實早先調查40%的看法?()65【例6-7】一項調查結果聲稱,某市小學生每月零花錢達到206666例:某工廠領導認為超過35%的工人滿意該廠的工作環境。為了證實該結論,有關部門作了一次調查,隨機抽取了150名工人,其中有69人對工作環境滿意。試以95%的顯著水平檢驗的假設。67例:某工廠領導認為超過35%的工人滿意該廠的工作環境。為了證解:假設:臨界值:接受域:檢驗統計量的值:68解:假設:68結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該廠工人對工作環境的滿意程度確實超過了35%。例:某公司推出一種男女均宜的飲料,認為這種飲料的消費者性別比例各為50%。對消費者抽樣調查結果表明:100名接受調查的消費者中,男性飲用者55人,女性有45人。當時,問該飲料消費者的性別比例相等的看法是否成立?69結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該廠解:接受域:(-1.96,1.96)P=0.5,則:結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該飲料消費者的性別比例相等的看法是成立的。(當然用女性資料也可得出相同結論)70解:接受域:(-1.96,1.96)70二、兩個總體的比例是否相等的檢驗71二、兩個總體的比例是否相等的檢驗717272第四節單因子方差分析一、問題的提出二、方差分析的檢驗統計量三、關于方差分析的兩點說明One-FactorANOVA73第四節單因子方差分析一、問題的提出One-Factor一、問題的提出【例6-8】已知在一組給定的條件下飼養小雞所增加的體重服從正態分布。某養雞場欲檢驗四種飼料配方對小雞增重的影響是否不相同(假定已經經過檢驗表明不同飼料配方下的小雞增重方差相等)。為此,他們對四組初始條件完全相同的小雞,在完全相同的其他飼養條件下,分別使用四種不同的飼料配方進行喂養。所得到的增重數據如表6-3。表6-3四種不同飼料配方下小雞的增重情況飼料配方i小雞序號j38周后小雞個體增重yij(克)123456配方13704204504901730配方24903804003905004102570配方33303404003804701920配方4410480400420380410250016001620165016801350820872074一、問題的提出【例6-8】已知在一組給定的條件下飼養小雞所增對于類似本例的問題,一般地,把隨機變量分組的數目記作m,我們可建立下列假設:75對于類似本例的問題,一般地,把隨機變量分組的數目記作m,我們方差分析AnalysisofVariance(ANOVA)因素也稱為處理因素(factor)(名義分類變量),每一處理因素至少有兩個水平(level)(也稱“處理組”)。一個因素(水平間獨立)——單因素方差分析兩個因素(水平間獨立或相關)——雙因素方差分析一個個體多個測量值——可重復測量資料的方差分析ANOVA與回歸分析相結合——協方差分析
目的:用這類資料的樣本信息來推斷各處理組間多個總體均數的差別有無統計學意義。76方差分析AnalysisofVariance(ANOVANOVA由英國統計學家R.A.Fisher首創,為紀念Fisher,以F命名,故方差分析又稱F檢驗(Ftest)。用于推斷多個總體均數有無差異77ANOVA由英國統計學家R.A.Fisher首創,組間變異總變異組內變異二、方差分析的檢驗統計量所有測量值之間總的變異程度各組均數與總均數的離均差平方和用各組內各測量值Yij與其所在組的均數差值的平方和來表示78組間變異總變異組內變異二、方差分析的檢驗統計量所有測量值之間79798080(meansquare,MS)81(meansquare,MS)8182828383【例6-9】利用表6-3中的數據進行單因子方差分析(顯著水平為α=0.05)。84【例6-9】利用表6-3中的數據進行單因子方差分析(顯著水平858586868787表6-4方差分析表變異來源離差平方和自由度均方差值P-值臨界值組間7112.1432370.7141.012320.4115733.196774組內39811.67172341.863總計46923.812088表6-4方差分析表變異離差自由度均方差(一)方差分析中變量的類型方差分析中的因變量是數量型變量。自變量可以是品質型變量,也可以是數量型變量。當自變量是數量型變量的時候,也要對其作統計分組設計,也就是將它按品質型變量來處理。(二)總體的正態性和同方差方差分析適用于多個正態總體Yi(i=1,2,…,m)均值的比較,且要求它們具有相同的方差。不過在實際應用中,即使對于正態性和同方差性都存在很大背離的數據,方差分析仍不失為一種提供有用的近似信息的技術。三、關于方差分析的兩點說明89(一)方差分析中變量的類型三、關于方差分析的兩點說明89第五節雙因子方差分析一、問題的提出二、有交互作用的雙因子方差分析90第五節雙因子方差分析一、問題的提出90一、問題的提出方差分析中的“因子”,也稱因素。它是一個獨立的變量(自變量)。在上一節的例子中,我們要分析飼料是否為影響增重產生差異的原因,所以飼料是因子。該例中所考察的因子只有“飼料”一個,而其他因子如雞的品種,飼養條件等保持不變,我們稱這種方差分析為單因子方差分析。如果要同時考察飼料和雞的品種兩個因子對小雞的增重是否有影響,則稱之為雙因子方差分析。91一、問題的提出方差分析中的“因子”,也稱因素92929393在這里要注意,不能把A的r個處理和B的c個處理看成“隨機樣本”。現在的rc個處理是rc個總體,即Ai和Bj的每一種搭配形成的組格都是一個總體(隨機變量Yij)。對一個組格總體的nij個觀測yij1,yij2,…,yij才是隨機樣本。我們把Ai與Bj的搭配所形成的組格總體即隨機變量Yij的期望值記作,于是可以寫出與表6-5(樣本)相應的總體期望值表如表6-6。94在這里要注意,不能把A的r個處理和B的c個處95959696979798989999二、有交互作用的雙因子方差分析樣本數據的方差分析恒等式。SST=SSA+SSB+SSAB+SSE(6.24)
式中,SST是總離差平方和,SSA是A因子處理間的離差平方和,SSB是B因子處理間的離差平方和,SSAB是AB交互作用處理間的離差平方和,SSE是組格內離差平方和。
100二、有交互作用的雙因子方差分析樣本數據的方差分析恒等101101102102103103104104105105106106107107108108109109第六節Excel在假設檢驗與方差分析中的應用一、假設檢驗二、方差分析110第六節Excel在假設檢驗與方差分析中的應用一、假設檢驗一、假設檢驗【例6-11】使用例6-1的數據進行假設檢驗(顯著性水平0.05,雙側檢驗)。解:操作步驟如下。1.構造工作表,見圖6-2。圖中方框內為計算所得數據,方框外為原始輸入數據。注意,如果給出了具體的樣本中每袋咖啡的重量,則樣本均值、標準差、樣本容量分別可以用AVERAGE函數、STDEV函數和COUNT函數進行計算。2.計算檢驗統計量Z(由于樣本容量較大,所以使用Z統計量)。在B6單元格輸入公式“=(B1-B2)/(B3/SQRT(B4))”。3.計算臨界值。在B7中輸入公式“=ABS(NORMSINV(B5/2))”,由于是雙側檢驗,因此NORMSINV函數的參數必須是。111一、假設檢驗【例6-11】使用例6-1的數據進行假設檢驗4.計算p-值。在B8中輸入公式“=NORMSDIST(B6)”。5.根據以上的計算結果,使用臨界值規則或p-值規則進行判斷,檢驗統計量的觀測值落在拒絕域,因而拒絕μ=150克的原假設。圖6-21124.計算p-值。在B8中輸入公式“=NORMSDIST(B6【例6-12】利用Excel求解例6-6的問題。113【例6-12】利用Excel求解例6-6的問題。113114114圖6-3115圖6-3115圖6-4116圖6-4116117117二、方差分析【例6-13】用Excel實現例6-8的計算過程。118二、方差分析【例6-13】用Excel實現例6-8的計算過程2.調出[方差分析:單因素方差分析]對話框,按圖6-6所示填寫。圖6-61192.調出[方差分析:單因素方差分析]對話框,按圖6-6所示填120120121121【例6-15】用Excel實現例6-10的計算過程1.輸入數據,如圖6-7所示。其中,B2:B4單元格存放的是在“A1”與“B1”因素水平共同作用下,進行3次試驗所得的結果;D5:D7單元格存放的是在“A3”與“B2”因素水平共同作用下,進行3次試驗所得的結果,其余類推。圖6-7122【例6-15】用Excel實現例6-10的計算過程1.輸入數2.調出[方差分析:可重復雙因素分析]對話框,其填寫如圖6-8所示。該分析工具對話框與單因素方差分析對話框基本相同,只是多了一個[每一樣本的行數]編輯框,其中輸入包含在每個樣本中的行數。本例中,在每種不同因素水平組合下,分別進行了3次試驗,因此[每一樣本的行數]為“3”。每個樣本必須包含同樣的行數。另外,在該分析工具對話框中去掉了[標志位于第一行]復選框,但要注意輸入區域必須包括因素水平標志(“A1”、“B2”等)所在的單元格區域,也即,輸入區域為“$A$1:$E$10”,而不是只包括數據的單元格區域“$B$2:$E$10”。1232.調出[方差分析:可重復雙因素分析]對話框,其填寫如圖6-3.單擊[確定]按鈕,得到方差分析表。圖6-81243.單擊[確定]按鈕,得到方差分析表。圖6-8124本章小結125本章小結125126126統計學導論3-127統計學導論3-1第六章假設檢驗與方差分析第一節假設檢驗的基本原理第二節總體均值的假設檢驗第三節總體比例的假設檢驗第四節單因子方差分析第五節雙因子方差分析第六節Excel在假設檢驗與方差分析中的應用128第六章假設檢驗與方差分析第一節假設檢驗的基本原理2第一節假設檢驗的基本原理一、什么是假設檢驗二、原假設與備擇假設三、檢驗統計量四、顯著性水平、P-值與臨界值五、雙側檢驗和單側檢驗六、假設檢驗的兩類錯誤七、關于假設檢驗結論的理解129第一節假設檢驗的基本原理一、什么是假設檢驗3一、什么是假設檢驗【例6-1】假定咖啡的分袋包裝生產線的裝袋重量服從正態分布N(μ,σ2)。生產線按每袋凈重150克的技術標準控制操作。現從生產線抽取簡單隨機樣本n=100袋,測得其平均重量為=149.8克,樣本標準差s=0.872克。問該生產線的裝袋凈重的期望值是否為150克(即問生產線是否處于控制狀態)?130一、什么是假設檢驗【例6-1】假定咖啡的分袋包裝生產線的裝袋所謂假設檢驗,就是事先對總體的參數或總體分布形式做出一個假設,然后利用抽取的樣本信息來判斷這個假設(原假設)是否合理,即判斷總體的真實情況與原假設是否存在顯著的系統性差異,所以假設檢驗又被稱為顯著性檢驗。131所謂假設檢驗,就是事先對總體的參數或總體分布一個完整的假設檢驗過程,包括以下幾個步驟:(1)提出假設;(2)構造適當的檢驗統計量,并根據樣本計算統計量的具體數值;(3)規定顯著性水平,建立檢驗規則;(4)做出判斷。132一個完整的假設檢驗過程,包括以下幾個步驟:6二、原假設與備擇假設原假設一般用H0表示,通常是設定總體參數等于某值,或服從某個分布函數等備擇假設是與原假設互相排斥的假設,原假設與備擇假設不可能同時成立。所謂假設檢驗問題實質上就是要判斷H0是否正確,若拒絕原假設H0,則意味著接受備擇假設H1。如在例6-1中,我們可以提出兩個假設:假設平均袋裝咖啡重量與所要控制的標準沒有顯著差異,記為;假設平均袋裝咖啡重量與所要控制的標準有顯著差異,記為。133二、原假設與備擇假設原假設一般用H0表示,通常是設定總體參數三、檢驗統計量所謂檢驗統計量,就是根據所抽取的樣本計算的用于檢驗原假設是否成立的隨機變量。檢驗統計量中應當含有所要檢驗的總體參數,以便在“總體參數等于某數值”的假定下研究樣本統計量的觀測結果。檢驗統計量還應該在“H0成立”的前提下有已知的分布,從而便于計算出現某種特定的觀測結果的概率。134三、檢驗統計量所謂檢驗統計量,就是根據所抽取的樣本計算的用于135913610四、顯著性水平、P-值與臨界值1、判斷的依據:小概率原理:小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。2、判斷的邏輯:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬于小概率事件,那么可以認為原假設不可信,從而否定它,轉而接受備擇假設。137四、顯著性水平、P-值與臨界值1、判斷的依據:11什么是小概率?這要根據實際問題而定。假設檢驗中,通常取α=0.01,α=0.05,最大到α=0.10。α又稱為顯著性水平。3、判斷規則:一是P-值規則;二是臨界值規則。138什么是小概率?這要根據實際問題而定。121)P-值規則所謂P-值,實際上是檢驗統計量超過(大于或小于)具體樣本觀測值的概率。單側檢驗若p-值>
,不拒絕H0若p-值<,拒絕H0雙側檢驗若p-值>
/2,不拒絕H0若p-值</2,拒絕H01391)P-值規則13【例6-3】假定,根據例6-2的結果,計算該問題的P-值,并做出判斷。解:查標準正態概率表,當z=2.29時,(0.9774+0.9786)/2=0.9780,尾部面積為(1–0.9780)/2=0.011,由對稱性可知,當z=–2.29時,左側面積為0.011。0.011≤α/2=0.0250.011這個數字意味著,假若我們反復抽取n=100的樣本,在100個樣本中僅有可能出現一個使檢驗統計量等于或小于–2.29的樣本。該事件發生的概率小于給定的顯著性水平,所以,可以判斷μ=150的假定是錯誤的,也就是說,根據觀測的樣本,有理由表明總體均值與150克的差異是顯著存在的。140【例6-3】假定,根據例6-2的結果,計算該問題的P-值,并(二)臨界值規則假設檢驗中,根據所提出的顯著性水平標準(它是概率密度曲線的尾部面積)查表得到相應的檢驗統計量的數值,稱作臨界值,直接用檢驗統計量的觀測值與臨界值作比較,觀測值落在臨界值所劃定的尾部(稱之為拒絕域)內,便拒絕原假設;觀測值落在臨界值所劃定的尾部之外(稱之為不能拒絕域)的范圍內,則認為拒絕原假設的證據不足。141(二)臨界值規則15注意:1)P-值規則和臨界值規則是等價的。在做檢驗的時候,只用其中一個規則即可。2)P-值規則較之臨界值規則具有更明顯的優點。第一,它更加簡捷;第二,在P-值規則的檢驗結論中,對于犯第一類錯誤的概率的表述更加精確。推薦使用P-值規則。142注意:16【例6-4】假定,根據例6-2的結果,用臨界值規則做出判斷。解:查表得到,臨界值z0.025=–1.96。由于z=–2.29<–1.96,即,檢驗統計量的觀測值落在臨界值所劃定的左側(即落在拒絕域),因而拒絕μ=150克的原假設。上面的檢驗結果意味著,由樣本數據得到的觀測值的差異提醒我們:裝袋生產線的生產過程已經偏離了控制狀態,正在向裝袋重量低于技術標準的狀態傾斜。143【例6-4】假定,根據例6-2的結果,用臨界值規則做出判斷。五、雙側檢驗和單側檢驗圖6-1雙側、單側檢驗的拒絕域分配α/21–α
α/2–Zα/2
Zα/2
α–Zα0
α0Zα(a)雙側檢驗(b)左側檢驗(c)右側檢驗144五、雙側檢驗和單側檢驗圖6-1雙側、單側檢驗的拒絕域表6-1拒絕域的單、雙側與備擇假設之間的對應關系拒絕域位置P-值檢驗的顯著性水平判斷標準原假設備擇假設雙側α/2H0:θ=θ0H1:θ≠θ0左單側αH0:θ≥θ0H1:θ<θ0右單側αH0:θ≤θ0H1:θ>θ0145表6-1拒絕域的單、雙側與備擇假設之間六、假設檢驗的兩類錯誤146六、假設檢驗的兩類錯誤20147211482214923例;某工廠準備購買一批較便宜的原材料,要是這批原材料的次品率大到5%以上,就拒絕購買。當假設檢驗后拒絕購買,就會犯第一類錯誤,失去購買便宜原材料,而出高價購買,增加產品成本;當假設檢驗后接受購買,就會犯第二類錯誤,不合格原材料使產品的次品率上升。怎么辦?工廠決策者有必要搞清楚哪一類錯誤造成的損失小,以減少成本。150例;某工廠準備購買一批較便宜的原材料,要是這批原材料的次品率七、關于假設檢驗結論的理解在假設檢驗中,當原假設被拒絕時,我們能夠以較大的把握肯定備擇假設的成立。而當原假設未被拒絕時,我們并不能認為原假設確實成立。151七、關于假設檢驗結論的理解25第二節總體均值的假設檢驗一、單個總體均值的檢驗二、雙總體均值是否相等的檢驗152第二節總體均值的假設檢驗一、單個總體均值的檢驗26一、單個總體均值的檢驗153一、單個總體均值的檢驗27154281552915630157311583215933例:某車間生產一種機器零件,已知其直徑平均長度為32.05,方差為1.21。現進行工藝改革,如果質量不下降,可以進行全面改革,如果質量下降則暫不改革。現隨機抽取6個零件,測得其直徑為:32.56,29.66,31.64,30.00,31.87,31.03。試以95%的顯著水平檢驗該改革是否可以實行?160例:某車間生產一種機器零件,已知其直徑平均長度為32.05,解:假設為:臨界值:接受域:否定域:Z>1.96或Z<-1.96檢驗統計量:判斷:Z值落在否定域內,故拒絕H0。表明工藝改革前后,零件的平均直徑有顯著的差別,對生產影響是顯著。該改革是不可以實行161解:假設為:35例:已知總體服從N(90,502)。從該總體中隨機抽取容量為25的樣本,得出樣本平均值為70。試以95%的顯著水平檢驗原假設。162例:已知總體服從N(90,502)。從該總體中隨機抽取容解:結論:否定原假設163解:37例:某廠生產一種產品,原月產量服從N(75,14)。設備更新后,為了考察產量是否提高,抽查了六個月產量,得到平均月產量為78。問在顯著水平95%下,設備更新后月產量是否有顯著的提高?164例:某廠生產一種產品,原月產量服從N(75,14)。設備更新解:為什么是單側檢驗?結論:否定原假設,說明設備更新后,月產量有所提高。165解:為什么是結論:否定原假設,說明設備更新后,月產量有所提高例:已知某種汽油用二某種型號的汽車,每公升油可行駛18公里。現研制出一種添加劑以后,每公升汽油行駛的里程是否有變化?現隨機抽取25輛汽車作試驗,結果平均行駛里程為18.5公里,方差為2.2。試作出檢驗。166例:已知某種汽油用二某種型號的汽車,每公升油可行駛18公里。解:結論:接受原假設,有95%把握預言加入添加劑后每公升汽油行駛的里程無顯著變化。雙側167解:雙側41例:已知某種柴油發動機,使用柴油每升運轉時間服從正態分布。現測試裝配好的6臺,它們運轉時間分別為28,27,31,29,30,27(分鐘)。按設計要求應在30分鐘以上。據測試結果,在95%的顯著水平時,能否說明這種發動機是否符合設計要求?168例:已知某種柴油發動機,使用柴油每升運轉時間服從正態分布。現解:接受域:單側169解:單側43檢驗統計量的值:結論:接受原假設,即認為裝配的這種發動機符合設計要求。170檢驗統計量的值:44二、雙總體均值是否相等的檢驗171二、雙總體均值是否相等的檢驗45然后,從總體A和B中各選一個可能樣本配成對,計算每一對樣本平均數之差兩個樣本平均數之差的抽樣分布——就是指來自兩個總體成對樣本平均數之關的分布。2)性質:總體A:樣本:總體B:樣本:則:為什么是取加號?172然后,從總體A和B中各選一個可能樣本配成對,計算每一對樣本平假設檢驗形式:173假設檢驗形式:47(1)兩個總體是正態分布,且方差已知,則檢驗統計量為:174(1)兩個總體是正態分布,且方差已知,則檢驗統計量為:48(2)兩個總體是正態分布,且方差未知但相等,若為小樣本(即),則檢驗統計量為:175(2)兩個總體是正態分布,且方差未知但相等,若為小樣本(即3)兩個總體是正態分布,且方差未知但相等,若為大樣本(即),則檢驗統計量為:1763)兩個總體是正態分布,且方差未知但相等,若為大樣本(即例:某農業研究所試驗磷肥和氮肥能否提高小麥產量,為此做了兩種試驗:(1)選八塊試驗田不施磷肥和氮肥;(2)選取十塊試驗田在播種前施磷肥,播種后分三次加施氮肥,而其它條件相同。成熟后,分別測量了它們的畝產,數據如下:試驗1252,204,234,246,222,210,212,244;試驗2172,158,186,214,224,228,196,190,202,170試以95%的顯著水平檢驗施肥與不施肥的平均產量有沒有差異?177例:某農業研究所試驗磷肥和氮肥能否提高小麥產量,為此做了兩種解:設兩個總體服從正態分布,且方差未知但相等。試驗1的數據計算如下:試驗2:178解:設兩個總體服從正態分布,且方差未知但相等。試驗2:52提出假設:臨界值:接受域:(-2.12,2.12)統計檢驗量的值為:179提出假設:53結論:t值落在拒絕域,故拒絕H0接受H1。即說明適當施肥對小麥增產有顯著的作用。180結論:t值落在拒絕域,故拒絕H0接受H1。54例:假定有人作一次調查,評判甲、乙兩個城市的工人單位時間工資是否相同。資料如下:城市樣本平均樣本樣本小時的收入(元)標準差容量甲6.950.40200乙7.100.60175試在95%的顯著水平下檢驗兩個城市工人單位時間平均工資是否有差別?181例:假定有人作一次調查,評判甲、乙兩個城市的工人單位時間工資解:假設檢驗統計量的值為:182解:假設56臨界值:結論:Z值落在否定域中,故拒絕H0,接受H1,說明兩個城市工人單位時間工資之間明顯的差異。183臨界值:57例:某工廠為了比較兩種裝配方法的效率,分別組織了兩組員工,每組9人,一組采用新的裝配方法,另外一組采用舊的裝配方法。假設兩組員工設備的裝配時間均服從正態分布,兩總體的方差相等但未知。現有18個員工的設備裝配時間見表6-2,根據這些數據,是否有理由認為新的裝配方法更節約時間?(顯著性水平0.05)表6-2兩組員工設備的裝配時間單位:小時新方法(x2)353129253440273231舊方法(x1)323735384144353134184例:某工廠為了比較兩種裝配方法的效率,分別組織了兩組員工,每185591866018761第三節總體比例的假設檢驗一、單個總體比例的假設檢驗二、兩個總體的比例是否相等的檢驗188第三節總體比例的假設檢驗一、單個總體比例的假設檢驗62一、單個總體比例的假設檢驗189一、單個總體比例的假設檢驗6319064
【例6-7】一項調查結果聲稱,某市小學生每月零花錢達到200元的比例為40%,某科研機構為了檢驗這個調查是否可靠,隨機抽選了100名小學生,發現有47人每月零花錢達到200元,調查結果能否證實早先調查40%的看法?()191【例6-7】一項調查結果聲稱,某市小學生每月零花錢達到2019266例:某工廠領導認為超過35%的工人滿意該廠的工作環境。為了證實該結論,有關部門作了一次調查,隨機抽取了150名工人,其中有69人對工作環境滿意。試以95%的顯著水平檢驗的假設。193例:某工廠領導認為超過35%的工人滿意該廠的工作環境。為了證解:假設:臨界值:接受域:檢驗統計量的值:194解:假設:68結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該廠工人對工作環境的滿意程度確實超過了35%。例:某公司推出一種男女均宜的飲料,認為這種飲料的消費者性別比例各為50%。對消費者抽樣調查結果表明:100名接受調查的消費者中,男性飲用者55人,女性有45人。當時,問該飲料消費者的性別比例相等的看法是否成立?195結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該廠解:接受域:(-1.96,1.96)P=0.5,則:結論:Z值落在拒絕域內,故拒絕原假設,接受備擇假設,說明該飲料消費者的性別比例相等的看法是成立的。(當然用女性資料也可得出相同結論)196解:接受域:(-1.96,1.96)70二、兩個總體的比例是否相等的檢驗197二、兩個總體的比例是否相等的檢驗7119872第四節單因子方差分析一、問題的提出二、方差分析的檢驗統計量三、關于方差分析的兩點說明One-FactorANOVA199第四節單因子方差分析一、問題的提出One-Factor一、問題的提出【例6-8】已知在一組給定的條件下飼養小雞所增加的體重服從正態分布。某養雞場欲檢驗四種飼料配方對小雞增重的影響是否不相同(假定已經經過檢驗表明不同飼料配方下的小雞增重方差相等)。為此,他們對四組初始條件完全相同的小雞,在完全相同的其他飼養條件下,分別使用四種不同的飼料配方進行喂養。所得到的增重數據如表6-3。表6-3四種不同飼料配方下小雞的增重情況飼料配方i小雞序號j38周后小雞個體增重yij(克)123456配方13704204504901730配方24903804003905004102570配方33303404003804701920配方44104804004203804102500160016201650168013508208720200一、問題的提出【例6-8】已知在一組給定的條件下飼養小雞所增對于類似本例的問題,一般地,把隨機變量分組的數目記作m,我們可建立下列假設:201對于類似本例的問題,一般地,把隨機變量分組的數目記作m,我們方差分析AnalysisofVariance(ANOVA)因素也稱為處理因素(factor)(名義分類變量),每一處理因素至少有兩個水平(level)(也稱“處理組”)。一個因素(水平間獨立)——單因素方差分析兩個因素(水平間獨立或相關)——雙因素方差分析一個個體多個測量值——可重復測量資料的方差分析ANOVA與回歸分析相結合——協方差分析
目的:用這類資料的樣本信息來推斷各處理組間多個總體均數的差別有無統計學意義。202方差分析AnalysisofVariance(ANOVANOVA由英國統計學家R.A.Fisher首創,為紀念Fisher,以F命名,故方差分析又稱F檢驗(Ftest)。用于推斷多個總體均數有無差異203ANOVA由英國統計學家R.A.Fisher首創,組間變異總變異組內變異二、方差分析的檢驗統計量所有測量值之間總的變異程度各組均數與總均數的離均差平方和用各組內各測量值Yij與其所在組的均數差值的平方和來表示204組間變異總變異組內變異二、方差分析的檢驗統計量所有測量值之間2057920680(meansquare,MS)207(meansquare,MS)812088220983【例6-9】利用表6-3中的數據進行單因子方差分析(顯著水平為α=0.05)。210【例6-9】利用表6-3中的數據進行單因子方差分析(顯著水平211852128621387表6-4方差分析表變異來源離差平方和自由度均方差值P-值臨界值組間7112.1432370.7141.012320.4115733.196774組內39811.67172341.863總計46923.8120214表6-4方差分析表變異離差自由度均方差(一)方差分析中變量的類型方差分析中的因變量是數量型變量。自變量可以是品質型變量,也可以是數量型變量。當自變量是數量型變量的時候,也要對其作統計分組設計,也就是將它按品質型變量來處理。(二)總體的正態性和同方差方差分析適用于多個正態總體Yi(i=1,2,…,m)均值的比較,且要求它們具有相同的方差。不過在實際應用中,即使對于正態性和同方差性都存在很大背離的數據,方差分析仍不失為一種提供有用的近似信息的技術。三、關于方差分析的兩點說明215(一)方差分析中變量的類型三、關于方差分析的兩點說明89第五節雙因子方差分析一、問題的提出二、有交互作用的雙因子方差分析216第五節雙因子方差分析一、問題的提出90一、問題的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 東北師范大學《全球營銷管理》2023-2024學年第二學期期末試卷
- 西安外事學院《智能汽車概論》2023-2024學年第二學期期末試卷
- 浙江萬里學院《會展項目策劃》2023-2024學年第二學期期末試卷
- 遼寧中醫藥大學杏林學院《植物生理生化》2023-2024學年第二學期期末試卷
- 長沙醫學院《中西文化概論》2023-2024學年第二學期期末試卷
- 甘肅政法大學《土建概論與工程管理》2023-2024學年第二學期期末試卷
- 紅河職業技術學院《施工設計》2023-2024學年第二學期期末試卷
- 介休燈展活動方案
- 2025年工業互聯網NFV技術實現工業設備遠程監控與數據采集分析實踐報告
- 2024年度河北省二級注冊建筑師之法律法規經濟與施工通關題庫(附帶答案)
- 2025年廣東省深圳市31校聯考中考二模化學試題(含答案)
- 2025年安全管理員安全培訓考試試題(典型題)
- 電商運營崗位技能測試卷
- 語言習得神經機制探究-深度研究
- 中國海洋生態環境監測市場調查研究及行業投資潛力預測報告
- 安全環保專業試題庫
- 機房動力系統綜合實訓知到智慧樹章節測試課后答案2024年秋四川郵電職業技術學院
- GB 45184-2024眼視光產品元件安全技術規范
- 山地戶外運動基地建設項目可行性研究報告
- 2025年國航股份地面服務部校園招聘筆試參考題庫含答案解析
- 污水處理設備安裝維護與改造安全生產培訓
評論
0/150
提交評論