我的統計學課件第七章假設檢驗和方差分析.ppt_第1頁
我的統計學課件第七章假設檢驗和方差分析.ppt_第2頁
我的統計學課件第七章假設檢驗和方差分析.ppt_第3頁
我的統計學課件第七章假設檢驗和方差分析.ppt_第4頁
我的統計學課件第七章假設檢驗和方差分析.ppt_第5頁
已閱讀5頁,還剩138頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第七章 假設檢驗與方差分析,假設檢驗在統計方法中的地位,7.1 假設檢驗的基本原理與步驟,假設檢驗及其基本原理 假設的表達式 兩類錯誤 假設檢驗中的值 假設檢驗的另一種方法 單側檢驗,假設檢驗的概念及原理,什么是假設?(hypothesis), 對總體參數的的數值所作的一種假設 總體參數包括總體均值、比例、方差等 分析之前必需陳述,什么是假設檢驗? (hypothesis testing),事先對總體參數或分布形式作出某種假設,然后利用樣本信息來判斷原假設是否成立 有參數假設檢驗和非參數假設檢驗 采用邏輯上的反證法,依據統計上的小概率原理,假設檢驗中的小概率原理, 什么小概率? 1.在一次試驗

2、中,一個幾乎不可能發生的事件發生的概率 2.在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設 3.小概率由研究者事先確定,假設檢驗的步驟 提出假設 確定適當的檢驗統計量 規定顯著性水平 計算檢驗統計量的值 作出統計決策,提出原假設和備擇假設, 什么是原假設?(null hypothesis) 待檢驗的假設,又稱“0假設” 研究者想收集證據予以反對的假設,或穩定、保守、受到保護的經驗看法 3.總是有等號 , 或 4.表示為 H0 H0: 某一數值 指定為 = 號,即 或 例如, H0: 3910(克), 什么是備擇假設?(alternative hypothesis) 與原假設對立的假設,

3、也稱“研究假設” 研究者想收集證據予以支持的假設 總是有不等號: , 或 表示為 H1 H1: 某一數值,或 某一數值 例如, H1: 3910(克),或 3910(克),提出原假設和備擇假設, 什么檢驗統計量? 1.用于假設檢驗決策的統計量 2.選擇統計量的方法與參數估計相同,需考慮 是大樣本還是小樣本 總體方差已知還是未知 檢驗統計量的基本形式為:,確定適當的檢驗統計量,規定顯著性水平(significant level), 什么顯著性水平? 1.是一個概率值 原假設為真時,統計檢驗規定的小概率標準,被稱為抽樣分布的拒絕域 3.表示為 (alpha) 常用的 值有0.01, 0.05, 0

4、.10 4.由研究者事先確定,作出統計決策,計算檢驗的統計量 根據給定的顯著性水平,查表得出相應的臨界值z或z/2, t或t/2 將檢驗統計量的值與 水平的臨界值進行比較 得出接受或拒絕原假設的結論,假設檢驗中的兩類錯誤 (決策風險),假設檢驗中的兩類錯誤,1.第一類錯誤(棄真錯誤) 原假設為真時拒絕原假設 第一類錯誤的概率為 被稱為顯著性水平 2.第二類錯誤(取偽錯誤) 原假設為假時接受原假設 第二類錯誤的概率為(Beta),假設檢驗中的兩類錯誤 (決策結果), 錯誤和 錯誤的關系,影響 錯誤的因素,1.總體參數的真值 隨著假設的總體參數的減少而增大 2.顯著性水平 當 減少時增大 3.總體

5、標準差 當 增大時增大 4.樣本容量 n 當 n 減少時增大,雙側檢驗和單側檢驗,雙側檢驗與單側檢驗 (假設的形式),雙側檢驗(原假設與備擇假設的確定),屬于決策中的假設檢驗 不論是拒絕H0還是不能拒絕H0,都必需采取相應的行動措施 例如,某種零件的尺寸,要求其平均長度為10cm,大于或小于10cm均屬于不合格 我們想要證明(檢驗)大于或小于這兩種可能性中的任何一種是否成立 建立的原假設與備擇假設應為 H0: = 10 H1: 10,雙側檢驗(顯著性水平與拒絕域 ),雙側檢驗(顯著性水平與拒絕域),雙側檢驗 (顯著性水平與拒絕域),雙側檢驗 (顯著性水平與拒絕域),單側檢驗(原假設與備擇假設的

6、確定),將研究者想收集證據予以支持的假設作為備擇假設H1 例如,一個研究者總是想證明自己的研究結論是正確的 一個銷售商總是想正確供貨商的說法是不正確的 備擇假設的方向與想要證明其正確性的方向一致 將研究者想收集證據證明其不正確的假設作為原假設H0 先確立備擇假設H1,單側檢驗 (原假設與備擇假設的確定),一項研究表明,采用新技術生產后,將會使產品的使用壽命明顯延長到1500小時以上。檢驗這一結論是否成立 研究者總是想證明自己的研究結論(壽命延長)是正確的 備擇假設的方向為“”(壽命延長) 建立的原假設與備擇假設應為 H0: 1500 H1: 1500,單側檢驗 (原假設與備擇假設的確定),一項

7、研究表明,改進生產工藝后,會使產品的廢品率降低到2%以下。檢驗這一結論是否成立 研究者總是想證明自己的研究結論(廢品率降低)是正確的 備擇假設的方向為“”(廢品率降低) 建立的原假設與備擇假設應為 H0: 2% H1: 2%,單側檢驗 (原假設與備擇假設的確定),某燈泡制造商聲稱,該企業所生產的燈泡的平均使用壽命在1000小時以上。如果你準備進一批貨,怎樣進行檢驗 檢驗權在銷售商一方 作為銷售商,你總是想收集證據證明生產商的說法(壽命在1000小時以上)是不是正確的 備擇假設的方向為“”(壽命不足1000小時) 建立的原假設與備擇假設應為 H0: 1000 H1: 1000,單側檢驗(顯著性水

8、平與拒絕域),左側檢驗 (顯著性水平與拒絕域),左側檢驗 (顯著性水平與拒絕域),右側檢驗 (顯著性水平與拒絕域),右側檢驗 (顯著性水平與拒絕域),一個總體參數的檢驗,7.2總體均值的假設檢驗,總體均值的檢驗(檢驗統計量),總體 是否已知?,總體均值的檢驗 (2 已知或2未知大樣本),1.假定條件 總體服從正態分布 若不服從正態分布, 可用正態分布來近似(n30) 使用Z-統計量 2 已知: 2 未知:,2 已知均值的檢驗(例題分析),【例】某機床廠加工一種零件,根據經驗知道,該廠加工零件的橢圓度近似服從正態分布,其總體均值為0=0.081mm,總體標準差為= 0.025 。今換一種新機床進

9、行加工,抽取n=200個零件進行檢驗,得到的橢圓度為0.076mm。試問新機床加工零件的橢圓度的均值與以前有無顯著差異?(0.05),2 已知均值的檢驗 (例題分析),H0: = 0.081 H1: 0.081 = 0.05 n = 200 臨界值(s):,檢驗統計量:,決策:,結論:,在 = 0.05的水平上拒絕H0,有證據表明新機床加工的零件的橢圓度與以前有顯著差異,2 已知均值的檢驗 (小樣本例題分析),【例】根據過去大量資料,某廠生產的燈泡的使用壽命服從正態分布N(1020,1002)?,F從最近生產的一批產品中隨機抽取16只,測得樣本平均壽命為1080小時。試在0.05的顯著性水平下判

10、斷這批產品的使用壽命是否有顯著提高?(0.05),2 已知均值的檢驗 (小樣本例題分析),H0: 1020 H1: 1020 = 0.05 n = 16 臨界值(s):,檢驗統計量:,在 = 0.05的水平上拒絕H0,有證據表明這批燈泡的使用壽命有顯著提高,決策:,結論:,2 未知大樣本均值的檢驗 (例題分析),【例】某電子元件批量生產的質量標準為平均使用壽命1200小時。某廠宣稱他們采用一種新工藝生產的元件質量大大超過規定標準。為了進行驗證,隨機抽取了100件作為樣本,測得平均使用壽命1245小時,標準差300小時。能否說該廠生產的電子元件質量顯著地高于規定標準? (0.05),2 未知大樣

11、本均值的檢驗 (例題分析),H0: 1200 H1: 1200 = 0.05 n = 100 臨界值(s):,檢驗統計量:,在 = 0.05的水平上不能拒絕H0,不能認為該廠生產的元件壽命顯著地高于1200小時,決策:,結論:,總體均值的檢驗 (2未知小樣本),1.假定條件 總體為正態分布 2未知,且小樣本 2.使用t 統計量,2 未知小樣本均值的檢驗 (例題分析),【例】某機器制造出的肥皂厚度為5cm,今欲了解機器性能是否良好,隨機抽取10塊肥皂為樣本,測得平均厚度為5.3cm,標準差為0.3cm,試以0.05的顯著性水平檢驗機器性能良好的假設。,2 未知小樣本均值的檢驗 (例題分析),H0

12、: = 5 H1: 5 = 0.05 df = 10 - 1 = 9 臨界值(s):,檢驗統計量:,在 = 0.05的水平上拒絕H0,說明該機器的性能不好,決策:,結論:,2 未知小樣本均值的檢驗 (例題分析),【例】一個汽車輪胎制造商聲稱,某一等級的輪胎的平均壽命在一定的汽車重量和正常行駛條件下大于40000公里,對一個由20個輪胎組成的隨機樣本作了試驗,測得平均值為41000公里,標準差為5000公里。已知輪胎壽命的公里數服從正態分布,我們能否根據這些數據作出結論,該制造商的產品同他所說的標準相符?( = 0.05),均值的單尾 t 檢驗 (計算結果),H0: 40000 H1: 4000

13、0 = 0.05 df = 20 - 1 = 19 臨界值(s):,檢驗統計量:,在 = 0.05的水平上不能拒絕H0,有證據表明輪胎使用壽命顯著地大于40000公里,決策:,結論:,7.3總體比例的假設檢驗,適用的數據類型,一個總體比例檢驗,假定條件 有兩類結果 總體服從二項分布 可用正態分布來近似 比例檢驗的 Z 統計量,0為假設的總體比例,一個總體比例的檢驗 (例題分析),【例】一項統計結果聲稱,某市老年人口(年齡在65歲以上)的比重為14.7%,該市老年人口研究會為了檢驗該項統計是否可靠,隨機抽選了400名居民,發現其中有57人年齡在65歲以上。調查結果是否支持該市老年人口比重為14.

14、7%的看法?(= 0.05),雙側檢驗,一個總體比例的檢驗 (例題分析),H0: = 14.7% H1: 14.7% = 0.05 n = 400 臨界值(s):,檢驗統計量:,在 = 0.05的水平上不能拒絕H0,該市老年人口比重為14.7%,決策:,結論:,總體方差的檢驗(2 檢驗),方差的卡方 (2) 檢驗,檢驗一個總體的方差或標準差 假設總體近似服從正態分布 檢驗統計量,方差的卡方 (2) 檢驗(例題分析),【例】某廠商生產出一種新型的飲料裝瓶機器,按設計要求,該機器裝一瓶一升(1000cm3)的飲料誤差上下不超過1cm3。如果達到設計要求,表明機器的穩定性非常好?,F從該機器裝完的產品

15、中隨機抽取25瓶,分別進行測定(用樣本減1000cm3),得到如下結果。檢驗該機器的性能是否達到設計要求 (=0.05),雙側檢驗,方差的卡方 (2) 檢驗(例題分析),H0: 2 = 1 H1: 2 1 = 0.05 df = 25 - 1 = 24 臨界值(s):,統計量:,在 = 0.05的水平上不能拒絕H0,可以認為該機器的性能達到設計要求,決策:,結論:,7.3 兩個正態總體參數的檢驗,檢驗統計量的確定 兩個總體均值之差的檢驗 兩個總體比例之差的檢驗 兩個總體方差比的檢驗 檢驗中的匹配樣本,兩個正態總體參數的檢驗,獨立樣本總體均值之差的檢驗,兩個獨立樣本之差的抽樣分布,兩個總體均值之

16、差的檢驗 (12、 22 已知),1.假定條件 兩個樣本是獨立的隨機樣本 兩個總體都是正態分布 若不是正態分布, 可以用正態分布來近似(n130和 n230) 檢驗統計量為,兩個總體均值之差的檢驗 (假設的形式),兩個總體均值之差的檢驗 (例題分析),【例】有兩種方法可用于制造某種以抗拉強度為重要特征的產品。根據以往的資料得知,第一種方法生產出的產品其抗拉強度的標準差為8公斤,第二種方法的標準差為10公斤。從兩種方法生產的產品中各抽取一個隨機樣本,樣本容量分別為n1=32,n2=40,測得x2= 50公斤,x1= 44公斤。問這兩種方法生產的產品平均抗拉強度是否有顯著差別? ( = 0.05)

17、,兩個總體均值之差的檢驗 (例題分析),H0: 1- 2 = 0 H1: 1- 2 0 = 0.05 n1 = 32,n2 = 40 臨界值(s):,檢驗統計量:,決策:,結論:,在 = 0.05的水平上拒絕H0,有證據表明兩種方法生產的產品其抗拉強度有顯著差異,兩個總體均值之差的檢驗 (12、 22 未知且相等,小樣本),檢驗具有不等方差的兩個總體的均值 假定條件 兩個樣本是獨立的隨機樣本 兩個總體都是正態分布 兩個總體方差未知且不相等12 22 檢驗統計量,兩個總體均值之差的檢驗 (12、 22 未知但相等,小樣本),檢驗具有等方差的兩個總體的均值 假定條件 兩個樣本是獨立的隨機樣本 兩個

18、總體都是正態分布 兩個總體方差未知但相等12 = 22 檢驗統計量,兩個總體均值之差的檢驗 (例題分析),【例】甲、乙兩臺機床同時加工某種類型的文件(單位:CM)分別服從正態分布N( 1,12 ),N( 2,22 ),并且有1222 ,為比較兩臺機床加工零件的精度有無顯著差異,分別獨立抽取了甲機床加工的8個零件和乙機床加工的7個零件,通過測量的到如下數據:,兩個總體均值之差的檢驗 (例題分析用統計量進行檢驗),H0: 1- 2 = 0 H1: 1- 2 0 = 0.05 n1 = 8,n2 = 7 臨界值(s):,檢驗統計量:,決策:,結論:,在 = 0.05的水平上接受H0,沒有理由認為甲、

19、乙兩臺機床加工的零件直徑不一致。,兩個總體比例之差的檢驗,1.假定條件 兩個總體是獨立的 兩個總體都服從二項分布 可以用正態分布來近似 檢驗統計量,兩個總體比例之差的Z檢驗,兩個總體比例之差的檢驗(假設的形式),兩個總體比例之差的Z檢驗 (例題分析),【例】對兩個大型企業青年工人參加技術培訓的情況進行調查,調查結果如下:甲廠:調查60人,18人參加技術培訓。乙廠調查40人,14人參加技術培訓。能否根據以上調查結果認為乙廠工人參加技術培訓的人數比例高于甲廠?( = 0.05),兩個總體比例之差的Z檢驗 (例題分析),H0: 1- 2 0 H1: 1- 2 0 = 0.05 n1 = 60,n2

20、= 40 臨界值(s):,檢驗統計量:,決策:,結論:,在 = 0.05的水平上不能拒絕H0,沒有證據表明乙廠工人參加技術培訓的人數比例高于甲廠,兩個總體方差比的檢驗,兩個總體方差比的檢驗(F 檢驗),假定條件 兩個總體都服從正態分布,且方差相等 兩個獨立的隨機樣本 假定形式 H0:s12 = s22 或 H0:s12 s22 (或 ) H1:s12 s22 H1:s12 ) 檢驗統計量 F = S12 /S22F(n1 1 , n2 1),兩個總體方差的 F 檢驗(臨界值),兩個總體方差的 F 檢驗 (例題分析),H0: 12 = 22 H1: 12 22 = 0.05 n1 = 15,n2

21、 = 20 臨界值(s):,檢驗統計量:,決策:,結論:,在 = 0.05的水平上不能拒絕H0,可以認為這兩個總體的方差沒有顯著差異,7.5 單因素方差分析,什么是方差分析? 為了對幾個行業的服務質量進行評價,消費者協會在4個行業分別抽取了不同的企業作為樣本。最近一年中消費者對總共23家企業投訴的次數如下表,【例】有4個品牌的彩電在5個地區銷售,為分析彩電的品牌(品牌因素)和銷售地區(地區因素)對銷售量的影響,對每個品牌在各地區的銷售量取得以下數據。試分析品牌和銷售地區對彩電的銷售量是否有顯著影響?(=0.05),什么是方差分析? (例題分析),分析4個行業之間的服務質量是否有顯著差異,也就是

22、要判斷“行業”對“投訴次數”是否有顯著影響 作出這種判斷最終被歸結為檢驗這四個行業被投訴次數的均值是否相等 若它們的均值相等,則意味著“行業”對投訴次數是沒有影響的,即它們之間的服務質量沒有顯著差異;若均值不全相等,則意味著“行業”對投訴次數是有影響的,它們之間的服務質量有顯著差異,為什么不做兩兩比較?,設有四個總體的均值分別為m1 、 m2、m3 、 m4 ,要檢驗四個總體的均值是否相等,每次檢驗兩個的作法共需要進行6次不同的檢驗,每次檢驗犯第一類錯誤的概率為,連續作6次檢驗犯第類錯誤的概率增加到1-(1-)6=0.265,大于0.05。相應的置信水平會降低到0.956=0.735,2.一般

23、來說,隨著增加個體顯著性檢驗的次數,偶然因素導致差別的可能性也會增加,(并非均值真的存在差別) 3.方差分析方法則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而避免拒絕一個真實的原假設,什么是方差分析(ANOVA)?,檢驗多個總體均值是否相等 通過分析數據的誤差判斷各總體均值是否相等 研究分類型自變量對數值型因變量的影響 一個或多個分類型自變量 兩個或多個 (k 個) 處理水平或分類 一個數值型因變量 有單因素方差分析和雙因素方差分析 單因素方差分析:涉及一個分類的自變量 雙因素方差分析:涉及兩個分類的自變量,什么是方差分析? 為了對幾個行業的服務質量進行評價,消費者協會在4個行業分別抽

24、取了不同的企業作為樣本。最近一年中消費者對總共23家企業投訴的次數如下表,方差分析中的有關術語,因素或因子(factor) 所要檢驗的對象 分析行業對投訴次數的影響,行業是要檢驗的因子 水平或處理(treatment) 因子的不同表現 零售業、旅游業、航空公司、家電制造業 觀察值 在每個因素水平下得到的樣本數據 每個行業被投訴的次數,方差分析中的有關術語,試驗 這里只涉及一個因素,因此稱為單因素4水平的試驗 總體 因素的每一個水平可以看作是一個總體 零售業、旅游業、航空公司、家電制造業是4個總體 樣本數據 被投訴次數可以看作是從這4個總體中抽取的樣本數據,方差分析的基本思想和原理(圖形分析散點

25、圖),從散點圖上可以看出 不同行業被投訴的次數有明顯差異 同一個行業,不同企業被投訴的次數也明顯不同 家電制造被投訴的次數較高,航空公司被投訴的次數較低 行業與被投訴次數之間有一定的關系 如果行業與被投訴次數之間沒有關系,那么它們被投訴的次數應該差不多相同,在散點圖上所呈現的模式也就應該很接近,方差分析的基本思想和原理(圖形分析),散點圖觀察不能提供充分的證據證明不同行業被投訴的次數之間有顯著差異 這種差異可能是由于抽樣的隨機性造成的 需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析 所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差 這個名字

26、也表示:它是通過對數據誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數據誤差的來源,方差分析的基本思想和原理,方差分析的基本思想和原理(兩類誤差),隨機誤差 因素的同一水平(總體)下,樣本各觀察值之間的差異 比如,同一行業下不同企業被投訴次數之間的差異 這種差異可以看成是隨機因素的影響,稱為隨機誤差 系統誤差 因素的不同水平(不同總體)之間觀察值的差異 比如,不同行業之間的被投訴次數之間的差異 這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業本身所造成的,后者所形成的誤差是由系統性因素造成的,稱為系統誤差,方差分析的基本思想和原理(誤差平方和SS),數據的誤差

27、用平方和(sum of squares)表示 組內平方和(within groups) 因素的同一水平下數據誤差的平方和 比如,零售業被投訴次數的誤差平方和 只包含隨機誤差 組間平方和(between groups) 因素的不同水平之間數據誤差的平方和 比如,4個行業被投訴次數之間的誤差平方和 既包括隨機誤差,也包括系統誤差,方差分析的基本假定,每個總體都應服從正態分布 對于因素的每一個水平,其觀察值是來自服從正態分布總體的簡單隨機樣本 比如,每個行業被投訴的次數必須服從正態分布,2.各個總體的方差必須相同 各組觀察數據是從具有相同方差的總體中抽取的 比如,4個行業被投訴次數的方差都相等 3.

28、觀察值是獨立的 比如,每個行業被投訴的次數與其他行業被投訴的次數獨立,方差分析的基本思想和原理(均方MS),平方和除以相應的自由度 若原假設成立,組間均方與組內均方的數值就應該很接近,它們的比值就會接近1 若原假設不成立,組間均方會大于組內均方,它們之間的比值就會大于1 當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,即自變量對因變量有影響 判斷行業對投訴次數是否有顯著影響,也就是檢驗被投訴次數的差異主要是由于什么原因所引起的。如果這種差異主要是系統誤差,說明不同行業對投訴次數有顯著影響,方差分析中的基本假定,在上述假定條件下,判斷行業對投訴次數是否有顯著影響,實際上也就是檢驗具

29、有同方差的4個正態總體的均值是否相等 如果4個總體的均值相等,可以期望4個樣本的均值也會很接近 4個樣本的均值越接近,推斷4個總體均值相等的證據也就越充分 樣本均值越不同,推斷總體均值不同的證據就越充分,方差分析中的基本假定, 如果原假設成立,即H0 : m1 = m2 = m3 = m4 4個行業被投訴次數的均值都相等 意味著每個樣本都來自均值為、方差為 2的同一正態總體,X,f(X),1 2 3 4,方差分析中的基本假定,若備擇假設成立,即H1 : mi (i=1,2,3,4)不全相等 至少有一個總體的均值是不同的 4個樣本分別來自均值不同的4個正態總體,問題的一般提法,設因素有k個水平,

30、每個水平的均值分別用1 , 2, , k 表示 要檢驗k個水平(總體)的均值是否相等,需要提出如下假設: H0 : 1 2 k H1 : 1 , 2 , ,k 不全相等 設1為零售業被投訴次數的均值,2為旅游業被投訴次數的均值,3為航空公司被投訴次數的均值,4為家電制造業被投訴次數的均值,提出的假設為 H0 : 1 2 3 4 H1 : 1 , 2 , 3 , 4 不全相等,單因素方差分析的數據結構,分析步驟 提出假設 構造檢驗統計量 統計決策,提出假設,一般提法 H0 :m1 = m2 = mk 自變量對因變量沒有顯著影響 H1 :m1 ,m2 , ,mk不全相等 自變量對因變量有顯著影響

31、注意:拒絕原假設,只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等,構造檢驗的統計量,構造統計量需要計算 水平的均值 全部觀察值的總均值 誤差平方和 均方(MS),構造檢驗的統計量(計算水平的均值),假定從第i個總體中抽取一個容量為ni的簡單隨機樣本,第i個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數 計算公式為,式中: ni為第 i 個總體的樣本觀察值個數 xij 為第 i 個總體的第 j 個觀察值,構造檢驗的統計量(計算全部觀察值的總均值),全部觀察值的總和除以觀察值的總個數 計算公式為,構造檢驗的統計量(例題分析),構造檢驗的統計量(計算總誤差平方和 SST),全

32、部觀察值 與總平均值 的離差平方和 反映全部觀察值的離散狀況 其計算公式為,前例的計算結果 SST = (57-47.869565)2+(58-47.869565)2 =115.9295,構造檢驗的統計量(計算組間平方和 SSA),各組平均值 與總平均值 的離差平方和 反映各總體的樣本均值之間的差異程度 該平方和既包括隨機誤差,也包括系統誤差 計算公式為,前例的計算結果 SSA = 1456.608696,構造檢驗的統計量(計算組內平方和 SSE ),每個水平或組的各樣本數據與其組平均值的離差平方和 反映每個樣本各觀察值的離散狀況 該平方和反映的是隨機誤差的大小 計算公式為,前例的計算結果 S

33、SE = 2708,構造檢驗的統計量(三個平方和的關系),總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關系,前例的計算結果 4164.608696=1456.608696+2708,構造檢驗的統計量(計算均方MS),各誤差平方和的大小與觀察值的多少有關,為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差 由誤差平方和除以相應的自由度求得 三個平方和對應的自由度分別是 SST 的自由度為n-1,其中n為全部觀察值的個數 SSA的自由度為k-1,其中k為因素水平(總體)的個數 SSE 的自由度為n-k,構造檢驗的統計量(計算均方

34、 MS),組間方差:SSA的均方,記為MSA,計算公式為,組內方差:SSE的均方,記為MSE,計算公式為,構造檢驗的統計量(計算檢驗統計量 F ),將MSA和MSE進行對比,即得到所需要的檢驗統計量F 當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布,即,統計決策, 將統計量的值F與給定的顯著性水平的臨界值F進行比較,作出對原假設H0的決策 根據給定的顯著性水平,在F分布表中查找與第一自由度df1k-1、第二自由度df2=n-k 相應的臨界值 F 若FF ,則拒絕原假設H0 ,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響 若FF ,則不拒絕原假設

35、H0 ,無證據表明所檢驗的因素對觀察值有顯著影響,單因素方差分析表(基本結構),單因素方差分析(例題分析),7.6雙因素方差分析,雙因素方差分析及其類型 無交互作用的雙因素方差分析 有交互作用的雙因素方差分析,雙因素方差分析,分析兩個因素(行因素row和列因素column)對試驗結果的影響 如果兩個因素對試驗結果的影響是相互獨立的,分別判斷行因素和列因素對試驗數據的影響,這時的雙因素方差分析稱為無交互作用的雙因素方差分析或無重復雙因素方差分析(two-factor without replication) 如果除了行因素和列因素對試驗數據的單獨影響外,兩個因素的搭配還會對結果產生一種新的影響,

36、這時的雙因素方差分析稱為有交互作用的雙因素方差分析或可重復雙因素方差分析 (two-factor with replication ),雙因素方差分析的基本假定,每個總體都服從正態分布 對于因素的每一個水平,其觀察值是來自正態分布總體的簡單隨機樣本 各個總體的方差必須相同 對于各組觀察數據,是從具有相同方差的總體中抽取的 觀察值是獨立的,雙因素方差分析 (例題分析),【例】有4個品牌的彩電在5個地區銷售,為分析彩電的品牌(品牌因素)和銷售地區(地區因素)對銷售量的影響,對每個品牌在各地區的銷售量取得以下數據。試分析品牌和銷售地區對彩電的銷售量是否有顯著影響?(=0.05),數據結構,數據結構,

37、 是行因素的第i個水平下各觀察值的平均值, 是列因素的第j個水平下各觀察值的平均值, 是全部 kr 個樣本數據的總平均值,分析步驟(提出假設),提出假設 對行因素提出的假設為 H0:m1 = m2 = = mi = = mk (mi為第i個水平的均值) H1:mi (i =1,2, , k) 不全相等 對列因素提出的假設為 H0: m1 = m2 = = mj = = mr (mj為第j個水平的均值) H1: mj (j =1,2,r) 不全相等,分析步驟(構造檢驗的統計量),計算平方和(SS) 總誤差平方和 行因素誤差平方和 列因素誤差平方和 隨機誤差項平方和,分析步驟(構造檢驗的統計量), 總誤差平方和(SST )、行因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論