方差分析簡介_第1頁
方差分析簡介_第2頁
方差分析簡介_第3頁
方差分析簡介_第4頁
方差分析簡介_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、方差分析簡介1. 引言方差分析(analysis of variance,簡稱ANOVA)是一種假設檢驗方法,即基本思想可概述為:把全部數據的總方差分解成幾部分,每一部分表示某一影響因素或各影響因素之間的交互作用所產生的效應,將各部分方差與隨機誤差的方差相比較,依據F分布作出統計推斷,從而確定各因素或交互作用的效應是否顯著。因為分析是通過計算方差的估計值進行的,所以稱為方差分析。方差分析的主要目標是檢驗均值間的差別是否在統計意義上顯著。如果只比較兩個均值,事實上方差分析的結果和t檢驗完全相同。只所以很多情況下采用方差分析,是因為它具有如下兩個優點:(1)方差分析可以在一次分析中同時考察多個因素

2、的顯著性,比t檢驗所需的觀測值少;(2)方差分析可以考察多個因素的交互作用。方差分析的缺點是條件有些苛刻,需要滿足如下條件:(1)各樣本是相互獨立的;(2)各樣本數據來自正態總體(正態性:normality);(3)各處理組總體方差相等(方差齊性:homogeneity of variance)。因此在作方差分析之前,要作正態性檢驗和方差齊性檢驗,如不滿足上述要求,可考慮作變量變換。常用的變量變換方法有平方根變換,平方根反正弦變換、對數變換及倒數變換等。方差分析在醫藥、制造業、農業等領域有重要應用,多用于試驗優化和效果分析中。2. 單因素方差分析2.1 基本概念(1) 試驗指標:在一項試驗中,

3、用來衡量試驗效果的特征量稱為試驗指標,有時簡稱指標,也稱試驗結果,通常用y表示。它類似于數學中的因變量或目標函數。試驗指標用數量表示稱為定量指標,如速度、溫度、壓力、重量、尺寸、壽命、硬度、強度、產量和成本等。不能直接用數量表示的指標稱為定性指標。如顏色,人的性別等。定性指標也可以轉化為定量指標,方法是用不同的數表示不同的指標值。(2) 試驗因素:試驗中,凡對試驗指標可能產生影響的原因都稱為因素(factor),也稱因子或元,類似于數學中的自變量。需要在試驗中考察研究的因素,稱為試驗因素,有時也稱為因素,通常用大寫字母A、B、C、表示。在試驗中,有些因素能嚴格控制,稱為可控因素;有些因素難以控

4、制,稱為不可控因素。試驗因素是試驗中的已知條件,能嚴格控制,所以是可控因素。通常把未被選作試驗因素的可控因素和不可控因素都稱為條件因素,統稱為試驗條件。(3) 因素水平:因素在試驗中所處的各種狀態或所取的不同值,稱為該因素的水平(level),也簡稱為水平或位級,通常用下標1、2、3、表示。若一個因素取K種狀態或K個值,就稱該因素為K水平因素。因素的水平,有的可以取得具體值,如6Kg、10cm;有的只能取大致范圍或某個模糊概念,如軟、硬、大、小、好、較好等;但也有無法用數值表征的,如履帶的不同形式,輪胎花紋的不同種類,機器的不同操作方式,大豆的不同品種等。(4) 處理組:所有試驗因素的水平組合

5、所形成的試驗點稱為處理組(treatment group),也稱組合處理。三因素試驗中,A1B2C3是一個組合處理,它表示由A因素1水平、B因素2水平和C因素3水平組合而形成的一個試驗點。2.2 主要步驟假設我們在實驗中只考慮因素A,該因素有p個水平,每個水平做r次重復試驗,設第i個水平的第j次重復試驗的數據為,如表1所示。表1 試驗數據12jr根據這些數據,可以計算全體數據的均值和和各水平對應數據的均值:,i=1, 2, , p進一步,可以計算全體數據的偏差平方和、因素A對應的偏差平方和,以及誤差的偏差平方和:下一步,需要計算這三個偏差平方和所對應的自由度。之所以要計算自由度,是因為如果用偏

6、差平方和除以對應的數據項數,得到的統計量并不是方差的無偏估計。而偏差平方和與對應的自由度的商才是方差的無偏估計。設有n個數據x1, x2, , xn,它們的平方和的自由度取決于xi之間有多少個線性約束關系。 設X=(x1, x2, , xn)T,若存在秩為m的矩陣A,滿足則S的自由度是n-m。下面來求ST的自由度。令,則xi之間存在一個線性約束即m=1,A=(1, 1, , 1),故。同理可得,。可以證明(證明本文從略),對于偏差平方和與其對應的自由度,如下關系成立:,這就是Fisher偏差平方和加性原理,它是全部方差分析的基礎。在得到偏差平方和及其對應的自由度后,就可以得到因素A和誤差e對應

7、的平均偏差平方和,平均偏差平方和是反映數據波動大小的一個測度,比較和的大小可以看出因素A的不同水平帶來的試驗指標的波動是否與隨機誤差相同,所以,可以由此判斷因素A對試驗指標是否有顯著影響。判斷和是否相同的方法采用F檢驗(基于F分布的假設檢驗),令則可認為F服從自由度為和的F分布。用求出的F值查F分布表可得到對應的P值,一般取置信水平0.05,即當P值小于0.05時拒絕原假設,認為因素A對試驗指標的影響顯著,否則維持原假設,認為影響不顯著。2.3 數學模型設因素A取了p個水平,每個水平重復了r次試驗,在水平Ai下的第i次實驗結果yij可以分解為其中,表示在水平Ai下的理論指標值,是試驗誤差。我們

8、把試驗誤差認為是相互獨立的隨機變量,且服從正態分布,這是方差的基本假設之一。為了看出因素各水平的影響大小,將再進行分解,令,i=1, 2, , p則,i=1, 2, , p; j=1, 2, , r顯然ai之間有關系ai表示水平Ai對試驗結果產生的影響,它稱作水平Ai的效應。方差分析的數學模型就是建立在這么幾條假定的基礎上的:(1),i=1, 2, , p; j=1, 2, , r(2)(3)相互獨立且都服從分布由這三條建立的模型叫做線性模型。建立模型以后,統計分析需要解決下列問題:1. 參數估計。即通過試驗估計和ai,它們的估計量用和表示。可以證明(本文從略),和是和ai的無偏估計。2. 假

9、設檢驗。如果因素A對指標有影響,效應ai不全為0,如果因素A對指標沒有影響,則效應ai全為0。因此,要檢驗因素A對指標影響是否顯著就是檢驗假設這需要選擇一個合適的統計量。令,則故 如果原假設H0成立,則,有因為相互獨立且都服從分布,由統計理論推知服從自由度為的分布,服從自由度為的分布,而且兩者獨立,從而服從自由度為,的F分布。所以可以采用F統計量作為假設檢驗的統計量(這種假設檢驗稱為F檢驗),通過查F分布表確定拒絕域或P值,從而作出推斷結論。3. 多因素方差分析所謂多因素方差分析,就是同時檢驗多個因素影響是否顯著的方差分析方法。多因素方差分析。方差分析的一大優勢就是可以同時考慮多個試驗因素對試

10、驗指標的影響,這樣,既節省了試驗次數,試驗誤差也比進行多次單因素方差分析要小。在多因素方差分析中,有一個很重要的問題,就是試驗設計(DOE: Design of Experiment)。其主要目的是通過設計每次試驗中因素水平的搭配,用盡可能少的試驗次數和試驗數據滿足方差分析的要求,獲得較好的分析結果。最常用的試驗設計有析因設計和正交設計。前者是對所有因素的所有水平組合都進行試驗,因此又稱交叉分組設計;后者是按照某種正交表設計試驗,以較少的試驗次數即可接近析因設計的效果。因此,析因設計一般用于兩個因素且水平數較少的情況,而因素和水平較多時則多采用正交設計。除正交設計外,還有其它許多實驗設計方法,

11、如系統分組設計(嵌套設計)、正交拉丁方設計、裂區設計等,它們一般用在并非任意組合都可以實現或找不到合適的正交表的情況。實驗設計確定的一個水平組合,如A1B2A3,稱作一個處理組。如果在一個處理組內做多次重復試驗得到多個試驗數據,則稱為有重復試驗的設計,否則稱無重復試驗的設計。在方差分析中,一般要求各處理組內的重復試驗數相等。對于不相等的情況,方差分析也可以計算,但公式略有差別,而且可靠性差,所以一般采用其它方法如通用線性模型(GLM: General Linear Model)來計算。在多因素方差分析中,還有一個重要的概念,這就是因素間的交互作用(interaction),它是指幾個因素的某些

12、水平互相增強或互相削弱的現象。表2中,當A從A1變化到A2時,指標都增加,與B取B1或B2無關;同樣,B從B1變到B2時,指標都增加,與A的水平無關,此時,我們說A和B之間沒有交互作用。而在表3中,因素A對指標的影響與B的水平有關,此時我們說A和B之間存在交互作用,記作A×B。表2 無交互作用的試驗數據A1A2B125A2710表3 有交互作用的試驗數據A1A2B125A2733.1 析因設計的方差分析由于析因設計主要用于因素和水平數較少的情形,所以本文以雙因素試驗為例,介紹析因設計的方差分析的主要步驟。設考慮兩個試驗因素A和B,A有p個水平,B有q個水平,每個處理組內做r次重復試驗

13、,在AiBj條件下的第k次實驗的數據記作yijk;在AiBj條件下做的全部試驗數據之和記作Yij,顯然令表示在條件下試驗數據之和,表示在條件下試驗數據之和,即它們的平均值記為和整個試驗的總平均則總偏差平方和,因素A和B的偏差平方和,誤差的偏差平方和,交互作用的偏差平方和分別計算如下,它們的自由度分別為需要注意的是:如果各處理組中沒有重復試驗,即r=1,那么按上式計算出的=0,這將導致后續步驟無法開展。因此,在無重復試驗的情形,應該用下式計算和此時,將無法計算。因此,無重復試驗的設計無法考察交互作用。然后,計算平均偏差平方和和F值把這些F值查F表求得拒絕域或P值,即可做出統計推斷。類似于2.3節

14、,也可以得到雙因素方差分析的數學模型:其中,分別為因素A,B的主效應以及A與B的交互效應,滿足,為實驗的隨機誤差,它們相互獨立且都服從正態分布。由這一模型,可以與2.3節類似地得出各參數的估計,以及采用F檢驗的原因。3.2 正交設計的方差分析正交設計是利用一系列規格化的正交表來科學地安排多因素試驗的一種十分有效的設計方法。其原理是從各因素各水平的全搭配中選擇一部分必不可少的搭配進行試驗,從而大大減少試驗次數,又基本不降低研究效率。正交表是已經制作好的規格化的表,可分為同水平的和混合水平的大類。等水平表一般記作形如,其中a表示正交表的行數,即試驗的次數;b表示因素的水平數,即每個因素有b個水平;

15、c表示正交表的列數即因素數。所以,正交表用于c個因素,每個因素b個水平的情形,按該表設計共需做a次試驗。表4所示為等水平表。表5所示為一個混合正交表,這表示可以安排4個因素,其中一個因素有2水平,另外3個因素有3水平,共需9次試驗。表4 正交表試驗號 列號1231111212232124221列名ABA×B表5 正交表試驗號 列號1234111112122231333411235123161312721328221392321之所以選用正交表,是因為它具有如下性質:在任何一列中各水平都出現且出現的次數相等,在任意兩列之間各種不同水平的所有可能組合都出現,且出現的次數相等。這就使得部分

16、試驗中所有因素的所有水平信息即兩兩因素間的所有組合信息無一遺漏,且任一因素各水平的試驗條件相同,從而能最大限度的反映該因素不同水平對試驗指標的影響。在3.1節中討論了雙因素情況下的交互作用,事實上,當有多個因素時,還存在多個因素的交互作用,稱為高級交互作用,記作A×B×C。在正交試驗設計中,交互作用一律當作因素看待,這是處理交互作用問題的一條總的原則。在正交表中,一般都為交互作用安排了相應的列,如表4中的的第3列即用于安排交互作用A×B,這意味著使用這一正交表時,如果要考察交互作用,則只能考慮兩個因素,因為第3列已經被占用了。但和因素不同的是,用于考慮交互作用的列

17、并不影響試驗方案及其實施,也就是說不必在試驗中刻意安排交互作用,只需計算時按第3列計算即可,而且一個交互作用不一定只占1列,也可能占有多列。因為正交設計中把交互作用看作因素安排到正交表的列中,因此使得方差分析的計算過程更加簡單了。設選用正交表進行正交試驗,即有c列,每列b個水平,共a個處理組,設每個處理組有r個數據,第i個處理組的第t個數據記為,則全體的均值和第j列第k個水平的均值為,其中,表示第j列中第k個水平出現的次數,表示第i個處理組中第j列的水平是k。由此,總偏差平方和,各列的偏差平方和為 ,其對應的自由度分別為,注意,第j列的偏差平方和可能是因素的偏差平方和,可能是交互作用的偏差平方和,也可能是空列的偏差平方和。如果正交表中留有空列,則令,其中表示空列。在無重復實驗的情況下,可把看作是誤差的偏差平方和,即,。在有重復實驗的情況下,令,即表示各處理組內隨機誤差的偏差平方和的總和。則在有重復實驗時,總體試驗誤差的偏差平方和,可見,當正交表無空列時,即直接計算各處理組內誤差的偏差平方和,將其總和作為總體試驗誤差的偏差平方和。另外,也可以看出,若正交表無空列,且無重復試驗,則方差分析無法開展,因此試驗設計時必須保證兩者有其一。在計算出偏差平方和與自由度后,即可由各因素和交

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論