




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一章試驗設計和均勻設計1.1試驗設計在工農業(yè)生產和科學研究中,經常需要做試驗,以求達到預期的目的。例如在工農業(yè)生產中希望通過試驗達到高質、優(yōu)產、低消耗,特別是新產品試驗,未知的東西很多,要通過試驗來摸索工藝條件或配方。如何做試驗,其中大有學問。試驗設計得好,會事半功倍,反之會事倍功半,甚至勞而無功。本世紀30年代,由于農業(yè)試驗的需要,費歇爾(R.A.Fisher)在試驗設計和統(tǒng)計分析方面做出了一系列先驅工作,從此試驗設計成為統(tǒng)計科學的一個分支。隨后,F(xiàn).Yates,R.C.Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box對試驗設計都作出了杰出的貢獻,使該分支在理論上日趨完善,在應用上日趨廣泛。60年代,日本統(tǒng)計學家田口玄一將試驗設計中應用最廣的正交設計表格化,在方法解說方面深入淺出為試驗設計的更廣泛使用作出了眾所周知的貢獻。田口玄一的方法對我國試驗設計的普及和廣泛應用有巨大的影響,70年代我國許多統(tǒng)計學家深入工廠、科研單位,用通俗的方法介紹正交試驗設計,幫助工程技術人員進行試驗的安排和數(shù)據(jù)分析,獲得了一大批優(yōu)秀成果,出版了許多成果匯編,舉辦了不少成果展覽會。在廣泛使用試驗設計方法的洪流中,必然會出現(xiàn)一些新的問題,這些總是用原有的各種試驗設計方法不能圓滿地解決,特別是當試驗的范圍較大,試驗因素需要考察較多等級(在試驗設計中這些等級稱之為水平)時,用正交試驗及其它流行的試驗方法要求做較多的試驗,常使得試驗者望而生畏。許多實際問題要求一種新的試驗方法,它能有效地處理多水平的試驗,于是王元和方開泰于1978年提出了均勻設計(見文獻「1-3」),該設計考慮如何將設計點均勻地散布在試驗范圍內,使得能用較少的試驗點獲得最多的信息。10多年來,均勻設計在國內得到了廣泛應用,并獲得不少好的成果。試驗設計在工業(yè)生產和工程設計中能發(fā)揮重要的作用,例如:1)提高產量;2)減少質量的波動,提高產品質量水準;3)大大縮短新產品試驗周期;4)降低成本;5)延長產品壽命。在自然科學中,有些規(guī)律開始尚未由人們所認識,通過試驗設計可以獲得其統(tǒng)計規(guī)律,在此基礎上提出科學猜想,這些猜想促進了學科的發(fā)展,例如遺傳學的許多發(fā)現(xiàn)都藉助于上述過程。材料工業(yè)是工業(yè)中的棟梁,汽車拖拉機的制造離不開各種合金鋼,鈦合金的發(fā)明和發(fā)現(xiàn)使飛機制造工業(yè)產生飛躍。超導的研究和超導材料的配方息息相關。配方試驗又稱混料試驗(ExperimentswithMixtures),不僅出現(xiàn)于材料工業(yè),而且在人們生活和其它工業(yè)中處處可見,例如在中藥、飲料、混凝土的配方中。由于在配方中各種材料的總和必須為100%,其試驗設計必須考慮到這個約束條件,由于這個原因正交試驗設計等方法不能直接用于配方設計。針對配方設計的要求,Scheffé于1958年提出了單純形格子點設計,隨后于1963年他又提出了單純形重心設計。Cornell[27]對配方試驗設計的各種方法作了詳盡的介紹和討論。顯然,均勻設計的思想也能用于配方試驗,王元和方開泰[9]給出了配方均勻設計的設計方法和有關的討論。本書第五章將系統(tǒng)介紹配方試驗設計和配方均勻設計。不論是均勻設計或配方均勻設計,其數(shù)據(jù)分析都要藉助于回歸分析,要用到線性回歸模型、二次回歸模型、非線性模型,,以及各種選擇回歸變量的方法(如前進法、后退法、逐步回歸、最優(yōu)回歸子集等)。有關回歸分析的書籍成百上千,本書僅作梗概介紹。讀者很容易找到各種參考書籍獲得更詳細的介紹。試驗設計的方法很多,本書重點介紹均勻設計,這并不意味其它方法不重要,每種方法都有其優(yōu)點,也有其局限性,根據(jù)實際情況選取合適的方法是應用統(tǒng)計的重要內容。1.2試驗的因素和水平在工業(yè)、農業(yè)、科學研究和軍事科學的研究中,經常需要作各種試驗,以研究各種因素之間的關系,找到最優(yōu)的工藝條件或最好的配方。讓我們先看一個例子:例1在一個化工生產過程中,考慮影響得率(產量)的三個因素:溫度(A),時間(B)和加堿量(C)。為了便于試驗的安排,每個因素要根據(jù)以往的經驗來選擇一個試驗范圍,然后在試驗范圍內挑出幾個有代表性的值來進行試驗,這些值稱做該因素的水平。在該例中,我們選擇的試驗范圍如下:溫度:77.5℃~92.5℃時間:75分~165分加堿量:4.5%~7.5%然后在上述范圍內,每個因素各選三個水平,組成如下的因素水平表:表1因素水平表因素18090528512063901507溫度()時間(分)加堿量(%)選擇因素和水平關系到一個試驗能否成功的關鍵,下列的注意事項和建議對使用試驗設計的人員可能是有益的。1.在一個生產過程中,有關的因素通常是很多的,例如在例1的化工生產工藝中,有催化劑的品種,催化劑用量,加堿時的速度,容器中的壓力等。但根據(jù)這次試驗目的,除了溫度(A),時間(B),和加堿量(C)各取三個水平外,其余因素是固定的,或者講,他們只取一個水平。為了方便,通常這些固定的因素在試驗方案中并不稱為因素,只有變化的因素才稱為因素。2.在一項試驗中,如何從眾多的有關因子中挑選出試驗方案中的因素?我們建議課題的領導者應當要請有經驗的工程師、技術員、工人共同討論決定。在一次試驗中,因素不宜選得太多(如超過10個),那樣可能會造成主次不分,丟了西瓜,揀了芝麻。相反地,因素也不宜選得太少,(如只選定一、二個因素),這樣可能會遺漏重要的因素,或遺漏因素間的交互作用,使試驗的結果達不到預期的目的。例如,有這樣的故事,原計劃試驗方案中只有三個因素,而利用試驗設計的方法,可以在不增加試驗數(shù)目的前提下,再增加一個因素,既然不費事何樂而不為呢?試驗的結果發(fā)現(xiàn),最后添加的這個因素是最重要的,從而發(fā)現(xiàn)了歷史上最好的工藝條件,正是“有心栽花花不成,無意插柳柳成蔭。”3.試驗的范圍應當盡可能大一點。如果試驗在試驗室進行,試驗范圍大比較容易實現(xiàn);如果試驗直接在生產中進行,則試驗范圍不宜太大,以防產生過多次品,或產生危險。試驗范圍太小的缺點是不易獲得比已有條件有顯著改善的結果。歷史上有些重大的發(fā)明和發(fā)現(xiàn),是由于“事故”而獲得的,也就是說試驗的范圍大大不同于有經驗的范圍。4.若試驗范圍允許大一些,則每一因素的水平個數(shù)最好適當多一些。5.水平的間隔大小和生產控制精度是密切相關的。若在例1中溫度的控制只能作到±3℃,且我們設定控制在85℃,于是在生產過程中溫度將會在85°±3℃,即82—88℃波動。不難看到,這時設定的三個水平80℃,85℃,90℃之間是太近了,應當加大,例如80℃,90℃,100℃。如果溫度控制的精度可達±1℃,則例1如設定的三個水平是合理的。6.因素和水平的含意可以是廣義的。例如五種棉花用于織同一種布,要比較不同棉花影響布的質量的效應,這時“棉花品種”可設定為一個因素,五種棉花就是該因素下的五個水平。1.3因素的主效應和因素間的交互效應根據(jù)試驗的目的,要預先確定一項或多項試驗指標,為簡單計,本書僅討論只有一項試驗指標(記作Y)的情形。如例如1的試驗Y是得率。在數(shù)理統(tǒng)計中,稱試驗指標為響應(response)為通俗起見,本書中就叫試驗指標。考察一個因素對試驗指標的影響是試驗的目的之一。若在一項試驗中,考察溫度和得率Y之間的關系,并取溫度五個水平,其相應Y值如下:溫度50℃30%60℃35%70℃40%80℃45%90℃50%Y我們看到,溫度每增加10℃得率增加5%這5%就是溫度的效應。上述試驗可以表成一個線性數(shù)學模型(1.1)其中為第次試驗結果,為溫度從50℃到90℃范圍內Y的平均值。通常可以用五次試驗的平均值來估計,記作,即表示溫度取第個水平時的值與之差。不難發(fā)現(xiàn),它們的估計值為這里稱為溫度在五個水平下的主效應,為它們的估計值。由于試驗中總存在一些偶然因素的干擾,如室溫的變化,電壓的波動,材料的不均勻性,這些偶然因素總稱為隨機誤差。由于試驗誤差的存在,不可能產生上例那么理想的情況。其實際數(shù)據(jù)可能為溫度50℃32%60℃34%70℃39%80℃46%90℃49%Y這時數(shù)學模型為(1.2)這里為第次試驗的試驗誤差。這時試驗必須有重復才能估計出和.實際上,當試驗的水平和相應的Y為連續(xù)變量時,其數(shù)學模型也可以用回歸方程來表達,例如,用線性回歸方程(1.3)其中X表示溫度,和是回歸系數(shù),為隨機誤差。在第二章將介紹,和可以用最小二乘法由試驗數(shù)據(jù)估出,由上述溫度和得率的數(shù)據(jù)可得回歸方程(1.4)這里為試驗結果Y的估計值。利用方程(1.4)可以估出五次試驗的結果如下:30.81.235.4-1.440.0-1.044.61.449.2-0.2其中稱為殘差,它的大小反映了回歸方程(1.4)的精確程度,并可用它作回歸診斷,更詳細討論請看第二章。方程(1.4)中,X的回歸系數(shù)0.46有明確的實際含意,它表示溫度每增加一度,其得率Y平均增加0.46%,于是0.46反映了X對Y的效應,這里可以稱為線性回歸效應。有一點是必須注意的,無論是模型(1.2)中的主效應,還是模型(1.3)中的線性回歸效應,都強烈地依賴于試驗條件,尤其是X的試驗范圍,也就是說,這兩個模型只適用于X的試驗范圍內。否則,當X為210°時,的估值為104.4%,這是不可能的,因為得率總是小于100%的。顯然,模型(1.2)和(1.3)是最簡單的情形,實際情況是多種多樣的,例如X和Y之間可能有非線性回歸關系,或其它相關關系。這些將在以后討論。現(xiàn)在我們來介紹因素間交互作用的概念。首先,設有兩個因素A和B它們各取兩個水平這時共有四種不同的水平組合,其試驗結果列于圖1。當時,變到使Y增加30-10=20;類似時,變到使Y也增加40-20=20。這就是說A對Y的影響與B取什么水平無關。類似地,和。地,當當B從變到時,Y增加20-10(或40-30=10),與A取的水平無關。這時,我們稱A和B之間沒有交互作用。判斷和之間有沒有交互作用,選用圖2的作圖方法更為直觀。當圖中的兩條線平行時(或接近平行時),判斷A和B之間沒有交互作用.圖3和圖4給出了一個有交互作用的例子,它們的含意和作圖方法與圖和圖2是一樣的。1交互作用在實際中是大量存在的,例如化學反應中催化劑的多少與其它成分的投入量通常是有交互作用的。水中各種金屬含量太多,對人體健康會造成危害,金屬之間對人體的危害也存在交互作用(參見例5)。當因素A,B及其它們的試驗指標Y都為連續(xù)變量時,可以建立Y和A;B之間的回歸方程。若回歸方程為(1.5)時,A對Y的影響由回歸系數(shù)完全決定,不受B取哪個水平的影響;類似地,B對Y的影響由回歸系數(shù)γ完全決定,不受A取哪個水平的影響;類似地,對的影響由回歸系數(shù)完全決定,不受取哪個水平的影響。這時A和B沒有交互作用。當A和B之間有交互作用時,回歸模型不可能為線性的,其中一定有非線性的。最常見的模型之一為(1.6)其中為回歸系數(shù),為隨機誤差。這時若>0,稱A和B之間有正交互作用;若<0,稱A和B之間有負交互作用.請看如下兩個例子當A=3.5,B=4.10時,相應兩個回歸方程的試驗指標列于圖5和圖6。我們看到兩種情形均有交互作用,且一個為正交互作用,另一個為負交互作用。兩個因素之間有交互作用時,其回歸模型不一定呈(1.6)形式,更詳細討論可參見第二章第三節(jié)。多個因素之間(超過二個因素)也可能有交互作用,該問題也將在第二章討論。1.4全面試驗和多次單因素試驗在一項試驗中,當因素和水平確定后,如何設計該項試驗呢?下面兩種方法是最容易想到的:1、全面試驗該方法將每一個因素的不同水平組合做同樣數(shù)目的試驗,例如將每個因素的不同水平組合均作一次試驗。在一項試驗中若有m個因素,它們各有在例1中,則全面試驗至少做個水平,則全面試驗至少需做次試驗。例如,次試驗。當因素的個數(shù)不多,每個因數(shù)的水平數(shù)也不多時,人們常用全面試驗的方法,并且通過數(shù)據(jù)分析可以獲得較為豐富的結果,結論也比較精確。當因數(shù)較多,水平數(shù)較大時,全面試驗要求較多的試驗。例如,有六個因素,每個因素都是五水平,則至少需次試驗,這個數(shù)目太大了,對絕大多數(shù)場合,做這么多次試驗是不可能的。因此,我們需要一種試驗次數(shù)較少,效果又與全面試驗相近的試驗設計方法。2、多次單因素試驗這個方法在工程和科學試驗中常被人們所采用,現(xiàn)以例1來說明這個方法。例1試驗的目的是要尋找好的工藝使得化學反應后的得率最高。為介紹簡單計,設試驗誤差較小,故不作重復試驗(即在同一試驗條件下將試驗重復多次)。設先將時間和加堿量固定,變化溫度,試驗結果如下:B=90分80℃85℃90℃C=5%33%70%64%其中33%,70%和64%為得率,三次試驗中,以70%為最高,故溫度85°為最佳。第二步固定溫度和加堿量,變化時間,其試驗結果如下:A=85℃C=5%90分120分150分70%73%59%以反應時間為120分最佳。下一步是固定時間和溫度,變化加堿量,獲得如下結果:A=85℃5%6%7%B=120分73%75%68%以加堿量75%為最佳,于是有人就得出結論:最佳工藝為A=80℃,B=120分,C=6%。當因素之間沒交互作用時,這個結論是正確的;當因素之間有交互作用時,該結論一般不真,今設例1的因素間有交互作用,在上述試驗的基礎上,若我們固定B=120分,C=6%,變化因素A并獲得如下結果:B=120分C=6%80℃85℃90℃46%75%78%發(fā)現(xiàn)有更好的工藝條件。這時我們發(fā)現(xiàn)溫度的效應是依賴于因素B和C的,當B=90分,C=5%時,溫度以85℃為佳,而當B=120分,C=6%時,溫度以90℃為佳,這種現(xiàn)象表明溫度和其他兩因素間有交互作用。當因素間有交互作用時,用上述方法不一定能選到最好的工藝條件。例如,例1的試驗應當繼續(xù)按原來的方法做下去:A=90℃C=6%90分120分150分73%78%84%發(fā)現(xiàn)工藝條件A=90℃,B=120分,C=6%為最優(yōu)工藝條件且似乎已不能改進。如果我們將27個工藝組合進行全面試驗,發(fā)現(xiàn)當工藝條件為A=90℃,B=150分,C=7%時得率可達82%,而這個工藝條件沒有為上面的試驗方法所發(fā)現(xiàn)。因此,多次單因素試驗法有局限性。特別是,當因素的數(shù)目和水平數(shù)更多時,常常會得到錯誤的結論,不能達到預期的目的。1.5正交試驗法(正交設計)這是目前最流行,效果相當好的方法。統(tǒng)計學家將正交設計通過一系列表格來實現(xiàn),這些表叫做正交表。例如表2就是一個正交表,并記為,這里“L”表示正交表“9”表示總共要作9次試驗,“3”表示每個因素都有3個水平,“4”表示這個表有4列,最多可以安排4個因素。常用的二水平表有三水平表有四水平表有;五水平表有等。還有一批混合水平的表在實際中也十分有用,如等。例如表示要求做16次試驗,允許最多安排三個“4”水平因素,六個“2”水平因素。表2正交表L9(34)No.1111122233321231231233123231212412331223123456789若用正交表來安排例1的試驗,其步驟十分簡單,具體如下:(1)選擇合適的正交表。適合于該項試驗的正交表有等,我們取,因為所需試驗數(shù)較少。(2)將A,B,C三個因素放到(3)將A,B,C三例的“1”,“2”,“3”變?yōu)橄鄳蛩氐娜齻€水平。(4)9次試驗方案為:第一號試驗的工藝條件為A1(80℃),B1(90分),C1(5%);的任意三列的表頭上,例如放在前三列。第二號試驗的工藝條件為A1(80℃),B2(120分),C2(6%)…。這樣試驗方案就排好了。該例的進一步討論請參考文獻[25]。表3正交試驗方案No.1ABC80℃80℃80℃85℃85℃85℃90℃90℃90℃90分5%6%7%6%7%5%7%5%6%2120分150分90分120分150分90分345678120分150分9在表3的正交試驗設計中,可以看到有如下的特點:1)每個因素的水平都重復了3次試驗;2)每兩個因素的水平組成一個全面試驗方案。這兩個特點使試驗點在試驗范圍內排列規(guī)律整齊,有人稱為“整齊可比”。另一方面,如果將正交設計的9個試驗點點成圖(圖7),我們發(fā)現(xiàn)9個試驗點在試驗范圍內散布均勻,這個特點被稱為“均勻分散”。正交設計的優(yōu)點本質上來自“均勻分散,整齊可比”這兩個特點。有關正交設計的詳細討論可參看文獻[24—26,30]。1.6均勻設計每一個方法都有其局限性,正交試驗也不例外,它只宜于用于水平數(shù)不多的試驗中。若在一項試驗中有s個因素,每個因素各有q水平,用正交試驗安排試驗,則至少要作個試驗,當q較大時,將更大,使實驗工作者望而生畏。例如,當q=12時,=144,對大多數(shù)實際問題,要求做144次試驗是太多了!對這一類試驗,均勻設計是非常有用的。所有的試驗設計方法本質上就是在試驗的范圍內給出挑選代表點的方法。正交設計是根據(jù)正交性準則來挑選代表點,使得這些點能反映試驗范圍內各因素和試驗指標的關系。上節(jié)我們提及正交設計在挑選代表點時有兩個特點:均勻分散,整齊可比。“均勻分散”使試驗點有代表性;“整齊可比”便于試驗數(shù)據(jù)的分析。為了保證“整齊可比”的特點,正交設計必須至少要求做q2次試驗。若要減少試驗的數(shù)目,只有去掉整齊可比的要求。均勻設計就是只考慮試驗點在試驗范圍內均勻散布的一種試驗設計方法,其原理將在第三章給出。均勻設計和正交設計相似,也是通過一套精心設計的表來進行試驗設計的。附錄Ⅰ給出了41個均勻設計表和相應的使用表。表4、表5和表6就是其中的三個。每一個均勻設計表有一個代號,或其中“U”表示均勻設計,“n”表示要做n次試驗,“q”表示每個因素有q個水平,“s”表示該表有s列。的右上角加“*”和不加“*”代表兩種不同類型的均勻設計表。通常加“*”的均勻設計表有更好的均勻性,應優(yōu)先選用。例如表示要做次6試驗,每個因素有6個水平,該表有4列。每個均勻設計表都附有一個使用表,它指示我們如何從設計表中選用適當?shù)牧校约坝蛇@些列所組成的試驗方案的均勻度。表7是的使用表。它告訴我們,若有兩個因素,應選用1,3兩列來安排試驗;若有三個因素,應選用1,2,3三列,…,最后1列D表示刻劃均勻度的偏差(discrepancy),偏差值越小,表示均勻度越好。例如由附錄A1.3和A1.4的兩個均勻設計今有兩個因素,若選用的1,3列,其偏差D=0.2398,選用表和及它們的使用表來安排試驗,的1,3列,相應偏差D=0.1582,后者較小,應優(yōu)先擇用。有關D的定義和計算將在第三章介紹。當試驗數(shù)n給定時,通常表比表能安排更多的因素。故當因素s較大,且超過的使用范圍時可使用表。表41123456224613533625144654321123456表5112345672246135733625147465432171234567如上所述,表最多可以安排四個因素的試驗。若用正交表安排三個6水平因素,至少要采用,該表最多能安排三個因素,可要做36次試驗,而兩個表的偏差一個為0.1875(參見表23),相差并不十分大。由此例可見均勻設計的優(yōu)點。,另一個為0.1597表6112345672361472535274163476543211234567表7的使用表S234列11號D3220.18750.26560.29903314均勻設計有其獨特的布(試驗)點方式,其特點表現(xiàn)在:1)每個因素的每個水平做一次且僅做一次試驗。2)任兩個因素的試驗點點在平面的格子點上,每行每列有且僅有一個試驗點。如表第三列點成圖8(a).的第一列和性質1)和2)反映了試驗安排的“均衡性”,即對各因素,每個因素的每個水平一視同仁。3)均勻設計表任兩列組成的試驗方案一般并不等價。例如用的1,3和1,4列分別畫圖,得圖8(a)和圖8(b)。我們看到,(a)的點散布比較均勻,而(b)的點散布并不均勻。均勻設計表的這一性質和正交表有很大的不同,因此,每個均勻設計表必須有一個附加的使用表。4)當因素的水平數(shù)增加時,試驗數(shù)按水平數(shù)的增加量在增加。如當水平數(shù)從9水平增加到10水平時,試驗數(shù)n也從9增加到10。而正交設計當水平增加時,試驗數(shù)按水平數(shù)的平方的比例在增加。當水平數(shù)從9到10時,試驗數(shù)將從81增加到100。由于這個特點,使均勻設計更便于使用。均勻設計表還有一些其它的特點,在第三章將進一步介紹。1.7均勻設計表的使用本節(jié)介紹如何利用均勻設計表來安排試驗。其步驟和正交設計很相似,但也有一些不同之處。通常有如下步驟:1)根據(jù)試驗的目的,選擇合適的因素和相應的水平。2)選擇適合該試驗的均勻設計表,然后根據(jù)該表的使用表從中選出列號,將因素分別安排到這些列號上,并將這些因素的水平按所在列的指示分別對號,則試驗就安排好了。例2(本例來自文獻[1])在阿魏酸的合成工藝考察中,為了提高產量,選取了原料配比(A)、吡啶量(B)和反應時間(C)三個因素,它們各取了7個水平如下:原料配比(A):1.0,1.4,1.8,2.2,2.6,3.0,3.4吡啶量(B)(ml):10,13,16,19,22,25,28反應時間(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5根據(jù)因素和水平,我們選取均勻設計表或。由它們的使用表中可以查到,當s=3時,兩個來安排該試驗,其試驗方案列于表8。該方案是將表的偏差分別為0.2132和0.3721,故應當選用A,B,C分別放在表的后3列而獲得的。表8制備阿魏酸的試驗方案和結果No.配比(A)吡啶量(B)反應時間收率(Y)(C)1.5(3)3.0(6)1.0(2)2.5(5)0.5(1)2.0(4)3.5(7)12345671.0(1)1.4(2)1.8(6)2.2(1)2.6(5)3.0(6)3.4(7)13(2)19(4)25(6)10(1)16(3)22(5)28(7)0.3300.3360.2940.4760.2090.4510.482表9制備阿魏酸的試驗方案和結果No.1234567配比(A)吡啶量(B)反應時間(C)收率(Y)0.3300.3360.2940.4760.2090.4510.4821.0(1)1.4(2)1.8(3)2.2(4)2.6(5)3.0(6)3.4(7)13(2)19(4)25(6)10(1)16(3)22(5)28(7)1.5(3)3.0(6)1.0(2)2.5(5)0.5(1)2.0(4)3.5(7)由于表是最近由方開泰和李久坤[14]獲得的,故文獻[1]使用的是均勻設計表,他們的試驗方案列于表9。根據(jù)試驗方案進行試驗,其收率(Y)列于表9的最后一列,其中以第7號試驗為最好,其工藝條件為配比3.4,吡啶量28ml,反應時間3.5h。下章將通過統(tǒng)計分析(其中最主要是回歸分析),可以發(fā)現(xiàn)更好的工藝條件。第二章回歸分析簡介及其在均勻設計中的應用回歸分析是數(shù)據(jù)分析的有力工具,它能揭示變量之間的相互關系,因此在均勻設計的數(shù)據(jù)分析中成為主要的手段,回歸分析方法和理論十分豐富,有關書籍數(shù)以百計,這里僅作一梗概介紹,細節(jié)可以參看有關書籍,如[26,29,30]數(shù)據(jù)處理可使用統(tǒng)計軟件包SAS,SPSS,MINITAB,BMDP,S等,國內許多部門如中國均勻設計學會為均勻設計及其數(shù)據(jù)分析制作了專用統(tǒng)計軟件包,使用更為方便。2.1一元線性回歸模型由于均勻設計的數(shù)據(jù)分析要利用回歸分析,因此需要對回歸分析作一扼要介紹。一元線性回歸是處理兩個變量之間關系的最簡單的模型。本章將詳細討論這個模型。一元線性回歸雖簡單,但從中可以了解回歸分析方法的基本思想/方法和應用。我們首先通過一個例子說明如何建立一元線性回歸方程。例3為了估計山上積雪融化后對下游灌溉的影響,在山上建立了一個觀測站,測量了最大積雪深度(X)與當年灌溉面積(Y),得到連續(xù)10年的數(shù)據(jù)于下頁表中。為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,我們把各年最大積雪深度作橫坐標,相應的灌溉面積作縱坐標,將這些數(shù)據(jù)點標在平面直角坐標圖上,如圖9,這個圖稱為散點圖。從圖9看到,數(shù)據(jù)點大致落在一條直線附近,這告訴我們變量X與Y之間的關系大致可看作是線性關系,從圖9還看到,這些點又不都在一條直線上,這表明X與Y的關系并沒有確切到給定X就可以唯一地確定Y的程度。事實上,還有許多其他因素對Y產生影響,如當年的平均氣溫,當年的降雨量等等,這些都是影響Y取什么值的隨機因素。如果我們只研究X與Y的關系,可以假定年序最大積雪深度X(尺)灌溉面積Y(千畝)12345678915.210.421.218.626.423.413.516.724.019.128.619.340.535.648.945.029.234.146.737.410有如下結構式:Y=α+βX+ε(2.1)式中α,β稱為回歸系數(shù),X為自變量,Y為因變量,ε表示隨機誤差,常常假定ε遵從正態(tài)分布N(0,σ2),這表示誤差為正和負的機會一樣多,σ2表示誤差的大小。式中α,β,σ2通常是未知的,它們要通過數(shù)據(jù)的信息來估計。設{(),i=1,…n}為一組數(shù)據(jù),若用回歸方程(2.1)來擬合,則當X=時的估計值為(2.2)自然,我們希望求α和β使與很接近.也就是說,我們要決定一條直線,使其與所有的點都比較接近,最流行求α,β估計值的辦法是用最小二乘法,令(2.3)最小二乘法是求α和β使Q達極小,使Q達極小的α和β值記為a和b.利用微積分中求極值的辦法求得(2.4)式中(2.5)利用這些公式到例3,得于是b=415.606/230.656=1.802a=36.53-1.802×18.88=2.511從而回歸方程為讀者試將該直線畫在圖9上,可以看到擬合的效果是不錯的,衡量擬合效果的好壞,如下的方法是十分有用的。(a)相關系數(shù)相關系數(shù)用于描敘變量X和Y的線性相關的程度,并常用r來表示,r的值介于[-1,1]之間,它的意義由圖10可以知道。r的絕對值越接近于1表示X和Y之間的線性關系越密切;r〉0,兩者呈正比關系,叫正相關;r〈0兩者呈負相關。r的值接近于0,兩者沒有線性相關關系。圖10中(c)表示X和Y沒有任何關系,(d)表示X和Y有非線性相關關系,r的計算公式為(2.6)式中(2.7)對例3=764.861r=415.605/=0.9894后者很接近于1,故最大積雪深度與灌溉面積有很密切的線性相關關系,且是正相關.但是,相關系數(shù)有一個缺點,就是它接近1的程度與樣本的組數(shù)n是有關的,當n較小時,相關系數(shù)的絕對值容易接近于1,當n較大時,相關系數(shù)的絕對值容易偏小。特別當n=2時,因為兩點決定一條直線,所以相關系數(shù)的絕對值總為1,在許多統(tǒng)計書中[29]給出相關系數(shù)的起碼值,當相關系數(shù)的絕對值大于表中之值時才可以認為X和Y有線性關系。此例當顯著性水平α=1%時,表中的起碼值為0.765,今計算r=0.9894>0.765,故最大積雪深度與灌溉面積有高度的線性關系。在有些統(tǒng)計軟件中,常給出,這時便于區(qū)別記為。(b)方差分析和F檢驗因變量的波動可用來表達,這個波動是由兩個因素造成的;一個是X的變化引起Y相應的變化,另一個是隨機誤差。前者造成Y的波動可用回歸平方和來表達,后者用殘差平方和來度量。它們分別用和來表示,從數(shù)學上可以導出(2.8)當X和Y為線性回歸模型(2.1)時,它們有如下更方便的計算公式==-(2.9)利用統(tǒng)計量F=(2.10)可以來檢驗回歸方程(2.1)是否可信.當方程可信時F〉n-2為自由度,α為顯著水平.對例3可以算得,這里為F表中的臨界值,1和=1.802×415.606=748.922=764.961-748.922=16.039F=8×748.922/16.039=373.55當α=1%時。用F值和F表上的臨界值相比,若F〉,表明Y的變化主要是由X的變化造成的,回歸方程(2.1)可信;若F值小于,回歸方程不可信。可信的程度也可分成不同等級,在本書中,α=5%時可信用“*”表示,α=1%時可信用“**”表示。上述計算結果常列成方差分析表,如表10所示。表10方差分析表方差來源回歸誤差平方和748.92216.039自由度18均方748.9222.005F顯著性**373.550總和764.9619(c)殘差分析稱為殘差,它能提供許多有用的信息,表11給出了例3的10個殘差,利用殘差可以提供如下信息:表11預報和殘差表No.1No.629.9021.00-1.30-1.7045.2126.81-0.212.392734540.7135.9950.08-0.21-0.39-1.18891032.6045.7636.921.500.940.48(i)σ之估計(2.11)給出了回歸方程的精度,它稱為殘差標準差,若隨機誤差遵從正態(tài)分布N(0,),則Y的預報落在之內的概率大約為95%,對例3可以算得=1.416,且10個均落于2×1.416之內。(ii)數(shù)據(jù)和模型之診斷由殘差之大小,可以發(fā)現(xiàn)異常(或叫離群)數(shù)據(jù),可以發(fā)現(xiàn)模型(2.1)是否合適,是否要用非線性回歸模型等,這些已形成一整套理論,稱為回歸診斷,有興趣的讀者可參見文獻[31]。2.2多元線性回歸模型當影響因變量Y的自變量不止一個時,比如有m個,…,,這時Y和X之間的線性回歸方程為(2.12)其中為回歸系數(shù),ε為隨機誤差,常假定。設為觀測值,回歸分析的首要任務是利用它們來估計和σ,它們的最小二乘估計記作求估計值需要解下面的線性方程組(2.13)其中當求得后,計算(2.14)回歸方程(2.12)建立后,檢驗其是否可信可用方差分析,這時公式(2.8)依然有效,但方差分析表(參看表10)將成為表12之形式,其中(2.15)表12方差分析表方差來源回歸平方和自由度m均方F顯著性殘差總和n-m-1n-1它將與F的臨界值來比較,其比較的結果和結論請參見上節(jié)的討論,反映回歸精度的σ的估計公式為(2.16)類似于一元回歸相產系數(shù)r,可以定義適用于多元回歸的全關系數(shù)R,R定義)為和的相關系數(shù),或定義為(2.17)例4試用線性回歸模型(2.10)來擬合表9的試驗數(shù)據(jù)。解:這時n=7,7組觀察值為(0.330,1.0,13,1.5),(0.336,1.4,19,3.0),…(0.482,3.4,28,3.5),它們的均值和為由于,故它們不必全部列出,將它們代入到方程級(2.13)中可以解得從而a=0.3683-0.037×2.2+0.00343×19-0.077×2.0=0.201σ的估計為.于是回歸方程為(2.18)進一步對它作方差分析,其方差分析表列于表13.表13方差分析表方差來源回歸誤差自由度平方和0.0487700.0148380.063608均方0.0162570.004946F3363.29總和當α=0.05時F表的臨界值,回歸方程(2.18)不可信.這時,是否Y和三個因素之間不可能建立回歸關系呢?不是的,我們還應作進一步探討,在下節(jié)我們將繼續(xù)討論該例。2.3二次型回歸模型與變量篩選由于因變量常常有交互作用,回歸模型(2.12)不足以反映實際,于是二次型回歸模型常常為人們所采用.若有m個因素則二次型回歸模型為(2.19)其中為回歸系數(shù),ε為隨機誤差.我們看到,這時除了常數(shù)項以外,方程有m(m+3)/2項,當m=1,2,…時項數(shù)為m項數(shù)1225394145206277358449541065若使回歸系數(shù)的估計有可能,必要條件為n>1+m(m+3)/2.當m較大時,通常不能滿足這個必要條件.于是有必要從方程(2.19)中選擇貢獻顯著的項,刪除不重要的項.有時,實際問題需要考慮高階的交互作用,如等,這時篩選變量的任務就更為重要.在回歸分析中,有許多有效的篩選變量的技術,如a)前進法,b)后退法,c)逐步回歸法,d)最優(yōu)子集法(參看[25])。本章僅僅采用逐步回歸技術來篩選變量,這并不意味著逐步因歸在上述四項技術中最好的。逐步回歸是回歸分析中的一種篩選變量的技術.開始它將貢獻最大的一個變量選入回歸方程,并且預先確定兩個閾值和,用于決定變量能否入選或剔除.逐步回歸在每一步有三種可能的功能:a)將一個新變量引進回歸模型,這時相應的F統(tǒng)計量必須大于b)將一個變量從回歸模型中剔除,這時相應的F統(tǒng)計量必須小于c)將回歸模型內的一個變量和回歸模型外的一個變量交換位置。執(zhí)行功能a)和b)時要注意如下原則:設在當前步驟中有s個變量不在回歸模型中,有t個變量在回歸模型中.今欲從s個變量中挑選一個加入回歸模型之中,顯然應挑選使回歸效果最好的變量.這里回歸的效果可用方差分析表(見表10,表13)中F值來衡量,顯然我們要從s個變量中挑選一個變量使F值達到極大.類似地,若欲從t個變量中刪除一個變量使其離開回歸模型,我們就是要選擇刪除后使回歸效果最好的變量,或選擇對當前回歸模型貢獻最小的變量.如果在某一步中,既能實現(xiàn)a)又能實現(xiàn)b),兩者之和就是功能c)。大部分統(tǒng)計軟件包均有逐步回歸之功能,例如中國均勻設計學會推薦的軟件包。現(xiàn)在我們對例4繼續(xù)進行討論.設先用后退法來選變量.所謂后退法,就是開始將所有的變量全部采用,然后逐步剔除對方程沒有顯著貢獻的變量,直到方程中所有的變量都有顯著貢獻為止。仍考慮線性模型,開始三個因素全部進入方程,得(2.18).統(tǒng)計軟件包通常還會提供每個變量的t值,t值越大(按絕對值計)表示該因素越重要.對例2有這表明三個因素中以變量,它們遵從(反應時間)對得率(Y)影響最大,配比次之,吡啶量最小.這些t值都是隨機分布.若取α=0.05,這時n=7,m=3,=的臨界值(0.05)=3.18.t值大于該值的因素表示對方程有顯著貢獻,否則表示不顯著.今均小于(0.05)=3.18,說明回歸方程(2.18)的三個變量至少有一個不起顯著作用.于是我們將貢獻最小的刪去,重新建立Y和及的線性回歸方程,得(2.20),三個t值分別為這時這三個t值遵從含四個自由度的t分布,臨界值為(0.05)=2.78,從而應從方程中剔除.然后對Y和建立回歸方程(2.21)相應的.因此,回歸方程(2.21)為“最終”的回歸模型.這里最終加上引號,表示并非真正的最終模型,而是在線性模型框架下的最終產物。上述的分析只發(fā)現(xiàn)對Y有顯著作用,其它兩個因素均沒有顯著作用,該結論與實際經驗不吻合,因此,猜想用線性模型不一定符合實際.于是進一步考試二次回歸模型(2.19).這時方程中有9項(不算).利用逐步回歸技術求得回歸方程如下:(2.22)其相應的。顯然,回歸方程(2.22)的效果優(yōu)于回歸方程(2.21).方程(2.22)表明,因素和交互作用對Y有顯著的影響.值得注意的是,有些人對回歸分析沒有足夠的理解,片面追求大的(或小的),致使選進方程中的項過多,使誤差自由度為1或甚至為0,這時有關的結可靠性是很差的.因此,不應片面追求大的,應選擇n稍大的均勻設計表,使得誤差有足夠的自由度≥5。2.4應用實例均勻設計和正交設計以及其他試驗設計方法一樣,在工農業(yè)生產和科學實驗中有廣闊的應用前景,本文的文獻中列舉了部分應用成果,其中有些成果成績顯著.更多的成果有待搜集.均勻設計不但在國內得到廣泛應用,在彼得格勒和香港也已開花結果.本節(jié)選擇香港浸會學院生物系的一項試驗,供讀者參考。例5為了研究環(huán)境污染對人體的危害,今考核六種金屬的含量:鎘(Cd),銅(Cu),鋅(Zn),鎳(Ni),鉻(Cr),鉛(Pb),每種金屬含量分別取了17個水平(百萬分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20.今欲考慮這些金屬含量(包括它們的交互作用)對老鼠壽命的影響,該試驗考核老鼠身上某種細胞的死亡率.它們選用表,根據(jù)使用表的指示,它們選用了表中1,4,6,10,14,15列來安排六個因素,其試驗方案如表14所示.試驗的結果為死亡率.為了了解試驗誤差,提高結論的精度,他們在同一試驗條件下將試驗重復三次,三次結果()列于表15,三次死亡率的均值為,列于表15的最后一列.我們看到第17號試驗的死亡率為最高,因為這時六種金屬都是最高含量,表明這些金屬對老鼠細胞確有致命作用。現(xiàn)進一步用回歸分析來分析數(shù)據(jù).由于每種金屬的含量由0.01(ppm)變到20(ppm),最大得出小相差2000倍,于是直接用各因素的水平值作回歸不易獲得好的結果,通常要對水平值先作變換,用變換后的數(shù)據(jù)進行回歸.最常見的變換是取對數(shù).于是回歸分析中的自變量成為logCd,logCu,logZn,logNi,logCr和logPb.根據(jù)以往經驗,知道六種金屬間有交作用,故應選用二次型回歸模型,并用逐步回歸來篩選變量.用同樣的和,對表14環(huán)保試驗方案No12345678CdCuZnNiCrPb0.010.050.10.20.40.81.02.04.00.22.010.018.00.11.08.016.00.050.80.810.00.011.012.00.052.014.00.14.016.00.25.018.00.48.05.00.112.00.818.04.00.0510.00.416.02.00.018.00.214.01.014.08.02.016.012.08.04.01.00.40.0518.012.05.01.00.20.0116.010.04.00.80.10.40.10.0118.014.010.05.02.00.80.20.0220.0910111213141516175.08.05.010.012.014.016.018.020.014.00.010.44.012.020.020.020.020.0和分別進行逐步回歸,發(fā)現(xiàn)四組數(shù)據(jù)的結果非常吻合,表明試驗誤差不大,該試驗可以獲得可靠結論。為節(jié)省篇幅,我們僅列出對的回歸方程=32.68+5.03LogCd+3.84LogCu+2.03LogNi+0.55(LogCu)-0.63(LogZn)+0.94(LogNi)+0.53(LogCd)(LogCu)-0.70(LogCd)(LogCr)+0.92(LogCu)(LogPb)方程中每一項的t值分別為(常數(shù)項t值未列)11.5,7.8,4.9,2.6,-3.4,4.1,2.4,-2.8,5.3,它們均遵從分布,因(0.05)=2.365小于上述所有t值之絕對值,故方程可信。表15死亡率17.9522.0931.7439.3731.9031.1439.8142.4824.9750.2960.7167.0132.7729.9467.8755.5679.5717.6522.8532.7940.6531.1830.6639.6141.8624.6551.2260.4371.9930.8628.6869.2555.2879.4318.3322.6232.8737.8733.7531.1840.8043.7925.0550.5459.6967.1233.7030.6667.0456.5278.4817.922.532.439.332.231.040.042.724.850.660.268.732.429.768.055.779.1由方程我們可以給出如下結論:a)Cd,Cu和Ni含量過高,對老鼠細胞的死亡率有顯著作用,b)金屬Cd和Cu,Cd和Cr,Cu和Pb有交互作用,其中Cd和Cu,Cu和Pb對死亡率起正交互作用,而Cd和Cu對死亡率起負交互作用,c)Zn可能會中和其它金屬的破壞作用,降低老鼠細胞的死亡率,有興趣的讀者可以作更為詳盡的分析。2.5尋求最優(yōu)工藝條件試驗設計的目的通常主要有二個,一是揭示變量(Y)與各因素之間的定性關系,二是尋求最優(yōu)工藝條件,回歸方程的建立可以達到一箭雙雕的目的。現(xiàn)以例2來說明如何尋求最好的工藝條件,表9告訴我們,第7號試驗是7次試驗中最好工藝條件,即配比3.4,吡啶量28,反應時間3.5,這個工藝條件和最優(yōu)工藝條件常常是很接近的。在上述討論中,我們最終建立了回歸模型(2.22)。該方程一般僅在試驗范圍內成立,即配比1.0-3.4,吡啶量10-28,反應時間0.5-3.5。尋求最優(yōu)模型等價于在這個范圍內求方程(2.22)中的極大值。如果回歸方程比較復雜,可以用任何一個優(yōu)化算法(參見文獻[33,34])來求最佳工藝條件,許多軟件包都含有優(yōu)化算法。數(shù)論方法也可以用來求的極大值,方開泰和王元提出了一個序貫算法SNTO,可以方便地求得的極大值,鑒于篇幅,這里就不詳細介紹了,有興趣的讀者可以參看文獻[16]。對例2來講,可以用簡單的微積分求得極值,由于X在試驗范圍內恒正,故由(2.22)知X越大,越高,故X應取試驗范圍內極大值3.4。將X=3.4代入(2.22)得令,解得0.3309-0.12=0,=2.7575,這時的極大值為51.85%。工藝條件=3.4,=2.7575并未出現(xiàn)在原有試驗方案中,故應在這個條件追加試驗,由于的最佳條件在試驗范圍邊界,故應擴大試驗范圍。對于許多實際工作者,不一定熟悉優(yōu)化方法,手邊沒有優(yōu)化的軟件。他們也不一定知道SNTO,也可能不會用微積分去求解極值。下面介紹一種“笨”辦法,其計算量較大,但程序好編。這種方法將每個因素的試驗范圍均勻打網格,比較這些網格上的值,從而可以近似求得的近似最大(或最小)值。現(xiàn)仍以例2來說明,將在區(qū)間[1.0,3.4]每0.1劃一個點,在[0.5,3.5]區(qū)間中也是每0.1劃一個點,這樣和將范圍劃成25×31=775個網格點,在其上按(2.22)來計算值,并求出775個中最大者。經計算量大的=0.5184,在=3.4,=2.8處達到,和上面用微積分的方法求得的結果很接近,如果=3.4,=2.8附近繼續(xù)搜索,將網格打細,其解可以更接近真正解=3.4,=2.7575。我們在第三章均勻設計表的構造和運用本章介紹均勻設計表的構造和使用表的來源,其中均勻性度量──偏差將起關鍵作用,我們將介紹偏差的定義,并給出正交設計與均勻設計各自偏差的比較,從中可以了解為什么均勻設計可以比正交設計節(jié)省試驗次數(shù),本章還介紹擬水平在均勻設計中的使用和有關表的構造,熟悉本章內容對于正確理解和使用均勻設計有很大幫助。3.1均勻設計表的構造定義1每一個均勻設計表是一個方陣,設方陣有n行m列,每一行是{1,2,...,n}的一個置換(即1,2,…,n的重新排列),表的第一行是{1,2,…,n}的一個子集,但不一定是真子集。顯然,第一章表4-6列舉的U(64),U(74)和U(7)都符合上述定義。符合定義1的均勻設計表數(shù)量太多,本節(jié)僅介紹用好格子點法(goodlatticepoint)構造的均勻設計表,其方法如下:1)給定試驗數(shù)n,尋找比n小的整數(shù)h,且使n和h的最大公約數(shù)為1。符合這些條件的正整數(shù)組成一個向量h=(h,…,h)。2)均勻設計表的第j列下法生成[modn](3.1)這里[modn]表示同余運算,若jh超過n,則用它減去n的一個適當倍數(shù),使差落在[1,n]之中。U可以遞推來生成(3.2)例如,當n=9時,符合條件1)的h有1,2,4,5,7,8;而h=3或h=6時不符合條件1),因為最大公約數(shù)(3,9)=3,(6,9)=3,均大于1.所以最多只可能有6列,又如當時,用公式(3.2)來生成該列時其結果依次如下:其結果列于表16的第三列。表16112345678922468135793483726159451627384957531864296876543219123456789用上述步驟生成的均勻設計表記作,向量h稱為該表的生成向量,有時為了強調h的作用,可將記成.給定n,相應的h可以象上例那樣方便地求得,從而m也就確定.所以m是n的一個函數(shù),這個函數(shù)曾由大數(shù)學家歐拉研究過,稱為歐拉函數(shù),記為E(n).這個函數(shù)告訴我們均勻設計表最多可能有多少列.下面的結果來自數(shù)論:i)當n為素數(shù)時,E(n-1)=n-1所謂素數(shù)就是一個正整數(shù),它與其所有比它小的正整數(shù)的最大公約數(shù)均為1.如2,3,4,5,11,13,…均為素數(shù)。ii)當n為素數(shù)冪時,即n可表成n=,這里p為素數(shù)l,l為正整數(shù),這時(3.3)例如n=9可表為,于是即至多可以有6列。iii)若n不屬于上述兩種情形,這時n一定可以表為不同素數(shù)的方冪積,即(3.4)這里為不同的素數(shù),為正整數(shù),這時…(3.5)例如n=12可表為n=,于是即最多只可能有4列。上述三種情形中,以素數(shù)情形為最好,我們最多可以獲得n-1列,而非素數(shù)情形,在上述表的結構中永遠不可能有n-1列,例如n=6=,這說明,當n=6時,用上述辦法生成的均勻設計表只有2列,即最多只能安排兩個因素,這是太少了,為此,王元,方開泰(1981)建,為了區(qū)別于由(3.2)生成的均勻設計表,我們記它為列于表17,對照表16我們看到U表和,此時議,可將表的最后一行去掉來構造,在U的右上角加一個“*”號,表表之間的關系和各自特點:i)所有的表是由表中劃去最后一行而獲得;ii)表的最后一行全部由水平n組成,表的最后一行則不然。若每個因素的水平都是由低到高排列,表中最后一號表17No.121123224633624415553166543456456135514263642321試驗將是所有最高水平相組合,在有些試驗中,例如在化工試驗中,所有最高水平組合在一起可能使反應過分劇烈,甚至爆炸。反之,若每個因素的水平都是由高到低排列,則有低水平的組合,有時也會出現(xiàn)反常現(xiàn)象,甚至化學反應不能進行。排試驗。表中最后一號試驗將是所表則沒有類似現(xiàn)象,比較容易安iii)若n為偶數(shù),表比表有更多的列。如上面討論過的表只有2列,而表可以有6列。iv)若n為奇數(shù),則表列數(shù)通常少于表。v)表比表有更好的均勻性,應優(yōu)先采用表,其細節(jié)將在下節(jié)討論。vi)若將或的元素組成一個矩陣的秩最多分別為及。本書附錄I,列出了2≤s≤7,5≤n≤31,及n=37的表或表,供使用時選擇,為了節(jié)省篇幅,凡使用表中沒有推薦的列我們就沒有列出。3.2均勻性準則和使用表的產生在第一章1.6節(jié)我們曾指出均勻設計在使用時由于選擇的列不同,試驗的效果也大不相同,于是建議讀中選出s列,種可能,我們要從中選擇一個最好的,這里必須對“好”和“壞”有明確的含義,表所唯一確定的,選擇s列,本質上就是從h中選擇s個,這是一個n×s矩陣。它的每一行是s維空間故n行對應中的n個點,若這n個點在試驗范圍內均勻,則試驗效果好,否則試驗效果不好。因此,比者按使用表的推薦去選列,那么使用表又是如何產生的呢?設我們要從均勻設計表則可能的選擇有是由它的生成向量,由這s個數(shù)生成的均勻設計表為中的一個點,較兩個均勻設計表和的好壞等價于比較由它們所對應的兩組點集的均勻性。于是我們必須給出均勻性度量。度量均勻性準則很多,其中偏差(discrepancy)是使用歷史最久,為公眾所廣泛接受的準則,我們先給出它的定義。設是一個均勻設計表,若把它的每一行看成m維空間的一個點,則給出了n個試驗點,這些點的坐標由{1,2,…,n}組成,用線性變換將{1,…,n}均勻地變到(0,1)之間如下:若用qki表示中的元素,則上面的變換等價于令(3.6)于是n個試驗點變換成中的n個點:.考慮原n個試驗點的均勻性,等價于考核在的均勻性。定義2設為中的n個點,任一向量,記為矩形[0,x]的體積,為中落入[0,x]的點數(shù),則(3.7)稱為點集在中的偏差(discrepancy)。為什么偏差可以用于度量點集散布的均勻性呢?若n個點在中散布均勻,則表示有多少比例的點落在矩形[0,x]中,它應當和該矩形的體積v(x)相差不會太遠。如果用統(tǒng)計學的語言來解釋偏差,令(3.8)表示的經驗分布函數(shù),式中I{.}為示性函數(shù),令F(x)為上均勻分布的分布函數(shù),于是(3.7)定義的偏差可表為(3.9)偏差實際上就是在分布擬合檢驗中的Kolmogorov-Smirnov統(tǒng)計量,它給出了經驗和理論分布之間的偏差。在中任給n個點,如何計算它們的偏差對均勻設計表的構造十分重要.長期以來,一直沒有人擔出一個實用的算法.當我們在1978年提出均勻設計時,我們只好把偏差展開成級數(shù),取其首項,給出近似偏差的準則.我們的方法方便計算,但有時有大的偏差,而且只適用于好格子點法構造的均勻設計,不能計算正交設計等其它方法所產生試驗點的偏差,最近Bundschuh和Zhu(朱堯辰)[17]給出了計算偏差的算法,當因素數(shù)不太多時,他們的算法可以精確地求出任何點集的偏差.我們已用MATLAB編出有關的程序,本書中的計算,都是用該程序獲得的。設我們要從均勻設計表中選出s列,使其相應的均勻設計有最小的偏差.當m和s較大時,由m列中取出s列的數(shù)目有之多,要比較這么多組點集的均勻性工作量很大.于是需要有簡化計算和近似求解的方法.詳細討論可參看方開泰[2],方開泰、鄭胡靈[12]等.這里僅僅介紹利用整數(shù)的同余冪來產生的辦法。令a為小于n的整數(shù),且a,a2(modn),…,at(modn)互不相同,at+1=1(modn),則稱a對n的次數(shù)為t,例如(mod5)則2對5的次數(shù)為3.又如(mod9)表示3對9的次數(shù)為4.一般若a對n的次數(shù)大于或等于s-1,且(a,n)=1,則可用(modn)(3.10)作為生成向量,故a稱為均勻設計的生成元.然后在一切可能的a(最多n-1個)中去比較相應試驗點的均勻性,工作量則大大減少.理論和實踐證明,這種方法獲得的均勻設計使用表仍能保證設計的均勻性.于是,給定n和s,只要求得最優(yōu)的a,便可獲得生成向量,從而獲得相應的均勻設計表。表18對奇數(shù)n(5≤n≤31,n=37)給出了表的生成元及其相應均勻設計的偏差.同時對偶數(shù)n(6≤n≤30)給出了表的生成元和相應的偏差.類似地,對奇數(shù)n,我們也獲得表的生成向量和相應均勻設計表的偏差(表19).表18和19的結果取自FangandLi[14].綜合兩個表的結果,我們有如下的說明。i)對奇數(shù)n,表比表有更好的均勻性,例如n=15,s=4時,U15(154)的偏差為D=0.2772,而的偏差為D=0.1511,后者比前者相對降低了表19中p%一列給出了所有情形偏差降低的百分比.為了直觀起見,我們將表18和表19的偏差點成圖11.我們按s=2,3,4,5分成四個圖.圖中“+”表示奇數(shù)n的表的偏差,“*”表示偶數(shù)表18和的生成元和相應設計的偏差n23456756782(.3100)3(.1875)3(.2398)4(.1445)4(.1944)7(.1125)7(.1634)5(.1163)5(.1405)11(.0957)11(.1233)10(.0908)11(.1099)8(.0779)8(.0990)13(.0947)13(.0947)9(.0677)17(.0827)11(.0586)11(.0764)16(.0588)20(.0710)18(.0545)2(.4570)3(.2656)3(.3721)4(.2000)4(.3102)7(.1681)7(.2649)6(.1838)6(.2308)7(.1455)7(.2043)5(.1262)10(.1832)9(.1394)8(.1660)5(.1363)10(.1581)17(.1108)15(.1397)6(.1031)11(.1294)10(.1136)20(.1205)7(.0935)3(.2990)3(.4760)2(.2709)2(.4066)5(.2236)7(.3528)6(.2233)6(.3107)7(.2091)7(.2772)5(.1705)10(.2501)9(.1754)14(.2277)10(.1915)10(.2089)17(.1392)17(.1930)6(.1441)11(.1793)5(.1311)20(.1673)7(.1074)9101112131415161718192021222324252627285(.2414)7(.4286)4(.2272)6(.3814)7(.2994)7(.4942)6(.2670)6(.4439)6(.2768)6(.4992)5(.2070)10(.3111)4(.2047)10(.2518)10(.3667)3(.2245)14(.3368)10(.2010)10(.3113)17(.1930)17(.2893)12(.2064)4(.2701)2(.2769)10(.4174)9(.2247)14(.3850)14(.2845)10(.2012)10(.2620)17(.1827)11(.2428)12(.1758)11(.2261)5(.1683)11(.2195)11(.3328)12(.2198)9(.3115)5(.1967)16(.2927)7(.1550)16(.1828)16(.2533)7(.1578)20(.2115)16(.1381)2930313723(.0663)22(.0519)14(.0622)17(.0524)9(.1128)22(.0888)12(.1060)23(.0931)_7(.1596)18(.1325)22(.1477)17(.1255)16(.1987)18(.1465)12(.1874)7(.1599)16(.2384)18(.1621)12(.2251)7(.1929)16(.2760)11(.1924)22(.2611)7(.2245)表19奇數(shù)n的表的生成向量和相應設計的偏差n7s生成向量(1,5)(3,5,7)(1,3)(3,7,9)(1,5)(5,7,11)(1,9)(1,9,11)(1,5,9,11)(1,7)(1,5,13)(1,5,9,13)(5,7,9,11,15)(1,7)(1,7,13)(7,11,13,17)Dp%232323234234523423452345234523452345234523450.15820.21320.15740.19800.11360.23070.09620.14420.20760.08330.13610.15110.20900.08560.13310.17850.07550.13720.18070.18970.06790.11210.13810.17590.06380.10290.13100.16910.05880.09750.12100.15320.06000.10090.11890.13780.05200.09140.10500.17300.05540.09080.11000.143134.0342.7019.0336.1730.3912.9131.5337.5233.1832.4433.3845.4924.6022.1127.3528.6323.7417.3520.6433.3228.3029.1033.8932.8629.6226.3432.1230.3523.0424.6532.5232.2415.4916.2728.9334.8516.2718.9734.2112.9310.9314.3425.5223.6491113151719(1,9)(1,3,11)(1,3,7,11)(7,9,11,13,19)(1,13)212325272931(1,7,9)(1,5,7,13)(1,9,13,17,19)(1,17)(11,17,19)(1,7,13,19)(11,13,17,19,23)(1,11)(3,5,25)(5,7,9,25)(11,15,17,19,21)(1,11)(1,9,15)(1,11,15,25)(5,13,17,19,27)(1,19)(1,17,19)(1,17,19,23)(13,17,19,23,2)(1,9)(1,9,19)(3,13,21,27)(5,9,11,17,19)表的偏差,“0”為奇數(shù)n的表的偏差。由四個圖中也明顯看到表有更好的均勻性。ii)若n固定,當s增大時,表(或表)的偏差也隨之增大。若s固定,表的偏差隨n的增大而減小。表的偏差一般也隨n的增大而減少,但有少數(shù)例外,其原因是它們的表的可能列數(shù)E(n+1)不太多,由其中選擇s的可能組合也不多,從而最小偏差相對偏大。而iii)表18列舉的和是由生成元方法生成的,其生成向量具有(3.10)的結構,而表19的是考慮從表中選出s列的一切可能的組合,所以生成向量中不一定包含1,當然也不具有(3.10)的結構。為了使用者的方便,我已將表18和表19的結果用(或)表及其使用表形式列于本書附錄I。所以,讀者可以對照附錄I的諸表和表18,19來加強對均勻設計表構造的理解。由于在大部分情形下,因素數(shù)≤7,故附錄公僅給出s≤7的使用表,并且刪去(或)表中沒有用到的列。值得指出的是,均勻性度量的方法很多,最初王元,方開泰[3]提出了近似偏差(discrepancy)的均勻性準則,利用這個準則,他們給出了n≤31的使用表。丁元[5]利用最優(yōu)試驗設計理論中的A-最優(yōu)和D-最優(yōu)準則,給出了相應的使用表,類似于丁元的思想,張學中[23]用設計矩陣的條件數(shù)作為均勻性指標,并且對n≤31及n=53用多種準則給出了使用表,蔣聲和陳瑞琛[6,7]從幾何的觀點提出了體積距離的度量。方開泰和鄭胡靈[12]也是從幾何的角度建議用最大對稱差的條件來度量均勻性,并提出均勻性度量必須要滿足的條件,方開泰和張金廷[11]總結是納了各種均勻性準則,系統(tǒng)地討論了它們的關系和比較它們的優(yōu)劣,最終推薦了由設計矩陣所誘導矩陣的特征的方差作為均勻性標準,并且也給出了n≤31的使用表。3.3混合水平的均勻設計表由于實際情況千變萬化,在應用均勻設計時會面臨許多新情況,需要靈活加以應用。本文所列舉的文獻中,不少作者有許多巧妙的應用和建議,很值得參考。如王鵬等[21]在文中建議:a)均勻設計與調優(yōu)方法共用;b)分組試驗;c)擬水平法。本節(jié)僅介紹擬水平法在均勻設計法中的應用。若在一個試驗中,有二個因素A和B為三水平,一個因素C為二水平。分別記它們的水平為。這個試驗可以用正交表來安排,這等價于全面試驗,并且不可能找到比更小的正交表來安排這個試驗。是否可以用均勻設計來安排這個試驗呢?直接運用是有困難的,這就要運用擬水平的技術。若我們選用均勻設計表,按使用表的推薦用1,2,3前3列。若將A和B放在前兩列,C放在第3列,并將前兩列的水平合并:{1,2}1,{3,4}2,{5,6}3。同時將第3列水平合并為二水平:{1,2,3}1,{4,5,6}2,于是得設計表(表20)。這是一個混合水平的設計表。這個表有很好的均衡性,例如,A列和C列,B列和C列的表20擬水平設計No1234ABC(1)1(2)1(3)2(4)2(5)3(6)3(2)1(4)2(6)3(1)1(3)2(5)3(3)1(6)2(2)1(5)2(1)1(3)256二因素設計正好組成它們的全面試驗方案,A列和B列的二因素設計中沒有重復試驗。可惜的是并不是每一次作擬水平設計都能這么好。例如我們要安排一個二因素(A,B)五水平和一因素(C)二水平的試驗。這項試驗若用正交設計,可用表,但試驗次數(shù)太多。若用均勻設計來安排,可用。由使用表指示選用1,5,7三列。對1,5列采用水平合并{1,2}1,…,{9,10}5;對7列采用水平合并{1,2,3,4,5}1,{6,7,8,9,10}2,于是得表21的方案。這個方案中A和C的兩列,有二個(2,2),但沒有(2,1),有二個(4,1),但沒有(4,2),因此均衡性不好。表21擬水平設計No12345678ABC(1)1(2)1(3)2(4)2(5)3(6)3(7)4(8)4(9)5(10)5(5)3(10)5(4)2(9)5(3)2(8)4(2)1(7)4(1)1(6)3(7)2(3)1(10)2(6)2(2)1(9)2(5)1(1)1(8)2(4)1910表22擬水平設計No1A(1)1B(2)1C(5)123456789(2)1(3)2(4)2(5)3(6)3(7)4(8)4(9)5(4)2(6)3(8)4(10)5(1)1(3)2(5)3(7)4(10)2(4)1(9)2(3)1(8)2(2)1(7)2(1)1若選用的1,2,5三列,用同樣的擬水平技術,便可獲得表22列舉的表有10列,我們希望從中選擇三列,由該三列生成的混和水平表表,它有較好的既有均衡性。由于好的均衡性,又使偏差盡可能地小,經過計算發(fā)現(xiàn),表22給出的表具有偏差D=0.3925,達到了最小。本書附錄II給出了一批用擬水平技術而生成的混合水平的均勻設計表,由于篇幅所限,我們的表難免掛一漏萬,讀者若有需要,可直接和我們聯(lián)絡,我們樂意協(xié)助你們計算所需的混合水平表。3.4均勻設計和正交設計的比較正交設計和均勻設計是目前最流行的兩種試驗設計的方法,它們各有所長,相互補充,給使用者提供了更多的選擇。本節(jié)將討論兩種試驗設計的特點。首先正交設計具有正交性,如果試驗按它設計,可以估計出因素的主效應,有時也能估出它們的交互效應。均勻設計是非正交設計,它不可能估計出方差分析模型中的主效應和交互效應,但是它可以估出回歸模型中因素的主效應和交互效應(參見1.3節(jié))。正交設計用于水平數(shù)不高的試驗,因為它的試驗數(shù)至少為水平數(shù)的平方。我們曾遇到一項試驗,有五個因素,每個因素取31水平,其全部組合有個,若用正交設計,至少需要做次試驗,而用均勻設計只需31次,所以均勻設計適合于多因素多水平試驗。均勻設計提供的均勻設計表在選用時有較多的靈活性。例如,一項試驗若每個因素取4個水平,用來安排,只需作16次試驗,若改為5水平,則需用表,作25次試驗。從16次到25次對工業(yè)試驗來講工作量有顯著地不同。又如在一項試驗中,原計劃用均勻設計來安排五個因素,每個來安排,試驗次數(shù)只需增有13個水平。后來由于某種需要,每個因素改為14個水平,這時可用加一次。均勻設計的這個性質,有人稱為“試驗次數(shù)隨水平增加有“連續(xù)性”,并稱正交設計“有跳躍性”。正交設計的數(shù)據(jù)分析程式簡單,有一個計算器就可以了,且“直觀分析”可以給出試驗指標Y隨每個因素的水平變化的規(guī)律。均勻設計的數(shù)據(jù)要用回歸分析來處理,有時需用逐步回歸等篩選變量的技巧,非使用電腦不可。幸好電腦在我國已日趨普及,找一臺電腦已不是很困難的事。配合本書,我們已編了一套軟件,并有相應的說明。下面我們對兩種設計的均勻性作一比較。在3.2節(jié)我們曾通過線性變換將一個均勻設計表變到(0,1)中,它的n行對應于中的n點。用類似的方法,也可以將表變換為的元素中的n點。這兩個點集的偏差可以衡量它們的均勻性,或代表性。要合理地比較兩種設計的均勻性并不容易,因為很難找到二個設計有相同的試驗數(shù)和相同的水平數(shù),一個來自正交設計,另一個來自均勻設計。由于這種困難,我們從如下三個角度來比較:i)試驗數(shù)相同時的偏差的比較表23給出當因素數(shù)s=2,3,4時兩種試驗的偏差比較,其中表23實驗數(shù)相同時兩種設計的偏差OD&UDs=2s=3s=4s=50.43750.14450.57810.20000.68360.27090.30560.19440.42130.31020.51770.40660.43750.11630.57810.18380.68380.22330.76270.22720.43750.09080.57810.12620.68360.17050.76270.20700.23440.09080.33010.12620.41380.17050.48710.20700.19000.07640.27100.12940.34390.17930.40950.22610.30560.07100.4213
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全知識答題試題及答案
- 安全員c2考試試題及答案
- 2025年鄉(xiāng)村旅游項目開發(fā)與社區(qū)和諧發(fā)展研究報告
- 推進家校合作教育機制創(chuàng)新促進協(xié)
- 2025年家庭教育指導服務市場家庭教育行業(yè)品牌形象塑造報告001
- 安全工作規(guī)程試題及答案
- 心態(tài)方面的培訓課件
- 配色培訓課件圖片大全
- 藝術培訓營招生課件
- 中國歷代服裝史
- CNC機加工作業(yè)指導書
- HALCON編程基礎與工程應用全書ppt課件匯總(完整版)
- 冀教版小學美術六年級下冊教案
- 《一級學科下屬專業(yè)證明模板》
- 信陽市平橋區(qū)農村土地承包經營權轉包
- 《城市軌道交通通風與空調系統(tǒng)》教學課件—07地鐵通風空調概述
- Stein-膀胱癌淋巴清掃資料課件
- 小柳樹和小棗樹(1)
- 市場營銷學期末復習題知識分享
- 化學常用單詞匯總
- 大客戶銷售實戰(zhàn)技巧PPT
評論
0/150
提交評論