統計學入門介紹_第1頁
統計學入門介紹_第2頁
統計學入門介紹_第3頁
統計學入門介紹_第4頁
統計學入門介紹_第5頁
已閱讀5頁,還剩140頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學入門介紹第1頁,共148頁,2023年,2月20日,星期二課程大綱五、圖形分析5.1直方圖5.2箱型圖5.3散點圖5.4時間序列圖六、假設檢驗6.1假設檢驗定義及原理

6.2均值檢驗26.3方差檢驗6.4OneWayANOVA6.5TwoWayANOVA6.6比例檢驗七、相關與回歸7.1相關分析7.2回歸分析第2頁,共148頁,2023年,2月20日,星期二何為統計學3第3頁,共148頁,2023年,2月20日,星期二何為統計學統計學定義以上所有例子,都要通過各種直接或間接的手段來搜集數據,都要利用相應方法來整理和分析數據,最后通過分析得到結論。4你可以借助統計說出你想要的結論,甚至撒下謊言你可以借助統計說明世界多奇妙樣本總體抽樣/實驗推論第4頁,共148頁,2023年,2月20日,星期二統計學分析方法的類別5含義:大多以圖表方式,簡單計算等方式來對數據的分布、變化、趨勢等進行描述的統計分析方法;特點:操作簡單、直觀有效含義:研究如何根據樣本數據對統計總體特征做出以概率形式表述的推斷;特點:一般需要建模,相對復雜;經典方法:估計、假設檢驗兩大類統計分析方法描述統計方法推論統計方法一般來說,推論統計分析是在描述統計分析的基礎上進行的,兩種分析方法密不可分;統計學分析方法的類別描述統計與推論統計的聯系:第5頁,共148頁,2023年,2月20日,星期二6統計名詞總體:研究對象所有個體的集合樣本:由總體中抽取部分個體所組成的集合一般n<30稱為小樣本,n≧30則稱為大樣本總體參數:表達總體特征的指標統計量:表達樣本特征的量數,也稱樣本統計量變量:統計學研究的對象,用數據衡量,根據其特性可分為:計量值(連續型):可量化表示

---例如:高度、膜厚、溫度、CD、流量、阻值

---常用的總體參數或統計量有平均數、標準差計數值(離散型):可分類表示

---例如:人數、不合格品數、亮點數、良率

---常用的總體參數或統計量有比例第6頁,共148頁,2023年,2月20日,星期二7變量及其分布第7頁,共148頁,2023年,2月20日,星期二8變量當一個指標的取值固定為某個值時,我們稱之為常量;當一個指標的取值不固定時(多種可能性),我們稱之為變量。例如:——若用X表示32A05產品的mura檢測結果,因該結果的值可能是”OK”、”NG”等各種可能,故X為變量。——若用CD表示28”產品的CD值,因制程的波動該值也是波動的,CD值不固定,故CD為變量。變量:變量的具體取值是用數據衡量的第8頁,共148頁,2023年,2月20日,星期二9變量的數據類型變量不能連續取值,能一一列出樣本點;一般用數據表示其頻數,故用計數型數據表示變量能夠連續取值,無法一一列出樣本點;具體取值可用計量型數據表示例:某產品defect類型檢驗結果;一次擲20個硬幣,硬幣正面朝上的數量;例:28”產品的CD值;華星員工食堂吃午飯,打飯的排隊時間;離散型變量:連續型變量:第9頁,共148頁,2023年,2月20日,星期二10變量特征的測度變量特征中心趨勢分散程度眾數中位數平均值一般用μ表示一般用σ表示標準偏差全距變異數形狀特征偏態系數峰態系數第10頁,共148頁,2023年,2月20日,星期二11變量的分布

為變量X的分布函數。稱X服從例:投擲一個骰子,求點數X不超過3的概率。

解:分布離散型變量分布列連續型變量概率密度函數不同數據類型的變量用不同的方式衡量其分布狀況第11頁,共148頁,2023年,2月20日,星期二

X……P……12離散型變量的分布列對離散型隨機變量,常用以下定義的分布列來表示其分布:例:X為投擲兩個骰子的點數之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/361/36

為X的概率分布列,簡稱分布列,記為

逐一列出每個可能的取值的概率第12頁,共148頁,2023年,2月20日,星期二13練習現同時投擲兩個骰子,Y為6點的骰子個數,Z為最大點數,求隨機變量Y的分布列求隨機變量Z的分布列Y012P25/3610/361/36Z123456P1/363/365/367/369/3611/36第13頁,共148頁,2023年,2月20日,星期二14連續型變量的概率密度函數例膜厚X是一個隨機變量。假如記錄10000筆膜厚值,我們將各膜厚的頻率用直方圖形式表示出來,x軸表示膜厚,y軸表示單位長度上的頻率

對連續型隨機變量,用概率密度函數來表示其分布狀況:

即為膜厚的概率密度函數

第14頁,共148頁,2023年,2月20日,星期二

15正態分布在統計學上最重要的連續型分布是正態分布特點:正態分布的概率密度函數中間高,兩邊低,對稱的鐘型;均值=中位數=眾數m=median=mode50%50%量測值

第15頁,共148頁,2023年,2月20日,星期二16

為位置尺度,決定圖形的中心位置;為形狀尺度,決定圖形的胖瘦。

m=1

m=2

m=3

ms=1s=2s=3固定s,變動m固定m,變動s第16頁,共148頁,2023年,2月20日,星期二17正態分布的概率計算中心到各標準偏差(σ)之概率如下μ-3σμ-2σμ-σμ+σμ+2σμ+3σμ0.02150.13590.34130.34130.13590.02150.68260.95440.9973曲線以下的面積等于概率第17頁,共148頁,2023年,2月20日,星期二18正態分布的概率計算Excel計算公式如下:P(X<=15)=NORM.DIST(15,??,??,TRUE

)P(X>15)=1-P(X<=15)若已知概率(假設P(X<=z1)=0.8),求區間點Z1,則Z1=NORM.INV(p,??,??)1015

第18頁,共148頁,2023年,2月20日,星期二19練習假設1370站點CD值服從正態分布,平均值為16.5,標準差為0.5,規格為16.8~18.2求超出規格上限的概率CD大于Z的概率為0.025,求Z值求該CD值的不良率(即,超出規格的概率)第19頁,共148頁,2023年,2月20日,星期二20一般正態分布=1Z標準正態分布標準正態分布表示為任何一個一般的正態分布,可通過下面的線性變換轉化為標準正態分布標準正態分布第20頁,共148頁,2023年,2月20日,星期二21標準正態分布的概率計算Excel計算公式如下:P(X<=1.96)=NORM.S.DIST(1.96,TRUE)P(X>1.96)=1-P(X<=1.96)若已知概率(假設P(X<=Z1)=0.8),求區間點則Z1=NORM.S.INV(p)已知X服從N(0,1)分布,求X大于1.96的概率。01.96???X~N(0,1)第21頁,共148頁,2023年,2月20日,星期二22正態性檢驗第22頁,共148頁,2023年,2月20日,星期二23其他常見連續分布均勻分布指數分布例如:比如旅客進機場的時間間隔、電話通話時間電子元器件的壽命、動物的壽命許多電子產品的壽命分布一般服從指數分布f(x)=,其他0,a<x<b

0abxf(x)10abxF(x)概率密度函數l=0.5l=1l=2其中參數λ>0,記作X~Exp(λ)期望:E(X)=1/λ方差:D(X)=1/(λ^2)記作X~U(a,b)期望:E(X)=(a+b)/2方差:D(X)=(b-a)^2/12分布函數

第23頁,共148頁,2023年,2月20日,星期二24常見離散分布二項分布泊松分布一般地,在n次獨立重復試驗中,用X表示事件A發生的次數,如果單次試驗中A發生的概率是P,則不發生的概率q=1-p,N次獨立重復試驗中發生K次的概率是那么就說K服從二項分布。

記作X~B(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,…n)例如:良率的問題一般屬于二項分布泊松分布常與單位時間(單位面積、單位產品等)上的計數過程相聯系,例如:(K=1,2,3,…)泊松分布的概率分布列為:其中參數λ>0,記作X~P(λ)期望:E(X)=λ方差:D(X)=λ在單位時間內,電話總機接到用戶呼喚的次數在單位時間內,一電路受到外界電磁波的沖擊次數1平方米內,玻璃上的氣泡數單片panel上的defect數

第24頁,共148頁,2023年,2月20日,星期二25樣本均值的分布假如X1,X2,…Xn是從均值為μ,方差為σ2的正態總體中抽取的樣本值其抽樣的均值:若將其視為另外一個變量則的均值為μ,方差為且服從正態分布

總體分布

X

s第25頁,共148頁,2023年,2月20日,星期二26樣本均值的分布已知總體X~N(50,10^2),若抽取樣本,樣本均值的分布如下:X=60s=10

第26頁,共148頁,2023年,2月20日,星期二27中心極限定理不論總體為何種分布,只要樣本容量n≥30,樣本平均值的抽樣分布近似于正態分布,假設總體均值為m,標準差為s。

即,當n足夠大時,樣本均值服從

當樣本數夠大時(n≥30)

,樣本平均值的抽樣分布會趨近于正態分布一個任意分布的總體

JMP操作第27頁,共148頁,2023年,2月20日,星期二28統計量及抽樣分布第28頁,共148頁,2023年,2月20日,星期二29統計量總體樣本最常見的統計量:平均值m

標準差s

設為取自某總體的樣本,若樣本函數中不含任何未知參數,則稱T為統計量,統計量的服從的分布稱為抽樣分布。定義

統計量第29頁,共148頁,2023年,2月20日,星期二30三大抽樣分布卡方分布t分布F分布第30頁,共148頁,2023年,2月20日,星期二31卡方分布

第31頁,共148頁,2023年,2月20日,星期二32卡方分布的計算Excel計算公式:

第32頁,共148頁,2023年,2月20日,星期二33卡方統計量的構建設x1,x2,….,xn是來自N(m,s^2)的樣本,其中樣本均值和樣本方差分別為

第33頁,共148頁,2023年,2月20日,星期二34F分布

第34頁,共148頁,2023年,2月20日,星期二35F分布的計算

第35頁,共148頁,2023年,2月20日,星期二36F統計量的構建第36頁,共148頁,2023年,2月20日,星期二37t分布定義:設隨機變量X1與X2獨立且X1~N(0,1),X2~(n),則稱

的分布為自由度為n的t分布,記為t

~

t(n)。Z分布不同自由度的t分布自由度n越大,t分布越接近正態;一般n>=30,可認為正態

第37頁,共148頁,2023年,2月20日,星期二t分配受兩個變量的影響(),因此其變異會較標準正態分布來的大當t分布的自由度越大時,會越接近標準正態分布也就是說38t分布的性質Z分布不同自由度的t分布第38頁,共148頁,2023年,2月20日,星期二39t統計量的構建大部分的情況下,總體標準σ是未知的!!當σ未知,且樣本不夠大時,可以用樣本標準偏差s替代,仍可得到跟正態分布接近的性質t分布的自由度是n-1第39頁,共148頁,2023年,2月20日,星期二40t分布的計算第40頁,共148頁,2023年,2月20日,星期二41參數估計第41頁,共148頁,2023年,2月20日,星期二42估計點估計:以樣本統計量為基礎估計參數推測某一分布的母數值是多少的方法,包括點估計和區間估計。總體參數樣本統計量推算出樣本抽取估計樣本統計量總體參數xmsspP^估計請注意:點估計沒有誤差的概念,即不知道抽取的樣本之估計值與總體真值的接近程度。第42頁,共148頁,2023年,2月20日,星期二43估計估計區間估計:與點估計不同,估計參數存在的范圍(區間)

=點估計±抽樣誤差考慮了抽樣誤差置信區間的計算:a.根據一組樣本觀察值;b.給定某區間可以估計總體參數的概率;計算出總體參數的估計范圍置信水平樣本統計量

(點估計)置信下限置信上限置信區間第43頁,共148頁,2023年,2月20日,星期二44估計置信水平置信水平一般表示為(1-α),意思是總體參數落在該置信區間內的概率。總體參數()不同取樣計算出來的置信區間例如:95%的

置信區間,是指100次取樣中,求得的100個置信區間中,有95個包含總體平均。α

為顯著性水平,是總體參數未在區間內的概率,在假設檢驗中,為第一類風險;常用的置信水平(1-α)有99%,95%,90%

相對應的顯著性水平α為0.01,0.05,0.1存在總體參數不在置信區間內的風險,該風險概率為α第44頁,共148頁,2023年,2月20日,星期二45XiX1-αα/2α/2σσμμ1)總體s已知時

對平均(μ)的置信區間μ=??=10.510.5±???σ2=??s2=3.83.8±???對平均(μ)的區間估計

對變異(σ2)的的區間估計估計置信區間的計算公式1)總體s未知時

對變異(σ2)的置信區間

第45頁,共148頁,2023年,2月20日,星期二46估計置信區間的計算練習:14.65314.75414.48914.2114.37514.47114.49914.77614.33414.74現抽取10片32A05產品,每片在同一點位量測其CD1值(第一層),數據如下:請問:CD1的均值和方差的置信區間分別為多少?(取α=0.05)在JMP中創建新數據表,輸入以上數據;操作:分析分布第46頁,共148頁,2023年,2月20日,星期二47估計

JMP操作:在JMP中創建新數據表,輸入以上數據;操作:分析分布平臺選單置信區間注:默認置信水平為95%,可在平臺選單中修改置信水平現在,請嘗試用excel計算出以上結果第47頁,共148頁,2023年,2月20日,星期二常用統計分析方法匯總data型態常用統計分析方法常用圖形分析方法YX假設檢定連續單一水平1-sampleztest(σ已知)

1-samplettest(σ未知)直方圖箱型圖時間序列圖1-variancetest連續兩水平2-variancetest2-samplettest;

pairedttest連續多水平testforequalvarianceone-wayANOVA離散單一水平1-proportiontest離散兩水平2-proportiontest相關與回歸X、Y均為隨機變數相關分析散點圖X為自變量;Y為因變量回歸分析48第48頁,共148頁,2023年,2月20日,星期二圖形分析49第49頁,共148頁,2023年,2月20日,星期二圖形分析1234直方圖箱型圖散點圖時間序列圖50第50頁,共148頁,2023年,2月20日,星期二直方圖51區分data的區間,顯示分布形態和中心位置及變異,能看到連續性資料的分布模樣。直方圖用以了解一群數據之分布狀況,及其中心值與變異情形。直方圖分析目的1.觀察數據分布形態1)數據的中心位置2)數據的離散程度2.與規格的關系將產品特性值數據與規格進行比較第51頁,共148頁,2023年,2月20日,星期二形態可能原因參考對策形態可能原因參考對策一般顯示的形狀沒有異常要因的變化工程穩定多種工程條件混合存在的時候可能是測定系統問題,不能準確地讀出特定范圍的數值或避開時發生根據層別方法,將全體散布分為許多互相不同的工程條件下進行作業時,如不同機臺、不同班別、不同原材料等即規格值的下限抑制時,不取某值以下的值備注:右偏型同理為擴展Data幅,離下限接近的值也都要取因工程發生異常而引起,工程條件變化測定錯誤追究發生落島型原因的話,可以掌握其改善方法.刪除不滿足規格的數據時測定的騙術檢查錯誤測定誤差等要提高工序能力,重新研討規格52正態型陡壁型缺齒型偏態型平頂型孤島型雙峰型.制訂層別的矩形圖而比較.重新制訂層別的矩形圖的話,2個分布的差就明確.常見直方圖形態第52頁,共148頁,2023年,2月20日,星期二直方圖與規格進行比較53與規格比較(1)滿足規格時LSLUSLLSLUSL特性值都滿足規格,但制程變異尚有較大改善空間特性值都滿足規格,且制程非常穩定。LSLUSL特性值都滿足規格,且制程非常穩定,但是制程整體偏離中心位置(目標)。第53頁,共148頁,2023年,2月20日,星期二直方圖與規格進行比較54與規格比較(2)不滿足規格時LSLUSLLSLUSL制程穩定,但是特性值偏離中心目標值,導致超出規格中心與目標值一致,但特性值的變異大而存在超過規格的數據。LSLUSL數據的中心偏離目標值很大,特性值的變異也很大,制程很不穩定,很多數據超出規格。備注:在計算制程能力時,可先用直方圖做初步觀察。第54頁,共148頁,2023年,2月20日,星期二案例A01現已搜集32A05產品CD1,請用直方圖分析其分布狀況:案例55打開“直方圖.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇直方圖注:將數據拖到Y軸也可第55頁,共148頁,2023年,2月20日,星期二案例A01案例56圖形看起來沒有太大問題,可將其與規格進行比較,規格為15+/-1.5By機臺層別分析操作:將“機臺”拖到Y軸對比兩個機臺,可得出什么結論?第56頁,共148頁,2023年,2月20日,星期二圖形分析1234直方圖箱型圖散點圖時間序列圖57第57頁,共148頁,2023年,2月20日,星期二什么是箱型圖對X測定的Y值可用Box形態表示,用于確認分布的模樣,以及數據的中央值、最小值、4分位數、最大值、異常點,也可以分析幾個Group之間對數據分布的差異點58箱型圖箱型圖的解釋50分位(中位數)Q3+1.5(Q3-Q1)內最大值Q1-1.5(Q3-Q1)內最小值75分位(第三四分位數)Q325分位(第一四分位數)Q1異常點(Outlies)*數據的中間50%IQR=Q3-Q1第58頁,共148頁,2023年,2月20日,星期二59箱型圖案例A01針對上個案例A01,請做箱型圖分析:打開“直方圖.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇箱型圖第59頁,共148頁,2023年,2月20日,星期二60箱型圖案例A01從箱型圖可得出什么結論?第60頁,共148頁,2023年,2月20日,星期二61箱型圖范例第61頁,共148頁,2023年,2月20日,星期二圖形分析1234Ydata分布形態—直方圖根據X的Y分布比較—箱型圖散點圖Y的時間性變化—時間序列圖62第62頁,共148頁,2023年,2月20日,星期二定義:以縱軸表示因變量,以橫軸表示自變量,用點表示出分布型態,根據分布的型態判斷對應數據之間的相互關系的圖形。63散點圖目的用以探索分析成對的二個連續型變量數據之間的關系適用時機原因分析、真因證實第63頁,共148頁,2023年,2月20日,星期二散點圖常見形態散點圖散點圖1散點圖3散點圖2散點圖4散點圖6散點圖564第64頁,共148頁,2023年,2月20日,星期二65散點圖案例A02:第65頁,共148頁,2023年,2月20日,星期二散布圖注意事項注意是否有異常點存在,亦即該點與其他點相距很遠。是否有必要加以層別,亦即由數據看是無相關,但將數據分群后卻發現具有相關,反之亦然。因此一個相關與否的散布圖需放入單純且必要的數據。層別第66頁,共148頁,2023年,2月20日,星期二圖形分析1234直方圖箱型圖散點圖時間序列圖67第67頁,共148頁,2023年,2月20日,星期二時間序列圖顯示隨時間經過的數據變化;可通過時間序列圖觀察特性值是否存在時間趨勢或存在周期性;掌握隨時間經過對制程Data有何影響,掌握是否有因異常原因的工序變化。68時間序列圖第68頁,共148頁,2023年,2月20日,星期二69時間序列圖案例A04:每月客返品中均有不規則mura,現針對每月搜集的累計不規則mura產品數,做數據分析,以期預估未來不規則mura數量趨勢。打開“不規則mura.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇箱型圖第69頁,共148頁,2023年,2月20日,星期二70時間序列圖案例A04:從該時間序列圖可得出什么結論?備注:必要時可在JMP軟件中通過“分析建模時間序列”操作,進行時間序列建模分析第70頁,共148頁,2023年,2月20日,星期二71時間序列圖范例:第71頁,共148頁,2023年,2月20日,星期二72圖形分析注意事項圖形分析只是數據分析的第一步,利用圖形直觀地做出初步判斷,具體尚需做進一步推論統計分析驗證做圖形分析時,要注意使用層別法第72頁,共148頁,2023年,2月20日,星期二假設檢驗73第73頁,共148頁,2023年,2月20日,星期二假設檢驗12345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析74第74頁,共148頁,2023年,2月20日,星期二案例A1原廠內產品不良率為1.5%,工程師陳某負責該產品良率,經過1個月的努力,現將給改善對策進行小量試產,共run250片產品,發現2片不良。據此,該工程師聲稱,良率得到改善,決定量產。為什么需要假設檢驗75

基礎統計量產品狀況頻數比例總樣本量OK24899.2%250NG20.8%0.8%跟1.5%之間的差異,到底是真的存在此差異?還是差異只是因正常抽樣而導致的差異?在統計上是否有意義呢?提問:別擔心,假設檢驗可以為您解決這個困擾!第75頁,共148頁,2023年,2月20日,星期二原假設(簡稱H0):也叫虛無假或零假設;通常H0敘述的是無效果或無差別;先假設H0成立,后基于統計證據拒絕或不能拒絕H0。

對立假設(簡稱H1或Ha):與H0對立的假設;關于總體體參數的,在H0被拒絕時可以成立的敘述。一般含有等號,例如:H0:μ1

>=μ2

H0:μ1

<=μ2

H0:

μ1=μ2與H0對立,例如:H1:μ1<μ2

H1:

μ1>μ2

H1:μ1≠μ2注意:1.含有等號的均放在H0;2.H1通常是想驗證的結果。假設檢驗基本概念76第76頁,共148頁,2023年,2月20日,星期二練習題請寫出以下各情形的H0和H1:某制藥會社新開發的頭痛藥B比原有的頭痛藥A,藥效能多持續30分鐘;AC廠某工程師想知道膜厚機臺A和機臺B是否有差異;以案例A1為例,建立H0和H1:H0:μ(調整前)=μ(調整后)統計意義:調整前和調整后的總體膜厚平均是相等的;實際意義:wipingtime調整前后PS膜厚沒有差異H1:μ(調整前)≠μ(調整后)統計意義:調整前和調整后的總體膜厚平均是不相等的;實際意義:wipingtime調整前后PS膜厚有差異假設檢驗基本概念77第77頁,共148頁,2023年,2月20日,星期二假設檢驗中,建立H0&H1以后,需根據檢驗的對象建立相應的檢驗統計量,常見樣本檢驗統計量如下:Z統計量服從正態分布t統計量服從T分布F統計量服從F分布c2統計量服從

分布在分布已知情況下,即可通過概率求區間點,或通過區間點求概率。假設檢驗基本概念檢驗統計量:78第78頁,共148頁,2023年,2月20日,星期二實際狀況H0H1樣本結果H0判斷正確概率:1-a第二類錯誤概率:bH1第一類錯誤概率:a判斷正確概率:1-b第一類錯誤H0成立,卻拒絕H0稱為a風險,發生的概率用a表示第二類錯誤H0不成立,卻接受H0稱為b風險,發生的概率用b表示注意:a一般取0.05、0.1、0.01,最常用的是0.05a越小b越大,故a不可過小,否則范第二類錯誤概率b會很大不可知假設檢驗基本概念假設檢驗的兩類錯誤:79第79頁,共148頁,2023年,2月20日,星期二80拒絕域&接受域拒絕域&接受域

m置信下限置信上限總體的95%置信區間接受域若H0成立,樣本均值應該落在此區間拒絕域拒絕域若樣本均值應該落在此區間,則拒絕H0,即H0不成立因在計算拒絕域時需先知道a,但是不同情況下可能選定的a不一樣,此方式比較麻煩,故將計算拒絕域轉換為P-value第80頁,共148頁,2023年,2月20日,星期二P-value假設檢驗中,以指標P-value跟a比較來確認結論:若P-value≦α,則拒絕H0;若P-value>α,則接受H0假設檢驗基本概念P-value越小越拒絕H0

落于此中間部分為接受H081第81頁,共148頁,2023年,2月20日,星期二

3.確定H0&H1,選擇a水平

2.判斷數據類型,選擇合適的檢驗方法1.把實際問題轉化為統計問題4.抽取樣本數據,進行分析(運用軟件)5.判斷,得出結論假設檢驗基本概念假設檢驗一般步驟建立檢驗統計將P-value與a比較82第82頁,共148頁,2023年,2月20日,星期二data型態統計量分析方法YX連續單一水平(σ已知)Z1-sampleztest(σ未知)t1-samplettest連續兩水平(獨立樣本)t2-samplettest;(相關樣本)Zpairedttest連續多水平Fone-wayANOVA各均值檢驗及方差檢驗方法定義data型態統計量分析方法YX連續單一水平c21-variancetest連續兩水平F2-variancetest連續多水平(近似)c2Bartlett

test檢驗均值檢驗方差(變異數)data型態統計量分析方法YX離散單一水平Z1-Ptest離散兩水平Z2-Ptest檢驗比例83第83頁,共148頁,2023年,2月20日,星期二假設檢驗12345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析84第84頁,共148頁,2023年,2月20日,星期二1

sampleZ/t檢驗如何驗證膜厚是否等于目標值?如何確認首件與之前產品均值是否有差異?85第85頁,共148頁,2023年,2月20日,星期二案例A2:GB項目——CF廠R20CD1Cpk改善若已知CD1標準差s=0.089,問:CD1平均值是否等于目標值147.5?1

sampleZ檢驗解決方法——搜集數據資料,25片Glass的CD值(每片量30個點)A2_CD1.jmp86第86頁,共148頁,2023年,2月20日,星期二1

sampleZ檢驗H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

CD1為連續型數據,只有一組樣本,標準差s已知,故用1sampleZ檢驗檢驗統計量:若H0成立,則Z~N(0,1)

根據實際情況可設為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m087第87頁,共148頁,2023年,2月20日,星期二1

sampleZ檢驗打開“A2_CD1.jmp”文檔。功能選單:分析分布假設均值實際標準差功能選單:CD1平臺選單檢驗均值P-value<0.05,拒絕Ho故CD1均值不等于目標值147.588第88頁,共148頁,2023年,2月20日,星期二1

samplet檢驗H0:CD1=147.5V.SH1:CD1≠147.5(a取0.05)

但是,實際工作中,基本上是不知道總體標準差s的,因此,需要用樣本標準差s來預估s,故用1samplet檢驗根據實際情況可設為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0檢驗統計量:若H0成立,則t~t(n-1)

89第89頁,共148頁,2023年,2月20日,星期二1

samplet檢驗打開“A2_CD1.jmp”檔案。功能選單:分析

分布假設均值未知,不需要填功能選單:CD1平臺選單檢驗均值P-value<0.05,拒絕Ho故CD1均值不等于目標值147.590第90頁,共148頁,2023年,2月20日,星期二1

sampleVariance檢驗

單樣本,用1sampleVariance檢驗

91第91頁,共148頁,2023年,2月20日,星期二打開“CD1.jmp”文檔。1

sampleVariance檢驗功能選單:

分析

分布

;CD1平臺選單檢驗標準差填入欲驗證的標準差P-value>0.05,無法拒絕Ho故CD1標準差并沒有大于0.089綜合均值和變異數檢驗結果,CD1的CPK差主要是由于精度問題導致92第92頁,共148頁,2023年,2月20日,星期二1.如何知道A機臺與B機臺CD是否存在機差?2.如何判斷兩個不同溫度條件下膜厚是否受影響?3.如何判斷參數調整后,某特性是否變好?2

samplet檢驗93第93頁,共148頁,2023年,2月20日,星期二2

samplet檢驗案例A3:GB項目——CF廠PS月產能114K提升至120K能否直接調節wipingtime來降低Coater涂布時間,從而提升月產能?解決方法——搜集數據資料,25片Glass的CD值(每片量30個點)PS月產能提升Coater涂布時間WipingtimeCoatingTimeCSPSuctionTime衍生指標:PSHCpkY小yX94第94頁,共148頁,2023年,2月20日,星期二2

samplet檢驗顯然,Wipingtime降低

Coater涂布時間降低;但可能會有副作用,即PSHCpk變差。要降低wipingtime,必須確保PSH不受影響。故,問題轉換為“如何判斷wipingtime調整前后PSH是否受影響”調整前2.86612.87442.86612.85532.88112.87622.86852.85942.86822.86312.86432.85252.85542.87442.86472.86242.86082.85592.85912.85342.86882.87712.85612.85712.8612調整后2.85362.85092.85722.85152.85672.85172.84122.84662.84052.85532.8492.85862.85822.85232.84982.85472.85772.86252.86312.85732.85952.86182.85252.8512.8597數據資料:搜集調整前和調整后的單片glass的平均PHS值,各25筆X:wipingtime參數(調整前(7.9s)、調整后(5.95s))——兩水平Y:PHS(膜厚)——連續判斷層別因子(wipingtime)(兩水平)的顯著性均值檢定2-samplet檢驗A3_2-sample_wipingtime.jmp95第95頁,共148頁,2023年,2月20日,星期二2

sampleVariance檢驗由于在進行2samplettest時,檢驗統計量的選擇會受到方差是否相等的影響,故在進行均值檢驗之前先進行等方差檢驗;PS:方差也是PHS是否收到影響的其中一方面;(即PHS均值跟方差都要同時考慮)

雙樣本,用2sampleVariance檢驗

96第96頁,共148頁,2023年,2月20日,星期二P-value>0.05,無法拒絕Ho故wipingtime調整前后PHS標準差沒有差異。2

sampleVariance檢驗打開A3_2-sample_wipingtime.Jmp檔案。功能選單:分析以X擬合Y平臺選單分位數功能選單:

平臺選單不等方程箱型圖觀察分析97第97頁,共148頁,2023年,2月20日,星期二2

samplet檢驗H0:PHS1=PHS2V.SH1:PHS1≠PHS2

(a取0.05)

檢驗統計量:;若H0成立,則t~t(m+n-2)

根據實際情況可設為H0:

m1<=m2V.S

H1:

m1>m2或H0:

m1>=m2

V.SH1:m1<m2或H0:

m1=m2

V.SH1:m1≠m2

98第98頁,共148頁,2023年,2月20日,星期二2

samplet檢驗檢驗統計量:;若H0成立,則t近似服從~t(L)(L推算復雜,此處不做解釋)

99第99頁,共148頁,2023年,2月20日,星期二2

samplet檢驗回到案例A3,驗證等方差性后,發現調整前后方差相等,故均值檢驗操作如下:功能選單:

平臺選單均值/方差/合并的tP-value<0.05,拒絕Ho故wipingtime調整前后PHS均值不一樣。綜合變異數和均值檢驗結果發現:wipingtime調整前后PHS變異無差別,但均值受到影響,故不能將wipingtime調整至5.95s,需要另尋因子,或檢驗其他調整幅度。100第100頁,共148頁,2023年,2月20日,星期二2

samplet檢驗在案例A3中,平臺選單t檢驗備注:方差不等情況下,檢驗統計量近似服從t分布。101第101頁,共148頁,2023年,2月20日,星期二Pairedt檢驗在雙樣本連續型變量檢驗中,若樣本一一對應,此時“2samplet檢驗”不再適用;例如:

1.同一批樣品的CD,由兩種不同量具量測結果的比較;2.同一批樣品在不同溫度下的某連續型特性值。102第102頁,共148頁,2023年,2月20日,星期二案例A4:Pairedt檢驗某研究學者欲了解補習班能否增進學習能力,選一組隨機樣本12位小朋友,以α=0.05的顯著水平,驗證補習后成績是否高于補習前:

補習前:22、31、28、27、29、32、26、27、31、28、25、30

補習后:29、27、32、25、33、30、36、29、33、28、32、29該案例中,兩組樣本是一一對應的,此時2samplet檢驗不再適用;此時,使用Pairedt檢驗。首先對兩組樣本做如下處理:di=補習后成績-補習前成績,得到新的樣本數據:7、-4、4、-2、4、-2、10、2、2、0、7、-1A4_Pairedt_補習成績.jmp103第103頁,共148頁,2023年,2月20日,星期二Pairedt檢驗

則檢驗兩樣本均值的問題轉化為單樣本零均值檢驗的問題;根據實際情況可設為H0:

m<=m0V.S

H1:

m>m0或H0:

m>=m0

V.SH1:m<m0或H0:

m=m0

V.SH1:m≠m0檢驗統計量:,sd為新的數據列di的樣本標準差若H0成立,則t~t(n-1)

104第104頁,共148頁,2023年,2月20日,星期二Pairedt檢驗打開Pairedt_補習成績.jmp檔案。功能選單:分析配對P-value<0.05,拒絕Ho故補習后成績確實大于補習前,補習有一定成效。備注:pairedt檢驗,要求兩列數據樣本量要一樣;2samplet檢驗,兩列數據樣本量可以不一樣。105第105頁,共148頁,2023年,2月20日,星期二假設檢驗12345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析106第106頁,共148頁,2023年,2月20日,星期二單因子方差分析(OneWayANOVA)1.兩個機臺之間的CD是否有差異可以用2samplet檢驗,如果是三個機臺或更多呢?2.如何判斷兩個以上不同溫度條件下膜厚是否受影響?107第107頁,共148頁,2023年,2月20日,星期二定義:

方差分析(AnalysisofVariance,簡稱ANOVA),又稱“F檢驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。原理:OneWayANOVA機臺1的樣本數據機臺2的樣本數據總變異包括:組間變異

+

組內變異不同機臺引起的波動隨機因素引起的波動在總變異中,當組間變異占比重較大時,說明不同機臺之間差異顯著,即該因子有影響,這就是ANOVA的原理。108第108頁,共148頁,2023年,2月20日,星期二OneWayANOVAH0:m1=m2=……=m

k

,即,所有水平樣本平均值均相等H1:

各樣本平均值不全相等,即至少有一個與其他不相等原假設&對立假設:檢驗統計量:

109第109頁,共148頁,2023年,2月20日,星期二案例A5:32A05TTNPT(CVD小黑點)不良降低OneWayANOVA問:R2處理時間是否對TTNPTdefectdensity有影響?TTNPTdefectdensityHDCCV轉速R2處理氣體種類R2處理時間Y

X清潔功率清潔距離NF3流量光阻厚度干燥壓力2200HDC4300PHOTO2200CVD110第110頁,共148頁,2023年,2月20日,星期二R2處理時間為連續型變量,取三個水平10、12.5、15;以25片計算一個TTNPTdefectdensity值,當成連續型數據;故,問題轉換為“如何判斷三個不同R2處理時間下的defectdensity是否有差異”數據資料:每個R2處理時間下搜集10-15筆TTNPTdefectdensity數據X:R2處理時間(10、12.5、15)——三水平Y:TTNPTdefectdensity——連續判斷層別因子(R2處理時間)(三水平)的顯著性均值檢定OneWayANOVA檢驗OneWayANOVA.jmpOneWayANOVA111第111頁,共148頁,2023年,2月20日,星期二OneWayANOVAH0:三個TTNPTdefectdensity全部相等

H1:三個TTNPTdefectdensity不全相等

(a取0.05)

來源偏差平方和自由度均方和F統計量HDCCV轉速(A)SSAdfA=r-1MSA=SSA/dfAF=MSA/Mse誤差(e)SSedfe=n-rMse=SSe/dfe總計SSTn-1方差分析表備注:r為因子水平數;

n為總樣本數。112第112頁,共148頁,2023年,2月20日,星期二A5變異數檢驗因OneWayANOVA前提假設是等方差,故在使用該方法檢驗均值前,先進行變異數檢驗;PS:方差也是PHS是否收到影響的其中一方面;(即PHS均值跟方差都要同時考慮)

樣本組數大于2,用修正的Bartlett檢驗113備注:若不等方差,則使用非參數檢驗進行均值驗證第113頁,共148頁,2023年,2月20日,星期二A5_變異數檢驗114P-value>0.05,無法拒絕Ho故三個R2處理水平下的TTNPT

defectdensity滿足等方差假設。打開A5_OneWayANOVA.Jmp檔案。功能選單:分析

以X擬合Y平臺選單分位數功能選單:

平臺選單不等方差箱型圖觀察分析第114頁,共148頁,2023年,2月20日,星期二A5_OneWayANOVA115H0:defectdensity(10)=defectdensity(12.5)=defectdensity(15)

H1:defectdensity(10)、defectdensity(12.5)、defectdensity(15)

不全相等(a取0.05)

檢驗統計量:若H0成立,則F~F(dfA,dfe)

dfA=3-1=2(3為因子水平數)Dfe=18-3=15(18為樣本量,3為因子水平數)第115頁,共148頁,2023年,2月20日,星期二116A5_OneWayANOVAP-value=0.0145<0.05,拒絕Ho故三個R2處理時間下的TTNPT

defectdensity不全相等,即R2處理時間對TTNPT

defectdensity有影響。承接變異數檢驗功能選單:平臺選單均值/方差分析方差分析表圖形顯示,15S情況下TTNPT最低,但統計上到底哪兩個水平有顯著差異,需進一步分析第116頁,共148頁,2023年,2月20日,星期二117A5_多重比較法承接變異數檢驗功能選單:平臺選單比較

均值所有對,TukeyHSD第117頁,共148頁,2023年,2月20日,星期二118TwoWayANOVA案例A6:現有一筆有關Sandy暗點不良率的數據,包含兩個因子,請針對該數據進行分析,判斷這兩個因子對Sandy的影響狀況,資料見數據表“TwoWayANOVA.jmp”操作:分析擬合模型TwoWayANOVA.jmp第118頁,共148頁,2023年,2月20日,星期二119TwoWayANOVA第119頁,共148頁,2023年,2月20日,星期二假設檢驗12345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析120第120頁,共148頁,2023年,2月20日,星期二1samplep檢驗當某廠工程師告訴你,目前廠內不良率已控制在3.5%以下時,你如何通過數據分析確認是否要相信他的結論?121第121頁,共148頁,2023年,2月20日,星期二案例A61samplep檢驗以前,32A04的defect發生率為9%,對相應制程進行了改善,從新抽取300個產品,其中25個存在defect。問:defect是否真的得到改善?a=0.05122解:本題要驗證改善后的是defect發生率是否低于9%,屬于單樣本;Y取值為“發生defect””未發生defect”,為離散型資料,只能用頻數來衡量;故,該題用1samplep進行驗證。第122頁,共148頁,2023年,2月20日,星期二1samplep檢驗

根據實際情況可設為H0:p≥p0

V.SH1:p<p0

H0:p≤p0

V.SH1:p>p0

H0:p=p0

V.SH1:p≠p0

H0:

p

9%

V.SH1:

p>9%

(a取0.05)

注意:取樣時樣本n需足夠大,一般需滿足np≥5,且n(1-p)≥5123第123頁,共148頁,2023年,2月20日,星期二1samplep檢驗124打開A6_1-ptest.jmp檔案功能選單:分析分布第二層平臺選單檢驗概率P-value=0.03908>0.05,無法拒絕H0

;改善后defect并沒有降低,改善措施無效。輸入要檢驗的概率值選擇相應的對立假設H1第124頁,共148頁,2023年,2月20日,星期二2samplep檢驗如何確認兩個機臺的良率或不良率是否有差異?如何確認對策實施前后,良率是否有提升?125第125頁,共148頁,2023年,2月20日,星期二2samplep檢驗126案例A7:55UD模組組裝不良率降低問:如何驗證BLU轉板機速度是否對55UD模組組裝不良率有影響?55UD模組組裝不良率8.5%Y

XBLU異物不良率2.28%BLU臟污不良率1.91%顯示異常不良率2.14%風槍風力1BLU轉板機速度Panel翻轉速度Panel在BLU位置吸盤作業高度第126頁,共148頁,2023年,2月20日,星期二2samplep檢驗127現搜集轉板機速度為1m/s和0.8m/s條件下的產品狀況,均搜集200片樣品,記錄如下:BLU轉板機速度產品狀況數量1m/sOK1711m/sNG290.8m/sOK1850.8m/sNG15X(BLU轉板機速度)取兩水平,屬于兩樣本;Y取值為“OK””NG”,為離散型資料,只能用頻數來衡量;故,該題用2samplep進行驗證。第127頁,共148頁,2023年,2月20日,星期二2samplep檢驗

根據實際情況可設為H0:p1≥p2V.SH1:p1<p2或

H0:p1≤p2V.SH1:p1>p2

H0:p1=p2V.SH1:p1≠p2

注意:取樣時樣本n需足夠大,一般需滿足np≥5,且n(1-p)≥5128第128頁,共148頁,2023年,2月20日,星期二2samplep檢驗129打開A7_2samplep.jmp檔案功能選單:分析以X擬合Y平臺選單比例均值分析1.P-value=0.0274<0.05,拒絕H0,即BLU轉板機速度對組裝不良率確實有影響,22.從圖形以及單尾檢驗結果可知,0.8m/s的不良率顯著低于1m/s的不良率。圖形分析平臺選單雙樣本比例檢驗注意:此處JMP的檢驗統計量與前面的Z統計量不一樣。第129頁,共148頁,2023年,2月20日,星期二假設檢驗總結非參數檢定方法非正態總體檢定均值兩組相關樣本檢定均值檢定變異數兩組獨立樣本檢定均值檢定變異數一組樣本正態總體σ不等σ相等σ未知σ已知σ未知σ已知Z統計量T統計量Z統計量近似T統計量T統計量F統計量χ2

統計量檢定比例檢定比例JMP操作Z統計量Z統計量檢驗統計量分布>檢驗均值分布>檢驗均值分布>檢驗概率

T統計量分析>配對以X擬合Y>方差不齊以X擬合Y>t檢驗NA(使用Excel)以X擬合Y>雙樣本比例檢驗

以X擬合Y

>均值/方差分析/合并的t兩組或兩組以上樣本檢定均值F統計量分析>以X擬合Y>均值/方差分析檢驗方法1-Z

test1-ttest2-Z

test2-ttestPairedttest2-variancetest1-variancetest1-ptest2-ptest2-ttestOneWayANOVA分布>檢驗標準差

檢定變異數近似F統計量分析>以X擬合Y>不等方差修正的Bartlett檢驗130第130頁,共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論