統計學入門介紹2015_第1頁
統計學入門介紹2015_第2頁
統計學入門介紹2015_第3頁
統計學入門介紹2015_第4頁
統計學入門介紹2015_第5頁
已閱讀5頁,還剩145頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、課 程 大 綱一、何為統計學 1.1 定義 1.2 統計分析方法的類別 1.3 統計學相關名詞二、變量及其分布 2.1 變量及類型 2.2 正態分布 2.3 其他常見分布 2.4 中心極限定理1三、統計量及抽樣分布 3.1 何為統計量 3.2 三大抽樣分布四、參數估計 4.1 點估計 4.2 區間估計課 程 大 綱五、圖形分析 5.1 直方圖 5.2 箱型圖 5.3 散點圖 5.4 時間序列圖六、假設檢驗 6.1 假設檢驗定義及原理 6.2 均值檢驗2 6.3 方差檢驗 6.4 One Way ANOVA 6.5 Two Way ANOVA 6.6 比例檢驗七、相關與回歸 7.1 相關分析 7

2、.2 回歸分析何為統計學3何為統計學n 統計學定義以上所有例子,都要通過各種直接或間接的手段來搜集數據,都要利用相應方法來整理和分析數據,最后通過分析得到結論。4你可以借助統計說出你想要的結論,甚至撒下謊言你可以借助統計說明世界多奇妙樣本總體抽樣/實驗推論統計學分析方法的類別5含義:大多以圖表方式,簡單計算等方式來對數據的分布、變化、趨勢等進行描述的統計分析方法;特點:操作簡單、直觀有效含義:研究如何根據樣本數據對統計總體特征做出以概率形式表述的推斷;特點:一般需要建模,相對復雜;經典方法:估計、假設檢驗兩大類統計分析方法描述統計方法推論統計方法一般來說,推論統計分析是在描述統計分析的基礎上進

3、行的,兩種分析方法密不可分;n 統計學分析方法的類別n 描述統計與推論統計的聯系:6統計名詞n 總體:研究對象所有個體的集合n 樣本:由總體中抽取部分個體所組成的集合 一般n30 稱為小樣本,n30 則稱為大樣本n 總體參數:表達總體特征的指標 n 統計量:表達樣本特征的量數,也稱樣本統計量n 變量:統計學研究的對象,用數據衡量,根據其特性可分為:計量值(連續型):可量化表示 - 例如:高度、膜厚、溫度、CD、流量、阻值 - 常用的總體參數或統計量有平均數、標準差計數值(離散型):可分類表示 -例如:人數、不合格品數、亮點數、良率 -常用的總體參數或統計量有比例7變量及其分布8變量當一個指標的

4、取值固定為某個值時,我們稱之為常量;當一個指標的取值不固定時(多種可能性),我們稱之為變量。例如:若用X表示32A05產品的mura檢測結果,因該結果的值可能是”OK”、”NG”等各種可能,故X為變量。若用CD表示28”產品的CD值,因制程的波動該值也是波動的,CD值不固定,故CD為變量。n 變量:變量的具體取值是用數據衡量的9變量的數據類型變量不能連續取值,能一 一列出樣本點;一般用數據表示其頻數,故用計數型數據表示變量能夠連續取值,無法一 一列出樣本點;具體取值可用計量型數據表示例:某產品defect類型檢驗結果; 一次擲20個硬幣,硬幣正面朝上的數量;例: 28”產品的CD值; 華星員工

5、食堂吃午飯,打飯的排隊時間;n 離散型變量:n 連續型變量:10變量特征的測度變量特征中心趨勢分散程度眾數中位數平均值一般用表示一般用表示標準偏差全距變異數形狀特征偏態系數峰態系數11變量的分布為變量X的分布函數。 稱 X 服從例:投擲一個骰子,求點數X不超過3的概率。解:分布離散型變量分布列連續型變量概率密度函數不同數據類型的變量用不同的方式衡量其分布狀況XP12離散型變量的分布列n 對離散型隨機變量,常用以下定義的分布列來表示其分布:例:X為投擲兩個骰子的點數之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/36

6、1/36為X的概率分布列,簡稱分布列,記為逐一列出每個可能的取值的概率13練習現同時投擲兩個骰子,Y為6點的骰子個數,Z為最大點數,1. 求隨機變量Y的分布列2. 求隨機變量Z的分布列Y012P25/3610/361/36Z123456P1/363/365/367/369/3611/3614連續型變量的概率密度函數例 膜厚X是一個隨機變量。假如記錄10000筆膜厚值,我們將各膜厚的頻率用直方圖形式表示出來,x軸表示膜厚,y軸表示單位長度上的頻率n 對連續型隨機變量,用概率密度函數來表示其分布狀況:即為膜厚的概率密度函數15正態分布n 在統計學上最重要的連續型分布是正態分布n 特點:正態分布的概

7、率密度函數中間高,兩邊低,對稱的鐘型;均值=中位數=眾數m m =median= mode 50%50%量測值16 為位置尺度,決定圖形的中心位置; 為形狀尺度,決定圖形的胖瘦。mm m=1 m m=2 m m=3 m m =1=1=2=2=3=3固定 ,變動m m固定m m,變動 17正態分布的概率計算中心到各標準偏差()之概率如下+0.02150.13590.34130.34130.13590.02150.68260.95440.9973曲線以下的面積等于概率18正態分布的概率計算Excel計算公式如下:P(X15)=1- P(X=15)若已知概率(假設P (X=z1)=0.8),求區間點

8、Z1,則Z1=NORM.INV(p, , )19練習假設1370站點CD值服從正態分布,平均值為16.5,標準差為0.5,規格為16.818.21. 求超出規格上限的概率2. CD大于Z的概率為0.025,求Z值3. 求該CD值的不良率(即,超出規格的概率)20一般正態分布=1Zm = 標準正態分布XZm=n標準正態分布表示為n任何一個一般的正態分布,可通過下面的線性變換轉化為標準 正態分布(0,1)XZNm=(0,1)Nm標準正態分布21標準正態分布的概率計算Excel計算公式如下:P(X1.96)=1- P(X=1.96)若已知概率(假設P (X=Z1)=0.8),求區間點則Z1=NORM

9、.S.INV(p)已知X服從N(0,1)分布,求X大于1.96的概率。XN(0,1)22正態性檢驗23其他常見連續分布n 均勻分布n 指數分布例如:比如旅客進機場的時間間隔、電話通話時間電子元器件的壽命、動物的壽命許多電子產品的壽命分布一般服從指數分布f(x)=, 其他0, ax0,記作XExp()期望:E(X)= 1/方差:D(X)=1/( 2)記作XU(a,b)期望:E(X)=(a + b )/2方差:D(X)=(b-a)2/12分布函數24常見離散分布n 二項分布n 泊松分布一般地,在n次獨立重復試驗中,用X表示事件A發生的次數,如果單次試驗中A發生的概率是P,則不發生的概率q=1-p,

10、N次獨立重復試驗中發生K次的概率是那么就說K服從二項分布。 記作XB(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,n)例如:良率的問題一般屬于二項分布泊松分布常與單位時間(單位面積、單位產品等)上的計數過程相聯系,例如:(K=1,2,3,)泊松分布的概率分布列為:其中參數0,記作XP()期望:E(X)= 方差:D(X)= 在單位時間內,電話總機接到用戶呼喚的次數在單位時間內,一電路受到外界電磁波的沖擊次數1平方米內,玻璃上的氣泡數單片panel上的defect數25樣本均值的分布n 假如X1,X2, Xn是從均值為,方差為 2 的正態總體中抽取的樣本值其抽

11、樣的均值:若將其視為另外一個變量則 的均值為 ,方差為且服從正態分布2nX2(,)NnmX總體分布26樣本均值的分布n 已知總體XN(50,102),若抽取樣本,樣本均值的分布如下:=1027中心極限定理n 不論總體為何種分布,只要樣本容量n 30,樣本平均值的抽樣分布近似于正態分布,假設總體均值為m,標準差為。 即,當n足夠大時,樣本均值 服從當樣本數夠大時(n 30) ,樣本平均值的抽樣分布會趨近于正態分布一個任意分布的總體JMP操作28統計量及抽樣分布29統計量總體樣本最常見的統計量:平均值 m 標準差 設 為取自某總體的樣本,若樣本函數 中不含任何未知參數,則稱T為統計量,統計量的服從

12、的分布稱為抽樣分布。n 定義統計量30三大抽樣分布卡方分布t 分布F 分布31卡方分布32卡方分布的計算Excel計算公式:33卡方統計量的構建設x1,x2,. ,xn是來自N(m,2)的樣本,其中樣本均值和樣本方差分別為34F分布35F分布的計算36F統計量的構建37t 分布n 定義:設隨機變量X1與X2獨立且X1N(0,1),X2 (n),則稱 的分布為自由度為n的t分布,記為 t t(n)。Z分分布布不同自由度的不同自由度的t t分分布布自由度n越大,t分布越接近正態;一般n=30,可認為正態1.t分配受兩個變量的影響( ),因此其變異會較標準正態分布來的大2.當t 分布的自由度越大時,

13、會越接近標準正態分布3.也就是說38t 分布的性質( )(0,1)tN &xsZ分分布布不同自由度的不同自由度的t t分分布布39t 統計量的構建nxZm=0nsxt0m=大部分的情況下,總體標準是未知的!當未知,且樣本不夠大時,可以用樣本標準偏差s替代,仍可得到跟正態分布接近的性質t分布的自由度是n-140t 分布的計算41參數估計42估計點估計:以樣本統計量為基礎估計參數推測某一分布的母數值是多少的方法,包括 點估計 和 區間估計 ??傮w參數樣本統計量推算出樣本抽取n 估計樣本 統計量總體 參數xmspP估計請注意:點估計沒有誤差的概念,即不知道抽取的樣本之估計值與總體真值的接近程度。43

14、估計n 估計區間估計:與點估計不同,估計參數存在的范圍(區間) = 點估計 抽樣誤差考慮了抽樣誤差置信區間的計算:a. 根據一組樣本觀察值;b. 給定某區間可以估計總體參數的概率;計算出總體參數的估計范圍置信水平樣本統計量 (點估計)置信下限置信上限置信區間44估計n 置信水平置信水平一般表示為(1-),意思是總體參數落在該置信區間內的概率。總體參數( m )不同取樣計算出來的置信區間例如:95%的 置信區間,是指100次取樣中,求得的 100個置信區間中 ,有95個包含總體平均。 為顯著性水平,是總體參數未在區間內的概率,在假設檢驗中,為第一類風險;常用的置信水平(1-)有99%,95%,9

15、0% 相對應的顯著性水平為0.01,0.05,0.1存在總體參數不在置信區間內的風險,該風險概率為45XiX1-/2/2nLU1) 總體已知時nzX)2/(nstXn)1, 2/( 對平均()的置信區間 = ? = 10.5 10.5 ?X2= ? s2= 3.8 3.8 ?對平均()的區間估計 對變異(2)的的區間估計估計n 置信區間的計算公式1) 總體未知時 對變異(2)的置信區間46估計n 置信區間的計算練習:14.65314.75414.48914.2114.37514.47114.49914.77614.33414.74現抽取10片32A05產品,每片在同一點位量測其CD1值(第一層

16、),數據如下:請問:CD1的均值和方差的置信區間分別為多少?(取=0.05)在JMP中創建新數據表,輸入以上數據;操作:分析分布47估計n JMP操作:在JMP中創建新數據表,輸入以上數據;操作:分析分布 平臺選單置信區間 注:默認置信水平為95%,可在平臺選單中修改置信水平現在,請嘗試用excel計算出以上結果常用統計分析方法匯總data型態常用統計分析方法常用圖形分析方法YX假設檢定連續單一水平1-sample z test(已知)1-sample t test(未知)直方圖箱型圖時間序列圖1-variance test連續兩水平2-variance test2-sample t test

17、;paired t test連續多水平test for equal varianceone-way ANOVA離散單一水平1-proportion test離散兩水平2-proportion test相關與回歸X、Y均為隨機變數相關分析散點圖X為自變量;Y為因變量回歸分析48圖形分析491234直方圖箱型圖散點圖時間序列圖50直方圖51區分data的區間,顯示分布形態和中心位置及變異,能看到連續性資料的分布模樣。n 直方圖用以了解一群數據之分布狀況,及其中心值與變異情形。n 直方圖分析目的1. 觀察數據分布形態1)數據的中心位置 2)數據的離散程度2. 與規格的關系將產品特性值數據與規格進行比

18、較形態可能原因參考對策形態可能原因參考對策一般顯示的形狀沒有異常要因的變化工程穩定多種工程條件混合存在的時候可能是測定系統問題,不能準確地讀出 特定范圍的數值或避開時發生根據層別方法,將全體散布分為許多互相不同的工程條件下進行作業時,如不同機臺、不同班別、不同原材料等即規格值的下限抑制時,不取某值以下的值備注:右偏型同理為擴展Data幅,離下限接近的值也都要取因工程發生異常而引起,工程條件變化測定錯誤追究發生落島型原因的話,可以掌握其改善方法.刪除不滿足規格的數據時測定的騙術檢查錯誤測定誤差等要提高工序能力,重新研討規格52正態型陡壁型缺齒型偏態型平頂型孤島型雙峰型.制訂層別的矩形圖而比較.重

19、新制訂層別的矩形圖的話,2個分布的差就明確.常見直方圖形態直方圖與規格進行比較53n 與規格比較(1) 滿足規格時LSLUSLLSLUSL特性值都滿足規格,但制程變異尚有較大改善空間特性值都滿足規格,且制程非常穩定。LSLUSL特性值都滿足規格,且制程非常穩定,但是制程整體偏離中心位置(目標)。直方圖與規格進行比較54n 與規格比較(2) 不滿足規格時LSLUSLLSLUSL制程穩定,但是特性值偏離中心目標值,導致超出規格中心與目標值一致,但特性值的變異大而存在超過規格的數據。LSLUSL數據的中心偏離目標值很大,特性值的變異也很大,制程很不穩定,很多數據超出規格。備注:在計算制程能力時,可先

20、用直方圖做初步觀察。n 案例A01現已搜集32A05產品CD1,請用直方圖分析其分布狀況:案例55打開“直方圖.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇直方圖注:將數據拖到Y軸也可n 案例A01案例56圖形看起來沒有太大問題,可將其與規格進行比較,規格為15+/-1.5By機臺層別分析操作:將“機臺”拖到Y軸對比兩個機臺,可得出什么結論?1234直方圖箱型圖散點圖時間序列圖57n 什么是箱型圖對X測定的Y值可用 Box形態表示,用于確認分布的模樣,以及數據的中央值、最小值、4分位數、最大值、異常點,也可以分析幾個Group之間對數據分布的差異點58箱型圖n 箱型圖的解釋

21、50分位(中位數)Q3 + 1.5 (Q3 - Q1) 內最大值Q1 - 1.5 (Q3 - Q1) 內最小值75分位(第三四分位數)Q325分位(第一四分位數)Q1異常點(Outlies)*數據的中間 50%IQR= Q3-Q159箱型圖n 案例A01針對上個案例A01,請做箱型圖分析:打開“直方圖.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇箱型圖60箱型圖n 案例A01從箱型圖可得出什么結論?61箱型圖n 范例1234Y data分布形態直方圖根據X的Y分布比較箱型圖散點圖Y的時間性變化時間序列圖62n 定義:以縱軸表示因變量,以橫軸表示自變量,用點表示出分布型態,根

22、據分布的型態判斷對應數據之間的相互關系的圖形。63散點圖n 目的用以探索分析成對的二個連續型變量數據之間的關系n 適用時機原因分析、真因證實05101520012345678910 11 12制程特性值Y工程系數Xn 散點圖常見形態散點圖051015200 1 2 3 4 5 6 7 8 9 1011121314151617YX強正相關散點圖10246810121416180 1 2 3 4 5 6 7 8 9 1011121314151617YX強負相關散點圖30246810121416180123456789 10 11 12YX弱正相關散點024681012141618012345678

23、9 10 11 12YX弱負相關散點圖4024681012141618012345678910 11YX不相關散點圖602468100123456789 10 11 12YX非直線相關散點圖56465散點圖n 案例A02:散布圖注意事項n 注意是否有異常點存在,亦即該點與其他點相距很遠。n 是否有必要加以層別,亦即由數據看是無相關,但將數據分群后卻發現具有相關,反之亦然。因此一個相關與否的散布圖需放入單純且必要的數據。層 別1234直方圖箱型圖散點圖時間序列圖67n 時間序列圖顯示隨時間經過的數據變化;可通過時間序列圖觀察特性值是否存在時間趨勢或存在周期性;掌握隨時間經過對制程Data有何影響

24、,掌握是否有因異常原因的工序變化。68時間序列圖69時間序列圖n 案例A04: 每月客返品中均有不規則mura,現針對每月搜集的累計不規則mura產品數,做數據分析,以期預估未來不規則mura數量趨勢。打開“不規則mura.jmp”數據表;操作:圖形圖形生成器鼠標放在圖形區域,右擊,選擇箱型圖70時間序列圖n 案例A04:從該時間序列圖可得出什么結論?備注:必要時可在JMP軟件中通過“分析建模時間序列”操作,進行時間序列建模分析71時間序列圖n 范例:0.00%2.00%4.00%6.00%8.00%10.00%12.00%14.00%5.8A 5.8B 5.9A 5.9B 5.10A5.10

25、B 5.11A 5.11B 5.12A 5.12B 5.13A 5.13B 5.14A 5.14B 5.15A 5.15B涂膠不良率0200040006000800010000120009月10月11月12月1月2月3月4月5月6月單位:萬元品質成本月趨勢圖預防成本鑒定成本內部失敗成本外部失敗成本總品質成本72圖形分析注意事項n 圖形分析只是數據分析的第一步,利用圖形直觀地做出初步判斷,具體尚需做進一步推論統計分析驗證n 做圖形分析時,要注意使用層別法假設檢驗7312345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析74n 案例A1原廠內產品不良率為1.5%,工程師陳某負責該產品

26、良率,經過1個月的努力,現將給改善對策進行小量試產,共run 250片產品,發現2片不良。據此,該工程師聲稱,良率得到改善,決定量產。為什么需要假設檢驗75 基礎統計量產品狀況頻數比例總樣本量OK24899.2%250NG20.8%0.8%跟1.5%之間的差異,到底是真的存在此差異?還是差異只是因正常抽樣而導致的差異?在統計上是否有意義呢?提問:別擔心,假設檢驗假設檢驗可以為您解決這個困擾!n 原假設 (簡稱H0):也叫虛無假或零假設;通常H0 敘述的是無效果 或無差別;先假設H0成立,后基于統計證據拒絕或不能拒絕H0。 n 對立假設 (簡稱H1或H ):與H0對立的假設;關于總體體參數的,在

27、H0被拒絕時可以成立的敘述。一般含有等號,例如:H0: 1 =2H0: 1 =2H0: 1 =2與H0對立,例如:H1 : 1 2H1 : 1 2注意:1. 含有等號的均放在H0; 2. H1通常是想驗證的結果。假設檢驗基本概念76練習題請寫出以下各情形的H0和H1:1.某制藥會社 新開發的頭痛藥B比原有的頭痛藥A,藥效能多持續30分鐘;2.AC廠某工程師想知道膜厚機臺A和機臺B是否有差異;n 以案例A1為例,建立H0和H1:p H0:(調整前)=(調整后)統計意義:調整前和調整后的總體膜厚平均是相等的;實際意義:wiping time調整前后PS膜厚沒有差異p H1:(調整前) (調整后)統

28、計意義:調整前和調整后的總體膜厚平均是不相等的;實際意義: wiping time調整前后PS膜厚有差異假設檢驗基本概念77假設檢驗中,建立H0&H1以后,需根據檢驗的對象建立相應的檢驗統計量,常見樣本檢驗統計量如下:Z統計量服從正態分布t 統計量服從T分布F 統計量服從F分布c2統計量服從 分布在分布已知情況下,即可通過概率求區間點,或通過區間點求概率。假設檢驗基本概念n 檢驗統計量:78實際狀況H0H1樣本結果H0判斷正確 概率: 1第二類錯誤 概率:b bH1第一類錯誤 概率: 判斷正確概率: 1b第一類錯誤H0成立,卻拒絕H0稱為風險,發生的概率用表示第二類錯誤H0不成立,卻接受H0稱

29、為b風險,發生的概率用b表示 注意: 一般取0.05、0.1、0.01,最常用的是0.05 越小 b 越大,故不可過小,否則范第二類錯誤概率 b 會很大 不可知假設檢驗基本概念n 假設檢驗的兩類錯誤:7980拒絕域&接受域n 拒絕域&接受域m m置信下限置信上限總體的95%置信區間接受域若H0成立,樣本均值應該落在此區間拒絕域拒絕域若樣本均值應該落在此區間,則拒絕H0,即H0不成立 因在計算拒絕域時需先知道,但是不同情況下可能選定的不一樣,此方式比較麻煩,故將計算拒絕域轉換為P-valuen P-value假設檢驗中,以指標P-value跟 比較來確認結論:若P-value,則拒絕H0;若P-

30、value ,則接受H0假設檢驗基本概念P-value越小越拒絕H0落于此中間部分為接受H081 3. 確定H0 & H1,選擇 水平 2. 判斷數據類型,選擇合適的檢驗方法1. 把實際問題轉化為統計問題4. 抽取樣本數據,進行分析(運用軟件)5. 判斷,得出結論假設檢驗基本概念n 假設檢驗一般步驟建立檢驗統計將P-value與比較82data型態統計量分析方法YX連續單一水平(已知) Z 1-sample z test(未知) t1-sample t test連續兩水平(獨立樣本)t2-sample t test;(相關樣本)Zpaired t test連續多水平Fone-way ANOVA

31、各均值檢驗及方差檢驗方法定義data型態統計量分析方法YX連續單一水平c21-variance test連續兩水平F2-variance test連續多水平(近似)c2Bartlett test檢驗均值檢驗方差(變異數)data型態統計量分析方法YX離散單一水平Z1-P test離散兩水平Z2-P test檢驗比例8312345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析841 sample Z / t 檢驗如何驗證膜厚是否等于目標值?如何確認首件與之前產品均值是否有差異?85n 案例A2:GB項目CF廠 R20 CD1 Cpk改善若已知CD1標準差=0.089,問:CD1平均值

32、是否等于目標值 147.5?1 sample Z 檢驗解決方法搜集數據資料,25片Glass的CD值(每片量30個點)A2_CD1.jmp861 sample Z 檢驗H0:CD1=147.5 V.S H1:CD1147.5 (取.5) CD1為連續型數據,只有一組樣本,標準差已知,故用 1 sample Z檢驗檢驗統計量:若H0成立,則ZN(0,1)根據實際情況可設為 H0: mm0 或 H0: m=m0 V.S H1: mm0 或 H0: m=m0 V.S H1: mm0871 sample Z 檢驗打開“A2_CD1.jmp”文檔。功能選單:分析分布假設均值實際標準差功能選單: CD1

33、平臺選單檢驗均值P-value0.05,拒絕Ho故CD1均值不等于目標值147.5881 sample t 檢驗H0:CD1=147.5 V.S H1:CD1147.5 (取.5) 但是,實際工作中,基本上是不知道總體標準差的,因此,需要用樣本標準差s來預估 ,故用 1 sample t檢驗根據實際情況可設為 H0: mm0 或 H0: m=m0 V.S H1: mm0 或 H0: m=m0 V.S H1: mm0檢驗統計量:若H0成立,則 t t(n-1)891 sample t 檢驗打開“A2_CD1.jmp”檔案。功能選單:分析 分布假設均值未知,不需要填功能選單: CD1 平臺選單檢驗

34、均值P-value0.05 ,無法拒絕Ho 故CD1標準差并沒有大于0.089綜合均值和變異數檢驗結果,CD1的CPK差主要是由于精度問題導致921. 如何知道A機臺與B機臺CD是否存在機差?2. 如何判斷兩個不同溫度條件下膜厚是否受影響?3. 如何判斷參數調整后,某特性是否變好?2 sample t 檢驗932 sample t 檢驗n 案例A3:GB項目CF廠 PS月產能114K提升至120K能否直接調節wiping time來降低Coater涂布時間,從而提升月產能?解決方法搜集數據資料,25片Glass的CD值(每片量30個點)PS月產能提升Coater涂布時間Wiping timeC

35、oating TimeCSP Suction Time衍生指標:PSH Cpk Y 小y X942 sample t 檢驗顯然,Wiping time降低 Coater 涂布時間降低;但可能會有副作用,即PSH Cpk變差。要降低wiping time,必須確保PSH不受影響。故,問題轉換為“如何判斷wiping time調整前后PSH是否受影響”調整前2.8661 2.8744 2.8661 2.8553 2.8811 2.8762 2.8685 2.8594 2.8682 2.8631 2.8643 2.8525 2.8554 2.8744 2.8647 2.8624 2.8608 2.8

36、559 2.8591 2.8534 2.8688 2.8771 2.8561 2.8571 2.8612調整后2.8536 2.8509 2.8572 2.8515 2.8567 2.8517 2.8412 2.8466 2.8405 2.8553 2.849 2.8586 2.8582 2.8523 2.8498 2.8547 2.8577 2.8625 2.8631 2.8573 2.8595 2.8618 2.8525 2.851 2.8597數據資料:搜集調整前和調整后的單片glass的平均PHS值,各25筆X:wiping time參數(調整前(7.9 s)、調整后(5.95 s))

37、兩水平Y:PHS(膜厚)連續判斷層別因子(wiping time)(兩水平)的顯著性均值檢定2-sample t 檢驗A3_2-sample_wiping time . jmp952 sample Variance 檢驗由于在進行2 sample t test時,檢驗統計量的選擇會受到方差是否相等的影響,故在進行均值檢驗之前先進行等方差檢驗;PS:方差也是PHS是否收到影響的其中一方面;(即 PHS均值跟方差都要同時考慮)雙樣本,用2 sample Variance檢驗96 P-value0.05 ,無法拒絕Ho 故wiping time調整前后PHS標準差沒有差異。2 sample Vari

38、ance 檢驗打開 A3_2-sample_wiping time . Jmp 檔案。功能選單:分析 以X擬合Y 平臺選單 分位數功能選單: 平臺選單 不等方程箱型圖觀察分析972 sample t 檢驗H0:PHS1=PHS2 V.S H1:PHS1PHS2 (取.5) 檢驗統計量: ; 若H0成立,則 t t(m+n-2)根據實際情況可設為 H0: m1 m2 或 H0: m1 =m2 V.S H1: m1m2 或 H0: m1 =m2 V.S H1: m1m2982 sample t 檢驗檢驗統計量: ; 若H0成立,則 t 近似服從t(L) (L推算復雜,此處不做解釋)992 samp

39、le t 檢驗n 回到案例A3,驗證等方差性后,發現調整前后方差相等,故均值檢驗操作如下:功能選單: 平臺選單 均值/方差/合并的t P-value0.05 ,拒絕Ho 故wiping time調整前后PHS均值不一樣。綜合變異數和均值檢驗結果發現:wiping time調整前后PHS變異無差別,但均值受到影響,故不能將wiping time調整至5.95s,需要另尋因子,或檢驗其他調整幅度。1002 sample t 檢驗在案例A3中,平臺選單 t檢驗備注:方差不等情況下,檢驗統計量近似服從t分布。101Paired t 檢驗在雙樣本連續型變量檢驗中,若樣本一 一對應,此時“2 sample

40、 t 檢驗”不再適用;例如: 1. 同一批樣品的CD,由兩種不同量具量測結果的比較; 2. 同一批樣品在不同溫度下的某連續型特性值。102n 案例A4:Paired t 檢驗某研究學者欲了解補習班能否增進學習能力,選一組隨機樣本12位小朋友,以=0.05 的顯著水平,驗證補習后成績是否高于補習前: 補習前:22、31、28、27、29、32、26、27、31、28、25、30 補習后:29、27、32、25、33、30、36、29、33、28、32、29 該案例中,兩組樣本是一 一對應的,此時2 sample t檢驗不再適用;此時,使用Paired t 檢驗。首先對兩組樣本做如下處理: di=

41、補習后成績-補習前成績,得到新的樣本數據: 7、-4、4、-2、4、-2、10、2、2、0、7、-1A4_Paired t_補習成績.jmp103Paired t 檢驗則 檢驗兩樣本均值 的問題轉化為 單樣本零均值檢驗 的問題;根據實際情況可設為 H0: mm0 或 H0: m=m0 V.S H1: mm0 或 H0: m=m0 V.S H1: mm0檢驗統計量: , sd為新的數據列di的樣本標準差若H0成立,則 t t(n-1)104Paired t 檢驗打開 Paired t_補習成績.jmp 檔案。功能選單:分析 配對 P-value0.05 ,無法拒絕Ho 故三個R2處理水平下的TT

42、NPT defect density滿足等方差假設。打開 A5_One Way ANOVA . Jmp檔案。功能選單:分析 以X擬合Y 平臺選單 分位數功能選單: 平臺選單 不等方差箱型圖觀察分析A5_One Way ANOVA115H0:defect density(10)= defect density(12.5)= defect density(15) H1:defect density(10)、defect density(12.5)、defect density(15) 不全相等 (取.5) 檢驗統計量:若H0成立,則 F F(dfA,dfe)dfA=3-1=2 (3為因子水平數)D

43、fe=18-3=15 (18為樣本量,3為因子水平數)116A5_One Way ANOVA P-value=0.01450.05 ,拒絕Ho 故三個R2處理時間下的TTNPT defect density不全相等,即R2處理時間對TTNPT defect density 有影響。承接變異數檢驗功能選單:平臺選單 均值/方差分析 方差分析表圖形顯示,15S情況下TTNPT最低,但統計上到底哪兩個水平有顯著差異,需進一步分析117A5_多重比較法承接變異數檢驗功能選單:平臺選單比較 均值所有對,Tukey HSD118Two Way ANOVAn 案例A6:現有一筆有關Sandy暗點不良率的數據

44、,包含兩個因子,請針對該數據進行分析,判斷這兩個因子對Sandy的影響狀況,資料見數據表“Two Way ANOVA . jmp”操作:分析擬合模型Two Way ANOVA . jmp119Two Way ANOVA12345假設檢驗基本概念平均值檢驗變異數檢驗比例檢驗單因子方差分析1201 sample p檢驗當某廠工程師告訴你,目前廠內不良率已控制在3.5% 以下時,你如何通過數據分析確認是否要相信他的結論?121n 案例A61 sample p 檢驗以前,32A04的defect發生率為9%,對相應制程進行了改善,從新抽取300個產品,其中25個存在defect。問:defect是否真

45、的得到改善? =0.05122解:本題要驗證改善后的是defect發生率是否低于9%,屬于單樣本;Y取值為“發生defect ”未發生defect”,為離散型資料,只能用頻數來衡量;故,該題用 1 sample p進行驗證。1 sample p 檢驗根據實際情況可設為 H0: p p0 V.S H1 : p p0 或 H0: p = p0 V.S H1 : p p0 H0: p 9% V.S H1 : p 9% (取.5) 注意:取樣時樣本 n 需足夠大,一般需滿足 np5,且n(1-p) 51231 sample p 檢驗124打開 A6_1-p test. jmp 檔案功能選單:分析 分布

46、第二層平臺選單檢驗概率 P-value=0.039080.05 ,無法拒絕H0 ;改善后defect并沒有降低,改善措施無效。 輸入要檢驗的概率值 選擇相應的對立假設H12 sample p 檢驗1. 如何確認兩個機臺的良率或不良率是否有差異?2. 如何確認對策實施前后,良率是否有提升?1252 sample p 檢驗126n 案例A7:55UD模組組裝不良率降低 問:如何驗證BLU轉板機速度是否對55UD模組組裝不良率有影響?55UD模組組裝不良率8.5% Y XBLU異物不良率2.28%BLU臟污不良率1.91%顯示異常不良率2.14%風槍風力1BLU轉板機速度Panel翻轉速度Panel

47、在BLU位置吸盤作業高度2 sample p 檢驗127現搜集轉板機速度為1m/s 和 0.8m/s條件下的產品狀況,均搜集200片樣品,記錄如下:BLU轉板機速度產品狀況數量1m/sOK1711m/sNG290.8m/sOK1850.8m/sNG15X(BLU轉板機速度)取兩水平,屬于兩樣本;Y取值為“OK”NG”,為離散型資料,只能用頻數來衡量;故,該題用 2 sample p進行驗證。2 sample p 檢驗根據實際情況可設為 H0: p1 p2 V.S H1 : p1 p2 或 H0: p1 = p2 V.S H1 : p1 p2 注意:取樣時樣本 n 需足夠大,一般需滿足 np5,

48、且n(1-p) 51282 sample p 檢驗129打開 A7_2 sample p. jmp 檔案功能選單:分析 以X擬合Y平臺選單比例均值分析 1. P-value=0.0274檢驗均值分布檢驗均值分布檢驗概率 T 統計量分析 配對以X擬合Y 方差不齊以X擬合Y t 檢驗NA (使用Excel)以X擬合Y 雙樣本比例檢驗 以X擬合Y 均值/方差分析/合并的t兩組或兩組以上樣本檢定均值F 統計量分析 以X擬合Y均值/方差分析檢驗方法1-Z test1-t test2-Z test2-t testPaired t test2-variance test1-variance test1-p

49、test2-p test2-t testOne Way ANOVA分布檢驗標準差 檢定變異數近似F 統計量分析 以X擬合Y不等方差修正的Bartlett檢驗130131假設檢驗總結注意:假設檢驗結果,若無法拒絕原假設H0,有可能是因為樣本量太少。 132相關與回歸如果同時獲得兩個或多個連續型變量的觀測值,就可以用相關和回歸的方法進行分析。例如:液晶使用量 和 Filter導致的EQ down身高 和 體重ETCH time 和 GE CD相關與回歸分析133相關與回歸分析n 相關分析與回歸分析的任務和關系:不知道兩個連續型變量之間是否存在某種關系樣本數據確定兩個變量是否有關,若相關可考慮進行回

50、歸相關分析將兩個變量之間的關系用數學模型(數學表達式)呈現,并可進行預測回歸分析134n 相關分析的目的:判斷兩個變量之間是否存在某種關系;如:正相關、負相關、曲線相關、無相關等;相關分析n 相關分析的方式:05101520012345678910 11 12制程特性值Y工程系數X135n 散點圖針對X、Y之間的關系,通過散點圖獲得大概的印象相關分析051015200 1 2 3 4 5 6 7 8 9 1011121314151617YX強正相關散點圖10246810121416180 1 2 3 4 5 6 7 8 9 1011121314151617YX強負相關散點圖30246810121416180123456789 10 11 12YX弱正相關散點0246810121416180123456789 10 11 12YX弱負相關散點圖4024681012141618012345678910 11YX

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論