首師多元統計分析_第1頁
首師多元統計分析_第2頁
首師多元統計分析_第3頁
首師多元統計分析_第4頁
首師多元統計分析_第5頁
已閱讀5頁,還剩90頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章判別分析§3.1§3.2§3.3§3.4引言距離判別貝葉斯判別費希爾判別§3.1判別分析的例子:引言1.有償付力與無償付力的責任保險公司。測量變量:總資產,股票與債券價值,股票與債券的市值,損失盈余,簽定的保費金額。2.非潰瘍胃病組(胃功能紊亂者)與常”者)。,組(“正測量變量:焦慮,依賴性,感,完美的量度3.兩種野草。測量變量:萼片與花瓣的長度,花瓣裂縫的深度,苞的長度,花粉直徑。4.新的速購者與遲購者。測量變量:教育,收入,家庭大小,過去更換品牌的次數。5.良好信用與不良信用風險。測量變量:收入,家庭規模。,數目,判別分析要解決的問題

2、:在已知歷史上用某些方法已把研究對象分成若干組的情況下,來判定新的觀測樣品應歸屬的組別。每一組(類¢ 或總體)中所有樣品的p維指標值xp )x =了該組的一個p元總體分布,我們試圖主要從各組的總體分布或其分布特征出發新樣品 x 是來自哪一組。來三種常用的判別分析方法:距離判別、貝葉斯(Bayes)判別、費希爾(Fisher)判別。§3.2距離判別一、兩組距離判別二、多組距離判別一、兩組距離判別設組1和2的均值分別為1和2,協差陣分別為1和2(1,2>0) ,x是一個新樣品(p維),現欲它來自哪一組。1. 1=2=時的判別2. 12時的判別1. 1=2=時的判別x,p

3、2 )ìíî判別規則:)x,p2d 2 ( x,p )2令¢x - )¢ -1 ( x - ()()()-=x - x - -11122= a¢( x - ) = 1 ( () ,)-a = - 1+ 其中。12122上述判別規則可簡化為若W ( x ) ³ 0若W ( x ) < 0ì x Îp1,í x Îp,î2稱W(x)為兩組距離判別的(線性)判別函數,稱a為判別系數。誤判概率P (2 |1) = P (W ( x ) < 0 | x Îp1 )

4、P (1| 2) = P (W ( x ) ³ 0 | x Îp 2 )設1Np(1,), 2Np(2,),則誤判概率P (2 |1) = P (1| 2) = F æ - D öç2 ÷èø¢D =( - )()- - 1其中是兩組之間馬氏距離。1212(即越大),兩個兩個正態組越是誤判概率就越小,其判別效果也就越佳。當兩個正態組很接近時,兩個誤判概率都將很大。組之間差異的判別界定對假設H0:1 =2,H1:12進行檢驗,若接受原假設H0 ,則說明兩組均值之間無顯著差異,此時作判別分析一般是徒勞的;若檢

5、驗拒絕 H0 ,則兩組均值之間雖然存在顯著差異,但這種差異對進行有效的判別分析未必足夠大(作判別分析未必有實際意義),故還應看誤判概率是否超過了一個合理的水平。例3.1設p=1,1和2的分布分別為N(1,2)和N(2,2),1,2,2均已知,12,則判別系數a=(12)/ 20,W ( x) = a ( x - m )判別函數:ì x Îp1,若x £ m若x > m判別規則:íx Îp,î2誤判概率:Dm - m2æöæö()()P 2 |1 = P 1| 2 = F-= F1ç

6、;2 ÷ç÷2sèøèø誤判概率圖示:抽取樣本估計有關未知參數x1n是來自組 的樣本,設11x2n是來自組 的樣本,n +n 2p,2122則1和2的一個無偏估計分別為n1n21å x2 j j=1x2 = nnj=112的一個無偏估計為1( A + A )=Sp12+ n- 2n12其中 ¢ni)= å- xi = 1, 2Ai,ijij=1W ( x ) = a¢( x - x )估計的判別函數為)()-x, a = Sx - x1其中2p12其判別規則為若W ( x ) 

7、9; 0若W ( x ) < 0ïì x Îp ,1íïî x Îp 2 ,若1和2都為正態組,則兩個誤判概率P(2|1)和P(1|2)可估計為æD öP (2 |1) = P (1| 2) = F ç -è¢÷2 øD =( x - x)()-x - x1其中S。12p12該誤判概率估計有偏,但大樣本時偏差影響可忽略。誤判概率的非參數估計若兩組不為正態組,則P(2|1) 和 P(1|2) 通常有三種非參數估計方法:令n(2|1)為樣本中來自1而誤判

8、為2的個數,n(1|2)為樣本中來自2而誤判為1的個數,則P(2|1) 和P(1|2) 可估計為(1)P (2 |1) = n (2 |1) ,P (1| 2) = n (1| 2)n1n2簡單、直觀,且易于計算。但它給出的估計值通常偏低,除非n1和n2都非常大。其是被用來構造判別函數的樣本數據又被用于對這個函數進行評估,其結果自然就傾向有利于所構造的判別函數。在誤判概率的估計中,構造判別函數中使用過的樣本數據在對該函數作出評估時已不能很好地代表總體了。(2)將整個樣本一分為二,一部分作為訓練樣本,用于構造判別函數,另一部分用作驗證樣本,用于對判別函數進行評估。誤判概率用驗證樣本的被誤判比例來

9、估計,得到的估計是無偏的。該方法缺陷:(i)(ii)需要用大樣本;在構造判別函數時,只用了部分樣本數據,損失了過多有價值的信息。與使用所有的樣本數據構造判別函數相比,該方法將使真實的誤判概率上升。該缺陷隨樣本容量的增大而逐漸減弱。(3)交叉驗證法或刀切法。從組1中取出 x1j,用該組其余n11個觀測值和組2 的 n2 個觀測值構造判別函數, 然后對x1j進行判別,j=1,2,n1。同樣,從組2中取出x2j,用這一組的其余n21個觀測值和組1的n1個觀測值構造判別函數,再對x2j作出判別,j=1,2,n2。令 n*(2|1)為樣本中來自1而誤判為2個數,n*(1|2)為樣本中來自2而誤判為1個數

10、。則兩個誤判概率P(2|1)和P(1|2)的估計量為n* (2 |1)n* (1| 2)P (2 |1) =P (1| 2) =,n1n2它們都是接近無偏的估計量。避免了樣本數據在構造判別函數的同時又被用來對該判別函數進行評價,造成不合理的信息重復使用;避免了構造判別函數時樣本信息的損失。2. 12時的判別判別規則x,p 2 )ìíî)x,p2可采用另一種形式選擇判別函數為:()x,p22¢¢()()()()=x - -x - -x - -x - 11111222它是x的二次函數,相應的判別規則為若W ( x ) £ 0若W ( x

11、) > 0ì x Îp1,í x Îp ,î2例3.2.在例3.1中,設1和2這兩個組的s 和s222方差不相同,分別為,這時1x - mid ( x,p ) =,i = 1, 2isi當1<x<2時,判別函數可簡單地取為) = x - m1 - m2- xW ( x) = d ( x,p ) - d ( x,pss1212= s1 + s 2æs m + s1m2ös+ s 2(x - m* )x -=211ç÷s ss + ss s12èø1212式中s m +

12、s mm*=2112s1 + s 2是1與2判別規則為:平均,稱為閾值點,如圖3.1。ì x Îp ,若x £ m*若x > m*1íîx Îp,2圖3.1方差不同時兩組判別的閾值點實際應用中,1和2,1和2一般都是未知的,可由相應的樣本值代替。二、多組距離判別設有k個組1,2,k,它們的均值分別是1,2,k,協方差矩陣分別是1(>0),2(>0),k(>0),x到總體i的平方馬氏距離:¢()()()x,p-=x - x - ,i = 1, 2,L, k21diiiix,pi )d 2判別規則:1 i

13、k若1=2=k=,則上述判別規則可簡化。d2(x,i)=(xi)1(xi)=x1x2(Iix+ci)1¢I = -1 , c= - , i = 1, 2,L, k-1其中。iiiii2判別規則簡化為若 Il¢x + cl= max( Ii¢x + ci )x Îpl ,1£i£k其中Iix+ci為線性判別函數。ì x Îp1 ,若I1¢x + c1 ³ I2¢ x + c2當k=2時,í x Îp ,若I ¢x + c < I ¢ x +

14、cî21122實際中1,2,k和1,2,k一般都是未知的,它們的值可由相應的樣本估計值代替。xin是從組 中抽取的樣本,則 的iii估計:ni1å xijj =1xi = n1(i=1,2,k)。1=2=k=的情形無偏估計為:k= 1å(n -1) SSpiin - ki=1ni1åj =1Si = n其中n=n1+n2+nk,-1ii為第i組樣本協方差矩陣。實際應用中使用的判別規則是()x Îpl ,其中¢¢若I x += max I x+ ccllii1£i£k= - 1 x¢S -1x ,

15、 i = 1, 2,L, kI= S -1x , cipiiipi21,2,k不全相等情形i的估計為 Si(i=1,2,k)。實際應用中使用判別規則:x,pi )d21£ £其中)()- x,i = 1, 2,L, k1Sxiii1,2,k是否假定為相等實際應用中需要關心1,2,k之間是否存在著明顯的差異。若沒有明顯差異,則考慮假定1=2=k=,此時判別函數為線性函數。若對是否假定1=2=k=拿不準,則可采用相等和不相等兩種情形下的相應判別規則分別進行判別,然后用交叉驗證法來比較它們的誤判概率來決定。例3.3.對的企業收集它們在前兩年的年度財務數據,同時對財務良好的企業也收

16、集同一時期的數據。數據涉及四個變量:x1=現金流量/總債務, x2=凈收入/總資產,x3=x4=資產/債務,資產/凈銷售額。數據列于表3.2.,組為企業。企業,組為非表3.2.狀況數據x1x2x3x4x1x2x3x4編號組別編號組別1234567891011121314151617181920212223-0.45-0.560.06-0.07-0.1-0.140.04-0.070.07-0.14-0.230.070.01-0.280.150.37-0.080.050.010.12-0.280.510.08-0.41-0.310.02-0.09-0.09-0.070.01-0.06-0.01-0

17、.14-0.30.020-0.230.050.11-0.080.0300.11-0.270.10.021.091.511.011.451.560.711.51.371.371.420.331.312.151.191.881.991.511.681.261.141.272.492.010.450.160.40.260.670.280.710.40.340.430.180.250.70.660.270.380.420.950.60.170.510.540.5324252627282930313233343536373839404142434445460.380.190.320.310.12-0.0

18、20.220.170.15-0.10.140.140.150.160.290.54-0.330.480.560.20.470.170.580.110.050.070.050.050.020.080.070.05-0.01-0.030.070.060.050.060.11-0.090.090.110.080.140.040.043.272.254.244.452.522.052.351.82.172.50.462.612.232.311.842.333.011.244.291.992.922.455.060.350.330.630.690.690.350.40.520.550.580.260.5

19、20.560.20.380.480.470.180.440.30.450.140.13 æ -0.0690 öç -0.0814 ÷æ 0.2352 öç 0.0556 ÷= ç÷, x2= ç÷x1ç 1.3667 ÷ç 2.5936 ÷ç 0.4268 ÷ç0.4376 ÷èø0.56950.42010.52040.06880.20420.05700.20600.0044&

20、#232;0.68990.52043.28610.65561.79830.206025.12260.7832ø0.0829 öæ 0.8826ç 0.56950.0688 ÷= ç÷0.6556 ÷20S1ç 0.6899ç 0.08290.8916 ÷è1.12920.2042ø-0.1609 öæç0.0044 ÷= ç÷0.7832 ÷24S2ç 1.7983ç -0.1

21、6090.6331 ÷èø的估計為-0.0018öæ 0.04570.01760.01080.01650.00170.05660.01650.64570.0327ç0.0017 ÷0.01761(20S1 + 24S2)= ç÷0.0327 ÷S p =ç0.056644ç -0.00180.0347 ÷è-106.2364 262.20583.6899-21.5137ø-3.8556 3.68991.9020-2.1693æ67.96

22、9212.2182öç -106.2364-21.5137 ÷= ç÷-2.1693 ÷S -1pç-3.855612.2182ç32.5632 ÷èøæöæö4.0355.295ç -18.387 ÷ç -10.020 ÷= ç÷= ç÷3.306÷-1-1I1 = Sx1=, ISx2pç1.616÷2pçç 12

23、.194÷ç÷9.949èøèø于是= - 1 x¢S -1x= - 1 x¢ S -1x= -6.754= -4.382,cc11p122p222I¢x + c = 4.035x +12.194x - 4.3821134I¢ x + c = 5.295x + 9.949x - 6.7542234對某個未判企業x=(0.16, 0.10, 1.45, 0.51),計算得I¢x + c = 5.373,I¢ x + c = 3.2681122按判別規則(5.2.16)

24、,該企業被判為企業。表5.2.3使用(5.2.7)式的判別情況判別為真實組183124在表5.2.3中,估計的誤判概率為P (2 |1) = n (2 |1) = 3 = 0.143,P (1| 2) = n (1| 2) = 1 = 0.04n121n225使用(5.2.8)式的交叉驗證法,判別情況列于表3.3.。表3.3.使用(5.2.8)式的判別情況判別為真實組182323在表3.3.中,估計的誤判概率為3P (2 |1) =P (1| 2) = 0.143,212= 0.0825如果使用判別規則(5.2.15)進行判別,則由(5.2.7)式估算出的誤判概率為21P (2 | 1) =P

25、 (1 | 2) = 0.095,= 0.042125由(5.2.8)式估算出的誤判概率為41P (2 | 1) =P (1 | 2) = 0.190,= 0.042125例5.2.3中,在過去兩年至今后兩年企業注所處的將企業的大環境保持穩定的前提下,可值x=(x1,x2,x3,x4)代入例中樣本所構造的判別函數來判別該企業兩年后是否會。§3.3貝葉斯判別一、最大后驗概率準則二、最小平均誤判代價準則距離判別不合適的例子1(校組):N1=2000, 1=5002(校本科生組):N2=8000, 2=400組中x500的有1000人,本科生組中x500的有2000人。某學生的x=500,

26、試判別該生歸屬哪一組。如采用距離判別法則不妥,需利用先驗概率:20008000= 0.2,p = 0.8p121000010000一、最大后驗概率準則設有k個組1, 2, k,且組i的概率密度為fi (x) ,樣品x來自組i的先驗概率為pi ,i=1,2,k 滿足p1+p2 +pk =1 。則 x 屬于i的后驗概率為fi ( x )piP (p| x ) =,i = 1, 2,L, kikå pifi ( x )i=1最大后驗概率準則是采用如下的判別規則:x1£i£k例5.3.1設有1、2和3三個組,欲判別某樣品x0屬于何組,已知p1=0.05,f1(x0)=0.

27、10,p2=0.65,f2(x0)=0.63,p3=0.30,f3(x0)=2.4。現計算x0屬于各組的后驗概率如下:p1 f1 ( x0 )=0.05´ 0.10P (p | x ) =100.05´ 0.10 + 0.65´ 0.63 + 0.30´ 2.43å pi( x0 )fii=10.005= 0.0041.1345p2 f2 ( x0 )= 0.65´ 0.63 = 0.361P (p| x ) =2031.1345å pi( x0 )fii=1p3 f3 ( x0 )= 0.30´ 2.4 = 0.

28、635P (p| x ) =3031.1345å pii=1( x0 )fi所以應將x0判為組3。正態組情形設iNp(i,i),i>0, i=1,2,k。組i的概率密度為fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1 (xi)是x到i的平方馬氏距離。各情形的后驗概率可表達:éùúû12()x,pexp -2DêëiP (pi | x ) =ù ,i = 1, 2,L, kké1åexp ê-D2 ( x,p )úi

29、35;x,p2ûi=1其中,(,)()x,p+ g + h= d22Diiii= ìlni若1, 2 ,L, k 不全相等gí0,i若 = = L = = îì-2lnpi ,12k若p1, p2 ,L, pk 不全相等= ïhí 0,= 1i若p = p= L = pïî12kki = 1, 2,L, k實際應用中,以上各式中的i和i(i=1,2,k)一般都是未知的,需用相應的樣本估計值代替。例5.3.2在例5.2.3中,已知企業所占的比例約為10%,即 p1=0.1,p2=0.9,假定兩組均為正態,且

30、1=2=,則未判企業x=(0.16, 0.10, 1.45, 0.51)的后驗概率為exp (I¢x + c + ln p )P (p1 | x=)111exp I x + c + ln p )+ exp(I¢ x + c()¢+ ln p111222=exp(5.373 + ln0.1)e3.07= 21.542 =45.1830.477exp(5.373 + ln0.1) + exp (3.268 + ln0.9e3.07e3.)+ lnexpx23.64145.183| x )= 0.523P+ ln p2 )+ ln+ expx + c2expx由于P(1

31、|x)<P(2|x),所以該企業被判為非破產企業,這與例5.2.3的結果正好相反,這正是先驗概率的作用結果。二、最小平均誤判代價準則例子: 1:的藥,2 :不的藥對于新樣品 xP (p1 | x ) = 0.6,P (p 2 | x ) = 0.4兩種誤判造成的損失一般是明顯不同的,根據后驗概率的大小進行判別不太合適。1. 兩組的情形2. 多組的情形1.兩組的情形設組1和2的概率密度函數分別為f1(x)和f2(x), 組1和2的先驗概率分別為p1和p2,p1+p2=1。又設將來自i的x判為l的代價為c(l|i), l,i=1,2, 代價矩陣表示為對于給定的判別規則,令R1=x:判別樣品x

32、1, R2=x:判別樣品x2顯然R1R2=,R1R2=xR1判x1,xR2判x2將1中的樣品x誤判到2的條件概率為P (21) =(x )dx2將2中的樣品x誤判到1的條件概率為P ( |2) =(x )dx1平均誤判代價(expected cost of misclassification),記為ECM,可計算為ECM = E éëc (l | i)ùû = c (1|1) P(i =1,l =1) + c (2 |1) P(i =1,l = 2)+ c (1| 2) P(i = 2,l =1) + c (2 | 2) P(i = 2,l = 2)=

33、c (2 |1)= c (2 |1)x Îp2 , x Î R1 )1 ) + c (1| 2)x Îp2 )px Î= c(2 |1) P(2 |1) p1 + c(1| 2) P(1| 2) p2最小平均誤判代價準則是采用使ECM達到最小的判別規則,即為) ³ c (1| 2) p2ì1ï)c (2 |1) pï21íïïî(*)c (1| 2) p 1<2c (2 |1) p12誤判代價之比最小ECM準則需要三個比值:密度函數比、誤判代價比和先驗概率比。誤判代價比

34、最富有實際意義,因為直接確定誤判代價會有一定定誤判代價比卻相對容易得多。例1,而確1 :應該做手術,2 :不應該做手術例21 :2 :畢業后應繼續攻讀博士畢業后應直接找工作(1)當p1=p2=0.5時,(*)式簡化為) ³ c (1| 2)ìï)c (2 | 1)c (1 | 2)c (2 | 1)ïíïïî<實際應用中,如果先驗概率未知,則取成相等。(2) 當 c(1|2)= c(2|1)時,(*)式簡化為ìíî該式等價于組數k=2時的 (5.3.2)式。實踐中,若誤判代價比無

35、法確定,則取比值1。p = c (1| 2)1(3) 當時,(*)式可簡化為c (2 |1)p2x ) x )ìíî判別新樣品x0的歸屬,只需比較在x0處的兩個概率密度值 f1(x0) 和 f2(x0)的大小。如將判別規則(3)用于例5.2.2中,則圖5.2.2中的閾值點將移至兩密度曲線相交點的正下方m處。圖5.2.2方差不同時兩組判別的閾值點例5.3.3設組1和2的概率密度函數分別為f1(x)和f2(x),又知c(1|2)=12個,c(2|1)=4,根據以往經驗給出p1=0.6,p2=0.4,個則最小ECM判別規則:) ³ 12 ´ 0.4

36、= 2ìï)4 ´ 0.6ïíïïî12 ´ 0.4<= 24 ´ 0.6假定在一個新樣品x0處算得f1(x0)=0.36,f2(x0)=0.24,于是f1 ( x0 ) = 0.36 = 1.5 < 2f2 ( x0 )0.24因此,判x0來自組2。現假定iNp(i,i), i>0, i=1,2。當1=2=時,(*)式可具體寫成若a¢( x - ) ³ ln é c (1| 2) p2ìx Îp ,ùú&#

37、251;ùïê c (2 |1) p1ïë1íé c (1| 2) pï x Îp若a¢( x - )ln êë2,úûïc (2 |1) p2î112() = + 其中 a=1( ),。1212當12時,(*)式可寫為ìïé c (2 |1) p1/2 ùp ) £ 2ln ê12úxê c (1| 2) p21/2ïúï&#

38、235;û21íïïïîé c (2 |1) p1/2 ùp ) > 2ln ê12úxê c (1| 2) p21/2úëû21其中d2(x,i)=(xi)i(xi), i=1,2。12.多組的情形設 fi(x)為組i的概率密度函數,i=1,2,k。令pi:組i的先驗概率,i=1,2,k。 c(l|i):將來自i的x判為l 的代價, l,i=1,2,k, 對l=i,c(i|i)=0。Rl:所有判為l的x的集合,l=1,2,k。對l,i=1,2,k,

39、將來自i的樣品x判為l條件概率P (l i ) = P (x )dxl平均誤判代價ECM = E éëc (l | i )ùû= ååc (l | i ) P ( x Îpi , x Î Rl )i=1l =1kkkk= ååc (l)( x Îpi )i ) Pi=1l =1kkkk= ååc (l | i ) P (l | i )pi = å pi åc (l | i ) P (l | i )l =1l ¹ii=1l =1i=1使E

40、CM達到最小的判別規則是kkåj =1 j ¹ix )c (i | j )j1£i£kj =1 j ¹l假定所有的誤判代價都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2,k,則kkkECM = å pi å P (l | i) = 1- å pi P (i | i)i=1i=1 l ¹ii=1為所有誤判概率之和,稱之為總的誤判概率。故此時的最小平均誤判代價準則也可稱為最小總誤判概率準則,并且上式可簡化為x1£i£k故最小總誤判概率準則與最大后驗概率準則是彼此等價

41、的,即:最大后驗概率準則等價于所有誤判代價相同時的最小平均誤判代價準則。注 令B=誤判,Ai=樣品來自i,i=1,2,k則利用全概率公式得總的誤判概率為kkkP ( B) = å P ( Ai ) P ( B | Ai ) = å pi å P (l | i )i=1i=1i=1 l ¹i總的正確判別概率為kkk()()åi=1åi=1 l ¹i()åi=1()P B= 1- PB = 1-=pPl | ip Pi | iii例5.3.4在例5.3.1中,假定誤判代價矩陣為現采用最小ECM準則進行判別。l=1:p2

42、f2(x0)c(1|2)+p3f3(x0)c(1|3)=0.65×0.63×20+0.30×2.4×60=51.39l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3)=0.05×0.10×10+0.30×2.4×50=36.05l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2)=0.05×0.10×200+0.65×0.63×100=41.95由于l=2時為最小值,故將x0判為2。§3.4費希爾判別費希爾判別(或稱典型判別)的基本思想

43、是投影(或降維):用p 維向量 x =的少數幾個線性組合(稱為判別式或典型變量)y1 = a1¢x, y2 = a2¢ x,L, yr= ar¢ xxp )¢(rp)來代替原始的p 個變量x1,x2, ,xp ,達到降維目的,并根據這r 個判別式y1,y2, ,yr對樣品的歸屬作出判別。降維將使判別更方便有效。一個說明性的二維例子費希爾判別需假定1=2=k=。設來自組i的p維觀測值為xij,j=1,2,ni,i=1,2,k,記k¢B = å nix )i=1-1) Si =ni¢kk)E = å(nii=1xii=

44、1j =11S=Epn - k式中ni1nkkåi=1,n = å nii=1=n xiij =1i則B是組間平方和及交叉乘積和,E是組內平方和及交叉乘積和,Sp是的無偏估計。設E1B的全部非零特征值依次為12s>0,其中的非零特征值個數 smin(k1,p),相應的特征向量依次記為t1,t2,ts(標準化為tiSpti=1, i=1,2,s),稱y1=t1x為第一判別式, y2=t2x為第二判別式,。一般地,稱yi=tix為第i判別式,i=1,2,s。由smin(k1,p)知,組數k=2時只有一個判別式,k=3時最多只有兩個判別式。特征值i表明了第 I 判別式yi對

45、區分各組的貢獻大小,yi的貢獻率:sålilii=1而前r(s)個判別式y1,y2,yr的累計貢獻率:rsåliålii=1i=1它表明y1,y2,yr的判別能力。實際應用中,如果前r個判別式的累計貢獻率已達到了一個較高的比例(如75%95%), 則可采用這r個判別式做判別。判別規則為x Îpl , 若rr(- ylj ) = min(y - yij )åj =1åj =122yjj1£i£kni= t¢j,i=1,2,k 。也可表達:其中yijijj =1ir若åj =1rå()2(

46、)2x Îp ,¢¢éùéùx - x= mintx - xtëûëûljlji1£i£kj =1有時使用中心化的費希爾判別式,即= ti¢ ( x - x ),i = 1, 2,L, syini1nkååij 為k個組的總均值。仍使用同上式中x=xi=1j =1的判別規則進行判別。對兩組判別,費希爾判別等價于協方差矩陣相等的距離判別,也等價于協方差矩陣相等且先驗概率和誤判代價也均相同的貝葉斯判別。例3.4.2費希爾于1936年的鳶尾花

47、(Iris)數據被廣泛地作為判別分析的例子。數據是對3種鳶尾花:剛毛鳶尾花(第組)、變色鳶尾花(第組)和弗吉尼亞鳶尾花(第組)各抽取一個容量為50的樣本,測量其花萼長(x1)、花萼寬(x2)、花瓣長(x3)、花瓣寬(x4), 表5.4.1。為mm,數據列于表5.4.1鳶尾花數據x1x2x3x4x1x2x3x4編號組別編號組別12345678910666768697071727374755064656763466962594656585046605757507763332828312834312232363027343229264436303414564656511451454810454116

48、14453515146156222152415323151821510421510422324767778798081828384851411421431441451461471481491505857725452716460634955666854515258676353272930344130313029242330283437352830333751425815155955485633404448171515515060151913164121181818101314142422417252 本題中,n1=n2=n3=50,n=n1+n2+n3=150。經計算æ 50.06 &

49、#246;æ 59.36 öæ 65.88 öç÷ç÷ç 29.74 ÷= ç÷,x÷3ç 55.52 ÷ç 2.46 ÷ç 13.26 ÷ç 20.26 ÷èøèøæ 58.433 öèøç 30.573÷31nåi=1= ç÷37.580x =n xiiç÷ç 11.993 ÷èø3B = å nx )¢-1995.267 1134.493-5723.960-2293.267ii=1æ7127.933 ö6321.21316524.840-5723.960 43710.280186

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論