多元統(tǒng)計(jì)分析課后習(xí)題解答第四章_第1頁
多元統(tǒng)計(jì)分析課后習(xí)題解答第四章_第2頁
多元統(tǒng)計(jì)分析課后習(xí)題解答第四章_第3頁
多元統(tǒng)計(jì)分析課后習(xí)題解答第四章_第4頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第四章判別分析4.1簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答:設(shè) p維歐幾里得空間中的兩點(diǎn)X=和Y=。則歐幾里得距離為。歐幾里得距離的局限有在多元數(shù)據(jù)分析中,其度量不合理。會(huì)受到實(shí)際問題中量綱的影響。設(shè)X,Y是來自均值向量為,協(xié)方差為的總體 G 中的 p 維樣本。則馬氏距離為D(X,Y)=。當(dāng)即單位陣時(shí),D(X,Y)=即歐幾里得距離。因此,在一定程度上, 歐幾里得距離是馬氏距離的特殊情況, 馬氏距離是歐幾里得距離的推廣。4.2試述判別分析的實(shí)質(zhì)。答:判別分析就是希望利用已經(jīng)測(cè)得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。設(shè)R1, R2

2、, , Rk 是 p 維空間 R p 的 k 個(gè)子集,如果它們互不相交,且它們的和集為,則稱為的一個(gè)劃分。判別分析問題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對(duì)p 維空間構(gòu)造一個(gè)“劃分”,這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。4.3 簡述距離判別法的基本思想和方法。答:距離判別問題分為兩個(gè)總體的距離判別問題和多個(gè)總體的判別問題。其基本思想都是分別計(jì)算樣本與各個(gè)總體的距離(馬氏距離),將距離近的判別為一類。兩個(gè)總體的距離判別問題設(shè)有協(xié)方差矩陣相等的兩個(gè)總體1 和2,其均值分別是1 和2,對(duì)于一個(gè)新的樣品,GGX要判斷它來自哪個(gè)總體。計(jì)算新樣品X到兩個(gè)總體的馬氏距離2122D( X,G)和 D( X,G)

3、,則X,D2( X,G1)D2( X,G2 )X,D2( X,G1) > D2( X, G2,具體分析,D2(X,G1) D2(X,G2)(X 1) 1 (X 1) ( X 2 ) 1 (X 2 )X 1 X 2X 11 111 (X 1X 2X 12 212 )2X 1 (21) 1112122X 1(21) (12) 1 (1 2 )2 X 1( )122122( X) 2(X)記 W (X )( X)則判別規(guī)則為X,W(X)X,W(X)<0多個(gè)總體的判別問題。設(shè)有 k 個(gè)總體G1,G2 , ,G k,其均值和協(xié)方差矩陣分別是, , 和 , , ,12k12k且1 2k到哪個(gè)總

4、體的距離最小就屬。計(jì)算樣本到每個(gè)總體的馬氏距離,于哪個(gè)總體。具體分析, D2(X,G )( X ) 1 (X )X 1X 2 1X 1X 1X2(IXC )取 I 1 , C1 1 ,1,2, k 。2可以取線性判別函數(shù)為W(X) IXC,1,2, k相應(yīng)的判別規(guī)則為XGi若 Wi (X )max( IX C )1k4.4簡述貝葉斯判別法的基本思想和方法?;舅枷耄涸O(shè) k 個(gè)總體 G1 , G2 ,G k ,其各自的分布密度函數(shù)f1 (x), f 2 (x), f k ( x) ,假設(shè) kk個(gè)總體各自出現(xiàn)的概率分別為q1 ,q2 ,q k , qi0 ,qi1 。設(shè)將本來屬于 G i總體的樣品

5、i 1錯(cuò)判到總體 G j 時(shí)造成的損失為C ( j | i) , i, j 1,2, , k 。設(shè) k 個(gè)總體 G1 , G 2 ,G k 相應(yīng)的 p 維樣本空間為R(R1, R2 , Rk ) 。在規(guī)則 R 下,將屬于 Gi的樣品錯(cuò)判為 G j 的概率為P( j | i , R)fi (x)dxi , j1,2, kijRj則這種判別規(guī)則下樣品錯(cuò)判后所造成的平均損失為kr (i | R)C ( j | i )P( j | i , R)i 1,2, , kj1則用規(guī)則 R 來進(jìn)行判別所造成的總平均損失為kg(R)qi r (i , R)i1kkqiC ( j | i) P( j | i , R

6、)i1j 1貝葉斯判別法則,就是要選擇一種劃分R1, R2 , Rk ,使總平均損失g ( R) 達(dá)到極小。kk基本方法: g( R)qiC ( j | i )P( j | i , R)i 1j 1kkqiC ( j | i)f i (x )dxi 1j 1Rjkk(qi C ( j | i ) fi (x )dxRji 1j 1kk令qiC ( j | i ) fi (x)hj (x) ,則g ( R)h j ( x)dxi1R jj 1k若有另一劃分 R*(R1*,R2* , Rk* ) , g( R* )* h j (x)dxj1R j則在兩種劃分下的總平均損失之差為g( R) g( R

7、 * )kk* hi (x ) h j (x)dxR Rji1ij 1因?yàn)樵?Ri 上 hi(x)hj (x) 對(duì)一切 j成立,故上式小于或等于零,是貝葉斯判別的解。R(R1, R2, , Rk )Ri x | hi(x) min hj (x)i 1,2, ,k從而得到的劃分為1 j k4.5簡述費(fèi)希爾判別法的基本思想和方法。答:基本思想:從 k 個(gè)總體中抽取具有 p 個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù)U (X)u1 X1u2 X 2Lup X pu X系數(shù)u(u1 , u2 , up )可使得總體之間區(qū)別最大,而使每個(gè)總體內(nèi)部的離差最小。將新樣品的p個(gè)指標(biāo)值代入線性

8、判別函數(shù)式中求出U( X)值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。4.6試析距離判別法、貝葉斯判別法和費(fèi)希爾判別法的異同。答: 費(fèi)希爾判別與距離判別對(duì)判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對(duì)來說較為簡單。 當(dāng) k=2 時(shí),若則費(fèi)希爾判別與距離判別等價(jià)。當(dāng)判別變量服從正態(tài)分布時(shí),二者與貝葉斯判別也等價(jià)。 當(dāng)時(shí),費(fèi)希爾判別用作為共同協(xié)差陣,實(shí)際看成等協(xié)差陣,此與距離判別、貝葉斯判別不同。距離判別可以看為貝葉斯判別的特殊情形。貝葉斯判別的判別規(guī)則是X, W(X)X,W(X)<lnd距離判別的判別規(guī)則

9、是X,W(X)X,W(X)<0二者的區(qū)別在于閾值點(diǎn)。當(dāng) q1q2 , C (1 | 2)C (2 | 1) 時(shí), d1, ln d 0 。二者完全相同。4.7設(shè)有兩個(gè)二元總體和,從中分別抽取樣本計(jì)算得到,假設(shè),試用距離判別法建立判別函數(shù)和判別規(guī)則。樣品X=(6, 0)應(yīng)屬于哪個(gè)總體?解:=,=,=即樣品 X 屬于總體4.8 某超市經(jīng)銷十種品牌的飲料,其中有四種暢銷,三種滯銷,三種平銷。下表是這十種品牌飲料的銷售價(jià)格(元)和顧客對(duì)各種飲料的口味評(píng)分、信任度評(píng)分的平均數(shù)。銷售情況產(chǎn)品序號(hào)銷售價(jià)格口味評(píng)分信任度評(píng)分12.258暢銷22.56733.03943.28652.876平銷63.587

10、74.89881.734滯銷92.242102.743 根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù),并根據(jù)此判別函數(shù)對(duì)原樣本進(jìn)行回判。 現(xiàn)有一新品牌的飲料在該超市試銷,其銷售價(jià)格為3.0,顧客對(duì)其口味的評(píng)分平均為8,信任評(píng)分平均為5,試預(yù)測(cè)該飲料的銷售情況。解:增加 group 變量,令暢銷、平銷、滯銷分別為group1、 2、 3;銷售價(jià)格為 X1,口味評(píng)分為 X2,信任度評(píng)分為 X3,用 spss 解題的步驟如下:1. 在 SPSS窗口中選擇Analyze Classify Discriminate ,調(diào)出判別分析主界面,將左邊的變量列表中的“group ”變量選入分組變量中,將X123、X、X 變量選入

11、自變量中, 并選擇 Enter independents together單選按鈕, 即使用所有自變量進(jìn)行判別分析。2. 點(diǎn)擊 Define Range 按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1 到 3,所以在最小值和最大值中分別輸入1 和 3。單擊 Continue按鈕,返回主界面。如圖 4.1圖 4.1判別分析主界面3.單擊 Statistics按鈕 ,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients 欄中的 Fisher :s給出 Bayes 判別函數(shù)的系數(shù)。 (注意:這個(gè)選項(xiàng)不是要給出 Fisher 判別函數(shù)的系數(shù)。 這個(gè)復(fù)選框的名字之所以

12、為 Fisher s,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher 提出來的。這里極易混淆,請(qǐng)讀者注意辨別。 )如圖 4.2。單擊 Continue 按鈕,返回主界面。圖 4.2 statistics 子對(duì)話框4. 單擊 Classify 按 鈕,彈出 classification 子對(duì)話框,選中 Display 選項(xiàng)欄中的 Summary table 復(fù)選框, 即要求輸出錯(cuò)判矩陣, 以便實(shí)現(xiàn)題中對(duì)原樣本進(jìn)行回判的要求。如圖 4.3。圖 4.3 classification 對(duì)話框5. 返回判別分析主界面,單擊OK 按鈕,運(yùn)行判別分析過程。1) 根據(jù)判別分析的結(jié)果建立 Baye

13、s 判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應(yīng)類的Bayes 判別函數(shù)系數(shù)。 由此可建立判別函數(shù)如下:Group1 :Y181.84311.689 X112.297 X 216.761X 3Group2 :Y294.53610.707 X113.361X 217.086X 3Group3 :Y317.4492.194 X 14.960 X 26.447 X 3將各樣品的自變量值代入上述三個(gè) Bayes 判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。Classification Function Coefficientsgr

14、oup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher's linear discriminant functions表4.1Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對(duì)樣本進(jìn)行回判,結(jié)果如表4.2。從中可以看出在4種暢銷飲料中,有3種被正確地判定,有1種被錯(cuò)誤地判定為平銷飲料,正確率為75% 。在 3種平銷飲料中,有2種被正確判定,有 1種被錯(cuò)誤地判定為暢銷飲料,正確率為 66.7%。 3種滯銷飲料均正確判定。整體的正確率為 80.0%。C

15、lassification ResultsaPredicted Group Membershipgroup123TotalOriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a. 80.0% of original grouped cases correctly classified.表4.2錯(cuò)判矩陣2) 該新飲料的 X 13.0, X28, X35 ,將這 3個(gè)自變量代入上一小題得到的 Bayes判別函數(shù), Y2的值最大,該飲料預(yù)計(jì)平銷。也可通過在原樣本中增加這一新樣本,重復(fù)上述的判別過程,

16、并在 classification 子對(duì)話框中同時(shí)要求輸出 casewise results ,運(yùn)行判別過程,得到相同的結(jié)果。4.9 銀行的貸款部門需要判別每個(gè)客戶的信用好壞(是否未履行還貸責(zé)任) ,以決定是否給予貸款??梢愿鶕?jù)貸款申請(qǐng)人的年齡( X1 )、受教育程度( X 2 )、現(xiàn)在所從事工作的年數(shù)( X 3 )、未變更住址的年數(shù) (X 4 )、收入(X5 )、負(fù)債收入比例 (X6 )、信用卡債務(wù) (X 7)、其它債務(wù)(X 8 )等來判斷其信用情況。下表是從某銀行的客戶資料中抽取的部分?jǐn)?shù)據(jù),根據(jù)樣本資料分別用距離判別法、 Bayes判別法和 Fisher 判別法建立判別函數(shù)和判別規(guī)則。某客

17、戶的如上情況資料為( 53, 1, 9, 18, 50, 11.20, 2.02,3.58),對(duì)其進(jìn)行信用好壞的判別。目前信用客戶X1X 2X3X 4X 5X6X 7X8好壞序號(hào)123172316.600.341.71已履行還2341173598.001.812.913422723414.600.94.94貸責(zé)任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行還7291131427.401.461.6583221167523.307.769.72貸責(zé)任928223236.400.191.291026143271

18、0.502.47.36解:令已履行還貸責(zé)任為 group0 ,未履行還貸責(zé)任為 group1。令( 53,1,9,18,50,11.20,2.02,3.58)客戶序號(hào)為 11, group 未知。用 spss 解題步驟如下:1. 在 SPSS窗口中選擇 AnalyzeClassify Discriminate ,調(diào)出判別分析主界面, 將左邊的變量列表中的“group ”變量選入分組變量中,將X1X 6 變量選入自變量中,并選擇 Enter independents together單選按鈕,即使用所有自變量進(jìn)行判別分析。2.點(diǎn)擊 Define Range 按鈕,定義分組變量的取值范圍。本例中分

19、類變量的范圍為0 到1,所以在最小值和最大值中分別輸入0 和 1。單擊 Continue 按鈕,返回主界面。3.單擊 Statistics 按鈕 ,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients 欄中的 Fisher s和Unstandardized 。單擊 Continue 按鈕,返回主界面。4.單擊 Classify 按 鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewise results ,以輸出一個(gè)判別結(jié)果表。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊Continue 按鈕。5. 返回判別分析主界面,單擊OK 按鈕,運(yùn)行判別分析過程。1)

20、用費(fèi)希爾判別法建立判別函數(shù)和判別規(guī)則:未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測(cè)的樣品觀測(cè)值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。具體見表4.3 。表 4.3 未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由此表可知, Fisher 判別函數(shù)為:Y10.7940.32X 16.687X 20.173X 30.357X 40.024X 50.710X 60.792X 72.383X 8用 Y 計(jì)算出各觀測(cè)值的具體坐標(biāo)位置后,再比較它們與各類重心的距離,就可以得知分類,如若與 group0 的重心距離較近則屬于 group0,反之亦然。各類重心在空間中的坐標(biāo)位置如表 4.4 所示。表 4.4

21、 各類重心處的費(fèi)希爾判別函數(shù)值用 bayes 判別法建立判別函數(shù)與判別規(guī)則,由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等,所以距離判別法與bayes 判別完全一致。如表 4.5 所示, group 欄中的每一列表示樣品判入相應(yīng)列的Bayes 判別函數(shù)系數(shù)。 由此可得,各類的Bayes 判別函數(shù)如下:G0118.6930.340 X 194.070X 21.033X34.943X 42.969X 513.723X 610.994 X 737.504 X 8G1171.2960.184X1126.660X 21.874X 36.681X 43.086 X 517.182X 67.13

22、3X749.116 X 8表 4.5 Bayes 判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個(gè) Bayes 判別函數(shù),得到兩個(gè)函數(shù)值。比較這兩個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品該判入哪一類。2)在判別結(jié)果的Casewise Stastics表中容易查到該客戶屬于group0,信用好。4.10 從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個(gè)病人進(jìn)行四項(xiàng)生化指標(biāo)的化驗(yàn):血清銅蛋白X1 、藍(lán)色反應(yīng) X 2 、尿吲哚乙酸 X3 和中性硫化物 X 4 ,數(shù)據(jù)見下表。試用距離判別法建立判別函數(shù),并根據(jù)此判別函數(shù)對(duì)原樣本進(jìn)行回判。類別病人序號(hào)X1X 2X 3X 412281342011胃2245

23、1341040癌32001671227患者417015078510016720146225125714萎胃7130100612炎縮815011776患性91201331026者10160100510非111851155191217012564胃炎13165142531510011772解:令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為group1、group2 、group3,由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等,所以距離判別法與bayes 判別完全一致。用 spss 的解題步驟如下:1.在 SPSS窗口中選擇 Analyze Classify Discriminate ,調(diào)出判別分析主界面,將左邊的變量列表中的 “group ”變量選入分組變量中, 將 X1、X2、X3、 X4 變量選入自變量中, 并選擇 Enter independents together 單選按鈕,即使用所有自變量進(jìn)行判別分析。2.點(diǎn)擊 Define Range 按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論