




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1
第十八章判別分析
(DiscriminantAnalysis)
分類學是人類認識世界的基礎科學。判別分析是研究事物分類的基本方法,廣泛應用于自然和社會科學各個領域。2
判別分析內(nèi)容
*
第一節(jié)Fisher判別第二節(jié)最大似然判別法第三節(jié)Bayes公式判別法*第四節(jié)Bayes判別*第五節(jié)逐步判別*第六節(jié)判別分析中應注意的問題
(補充:SPSS統(tǒng)計軟件的操作和結(jié)果)*重點:判別分析概念、應用、結(jié)果解釋、注意的問題。3
概述
對事物分類,以便給予不同的處理。但事物的分類常需要多個指標,判別分析是通過多變量對事物進行分類方法。
醫(yī)學中的分類問題:疾病的預測
預測病人的預后(好或差),提出早期治療方法,降低嚴重后果。
4例:
新生兒缺氧缺血性腦病(HIE)預后(山東某醫(yī)院,2004年)
判別指標:
生后1分鐘阿氏評分(X1)、窒息復蘇時間(X2)、驚厥持續(xù)天數(shù)(X3)、急性期CT改變(X4)及治療3天后原始反射情況(X5).求得判別值Z=77,以Z>77作為預后不良的標準.不良預后:①腦性癱瘓,②嚴重智能低下5疾病診斷:對疾病的診斷,確定進一步的治療。
例:判別分析在糖尿病周圍神經(jīng)病變早期診斷中的應用(廣州南方醫(yī)院內(nèi)分泌科,2004年)
管理和經(jīng)濟學上分類:對研究單位分類,判別所屬類別,為管理者制定政策提供依據(jù)。例:根據(jù)經(jīng)濟指標,人均收入、人均工農(nóng)產(chǎn)值、人均消費水平等判斷不同地區(qū)經(jīng)濟發(fā)展程度類型。6
事物分類的統(tǒng)計方法
主要有判別分析和聚類分析判別分析:事物的分類是清楚的,目的是通過已知分類建立判別函數(shù),預測新的觀察對象所屬類別。聚類分析:事物分類不清楚,分幾類不清楚,目的希望將事物進行分類(探索性研究)。7判別分析的特點用途:通過數(shù)據(jù)建立判別方程,對研究事物進行分類和預測。對資料要求:要求建立方程的觀察對象分類(y)已經(jīng)明確(用金標準確定),收集建模對象(訓練樣本)的m個變量(x)建立判別方程。8判別分析建模的方法根據(jù)自變量(x)資料性質(zhì):自變量(x)為計量數(shù)據(jù):
Fisher判別、Bayes判別(SPSS、SAS統(tǒng)計軟件可實現(xiàn))。自變量(x)為定性數(shù)據(jù):最大似然判別法、Bayes公式判別(統(tǒng)計軟件不能自動實現(xiàn))。9
1.建立判別函數(shù)(方程)
2.規(guī)定判別(分類)準則
判別新個體為某類
3.評價判別方程的效果
判別分析方法的基本步驟10
第一節(jié)Fisher判別
一、兩類判別Fisher判別(典則判別
canonicaldiscriminant)
用已知類別(A或B)研究對象的x1,x2……
xm指標,建立判別方程(z):
方程中系數(shù)c為判別系數(shù),c1,c2……
cm,(18-1)11Fisher判別的原理正常人冠心病人z1z2Z12Fisher方差分析的思想
準則:尋找組間變異(類間均數(shù))/組內(nèi)變異的比值最大化.
英國統(tǒng)計學家FisherRA爵士(1890~1962)13
通過解下列距陣得到判別系數(shù)(c)(18-3)Sij為第i指標和第j個指標的合并協(xié)方差類間均數(shù)差值14
2.建立判別規(guī)則和判別值(Zc)
(18-5)判為A類判為B類判為任意一類15例:講義表18-1
兩類疾病22例患者三項指標觀察結(jié)果編號類別(y)x1x2x31A23802A-19-23A-105013B9-5114B2-1-115B17-6-116計算步驟:1.計算各類均數(shù)和合并(A、B)的協(xié)方差距陣(S)17變量的合并方差和協(xié)方差182.解正規(guī)方程得出判別系數(shù)C類間均數(shù)差值193.計算判別界值Zc
將各類每個個體的變量值代入判別方程,得到zi,得到zA和zB的均數(shù).預測:
某病人測定了x1、x2、x3值,代入方程z,計算的z>-0.004,為A類。20例:表18-1
兩類疾病22例患者三項指標預測結(jié)果類別x1x2x3z值判別結(jié)果A23800.19AA-19-22.73AA-10501.83AB9-51-2.07BB2-1-1-0.05AB17-6-1-2.22Bz>-0.004,為A類21二、判別效果的評價用誤判率評價:22表18-1資料回顧性判別效果評價原分類判別分類
AB合計A10212B2810合計121022第A類誤判率=2/12=16.6%第B類誤判率=2/10=20.0%方程總誤判率=4/22=18.2%231.確定研究的目的:
收集指標與建立判別分析目的一致(從專業(yè)考慮)2.統(tǒng)計檢驗建模數(shù)據(jù)的要求:
檢驗判別變量的區(qū)別能力數(shù)據(jù)滿足正態(tài)和協(xié)方差齊性3.建立判別方程,評價判別效果。4.模型結(jié)果解釋和預測。SPSS統(tǒng)計軟件的判別分析與結(jié)果
(Fisher判別或典則判別)24講義18-1實例2526
講義18-1實例分析
SPSS統(tǒng)計軟件結(jié)果
變量判別能力的考察和統(tǒng)計描述表127各變量在類間的單因素統(tǒng)計檢驗
(F檢驗)單變量檢驗提示:
X2和x3在區(qū)別不同類別人群有統(tǒng)計學意義。表228檢驗建模數(shù)據(jù)變量的變異在類間是否齊性?協(xié)方差的Box‘sM檢驗本例p>0.05,滿足齊性條件.表329
兩總體方差不齊距離示意z1z230
建立判別規(guī)則和判別值(Zc)
(18-5)判為A類判為B類判為任意一類31
表4和表5反映建立判別方程提取信息量.和有無統(tǒng)計意義表4表532
典型判別函數(shù)
(canonicaldiscriminantfunction)根據(jù)表6系數(shù)建立判別方程表633表7提供了各變量對判別分類的重要性。
表7系數(shù)的絕對值反映重要性34
評價判別效果表8靈敏度特異度35
軟件給出判別結(jié)果和判別值36目前判別分析效果評價方法
1.回顧性評價:
將原始數(shù)據(jù)帶入判別方程得誤判率評價.2.前瞻性:
將原始數(shù)據(jù)分為0.85(訓練樣本)建立判別方程和0.15(驗證樣本).計算誤判率(要求例數(shù)較多)。3.誤判率總誤判率低于0.2,認為判別函數(shù)可用.37
例:世界經(jīng)濟統(tǒng)計研究(1995年)人文指數(shù)
反映國家綜合水平國家類別期望壽命識字率GDP美國1.0076.0099.005374.00日本1.0079.5099.005359.00訓練樣本瑞士1.0078.0099.005372.00阿根廷1.0072.1095.905242.00阿聯(lián)酋1.0073.8077.705370.00保加利亞2.0071.2093.004250.00古巴2.0075.3094.903412.00巴拉圭2.0070.0091.203390.00格魯吉亞2.0072.8099.002300.00南非2.0062.9080.603799.00中國2.0068.5079.301950.00待判樣本羅馬尼亞2.0069.9096.902840.00希臘1.0077.6093.805233.00哥倫比亞1.0069.3090.305158.0038
第二節(jié)最大似然法判別適用于定性指標的兩類和多類判別.似然函數(shù)方程:
Xm:x1,x2….m個判別變量.Yk:y1,y2….k個類型例數(shù).S:個體為某種狀態(tài)(條件).(18-7)P=個體在某狀態(tài)的條件概率392.判別規(guī)則:
原理:
根據(jù)獨立事件概率乘法原理進行判別。
在計算個體k個似然函數(shù),其中概率最大的p,判個體為第k類。例18-2:見講義388-389頁有人用7個指標對4種類型闌尾炎的鑒別診斷,收集5668例確診的病史數(shù)據(jù)(見表18-3).
40表18-35668例不同型闌尾炎癥狀發(fā)生頻率%變量癥狀卡他性蜂窩炎壞疽腹膜炎
SlY1Y2Y3Y4X1右下57343521腹痛下腹15131227部位上腹12353534
臍周121096
全腹48912X2
惡心(-)(-)7333813嘔吐(+)(-)16303722(+)11375565100%41例:對某個新個體做判別(講義388頁)癥狀與體征變量某病例的癥狀腹疼部位x1右下腹嘔吐x2有排便x3正常腹部壓痛x4右下部腹部肌防御x5有體溫x636.6℃白細胞x723.7(單位)42某病例根據(jù)最大似然法和判別規(guī)則該病例預測為第3類-壞疽型該法主要得到表18-3條件概率,要求例數(shù)較多.43
第三節(jié)Bayes公式判別法
Bayes基本思想:是利用已知先驗概率,去推證將要發(fā)生的后驗概率。Bayes公式::第K類的先驗概率,在事件中的比例.44表18-35668例不同型闌尾炎
不同型所占各類先驗概率闌尾炎構(gòu)成%估計卡他性2020
蜂窩炎5050
壞疽2525
腹膜炎55
合計10010045
判別規(guī)則:
計算個體a在Sij的條件下,屬于k類的后驗概率,其中概率最大的p,判個體為第k類。例:18-2見講義390頁結(jié)果與前法相同46
第四節(jié)Bayes判別
主要計量數(shù)據(jù)的兩類或多類判別.bayes判別的思想:
基于bayes準則,假定已知各類出現(xiàn)的先驗概率P(Yk),且各類變量近似服從多元正態(tài)分布,獲得bayes判別函數(shù)。計算各個體出現(xiàn)的后驗概率進行判別。47
Bayes判別方程假如要判別G類,其判別方程為:48如先驗概率未知,假定:建立各類的判別方程yG(18-9)其中C為判別系數(shù)。系數(shù)c的與fisher計算相同.49Bayes判別規(guī)則預測方法:1.將個體判為YG值中最大的類.2.計算個體各類后驗概率,判為概率最大類.兩方法結(jié)果等價(公式18-13)50Bayes判別對數(shù)據(jù)的要求1.各類建立方程的m個自變量(指標)近似服從正態(tài)分布、各類協(xié)方差距陣相同。2.最好有各類別的先驗概率.無可用各類樣本的頻率代替.51例表18-43個疾病分類的4個指標數(shù)據(jù)x1x2x3x4
原分類6-11.519901-11-18.525-36390.2-171732-4-15135410-14203520.5-11.519373-10-1921-4230-235-35120-228-203-100-21.47-151-100-21.515-40213-17.21822521、計算各指標的均數(shù)和合并協(xié)方差陣
X1X2X3X42.按講義公式18-11計算出各系數(shù)C533.按講義公式18-12計算常數(shù)項C0
先驗概率假定:54例18-4Bayes判別方程應用:
將個體的m個變量值代入上面3個判別式,個體歸為最大y值類.見表18-4.55表18-43個疾病分類數(shù)據(jù)與判別結(jié)果后驗概率X1X2X3X4原分類1類2類3類判別結(jié)果6.0-11.519901.981.018.0001-11.0-18.525-363.000.140.860390.2-17.01732.002.547.4512-4.0-15.013541.969.030.0011.0-14.020352.097.667.2352.5-11.519373.003.413.5843-10.0-19.021-423.000.151.8493.0-23.05-351.427.519.053220.0-22.08-203.505.458.037110.0-18.014501.998.002.000156表18-6回顧性判別效果評價原分類判別分類
123合計161072040431056合計75517第1類誤判率=1/7=14.2%第3類誤判率=1/6=16.7%方程總誤判率=2/17=11.76%57
第五節(jié)逐步判別該方法目的:選取具有判別效能的指標建立判別函數(shù),使判別函數(shù)簡潔,判別效果穩(wěn)定。基本步驟:與多元回歸相似.58
逐步判別方法的思想
通過類內(nèi)離均差平方和(W)與總離差平方和(T)比值(Wilks統(tǒng)計量)篩選具有判別效能的指標建立判別方程.
(18-14)r指變量個數(shù)59步驟與方法1.設定變量選入方程和剔除方程的界值進入界值Fα,常用α=0.05,0.1,0.2
剔除界值Fβ,常用β=2α2.篩選步驟(見講義395頁)本例:α=0.2,β=0.3結(jié)果見講義60見395頁的W和T距陣61第一步X3選入第二步,X4選入,F(xiàn)=5.714第三步,X2選入,F(xiàn)=2.192第四步,X3剔除,F(xiàn)=0.1174.方程內(nèi)選入X4、X2,建立方程結(jié)果見396頁.62SPSS統(tǒng)計軟件的逐步判別分析與結(jié)果
(Bayes判別法)63逐步判別分析64選入和剔除方程的概率用0.2和0.3為Bayes判別65Bayes逐步判別部分結(jié)果變量在方程內(nèi)的情況66Bayes判別函數(shù)方程67表18-7
在只有x2、x4判別函數(shù)的回顧性效果評價總正確率=94.1%684個變量判別方程回顧性判別效果評價原分類判別分類
123合計1610720
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年土木工程生產(chǎn)實習報告【5】
- 設備融資投資立項項目可行性研究報告(2025咨詢)
- 園林公司租借合同協(xié)議書
- 解除農(nóng)民工合同協(xié)議書
- 心理咨詢室創(chuàng)業(yè)計劃書時
- 2025年天貓養(yǎng)車項目大數(shù)據(jù)研究報告
- 明星演唱會活動策劃方案(多)
- 咖啡店商業(yè)計劃書2
- syb美容創(chuàng)業(yè)計劃書參考范文
- 健康探秘課件
- 企業(yè)消防管理安全制度
- 2024年江蘇省淮安市中考英語真題(原卷版)
- 2025年中國樺木工藝膠合板市場調(diào)查研究報告
- 廣西南寧市新民中學2025屆七下生物期末監(jiān)測試題含解析
- 廣東省廣州市黃埔區(qū)2021-2022學年七年級下學期期末英語試題(含答案)
- 《創(chuàng)傷性休克》課件
- 跨境電商勞務合同協(xié)議
- GB/T 45620-2025農(nóng)資商品電子代碼編碼規(guī)則
- 河南省鄭州市2025年高三第三次質(zhì)量預測語文試題及參考答案
- 2025年熔化焊接與熱切割作業(yè)中考試練習題(100題)附答案
- 2025中小學學校教材教輔征訂管理工作方案
評論
0/150
提交評論