




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
高級統(tǒng)計(jì)方法概論第1頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四本章內(nèi)容第一節(jié)
多重線性回歸第二節(jié)logistic回歸分析第三節(jié)生存分析第四節(jié)
判別分析與聚類分析第五節(jié)主成分分析與因子分析第六節(jié)典型相關(guān)分析第2頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第一節(jié)
多重線性回歸一、應(yīng)用范圍:生物醫(yī)學(xué)現(xiàn)象的發(fā)生、發(fā)展和變化是多種因素在一定條件下相互影響、相互制約產(chǎn)生的結(jié)果。例如,影響原發(fā)性高血壓發(fā)生的因素有年齡、性別、精神緊張、勞動(dòng)強(qiáng)度、吸煙狀況、家族史等,這些因素中,哪些是主要因素,各因素的大小如何,往往是研究者關(guān)心的問題。
多重線性回歸就是研究多個(gè)自變量與一個(gè)應(yīng)變量間的線性依存關(guān)系的統(tǒng)計(jì)分析方法。它可以從一組實(shí)際數(shù)據(jù)出發(fā),研究多個(gè)自變量和一個(gè)應(yīng)變量之間是否存在線性依存關(guān)系,若存在則找出適當(dāng)?shù)亩筷P(guān)系式,并對其進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn),從而推斷哪些自變量對應(yīng)變量的影響是主要的,哪些是次要的,哪些是沒有意義的;并可利用回歸方程對所研究的現(xiàn)象進(jìn)行預(yù)測和控制第3頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四二、應(yīng)用條件條件第4頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四建立回歸方程(樣本)(2)對回歸方程及各自變量做假設(shè)檢驗(yàn),并對方程的擬合效果及各自變量的作用大小做出評價(jià)。(1)求截距及偏回歸系數(shù)三、多重線性回歸的一般步驟標(biāo)準(zhǔn)化偏回歸系數(shù)R2,等方差分析和t檢驗(yàn)第5頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
四、自變量篩選
前述方程中包括的自變量是研究者根據(jù)專業(yè)知識和經(jīng)驗(yàn)事先選擇好的。然而在許多實(shí)際應(yīng)用中,由于沒有清晰的理論依據(jù),回歸模型中包括的自變量難以預(yù)先確定,為了避免由于引入一些不重要的自變量,而使模型的精度降低,因此選擇有意義的自變量常常是回歸分析的第一步。基本思路:盡可能將回歸效果顯著的自變量選入回歸方程中,作用不顯著的自變量則排除在外。模型的正確選擇:根本依賴于所研究問題本身專業(yè)實(shí)踐第6頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四自變量的篩選全局擇優(yōu)逐步選擇調(diào)整R2CP統(tǒng)計(jì)量前進(jìn)法后退法逐步回歸法第7頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四編號總膽固醇X1甘油三酯X2胰島素X3糖化血X4血糖Y15.681.94.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.4………………273.841.26.459.610.427名糖尿病人的血糖及有關(guān)變量的測量結(jié)果五、實(shí)例分析第8頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四ModelVariablesEnteredVariablesRemoved1糖化血X4.2總膽固醇X1.3胰島素X3.4甘油三酯X2.5.總膽固醇X1第9頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四ModelSummary(f)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.610(a).372.3472.365062.696(b).484.4412.186723.740(c).547.4882.093514.775(d).601.5282.009545.773(e).598.5461.97213aPredictors:(Constant),糖化血bPredictors:(Constant),糖化血,總膽固醇cPredictors:(Constant),糖化血,總膽固醇,胰島素dPredictors:(Constant),糖化血,總膽固醇,胰島素,甘油三酯ePredictors:(Constant),糖化血,胰島素,甘油三酯fDependentVariable:血糖第10頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四ANOVAModel
SumofSquaresdfMeanSquareFSig.1Regression82.714182.71414.788.001(a)
Residual139.837255.593
Total222.55226
2Regression107.790253.89511.271.000(b)
Residual114.762244.782
Total222.55226
3Regression121.748340.5839.260.000(c)
Residual100.804234.383
Total222.55226
4Regression133.711433.4288.278.000(d)
Residual88.841224.038
Total222.55226
5Regression133.098344.36611.407.000(e)
Residual89.454233.889
Total222.55226
第11頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四aDependentVariable:血糖ModelBStd.ErrortFSS(XJ)SSESig.1糖化血.978.2543.84514.78882.714139.837.0012糖化血.732.2592.8338.026.009總膽固醇.678.2962.2905.24425.067114.762.0313糖化血.635.2532.5076.285.020總膽固醇.545.2931.8613.463.076胰島素-.219.122-1.7853.18613.958100.804.0884糖化血.638.2432.6236.880.016總膽固醇.142.366.3900.1520.61388.841.701胰島素-.271.121-2.2294.968.036甘油三酯.351.2041.7212.96211.96388.841.0995糖化血.663.2302.8808.294.008胰島素-.287.112-2.5706.605.017甘油三酯.402.1542.6126.823.016第12頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四六、多重線性回歸的應(yīng)用第13頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四七、多重線性回歸應(yīng)用的注意事項(xiàng)1、應(yīng)滿足LINE條件
殘差圖2、指標(biāo)的數(shù)量化
分類變量的啞變量設(shè)置見P3273、樣本含量n=(5~10)m。4、“最優(yōu)”回歸方程的意義所謂的“最優(yōu)”回歸方程并不一定是最好的,沒有選入方程的變量也未必沒有統(tǒng)計(jì)學(xué)意義。不同回歸方程適應(yīng)于不同用途,依專業(yè)知識定。
第14頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四5、多重共線性即指一些自變量之間存在較強(qiáng)的線性關(guān)系。如高血壓與年齡、吸煙年限、飲白酒年限等,這些自變量通常是高度相關(guān)的,有可能使通過最小二乘法建立回歸方程失效,引起下列一些不良后果:(1)參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤變得很大,從而t值變得很小。(2)回歸方程不穩(wěn)定,增加或減少某幾個(gè)觀察值,估計(jì)值可能會(huì)發(fā)生很大的變化。(3)t檢驗(yàn)不準(zhǔn)確,誤將應(yīng)保留在模型中的重要變量舍棄。(4)估計(jì)值的正負(fù)符號與客觀實(shí)際不一致。第15頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四6、殘差分析殘差分析是檢查資料是否滿足回歸模型的前提假設(shè)以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),為橫坐標(biāo)作殘差圖進(jìn)行分析第16頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四回歸分析的步驟做出散點(diǎn)圖(簡單線性回歸、多重線性回歸)考察數(shù)據(jù)的分布,進(jìn)行必要的預(yù)處理(應(yīng)變量)進(jìn)行直線回歸分析(模型建立,變量選擇等)殘差分析(模型前提假設(shè))強(qiáng)影響點(diǎn)的診斷,多重共線性問題的判斷結(jié)合專業(yè)知識對結(jié)果進(jìn)行解釋第17頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第二節(jié)logistic回歸分析Logistic回歸屬于概率型非線性回歸,它是研究二分類觀察結(jié)果(應(yīng)變量)與一些影響因素(自變量)之間關(guān)系的一種多變量分析方法。如食管癌的發(fā)生與吸煙、飲酒、不良飲食習(xí)慣等危險(xiǎn)因素的關(guān)系。由于應(yīng)變量為二分變量,因此不能用多重線性回歸分析此類資料,但兩者的分析思路大致相同。什么情況下采用Logistic回歸第18頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四傳統(tǒng)上常使用Mantel-Haenszel分層分析方法,但該方法主要適用于樣本含量大、分析因素較少的情況。第19頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四一、logistic回歸模型1、概率預(yù)報(bào)模型第20頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四2、logistic回歸模型的線性形式P的logit變換第21頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四3、logistic回歸模型參數(shù)的意義1.表示暴露劑量為0時(shí)個(gè)體發(fā)病與不發(fā)病概率之比的自然對數(shù)。2.表示某危險(xiǎn)因素Xi增加一個(gè)單位時(shí),即Xi=1與Xi=0相比,發(fā)生結(jié)果(Y=1)優(yōu)勢比的對數(shù)值。第22頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四P1(y=1/x=1)的概率P0(y=1/x=0)的概率第23頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四反映了在其他變量固定后,X=1與X=0相比發(fā)生Y事件的對數(shù)優(yōu)勢比。回歸系數(shù)β與ORX與Y的關(guān)聯(lián)β=0,OR=1無關(guān)β>0,OR>1有關(guān),危險(xiǎn)因素β<0,OR<1有關(guān),保護(hù)因子第24頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四二、logistic回歸模型的參數(shù)估計(jì)最大似然估計(jì)-需借助統(tǒng)計(jì)軟件完成第25頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四三、Logistic回歸模型的假設(shè)檢驗(yàn)1.檢驗(yàn)一:對建立的整個(gè)模型做檢驗(yàn)。
檢驗(yàn)方法1)似然比檢驗(yàn)(likelihoodratiotest)2)Wald檢驗(yàn)3)計(jì)分檢驗(yàn)(scoretest)說明自變量對Y的作用是否有統(tǒng)計(jì)意義。第26頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
2.檢驗(yàn)二:檢驗(yàn)?zāi)P椭心肠率欠駥有作用。
檢驗(yàn)假設(shè):檢驗(yàn)統(tǒng)計(jì)量:主要為Wald檢驗(yàn)(SAS軟件)ν=1的χ2
第27頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四四、Logistic回歸對變量做篩選目的;將回歸系數(shù)有顯著意義的自變量選入模型中,作用不顯著的自變量則排除在外。變量篩選算法有:前進(jìn)法、后退法和逐步法(stepwise)。選用的檢驗(yàn)統(tǒng)計(jì)量1)似然比檢驗(yàn)(likelihoodratiotest)2)Wald檢驗(yàn)3)計(jì)分檢驗(yàn)(scoretest)第28頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四例:冠心病的8個(gè)可能危險(xiǎn)因素與賦值
因素變量名賦值說明年齡(歲)X1<45=1,4554=2,5564=3,65=4高血壓史X2無=0,有=1高血壓家族史X3無=0,有=1吸煙X4不吸=0,吸=1高血脂史X5無=0,有=1動(dòng)物脂肪攝入X6低=0,高=1體重指數(shù)(BMI)X7<24=1,24<26=2,26=3A型性格X8是=0,否=1冠心病Y對照=0,病例=1第29頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四冠心病危險(xiǎn)因素的病例對照調(diào)查資料序號X1X2X3X4X5X6X7X8Y13101001102201100100321010010042001001005300101110第30頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四例:逐步篩選進(jìn)入方程的自變量及參數(shù)估計(jì)變量βSbWaldχ2P標(biāo)準(zhǔn)β’OR常數(shù)-4.7051.549.300.0023年齡0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.01210.70323.06X81.9470.8475.290.02150.5237.01控制其他因素后,高脂攝入與低脂攝入相比,患冠心病的優(yōu)勢比為2.4倍標(biāo)準(zhǔn)回歸系數(shù)(b’)比較各自變量對Y的相對貢獻(xiàn)第31頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
logistic回歸的應(yīng)用及注意事項(xiàng)
一、logistic回歸的應(yīng)用1.流行病學(xué)危險(xiǎn)因素分析2.臨床試驗(yàn)數(shù)據(jù)分析3.分析藥物或毒物的劑量反應(yīng)4.預(yù)測與判別
第32頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
二、logistic回歸的注意事項(xiàng)1.變量的取值形式定量資料最好轉(zhuǎn)化為分類變量資料,以便于解釋分類變量仍采用啞變量的賦值方法應(yīng)變量的編碼相反,回歸系數(shù)僅正負(fù)號變化2.樣本含量原則:自變量個(gè)數(shù)越多,例數(shù)越多。各組樣本例數(shù)(對照組和病例組)至少為自變量個(gè)數(shù)的5-20倍。
第33頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存分析(survivalanalysis)是將事件的結(jié)果(終點(diǎn)事件)和出現(xiàn)這一結(jié)果所經(jīng)歷的時(shí)間結(jié)合起來分析的一種統(tǒng)計(jì)分析方法。生存分析不同于其它多因素分析的主要區(qū)別點(diǎn)就是生存分析考慮了每個(gè)觀測出現(xiàn)某一結(jié)局的時(shí)間長短。第三節(jié)生存分析
第34頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四一生存分析基本概念(一)生存時(shí)間(survivaltime,failuretime)終點(diǎn)事件(失效時(shí)間)與起始事件之間的時(shí)間間隔。終點(diǎn)事件指研究者所關(guān)心的特定結(jié)局。起始事件是反映研究對象生存過程的起始特征的事件。第35頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存時(shí)間舉例起始事件
終點(diǎn)事件服藥痊愈手術(shù)切除死亡染毒死亡化療緩解緩解復(fù)發(fā)第36頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四終點(diǎn)事件和起始事件是相對而言的,它們都由研究目的決定,須在設(shè)計(jì)時(shí)明確規(guī)定,并在研究期間嚴(yán)格遵守,不能隨意改變。第37頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存時(shí)間的類型1.完全數(shù)據(jù)(completedata)從起點(diǎn)至死亡(死于所研究疾病)所經(jīng)歷的時(shí)間。2.截尾數(shù)據(jù)(刪失數(shù)據(jù),censoreddata)從起點(diǎn)至截尾點(diǎn)所經(jīng)歷的時(shí)間。截尾原因:失訪、死于其它疾病、觀察結(jié)束時(shí)病人尚存活等。第38頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四大腸癌患者的隨訪記錄編號性別年齡…
手術(shù)日期隨訪終止日期隨訪結(jié)局生存時(shí)間(天)1男45…1991.05.201995.06.04死亡14762男50…1992.01.121998.08.25死亡24173女36…1991.10.241994.03.18失訪876+
4男52…1994.11.022000.12.30存活2250+
5女56…1994.06.251995.03.17死亡2656女60…1993.12.051996.08.16死于其它985+
…
第39頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存時(shí)間生存時(shí)間的度量單位可以是年、月、日、小時(shí)等。常用符號t表示,截尾數(shù)據(jù)在其右上角標(biāo)記“+”。生存資料的主要特點(diǎn):含有截尾數(shù)據(jù)。截尾數(shù)據(jù)的特點(diǎn):真實(shí)的生存時(shí)間未知,只知道比觀察到的截尾生存時(shí)間要長。生存時(shí)間的分布一般不呈正態(tài)分布。生存時(shí)間三要素:起始時(shí)間、終點(diǎn)事件和時(shí)間度量第40頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
(二)條件生存概率、生存率、生存曲線條件生存概率:(conditionalprobabilityofsurvival)表示某單位時(shí)段開始時(shí)存活的個(gè)體,到該時(shí)段結(jié)束時(shí)仍存活的可能性。年條件生存概率表示年初尚存人口存活滿1年的可能性。第41頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存率:(survivalrate,survivalfunction)指觀察對象經(jīng)歷t個(gè)單位時(shí)段后仍存活的可能性。第42頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存率與條件生存概率不同。條件生存率是單個(gè)時(shí)段的結(jié)果,而生存率實(shí)質(zhì)上是累積條件生存概率(cumulativeprobabilityofsurvival),是多個(gè)時(shí)段的累積結(jié)果。例如,3年生存率是第1年存活,第2年也存活,第3年還存活的可能性。第43頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四生存曲線(survivalcurve)以觀察(隨訪)時(shí)間為橫軸,以生存率為縱軸,將各個(gè)時(shí)間點(diǎn)所對應(yīng)的生存率連接在一起的曲線圖。生存曲線是一條下降的曲線,分析時(shí)應(yīng)注意曲線的高度和下降的坡度。平緩的生存曲線表示高生存率或較長生存期,陡峭的生存曲線表示低生存率或較短生存期。第44頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四某醫(yī)師收集20例腦瘤患者甲、乙兩療法治療的生存時(shí)間(周)如下:甲療法組13371015152330乙療法組57+1313233030+38424245+
第45頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第46頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(三)中位生存期中位生存期(mediansurvivaltime)又稱半數(shù)生存期,表示恰好有50%的個(gè)體尚存活的時(shí)間。中位生存期越長,表示疾病的預(yù)后越好;中位生存期越短,預(yù)后越差。估計(jì)中位生存期常用圖解法或線性內(nèi)插法。第47頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四二、生存率的估計(jì)與生存曲線估計(jì):
Kaplan-Meier法(小樣本),壽命表法(大樣本)生存曲線:橫坐標(biāo)為時(shí)間,縱坐標(biāo)為生存率生存曲線比較:
log-rank檢驗(yàn)第48頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四三、Cox比例風(fēng)險(xiǎn)回歸模型Cox比例風(fēng)險(xiǎn)回歸模型(Cox’sproportionalhazardsregressionmodel),簡稱Cox回歸模型。該模型由英國統(tǒng)計(jì)學(xué)家于1972年提出,主要用于腫瘤和其它慢性病的預(yù)后分析,也可用于隊(duì)列研究的病因探索。其優(yōu)點(diǎn):多因素分析方法不考慮生存時(shí)間分布利用截尾數(shù)據(jù)第49頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(一)Cox模型的基本形式h(t,X)—t時(shí)刻風(fēng)險(xiǎn)函數(shù)、風(fēng)險(xiǎn)率或瞬時(shí)死亡率(hazardfunction)。h0(t)—基準(zhǔn)風(fēng)險(xiǎn)函數(shù),即所有變量都取0時(shí)t時(shí)刻風(fēng)險(xiǎn)函數(shù)。X1、X2、…、Xp—協(xié)變量、影響因素、預(yù)后因素。β1、β2、…、βp—回歸系數(shù)。第50頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四β>0,說明變量X增加時(shí),危險(xiǎn)率增加,即X是危險(xiǎn)因素。β<0,說明變量X增加時(shí),危險(xiǎn)率下降,即X是保護(hù)因素。β=0,說明變量X增加時(shí),危險(xiǎn)率不變,即X是危險(xiǎn)無關(guān)因素。第51頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(二)參數(shù)估計(jì)與假設(shè)檢驗(yàn)1.參數(shù)估計(jì)偏似然函數(shù)2.假設(shè)檢驗(yàn)似然比檢驗(yàn)(likelihoodratiotest)得分檢驗(yàn)(scoretest)Wald檢驗(yàn)(Waldtest)第52頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(三)因素篩選與最優(yōu)模型的建立變量篩選方法向前引入法(前進(jìn)法)Forward向后剔除法(后退法)Backward逐步引入-剔除法(逐步法)Stepwise第53頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四分析結(jié)果(結(jié)果解釋)與生存相關(guān)的因素因素作用大小及方向:保護(hù)因素還是危險(xiǎn)因素、相對危險(xiǎn)度的大小。因素作用大小排序:標(biāo)準(zhǔn)化回歸系數(shù)的絕對值。第54頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四個(gè)體的預(yù)后指數(shù)及預(yù)后分組:預(yù)后指數(shù)(prognosticindex,PI)
=
預(yù)后指數(shù)越小,預(yù)后越好;預(yù)后指數(shù)越大,預(yù)后越差。第55頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第56頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第57頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第58頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四x4RR(相對危險(xiǎn)度)=5.758,說明傳統(tǒng)療法與新療法相比,病人死亡的風(fēng)險(xiǎn)為5.822倍,↓X5解釋同上。第59頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第四節(jié)判別分析與聚類分析
分類學(xué)是人類認(rèn)識世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。第60頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四判別分析有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對的,而且用不著殺死昆蟲來進(jìn)行判別了第61頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四一、概念判別分析是根據(jù)判別對象若干個(gè)指標(biāo)的觀測結(jié)果判定其應(yīng)屬于哪一類的統(tǒng)計(jì)學(xué)方法。
第62頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四二、基本過程1.判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類,求出判別函數(shù)—樣本的原始分類必須正確無誤,否則得不到可靠判別函數(shù)。2.根據(jù)判別函數(shù)依據(jù)相應(yīng)的判別規(guī)則對未知所屬類別的事物進(jìn)行分類。第63頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四三、常用方法Fisher判別、最大似然判別法、Bayes公式判別法、Bayes判別和逐步判別第64頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四例1Fisher判別收集了22例某病患者的三個(gè)指標(biāo)(X1,X2,X3)的資料列于下表,其中前期患者(A)類12例,晚期患者(B)類10例。試作判別分析。第65頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第66頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四判別函數(shù):Z=C1X1+C2X2+…+CmXm本例判別函數(shù)為:Z=-0.07X1+0.225X2-0.318X3判別規(guī)擇:Zi>Zc,判為A類Zi<Zc,判為B類Zi=Zc,判為任意一類第67頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四判別效果的評價(jià)判別效果一般用誤判概率來衡量。誤判概率小于0.1或0.2才有應(yīng)用價(jià)值。誤判概率可通過前瞻性或回顧性兩種方式獲得估計(jì),前瞻性誤判率估計(jì)更客觀。樣本85%15%建立判別函數(shù)考核判別函數(shù)的判別效果(前瞻性誤判率)第68頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四例2最大似然判別法(定性指標(biāo))有人試用7個(gè)指標(biāo)對4種類型的闌尾炎作鑒別診斷,收集的5668例完整、確診的病史資料歸納余下表。第69頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第70頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四判別函數(shù):PK=P(X1(Sl1)|YK)·P(X2(Sl2)|YK)···
P(Xm(Slm)|YK)判別規(guī)擇:第71頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四如某病病人昨晚開始出現(xiàn)右下腹痛、嘔吐等癥狀,大便正常,右下腹部壓痛,肌性防御(+),體溫36.6℃,白細(xì)胞23.7×109/L。是判斷其為哪種類型的闌尾炎。第72頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四Bayes公式判別法與最大似然判別法原理相同第73頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四Bayes判別(要求各類近似服從多元正態(tài)分布)欲用4個(gè)指標(biāo)鑒別3類疾病,現(xiàn)收集17例完整、確診的資料,見表18-4。試建立判別Bayes函數(shù)。第74頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四4個(gè)指標(biāo)的觀測數(shù)據(jù)與判別結(jié)果編號X1X2X3X4原分類后驗(yàn)概率判別結(jié)果1類2類3類16.0-11.5199010.9820.0180.00012-11.0-18.525-3630.0000.1400.8603390.2-17.017320.0020.5480.45024-4.0-15.0135410.9700.0300.001150.0-14.0203520.0990.6670.235260.5-11.5193730.0040.4130.58437-10.0-19.021-4230.0000.1510.848380.0-23.05-3510.4270.5200.0532920.0-22.08-2030.5050.4590.037110-100.0-21.47-1510.9770.0230.001111-100.0-21.515-4020.1760.5810.24721213.0-17.218220.0210.6300.350213-5.0-18.5151810.8640.1370.00711410.0-18.0145010.9980.0020.000115-8.0-14.0165610.9040.0920.0051160.6-13.0262130.0000.2610.739317-40.0-20.022-5030.0000.1670.8333判別規(guī)則:后驗(yàn)概率最大判別效果評價(jià)第75頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四逐步判別法(僅僅是在前面的方法中加入變量選擇的功能)第76頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四聚類分析1.聚類分析的目的:根據(jù)已知數(shù)據(jù),計(jì)算各觀察個(gè)體或變量之間親疏關(guān)系的統(tǒng)計(jì)量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長距離法、中間距離法、重心法),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個(gè)體或變量分為若干類。第77頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四2.聚類分析的應(yīng)用例子同一種疾病(如肝炎),根據(jù)臨床表現(xiàn)等將病人分成若干類(甲、乙、丙、丁、戊型肝炎)根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類第78頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四3.聚類的種類根據(jù)分類的原理可將聚類分析分為:系統(tǒng)聚類與快速聚類(動(dòng)態(tài)樣本聚類)根據(jù)分類的對象可將聚類分析分為:系統(tǒng)Q型與R型(即樣品聚類clusteringforindividuals與指標(biāo)聚類clusteringforvariables)第79頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四將n個(gè)樣品各作為一類
3.1系統(tǒng)聚類法
是諸聚類分析方法中使用最多的一種,按下列步驟進(jìn)行:
計(jì)算n個(gè)樣品兩兩之間的距離,構(gòu)成距離矩陣
合并距離最近的兩類為一新類
計(jì)算新類與當(dāng)前各類的距離。再合并、計(jì)算,直至只有一類為止
畫聚類圖,解釋
第80頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四3.2快速聚類法
(quickclustermethodk-meansmodel
)
也叫動(dòng)態(tài)聚類、逐步聚類、迭代聚類)樣本量很大,用系統(tǒng)聚類法計(jì)算的工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析第81頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四原理選擇初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類各類的重心代替初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類,……
直至分類達(dá)到穩(wěn)定第82頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四實(shí)例分析:系統(tǒng)Q型(樣品)聚類第83頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第84頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四系統(tǒng)聚類第85頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四Q型(樣品)聚類R型(變量或指標(biāo))聚類第86頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四聚類方法:離差平方和法劑量資料的距離:歐式平方距離第87頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四樹狀圖第88頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四結(jié)合圖形和專業(yè)知識,可以考慮聚為兩類:3、7、11、2、5、9、8、15、1、6為一類;4、10、14、12、13為另一類。注意:聚類方法不同,結(jié)果也會(huì)有差別,最終還要結(jié)合專業(yè)知識確定哪些聚為一類以及聚幾類。第89頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第五節(jié)主成分分析與因子分析
一、主成分分析主成分分析是從多個(gè)數(shù)值變量(指標(biāo))之間的相互關(guān)系入手,利用降維的思想,將多個(gè)變量化為少數(shù)幾個(gè)互不相關(guān)的綜合變量(主成分)的統(tǒng)計(jì)方法。第90頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四實(shí)例分析
某研究者調(diào)查了18名小學(xué)三年級學(xué)生的數(shù)學(xué)(X1)、語文(X2)、常識(X3)、音樂(X4)、美術(shù)(X5)五個(gè)學(xué)科的成績,并測試了智商(X6),所得數(shù)據(jù)如表20-2,試?yán)弥鞒煞址治稣页鰩讉€(gè)相互獨(dú)立的主成分,以便進(jìn)一步對各名學(xué)生的學(xué)習(xí)能力進(jìn)行綜合評價(jià)。第91頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四表20-218名小學(xué)生6項(xiàng)指標(biāo)的觀測值編號X1X2X3X4X5X61927780959912629775778095125395807078891204757573889811059268727988113690858070781037729375778010088870767281102964706985931051070737087841001178697573899712787271687596137564637673921484667755657615706451606788165872756252751782734050486118456542474360第92頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四主成分的選取原則:(1)主成分的累計(jì)貢獻(xiàn)率大于70%。(2)特征值≥1。根據(jù)上述兩個(gè)原則綜合考慮,本例選擇3個(gè)主成分。累計(jì)貢獻(xiàn)率特征值第93頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四因子載荷陣因子載荷陣:反映各主成分與原始指標(biāo)之間的相互關(guān)系第三主成分反映了X1數(shù)學(xué)成績的信息(抽象思維能力)第二主成分反映了X2語文成績的信息(語言文字能力)第一主成分反映了全部原始指標(biāo)的信息(綜合能力)第94頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四在醫(yī)學(xué)研究中有一些現(xiàn)象是難以直接觀測的,通常稱為不可測現(xiàn)象,他們只能通過其他多個(gè)可觀測的指標(biāo)來間接的反應(yīng)。因子分析就是一種從分析多個(gè)原始指標(biāo)的相關(guān)關(guān)系入手,找到支配這種相關(guān)關(guān)系的有限個(gè)不可觀測的潛在變量,并用這些潛在變量來解釋原始指標(biāo)的的相關(guān)性的多元統(tǒng)計(jì)分析方法二、因子分析第95頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四實(shí)例分析某醫(yī)院為了合理地評價(jià)該院各月的醫(yī)療工作質(zhì)量,搜集了三年有關(guān)門診人次、出院人數(shù)、病床利用率、病床周轉(zhuǎn)次數(shù)、平均住院天數(shù)、治愈好轉(zhuǎn)率、病死率、診斷符合率、搶救成功率等9個(gè)指標(biāo)數(shù)據(jù),如表20-8。現(xiàn)采用因子分析方法,探討其綜合評價(jià)指標(biāo)體系。第96頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四門診人次X1出院人數(shù)X2病床利用率X3病床周轉(zhuǎn)次數(shù)X4平均住院天數(shù)X5治愈好轉(zhuǎn)率X6(%)病死率X7(%)診斷符合率X8(%)搶救成功率X9(%)4.3438999.061.2325.4693.153.5697.5161.663.4527188.280.8523.5594.312.4497.9473.334.38385103.971.2126.5492.534.0298.4876.794.1837799.481.1926.8993.862.9299.4163.164.32378102.011.1927.6393.181.9999.7180.004.1334997.551.1027.3490.634.3899.0363.164.5736191.661.1424.8990.602.7399.6973.534.3120962.180.5231.7491.673.6599.4861.114.0642583.270.9326.5693.813.0999.4870.73省略部分?jǐn)?shù)據(jù)第97頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四公因子的選取原則:(1)公因子的累計(jì)貢獻(xiàn)率大于70%。(2)特征值≥1。根據(jù)上述兩個(gè)原則綜合考慮,本例選擇4個(gè)公因子。累計(jì)貢獻(xiàn)率特征值第98頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四因子載荷陣因子載荷陣:反映各因子與原始指標(biāo)之間的相互關(guān)系因子3反映了X5、X6、
X7(意義不明顯)因子2反映了X1、
X3、
X4、X8、
X9(意義不明顯)因子1反映了大部分原始指標(biāo)的信息(綜合因子)因子4反映了X1、X2、X3、
X7(意義不明顯)第99頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四旋轉(zhuǎn)后因子的載荷更明顯地集中與少數(shù)幾個(gè)指標(biāo)上。這說明該旋轉(zhuǎn)對因子載荷起到了明顯的分離作用,從而使各因子具有了較清晰的專業(yè)意義。第100頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四第六節(jié)典型相關(guān)分析
1.兩個(gè)隨機(jī)變量Y與X
簡單相關(guān)系數(shù)2.一個(gè)隨機(jī)變量Y與一組隨機(jī)變量X1,X2,…,Xp
多重相關(guān)(復(fù)相關(guān)系數(shù))3.一組隨機(jī)變量Y1,Y2,…,Yq與另一組隨機(jī)變量X1,X2,…,Xp
典型(則)相關(guān)系數(shù)(一)何時(shí)采用典型相關(guān)分析典型相關(guān)是簡單相關(guān)、多重相關(guān)的推廣;或者說簡單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)是典型相關(guān)系數(shù)的特例。第101頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四實(shí)例(X與Y地位相同)
X1,X2,…,XpY1,Y2,…,Yq1臨床癥狀所患疾病2原材料質(zhì)量相應(yīng)產(chǎn)品質(zhì)量3居民營養(yǎng)健康狀況4生長發(fā)育(肺活量)身體素質(zhì)(跳高)5人體形態(tài)人體功能第102頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(二)典型相關(guān)分析的思想采用主成分思想尋找第i對典型(相關(guān))變量(Ui,Vi),利用各對綜合變量(典型相關(guān)變量)之間的相關(guān)性來反映原來兩組指標(biāo)之間的整體相關(guān)性。典型相關(guān)是研究兩組變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法。也是一種降維技術(shù)。由Hotelling(1935,1936)最早提出第103頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四(三)實(shí)例分析為了探討小學(xué)生的生長發(fā)育指標(biāo)與身體素質(zhì)的相互關(guān)系,某市對小學(xué)生的體質(zhì)進(jìn)行了調(diào)查。現(xiàn)僅對84例10歲男孩的四項(xiàng)生長發(fā)育指標(biāo):肺活量、身高、體重、胸圍與四項(xiàng)反映身體素質(zhì)的指標(biāo):50m跑、跳高、跳遠(yuǎn)、實(shí)心球擲遠(yuǎn)進(jìn)行典型相關(guān)分析。實(shí)測數(shù)據(jù)如表21-2。第104頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四表21-284名10歲男孩的生長發(fā)育指標(biāo)與身體素質(zhì)指標(biāo)的實(shí)測值編號肺活量X1(L)身高X2(cm)體重X3(kg)胸圍X4(cm)50m跑Y1(s)跳高Y2(cm)跳遠(yuǎn)Y3(m)實(shí)心球擲遠(yuǎn)Y4(m)11210120.123.861.010.2662.012.7321210120.723.459.811.3681.922.7131040121.222.959.010.1671.922.60………………………831580136.632.367.210.3872.664.04842370147.438.873.010.8912.824.38第105頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation10.8858440.8781070.0236300.78472020.2791520.1670510.1012110.07792630.194049.0.1056310.03765540.037965.0.1096060.001441典型相關(guān)系數(shù)第106頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四RatioApproxFValueNumDFDenDFPr>F0.1907536810.4816232.82<.00010.886074451.069187.550.39300.960958050.7841560.53690.998558630.111790.7365典型相關(guān)系數(shù)近似F檢驗(yàn)上述結(jié)果顯示:只有第一典型相關(guān)系數(shù)在檢驗(yàn)水準(zhǔn)0.05的水平下具有統(tǒng)計(jì)學(xué)意義,因此只取第一對典型相關(guān)變量,即(U1,V1)第107頁,共110頁,2022年,5月20日,21點(diǎn)53分,星期四
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院制劑生產(chǎn)保密協(xié)議書
- 公司品牌無償借用協(xié)議書
- 小孩代替家長簽字協(xié)議書
- 個(gè)人稅務(wù)處理代理協(xié)議書
- 個(gè)人委托辦理入學(xué)協(xié)議書
- 政企黨建合作共建協(xié)議書
- 對公賬戶轉(zhuǎn)賬借用協(xié)議書
- 房屋買賣合同保證協(xié)議書
- 國稅短信合同章程協(xié)議書
- 兄弟姐妹共同還款協(xié)議書
- 頌缽療愈師培訓(xùn)
- 律師事務(wù)所律師事務(wù)所風(fēng)險(xiǎn)管理手冊
- 中華傳統(tǒng)文化之文學(xué)瑰寶學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2020年高考英語試卷(新課標(biāo)Ⅰ)(含解析版)
- DB34∕T 4410-2023 燦型水稻苗期耐熱性鑒定技術(shù)規(guī)程
- 水利水電工程施工(CB)、監(jiān)理(JL)表格大全
- SJG 171-2024 建筑工程消耗量標(biāo)準(zhǔn)
- 上海研學(xué)旅行課程設(shè)計(jì)
- DB1331T019-2022 雄安新區(qū)巖土基準(zhǔn)層劃分導(dǎo)則
- 電力拖動(dòng)自動(dòng)控制系統(tǒng)(第5版)阮毅課后習(xí)題答案
- 幼兒園小班安全活動(dòng)《認(rèn)識消防員》課件
評論
0/150
提交評論