衛(wèi)生統(tǒng)計學-生存分析_第1頁
衛(wèi)生統(tǒng)計學-生存分析_第2頁
衛(wèi)生統(tǒng)計學-生存分析_第3頁
衛(wèi)生統(tǒng)計學-生存分析_第4頁
衛(wèi)生統(tǒng)計學-生存分析_第5頁
已閱讀5頁,還剩90頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

19

生存分析回歸分析1個因變量Y1個自變量XY是數值變量Y是分類型變量兩個因變量生存分析Cox回歸(結局分類變量+時間)④簡單回歸Simple

regressionLogistic

回歸Logisticregression多重回歸Multiple

regression①②2個以上自變量X③常用的回歸分析中分類:曲線回歸線性回歸醫(yī)學研究中,很多時候不僅需要分析疾病的結局狀態(tài)如何,更要分析達到該結局狀態(tài)的所用時間是多少。:例:為研究

腫瘤患者手術后生存的影響因素,某醫(yī)院泌尿外科醫(yī)師選擇

1996-2000

手術治療的

瘤患者30例進行了隨訪研究,截止日期

。期間通過查閱

/和

的方式

了可能影響者術后生存的因素,獲得其生存結局情況(

與否)。:(歲)腫瘤分級:I級=1;II級=2;III級=3腫瘤大小/cm:<3cm=1;≥3cm=2是否復發(fā)(未復發(fā)=0;1=復發(fā))手術日期(月/日/年)終止觀察日期(月/日/年)生存時間/月結局事件(status)

生存結局(生存或刪失=

0;

=

1)影響因素/協(xié)變量生存時間(time)編號(歲)腫瘤分級腫瘤大小/cm是否復發(fā)手術日期終止觀察日期結局生存時間/月162I≤3.0002/10/199612/30/2000存活59264I≤3.0003/05/199608/12/2000死于

瘤54352II≤3.0104/09/199612/03/1999失訪44460I≤3.0006/06/199610/27/2000死于冠心病53559II>3.0007/20/199606/21/1998死于

瘤23659I>3.0108/19/199609/10/1999死于

瘤37…表19-2

30例腫瘤患者生存資料的原始記錄表三要素:1.生存時間(survival

time)——從規(guī)定的觀察起點到某一特定終點事件出現的時間長短。終點事件生存時間觀察起點⑴

疾病確診⑵

治療開始⑶

癥狀緩解⑷

接觸毒物⑸

接觸痊愈復發(fā)痊愈疾病出現毒性反映發(fā)病終點事件生存時間觀察起點時間終點事件:死于腫瘤研究截止時點2000/12/30死于冠心病生存時間失訪到截止時間事件尚未發(fā)生刪失2.隨訪研究產生數據的類型:完全數據:在規(guī)定的觀察期內,對某些觀察對象觀察到了終點事件發(fā)生,從起點到終點事件所經歷的時間,稱為生存時間的完全數據(complete

data)。用符號“t

”表示。刪失數據(截尾數據):規(guī)定的觀察期內,對某些觀察對象,由于某種原因未能觀察到就象的終點事件發(fā)生,并不知道其確切的生存時間,生存時間在未達到規(guī)定的終點就被截尾一樣,稱為生存時間的刪失數據,又稱截尾數據。用符號“t+”表示。產生刪失數據的常見原因有:研究結束時終點事件尚未發(fā)生;失訪;死于其它原因;由于嚴重藥物反應而終止觀察或改變治療措施。有結局和生存時間兩個因變量;生存時間分布不正態(tài)—非負且右偏;可能含有刪失數據(censor)。生存資料特點:特點:可處理生存時間分布不正態(tài)的問題;可處理刪失數據。生存分析(survival

ysis):將終點事件和出現終點時間所經歷的時間結合起來分析的一類統(tǒng)計分析。同時考慮結局和生存時間兩個因變量;生存分析簡史:1972年Cox提出比例風險模型(ProportionalHazardModel),即Cox回歸,已成為生存分析的標準統(tǒng)計方法。1656~1742年

表;1958年Kaplan-Meier提出刻畫生存時間分布的乘積極限法;1966年用Log-rank檢驗法可實現對生存曲線的組間比較;生存率、率、中位生存時間生存曲線、中位生存時間組間比較的假設檢驗——單因素分析單因素分析及多因素分析生存分析的作用:以

腫瘤患者術后生存的影響因素的隨訪資料分析為例估計:根據樣本生存資料,估計總體不同時間生存率、生存曲線及中位生存期等;比較:對不同特征組患者的生存狀況進行比較,通過Log-rank

檢驗等,了解某因素與患者預后的關系。影響因素分析:用Cox回歸等方法,研究患者生存的影響因素;或調整某混雜因素后,研究某因素對生存的影響。:對具有不同因素,水平的

進行生存/預后

。回歸分析1個因變量Y1個自變量XY是數值變量Y是分類型變量兩個因變量生存分析Cox回歸(結局分類變量+時間)④簡單回歸Simple

regressionLogistic

回歸Logisticregression多重回歸Multiple

regression①②2個以上自變量X③常用的回歸分析中分類:曲線回歸線性回歸生存分析概

生存率的估計

生存曲線的比較

Cox比例風險回歸模型合格的研究對象出現結果尚未出現結果失訪、脫落試驗組對照組伴隨因素干擾因素隨訪研究(follow-up

study)示意圖隨機對象的臨床試驗研究:隨訪研究:時間終點事件:死于腫瘤研究截止時點2000/12/30死于冠心病生存時間失訪到截止時間事件尚未發(fā)生刪失19.1

生存分析的基本概念常用概念:概率(probability

of

death);生存概率(

probability

of

survival);針對單位時間的生存率(survival

rate)及其標準誤;中位生存期(median

survival

time)及四分位間距;風險函數(hazard

function):

t

時刻存活的 在t

時刻的瞬時

率。⑴概率(probability

ofdeath):表示某單位時段開始存活的

,在該時段內

的可能性;如年

概率。某年年初人口數人數概率(q)

某年內注意:如果年內有刪失,則分母用校正人口數:校正人口數=年初人口數—刪失例數/2末人口數:n-k初人口數:n期間人數:k⑵

生存概率(probability

of

survival)

:單位時段開始時存活的

,到該時段結束時仍然存活的可能性。注意:若年內有刪失,分母用校正人口數。生存概率(p)

某年活滿一年人數

1

q某年年初人口數末人口數:n-k初人口數:n期間人數:k經歷tk⑶生存率(survival

rate):0

時刻存活的時個單位時間段后仍存活的可能性。觀察總例數kkt

時刻仍存活例數S

(t)

P(T

t

)

?若資料中無刪失數據時:【舉例】手術治療50例肺癌,術后1,2,3年的數分別為10,10,10例,無截尾數據。試求各年的生存概率和3年生存率。解:1.各年生存概率p1

=

(

50–10

)/50

=0.80p2

=

(

40–10

)/40

=0.75p3

=

(

30–10

)/30

=0.672.3年生存率S(3)=P(T≥3)=(50–30)/50=

0.4

=

p1

×

p2

×

p3故生存率又稱為累積生存概率(cumulativeprobability

of

survival),它是隨著時間的變化而變化著的,是關于時間的函數,稱為生存函數(survivalfunction)。若資料中有刪失數據,則須分段計算生存概率,再應用概率乘法定理將分時段的生存概率相乘得到生存率:S?(tk

)

P(T

tk

)

p1

p2

......

pk

S?(tk

1

)

pk區(qū)分:生存率——生存概率生存概率是針對單位時間而言的;生存率是針對某個較長時段的,是生存概率的累計結果。⑷風險函數(hazard

function):t

時刻存活的

在t

時刻的瞬時率。h(t)近似地等于t時刻存活的在此后一個單位時段內的概率。tPt

T

t

t

T

t

t

0h(t)

lim①中位生存期(median

survival

time)

:也稱半數生存期,是生存時間中位數(M/P50),表示恰有50%的

存活的時間,即生存率為50%時對應的生存時間,是描述集中趨勢的指標。中位生存期越長,表示疾病的預后越好。②生存期的四分位數間距:Q=P75-P25是反映離散程度大小的指標。⑸中位生存期及四分位數間距1.刻畫生存時間的分布:3.評價生存時間分布影響因子的效果2.生存時間分布的組間比較表法Kaplan-Meier法估計生存率(生存函數)、生存曲線在不考慮其它混雜因素的情況下,利用表法和

Kaplan-Meier法作生存時間的組間比較Log

rank

檢驗擬合Cox回歸模型等評價生存時間分布與多個影響因子之間的關系。19.2

生存率的估計大樣本資料-頻數表資料:表法估計生存率小樣本資料:Kaplan-Meier法或稱乘積極限法(product

limit

method)繪制生存曲線19.2.1

表ife

tablemethod)患者的隨訪資料,取時間區(qū)例21-1

收集374名某間均為1年,整理結果見下午表,試估計各年生存率。解析:該生存資料為大樣本,生存時間粗略且含有刪失數據。方法原理:計算期初有效例數,注意刪失數據期初有效例數=期初病例數-期內刪失數/2計算 概率、生存概率數/期初有效例數概率概率=期內生存概率=1-計算生存率。作生存曲線。表法①②③④表法曲線為折線。該法只估計時段右端點的生存率,省略了時段內的生存率估計患者確診后5年內生存率下降較快,5年后下降較平緩,說明確診5年內該

患者的

較大。中位生存期【電腦實現】—SPSS1.數據錄入:頻數形式生存分析—表法)【Time

】生存時間(年)【Status

】0:刪失數據1:完全數據(【Freq

】頻數2.3.

SPSS過程4.結果及結果輸出:期初 期內病例 刪失數

數期初 期內有效例數數生存概率

概率生存率生存率標準誤概率 概率密密度

度標準誤風險率風險率標準誤19.2.2

乘積極限法——kaplan-meier法例19-2

按下表數據,14例腫瘤<3.0cm患者和16例腫瘤≥3.0cm患者的生存時間(月)如下,試估計兩組生存率。<3.0cm1419262829323640

42

44+

45

53+5459+≥3.0cm6791011121320

23

25

27

30343743

50解析:以“<3.0cm”組為例,n=14,樣本含量較小且含刪失數據。方法原理:將生存時間由小到大依次排列,在每個時間區(qū)間上,計算

人數、刪失人數、期初人數、 概率、生存概率和生存率。作生存曲線。乘積極限法——kaplan-meier法+++①②③④Kaplan-Meier法生存曲線為階梯形曲線。中位生存期【電腦實現】—SPSS生存分析—Kaplan-Meier1.數據錄入【

Group

1: <3.0cm;2:

3.0cm【dtime

】生存時間(月)【Status

】0:刪失數據1:完全數據(結局事件)2.

SPSS過程ase

Processing

SumgroupTotal

NN

of

Events<3.0cm1411>=3.0cm1616Overall30273.結果及結果輸出:13141516Means

and

Medians

for

Survival

TimegroupMeanaMedianEstimateStd.

Error95%

Confidence

IntervalEstimateStd.

Error95%

Confidence

IntervalLower

BoundUpper

BoundLower

BoundUpper

Bound<3.0cm38.1523.74030.82245.48236.0007.48321.33350.667>=3.0cm22.3133.41015.62828.99720.00010.000.40039

600Overall29.6802.86024.07535.28528.0002.73922.63233.368a.

Estimation

is

limited

to

the

largest

survival

time

ifit

is

censored.Percentilesgroup25.0%50.0%75.0%EstimateStd.

ErrorEstimateStd.

ErrorEstimateStd.

Error<3.0cm54.0006.07536.0007.48328.0005.634>=3.0cm30.0006.06220.00010.00010.0001.732Overall42.0004.63328.0002.73914.0005.652Overall

ComparisonsChi-Square

df

Sig.Log

Rank

(Man

-Cox)

7.369

1

.007Test

of

equality

of

survival

distributions

for

the

different

levels

ofgroup.19.3

生存曲線的比較(Log

rank

檢驗)【例19-3】

比較上例中

腫瘤<3.0cm患者和腫瘤≥3.0cm患者的生存曲線,就總體而言,兩個生存函數是否有差別?兩組或多組頻率比較

2

檢驗?Log-rank檢驗19.2.2

乘積極限法——kaplan-meier法例19-2

按下表數據,14例腫瘤<3.0cm患者和

16例腫瘤≥3.0cm患者的生存時間(月)如下,試估計兩組生存率。<3.0cm14

19

26

28

29

32

36 40

42

44+

45

53+54

59+6

7

9

10

11

12

13 20

23

25

27

30

34

37 43

50≥3.0cm由度是1,

3.84

。2界值Log-rank檢驗:作用:通過

2檢驗對兩組或多組生存曲線是否存在差異作出假設檢驗;與普通

2檢驗不同的是:它能充分利用生存時間(包括刪失數據),而且能對各組的生存率作整體的比較;其檢驗統(tǒng)計量近似地服從

度為(組數-1)的

2分布;若作兩條生存曲線的差異性比較,自H1:S1

t

S2

t

,兩總H0:S1按生存時間由小到大排序

0.051.將兩組數據例數di。數Tgi兩組合計的期初例數ni和3.計算各組在時間ti上的理論例數dgi

,以及2.分別計算兩組在時間ti上的期初例數ngi和30

141

0.4667igin

ngidiT組別數未數合計<3.0cm組01414≥3.0cm組11516合計12930可以認為兩條生存曲線不同,腫瘤

3.0cm患者的生存曲線高于

3.0cm患者。(16

9.4584)2(1117.5416)2H0,接受H1,(A

T

)2總數總數和理論計算各組的實際計算統(tǒng)計量

7.379.4584Tg

17.5416

16.做出統(tǒng)計結論P

0.05,按

0.05水準,

2

g

g

Overall

ComparisonsChi-SquaredfSig.Log

Rank

(Man

-Cox)7.3691.007Test

of

equality

of

survival

distributions

for

the

different

levels

ofgroup.【注意事項】Log-rank檢驗可用于整條生存曲線的比較,也適用于表資料及多組生存率間的比較;Log-rank檢驗屬于單因素分析方法,其應用條件是除比較因素外,影響生存率的各混雜因素在不同的組間均衡。否則,可采用Cox回歸。可計算兩組 的相對 度(relative

ratio,RR)腫瘤≥3.0組對腫瘤<3.0組:RR

A11/

T

16

458/49.

2.69A22/

T

11/17

5416.意義:腫瘤≥3.0組的 風險是對腫瘤<3.0組的2.69倍小結:生存分析和資料的特點:有結局事件status、有生存時間time,還要考慮刪失數據;計算生存率:不能直接去計算,要考慮刪失的數據;通過乘積極限法去計算,如果樣本量大,則可用壽命表的方法。兩個生存曲線的比較:Log-Rank或說時序比較的方法,它是用統(tǒng)計量來比較實際數據與理論數據之間的差異。估計生存率(生存函數)估計生存曲線評價生存時間影響因子的效果生存時間分布的組間比較表法Kaplan-Meier法在不考慮其它混雜因素的情況下,可用

表法和Kaplan-Meier法作Log

rank

檢驗Cox回歸模型19.4

Cox比例風險回歸模型編號(歲)腫瘤分級腫瘤大小/cm是否復發(fā)手術日期終止觀察日期結局生存時間/月162I≤3.0002/10/199612/30/2000存活59264I≤3.0003/05/199608/12/2000死于

瘤54352II≤3.0104/09/199612/03/1999失訪44460I≤3.0006/06/199610/27/2000死于冠心病53559II>3.0007/20/199606/21/1998死于

瘤23659I>3.0108/19/199609/10/1999死于

瘤37…表19-2 30例 腫瘤患者生存資料的原始記錄表例:30例 腫瘤患者的隨訪記錄,欲作患者術后生存的影響因素分析。1972年英國倫敦大學的Cox于Cox回歸模型:它以生存結局和生存時間為因變量,不要求資料服從特定的分布類型;能分析帶有刪失數據的資料,可實現多因素對生存的影響分析。Cox回歸模型的基本思想:在風險函數與影響因子之間建立起類似于廣義線性模型的關聯(lián),從而分析多個影響因子對生存狀況的影響效果。風險函數(hazard

function):

t

時刻存活的

在t

時刻的瞬時率。h(t)近似地等于t

時刻存活的在此后一個單位時段內的概率。tPt

T

t

t

T

t

t

0h(t)

lim2.Cox的模型結構:h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)h(

t

):表示t

時刻存活的

,在協(xié)變量X1、X2、…、Xp概率的作用下,在t

時刻之后的一個單位時間內的(風險率);h0(t

):基準風險函數(baseline

hazard),表示當X1=0、X2=0…、Xp=0時,

在t

時刻基準

率(風險率);βi:各協(xié)變量的回歸系數,需由樣本資料作出估計。2.模型解釋:任兩個群體風險函數之比,即風險比(risk

ratio,

RR或hazard

ratio,HR)或相對

度(RR)RR

hi

(t)

h0

(t)

exp(1

Xi1

2

X

i

2

...

p

X

i

p

)i11hj

(t)

exp

(

X21jPiPj

2

12

i

2j1jj

X

)

(

X

X

)

...

(

X

X

)h0

(t)

exp(1

X

j

2X

...

p

X

p

)

1

iP

XXjP

)htj

()hit()RR

lnln

XXji2X22X111ji

ln

RR

j

jRR

j

exp(

j

)或βj的實際意義:在其他自變量固定不變的條件下,變量Xi每增加一個單位所引起的風險比的自然對數。RRi的實際意義:在其它協(xié)變量不變的條件下,變量Xi每增加一個單位所引起的風險比或相對

度。β值RR值含義>0>1X

增大是生存的=0=1X

的變化與生存無關<0<1X

增大是生存的保護因素RR

j

exp(

j

)估計參數:β0、β1、β2、…、βiCOX回歸方程的假設檢驗統(tǒng)計應用部分似然估計列出回歸方程回歸系數的區(qū)間估計檢驗整個模型——似然比檢驗檢驗單個自變量——Wald檢驗h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)陽性事件的風險概率分析影響因素,定量描述其作用舉例:30例.腫瘤患者的隨訪記錄,試進行患者生存情況的影響因素分析。

。【電腦實現】—SPSS1.數據錄入生存分析—Coxysis2.

SPSS過程3.結果及結果輸出:htht

0

exp1.

680

grade

列出Cox回歸方程(風險函數表達式):相對

0.979sizree1la.0p7se8h(t)

h0

(t)

exp(

1

X1

2

X

2

...

p

X

p

)預后指數(Prognosticindes,PI):其取值越大,則風險函數的取值越大,預后越差。結果報告:腫瘤

的影響因素分析的多變量Cox回歸的結果見下表示,結果表明:腫瘤分級(RR=5.367,95%CI

2.540~11.340,P<0.001)、腫瘤大小(RR=2.939,95%CI

1.193~7.242,P=0.019)

、以及是否復發(fā)(RR=2.262,95%CI1.080~

6.560,P=0.033)與有關。VariableβSE(β)WaldPRR95%CIStandard

βGrade1.6800.38219.385<0.0015.3672.540,11.3401.419Size1.0780.4605.4930.0192.9391.193,7.2420.546Relapse0.9790.4604.5250.0332.6621.080,6.5600.498Cox

回歸的基本假定是比例風險假定(PH假定),即模型中的自變量效應不隨時間而改變。只有在滿足該假定前提下,基于此模型的分析才是可靠有效的;PH假定的判斷,最簡單的是觀察Kaplan-Meier生存曲線。三、Cox

回歸中PH假定及判斷方法Cox

回歸中PH假定的判定方法(1)Cox

回歸中PH假定的判定方法(2)19.5

結果報告結果報告:⑴生存率的估計:報告生存率估計方法、生存曲線及中位生存期⑵生存曲線比較:報告生存曲線、生存曲線的比較方法、檢驗統(tǒng)計量及其P值。⑶影響因素分析:報告變量篩選方法、檢驗水準α、各變量RR值、RR值的95%置信區(qū)間及其P值。附圖:腫瘤<3.0cm組和≥3.0cm組生存曲線(K-M法)以Kaplan-Meier法估計腫瘤<3.0cm組和≥3.0cm組的生存率,生存曲線如圖1所示。其結果顯示

:兩組中位生存期分別為20個月和36個

log-rank檢驗,

2

7.37,P

0.01,兩條曲線的差別有統(tǒng)計學意義,腫瘤<3.0cm組的生存率高于腫瘤≥3.0cm組的。結果報告1:結果報告2:腫瘤的影響因素分析見附表示,經多變量Cox比例風險回歸分析顯示,腫瘤分級(RR=5.367,95%CI2.540~11.340,P<0.001)、腫瘤大小(RR=2.939,95%CI1.193~7.242,P<0.02),以及是否復發(fā)(

RR=2.662,95%CI

1.080~6.560,P<0.05)與有關。小

結生存分析是將終點事件和達到終點事件所經歷的時間結合起來分析的一種統(tǒng)計學方法,可用于生存率的估計、生存曲線比較、影響因素分析和生存。生存曲線的非參數估計方法和

表法和Kaplan-Meier法,前者適用于大樣本的分組資料;后者適用于小樣本或大樣本未分組資料,兩者均利用概率乘積法定理計算生存率。Log-rank檢驗是兩條或多條生存曲線比較的非參數方法之一,因其能對各組生存曲線作整體比較,實際工作中應用研究較多。Cox模型屬比例風險模型、乘法模型;Cox可用于影響因素分析、校正混雜因素后的組間比較以及多因素生存。回歸分析:簡單線性:多重線性logistic回歸線性回歸Y

0

1

X1

2

X

2

....i

X

ik

k

0

1x1

k

xke0

1x1

k

xk

X

X

....

x

1

2

20

1

1或

1

e多個X:ln

111

01-

1-Ln(OR)

Ln(

1

)

-

Ln(

0

)

OR

eY

X只1個X:(簡單)1

ln

X0e0

X1

e0

X或

Cox回歸h(t)

h0

(t)

ex

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論