SPSS數據分析的醫學統計方法選擇_第1頁
SPSS數據分析的醫學統計方法選擇_第2頁
SPSS數據分析的醫學統計方法選擇_第3頁
SPSS數據分析的醫學統計方法選擇_第4頁
SPSS數據分析的醫學統計方法選擇_第5頁
已閱讀5頁,還剩41頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SPSS數據分析的醫學統計方法選擇

SPSS數據分析的醫學統計方法選擇

目錄

數據分析的統計方法選擇小結錯誤!未定義書

簽。

目錄...................................2

?資料1................................................................4

完全隨機分組設計的資料..............4

配對設計或隨機區組設計..............7

變量之間的關聯性分析................9

?資料2..............................................................12

L連續性資料.......................13

1.1兩組獨立樣本比較......13

1.2兩組配對樣本的比較....13

1.3多組完全隨機樣本比較...13

L4多組隨機區組樣本比較...14

2.分類資料........................15

2?1四格表資料............15

2.22XC表或RX2表資料的統計

分析.......................16

2.3RXC表資料的統計分析.?17

2

2.4配對分類資料的統計分析.18

?資料3...............................18

一、兩個變量之間的關聯性分析...20

二、回歸分析...................21

?資料4...............................23

一.統計方法抉擇的條件........23

1.分析目的...............24

2.資料類型...............25

3.設計方法...............27

4.分布特征及數理統計條件?.29

二.數據資料的描述............32

1.數值變量資料的描述.....32

2.分類變量資料的描述.....33

三.數據資料的比較............35

1.假設檢驗的基本步驟.....35

2.假設檢驗結論的兩類錯誤..37

3.假設檢驗的注意事項.....38

4.常用假設檢驗方法.......40

四.變量間的相關分析..........44

1.數值變量(計量資料)的關系

分析.......................45

2.無序分類變量(計數資料)的

3

相關分析..................46

3.有序分類變量(等級資

料)等級相關.......46

?資料1

完全隨機分組設計的資料

一、兩組或多組計量資料的比較

1.兩組資料:

1)大樣本資料或服從正態分布的小樣本

資料

(1)若方差齊性,則作成組t檢驗

(2)若方差不齊,則作檢驗或用成組

的Wilcoxon秩和檢驗

2)小樣本偏態分布資料,則用成組的

Wilcoxon秩和檢驗

2.多組資料:

1)若大樣本資料或服從正態分布,并且

方差齊性,則作完全隨機的方差分析。如果

方差分析的統計檢驗為有統計學意義,則進

一步作統計分析:選擇合適的方法(如:LSD

檢驗,Bonferroni檢驗等)進行兩兩比較。

2)如果小樣本的偏態分布資料或方差不

4

齊,則作KruskalWallis的統計檢驗。如果

KruskalWallis的統計檢驗為有統計學意

義,則進一步作統計分析:選擇合適的方法

(如:用成組的Wilcoxon秩和檢驗,但用

Bonferroni方法校正P值等)進行兩兩比較。

二'分類資料的統計分析

1.單樣本資料與總體比較

1)二分類資料:

(1)小樣本時:用二項分布進行確切概率

法檢驗;

(2)大樣本時:用U檢驗。

2)多分類資料:用Pearson/檢驗(又

稱擬合優度檢驗)。

2.四格表資料

l)n>40并且所以理論數大于5,則用

Pearson%2

2)n>40并且所以理論數大于1并且至少

存在一個理論數<5,則用校正行或用

Fisher's確切概率法檢驗

3)n<40或存在理論數<1,則用

Fishers檢驗

3.2XC表資料的統計分析

5

1)列變量為效應指標,并且為有序多分

類變量,行變量為分組變量,則行評分的CMH

/或成組的Wilcoxon秩和檢驗

2)列變量為效應指標并且為二分類,列

變量為有序多分類變量,則用趨勢/檢驗

3)行變量和列變量均為無序分類變量

(l)n>40并且理論數小于5的格子數〈行

列表中格子總數的25%,則用Pearson%2

(2)n<40或理論數小于5的格子數》行列

表中格子總數的25%,則用Fisher,s確切

概率法檢驗

4.RXC表資料的統計分析

1)列變量為效應指標,并且為有序多分

類變量,行變量為分組變量,則CMH/或

KruskalWallis的秩和檢驗

2)列變量為效應指標,并且為無序多分

類變量,行變量為有序多分類變量,作none

zerocorrelationanalysis的CMH%2

3)列變量和行變量均為有序多分類變

量,可以作Spearman相關分析

4)列變量和行變量均為無序多分類變

量,

6

(l)n>40并且理論數小于5的格子數〈行

列表中格子總數的25%,則用Pearson%

(2)n<40或理論數小于5的格子數》行列

表中格子總數的25%,則用Fisher's確切

概率法檢驗

三、Poisson分布資料

1.單樣本資料與總體比較:

1)觀察值較小時:用確切概率法進行檢

驗。

2)觀察值較大時:用正態近似的U檢驗。

2.兩個樣本比較:用正態近似的U檢驗。

配對設計或隨機區組設計

四、兩組或多組計量資料的比較

1.兩組資料:

1)大樣本資料或配對差值服從正態分布

的小樣本資料,作配對t檢驗

2)小樣本并且差值呈偏態分布資料,則

用Wilcoxon的符號配對秩檢驗

2.多組資料:

1)若大樣本資料或殘差服從正態分布,

并且方差齊性,則作隨機區組的方差分析。

7

如果方差分析的統計檢驗為有統計學意義,

則進一步作統計分析:選擇合適的方法(如:

LSD檢驗,Bonferroni檢驗等)進行兩兩比

較。

2)如果小樣本時,差值呈偏態分布資料

或方差不齊,則作Fredman的統計檢驗。如

果Fredman的統計檢驗為有統計學意義,則

進一步作統計分析:選擇合適的方法(如:

用Wilcoxon的符號配對秩檢驗,但用

Bonferroni方法校正P值等)進行兩兩比較。

五、分類資料的統計分析

1.四格表資料

l)b+c>40,則用McNemar配對%?檢驗或

配對邊際必檢驗

2)b+c<40,則用二項分布確切概率法檢

2.CXC表資料:

1)配對比較:用McNemar配對了檢驗或

配對邊際/檢驗

2)一致性問題(Agreement):用Kap檢

8

變量之間的關聯性分析

六、兩個變量之間的關聯性分析

1.兩個變量均為連續型變量

1)小樣本并且兩個變量服從雙正態分

布,則用Pearson相關系數做統計分析

2)大樣本或兩個變量不服從雙正態分

布,則用Spearman相關系數進行統計分析

2.兩個變量均為有序分類變量,可以用

Spearman相關系數進行統計分析

3.一個變量為有序分類變量,另一個變量

為連續型變量,可以用Spearman相關系數進

行統計分析

七、回歸分析

L直線回歸:如果回歸分析中的殘差服從

正態分布(大樣本時無需正態性),殘差與自

變量無趨勢變化,則直線回歸(單個自變量的

線性回歸,稱為簡單回歸),否則應作適當的

變換,使其滿足上述條件。

2.多重線性回歸:應變量(Y)為連續型

變量(即計量資料),自變量(XuX2,Xp)

可以為連續型變量、有序分類變量或二分類變

量。如果回歸分析中的殘差服從正態分布(大

9

樣本時無需正態性),殘差與自變量無趨勢變

化,可以作多重線性回歸。

1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

3.二分類的Logistic回歸:應變量為二

分類變量,自變量(X“X2,Xp)可以為

連續型變量、有序分類變量或二分類變量。

1)非配對的情況:用非條件Logistic

回歸

(1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

(2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

2)配對的情況:用條件Logistic回歸

(1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

10

(2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

4.有序多分類有序的Logistic回歸:應

變量為有序多分類變量,自變量(X1,X2,…,

Xp)可以為連續型變量、有序分類變量或二分

類變量。

1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

5.無序多分類有序的Logistic回歸:應

變量為無序多分類變量,自變量(X1,X2,…,

Xp)可以為連續型變量、有序分類變量或二分

類變量。

1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

11

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

八、生存分析資料:

(要求資料記錄結局和結局發生的時

間,如:死亡和死亡發生的時間)

1.用Kaplan-Meier方法估計生存曲線

2.大樣本時,可以壽命表方法估計

3.單因素可以用Log—rank比較兩條或

多條生存曲線

4.多個因素時,可以作多重的Cox回歸

1)觀察性研究:可以用逐步線性回歸尋

找(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變

量(干預變量)外,可以適當地引入一些其

它可能的混雜因素變量,以校正這些混雜因

素對結果的混雜作用

?資料2

12

1.連續性資料

1.1兩組獨立樣本比較

1.1.1資料符合正態分布,且兩組方差齊性,

直接采用t檢驗。

1.1.2資料不符合正態分布

(1)可進行數據轉換,如對數轉換等,使

之服從正態分布,然后對轉換后的數據采用t檢

驗;

(2)采用非參數檢驗,如Wilcoxon檢驗。

1.1.3資料方差不齊

(1)采用Satterthwate的t'檢驗;

(2)采用非參數檢驗,如Wilcoxon檢驗。

1.2兩組配對樣本的比較

1.2.1兩組差值服從正態分布,采用配對t

檢驗。

1.2.2兩組差值不服從正態分布,采用

wilcoxon的符號配對秩和檢驗。

1.3多組完全隨機樣本比較

1.3.1資料符合正態分布,且各組方差齊性,

13

直接采用完全隨機的方差分析。如果檢驗結果為

有統計學意義,則進一步作兩兩比較,兩兩比較

的方法有LSD檢驗,Bonferroni法,tukey法,

Scheffe法,SNK法等。

1.3.2資料不符合正態分布,或各組方差不

齊,則采用非參數檢驗的Kruscal-Wallis法。

如果檢驗結果為有統計學意義,則進一步作兩兩

比較,一般采用Bonferroni法校正P值,然后

用成組的Wilcoxon檢驗。

1.4多組隨機區組樣本比較

1.4.1資料符合正態分布,且各組方差齊性,

直接采用隨機區組的方差分析。如果檢驗結果為

有統計學意義,則進一步作兩兩比較,兩兩比較

的方法有LSD檢驗,Bonferroni法,tukey法,

Scheffe法,SNK法等。

L4.2資料不符合正態分布,或各組方差不

齊,則采用非參數檢驗的Fridman檢驗法。如果

檢驗結果為有統計學意義,則進一步作兩兩比

較,一般采用Bonferroni法校正P值,然后用

符號配對的Wilcoxon檢驗。

需要注意的問題:

14

(1)一般來說,如果是大樣本,比如各組

例數大于50,可以不作正態性檢驗,直接采用t

檢驗或方差分析。因為統計學上有中心極限定

理,假定大樣本是服從正態分布的。

(2)當進行多組比較時,最容易犯的錯誤

是僅比較其中的兩組,而不顧其他組,這樣作容

易增大犯假陽性錯誤的概率。正確的做法應該

是,先作總的各組間的比較,如果總的來說差別

有統計學意義,然后才能作其中任意兩組的比

較,這些兩兩比較有特定的統計方法,如上面提

到的LSD檢驗,Bonferroni法,tukey法,Scheffe

法,SNK法等。絕不能對其中的兩組直接采用t

檢驗,這樣即使得出結果也未必正確。

(3)關于常用的設計方法:多組資料盡管

最終分析都是采用方差分析,但不同設計會有差

別。常用的設計如完全隨即設計,隨機區組設計,

析因設計,裂區設計,嵌套設計等。

2.分類資料

2.1四格表資料

2.1.1例數大于40,且所有理論數大于5,

則用普通的Pearson檢驗。

15

2.1.2例數大于40,所有理論數大于1,且

至少一個理論數小于5,則用校正的檢驗或

Fisher's確切概率法檢驗。

2.1.3例數小于40,或有理論數小于2,則

用Fisher,s確切概率法檢驗。

2.22XC表或RX2表資料的統計分析

2.2.1列變量&行變量均為無序分類變量,

(1)例數大于40,且理論數小于5的格子

數目〈總格子數目的25%,則用普通的Pearson

檢驗。

(2)例數小于40,或理論數小于5的格子

數目》總格子數目的25%,則用Fisher's確切

概率法檢驗。

2.2.2列變量為效應指標,且為有序多分類

變量,行變量為分組變量,用普通的Pearson檢

驗只說明組間構成比不同,如要說明療效,則可

用行平均分差檢驗或成組的Wilcoxon秩和檢

驗。

2.2.3列變量為效應指標,且為二分類變量,

行變量為有序多分類變量,則可采用普通的

16

Pearson檢驗比較各組之間有無差別,如果總的

來說有差別,還可進一步作兩兩比較,以說明是

否任意兩組之間的差別都有統計學意義。

2.3RXC表資料的統計分析

2.3.1列變量&行變量均為無序分類變量,

(1)例數大于40,且理論數小于5的格子

數目〈總格子數目的25%,則用普通的Pearson

檢驗。

(2)例數小于40,或理論數小于5的格子

數目》總格子數目的25%,則用Fisher's確切

概率法檢驗。

(3)如果要作相關性分析,可采用Pearson

相關系數。

2.3.2列變量為效應指標,且為有序多分類

變量,行變量為分組變量,用普通的Pearson檢

驗只說明組間構成比不同,如要說明療效或強弱

程度的不同,則可用行平均分差檢驗或成組的

Wilcoxon秩和檢驗或Ridit分析。

2.3.3列變量為效應指標,且為無序多分類

變量,行變量為有序多分類變量,則可采用普通

17

的Pearson檢驗比較各組之間有無差別,如果有

差別,還可進一步作兩兩比較,以說明是否任意

兩組之間的差別都有統計學意義。

2.3.4列變量&行變量均為有序多分類變量

(1)如要做組間差別分析,則可用行平均

分差檢驗或成組的Wilcoxon秩和檢驗或Ridit

分析。如果總的來說有差別,還可進一步作兩兩

比較,以說明是否任意兩組之間的差別都有統計

學意義。

(2)如果要做兩變量之間的相關性,可采

用Spearson相關分析。

2.4配對分類資料的統計分析

2.4.1四格表配對資料

(1)b+c>40,則用McNemar配對檢驗。

(2)b+c<40,則用校正的配對檢驗。

2.4.1CXC資料

(1)配對比較:用McNemar配對檢驗。

(2)一致性檢驗,用Kappa檢驗。

?資料3

18

在研究設計時,統計方法的選擇需考慮以

下6個方面的問題:(1)看反應變量是單變量、

雙變量還是多變量;(2)看單變量資料屬于3種

資料類型(計量、計數及等級資料)中的哪一

種;(3)看影響因素是單因素還是多因素;(4)

看單樣本、兩樣本或多樣本;(5)看是否是配對

或配伍設計;(6)看是否滿足檢驗方法所需的前

提條件,必要時可進行變量變換,應用參數方

法進行假設檢驗往往要求數據滿足某些前提條

件,如兩個獨立樣本比較t檢驗或多個獨立樣

本比較的方差分析,均要求方差齊性,因此需

要做方差齊性檢驗。如果要用正態分布法估計參

考值范圍,首先要檢驗資料是否服從正態分布。

在建立各種多重回歸方程時,常需檢驗變量間

的多重共線性和殘差分布的正態性。

表1T

連續因變分類因變量

連續回歸分析Logistic回

自變歸

分類方差分析表格檢驗(比

19

自變(ANOVA)如卡方檢驗)

不同的統計分析方法都有其各自的應用條

件和適用范圍。實際應用時,必須根據研究目

的、資料的性質以及所要分析的具體內容等選

擇適當的統計分析方法,切忌只關心P值的大

小(是否〈0.05),而忽略統計分析方法的應用

條件和適用范圍。

一、兩個變量之間的關聯性分析

1.兩個變量均為連續型變量

1)小樣本并且兩個變量服從雙正態分布,則

用Pearson相關系數做統計分析

2)大樣本或兩個變量不服從雙正態分布,則

用Spearman相關系數進行統計分析

2.兩個變量均為有序分類變量,可以用

Spearman相關系數進行統計分析

3.一個變量為有序分類變量,另一個變量

為連續型變量,可以用Spearman相關系數進行

統計分析

20

二、回歸分析

1.直線回歸:如果回歸分析中的殘差服從正

態分布(大樣本時無需正態性),殘差與自變量

無趨勢變化,則直線回歸(單個自變量的線性回

歸,稱為簡單回歸),否則應作適當的變換,使

其滿足上述條件。

2.多重線性回歸:應變量(Y)為連續型變

量(即計量資料),自變量(XI,X2,Xp)

可以為連續型變量、有序分類變量或二分類變

量。如果回歸分析中的殘差服從正態分布(大樣

本時無需正態性),殘差與自變量無趨勢變化,

可以作多重線性回歸。

1)觀察性研究:可以用逐步線性回歸尋找

(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變量

(干預變量)外,可以適當地引入一些其它可能

的混雜因素變量,以校正這些混雜因素對結果的

混雜作用

3.二分類的Logistic回歸:應變量為二分

類變量,自變量(XI,X2,Xp)可以為連續

型變量、有序分類變量或二分類變量。

1)非配對的情況:用非條件Logistic回歸

21

(1)觀察性研究:可以用逐步線性回歸尋找

(擬)主要的影響因素

(2)實驗性研究:在保持主要研究因素變量

(干預變量)外,可以適當地引入一些其它可能

的混雜因素變量,以校正這些混雜因素對結果的

混雜作用

2)配對的情況:用條件Logistic回歸

(1)觀察性研究:可以用逐步線性回歸尋找

(擬)主要的影響因素

(2)實驗性研究:在保持主要研究因素變量

(干預變量)外,可以適當地引入一些其它可能

的混雜因素變量,以校正這些混雜因素對結果的

混雜作用

4.有序多分類有序的Logistic回歸:應變

量為有序多分類變量,自變量(XLX2,Xp)

可以為連續型變量、有序分類變量或二分類變

量。

1)觀察性研究:可以用逐步線性回歸尋找

(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變量

(干預變量)外,可以適當地引入一些其它可能

22

的混雜因素變量,以校正這些混雜因素對結果的

混雜作用

5.無序多分類有序的Logistic回歸:應變

量為無序多分類變量,自變量(XLX2,Xp)

可以為連續型變量、有序分類變量或二分類變

量。

1)觀察性研究:可以用逐步線性回歸尋找

(擬)主要的影響因素

2)實驗性研究:在保持主要研究因素變量

(干預變量)外,可以適當地引入一些其它可能

的混雜因素變量,以校正這些混雜因素對結果的

混雜作用。

?資料4

一.統計方法抉擇的條件

在臨床科研工作中,正確地抉擇統計分析方

法,應充分考慮科研工作者的分析目的、臨床科

研設計方法、搜集到的數據資料類型、數據資料

的分布特征與所涉及的數理統計條件等。其中任

何一個問題沒考慮到或考慮有誤,都有可能導致

統計分析方法的抉擇失誤。

23

此外,統計分析方法的抉擇應在科研的設計

階段來完成,而不應該在臨床試驗結束或在數據

的收集工作已完成之后。

對臨床科研數據進行統計分析和進行統計

方法抉擇時,應考慮下列因素:

1.分析目的

對于臨床醫生及臨床流行病醫生來說,在進

行統計分析前,一定要明確利用統計方法達到研

究者的什么目的。一般來說,統計方法可分為描

述與推斷兩類方法。一是統計描述

(descriptivestatistics),二是統計推斷

(inferentialstatistics)o

統計描述,即利用統計指標、統計圖或統計

表,對數據資料所進行的最基本的統計分析,使

其能反映數據資料的基本特征,有利于研究者能

準確、全面地了解數據資料所包涵的信息,以便

做出科學的推斷。統計表,如頻數表、四格表、

列聯表等;統計圖,如直方圖、餅圖,散點圖等;

統計指標,如均數、標準差、率及構成比等。

統計推斷,即利用樣本所提供的信息對總體

進行推斷(估計或比較),其中包括參數估計和

24

假設檢驗,如可信區間、t檢驗、方差分析、

2檢驗等,如要分析甲藥治療與乙藥治療兩組

的療效是否不相同、不同地區某病的患病率有無

差異等。

還有些統計方法,既包含了統計描述也包含

了統計推斷的內容,如不同變量間的關系分析。

相關分析,可用于研究某些因素間的相互聯系,

以相關系數來衡量各因素間相關的密切程度和

方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌

等的相關分析;回歸分析,可用于研究某個因素

與另一因素(變量)的依存關系,即以一個變量

去推測另一變量,如利用回歸分析建立起來的回

歸方程,可由兒童的年齡推算其體重。

2.資料類型

資料類型的劃分現多采用國際通用的分類

方法,將其分為兩類:數值變量

(numericalvariable)資料和分類變量

(categoricalvariable)資料。數值變量是指

其值是可以定量或準確測量的變量,其表現為數

值大小的不同;而分類變量是指其值是無法定量

或不能測量的變量,其表現沒有數值的大小而只

25

有互不相容的類別或屬性。分類變量又可分為無

序分類變量和有序分類變量兩小類,無序分類變

量表現為沒有大小之分的屬性或類別,如:性別

是兩類無序分類變量,血型是四類無序分類變

量;有序分類變量表現為各屬性或類別間有程度

之分,如:臨床上某種疾病的“輕、中、重”,治

療結果的“無效、顯效、好轉、治愈”。由此可

見,數值變量資料、無序分類變量資料和有序分

類變量資料又可叫做計量資料、計數資料和等級

資料。

資料類型的劃分與統計方法的抉擇有關,在

多數情況下不同的資料類型,選擇的統計方法不

一樣。如數值變量資料的比較可選用t檢驗、U

檢驗等統計方法;而率的比較多用2檢驗。

值得注意的是,有些臨床科研工作者,常常

人為地將數值變量的結果轉化為分類變量的臨

床指標,然后參與統計分析,如患者的血紅蛋白

含量,研究者常用正常、輕度貧血、中度貧血和

重度貧血來表示,這樣雖然照顧了臨床工作的習

慣,卻損失了資料所提供的信息量。換言之,在

多數情況下,數值變量資料提供的信息量最為充

分,可進行統計分析的手段也較為豐富、經典和

26

可靠,與之相比,分類變量在這些方面都不如數

值變量資料。因此,在臨床實驗中要盡可能選擇

量化的指標反映實驗效應,若確實無法定量時,

才選用分類數據,通常不宜將定量數據轉變成分

類數據。

3.設計方法

在眾多的臨床科研設計方法中,每

一種設計方法都有與之相適應的統計方法。在統

計方法的抉擇時,必須根據不同的臨床科研設計

方法來選擇相應的統計分析方法。如果統計方法

的抉擇與設計方法不一致,統計分析得到的任何

結論都是錯誤的。

在常用的科研設計方法中,有成組設計(完

全隨機設計)的t檢驗、配對t檢驗、成組設計

(完全隨機設計)的方差分析、配伍設計(隨機

區組設計)的方差分析等,都是統計方法與科研

設計方法有關的佐證。因此,應注意區分成組設

計(完全隨機設計)與配對和配伍設計(隨機區

組設計),在成組設計中又要注意區別兩組與多

組設計。最常見的錯誤是將配對或配伍設計(隨

機區組設計)的資料當做成組設計(完全隨機設

27

計)來處理,如配對設計的資料使用成組t檢驗、

配伍設計(隨機區組設計)使用成組資料的方差

分析;或將三組及三組以上的成組設計(完全隨

機設計)資料的比較采用多個t檢驗、三個或多

個率的比較采用四格表的卡方檢驗來進行比較,

都是典型的錯誤。如下表:

表1常見與設計方法有關的統計方法抉

擇錯誤

表格1

設計方法錯誤的統計正確統計方法

方法

兩個均數的比成組設計的t成組設計的秩和

較(成組設計、檢驗檢驗

完全隨機設

計)

多個均數的比多個成組設完全隨機設計的

較(成組設計、計的t檢驗方差分析及q檢

完全隨機設驗、完全隨機設計

計)的秩和檢驗及兩

兩比較

數值變量的配成組設計的t配對t檢驗、配對

對設檢驗秩和檢驗

28

隨機區組設計多個成組設隨機區組設計的

(配伍設計的t檢驗、方差分析及q檢

計)完全隨機設驗、隨機區組設計

計的方差分的秩和檢驗及兩

析兩比較

交叉設計成組設計的t交叉設計的方差

檢驗、配對t分析、交叉設計的

檢驗、配對秩秩和檢驗

和檢驗

4.分布特征及數理統計條件

數理統計和概率論是統計的理論

基礎。每種統計方法都要涉及數理統計公式,而

這些數理統計公式都是在一定條件下推導和建

立的。也就是說,只有當某個或某些條件滿足時,

某個數理統計公式才成立,反之若不滿足條件

時,就不能使用某個數理統計公式。

在數理統計公式推導和建立的條件中,涉及

最多的是數據的分布特征。數據的分布特征是指

29

數據的數理統計規律,許多數理統計公式都是在

特定的分布下推導和建立的。若實際資料服從

(符合)某種分布,即可使用該分布所具有的數

理統計規律來分析和處理該實際資料,反之則不

能。在臨床資料的統計分析過程中,涉及得最多

的分布有正態分布、偏態分布、二項分布等。

許多統計方法對資料的分布有要求,如:均

數和標準差、t和U檢驗;方差分析都要求資料

服從正態分布,而中位數和四分位數間距、秩和

檢驗等,可用于不服從正態分布的資料。所以,

臨床資料的統計分析過程中,應考慮資料的分布

特征,最起碼的要求是熟悉正態分布與偏態分

布。

例如:在臨床科研中,許多資料的描述不考

慮資料的分布特征,而多選擇均數與標準差。如

某婦科腫瘤化療前的血象值,資料如下表:

某婦科腫瘤化療前的血象值

表格2

指標名例均標偏度P峰度P

數數準系數值系數值

血紅蛋9811118.0.180.0.020.

30

白(g/D.9982045595

98

血小板9817387.1.350.1.840.

(X.5811300300

109/L)00

白細胞986.72.71.200.1.200.

(X93067700201

109/L)03

從上結果可見,若只看三項指標的均數和

標準差,臨床醫生也許不會懷疑有什么問題。但

是經正態性檢驗,病人的血紅蛋白服從正態分

布,而血小板和白細胞兩項指標的偏度和峰度系

數均不服從正態分布(PC0.05)。因此,描述病

人的血小板和白細胞平均水平正確的指標是中

位數,而其變異程度應使用四分位數間距。

除了數據的分布特征外,有些數理統計公式

還有其它一些的條件,如t檢驗和方差分析的方

差齊性、卡方檢驗的理論數⑴大小等。

總之,對于臨床科研工作者來說,

為正確地進行統計方法的抉擇,首先要掌握或熟

悉上述影響統計方法抉擇因素;其次,還應熟悉

和了解常用統計方法的應用條件。

31

二.數據資料的描述

統計描述的內容包括了統計指標、統計圖和

表,其目的是使數據資料的基本特征更加清晰地

表達。本節只討論統計指標的正確選用,而統計

圖表的正確使用請參閱其他書籍。

1.數值變量資料的描述

描述數值變量資料的基本特征有兩類指標,

一是描述集中趨勢的指標,用以反映一組數據的

平均水平;二是描述離散程度的指標,用以反映

一組數據的變異大小。各指標的名稱及適用范圍

等見表2。

表3描述數值變量資料的常用指標

表格3

指標名用途適用的資料

均描述一組數據的正態分布或近似

數(X平均水平,集中位正態分布

一)置

中位與均數相同偏態分布、分布未

數(M)知、兩端無界

幾何均數與均數相同對數正態分布,等

32

(G)比資料

標準描述一組數據的正態分布或近似

差(變異大小,離散程正態分布

S)度

四分位數(QU-QL)與標偏態分布、分布未

間距準差相同知、兩端無界

極差與標準差相同觀察例數相近的

(R)數值變量

變異系數與標準差相同比較幾組資料間

(CV)的變異大小

從表中可看出,均數與標準差聯合

使用描述正態分布或近似正態分布資料的基本

特征;中位數與四分位數間距聯合使用描述偏態

分布或未知分布資料的基本特征。

這些描述指標應用時,最常見的錯誤是不考

慮其應用條件的隨意使用,如:用均數和標準差

描述偏態分布、分布未知或兩端無界的資料,這

是目前在臨床研究文獻中較為普遍和典型的錯

誤。

2.分類變量資料的描述

描述分類變量資料常用的指標有

33

死亡率、患病率、發病率等。

臨床上,這類指標的應用較多,出

現的錯誤也較多。這些錯誤歸納起來大致有兩

類:一是以比代率,即誤將構成比(proportion)

當做率(rate)來描述某病發生的強度和頻率,如

用某病的病人數除以就診人數(或人次)得到“某

病患病率”或“某病發病率”,就是典型的以比

代率的例子。二是把各種不同的率相互混淆,如

把患病率與發病率、死亡率與病死率等概念混

同。

需要指出的是,單純利用醫院常規

資料,最易得到的指標是構成比。而描述疾病發

生強度和頻率的指標的率反映如患病率、發病

率、死亡率等,很難利用醫院的常規資料(如醫

院醫院的病例檔案)獲得。因為,醫院常規資料

無法得到計算這些率所需的分子和分母的資料。

所以,一旦研究者利用的是醫院常規資料,則無

法衡量疾病對人群的危害程度。常用描述指標如

表3o

表4描述分類變量資料的常用指標

表格4

指標計算公式意義

34

名稱

率發生某現象的觀察描述事件發生的強

單位數可能發生度和頻率

某現象的觀察單位

總數XK

構成AA+B+…X事物內部各組成部

比100%分所占的比重

相對ABA指標為B指標的若

比干倍或百分之幾

三.數據資料的比較

在眾多的科研研究方法中,歸納起

來最基本的手段有兩種,一是對研究對象的全體

進行研究,在實際工作中往往難以實現;二是從

總體中抽取一定數量的樣本進行抽樣研究,但要

考慮抽樣誤差對結果的影響。因此,若用樣本信

息去推斷其所代表的總體間有無差別時,需要使

用假設檢驗(hypothesistesting)或稱顯著性

檢驗(significancetest)。

1.假設檢驗的基本步驟

(1)建立檢驗假設。

35

建立假設的過程應有三個內容。即

無效假設HO(nullhypothesis)>備擇假設

Hl(alternativehypothesis)和檢驗水準

(sizeoftest)o無效假設HO是研究者

想得到結論的對立事件的假設,對于差異性檢驗

而言,研究者想得到的是“有差別”的結論,故

首先應假設各總體間無差別;備擇假設H1是其

對立的假設,即是“有差別”的假設;此外,還

應確定有統計意義的概率水平,通常取

0.05o建立檢驗假設的通常格式為:

H0:多個樣本來自同一總體,各樣本間的差

別是由于抽樣誤差所致

H1:多個樣本來自不同的總體,各

樣本間的差別是由于不同總體所致

=0.05

(2)計算統計量。

根據資料的類型、分布特征、科研設計方法

等條件,選擇不同的統計量計算方法,如t檢驗、

u檢驗等統計方法。

(3)根據統計量的值得到概率(P)值;再按

概率⑻值的大小得出結論。其結論只有兩種情

況,若PW時,即概率小于我們事先確定好的

36

檢驗水平概率(如P^o.05),我們就拒絕其無

差別假設H0,而接受HL認為差別有統計學意

義,各樣本來自不同總體,樣本間的差別是總體

的不同所致;若P>時,其概率大于我們事先

確定好的檢驗水平(如P>0.05),我們就不拒

絕其無差別的假設H0,還不能認為各總體間有

差別,樣本來自同一總體,即差別沒有統計學意

義。

2.假設檢驗結論的兩類錯誤

在假設檢驗的兩種結論中無論做出何種結

論,都有可能犯錯誤。

當PW時,做出“拒絕其無差別的假設,

可認為各總體間有差別”的結論時就有可能犯錯

誤,這類錯誤稱為第一類錯誤(I型錯誤,

typeIerror),其犯錯誤的概率用表示,

若取0?05,此時犯I型錯誤的概率小于或等

于0.05,若假設檢驗的P值比0.05越小,犯一

類錯誤的概率就越小。

當P>時,做出“不拒絕其無差別的假設,

還不能認為各總體間有差別”的結論時,就有可

能犯第二類錯誤(H型錯誤,typeIIerror),

37

其犯錯誤的概率用表示,在通常情況下犯n類

錯誤的概率未知,雖然是個未知數,但假設檢

驗p值越大,犯二類錯誤的概率就越小。

表5假設檢驗的兩類錯誤

表格5

11靈設檢驗結

真實情況拒絕H0不拒絕H0

樣本來自推斷不正推斷正確

同一總體確()(1-)

樣本來自推斷正確推斷不正

不同總體(1_)確()

3.假設檢驗的注意事項

(1)假設檢驗比較的對象是總體,而研究

的方法是抽樣研究,即通過對樣本提供的信息去

推斷總體間有無差別。不能誤認為假設檢驗是樣

本間的比較,更不能將此體現在結論中。如果研

究方法是普查時,由于不存在抽樣誤差,也不存

在用樣本提供的信息去推斷總體的問題。因此,

在這種情況下也就不能使用假設檢驗的統計方

法。

38

(2)當PW時,概率(P)越小,

越有理由拒絕無差別的假設,即拒絕假設的可信

程度就越大,這時概率(P)越小,其結論的可

靠性就越好。當P>時,概率(P)越大,越

有理由不拒絕無差別的假設,即不拒絕無差別假

設的可信程度就越大。這時概率(P)越大,其

結論的可靠性就越好。因此,無論概率PW,

還是P>時,都不能說明組間差別的大小。

(3)假設檢驗的結論不能絕對化。

假設檢驗的結論是根據概率(P)的大小得出的,

事實上當PW時,我們拒絕其無差別的假設,

可認為各總體間有差別,但是,只要PWO,我

們無法完全拒絕無差別的假設,即不能肯定各總

體間有差別:同理,當P>時,我們不拒絕其

無差別的假設,還不能認為各總體間有差別,但

是,只要PW1,我們無法完全接受無差別的假

設,即不能肯定各總體間無差別。因此,在做出

統計結論時,要避免使用絕對的或肯定的語句,

如當PW時,使用“拒絕假設,可認為各組間

有差別";而當P>時,使用“不拒絕假設,

還不能認為各組間有差別”的語言進行描述。

(4)假設檢驗的方法與設計方案和

39

分布特征有關,如:兩組比較的方法有t檢驗、

U檢驗、兩組秩和檢驗、四格表和校正四格表的

2檢驗等,這些方法只能用于兩組比較,而不

能用于多組的比較。在實際工作中錯誤地使用兩

組比較的方法代替多組比較的情況并不少見,

如,三個均數比較用三個t檢驗、四個均數比較

用六個t檢驗等。多組比較可用方差分析、多組

秩和檢驗、行乘列2檢驗等。t、u檢驗和方

差分析用于正態分布的資料,不服從正態分布的

資料可用秩和檢驗。

4.常用假設檢驗方法

(1)計量資料的假設檢驗

表6常用計量資料假設檢驗方法

表格6

比較目應用條件統計方法

樣本與總體例數(n)較大,u檢驗

的比較(任意分布)

例數(n)較t檢驗

40

小,樣本來自

正態

兩組資料的(完全隨機設u檢驗

比較計)例

數(n)較大,

(任意分布)

例數(n)較成組設計的

小,來自正態t檢驗

且方差齊

例數(n)較小成組設計的秩和

且非正態或方檢驗、或成組設計

差不齊的檢驗、或成

組設計的中位數

檢驗

配對資料的例數(n)較大,對設計的U檢驗

比較(配對(任意分布)

設計)

例數(n)較小,配對設計的t檢

差值來自正態驗

例數(n)較小,配對設計的秩

差值為非正態和檢驗

多組資料的各組均數來自成組設計的方

41

比較(完全正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論