




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
復旦大學社會醫學與衛生事業管理
考研復習-醫學統計學
第一章醫學統計學的基本內容
第一節醫學統計學的含義
1、醫學統計學定義
醫學統計學(statistics)作為一門學科的定義是:關
于醫學數據收集、表達和分析的普遍原理和方法。
2、醫學統計學研究方法:通過大量重復觀察,發現不確定
的醫學現象背后隱藏的統計學規律。
3、醫學統計推論的基礎:在一定條件下,不確定的醫學現
象發生可能性,即概率。
第二節、統計學的幾個重要概念
一.資料的類型
1、計量資料(數值變量):對每一觀察對象用定量的方
法,測定某項指標所得的資料。一般有度量衡單位,每個
對象之間有量的區別。
2、計數資料(分類變量):對觀察對象按屬性或類型分
組計數所得的資料。每個對象之間沒有量的差異,只有質的
不同。
3、等級資料(有序分類變量):對觀察對象按屬性或類
型分組計數,但各屬性或類型之間又有程度的差別。
注意:不同類型的資料采用的統計分析方法不同;三類
資料類型可以相互轉化。
二、總體
根據研究目的所確定的同質的所有觀察對象某項變量值
的集合
1、有限總體:只包括在確定時間、空間范圍內的有限個
觀察對象。
2、無限總體:沒有時間、空間范圍的限制,觀察對象的
數量是不確定的,無限的
三、樣本
從總體中隨機抽取部分觀察對象,其某項變量值的集
合。
從總體中隨機抽取樣本的目的是:用樣本信息來推斷
總體特征。
四、隨機事件
可以發生也可以不發生,可以這樣發生也可以那樣發
生的事件。亦稱偶然事件。
五、概率
描述隨機事件發生可能性大小的數值,記作P,其取值
范圍O<P<1,一般用小數表示。P=0,事件不可能發生必
然事件(隨機事件的特例);P=l,事件必然發生;P-0,
事件發生的可能性愈小;P-1,事件發生的可能性愈大
六、小概率事件
習慣上將P40.05或P40.01的隨機事件稱小概率
事件。表示某事件發生的可能性很小。
七、參數和統計量
參數:總體指標,如總體均數、總體率,一般用希臘字母
表示
統計量:樣本指標,如樣本均數、樣本率,一般用拉丁字
母表示
八、學習醫學統計學的方法
1、重點掌握“四基”:基本知識、基本概念、基本原理
和基本方法;
2、重視統計方法在實際中應用,重視實習和綜合訓練;
注意學習每種統計方法的應用范圍、應用條件,大多數公式
只要求了解其意義和使用方法,不用記憶和探究數理推導。
第三節統計工作的基本步驟
統計設計收集資料整理資料分析資料
一、統計設計
1、調查設計
2、實驗設計
(詳見第十三章)
二、收集資料
資料來源
(1)統計報表
(2)日常醫療工作原始記錄和報告卡
(3)專題調查
三、整理資料
1.目的將收集的原始資料系統化、條理化,便于進一步
計算和分析
2.整理分組方式
(1)性質分組
(2)數量分組
四、分析資料
1、統計描述
2、統計推斷
第四節統計圖表
一、統計表
1、統計表的作用
代替冗長的文字敘述,便于計算、分析和對比。
2、統計表的結構
1)標題
2)標目橫標目(主語):說明表各橫行數字的涵義,
通常列在表的左側
縱標目(謂語):說明表各縱欄數字的涵義
主語和謂語連貫起來能讀成一句完整而通順
的話
3、統計表的種類:
1)簡單表:只按單一變量分組
2)組合表:按兩個或兩個以上變量分組
某地1980年男、女HBsAg陽性率
性別調查數陽性數陽性率(%)
男42343037.16
女45301814.00
合計87644845.52
4、列表原則:重點突出,簡單明了;主謂分明,層次分明
5、統計表的基本要求:
1)標題:概括地說明表的內容,必要時注明資料的時間和
地點,寫在表上方。常見的缺點:過于簡略,甚至不寫標題;
或過于繁瑣;或標題不確切。
2)標目:文字簡明扼要,有單位的標目要注明單位。常見
的缺點:標目過多,層次不清
3)線條:不宜過多,除上面的頂線,下面的底線,縱標目
與合計之間的橫線外,其余線條一般均省去。表的左上角
不宜有斜線。
4)數字:
A、數字一律用阿拉伯數字表示
B、同一指標的小數位數應一致,位次對齊
C、表內不宜留空格,暫缺或未記錄,用“…”表示,無數
字,用“一”表示,數字為0,填寫0
D、絕對數太小而無法計算指標,則用“…”代替。
5)備注:一般不列入表內,必要時可用“*”號標出,寫
在表的下面。
二、統計圖
1、統計圖作用:
通過點、線、面等形式表達統計資料,直觀地反映事物
之間的數量關系。但需注意,由于統計圖對數量的表達較粗
糙,不便于作深入細致的分析,一般需附相應的統計表。
2、常見統計圖種類:
條圖、百分條圖,圓圖,線圖,半對數線圖,直方圖,散
點圖
3、制圖的基本要求:
1)按資料的性質和分析目的,選用適合的圖形
2)要有標題,扼要說明資料的內容,必要時注明時間、地
點,一般寫在圖的下面。
3)橫軸尺度從左到右,縱軸尺度從下而上,數量一律由小
到大。橫軸與縱軸坐標長度比例一般為5:7
4)比較不同事物,用不同線條或顏色表示,并附上圖例說
明。
4、常見統計圖適用范圍及其繪制要點
1)條圖:
(1)適用范圍:相互獨立的資料,常用形式:單式和復式
(2)繪制要點:
A.用等寬的直條的長短反映各指標的數量大小。
B.縱軸的尺度必須從0開始。
C.各直條之間的間隙應相等,一般將比較的指標按大小順
序排列。
2)百分條圖:
(1)適用范圍:構成比資料
(2)繪制要點:
A.將長條全長為100%,
B.將各百分構成比在長條上分割若干段,
C.各段按大小順序排列。
3)圓圖
(1)適用范圍:構成比資料
(2)繪制要點:
A.將圓面積為100%,
B.將各百分構成比乘以3.6度,變為圓心角度數,
C.在圓上繪出各扇型面積
D.各扇型面積按大小順序排列。
4)普通線圖
(1)適用范圍:連續性資料
(2)繪制要點:
A.縱橫軸均用算術尺度,
B.縱橫軸尺度比一般為5:7
C.相鄰兩點用直線連接。
(3)意義:反映事物的變化趨勢。
5)半對數線圖
(1)適用范圍:連續性資料
(2)繪制要點.
A.橫軸用算術尺度,縱軸用對數尺度,
B.縱橫軸尺度比一般為5:7
C.相鄰兩點用直線連接。
(3)意義:反映事物的變化速度。
6)直方圖
(1)適用范圍:計量的頻數表資料
(2)繪制要點:
A.橫軸表示被觀察事物,縱軸表示頻數或頻率,
B.用等寬的矩形面積表示各組段的頻數或頻率
7)散點圖:
(1)適用范圍:雙變量資料
(2)分析目的:用點的密度程度和趨勢表示兩變量間的
相關關系
(3)繪制要點(見第五章)
第二章數值變量(計量)資料的統計分析
第一節計量資料的統計描述
一、計量資料的頻數分布
(一)頻數表的編制
1、求極差(全距)
R=最大值-最小值
=132.5-108.2=24.3
2、求組距(i)
i=極差/組數=24.3/10=2.4g2
3、分組段
原則:第一組段包括最小值,最后組段包括最大值。
每一組段都有上限和下限
上限:組段的終點(最大值)
下限:組段的起點(最小值)
4、列表劃記
45
40
頻35
數
(30
人25
)20
15
圖9-1某農村地區1999年14歲
女孩身高的分布
(二)頻數分布的特征
1、集中趨勢:數據向某一數值集中的傾向
2、離散趨勢:數據的數值大小不等的傾向
(三)頻數分布的類型
1、對稱分布:集中位置在中間,左右兩側頻數大體對稱
2、偏態分布:
(1)正偏態:集中位置偏向數值小的一側;
(2)負偏態:集中位置偏向數值大的一側
(四)頻數表的用途:
1、揭示資料的分布特征和分布類型
2、便于進一步計算指標和統計分析
3、便于發現特大或特小的可疑值
二、集中趨勢的描述
(一)常用平均數的種類:
1、算術均數(簡稱均數)
2、幾何均數
3、中位數
(二)算術均數(均數)
樣本均數用7表示,總體均數用以表示
1、適用范圍:對稱分布,尤其是正態分布的資料
2、計算方法:
(1)直接法x=XX/n
(2)加權法適用于頻數表資料
X=SfX/Xf
其中X=組中值=(上限+下限)/2
f=頻數
(三)幾何均數(簡記為G)
1、適用范圍:
(1)等比級數資料,如血清滴度資料
(2)對數正態分布資料
2、計算方法:
(1)直接法
G=log-1(LlogX/n)
(2)加權法
G=log-1(SflogX/Sf)
(四)中位數(簡記M)
1、中位數的定義:
中位數:將一組觀察值從小到大按順序排列,位次居中
的觀察值就是中位數。在全部觀察值中,大于和小于中位數
的觀察值的個數相等。
2、中位數的適用范圍:
(1)偏態分布資料
(2)分布不明資料
(3)分布末端無確定值資料(開口資料)
理論上,中位數可用于任何分布的計量資料,但實際
應用中常用于偏態分布,特別是開口資料。在對稱分布資料
中,M=X
3、計算方法:
(1)直接法:適用于觀察數少資料
n為奇數時,M=X(n+1)/2
n為偶數時,M=(Xn/2+X(n/2+l))/2
(2)頻數表法:適用于頻數表資料
步驟:①從小到大計算累計頻數和累計頻數;
②確定中位數所在組段;
③計算中位數M
M=LM+iM/G(n/2-SfL)
1^=乂所在組段的下限
1認=乂所在組段的組距
£從=乂所在組段的頻數
Xf\=小于L各組段的累計頻數
M在8-組段
L=8
i=4
fX=48
SfL=26
n=l08
M=L+i/fX(n/2-SfL)=10.33
(五)小結:常用平均數的意義及其應用場合
平均數意義應用場合
均數平均數量水平最適用于對稱分布,特別是
正態分布
幾何均數平均增(減)倍數等比資料或對數正態分布
中位數位次居中的觀察值⑴偏態分布,⑵分布不明,
(3)分布末端無確定水平
三離散趨勢的描述
甲組26,28,30,32,34.X甲=30
乙組24,27,30,33,36.又乙=30
丙組26,29,30,31,34.又丙=30
(一)反映離散程度的常用指標:
1、極差
2、四分位數間距
3、方差
4、標準差
5、變異系數
(二)極差(全距)R
1、計算公式:!<=最大值-最小值
2、意義:R愈大,離散度愈大,R愈小,離散度愈小。
3、優點:計算簡單,意義明了
4、缺點:(1)不能反映每一個觀察值的變異;
(2)樣本例數越大,R可能越大;
(3)R抽樣誤差大,不穩定。
(三)四分位數間距(簡記Q)
1.百分位數(記作PX)
(1)定義:將一組觀察值從小到大按順序排列,一個百分
位數將全部觀察值分為兩部分,理論上有x%的觀察值比它
小,有(100-x)%的觀察值比它大。P50分位數也就是中位
數。
(2)計算步驟與公式
①從小到大計算累計頻數和累計頻數;
②確定百分位數所在組段;
③計算百分位數Px
Px=L+i/fx(n.x%-SfL)
L=E所在組段的下限
i=Px所在組段的組距
fx=Px所在組段的頻數
Xf\=小于L各組段的累計頻數
如計算P25
P25在8-組段
L25=8,i25=4,f25=48,SfL=108,n=108
P25=L25+i25/f25(n.25%-SfL)=8.083
計算P75
P75在12-組段
L75=12,i25=25,f75=4,SfL=74,n=108
P75=L75+i75/f75(n.75%-SfL)=13.120
2.四分位數間距
(1)計算公式:P25:下四分位數簡記QL
P75:上四分位數簡記G
四分位數間距Q=QI「QL
=13.120-8.083
=5.037
⑵意義:中間一半觀察值的極差,與R意義相似。
⑶特點:
A.比R穩定,但仍未考慮每一個觀察值的變異;
B.常用于描述偏態資料的離散度。
(四)方差(總體方差簡記。樣本方差簡記S2)
一組觀察值的離均差平方和,取其均數,即方差。
1、計算公式:
Z(X-4)2
(T二--------
N
2
2ZU-X)
s=------------
72-1
2、意義:方差越大,離散度越大;
方差越小,離散度越小。
(五)標準差(總體標準差簡記。,樣本標準差簡記S)
1、定義:方差的開方,即標準差。
,丁
2、意義:與方差的意義相同
3、樣本標準差計算方法:
(1)直接法:
s~\
(2)加權法:
S~\Z/-1
4.應用:
(1)用于表示正態或近似正態分布資料的離散度;
(2)結合均數描述正態分布的特征;
(3)計算標準誤。
(4)計算變異系數
(六)變異系數(簡記CV)
1、計算公式:CV=S/Xx100%
2、用途:
(1)比較度量衡單位不同的多組資料的變異度
(2)比較均數相差懸殊的多組資料的變異度
例1
身高:X=166.06cm,S=4.95cm
體重:X=53.72kg,S=4.96kg
身高CV=4.95cm/166.06cmx100%=2.98%
體重CV=4.96kg/53.72kgx100%=9.23%
例2
表2.6某地不同年齡男子身高(cm)的變異程度
年齡組人數均數標準差變異系數觥)
3-3.5歲30096.13.13.2
30-35歲400170.25.00.3
3、CV特點:沒有單位,是相對數,便于資料間的比較。
第二節正態分布和參考值范圍的估計
一、正態分布
(一)正態分布圖形
兩頭低,中間高,左右對稱,呈鐘型的單峰曲線。
作U變換后:
U(X-M)/Q
正態分布變成M=0,a=1的標準正態分布。
(二)正態分布特征
1、曲線在橫軸上方均數處最高;M
2、以均數為中心,左右對稱;
3、正態分布有兩個參數:
(1)M:位置參數,確定曲線位置
當。一定時,R越大,曲線越向右移動;口越小,
曲線越向左移動。
(2)a:離散度參數,決定曲線的形態:
當口一定時,。越大,表示數據越分散,曲線越
“胖”;。越小,表示數據越集中,曲線越“瘦:
4、正態分布曲線下的面積有一定的分布規律。
二、正態分布曲線下的面積分布規律。
以曲線下總面積為100%,則有:
1、.±1。的區間占總面積的68.27%,即的區間
內包含的觀察值個數占觀察值總個數的68.27%。
2、.±1.96◎的區間占總面積的95%,即口±1.96。的區
間內包含的觀察值個數占觀察值總個數的95%。
3、口±2.58。的區間占總面積的99%,即口±2.58o的區
間內包含的觀察值個數占觀察值總個數的99%。
正態分布的應用
1.估計頻數分布情況
2.估計參考值范圍
三、參考值范圍的估計
1.參考值范圍意義:
參考值范圍(亦稱為正常值范圍)是指正常人的解剖、
生理、生化等各種指標的波動范圍。它主要用于劃分正常與
異常的界限。
2.正常值范圍制定的一般原則
(1)抽取足夠數量的正常人作為調查對象
A.“正常人”-不是指任何一點小病都沒有的人,而是
指排除影響被研究指標的疾病和因素的人。
如制定SGPT(谷丙轉氨酶)正常值范圍,正常人的條件
是:
a.無肝、腎、心、腦、肌肉等疾患;
b.近期無服用損肝的藥物(如氯丙嗪,異煙腫)
c.測定前未作劇烈運動。
B.正常值范圍制定所需的樣本例數,一般要求n>100
(2)確定是否分組制定參考值范圍
(3)確定取單側還是雙側正常值范圍。
A.白細胞數過高和過低均屬于異常,則需同時制定正
常值范圍的下限(最小值)和上限(最大值),稱雙側正常
值范圍。
B.肺活量只過低為異常,只需制定正常值范圍的下限;
尿鉛只過高為異常,只需制定正常值范圍的上限;均稱單側
正常值范圍。
(4)選定適當的百分界限。
正常值范圍的意思:絕大多數正常人的某項觀察值均在
該范圍之內。這個絕大多,習慣上指正常人的80%、90%、
95%、99%(最常用是95%)o那么,在正常值范圍之外的
正常人有:
單側:20%、10%、5%、1%
雙側每側:10%、5%、2.5%0.5%
根據所選定的百分界限,會造成假陽性或/和假陰性。
如SGPT,正常值單側95%上限為146單位(King法)
按該范圍,5%的正常人(>146)被錯判為異常,稱假陽
性;
而肝功能異常者中,也可能有<146者,按該范圍錯判為正
常,稱假陰性。
顯然,上限值提高,假陽性減少,假陰性增多;
上限值降低,假陽性增多,假陰性減少;
(5)選擇適當制定方法。
3、正常值范圍常用制定方法
(1)正態分布法.
A.適用范圍:(近似)正態分布或對數正態分布資料
B.計算公式:
雙側95%X±1.96S
99%X±2.58S
單側上限95%X+1.645S
99%X+2.326S
下限95%X-1.645S
99%X-2.326S
例114歲女孩身高95%參考值范圍是:
T±1.968=143.08±1.96x6.58
=(130.18-155.98)
(2)百分位數法
A.適用范圍:
1、偏態分布資料
2、開口資料
B.計算公式:
雙側95%?2,5~P97.5
99%P“5~?99.5
單側上限95%P95
99%P99
下限95%P5
99%Pi
第三節計量資料的統計推斷
一、均數的抽樣誤差與標準誤
一、均數的抽樣誤差概念
由于總體中存在個體變異,所以由抽樣得到的樣本均數
與總體均數之間存在差異,這種差異稱均數的抽樣誤差。在
抽樣研究中,抽樣誤差是不可避免的,但可以估計其大小。
二、中心極限定理
1、在正態總體中,隨機抽取例數為n的樣本,樣本均數僅
服從正態分布;
2、在偏態總體中隨機抽樣,當n足夠大時(n>50),現也近
似正態分布;
3、從均數為以,標準差為。的正態或偏態總體中,抽取例
數為n的樣本,樣本均數7的總體均數仍為口,標準差為
Q-
三、標準誤意義及其計算方法
1、意義:說明均數抽樣誤差大小的指標,用。傣示。
。求大,均數抽樣誤差越大;反之,越小,均數抽樣誤
差越小。
2、計算公式:
(7
........(理論值)
S
..........(估計值)
%與S成正比,與而成反比,可以通過增加n減小
%O
3.均數的標準誤的用途:
(1)說明均數抽樣誤差大小,反映均數的可靠性。。[越
大,用樣本均數推論總體均數越可靠,反之亦然
(2)估計總體均數的可信區間
(3)用于進行假設檢驗
二、t分布
(一)t分布含義:
由于京呈正態分布N(〃、ax),則可以將一般正態變量》變
換成標準正態變量〃:
(X-ju)
u=--------
外
將一般的正態分布變換為標準正態分布N(0、1)。
在實際應用中,°于往往未知,用力代替,則只能對丫
做t變換而不是〃變換:
.=(.一四)
每個元可以算出一個t值,t值的分布稱t分布。
(二)t分布特征:
1、以。為中心,左右對稱的單峰分布;
2、t分布的形態與自由度v有關:
V越小,t分布曲線峰部越低平而尾部翹得越高;(t分
布與U分布相差較大,即相同的曲線下面積,t值>u值)
V逐漸增大,t分布逼近標準正態分布;
V=oo,t分布=標準正態分布。(同樣的曲線下面積,
t值=u值)
自由度不同,t分布曲線形態就不相同,因此t分布是
一簇曲線,則就是說,自由度不同,相同的t值所對應的面
積不同,或說,出現該t值的概率不同。
(三)t值表
對應于每一自由度取值,就有一條t分布曲線,每條曲
線都有自身曲線下t值的分布規律,相同曲線下面積所對應
的t值不同,計算t值較為繁雜。為此,統計學家已制成t
值表,通過查表即獲得相應的t值。查表須注意:
1、橫標目(左邊第一列)為自由度(V),縱標目為概率(P
或。),也就是t界值以外單側或雙側尾部的面積占總面積的
百分比,表中的數字就是對應于v和a的t界值,用ta,v
表示;
2、t值有正負值,由于t分布是以0為中心的對稱分布,
故表中只列正值,查表時,不管t值正負只用絕對值;
3、當v一定時,t值越大,P越小;
4、當P一定時,v越大,t值越小;v=°o時,t=u;
5、當v和t值一定時,雙側P=2倍單側P。
即雙側ta,v=單側toc/2,vo
例v=10時:
單側%.O5,IO=I.812
即P(t<-1.812)=0.05或P(t)1.812)=0.05
雙側0.05,10=2.228
即P(t<-2.228)+P(t>2.228)=0.05
三、總體均數的估計
(一)估計方法:
1、點值估計:用樣本均數直接作為總體均數的估計值
2、區間估計
(二)總體均數的區間估計
1、定義:按一定的概率(1-a)確定包含未知總體均
數的可能范圍。所確定的范圍稱為總體均數的可信區間(或
置信區間,CI);1-a稱可信度,最常用雙側95%。
2、估計方法:
(1)當Q未知,而且樣本例數n較小(n<50)時,按t分布
原理估計:
X±ta,v.sx
⑵當。已知,或。未知但樣本例數足夠大(n>50)時,按
標準正態分布原理估計:
A.o已知:
(X-uoc.M山1,X+ua.w屈)ua為u界值,
X+uaL
B.o未知但n足夠大(n>50):
(X一ua.,X+ua.SIJi)
X±ua.s/&
按標準正態分布原理估計總體均數可信區間時,熟記下列常
用區間:
95%總體均數可信區間:X+1.96〃冊
或X±1.96§/近
99%總體均數可信區間:X+2.58〃〃
或X±2.58$/6
例9.10n=20,X=118.4mmHg,s=10.8mmHg,估計其95%
可信區間。
(X-ta,v.sx,X+toc,v.sx)
10.8
to.05,19=2.0935X=V20=2.41
(118.4-2.093x2,41,118.7+2.093x2,41)
(113.3,123.5)mmHg
例n=200,X=3.64mmol/L,s=l.20mmol/L,估計其95%
可信區間。
X±uoc.s/赤
(3.64-1.96x3.7200)
120/V200,64+1>96xL20/
(3.47,3.81)mmol/L
3、可信區間內涵義
以95%總體均數可信區間為例:
有95%的可能所計算出的區間包含了總體均數,即估計正
確的概率為95%,錯誤5%o
4、可信區間兩個要素:
(1)準確度:反映在可信度(-a)的大小。越接近
1,越準確。
如可信度99%比95%準確。
(2)精確度:反映在區間范圍寬窄。范圍越摘越好。
95%可信區間精度優于99%。
在n確定的情況下,準確度T,精確度
在兼顧準確度和精確度時,一般取95%可信區間。
在可信度確定的情況下,增加樣本例數,可提高精確度。
5、可信區間與正常值范圍區別:
(1)意義不同:正常值范圍是指絕大多數觀察值在某個范
圍;可信區間是指按一定的可信度估計總體參數(均數)
可能所在的范圍;
(2)計算公式不同
可信區間X±ua.Sq(大樣本)
正常值范圍X±ua.S
前者用標準誤,后者用標準差。
(3)用途不同:可信區間用于估計總體均數,參考值范
圍用于判斷觀察對象某項指標正常與否。
四、假設檢驗的基本思想和步驟
(一)提出問題:
例:根據大量調查的資料,已知健康成年男子的脈搏均
數為72次/分。某醫生在山區隨機抽取了25名健康成年男
子,得其脈搏均數為74.2次/分,標準差為6.5次/分。問
能否認為該山區成年男子的脈搏數高于一般人?
本研究目的是判斷是否(72次/分)。由于存在抽
樣誤差,來自某一總體的隨機樣本其樣本均數(書與總體均
數(N)往往不等;從同一總體中抽取的兩個隨機樣本的樣本
均數也往往不同。因此,在比較一個樣本均數與一個總體均
數的差別,或比較兩個樣本均數的差別時,需要判斷這種差
別的性質和意義,造成這種差別有兩種可能:
(1)總體均數不等(來自不同總體),有本質差別;
(2)總體均數相等(來自相同的總體),其差別由抽樣誤差
所致,無本質差別。
要判斷屬于那種可能,需要通過假設檢驗來回答。
(二)假設檢驗原理(基本思想)
要檢驗兩指標的差別是由抽樣誤差引起的,還是由于總
體均數不同所致,運用反證法。首先建立檢驗假設,假設樣
本來自同一總體,在此假設的基礎上計算有關的統計量,根
據統計量的大小來判斷假設成立的概率的大小。一般把概率
P<0.05的事件稱為小概率事件,小概率事件在一次觀察中
可以認為是不會發生的,如與這原則不符,則認為原先的假
設是不正確的,就是說“假設”不能成立,則拒絕這個“假
設”。否則不拒絕原來的“假設”。這就是假設檢驗的基本
思想。
(三)假設檢驗的一般步驟
A.建立假設
兩種假設
(1)檢驗假設(無效假設)用H0表示:即假設兩總體
均數相等,差別僅僅由于抽樣誤差所致;
(2)備擇假設用H1表示:是與H0對立的假設,當H0
被拒絕,則接受H1。
2、確定單雙側檢驗(常用雙側檢驗)
根據研究目的和專業知識還要確定是雙側檢驗還是
單側檢驗。若目的是推斷兩總體是否不等(如是否R工口0),
不管是口〉門0還是口<門0,都是我們所關心的,則用雙側
檢驗,此時H0:r=口0,H1:口云R0;若從專業知識
已知不會口<R0(或不會R.0),目的是推斷是否以〉R
0(或以<R0),則用單側檢驗,此時H0:以=r0,H1:
口〉口0(或以〈口0)。
注意:單側檢驗更容易得到有統計學意義的結果,因
此,做單側檢驗要通過專業知識來確定,否則,一律做雙側
檢驗,雙側檢驗更穩妥。
3.確定檢驗水準
檢驗水準用。表示,a是拒絕或不拒絕H0的概率標準,
也就是小概率事件標準,是人為選定的概率值,一般取a=
。05(根據需要也可取0.2、0.15、0.1、0.01等)。
B、選定檢驗方法和計算統計量
根據研究設計方案、資料類型、樣本含量大小及分析
目的選用適當的檢驗方法,并根據樣本資料計算相應的檢驗
統計量。不同的檢驗方法要用不同的公式計算現有樣本的檢
驗統計量(t,u,F值)。檢驗統計量是在H0成立的前提下
計算出來。
C、確定P值
P值是指在H0所規定的總體中作隨機抽樣,獲得等于及大
于(或等于及小于)現有樣本統計量的概率。P也可以通俗
地說,P是指H0成立的概率大小。用計算所得的檢驗統計量
(t、u值)與相應的界值比較,確定P值。
D、作出推斷結論
假設檢驗的結論:
(1)統計學結論(拒絕或接受H0,即有無統計學意義);
(2)專業結論。
2、推斷結論方法
(1)當P<a時,結論是:拒絕H0,接受H1(差別有
顯著意義或有統計學意義);
(2)當P>a時,結論是:不拒絕H0。(差別無顯著意義,
或無統計學意義);
作出上述推斷的理由
(1)如果P&a,則按a水準拒絕HO,接受Hl。因
為抽取一個樣本,僅代表一次試驗,現P4a,為小概率事
件,小概率事件在一次試驗中竟然發生,與概率理論的一個
基本原則:小概率事件在一次試驗中不會發生產生矛盾,因
此拒絕H0。
(2)如果P>a,則按a水準不拒絕HO,因為概率較大,
沒有理由拒絕H0,認為其成立。所以,研究者只是在概率
上從H0與H1兩者中選擇一個較為合理的判斷。
由此可見,假設檢驗所作出的結論是具有概率性質的,
不是絕對的肯定或否定。不論拒絕或不拒絕H0都可能發生
錯誤。
拒絕實際上是成立的H0,這類“棄真”的錯誤稱I型錯
誤或第一類錯誤。
不拒絕(接受)實際上是不成立的H0,這類“存偽”的
錯誤稱II型錯誤或第二類錯誤。
即拒絕H0,犯I型錯誤;接受H1,犯II型錯誤。
兩類錯誤的關系
第一類錯誤的概率為a,第二類錯誤的概率為B
a越大,。越小a越小,。越大。
第四節t檢驗和u檢驗
一、t檢驗和U檢驗用途
1、樣本均數與總體均數的比較;
2、配對計量資料的比較;
3、兩樣本均數的比較;
二、t檢驗和u檢驗應用條件
1、t檢驗應用條件:
(1)樣本來自正態總體;
(2)兩小樣本均數比較,還要求樣本的總體方差相等。
2、u檢驗應用條件:
樣本例數n較大(n>100),或n雖小而總體標準差已知
(少見)。
三、單樣本t檢驗(樣本均數與總體均數比較t檢驗)
1、目的:檢驗樣本均數》所代表的未知總體均數〃是否
等于以已知的總體均數
已知的總體均數〃。指:
(1)理論值;
(2)標準值;
(3)經大量調查得到的穩定值。
2、檢驗公式
無一A)
t=v=n-l
四、配對t檢驗
1、配對設計含義:將受試對象按一定條件配成對子,再
隨機分配每對的兩個受試對象到不同的處理組。
2、配對設計形式
①同對的兩個受試對象分別給予兩種處理;
②同一受試對象分別給予兩種處理(如同一個樣品用
兩種方法檢測,或同一受試對象不同部位某指標的值)
③同一受試對象處理前后比較
?
3、檢驗公式:v=n-l
五、兩樣本均數比較
(一)兩大樣本均數的u檢驗
1、適用條件
兩個樣本含量均足夠大(nl>50和n2>50)
2、檢驗公式:
(二)兩小樣本均數的比較一t檢驗
1、應用條件
(1)樣本來自正態總體;
(2)兩樣本所來自的總體方差相等。
2、檢驗公式
一(X7)2/玉—(X%)2及2(1+L)
\%+%―24%
—x
/=?X]}2o
/(%-l)s;+(%一l)s;(l?1)
或Vn}+n2-2/n2
六、假設檢驗應注意的問題
(一)要有嚴密的抽樣研究設計,考慮到被比較的樣本的可
比性,這是假設檢驗的前提。
(二)選用的假設檢驗方法應符合其應用條件。
(三)當所比較的差異無實際意義時,不必進行假設檢驗。
(四)正確理解差別有無顯著性的統計意義。
(五)結論不能絕對化。
是否拒絕H0,取決于:
1、被研究的事物有無本質的差異
2、抽樣誤差大小:
(1)個體差異大小
(2)樣本例數多少
3、檢驗水準a的高低
(六)報告結論時最好寫出較確切的P值,并且單側檢驗
需作注明(習慣上采用雙側檢驗不需作注明)
第五節方差分析(F檢驗XanalysisofvarianceANOVA)
一、方差分析的用途及應用條件
(一)用途
1、檢驗兩個或多個樣本均數間的差異有無統計學意義;
2、回歸方程的線性假設檢驗;
3、檢驗兩個或多個因素間有無交互作用。
(二)應用條件
1、各個樣本是相互獨立的隨機樣本;
2、各個樣本來自正態總體;
3、各個處理組(樣本)的總體方差方差相等,即方差齊。
二、方差分析的基本思想
(一)方差分析中變異的分解
此資料的變異,可以分出三種:
1、總變異:表現為所有數據大小不等,用總的離均差平
方和表示,記為SS總。
k/_
SS總=EE(X)-x)2
H(i代表第i個組,j代表第j
個觀察值)
SS總的大小還與總例數N有關,確切講是與總的自由度V總有
V
關,^=N-1O
2、組間變異:組間變異表現為各組均數京,大小不等,
描述其大小指標
(1)用各組均數與總均數X的離均差平方和表示,
記為SS組問
SS組間的大小與處理因素的作用、隨機誤差(測量誤差和
個體差異)和組間自由度有關。
SS組間:舉?廠”)/組間=人一1;
(2)用SS組間除于組間自由度表示,稱組間均方
SS組間
MS組間=
匕且間
組間均方反映處理因素和隨機誤差的作用。
3、組內變異:組內變異表現為各組內部各個觀察值大小
不等。
描述其大小指標:
(1)用各組內部每個觀察值X,與組均數元的離均差平
方和表示,記為SS組內。SS組內的大小與隨機誤差(測量
誤差和個體差異)和組內自由度有關。
k_
ss組內
=漆產廠匕)啕內=N—
(2)用SS組內除于組內自由度表示,稱組內均方
“q_SS組內
以3組內_TT-
V組內
組內均方只反映觀察值的隨機誤差(個體差異及隨機測
量誤差)。
三種變異的關系:SS總=SS組內+SS組間,
V總=V組內+V組間
O
(二)方差分析思想
1、如果兩個或多個樣本來自同一個總體,或者處理因素
的效應一樣(沒有差異),則組間和組內的變異相等,即:
MS組間=MS組內
或兩者相差不大,它們的比值用F表示:
p-MS組間
MS組內
則F=l,或F與1相差不大。
2、若兩個樣本或多個樣本來自不同總體,或者處理因素
的效應不一樣,則組間變異大于組內變異,即:
MS組間>MS組內
則F值明顯大于L要大到多大程度才有統計學意義?
按以組間和叱組內查F界值表,由F值確定P值,按P值大小作
出推斷。
方差分析基本思想:在方差分析時,根據資料的設計類
型不同,將總的離均差平方和及自由度分解為兩個或多個部
分,除隨機誤差外,其余部分的變異反映處理因素的作用,
通過比較不同來源的均方,借助F分布原理作出統計推斷,
從而了解處理因素對觀測指標有無影響。
三、單因素方差分析
(一)計算方法
單因素方差分析的計算公式
變異來源SSvMSF
n:
k
-c*
U
組間?=1ik-1?間
MS組問
MS組內
ss組內
組內(誤差)SS總-SS組間N-k喉內
kn;
ZEX;-c*
總I=V=1N-l
k〃i.
(EZX/
i=U=l
N
四、分析步驟
1、建立假設和確定檢驗水準;
HO:4=〃2=〃3=〃4
Hl:〃尸〃2或不全相等
a=0.05
2、計算檢驗統計量F值
表9-15例9-16方差分析結果
變異來源SSVMSFP
組間2.027630.675910.24<0.01
組內0.791812
總2.819415
3、確定P值和推斷結論
以組間自由度啕間為匕,以組內自由度”組內為匕,查附
表3,F界值表:工。5,3,12=3.49,由于方>工05.3」2,故p<0.05;
按a=0.05,拒絕HO,接受Hl,可以認為四組均數不等或不
全相等。
注意:以上僅是總的結論,尚需對四個樣本均數進行兩
兩比較(見后)。
五、多個樣本均數的兩兩比較F檢驗
多個樣本均數比較經F檢驗后,若得出有統計學意義的
結論后,要進一步推斷哪些組之間有差別,哪些組之間沒有
差別,還是所有各組之間都有差別,要解決這些問題,就要
進一步做均數間的兩兩比較了。
多個樣本均數間的兩兩比較又稱多重比較,由于涉及的
對比組數大于2,就不能應用前面介紹的t檢驗,只能使用
下面介紹的方法。若仍用前述前述的t檢驗方法,對每兩
個對比組作比較,會使犯第一類錯誤(拒絕了實際上成立的
H0所犯的錯誤)的概率a增大,即可能把本來無差別的兩個
總體均數判為有差別。
(一)檢驗統計量q的計算公式為:
q=(幻-羽)/產浮d+L
/V2nAnB
式中XA,XB為兩個對比組的樣本均數。MS誤差為方
差分析中算得的組內均方),%和分別為兩對比組的樣
本例數。
(二)q檢驗的方法步驟
對例9-16資料作兩兩比較。
1、建立假設
H0:任兩對比組的總體均數相等,即M4二〃B
Hl:任兩對比組的總體均數不等,"A手NB
a-0.05
2、選擇檢驗方法,計算統計量q
將四個樣本均數從大到小順序排列,并編上組次:
組次1234
均數3.32003.09752.68502.4025
組別DCBA
列出兩兩比較計算表,見表9-17
表9-17四個樣本均數兩兩比較的q檢驗
對比組兩均數之差標準誤q值組數q界值P
S葭』&
A與BXA-XB0.050.01
(1)(2)(3)
⑷=(2)/(3)⑸(6)(7)(8)
1與40.91750.12857.14044.20
5.50<0.01
1與30.63500.12854.94233.77
5.05<0.05
1與20.22250.12851.73223.08
4.32>0.05
2與40.69500.12855.40933.77
5.05<0.01
2與30.41250.12853.21023.08
4.32<0.05
3與40.28250.12852.19823.08
4.32>0.05
3、確定P值,判斷結果
第三章分類資料的統計分析
第一節分類資料的描述
一、相對數的意義和定義
對于分類資料常采用相對數進行描述。
收集到的分類資料,表現為絕對數,絕對數說明事物發生的
實際水平,是進行統計分析的基礎,但不便于事物進行深入
地分析比較。
相對數:是兩個有聯系指標之比,說明事物發生的相對水平,
便于對分類資料進行分析和比較。
二、常用的相對數
1、比(Ratio)亦稱相對比,是A、B兩個有關指標之
比,說明A是B的多少倍或百分之幾。
比(Ratio)=A/B(或x100%)
A與B的性質可以相同,也可以不同,可以是絕對數也
可以是相對數或平均數。
2、構成比(Proportion)又稱構成指標,說明一事物
內部各個組成部分所占的比重或分布,常以百分數表示,又
稱百分比。
杓成出=某一組成部分的觀察單位數[cog
一同一事物各組成部分的觀察單位總數“°
構成比兩個特點:
(1)一組構成比之和等于100%或1;
(2)某部分構成增加或減少,則其它部分構成就相應減少
或增加。
3、率(Rate)又稱頻率指標,是指在一定時間內發生
某現象的觀察單位數與可能發生該現象的總觀察單位數之
比,常以百分率(%)、千分率(%。)、萬分率(1/萬)、十萬
分率(1/10萬)等表示,它說明某現象發生的頻率或強度。
女發生某現象的觀察單位數/
可能發生該現象的觀察單位總數
K為比例基數,可以是百分率(%)、千分率(%。)、萬分率(1/
萬)或十萬分率3/10萬),可根據習慣或使計算出的率保
持一、二位整數。
人口出生率、死亡率、自然增長率、嬰兒死亡率等采用千
分率,某病死亡率采用十萬分率。
三、應用相對數時注意的問題
1、計算相對數的分母不宜過小
分母過小則計算所得的相對數不穩定,不可靠。如少于
30例時,以絕對數表示較好。
2、分析時不能以比代率
3、對觀察單位數不等的幾個率,不能直接相加求平均率;
4、資料的對比應注意可比性;
5、率或構成比的比較要遵循隨機抽樣的原則,要做假設檢
驗。
四、率的標準化法
(一)概念
率的標準化:是指在比較兩個或多個總率時,采用一
個共同的內部構成標準,將兩個或多個樣本不同的內部構成
調整為相同的內部構成,以消除因內部構成不同對總率產生
的影響,使算得的標準化率具有可比性。
采用標準化方法計算得到的率簡稱標化率,又調整率。
基本思想:采用統一的標準內部構成(年齡、性別),在
相同的內部構成條件下,計算預期的發生率(死亡率);
目的:消除因內部構成不同對總率產生的影響,使標化
率具有可比性。
(二)標準化率計算步驟
1、選擇計算方法:直接法和間接法。
(1)若已知被標化組各小組的率,即Pi,采用直接法;
(2)若已知被標化組各小組的人數,即a,以及總率,采用
間接法。
2、選定標準
標準選擇原則:
選擇有代表性的、較穩定的、數量較大的人群,如全世界的、
全國的、全省的、本地區的人群數;
選擇相互比較的人群合并做標準;
3、選擇相互比較的人群某一組做標準。
3、計算預期數及預期率,即標化率。
(1)直接法:按公式10.4或10.5計算;
(2)間接法:按公式10.6。
(三)應用標準化率注意事項
1、應用直接法計算標準化率時,由于所選定的標準人
口不同,算得的標準化率也不同,因此,比較幾個標準化率
時,應采用同一標準人口;
2、當各年齡組的率出現明顯交叉時,宜直接比較各年
齡組的發生率,而不宜用標準化法;
3、兩樣本標準化率的比較應作假設檢驗;
第二節分類資料統計推斷
一、率的抽樣誤差與標準誤
1、率的抽樣誤差含義
在抽煙研究中,樣本率與總體率之間存在的差異稱為率
的抽樣誤差。
2、描述率的抽樣誤差大小的指標-率的標準誤
計算公式
_卜(1一.)
*一』〃(理論值)
s=
°V〃(估計值)
二、總體率的估計
1、估計方法
(1)點估計
(2)區間估計
2、區間估計方法
(1)正態近似法
A.適用條件:np>5且n(1-p)>5
B.常用兩個區間的估計公式
總體率的95%的可信區間:p±1.96Sp
總體率的99%的可信區間:p±2.58Sp
⑵查表法
A.適用條件:n<50,特別p接近于。或1
B.查表方法:以樣本含量n和陽性數x查統計學專著的附
表
三、總體率的u檢驗
(一)樣本率與總體率的比較
1、適用條件:np>5且n(l-p)>5
2、檢驗公式
\p-7l\\
U——?------------
*7T(1-7T)
3、檢驗步驟
(1)建立假設HO:71=7T0
Hl:兀¥兀0
a=0.05
(2)計算u值7T=0.11,n=598,p=0.14
\p-7l\\p-71)
U=---------=-r
%k(l-7T)
Vn=2.34
⑶確定P值
因u=2.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Python語言特性與應用實例題及答案
- 2025年C++考試收獲提升技巧試題及答案
- 財務成本管理重要題目及答案
- 2025年計算機二級Msoffice考試必知試題及答案
- 解析Python內存管理運行機制試題及答案
- 邏輯推理能力培養的有效途徑與試題及答案
- Delphi函數與過程應用試題及答案
- 2025年MySQL數據完整性及其實現試題及答案
- 備戰2025年Msoffice考試成功的試題及答案
- 專業化MySQL考試準備試題及答案
- (廣東二模)2025年廣東省高三高考模擬測試(二)語文試卷(含答案解析)
- 2025-2030白酒行業市場發展現狀及競爭形勢與投資前景研究報告
- 成人腸造口護理-中華護理學會團體標準
- 2025年湖北省初中學業水平考試地理模擬卷(三)(學生版)
- 園林綠化安全培訓課件
- 2025屆江蘇省南京市南京師范大學附屬中學高三下學期“揚帆起航”數學試題
- DB14T 3231-2025安全風險分級管控和隱患排查治理雙重預防機制建設通則
- 腔隙性腦梗塞護理常規
- 2025年入團積極分子培訓考試題庫及答案
- 人工智能在價格預測中的應用-深度研究
- 《新聞傳播學》課件
評論
0/150
提交評論