




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 第五章數值變量資料的統計描述預防醫學 預防醫學教研室1 第五章 數值變量資料的統計描述 第一節 數值變量資料的頻數分布2 一、 頻數表 對一組研究對象進行觀察,某變量或指標數值出現的次數稱為頻數(frequency)。3 例 8.1 某地區2002年132名5558歲健康成人的空腹血糖(mmol/L)測定值如下: 5.17 5.56 4.86 4.87 4.55 5.16 5.15 5.1645 組段 每一組的起點稱為組下限,終點稱為組上限。 70分 80分 (下限) (上限) 第一組應包括最小值,最后一組應包括最大值。7 頻數(f) 劃記、合計每組的變量個數。8 二、頻數分布的特征 集中趨
2、勢(central tendency):頻數向中間集中,中等水平的人數最多。 離散趨勢(tendency of dispersion):隨變量值逐漸變大變小,人數越來越少,即向兩端分散。10 1、頻數分布的圖示 以變量值(血糖)為橫軸,以頻數為縱軸,每一組段畫一直條,直條的面積與該組頻數成正比,稱為直方圖(histogram)。1112對稱分布14 (2)偏態分布:觀察值偏離中央,尾部偏向數軸正側,稱正偏態,尾部偏向數軸負側,稱負偏態。15對稱分布17 第二節 集中趨勢指標 平均數(average):描述一組數值變量資料的集中趨勢、平均水平或中心位置的指標。常用的平均數有算術平均數、幾何均數和
3、中位數。18 一、算術平均數 (arithmetic mean) 簡稱均數,總體均數用表示,樣本均數用 表示。 適用條件:對稱分布資料,特別是正態分布資料。19 1、直接計算法 觀察例數不多或計算機分析選用。20 例:某地抽樣得5名7歲男孩體重(kg)分別為:17.3,18.0,19.4,20.6,21.2。求其均數。 19.3(kg)21 2、加權法 觀察例數多又無計算機處理時選用。 22空腹血糖值(mmol/L)平均數和標準差計算表 血糖 頻數(f) 組中值(x) fx fx2 3.60- 3 3.7 11.1 41.07 3.80- 3 3.9 11.7 45.63 4.00- 8 4.
4、1 32.8 134.48 4.20- 23 4.3 98.9 425.27 4.40- 24 4.5 108.0 486.00 4.60- 25 4.7 117.5 552.25 4.80- 20 4.9 98.0 480.20 5.00- 12 5.1 61.2 312.12 5.20- 10 5.3 53.0 280.90 5.40-5.60 4 5.5 22.0 121.00 合計 132 614.2 2878.9224 二、幾何均數() (geometric mean) 適用條件 對數正態分布資料:變量值呈倍數關系,當變量值取對數后服從正態分布或近似正態分布。25 例題:6份鉤端螺旋
5、體顯凝試驗的血清效價為:1:50,1:100,1:200,1:400,1:800,1:1600 。求其平均血清效價。27 lg1(2.4515)282.5 故其平均血清效價為1:282.5。28 2、加權法 觀察例數較多時選用。 先將資料編成頻數分布表,再按公式計算:29 例8.4 計算某地60人抗體效價的平均滴度。 =lg1(1.31602)=20.705 平均滴度為1:20.705 。30效價倒數(X) 人數( f) lgX f lgX 5 7 0.69897 4.89279 10 11 1.00000 11.00000 20 22 1.30103 28.62266 40 12 1.602
6、06 19.22472 80 8 1.90309 15.22472 合計 60 78.96489某地60人抗體效價幾何均數計算表31 三、中位數(median)和百分位數 適用條件 偏態分布資料 分布類型不清的資料; 數據一端或兩端無界限的資料。 32組段X 頻數(f)300 2合計 109兩端無界限資料舉例33 、中位數 一組從小到大排列的變量值,位于正中間位置的變量值稱為中位數。用表示。34 (1)直接計算方法 將變量值從小到大排列,再按下式計算: 為奇數 (n+1)/2 n為偶數35 例:11例顱腦外傷病人的傷后來院時間為1、2、4、5、7、8、8、10、12、16、20小時,求其傷后來
7、醫院治療的平均時間。 本例11為奇數 (n+1)/268(h) 若本例只收前10例病人,則 (h)36 (2)頻數表計算方法 將資料編制成頻數分布表,再計算: :中位數所在組段的下限 fx :中位數所在組段的頻數 f L :中位數所在組段以前的累積頻數37 例8.6 某傳染病的潛伏期(天)見表8-3,求其平均潛伏期。38潛伏期(天) 頻數f 累計頻數 累計頻率() 2 26 26 23.63 4 48 74 67.27 6 25 99 90.00 8 6 105 95.45 10 3 108 98.18 12 2 110 100.00 某傳染性的潛伏期(天)的中位數和百分數數計算表39組段 2
8、 4 4 6 6 8位次 1、 2、 26 27、 74 75、 99% 0.9 23.6 24.5 67.3 68.2 90.0 中位數所在組的確定1、累計頻數剛超過n/2所在組2、累計頻率剛超過50所在組40 、百分位數 將n個觀測值從小到大排列,分成100等份,與第x百分位次對應的觀測值稱為第x百分位數,用x表示。百分位數是一種位置指標。41 一個百分位數將全部觀察值分為兩部分,理論上有的觀察值比它小,(100)觀察值比它大。0%x % 100%觀察值(100)觀察值42 中位數是一個特定的百分位數,即50在全部觀察值中,有50的觀察值比它小,(10050)觀察值比它大。43 用頻數表計
9、算百分位數的公式: :第x百分位數所在組段的下限 fx :第x百分位數所在組段的頻數fL:第x百分位數所在組段以前的累積頻數44潛伏期(天) 頻數f 累計頻數 累計頻率() 2 26 26 23.63 4 48 74 67.27 6 25 99 90.00 8 6 105 95.45 10 3 108 98.18 12 2 110 100.00 某傳染性的潛伏期(天)的中位數和百分數數計算表45 應用中位數和百分位數時注意 1、對資料的分布沒有特殊要求,所有的資料均可計算。 2、分布在中間的百分位數(50)較穩定,靠近兩端的百分位數(99)不穩定。46 3、中位數不如均數精確,但抗極端值的影響
10、比均數的穩定性好。 當資料適合計算均數或幾何均數時,不宜計算中位數表示其平均水平。47 第三節 離散程度指標 離散指標又稱變異指標,它描述數值變量資料頻數分布的離散趨勢。常用指標有:全距、方差、標準差、變異系數和四分位數間距。48 例:二組變量值(單位略) A:8、9、10、11、12 XA=10 B:6、9、10、11、14 XB=10 均數只描述集中趨勢,沒有描述變量值之間的差異,變異指標描述變量的變異(離散)趨勢。49 一、全距(極差,R) R最大值最小值RA1284 RB1468 說明B組觀測值的變異程度大A組。 極差只表示兩極端數值的差異,而不能綜合反映每個變量值的變異情況。50 二
11、、四分位數間距(Q) Q是上四分位數Qu(P75)與下四分位數QL(P25)之差。QQuQL 其間包括全部觀察值的一半。P75P25MP0P10051 Q和R類似,比R穩定,但仍未考慮到每個觀察值的變異程度。 Q與M配合使用(MQ),用于描述偏態分布資料、分布末端無界限而不能計算全距、方差和標準差的資料。 52 三、方差和標準差 為衡量每個變量值的變異情況,計算: 離均差之和 (X) 但(X)0。53 于是計算: 離均差平方和 (X)2 用SS或 表示,它又受樣本含量(變量值個數)大小的影響,所以取其平均值表示,稱為方差(MS)。54 方差是另一變異指標,方差越大,表示變量值的變異程度越大。5
12、5 方差的單位被平方,與均數單位不一致,不便于比較,于是取其平方根,稱為(總體)標準差()。標準差是最常用的變異指標。56 總體均數常是未知的,只能用樣本均數X 代替,而得樣本標準差(S) ,作為總體標準差的估計值。57數理統計研究:樣本標準差較總體標準差偏小,因此用n代替n,n稱為自由度(v)。58 1、標準差的計算方法 (1)直接法(小樣本) 為方便計算,前式變為:59 X X2 8 64 9 81 10 100 11 121 12 144 50 510A組資料S計算表B組資料S計算表 X X2 6 36 9 81 10 100 11 121 14 196 50 53460 ( 2)加權法
13、(大樣本) 先將資料編成頻數表,再按公式計算:61以例8.1資料為例計算62空腹血糖值(mmol/L)平均數和標準差計算表 血糖 頻數(f) 組中值(x) fx fx2 3.60- 3 3.7 11.1 41.07 3.80- 3 3.9 11.7 45.63 4.00- 8 4.1 32.8 134.48 4.20- 23 4.3 98.9 425.27 4.40- 24 4.5 108.0 486.00 4.60- 25 4.7 117.5 552.25 4.80- 20 4.9 98.0 480.20 5.00- 12 5.1 61.2 312.12 5.20- 10 5.3 53.0
14、280.90 5.40-5.60 4 5.5 22.0 121.00 合計 132 614.2 2878.9263 (3)標準差的應用 適用于對稱分布,特別是正態分布資料,表示觀測值分布的離散程度。64 標準差大,說明觀測值的變異程度大,即觀測值圍繞均數分布較離散,均數的代表性較差; 標準差小,說明觀測值的變異程度小,即觀測值圍繞均數分布較密集,均數的代表性較好。65 估計觀測值的頻數分布和醫學參考值范圍。 計算標準誤。 計算變異系數66 四、 變異系數(CV) 比較均數相差懸殊或單位不同的兩組(或多組)觀測值的變異程度時,不宜用標準差,而需計算變異系數進行比較。67 例 某地7歲男孩身高(單
15、位cm)X1=114.82,s1=5.52;體重(單位kg) X2=20.91,s2=2.05。比較身高和體重的變異程度。CV1 CV2 ,體重的變異程度大于身高。68 第四節 正態分布和醫學參考值 一、正態分布 (nomal distribution) 從例8.1頻數分布圖看:頻數分布以均數為中心,靠近均數兩側的頻數較多,較遠兩側頻數逐漸減少,兩側基本對稱。697071 如果不斷增多觀測例數、縮小組距,則圖形趨向于光滑曲線。這是一條中間高、兩頭低、左右對稱的鐘型曲線,在統計學上稱為正態分布曲線,表示為 N(,2) 。7273 為應用方便,將任何正態分布N(,2)變換成的正態分布N(0,1),
16、稱為標準正態分布(u分布)。 變換方法是將變量值X變換為u(標準正態離差)7475 二、正態分布的特征 、在均數處最高。 、以均數為中心,左右對稱,逐漸降低,兩端永不與橫軸相交。76 、有兩個參數 均數:位置參數,決定曲線的中心位置;越大,曲線越向右移;越小,則曲線越向左移。7778 標準差:形狀參數,決定曲線的陡峭或扁平:越大,曲線越扁平(矮胖);越小,曲線越陡峭(瘦高)。7980 4、正態曲線下的面積有一定的規律 在正態圖形中,橫軸為變量X,縱軸為頻數f。可用曲線下的面積代表頻數分布。81 若以曲線下的面積為100,正態曲線下面積的分布規律變量值 曲線下面積(變量值出現概率)1.0 68.
17、271.96 95.002.58 99.0082838485 如果資料呈正態分布,且樣本足夠大(如n100),可樣本指標代替總體指標變量值 曲線下面積(變量值出現概率)X1.0S 68.27X1.96S 95.00X2.58S 99.0086變量值 曲線下面積(變量值出現概率)1.0 68.271.96 95.002.58 99.00標準正態曲線下面積87區間 體重范圍(kg) 實際人數() 理論人數() X1.0S 45.2952.37 86(71.67) 82(68.27)X1.96S 41.8955.77 114(95.00) 114(95.00)X2.58S 39.7057.96 12
18、0(100.00) 119(99.00)某地120名21歲女大學生體重的實際分布與理論分布88 三、醫學參考值范圍 (一)醫學參考值的意義 醫學參考值:正常人(或動物)的個體形態、功能和代謝產物等的各種生理和生化常數。由于個體指標的變異,需要確定其波動范圍,即醫學參考值范圍。89(二)制定參考值的基本步驟 1、選擇樣本含量足夠大的“正常人” 足夠大的樣本含量,一般認為每組 n100。 “正常人” 指排除了影響所研究指標的疾病和有關因素的同質人群。90 2、控制測量誤差 測量誤差控制在一定的范圍內。 3、判斷是否需要分組確定參考值范圍 原則上組間差別明顯,差別有實際意義應分開,否則應當合并確定。91 4、決定單側和雙側界限 根據專業知識確定: 雙側:指標過高、過低均為異常 單側上限:指標過高為異常 單側下限:指標過低為異常92 5、選擇適當的百分界值 醫學參考值范圍是指絕大多數正常人的變量值所在的范圍。“絕大多數”習慣包括80、90、95、99,最常用為95 。93 6、對資料的分布進行正態性檢驗 7、選擇估計方法94 (三)估計方法 1、正態分布法(95界值) 適用于正態或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論