統計學:計量資料的統計描述_第1頁
統計學:計量資料的統計描述_第2頁
統計學:計量資料的統計描述_第3頁
統計學:計量資料的統計描述_第4頁
統計學:計量資料的統計描述_第5頁
已閱讀5頁,還剩81頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計量資料的統計描述第一節頻數分布第二節集中趨勢的描述第三節 離散趨勢的描述第四節正態分布第五節醫學參考值范圍的制定第一節頻數分布

一、頻數分布表(frequencytable)

例2-1測得130名健康成年男子脈搏資料(次/分)如下,試編制頻數表和觀察頻數分布情況。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876(1)求極差(range):即最大值與最小值之差,又稱為全距。R=84–57=27(次/分)(2)決定分組組數、組距:根據研究目的和樣本含量n確定分組組數,通常分為10~15個組。組距=極差/組數,為方便計,組距為極差的十分之一,再略加調整。27/10=2.7≈3

(3)列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值。56~59~……80~83~85(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。頻數表的編制步驟表2-1130名健康成年男子脈搏(次/分)的頻數分布表N=∑f

二、頻數分布圖三、頻數表和頻數分布圖用途1.描述頻數分布的類型(對稱分布、偏態分布)

(1)對稱分布:若各組段的頻數以中心位置左右兩側大體對稱,就認為該資料是對稱分布是否為對稱分布?(2)偏態分布:

1)右偏態分布(正偏態分布):右側的組段數多于左側的組段數,頻數向右側拖尾。

表2-2115名正常成年女子血清轉氨酶(mmol/L)含量分布

2)左偏態分布(負偏態分布):

左側的組段數多于右側的組段數,頻數向左側拖尾。

表2-3101名正常人的血清肌紅蛋白含量分布2.描述頻數分布的特征表2-1數據的頻數分布特征:①數據變異(離散)的范圍在57~84(次/分)②數據集中(平均)的組段在68~73(次/分)之間,尤以組段的人數71~(次/分)最多。且上下組段的頻數分布基本對稱。3.便于發現一些特大或特小的可疑值

4.便于進一步做統計分析和處理第二節

集中趨勢的描述

統計上使用平均數(average)這一指標體系來描述一組變量值的集中位置或平均水平。常用的平均數有:

算術均數(均數)(mean)幾何均數(geometricmean)中位數(median)與百分位數(percentile)

眾數(mode)

一、算術均數算術均數:簡稱均數(mean)

可用于反映一組呈對稱分布的變量值在數量上的平均水平或者說是集中位置的特征值。1、計算方法(1)直接計算法

公式:舉例:試計算4,4,4,6,6,8,8,8,10的均數?例2-1測得130健康成年男子脈搏資料(次/分)如下,試編制頻數表和觀察頻數分布情況。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876(2)加權法(利用頻數表):公式:k:頻數表的組段數,f:頻數,X:組中值。表2-2130名健康成年男子脈搏(次/分)的頻數分布表N=∑f∑fX∑fX22、應用

均數適用于對稱分布,特別是正態分布資料。二、幾何均數(geometricmean)

可用于反映一組經對數轉換后呈對稱分布或正態分布的變量值在數量上的平均水平。幾何均數(geometricmean)幾何均數:變量對數值的算術均數的反對數。

其他對數(如自然對數)變換獲得相同的幾何均數例2-5有8份血清的抗體效價分別為1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗體效價。平均抗體效價為:1:57(2)加權法公式:

例2-669例類風濕關節炎(RA)患者血清EBV-VCA-lgG抗體滴度的分布見表2-4第(1)、(2)欄,求其平均抗體滴度。2、應用:

適用于成等比數列的資料,特別是服從對數正態分布資料。三、

中位數與百分位數11個大鼠存活天數:4,10,7,50,3,15,2,9,13,>60,>60平均存活天數?(一)中位數(median)是將每個變量值從小到大排列,位置居于中間的那個變量值。

計算公式:

n為奇數時

n為偶數時

例2-39名中學生甲型肝炎的潛伏期分別為12,13,14,14,15,15,15,17,19天,求其中位數。頻數表資料的中位數下限值L上限值Ui;fm中位數M例2-1頻數表中位數的計算N=∑f中位數=71+3x[(130x50%-59)/26]=71.69應用1、各種分布類型的資料2、特別適合大樣本偏態分布資料或者一端或兩端無確切數值的資料。

眾數(mode)眾數是一組觀察值中出現頻率最高的那個觀察值;若為分組資料,眾數則是出現頻率最高的那個組段的組中值。適用于大樣本;較粗糙。例2-7有16例高血壓病人的發病年齡(歲)為:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,試求眾數。正態分布時:均數=中位數=眾數

正偏態分布時:均數>中位數>眾數

負偏態分布時:均數<中位數<眾數

設有甲、乙、丙三名醫生,分別對相同的5份血樣進行紅細胞計數(萬/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,見下圖2,三名醫生的計數結果得到的均數均為500,5個數值之和均為2500。第三節離散趨勢的描述甲醫生得出的5個觀察值間的差異(離散程度)較大,而丙醫生得出的5個觀察值間的差異(離散程度)較小。常用統計指標:極差、四分位數間距、方差、標準差和變異系數。一、極差(Range)極差,用R表示:即一組變量值最大值與最小值之差。對于書中例2-1數據,有簡單,但僅利用了兩端點值,穩定性差。

百分位數示意圖(二)四分位數間距1.百分位數(percentile)1.直接計算法

設有n個原始數據從小到大排列,第X百分位數的計算公式為:當為帶有小數位時:

當為整數時:Trunc()取整函數

例對某醫院細菌性痢疾治愈者的住院天數統計,120名患者的住院天數從小到大排列如下,試求第5百分位數和第99百分位數。患者:住院天數:

(1)n=120,

,為整數:

(2),帶有小數,故取整trunc(118.8)=118患者:住院天數:2.頻數表法

公式:

當時,公式(2-9)即為中位數的計算公式

例2-9試分別求例2-1頻數表的第25、第75百分位數。P25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66二、四分位數間距

(quartilerange)

四分位數間距,用Q表示:

Q=下四分位數:上四分位數:例2-1數據P25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66三、方差與標準差

1.方差(variance)也稱均方差(meansquaredeviation),反映一組數據的平均離散水平。

總體方差

樣本方差

離均差平方和SS

2、公式:樣本標準差用表示,其度量單位與均數一致,所以最常用。公式:離均差平方和SS

標準差的公式還可以寫成:利用頻數表計算標準差的公式為例2-11對例2-1的前10個數據:75,76,72,69,66,72,57,68,71,72,用直接法計算標準差。例2-12利用表2-2中的數據和頻數表法計算標準差。N=∑f∑fX∑fX2標準差的意義和用途說明資料的離散趨勢(或變異程度),標準差的值越大,說明變異程度越大,均數的代表性越差;...。標準差與原始數據的單位一致,在科技論文報告中,均數與標準差經常被同時用來描述資料的集中趨勢與離散趨勢。用于計算變異系數用于計算標準誤(見第四章)結合均值與正態分布的規律,估計參考值的范圍(見第五節)。四、變異系數

變異系數(coefficientofvariation,CV)常用于比較度量單位不同或均數相差懸殊的兩組(或多組)資料的變異程度。

某地7歲男孩身高的均數為123.10cm,標準差為4.71;體重均數為22.59kg,標準差為2.26kg,

比較其變異度?

第四節正態分布正態曲線(normalcurve)的發現

deMoivre(1667-1754),publishedin1733

Laplace(1749-1827)

Gauss(1777-1855)正態分布:又稱高斯分布(Gaussiandistribution)

一、正態分布的概念和特征

1.正態分布曲線的數學表達式(概率密度函數,probabilitydensityfunction,pdf

)

,2.正態分布的特征

正態曲線下面積分布有一定的規律,總面積=1。累積面積可通過對概率密度函數f(X)積分求得(累積)分布函數:圖2-7正態曲線面積分布示意圖

二、標準正態分布見P438,Z~N(0,1)2例2-1的130名健康成年男子脈搏資料的均數、標準差分別為:71.32與5.80(次/分);問在正態分布假定下,脈搏在65~75(次/分)之間有多少人?

正態分布

標準正態分布三、正態分布的應用(一)估計總體變量值的概率分布對于某些變量服從或近似服從正態分布,如同性別同年齡正常兒童身高不服從正態分布,經變量變換后近似服從正態分布。對于服從正態分布或對數正態分布資料,只要求得均數和標準差,根據正態分布曲線下面積分布的規律,能估計其頻數分布。一、基本概念醫學參考值范圍的制定

1.意義:醫學參考值(referencevalue)是指包括絕大多數正常人的人體形態、機能和代謝產物等各種生理及生化指標常數,也稱正常值。

由于存在個體差異,生物醫學數據并非常數而是在一定范圍內波動,故采用醫學參考值范圍作為判定正常和異常的參考標準,但不是“金標準”。制定醫學參考值的步驟和注意事項1.確定觀察對象和抽取足夠的觀察單位“正常人”的理解2.制定方法應統一準確3.決定是否分組制定醫學參考值4.單、雙側問題,常依據醫學專業知識而定

雙側

:如:血清總膽固醇、血液白細胞數無論過低或過高均屬異常單側上限:如:血清轉氨酶、體內有毒物質過高異常(越低越好,<P95)單側下限:如:肺活量過低異常(越高越好,>P5

5.有90%、95%、99%等醫學參考值范圍,最常用的是95%

。6.計算醫學參考值范圍的常用方法:

1、正態分布法

2、百分位數法二、正態分布法公式:單側下限單側上限ZZZZ單側下限單側上限

例2-16測得某年某地名正常人的尿汞值如下表,試制定正常人尿汞值的95%參考值范圍。

表2-7282名正常人尿汞值()測量結果單側上限(三)質量控制實驗室的檢測誤差服從正態分布,可用正態分布理論來評價和控制實驗的質量(四)正態分布是許多統計方法的理論基礎計算器(統計功能)的使用Casiofx-570w型

開機:進入統計狀態:清除內存:

SHIFTAC/ONMODE1SD

SclMODE=AC/ON1

實例1:求1,3,5的算術平均數,標準差和方差。

M+M+M+SHIFT5

X132

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論