醫學統計學總結手持版_第1頁
醫學統計學總結手持版_第2頁
醫學統計學總結手持版_第3頁
醫學統計學總結手持版_第4頁
醫學統計學總結手持版_第5頁
已閱讀5頁,還剩2頁未讀, 繼續免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學(Statistics):應用統計學的原理與方法,研究數據的搜集、整理與分析的科學,對不確定性數據作出科學的推斷。醫學統計學(MedicalStatistics):應用統計學的原理與方法,研究醫學科研中有關數據的搜集、整理和分析的應用科學。同質(homogeneity):據研究目的所確定的所有研究對象的相同屬性。例子:身高、體重、年齡、容貌……變異(variation):同質研究單位中變量值間的差異,整個統計學甚至是整個科學研究存在的基礎??傮w(population):是根據研究目的確定的同質研究單位的全體。統計學人員習慣將其叫做同質研究單位某種變量值的集合,包括有限總體和無限總體。樣本(sample):是總體中抽取的一部分個體。包括隨機抽樣和非隨機樣本。樣本含量(samplesize):樣本中包含的研究單位數。觀察單位(observedunit):也叫個體或研究單位,它是研究中的個體(individual),完全由研究目的確定。它可以是一個(群)人、一只動物和一個細胞。變量(variable):按特定目的確定的研究單位的某種特征或屬性。變量值(valueofvariable):變量的觀察或檢測結果,也叫變量的觀測值。資料(data):在特定目的指引下而確定的變量及其變量值。計量資料(measurement/quantitative/numericaldata):其特征是能夠用數量衡量,通常具體計量單位。按照變量值是否連續又可分為連續型(continuous/interval)和離散型(discrete)兩類按特定目的確定的研究單位的某種特征或屬性(請舉例)。要特別注意比值資料,如細胞凋亡率。計數資料(enumeration/qualitative/categorical/nominaldata):是將觀察單位按某種屬性或類別分組計數,分組匯總各組觀察單位數后而得到的資料。其變量值是定性的,表現為互不相容的屬性或類別。按變量值類別的多少又分為二分類和多分類兩種類型(舉例)。等級資料(ordinalcategorical/rank/semi-quantitativedata):是將觀察單位按某種屬性的不同程度分成等級后分組計數,分組匯總各組觀察單位數后而得到的資料,其變量值具有半定量性質。(舉例,如血清反應強度、療效參數(parameter):根據總體中所有個體值計算出來的特征量/指標,一般用希臘字母表示。統計量(statistic):根據樣本個體值計算出來的描述的特征量/指標,一般用拉丁字母表示。誤差(error):泛指實際觀測值與真值之差,也即樣本指標/統計量與總體指標/參數之差。系統誤差(systematicerror):由于儀器未校正、測量者感官的某種障礙、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值兩側,而是有方向性、系統性或周期性地偏離真值。非系統誤差(nonsystematicerror):由于研究者偶然失誤而造成的誤差。例如:儀器失靈、抄錯數據、點錯小數點、寫錯單位等,亦稱過失誤差(grosserror)隨機誤差:是一類不恒定的、隨機變化的誤差,由于多種目前尚無法控制的因素引起。如:在同一條件下對某一實驗進行多次重復,雖極力對其進行控制或消除系統誤差后,但實驗結果卻不盡相同。抽樣誤差(samplingerror):由于抽樣所造成的樣本統計量與總體參數的差別。隨機抽樣誤差不可避免,具有統計規律性,主要由個體差異(變異)頻率(relativefrequency):一次隨機試驗有幾種可能結果,在重復進行試驗時,各種結果看來是偶然發生的,但當重復試驗次數相當多時,將顯現某種規律性。例如,投擲一枚硬幣,結果不外乎出現“正面”與“反面”兩種概率(probability)概率是度量隨機事件發生可能性大小的一個數值。設在相同條件下,獨立地重復n次試驗,隨機事件A出現f次,f/n則稱為隨機事件A出現的頻率。當n逐漸增大時,頻率f/n趨向于一個常數,則稱該常數為隨機事件A的概率,可記為P(A),簡記為P。概率的取值范圍:0≤P(A)≤1。頻率是就樣本而言的,而概率從總體的意義上說的,頻率是概率的估計值。試驗次數(樣本含量)越多(越大),估計就越可靠。小概率事件:統計分析中的很多結論都基于一定置信程度下的概率推斷,小概率是研究人員確定的統計判斷或決策標準,習慣上將概率小于0.05或0.01定為小概率事件。研究人員認為小概率事件在一次試驗中不可能發生,這即是統計決策必須付出的代價。算術均數:簡稱均數(mean)。可用于反映一組呈對稱分布的變量值在數量上的平均水平或者說是集中位置的特征值。適用于對稱分布,特別是正態分布或近似正態分布的資料。幾何均數(geometricmean):可用于反映一組經對數轉換后呈對稱分布的變量值在數量上的平均水平。適用于成等比級數的資料,特別是對數正態分布資料。中位數(median):是將變量值從小到大排列,位次居于正中間的那個變量值。當數據個數為奇數時,取位次居中的變量值;當為數據個數為偶數時,取位次居中的兩個變量值的平均值。各種分布類型的資料,特別是偏態分布資料和含有不確定數值的資料。百分位數(percentile)是一種位置指標,用來表示,讀作第X百分位分數??傮w參數一般是不知道的,統計工作的目的是:通過樣本統計量估計推測總體參數。統計學方法的特點:1.用數量反映質量2.統計邏輯:用群體規律估算/推測個體3.手段:常通過部分個體估計總體按誤差產生的原因分為:系統誤差、非系統誤差和隨機誤差。測量值=真值+隨機誤差+非隨機誤差醫學統計工作的基本步驟1.設計(design)設計階段主要涉及實驗的三要素(對象對象、研究因素、實驗效應)、四原則(對照、隨機、重復和均衡)和設計方法。包括專業設計和統計設計。根據研究對象的不同可將醫學科研設計分為:實驗設計、調查設計和臨床實驗設計。2.收集資料(collectionofdata)(1)資料來源:第一手資料:統計報表(傳染病報表、職業病報表、醫院工作報表、死亡登記、疫情報告等);經常性工作記錄(衛生監督記錄、健康檢查記錄、病歷等);專題調查、實驗或臨床試驗。第二手資料:已公布的資料,特別是官方出版物,以及其他各種類型的數據。(2)對資料要求完整:觀察單位及觀察指標應盡可能地完整。準確:即真實、可靠;真實是統計學的靈魂;及時:即時限性3.整理資料(sortingdata)目的:通過對原始數據的條理化、系統化和數量化的處理,使得其能夠滿足統計分析的需要,特別是要滿足統計軟件的要求。因此,國外有些教材也把該階段稱作數據篩查(datascreening)評估數據質量,彌補缺失值或補做調查或實驗,確保數據準確、可信。4.分析資料(analysisofdata)目的:揭示樣本數據中潛藏的內在聯系和規律,借以估計總體的特征,從而達到支持決策的目的。包括統計描述(統計圖、表、統計指標)和統計推斷(假設檢驗和置信區間)。資料的類型定量資料:可直接利用原始測量值進行分析,也可將其分為幾類,完全取決于研究目的。無序資料:二項分類資料(賦值進行量化)和多項分類資料(必須采用啞變量)舉行分析。有序數據:可直接進行量化處理。極差(range)也稱全距,即最大值和最小值之差,記作R。編制頻數表的步驟1.求極差2.確定組距(i)3.寫組段(分為12個組段)組下限(L):每個組段的起點,組上限(U):每個組段的終點4.分組段劃記并統計頻數描述數據分布類型(1)對稱分布:若各組段的頻數以頻數最多組段為中心左右兩側大體對稱,就認為該資料是對稱分布。(2)偏態分布:右偏態分布也稱正偏態分布:右側的組段數多于左側的組段數,頻數向右側拖尾。左偏態分布也稱負偏態分布:左側的組段數多于右側的組段數,頻數向左側拖尾。頻數表和頻數分布圖用途1.描述數據分布類型2.描述頻數分布的特征3.便于發現一些特大或特小的可疑值;4.便于進一步做統計分析和處理。集中趨勢的描述統計上使用平均數(average)這一指標體系來描述一組變量值的集中位置或平均水平。常用的平均數有:算術均數、幾何均數、中位數。算術均數:簡稱均數(mean)??捎糜诜从骋唤M呈對稱分布的變量值在數量上的平均水平或者說是集中位置的特征值。適用于對稱分布,特別是正態分布或近似正態分布的資料。幾何均數(geometricmean):可用于反映一組經對數轉換后呈對稱分布的變量值在數量上的平均水平。適用于成等比級數的資料,特別是對數正態分布資料。中位數(median):是將變量值從小到大排列,位次居于正中間的那個變量值。當數據個數為奇數時,取位次居中的變量值;當為數據個數為偶數時,取位次居中的兩個變量值的平均值。各種分布類型的資料,特別是偏態分布資料和含有不確定數值的資料。百分位數(percentile)是一種位置指標,用來表示,讀作第X百分位分數。離散趨勢的描述常用統計指標:極差、四分位數間距、方差、標準差和變異系數。極差或全距(Range),用R表示:即一組變量值最大值與最小值之差。四分位數間距,用QR表示:QR=p75-p25下四分位數:QL=P25上四分位數;QU=P75方差(variance)也稱均方差(meansquaredeviation),反映一組數據的平均離散水平。標準差:方差的開方變異系數(coefficientofvariation)記為,多用于觀察指標單位不同時的變異程度的比較;或均數相差較大時變異程度的比較。醫學參考值(referencevalue)是指包括絕大多數正常人的人體形態、機能和代謝產物等各種生理及生化指標常數,也稱正常值。由于存在個體差異,生物醫學數據并非常數而是在一定范圍內波動,故采用醫學參考值范圍(medicalreferencerange)作為判定正常和異常的參考標準。雙側:即指標過高和過低都不正常,如:血清總膽固醇、血壓、體重等等。單側:即僅在指標值過低或過高才被認為不正常,如:血清轉氨酶僅過高異常、肺活量。計算醫學參考值范圍的常用方法:正態分布法(當資料服從正態分布)百分位數法(當資料不服從正態分布)抽樣誤差:由于存在個體差異,抽得樣本的均數不太可能恰好等于總體均數,因此通過樣本推斷總體會有誤差。這種由個體變異產生的、抽樣造成的樣本統計量(statistic)與總體參數(parameter)的差異,稱為抽樣誤差。(常考內容)標準誤(standarderror,SE):表示樣本統計量抽樣誤差大小的統計指標。均數標準誤:說明均數抽樣誤差的大小,總體計算公式t分布:若某一隨機變量X服從總體均數為、總體標準差為的正態分布,則可通過u變換()將一般正態分布轉化為標準正態分布N(0,12),即u分布.t分布特征1單峰分布,以0為中心,左右對稱2自由度越小,則t值越分散,t分布的峰部越矮而尾部翹得越高;3當逼近,逼近,t分布逼近u分布,故標準正態分布是t分布的特例參數估計:用樣本統計量推斷總體參數。總體均數估計:用樣本均數推推斷總體均數點估計:就是用相應樣品統計量直接作為其總體參數的估計值。如用ˉX估計μ,S估計σ等。其方法雖簡單,但未考慮抽樣誤差的大小。區間估計:是按預先給定的概率(1-α)所確定的包含位置總體參數的一個范圍。該范圍稱為參數的可信區間(confidencebound/confidenceinterval,CI);預先給定的概率1-α稱為可信度或置信度(confidencelevel),常取95﹪或99﹪,如果沒有特別說明,一般取雙側95﹪??尚艆^間的兩個要素1)準確度:用可信度(1-a)表示:即區間包含總體均數m的理論概率大小。它愈接近1愈好,如99%的可信區間比95%的可信區間要好。2)精確度:即區間的寬度。區間愈窄愈精確,如95%的可信區間比99%的可信區間要好。假設檢驗的步驟1.建立檢驗假設,確定檢驗水準1)m=m0:即檢驗假設,常稱無效假設或零/原假設,用H0表示。2)m1m0:即備擇假設,常稱對立假設,用H1表示。3)a:即檢驗水準,也稱顯著性水準。a是預先規定的概率值,它確定了小概率事件的標準。在實際工作中常取a=0.05。2.計算檢驗統計量:應根據變量和資料類型、設計方案、統計推斷的目的、方法的適用條件等選擇檢驗統計量。3.確定P值:按照所選擇的統計方法計算P值。P值的含義是指從H0規定的總體中隨機抽樣,抽得等于及大于(或/和等于及小于)現有樣本獲得的檢驗統計量(如t、u)值的概率。4.下結論:將上述計算所得概率P與檢驗水準a進行比較,判斷其是否為小概率事件,從而得出結論。一般來說,結論應包含統計結論和專業結論兩部分。統計結論只說明有無統計學意義,而不能說明專業上的差異大小。必須將二者結合起來,才能得出符合客觀實際的結論;若P≤a,則結論為按所取的a檢驗水準,拒絕H0,接受H1,有統計學意義(統計結論),可認為……不等或不同(專業結論);若P>a,則結論為按a檢驗水準,不拒絕H0,無統計學意義(統計結論),還不能認為……不等或不同(專業結論)。t檢驗和u檢驗的應用條件1.t檢驗應用條件樣本含量n較小時(如n<60)(1)正態分布(2)方差齊性2.u檢驗應用條件樣本含量n較大,或n雖小但總體標準差已知(1)方差齊性(homogeneityofvariance)總變異:全部測量值大小不同,這種變異稱為總變異。離均差平方和:總變異的大小可以用離均差平方和(sumofsquaresofdeviationsfrommean,SS)表示,即各測量值Xij與總均數差值的平方和,記為SS總。組間變異:各處理組由于接受處理的水平不同,各組的樣本均數(i=1,2,…,g)也大小不等,這種變異稱為組間變異。其大小可用各組均數與總均數的離均差平方和表示,記為SS組間。完全隨機設計:(completelyrandomdesign)是采用完全隨機化的分組方法,將全部試驗對象分配到g個處理組(水平組),各組分別接受不同的處理,試驗結束后比較各組均數之間的差別有無統計學意義,推論處理因素的效應。隨機區組設計(randomizedblockdesign)又稱為配伍組設計,是配對設計的擴展。具體做法是:先按影響試驗結果的非處理因素(如性別、體重、年齡、職業、病情、病程等)將受試對象配成區組(block),再分別將各區組內的受試對象隨機分配到各處理或對照組。構成比:表示事物內部某一部分的個體數與該事物各部分個體數的總和之比,用來說明各構成部分在總體中所占的比重或分布。通常以100%為比例基數。相對比簡稱比(ratio),是兩個有關指標之比,說明兩指標間的比例關系。兩個指標可以是性質相同,如不同時期發病數之比;也可以性質不同,通常以倍數或百分數(%)表示。應用相對數的注意事項1、計算相對數應有足夠數量即分母不宜太小。2、不能以構成比代替率3.正確計算合計率4.注意資料的可比性動態數列(dynamicseries):是一系列按時間順序排列起來的統計指標(可以為絕對數,相對數或平均數),用以觀察和比較該事物在時間上的變化和發展趨勢。常用的動態數列分析指標有:絕對增長量、發展速度與增長速度、平均發展速度與平均增長速度。二項分布(binomialdistribution)是指在只會產生兩種可能結果如“陽性”或“陰性”之一的n次獨立重復試驗(常常稱為n重Bernoulli試驗)中,當每次試驗的“陽性”概率保持不變時,出現“陽性”的次數X=0,1,2,…,n的一種概率分布。二項分布的適用條件1每次試驗只會發生兩種對立的可能結果之一,即分別發生兩種結果的概率之和等于1;2每次試驗產生某種結果(如“陽性”)的概率π固定不變;3重復試驗是相互獨立的,即任何一次試驗結果的出現不會影響其它試驗結果出現的概率。Poisson分布(Poissondistribution)作為二項分布的一種極限情況,已發展成為描述小概率事件發生規律性的一種重要分布。Poisson分布是描述單位面積、體積、時間、人群等內稀有事件(或罕見事件)發生數的分布。Poisson分布的適用條件假定在規定的觀測單位內某事件(如“陽性”)平均發生次數為λ,而其樣本計數為X(X=0,1,2,…)。則在滿足下面三個條件時,有X~P(λ)。1.普通性在充分小的觀測單位上X的取值只能為1個,不能同時取多個值。2.平穩性X的取值只與觀測單位的大小有關,而與觀測單位的位置無關。3.獨立增量性在某個觀測單位上X的取值與其他各觀測單位上X的取值無關??ǚ綑z驗目的:推斷兩個總體率或構成比之間有無差別.。多個總體率或構成比之間有無差別;多個樣本率的多重比較;兩個分類變量之間有無關聯性;頻數分布擬合優度的檢驗。檢驗統計量:X2應用:計數資料X2分布的一個基本性質是可加性參數檢驗如果總體分布為已知的數學形式,對其總體參數作假設檢驗。如:t檢驗和F檢驗。非參數檢驗:對總體分布不作嚴格假定,又稱任意分布檢驗(distribution-freetest),它直接對總體分布作假設檢驗。秩轉換的非參數檢驗應用范圍:對于計量資料:1.不滿足正態和方差齊性條件的小樣本資料;2.分布不明的小樣本資料;3.一端或二端是不確定數值(如<0.5、>5.0等)的資料(必選);對于等級資料:若選行×列表資料的x2檢驗,只能推斷構成比差別,而選秩轉換的非參數檢驗,可推斷等級強度差別。wilcoxon秩和檢驗,用于推斷兩個獨立樣本所來自的兩個總體分布是否有差別。直線回歸目的:研究應變量Y對自變量X的數量依存關系。特點:統計關系。X值和Y的均數的關系,不同于一般數學上的X和Y的函數關系?;貧w模型的前提條件:線性(linearity)獨立(independent)正態(normal)等方差(equalvariance)殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離。直線回歸方程的求法:原則:最小二乘法(leastsumofsquares),即可保證各實測點至直線的縱向距離的平方和最小.SS總=SS回+SS殘,即,為的離均差平方和,表示未考慮與的回歸關系時的總變異。直線相關(linearcorrelation)又稱簡單相關(simplecorrelation),用于雙變量正態分布(bivariatenormaldistribution)資料。目的:研究兩個變量X,Y數量上的依存(或相關)關系。特點:統計關系相關系數(correlationcoefficient)又稱Pearson積差相關系數,用來說明具有直線關系的兩變量間相關的密切程度與相關方向。相關系數沒有單位,其值為-1≥r≥1。r值為正表示正相關,r值為負表示負相關,r的絕對值等于1為完全相關,r=0為零相關。秩相關適用條件:雙變量計量資料:①資料不服從雙變量態分布;②總體分布型未知,一端或兩端是不確定數值(如<10歲,≥65歲)的資料;原始數據(一個或兩個變量值)用等級表示的資料。曲線擬合:當發現散點圖中應變量Y和自變量X間表現出非線性趨勢時,可以通過曲線擬合方法來刻畫兩變量間數量上的依存關系。幾種曲線擬合:對數曲線、指數曲線、拋物線、S型曲線統計表(statisticaltable)是表達統計分析結果中數據和統計指標的表格形式;統計圖(statisticalgraph)是用點、線、面等各種幾何圖形來形象化表達統計數據。制表的基本要求(1)標題:概括表的主要內容,包括研究的時間、地點和研究內容,放在表的上方。(2)標目:分別用橫標目和縱標目說明表格每行和每列數字的意義,注意標明指標的單位。(3)線條:至少用三條線,表格的頂線和底線將表格與文章的其它部分分隔開來,縱標目下橫線將標目的文字區與表格的數字區分隔開來。部分表格可再用橫線將合計分隔開,或用橫線將兩重縱標目分割開。其它豎線和斜線一概省去。(4)數字:用阿拉伯數字表示。無數字用“—”表示,缺失數字用“?”表示,數值為0者記為“0”,不要留空項。數字按小數位對齊。(5)備注:表中數字區不要插入文字,也不列備注項。必須說明者標“*”號,在表下方說明。常用統計圖1.直條圖2.圓圖和百分比條圖3.線圖4.直方圖5.統計地圖6.其他特殊分析圖:箱式圖莖葉圖、誤差條圖線圖是用線段的升降來表示數值的變化,適合于描述某統計量隨另一連續性數值變量變化而變化的趨勢,最常用于描述統計量隨時間變化而變化的趨勢。箱式圖(boxplot)使用5個統計量反映原始數據的分布特征,即數據分布中心位置、分布、偏度、變異范圍和異常值。箱式圖的箱子兩端分別是上四分位數和下四分位數,中間橫線是中位數,兩端連線分別是除異常值外的最小值和最大值。另外標記可能的異常值。多因素試驗資料的方差分析設計類型:析因設計各因素各水平的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論