衛生統計學知識點總結_第1頁
衛生統計學知識點總結_第2頁
衛生統計學知識點總結_第3頁
衛生統計學知識點總結_第4頁
衛生統計學知識點總結_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、衛生統計學統計工作根本步驟:統計設計調查設計和實驗設計、資料分析收集資料、整理資料、分析資料【統計描述和統計推斷參數估計和假設檢驗】。 統計推斷:是利用樣本所提供的信息來推斷總體特征,包括:參數估計和假設檢驗。a參數估計是指利用樣本信息來估計總體參數,主要有點估計把樣本統計量直接作為總體參數估計值和區間估計【按預先設定的可信度1-,來確定總體均數的所在范圍】。b假設檢驗:是以小概率反證法的邏輯推理來判斷總體參數間是否有質的區別。變量資料可分為定性變量、定量變量。不同類型的變量可以進行轉化,通常是由高級向低級轉化。資料按性質可分為計量資料、計數資料和等級資料。定量資料的統計描述1頻率分布表和頻率

2、分布圖是描述計量資料分布類型及分布特征的方法。離散型定量變量的頻率分布圖可用直條圖表達。2頻率分布表圖的用途:描述資料的分布類型;描述分布的集中趨勢和離散趨勢;便于發現一些特大和特小的可疑值;便于進一步的統計分析和處理;當樣本含量足夠大時,以頻率作為概率的估計值。3集中趨勢和離散趨勢是定量資料中總體分布的兩個重要指標。1描述集中趨勢的統計指標:平均數算術均數、幾何均數和中位數、百分位數是一種位置參數,用于確定醫學參考值范圍,P50就是中位數、眾數。算術均數:適用于對稱分布資料,特別是正態分布資料或近似正態分布資料;幾何均數:對數正態分布資料頻率圖一般呈正偏峰分布、等比數列;中位數:適用于各種分

3、布的資料,特別是偏峰分布資料,也可用于分布末端無確定值得資料。2描述離散趨勢的指標:極差、四分位數間距、方差、標準差和變異系數。四分位數間距:適用于各種分布的資料,特別是偏峰分布資料,常把中位數和四分位數間距結合起來描述資料的集中趨勢和離散趨勢。方差和標準差:都適用于對稱分布資料,特別對正態分布資料或近似正態分布資料,常把均數和標準差結合起來描述資料的集中趨勢和離散趨勢;變異系數:主要用于量綱不同時,或均數相差較大時變量間變異程度的比擬。標準差的應用:表示變量分布的離散程度;結合均數計算變異系數、描述對稱分布資料;結合樣本含量計算標準誤。定性資料的統計描述1定性資料的根底數據是絕對數。描述一組

4、定性資料的數據特征,通常需要計算相對數。定性變量可以通過頻率分布表描述其分布特征。2常用相對數類型:頻率型、強度型和相比照型指標。指標頻率型指標強度型指標相比照型指標概念近似反映某一時間出現概率單位時間內某現象的發生頻率兩個有關聯的指標A和B之比計算公式某事件發生的個體數可能發生某事件的個體數×k某事件發生的個體數觀察人日數總計×kA/B有無量綱無有可有、可無取值范圍【0,1】可大于1無限制本質大樣本時作為概率近似值分子式分母的一局部頻率強度,即概率強度的近似值表示相對于B的一個單位,A有多少個單位A和B可以是絕對數、相對數和平均數A和B的量綱可相同也可不同A和B互不包含相

5、比照:A、B兩指標可以是絕對數、相對數或平均數。最常見的相比照是人口學中的男女性別比,流行病學中的相對危險度RR=P1/P0也是相比照指標。3應用相對數應該注意:防止概念混淆,防止以比代率的錯誤現象;計算相對數時分母應有足夠數量,如果例數較少會使相對數波動較大,應該使用絕對數;正確的計算頻率或強度指標的合計值。當分組的資料需要合并起來估計頻率或強度時,應將各組頻率的分子相加作為合并估計的分子,各組的分母相加作為合并估計的分母;頻率型指標的解釋要緊扣總體和屬性;相對數間比擬要具備可比性:要注意觀察對象是否同質、研究方法是否相同、觀察時間是否一致、觀察對象內部結構是否一致、比照不同時期資料應注意客

6、觀條件是否相同;正確進行相對數的統計推斷:在隨機抽樣的情況下,從樣本估計值推斷總體相對數應該考慮抽樣誤差,因此要進行參數估計和假設檢驗。4醫學人口統計資料主要來源為日常工作記錄報告單、卡、冊、統計報表、人口調查普查和抽樣調查。5描述人口學特征的常用指標一般有人口總數和反映人口學根本特征的某些指標。人口學的根本特征包括性別、年齡、文化、職業等,最常用來描述人口結構的是性別和年齡。人口學特征指標:老年人口系數、少兒人口系數、負擔系數、老少比、性別比。6有關生育的常用指標有出生率、生育率和人口再生產指標。測量生育水平的統計指標:粗出生率、總生育率、年齡別生育率、總和生育率。測量人口再生育的統計指標:

7、自然增長率、粗再生率和凈再生率。7常用的死亡統計指標有:粗死亡率、年齡別死亡率、嬰兒死亡率、新生兒死亡率、圍生兒死亡率、死因別死亡率、某病病死率和死因構成等。8疾病統計資料主要來源于:疾病報告和報表材料、醫療衛生工作記錄、疾病專題調查資料。9標準化:兩個率或多個率之間進行比擬時,為消除內部構成不同的影響,采用統一的標準,對兩組或多組資料進行校正調整,計算得到標準化率后再做比擬的方法,稱為。其目的是統一內部構成,消除混雜因素,是資料具有可比性。應用標準化法的考前須知: 標準化法的應用范圍很廣。當某個分類變量在兩組中分布不同時,這兩個分類變量就成為兩組頻率比擬的混雜因素,標準化的目的是消除混雜因素

8、。 標準化后的標準化率,已經不再反映當時當地的實際水平,只表示相互比擬的資料間的相對水平。 標準化法實質是找一個標準,使兩組得意在一個共同的平臺上進行比擬。選擇不同的標準,算出的標準化率也會不同,比擬的結果也未必相同,因此報告比擬結果時必須說明所選用的標準和理由兩樣本標準化率是樣本值,存在抽樣誤差。比擬兩樣本標準化率,當樣本含量較小時,還應作假設檢驗。10常用的動態數列分析指標有:絕對增長量、開展速度與增長速度、平均開展速度與平均增長速度。1絕對增長量:是說明事物在一定時期增長的絕對值,可分為:累計增長量報告期指標與基線期指標之差和逐年增長量報告期指標與前一期指標之差。2開展速度與增長速度:均

9、為相比照,說明事物在一定時期的變化,可計算定基比即報告期指標與基線期指標的比:an/a0和環比報告期指標與其前一期指標之比:an/an-1。增長速度表示的是凈增長速度,增長速度=開展速度-100。3平均開展速度與平均增長速度:用于概括某現象在一段時期中的平均變化。平均開展速度是開展速度的幾何平均數,平均開展速度=,平均增長速度=平均開展速度-100。11統計表和統計圖是描述資料特征、呈現統計分析結果的重要工具。統計表結構標題、標目、線條、數字和備注。12常用統計圖用途:條圖:適用于相互獨立的資料資料有明確分組、不連續;百分條圖、圓圖適用于構成比資料;線圖適用于連續性資料,表達事物的動態變化絕對

10、差值;半對數線圖適用于連續性資料,表達事物的開展速度相比照;直方圖用于描述連續變量的頻數分布;散點圖適用于雙變量資料,用點的排列趨勢和密集度表示兩變量的相關關系。常用概率分布1正態分布連續型隨機變量的概率分布1正態概率密度曲線特點:關于x=對稱;在x=處取得該概率密度函數的最大值,在x=±處有拐點;曲線下面積為1;正態分布有兩個參數:位置參數決定曲線在橫軸上的位置和變異參數決定曲線的形狀;±1.64面積為90,±1.96面積為95,±2.58面積為99。2Z變換與標準正態分布:對于任意一個服從正態分布N,2的隨機變量,可作Z變:Z=,變換后的z值仍然服從

11、正態分布,且其總體均數為0、總體標準差為1,稱此為標準正態分布,用N0,1表示。z為標準正態分布Z變量的累積面積,-Z的面積,即下側累計面積。3正態分布的應用:確定醫學參考值范圍:是指特定的“正常人群排除了對所研究的指標有影響的的疾病和有關因素的特定人群的解剖、生理、生化指標及組織代謝產物含量等數據中大多數個體的取值所在范圍,習慣用該人群的95的個體某項醫學指標的取值范圍作為該指標的醫學參考值范圍。方法:a百分位數法:適用于任何分布類型的資料;b正態分布法。質量控制圖:如果某一波動僅僅由個體差異或隨機測量誤差所致,那么觀察結果服從正態分布。控制圖共有7條水平線,中心線位于總體均數處,警戒限位于

12、±2處,控制限位于±3處,此外還有兩條位于±處。4確定醫學參考值的步驟:從“正常人總體中抽樣,明確研究總體;用統一和準確的方法測定相應的指標;根據不同的用途選定適當的百分界限,常用95;根據此指標的實際意義,決定單側范圍還是雙側范圍;根據此指標的分布決定計算方法,常用的計算方法:正態分布法、百分位數法。2二項分布: (1)是一種離散型隨機變量的分布類型。如果每個觀察對象陽性結果的發生概率為,陰性結果的發生概率為1-;而且每個觀察對象的結果是相互對立的,那么,重復觀察n個人,發生陽性結果的人數X的概率分布為而二項分布,記作Bn,。二項分布的概率函數PX=(1-)n-

13、x, =適用條件:每次實驗只有兩種互斥的結果;各次實驗互相獨立;發生成功事件的概率恒定。分布特征:二項分布的特征由二項分布的參數以及觀察的次數n決定。圖形分布特征:二項分布圖的頂峰在=n處或附近;=0.5時,圖形對稱;0.5時,分布不對稱,且對同一n,離0.5愈遠,對稱性愈差。對于同一,隨著n的增大,分布趨于對稱。當n時,只要不太靠近0或1特別是當n和n1-均大于5時,二項分布趨于對稱。二項分布的均數和標準差:假設X服從二項分布Bn,那么X的總體均數為=n,總體方差為2=n1-,總體標準差為=;假設將出現陽性結果的頻率記為:P=,那么樣本率P的總體均數為P=,總體方差為 =,總體標準差為p=,

14、p是頻率P的標準差,又稱頻率的標準誤,反映陽性頻率的抽樣誤差大小。累積概率計算:二項分布出現陽性的次數至多為k次的概率為:PXk=出現陽性的次數至少為k次的概率為:PXk=。3 Poisson分布:是一種離散型隨機變量的分布類型,是二項分布的特例,用以描述單位時間、空間、面積等的罕見事件發生次數的概率分布。一般記作P,是Poisson分布的唯一參數。總體均數為=n。前提條件:互斥、獨立、恒定。概率函數為:PX=e-,X為觀察單位內稀有事件的發生次數,e=2.71828。分布特性:Poisson分布是非對稱的,總體參數值越小,分布越偏;隨著,分布趨于對稱,當20時,Poisson分布資料可按正態

15、分布處理。Poisson分布總體均數與總體方差相等,均為;Poisson分布的觀察結果可加性,即對于服從Poisson分布的m歌互相獨立的隨機變量X1、X2Xm,它們的和也服從Poisson分布,其均數為這個m隨機變量的均數之和。4 概率計算:如果稀有事件發生次數的總體均數為,有事件發生次數至多為k次的概率為:PXk= ;生次數至少為k次的概率:PXk=1-PXk-14三種常用分布之間的關系:二項分布與Poisson分布的關系:當n很大,發生概率或1-很小,二項分布Bn,近似于Poisson分布Pn;二項分布與正態分布的關系:當n較大,不接近0或1特別是當n和n1-均大于5時,二項分布Bn,近

16、似于正態分布Nn,n1-; Poisson分布與正態分布的關系:當20時,Poisson分布漸進正態分布N,。5二項分布與Poisson分布的區別:相同點:都是離散型隨機變量的常見分布;區別:a取值不同。服從二項分布的隨機變量有n+1個不同的取值;Poisson分布的隨機變量的可能去只有無限多個,即非負整數0,1,2;b隨機變量的概率不同:二項分布PX=k=,Poisson分布PX=k=e-;c描述的隨機變量不同。二項分布描述的是一次試驗只會出現兩種對立的結果之一,n次獨立重復試驗中某種結果出現次數的概率分布。Poisson分布描述的是在單位時間、面積、空間等范圍中某種事件發生數的概率分布。聯

17、系:Bn,Poisson分布。參數估計1在服從正態分布的總體中進行隨機抽樣,樣本均數的抽樣分布特點:各樣本均數未必等于總體均數;樣本均數見存在差異;樣本均數圍繞總體均數,中間多、兩邊少,左右根本對稱,呈近似正態分布;樣本均數間的變異明顯小于原始變量間的變異。2標準誤:均數的標準誤的理論值:=,總體標準差通常未知,需用樣本標準差S來估計,均數標準誤的估計值為:S=;頻率的標準誤:假設隨機變量XBn,,那么樣本頻率 P=的總體概率為,標準誤是p=,頻率標準誤的估計值:SP=增加樣本含量可以減少樣本誤差。3標準差與標準誤的區別與聯系: 區別:標準差S:意義:描述個體觀察值變異程度的大小。標準差小,均

18、數對一組觀察值得代表性好;應用:與結合,用以描述個體觀察值的分布范圍,常用于醫學參考值范圍的估計;與n的關系:n越大,S越趨于穩定;標準誤S:意義:描述樣本均數變異程度及抽樣誤差的大小。標準誤小,用樣本均數推斷總體均數的可靠性大;應用于結合,用以估計總體均數可能出現的范圍以及對總體均數作假設檢驗;與n的關系:n越大,S越小。聯系:都是描述變異程度的指標;由S=可知,S與S成正比。n一定時,s越大,S越大。4 t分布:當X服從均數為的正態分布時,統計量服從自由度為v=n-1的t分布,是小樣本總體均數的區間估計及假設檢驗的理論根底。僅供學習參考t分布的圖形特征:t值得分布于自由度有關。t分布只有一

19、個參數即v。特征:單峰分布,以0為中心,左右對稱;v越小,t值越分散,曲線的峰部越矮,尾部越高;隨著v逐漸增大,t分布逐漸接近標準正態分布;當v趨向時,t分布趨近標準正態分布,故標準正態分布是t分布的特例;t分布是一簇曲線。t界值表:在自由度相同時,值越大,t分布的尾部概率越小;在t臨界值相同時,雙側尾部面積概率為單側尾部面積概率的兩倍。5參數估計:包括點估計和區間估計。置信區間的兩個要素:準確度:反映置信度1-的大小,及區間包括總體均數的理論概率的大小,愈接近1越好;精密度:即區間的寬度,區間越窄越好,如樣本含量不變,將置信度由95提高到99,那么置信區間由窄變寬,估計的精度下降。6總體均數

20、及總體概率的區間估計:1 體均數的置信區間:t分布法和正態近似法I.t分布法:當未知且n較小時,總體均數的雙側1-置信區間為±tS;單側-tS,或-,+ tS;II正態近似法:當時,總體均數的雙側1-置信區間為±Z;單側-Z,或-,+ Z;當未知但n足夠大時n>50,t分布近似服從標準正態分布,總體均數的雙側1-置信區間為:±ZS,單側- Z S,或-,+ Z S總體概率的置信區間:對于二項分布的樣本資料,可根據樣本含量n和樣本頻率p的大小,選用查表法n50,特別是p很接近0或100時或正態近似法估計總體概率的1-置信區間。正態近似法:當n足夠大,且np及n

21、(1-p)均大于5時,p的抽樣分布近似正態分布,總體概率的雙側1-置信區間等于P±ZSp7醫學參考值范圍與總體均數的置信區間的區別:參考值范圍意義:絕大多數人某項指標的數值范圍;計算:正態分布 雙側±ZS;單側- ZS,或-,+ ZS偏峰分布 雙側PXP100-X;單側PX,或-,P100-X應用:判斷某項指標正常與否總體均數的置信區間:意義:按一定的置信度估計總體均數所在范圍;計算:正態分布 未知:雙側±tS,單側-tS,或-,+ tS; :雙側±Z,單側-Z,或-,+ Z; 正態分布或偏峰分布:未知但n足夠大:雙側±ZS,單側- Z S,或

22、-,+ Z S應用:估計總體均數所在范圍。假設檢驗1假設檢驗的過程:建立檢驗假設,確定檢驗水準計算統計量確定P值并與給定的比擬做出推斷結論。2假設檢驗的根本邏輯:在H0成立的條件下處理因素不起作用,計算統計量和P值,把“不太可能出現假陽性當作“不可能出現假陽性,從而拒絕H0,接受H1處理因素起作用。3假設檢驗的兩類錯誤:型和型錯誤。見名解實際情況 統計推斷 拒絕H0,有差異 不拒絕H0 ,無差異H0成立,無差異 第類錯誤假陽性,概率= 正確,概率=1- H1成立,有差異 正確,該概率=1- 第類錯誤假陰性,概率= 4t檢驗:應用條件:隨機樣本:來自正態分布總體;均數比擬時,要求兩總體方差相等方

23、差齊性。單樣本資料的t檢驗:實際上是推斷該樣本來自的總體均數與的某一總體均數0有無差異。檢驗假設:H0:=0,H1:0;前提條件:樣本來自正態總體;計算公式:;自由v=n-1。配對設計資料的t檢驗:配對資料的分析著眼與每一對中兩個觀察值之差,這些差值構成一組資料,用t檢驗推斷差值總體均數是否為0。檢驗假設:H0:d=0,H1:d0;前提條件:差值服從正態分布;計算公式; 自由度v=n-1n是對子數。兩獨立樣本資料的t檢驗:兩樣本均數的比擬。檢驗假設:H0:=,H1:;前提條件:兩樣本服從正態分布,且具有方差齊性;計算公式:,代表兩樣本均數之差的標準誤, S為兩樣本聯合估計的方差,;自由度。5

24、檢驗:前提條件:兩小樣本來自正態總體且方差不等。方差不齊,可采用的處理方式有:檢驗,基于秩次的非參數檢驗和數據變換。非正態分布,方差不齊:基于秩次的非參數檢驗和數據變換。檢驗假設:H0:=,H1:;計算公式:;自由度6兩組獨立樣本資料的方差齊性檢驗:兩組正態分布隨機樣本判斷其總體方差是否齊同:,當H0成立時,檢驗統計量,當F>3時,方差不齊。7大樣本資料的Z檢驗u檢驗:前提條件:樣本足夠大;兩獨立樣本資料的Z檢驗:假定從兩個正態總體或非正態總體隨機抽取含量為n1和n2的樣本,總體均數和方差分別為。當n1和n2均較大時,兩樣本均數的和與差的分布也服從或近似服從正態分布,。當H0成立時,這個

25、統計量服從標準正態分布。t檢驗與Z檢驗的比擬:兩樣本均數比擬的t檢驗適用條件為:樣本含量小,兩樣本獨立,來自正態總體,且兩總體方差相等。Z檢驗是大樣本情況下的t檢驗的近似,用于兩總體方差,或總體方差未知但樣本含量較大n1>60且n2>60的兩樣本均數的比擬。樣本量較大時,兩種檢驗方法都可用。 8假設檢驗與區間估計的關系:置信區間具有假設檢驗的主要功能:在水準上可答復差異有無統計學意義;置信區間可提供假設檢驗沒有提供的信息:根據置信區間上、下限的數值大小可判斷差異是否具有實際意義;假設檢驗可提供確切的P值,置信區間只能在預先確定的置信度1001-水平上進行推斷,沒有精確的概率值,且有

26、可能增大類錯誤;置信區間推斷量的大小,即推斷總體均數范圍;假設檢驗推斷質的大小即推斷總體均數是否存在不同。只有把置信區間和假設檢驗結合起來,互相補充才是對問題比擬的完整分析。9假設檢驗的考前須知:根據研究目的、設計類型、變量類型及樣本大小選擇恰當的統計分析方法;權衡兩類錯誤的危害以確定的大小;正確理解P值的意義:P值很小時“拒絕H0,接受H1”,不能把很小的P值誤解為總體參數間差異很大。拒絕H0只是說差異不為0,P值小只是說犯一類錯誤的時機遠小于。P與本質相同,都為概率,P是根據當前實驗計算的概率,是預先給定的概率,為檢驗水準,是定義了的小概率上限。實驗設計1根據研究者是否認為地設置處理因素,

27、即是否給予干預措施,可將醫學研究分為調查研究和實驗研究兩類。 調查研究:又稱觀察性研究或非實驗性研究,確切的說應是非隨機化比照研究。它對研究對象不施加任何干預措施,是在完全“自然狀態下對研究對象的特征進行觀察、記錄,并對觀察結果進行描述和比照研究。 實驗研究:又稱干預性研究,是對研究對象人為給予干預措施的研究。2實驗設計的根本要素:受試對象、處理因素、實驗效應。 受試對象:是處理因素作用的客體,根據受試對象不同,實驗可以分為三類:動物實驗、臨床試驗、現場試驗。 處理因素:是研究者根據研究目的而施加的特定的實驗措施,又稱為受試因素。 實驗效應:是處理因素作用下,受試對象的反響或結局,它通過觀察指

28、標來表達。選擇觀察指標時,應當注意:a客觀性:客觀指標具有較好的真實性和可靠性;b精確性:包括準確度和精密度兩層含義。準確度指觀察值與真值的接近程度,主要受系統誤差的影響。精密度指相同條件下對同一對象的同一指標進行重復觀察時,觀察值與其均數的接近程度,其差值受隨機誤差的影響。c靈敏性和特異性:指標的靈敏度反映其檢出真陽性的能力,靈敏度高的指標能將處理因素的效應更好地顯示出來;指標的特異度反映其鑒別真陰性的能力,特異度高的指標不易受混雜因素的干擾。3實驗設計的根本原那么:對照、隨機化和重復。對照的形式:撫慰劑對照:目的:在于克服研究者、受試對象等由心理因素導致的偏倚。空白對照:即對照組不接受任何

29、處理,在動物實驗和實驗方法研究中最常見,常用于評價測量方法的準確度,評價實驗是否處于正常狀態等。實驗對照;標準對照:用現有標準方法或常規方法作為對照;自身對照:對照與實驗在同一受試對象身上進行。a隨機化表達在三方面:隨機抽樣:總體中每一個體都有相同時機被抽到樣本中來;隨機分配:每個受試對象被分配到各組的時機相等,保證大量難以控制的非處理因素在比照組間盡可能均衡,以提高組間的可比性;實驗順序隨機:每個受試對象先后接受處理的時機相等,它使實驗順序的影響也到達均衡。b在實驗設計中常通過隨機數來實現隨機化。獲得隨機數的常用方法有:隨機數字表和計算機的偽隨機數發生器。隨機數字表常用于抽樣研究及隨機分組。

30、c常用的兩種隨機化分組的方法:完全隨機化和分層隨機化配對隨機化和區組隨機化可看成是分層隨機化的實際應用。重復包括三種情形:整個實驗的重復;用多個受試對象進行重復;同一受試對象的重復觀察。重復的主要作用:估計變異的大小;降低變異大小。4常用的實驗設計方案:完全隨機設計completely randomized design:又稱簡單隨機設計,是最為常見的一種考察單因素兩水平或多水平效應的實驗設計的方法,它是采用完全隨機分組的方法將同質的受試對象分配到各處理組,觀察其實驗效應。配對設計paired design:是將受試對象按一定條件配成對子,再將每對中的兩個受試對象隨機分配到不同的處理組。據以配

31、對的因素應為可能影響實驗結果的主要混雜因素。配對設計主要有以下情形:將兩個條件相同或相近的受試對象配成對子,通過隨機化,使對子內個體分別接受兩種不同的處理;同一受試對象的兩個局部配成對子,分別速記地接受兩種不同的處理;自身前后配對,即同一受試對象,接受某種處理之前和接受該處理后視為配對。交叉設計cross-over design:是一種特殊的自身對照設計,它按事先設計好的實驗次序,在各個時期對受試對象先后實施各種處理,以比擬處理組間的差異。根本前提:個處理方式不能相互影響,即受試對象在接受第二種處理時,不能有前一種處理的剩余效應。優點:節約樣本含量;能夠控制個體差異和時間對處理因素的影響,故效

32、率較高;在臨床試驗中,每個受試對象均接受了各種處理,均等的考慮了每個患者的利益。進行交叉設計應注意:盡可能采用盲法,以提高受試對象的依從性,防止偏倚;不宜用于具有自愈傾向或病程較短的疾病研究。在慢性病觀察過程中,應盡量保持條件的可比性。隨機區組設計:又稱單位設計、配伍組設計,實際上是配對設計的擴展。通常是將受試對象按性質相同或相近分為b個區組或稱單位組、配伍組,再將每個區組中的k個受試對象隨機分配到k個處理組。設計應遵循“區組間差異越大越好,區組內差異越小越好的原那么。析因設計factorial design:a是將兩個或多個處理因素的個水平進行組合,對各種可能的組合都進行實驗,從而探討個處理

33、因素的主效應以及個處理因素間的交互效應,又稱完全交叉分組實驗設計。所謂交互作用是指兩個或多個處理因素間的效應互不獨立,當某一因素取不同水平時,另一個或多個因素的效應相應的發生變化。兩因素間的交互作用為一階交互作用,三因素間交互作用為二階交互作用。b當觀察k個處理因素,每個因素均有m個水平時,共有mk種組合,簡記為mk析因設計。c可獲得三方面的信息:各因素不同水平的效應;各因素間的交互作用;通過比擬尋求最正確組合。5樣本含量的估算:確定樣本含量的原那么:在保證研究結論有一定可靠性的前提下,估算最少需要多少受試對象。假設檢驗所需樣本含量取決于四個要素: 第一類錯誤概率的大小:越小,所需樣本量越大;

34、第二類錯誤概率或檢驗成效1-的大小:第二類錯誤的概率越小,檢驗成效越大,所需樣本含量越多;容許誤差:即兩總體參數的的差值,越大,所需樣本含量越小;總體標準差和總體概率:越大,所需樣本含量越多;總體概率越接近50,變異性越大,所需樣本含量越多。方差分析1根本思想:把全部觀察值間的變異按設計和需要分解成兩個或多個組成局部,然后將各局部的變異與隨機誤差進行比擬,以判斷各局部的變異是否具有統計學意義。2應用條件:各樣本是相互獨立的隨機樣本;各樣本來自正態總體;各處理組總體方差相等,即方差齊性。3任何設計方案的SS總和v總算法均相同,即在不考慮數據按任何方向分組的情況下,將所有數據看成一個整體計算,即S

35、S=N-1S2,v =N-1。幾種設計方案中SS和v的分解:設計方案 SS的分解 v 完全隨機設計 SS=SS組間+SS組內 v=v組間+v組內隨機區組設計 SS=SS處理+SS區組+SS誤差 v=v處理+v區組+v誤差析因設計 SS= SS處理+ SS誤差 v=v處理+ v誤差 =SSA+SSB+SSAB+SS誤差 =vA+vB+vAB+ v誤差重復測量設計兩因素 SS=SS受試對象間+SS受試對象內 v= v受試對象間+v受試對象內 =SS處理+SS個體間誤差+ =(v處理+v個體間誤差+SS時間+SS處理與時間交互+SS個體內誤差 v時間+v處理與時間交互+v個體內誤差4重復測量資料和隨

36、機區組設計資料的區別:同一受試對象在不同時間點的數據高度相關;重復測量資料中的處理因素在受試對象看成區組間為隨機分配,但受試對象看成區組內的各時間點是固定的,不能隨機分配。隨機區組設計資料中每個區組內的受試對象彼此獨立,處理只在區組內隨機分配,同一區組內的受試對象接受的處理各不相同。5重復測量資料方差分析的前提條件:各樣本是相互獨立的隨機樣本;各樣本來自正態總體;各處理組總體方差相等,即方差齊性;需滿足協方差陣的球形性或復合對稱性。6多各樣本均數的兩兩比擬方法:未方案的每兩個均數的事后比擬,常用SNK-q檢驗;方案好的某些均數間的兩兩比擬,常用Dunnett-t檢驗;Bonferroni法和s

37、idak法適用于所有的兩兩比擬。方差分析后不能作兩兩比擬的t檢驗的原因:會增加犯一類錯誤的概率。如果比擬次數為k,每次檢驗水準為,那么犯一類錯誤的累積概率為1-1-k,高于原有的。7數據變換的目的:使各組到達方差齊性;使資料轉換為正態分布,以滿足方差分析和t檢驗的應用條件。通常情況下,一種適當的函數轉換可使上述兩個目的同時到達。曲線直線化。常用于曲線擬合。常用的數據變換有對數變換、平方根變換、平方根反正弦變換。8方差分析中的F檢驗是單側檢驗的原因:方差分析中檢驗統計量F的計算通常是用某局部的均方如處理因素、交互效應等除以誤差的均方,其中分母誤差局部盡含隨機因素作用,分子某局部的均方含有相應處理

38、因素或交互作用的效應,而且還含有隨機因素的作用,因此得F值從理論上應1,不會小于1,所以方差分析中F檢驗是單側檢驗。檢驗1 檢驗用途:常用于分類變量資料的統計推斷,主要用途包括:單樣本分布的擬合優度;比擬兩個或多個獨立樣本頻率分布;比擬配對設計兩樣本頻率和兩頻率分布;推斷兩個變量或特征之間有無關聯性。2 檢驗的理論根底是X2分布和擬合優度檢驗。分布是一種連續型隨機變量的概率分布,按分布的密度函數可給出自由度=1,2,3,的一簇分布曲線。 分布形狀完全依賴于自由度v的大小,當v>1時,隨著v的增加,曲線逐漸趨于對稱;當自由度v趨于時,分布逼近正態分布。擬合優度檢驗是根據樣本的頻率分布檢驗其

39、總體分布是否等于給定的理論分布。3 X2檢驗的根本思想是:用統計量度量實際頻數和理論頻數之間的偏離程度,永遠是正值,檢驗統計量的根本公式是:=,v=k-1-s,s是用樣本估計量代替總體參數的個數。假設假設成立,那么各格子的實際頻數與理論頻數相差不應該很大,因而算出的X2值也不會很大,即出現較大值的概率P很小。假設P,那么認為A與T的差異已超出了抽樣誤差允許的范圍,拒絕H0。假設P>,不拒絕H0。4獨立樣本2×2列聯表資料的檢驗:H0:兩總體率相等;H1:兩總體率不等。 n40且Tmin5, =,=,v=1; n40且1T5,校正公式:=,=,v=1; n40或T1,或P時,Fi

40、sher精確概率法。5獨立樣本R×C列聯表資料的檢驗:多個獨立樣本率、獨立樣本頻率分布的比擬H0:多個總體率相等;H1:多個總體率不等。=n,v=R-1C-1要求:理論頻數不宜太小,一般不宜有1/5以上的格子的理論頻數小于5,或不宜有一個理論頻數小于1,否那么可能會產生偏性。如果不滿足此要求,處理方法有:增加樣本含量首選;結合專業知識考慮是否可以將該格所在行或列與別的行和列合并,要根據樣本特性來確定,但會損失信息;改用R×C表Fisher精確概率法,可以用計算機軟件實現。R×C列聯表的分割:多個實驗組間的兩兩比擬:分析目的為k個實驗組間,任兩個率均進行比擬時,須進

41、行次獨立的四格表檢驗,再加上總的行×列表資料的檢驗,共次檢驗假設。故檢驗水準用下式估計:=,=,為樣本率的個數。實驗組與同一個對照組的比擬:分析目的為各實驗組與同一個對照組的比擬,而各實驗組間不須比擬。其檢驗水準 用下式估計:=。6配對設計資料的X2檢驗:配對2×2列聯表資料的X2檢驗兩種處理方法陽性率的比擬:H0:兩總體陽性率相等;H1:兩總體陽性率不等。 當b+c40時,=,v=1;當b+c<40時,校正公式=,v=1。配對R×R列聯表資料的檢驗:H0:兩變量的概率分布相同;H1:兩變量的概率分布不相同。T=,v=k-1。基于秩次的非參數檢驗1假設檢驗的

42、方法有:參數檢驗和非參數檢驗。參數檢驗:是以特定的總體分布為前提,對未知的總體參數做推斷的假設檢驗方法統稱為,如t檢驗和方差分析。非參數檢驗:不以特定的總體分布為前提,也不針對決定總體分布的幾個參數做推斷,進行的是分布之間的檢驗。一般不直接用樣本觀察值做分析,統計量的計算基于原數據在整個樣本中按大小所占位次。由于丟棄了觀察值的具體數據,只保存了大小次序的信息,凡適合參數檢驗的資料,應首選參數檢驗。2非參數檢驗適用于:有序變量資料;總體分布類型不明的資料;分布不對稱且無法轉化為正態分布資料;比照組間方差不齊,有無適當變換方法到達方差齊性的資料;一端或兩端觀察值不確切的資料;等級資料。3wilco

43、xon符號秩和檢驗:目的:可用于推斷總體中位數是否等于某個指定值,還可以推斷配對樣本差值的總體中位數是否為0。單樣本資料的符號秩檢驗常用于不滿足t檢驗條件的單樣本定量變量資料的比擬。配對設計資料的符號秩和檢驗:由檢驗配對樣本的差值是否來自中位數為0的總體,來推斷兩個總體中位數是否相等,即兩種處理效應是否相同。wilcoxon配對符號秩和檢驗根本思想:在配對樣本中,假定兩種處理效果相同,那么差值的總體分布為對稱分布,并且差值的總體中位數為0。假設假設成立,樣本差值的正秩和與負秩和應相差不大,均接近n(n+1)/4;當正負秩和相差懸殊,超出抽樣誤差可解釋的范圍時,那么有理由疑心該假設,從而拒絕H0

44、。方法要點:按差值絕對值從小到大編秩,差值為正的秩和以T+表示,為負的秩和以T-表示,任取T+或T-作為檢驗統計量T,查T界值表確定P值;正態近似法:隨著n的增大,T分布逼近均數為nn+1/4,方差為nn+12n+1/24的正態分布。當n>50,用Z檢驗。考前須知:編秩時遇差值為0舍去,n隨之減小;遇有差值的絕對值相等,符號相同,仍按順序編秩;符號不同,取其平均秩次;T+T-=nn+1/24wilcoxon秩和檢驗:目的是推斷連續型變量資料或有序變量資料的兩個獨立樣本代表的兩個總體分布是否有差異。方法要點:將兩組數據由小到大同一編秩,以樣本列數小者為n1,其秩和為T,查T界值表確定P值;

45、正態近似法:當n1>10或n2- n1>10時,T分布接近均數為n1N+1/2,方差為n1 n2N+1/2的正態分布,可用Z檢驗。考前須知:編秩中假設有相同的數據在同一組那么依次編秩;假設相同數值在不同組內,求平均秩次;當相持出現較多時超過25,需使用校正公式。根本思想:假設含量為n1與n2的兩個樣本且n1n2,來自同一總體或分布相同的兩個總體,那么n1樣本的秩和T1與其理論秩和n1N+1/2相差不大,即T- n1N+1/2僅為抽樣誤差所致。當二者相差懸殊,超出抽樣誤差可解釋的范圍時,那么有理由疑心該假設,從而拒絕H0。5Kruskal-Wallis H檢驗:目的:用于推斷定量變量

46、或有序分類變量的多個總體分布有無差異。方法要點:先將k組數據由小到大同一編秩,求出各組秩和Ri,計算檢驗統計量H;當組數k=3,且各組例數ni5時,查H界值表確定P值;假設k3或最小樣本例數大于5,那么H統計量近似服從v=k-1的分布。考前須知:編秩中假設有相同的數據在同一組那么依次編秩;假設相同數值在不同組內,求平均秩次;當相持出現較多時超過25,需使用校正公式;當結論為拒絕H0,認為多組處理效應不全相同時,常需進一步作多個樣本的兩兩比擬的秩和檢驗。兩變量關聯性分析1相關系數的意義及計算:相關系數=。總體相關系數,假設0,稱X和Y線性相關;假設=0,那么簡稱X和Y不相關。樣本協方差是離均差乘

47、積在樣本中的平均,離均差在總體中的平均就是總體協方差。樣本相關系數,是兩個隨機變量之間線性相關強度和方向的統計量,沒有單位,取值范圍為-1<r<1。r的正負值表示兩變量間線性相關的方向,r>0為正相關,r<0為負相關,r=0為零相關。r的絕對值大小表示兩變量之間線性相關的密切程度,越接近于1,密切程度越高,越接近于0,密切程度越低。2相關系數的統計推斷:建立建設:H0:=0;H1:0,并假定X和Y服從二元正態分布。方法:直接查相關系數臨界值表,根據自由度v=n-2,差臨界值表,比擬與臨界值,統計量越大,概率P越小;統計量越小,概率P越大。t檢驗:統計量為t=,Sr為樣本相關系數r的標準誤,S=,H0成立時,t服從自由度為v=n-2的t分布。以上兩種方法的決策規那么相同:假設P>0.05,不拒絕零假設,即認為兩個變量間無相關性;假設P<0.05,拒絕零假設,接受備擇假設,即認為兩變量間相關性有統計學意義。3相關分析應注意的問題:進行相關分析前,應先繪制散點圖。只有散點有線性趨勢時,才能進行直線相關分析。線性相關分析要求兩個變量都是隨機變量,而且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論