




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學的基本步驟和基本概念橫斷面研究病例對照研究隊列研究動物實驗臨床試驗社區干預試驗1、統計學的基本步驟:①研究設計;②收集資料;③整理資料;④分析資料;⑤對分析結果的正確解釋和表達。橫斷面研究病例對照研究隊列研究動物實驗臨床試驗社區干預試驗1觀察性研究一J統計設計一-實驗性研究―「統計描述:運用統計學指標對數據特征及其分布規律進行客觀描述和表達統計分析T統計推斷:在一定的可信程度或概率保證下,根據樣本信息推斷總體特征L集中趨勢:L集中趨勢:L統計描述L離散程度:定量資料1「參數估計:L統計推斷TL假設檢驗:方差、標準差、極差、四分位間距、變異系數均數的標準誤、總體均數的置信區間t檢驗、管檢驗、方差分析、秩和檢驗統計描述:率、構成比、相對比定性資料T一統計推斷:X2檢驗、秩和檢驗、二項分布、Poission分布2、總體和樣本:總體:是根據研究目的所確定的所有同質觀察單位某種觀察值(變量值)的集合。樣本:從研究總體中抽取的一部分滿足代表性的個體觀察值所組成的集合稱為樣本,樣本包含的觀察單位數稱為樣本含量或樣本大小。3、參數和統計量:參數:描述總體分布特征的指標,總體均數U、總體標準差。、總體率n統計量:根據樣本算得的某些數值特征,樣本均數X、樣本標準差S、樣本率p4、變量和資料變量:是觀察單位的某種特征或屬性,變量的觀測值就是所謂的變量值。5、隨機誤差和系統誤差誤差:泛指實測值與真實值之差,一般可分為隨機誤差和非隨機誤差。隨機誤差:即抽樣誤差,由于隨機抽樣造成的實測值與真實值之差。是不可避免的,但一般服從正態分布,可以通過統計學方法進行分析。系統誤差:最常見的非隨機誤差,指實測值系統偏離真實值、具有方向性的誤差。6、概率、頻率和小概率事件頻率:若用隨機事件A發生表示觀察到某個可能的結果,在n次隨機試驗中,隨機事件A發生了m次,則稱A發生的比例f=m/n為頻率,醫學上所說的患病率、病死率等都是頻率。概率:描述事件發生可能性大小的一個度量。小概率事件:當某事件發生的概率小于或等于0.05時,統計學習慣上稱該事件為小概率事件。7、同質性和個體變異同質性:通常指研究對象在一定范疇內的各種可能影響主要觀察指標的其他因素處于相同或非常相似的情況。個體變異:同質個體中同一觀察指標的個體觀察值之間的差異稱為該觀察指標的個體變異。調查研究設計1、調查研究及其特點調查研究:又稱觀察性研究,指研究者在研究中沒有施加任何干預措施,僅客觀地觀察和記錄研究對象的現狀及其相關特征的研究。特點:①研究過程中沒有人為施加的干預措施,研究事物或現象及其相關特征(包括研究因素和非研究因素)是客觀存在的;②不能將研究因素隨機地分配到研究對象中,也不能用隨機化分組來平衡非研究因素對調查結果的影響。2、調查研究設計的基本內容:①明確調查目的和指標;②確定調查對象和觀察單位;③確定調查方法;④確定調查方式;⑤確定調查項目和調查表;⑥制定資料整理分析計劃;⑦制定調查的組織計劃。3、調查設計的常用抽樣方法及其優缺點普查:即調查目標總體中全部觀察對象。優:理論上沒有抽樣誤差,可以直接得到總體參數。缺:成本較高。抽樣調查:即從總體中抽取一定數量的觀察單位組成樣本,對樣本進行調查。分為概率抽樣和非概率抽樣。優:節省調查成本,有助于獲得較為深入、細致和準確的資料。缺:樣本推斷總體時存在抽樣誤差。概率抽樣:是指總體中觀察單位被抽中的概率是已知的或可以計算的。優:總體代表性較好,可以計算抽樣誤差,可以對總體進行統計推斷。缺點或前提:目標總體和抽樣框架明確。非概率抽樣:是指總計中每個觀察單位被抽中的概率是已知或不能計算的。抽樣方法定義優點缺點概率抽樣單純隨機抽樣按等概率原則直接從含有N個觀察單位的總體中抽取n個觀察單位組成樣本均數(或率)及標準誤的計算簡單當總體觀察單位較多時,要對觀察單位一一編號,比較麻煩系統抽樣先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機抽取第k號觀察單位,依次用相等間距,從每一部分各抽取一個觀察單位組成樣本①易于理解,簡單易行;②容易得到一個按比例分配的樣本;③樣本的觀察單位在總體中分布均勻,其抽樣誤差一般小于單純隨機誤差。①當總體中觀察單位按順序有周期趨勢或單調增(或減)趨勢時,將產生明顯的偏性;②實際中按單純隨機抽樣方法估計誤差會一般偏大。分層抽樣按對主要研究指標影響較大的某種特征,將總體分為若干類別,再從每一層內隨機抽取一定數量的觀察單位組成樣本①減少抽樣誤差;②便于不同的層采用不同的抽樣方法,有利于調查組織工作的實施;③還可對不同層進行獨立分析。要求層內差異較小整群抽樣將總體按照某種與主要研究指標無關的特征劃分為K個“群”,每個群包含若干觀察單位,再隨機抽取k個“群”,由抽取的各個群的全部觀察單位組成樣本便于組織,節省經費,容易控制調查質量當樣本含量一定時,其抽樣誤差一般大于單純隨機誤差(因為樣本觀察單位未能廣泛地散布在總體中)非概率抽樣偶遇抽樣研究者根據現實情況,抽取偶然遇到的人或選擇那些距離最近的、最容易找到的人作為調查對象簡單易行結果對總體代表性差立意抽樣調查者根據研究目的分析判斷來選擇調查對象對研究者要求較高
定額抽樣研究者首先依據那些可能影響研究指標的各種因素對總體進行分層,并確定各層樣本占總體比例,再在各層中抽取樣本樣本代表性存在一定問題,選擇性偏倚較大雪球抽樣當無法了解總體情況時,可以從總體中少數成員入手,對他們進行調查,并請他們介紹所認識的其他符合條件的人,再去找那些人進行調查,如此重復,直到達到所需的樣本含量常用于缺少抽樣框架、目標總體不明、采用其他方法難以找到調查對象的情形4、調查問題安排順序總原則:①符合邏輯;②一般問題在前,特殊問題在后;③易答題在前,難答題在后;④如果采用封閉式和開放式相結合的問題,一般先設置封閉式問題;⑤敏感問題一般放在最后。5、信度和效度效度:又稱真實性或準確性,用以反映測量結果與“真實值”的接近程度。定量觀察:通常用兩者的相關系數「來描述標準效度。定性或半定量觀察:Kappa系數描述兩個測量手段或結果的一致性。信度:又稱可靠信、重復性、穩定性或精密度,用以反映相同條件下重復測定結果的一致程度。重復測量法:組內相關系數ICC評價信度高低。ICC=/,廠MLMS為組間(研究對象間)均方,MS為組內(誤差)均方,n為重復測量次數。一般MS-(n-1)MS A eA e認為ICCN0.75,說明測量結果的可重復性較好。實驗研究設計1、實驗設計的3個基本原則和3個基本元素:對照、隨機化、重復,受試對象、處理因素、實驗效應。2、對照形式主要有:空白對照、安慰劑對照、標準對照、實驗對照、自身對照、相互對照。3、常用的實驗設計類型及其優缺點:類型設計優點缺點完全隨機設計單因素兩水平或多水平效應設計簡單,易于實施,出現缺失數據時仍可進行統計分析小樣本時,均衡性可能較差,與隨機區組設計相比,一般效率較低配對設計受試對象按配對因素相同或相近配成對子可增強處理組間的均衡性,效率較高配對條件不易嚴格控制隨機區組設計受試對象按性質相同或相近分為b個區組,每個區組中的k個受試對象分配到k個處理組處理組之間的均衡性較好;更容易揭示處理之間的差別,效率較高非處理因素(配伍條件)不易控制交叉設計按事先設計好的實驗次序,在各個時期對受試對象先后實施各種處理①節約樣本含量;②能夠控制個體差異和時間差異對處理因素的影響,故效率較高;③在臨床試驗中,均等地考慮了每個患者的利益。①每個處理的持續時間不能太長;②當受試對象的狀態發生根本變化時,例死亡等,后一階段的處理將無法進行;③受試對象一旦在某一階段退出試驗,就會造成該階段及其以后的數據缺失析因設計兩個或多個處理因素的各水平進行組合,對所有可能的組合中安排多個實驗對象進行實驗可以均衡地對各因素的不同水平進行全面組合,以最小的實驗次數探討各因素不同水平的效應,同時可獲得各因素間的交互作用,通過比較還能需求最佳組合工作量較大,析因設計的處理數等于各因素水平數的乘積,其統計分析不但計算復雜,而且給眾多交互作用的解釋帶來困難定量資料的統計描述1、頻數表和頻數圖的制作及用途:頻數表的制作:(1)求全距R,R二最大值-最小值;(2)劃組段:①定組數,以8-15組為宜;②定組距:組距二R/組數,可適當取整;③定上下限:起點為下限,終點為上限,組囹下閉,上開),一般寫下限,最后上下全。(3)統計頻數和頻率制作頻數表。頻數表和頻數的用途:①揭示頻數的分布特征:集中趨勢和離散趨勢;②揭示頻數的分布類型:對稱分布和偏態分布,集中偏小為正偏,集中偏大為負偏;③可以發現某些特大或特小的可疑值,提示檢查核對。
2、頻數分布特征的描述指標及其適用條件:*對于經對數變換后呈正態分布或近似正態分布的資料,應將原始觀察值取對數值后計算幾何標準差。分布特征指標計算公式適用條件集中趨勢平均數X£x①原始資料:X=F =- 2 nn nZfX-fX+fX+■--fX ii②頻數表資料:X=,11,22一昔f=——于1+于2ifk Zfi單峰對稱分布資料,特別是正態分布或近似正態分布幾何均數G①原始資料:G=nX1x2x3…x1 1 1 ZlgX或G=lg-1(lgX1+gX2+…gX”)=lg_1( L)n n②頻數表資料:ZflgXflgX+flgX+ flgX 1 1G=lg-1('161,2:2 Jk&k)=lg-1(^-——)于1+于2+…f Zfi①正偏態分布資料,經過對數變換呈正態分布或近似正態分布;②觀察值間呈倍數關系或近似倍數關系;③變量值中不能有0和負數,可適當加上一個正數;中位數M①原始資料:M—X^,當「為奇數時;2M=(X+X)/2,當n為偶數時n n+12 2②頻數表資料:M=L+3(nx50%-Zf)Mf LMLM為中位數所在組段的下限;i為組距;fM為中位數所在組段的頻數;ZfL為中位數所在組段前一組的累計頻數。不對稱分布的資料,兩端無確切值或分布不明確的資料離散趨勢極差RR二最大值-最小值單峰對稱分布小樣本資料四分位間距Q-QU LQ-Q=P-PP=L+—(nx%-Zf)U L75 25xxf LxLx為第x百分位數所在組段下限,i為第x百分位數所在組段的組距,fx為第x百分位數所在組段的頻數,ZfL為第x百分位數所在組段前一組的累計頻數偏態分布資料、兩端無確切值或分布不明確資料方差S2V _ v (Zx"乙(X-X)2乙X2-*1'i i n①原女□資料:S2—I ■ —I -n-1 n一1丁 (ZfX)2ZfX2 ? n②頻數表資料:S2— n-1單峰對稱分布資料標準差S變異系數CVSCV—之x100%X比較計量單位不同或均數相差懸殊的幾組資料的離散程度3、正態分布及其應用:概率密度曲線和正態分布曲線:對于變量的頻數分布滿足中間多,兩邊少,且左右對稱的資料,以觀察變量(組距)為橫軸,頻率密度(頻率密度二頻率/組距)為縱軸,即可得到頻率密度直方圖,當觀察單位逐漸增加,組段一8,頻率分布圖中的直條逐漸變窄,就會逐漸形成一條高峰位于中央(均數所在處)、兩側逐漸降低且左右對稱、不與橫軸相交的光滑曲線,即概率密度曲線,近似于數學上的正態分布曲線。若變量X的頻率曲線逼近數學上的正態分布曲線,則稱該變量服從正態分布。正態分布曲線的密度函數為:1 (一一||)2f(x)=-^e-2a2-8<x<+8(日為總體均數,o為總體標準差,n為圓周率,e為自然對數的底)八;2兀特點:①正態曲線在橫軸上方均數處最高;②正態分布以均數為中心,左右對稱;③正態分布有兩個參數,即均數N與標準差o,N決定位置,o決定“胖瘦”③正態曲線在±1o處各有一個拐點;④正態曲線下的面積分布有一定的規律:X土1.645S-90%,X土1.96S-95%,X土2.58S-99%。令若X服從正態分布N(日,o2),經Z=X二艮變換后,則Z就服從均數為0,標準差為1的xo1 」正態分布N(0,1),稱為標準正態分布或Z分布,其密度函數為:奴z)=^=e2,-oo<z<+oo。兀?正態分布的應用:(1)估計總體變量值的頻率分布D:①(zx)可通過查附表2(Z分布界值表)獲得。D=①(z)-①(z)Z=上E(可用樣本均數X和樣本標準差S作為總體均數目和總體標準差o的估計值)1 2 o(2)制定醫學參考值范圍:醫學參考值范圍指包括絕大多數正常人的人體形態、功能和代謝產物等各種生理及生化指標觀察值的波動范圍。制定步驟及注意事項:①確定觀察對象和抽取足夠的觀察單位;②測定方法統一、準確;③決定是否分組制定參考值范圍;④確定取雙側或單側參考值范圍;⑤選定適當的百分界限;⑥選擇制定醫學參考值范圍的方法:部分指標服從對數正態分布,對觀察值取對數后計算其對數值的均數和標準差,按正態分布法算出醫學參考值范圍的對數值,然后取反對數求其真數。百分界限(%)正態分布法百分位數法雙側單側雙側單側只有下下艮只有上限只有下限只有上限95X±1.96S叉-1.64S叉+1.64SP?P 2.5 92.5—P 5 P 95 99X±2.58SN-2.32SN+2.32SP?P 0^ 99^—P 1 P 99
總體均數的估計1、1、??抽樣誤差:這種由個體變異產生的、隨機抽樣引起的樣本統計量與總體參數間的差異稱為抽樣誤差。均數的標準誤:由于隨機抽樣所造成的樣本均數與總體均數的差別,即為樣本均數的抽樣誤差。樣本均數的標準差稱為均數的標準誤(SEM),用符號外表示,它說明各樣本均數又圍繞總體均數u的離散程度,可用來描O述樣本均數的抽樣誤差大小。°X=茴在抽樣研究中,總體標準差。常常未知,常用樣本標準差s作為。的估計值,因而得到均數標準誤的估計值為,-……cS其計算公式為:S-=「=xme根據數理統計的中心極限定理:從均數為u,標準差為。的正態總體中進行獨立隨機抽樣,其樣本均數服從均數為u,標準差為。/后的正態分布;即使是從非正態總體(均數為小標準差為Q中進行獨立隨機抽樣,當樣本含量逐漸增大(nN50)時,其樣本均數的分布逐漸逼近與均數為u,標準差為。/石的正態分布。e標準差與均數的標準誤的區別于聯系:標準差均數的標準誤區別統計符號總體標準差用。表示,樣本標準差用S表示均數的標準誤用與表示,其估計值用L表示計算公式s=jE(x-.)2n—1=木統計學意義標準差越小,個體值分布相對越集中,樣本均數對數據的代表性越好標準誤越小,樣本均數的分布越集中,樣本均數與總體均數的差別越小,抽樣誤差越小,的本均數估計總體均數的可靠性越大用途描述個體值的變異程度描述均數的抽樣誤差大小聯系S-X=92、t分布產生、特征?t分布的產生:從正態總體中隨機抽取的樣本的均數又服從總體均數為u、總體標準差為2的正態分布。經過Z變換,正態分布N(u,哆)轉化為標準正態分布N(0,1),即Z分布。由于實際研究工作中,為未知常見,一一S .、一..X-U只能以為代替支,而S-=r中S會因為樣本不同而不盡相同,即S9有變異,故一^不再服從標準正態分XXX7n x S-x布,而服從t分布,即:Z=——止-Z=——止—t=..=X_匕#=n-1° °X Sq S/<'n?t分布特征:①t分布是一簇單峰分布曲線。②t分布以t=0為中心,左右對稱且均勻下降。③其形態變化與自由度v的大小有關。自由度丫越小,則t值越分散,曲線越低平;自由度/逐漸增大時,t分布逐漸逼近標準正態分布;當v=8時,t分布即為標準正態分布。3、總體均數的估計:點估計用樣本統計量直接作為總體參數的估計值。區間估計是給出被估計參數的可能范圍。e區間估計:是指按照一定的概率(1-a),估計總體參數所在的范圍,這個范圍稱為參數的置信區間,概率(1-a)稱為置信度。?總體均數置信區間的估計:總體均數口的雙側(1-a)置信區間的計算公式為:P(-1 <t<t)—1-a—pP(-1 < 上<t)—1-a—>X-1s-<曰<X+1s-a/2,v a/2,v a/2,vS/n a/2,v a/2,vX a/2,vX其余計算同下表。?兩總體均數差值的置信區間:假設兩正態總體分布服從正態分布NQ1,4)和NQ2,吟),當呼,吟均已知,但嚀一時,兩總體均數之差%”的雙側(2置信區間為:(*「*J土%.Sq,一x2其中t值的自由度丫=(『1)+(4-1)=%+4-2,Sy均稱為兩均數之差的標準誤。s J心(n-1)S2+(n-1)S2S=:S2(1)S2=1123-x1-x2\cnnc (n+n-2)1 1 1 2S2S當n,n均較大時,差值的可信區間為:(X一X)±zL+H2 1 2 a/2,v丫nn?置信區間的含義:總體均數的95%置信區間的含義是從正態總體中重復100此抽樣,每次樣本含量為n,每個樣本均按攵±t-,Sy計算95%置信區間,則在這100個置信區間中,理論上有95個置信區間包含了總體均U.U5/2,VX數(估計正確),而有5個置信區間未包含總體均數(估計錯誤),即犯錯誤的概率是0.05o?總體均數置信區間與醫學參考值范圍的區別:區別總體均數置信區間醫學參考值范圍意義按一定的置信度(1-a)估計總體均數所在范圍絕大多數“正常人”的某項解剖、生理、生物化學指標的波動范圍計算公式①。未知:(X-%/2/Sn,X+%/2/9②。未知而n較大時:(另一Z/S一N+Z,S.)' a/2,uX a/2,uX③。已知:(文-Z.展,N+Z,j)? a/2,uX a/2,uX①正態分布雙側,(文-Z”S,N+Za/2,a單側,々-Za/2,F+8)或(-8,N+Za/2,“S)②偏態分布雙側,號?P100T單側,(1,+8)或(-8,P100T)用途估計總體均數所在的范圍判斷觀察對象的某項指標正常與否,為臨床診斷提供參考假設檢驗1、假設檢驗的基本思想:在總體參數相等這一假設成立的前提下,計算出現等于及大于(或等于及小于)現有樣本統計量的可能性(P值)。在零假設H0成立的前提下利用小概率反證法的邏輯思維方式,先計算比現有樣本檢驗統計量以及更極端情況的可能性(P值),然后根據檢驗水準進行判斷。如果P值很小,小于或等于事先規定的檢驗水準a,如0.05,結論就是拒絕零假設H0,接受Hj認為總體參數間不同;如果P值大于a,不拒絕H。,尚不能認為總體參數之間不同。2、假設檢驗的基本過程:①建立檢驗假設,確定檢驗水準a:零假設H0和備擇假設可,檢驗水準注明單側或雙側。②計算檢驗統計量:注明自由度V。③確定P值,做出統計推斷。3、I型錯誤和n型錯誤:當拒絕h0時,認為在零假設成立的情況下,出現現在這種樣本均數以及更極端情況的概率很下(P<0.001),但是,并不是說不可能發生。如果真實的情況是H0成立,這時結論就錯了。因此,當我們進行假設檢驗時,無論是拒絕零假設H0,還是不拒絕零假設H0,都有可能犯錯誤。I型錯誤:統計學上將這種拒絕了實際上正確的零假設H0(棄真)的錯誤稱為I型錯誤,a稱為犯I型錯誤的概率。11型錯誤:統計學上將這種不拒絕實際上不成立的零假設h0(存偽)所犯的錯誤稱為n型錯誤,b稱為犯n型錯誤的概率。真實情況假設檢驗的結論拒絕H0不拒絕H0H0正確I型錯誤(a)推斷正確(1-a)乩不正確推斷正確(1-B)n型錯誤(0)e當樣本量固定時,a越小,B越大,反之,a越大,B越小。要同時減少a和B,只有通過增加樣本含量來實現。?檢驗效能:如果兩個總體參數間確實存在差異,即H1:uWu0成立,使用假設檢驗方法能夠發現這種差異(即拒絕H0)的能力稱為檢驗效能,記為(1-B)。一般要求檢驗效能應在0.8以上。4、假設檢驗需要注意的問題:(1)數據應該來自科學嚴密設計的實驗或調查;(2)數據應該滿足假設檢驗方法的前提條件:①獨立性,即各觀察值間相互獨立;②正態性,即該樣本來自服從正態分布的總體。(3)正確理解假設檢驗中概率P值的含義,P值是指在H0成立的前提下,出現現有樣本統計量以及更極端情況的概率。P值越小,說
明當前樣本的證據越傾向于拒絕H0,當P值小于或等于事先規定的檢驗水準a時,就拒絕H0。P值的大小不僅與總體參數間的差別有關,而且與抽樣誤差大小等有關,但P值大小不能得出總體參數間差別大小的結論。(4)結論不能絕對化:報告假設檢驗結果時要給出檢驗水準、單雙側檢驗、樣本量大小等。(5)統計學意義與實際意義:有統計學意義存在有實際意義.、可能有實際意義.、無實際意義.:無統計學意義存在樣本過小和可接受零假設。t檢驗1、t檢驗的應用條件:①要求兩樣本均來自正態分布總體;②兩樣本總體方差相等。?配對設計資料:①配對的兩個受試對象分別接受兩種不同處理之后的數據,如把同年齡、同種屬、同窩別的動物配成一對;②同一樣品用兩種方法(或儀器)檢驗出的結果;③同一受試對象處理前后的測定數據。用途公式單樣本:N與從。單樣本:N與從。比較t= 0-= =0-,v=n—1s— s/<nd—0td—0t= S一d =,v=n—1成組:5與也比較X—Xt=i s成組:5與也比較X—Xt=i s X1-X2X,—X。;1 ,s2(+)
cnnX,-X2s2(n—1)+s2(n—1),1 1、-4——1 2——2 (—+—)成組:5與也比較+n2ni(ni、n2均大于5°)在進行兩小樣本均數比較時,若兩總體方差叫w嗎,可使用t'檢驗。(S工+S上)2 XXTS?二X.4X.,■1一1 ,,2一n—1n—1正態性檢驗與方差齊性檢驗:①正態性檢驗:P-P圖、Q-Q圖和統計學檢驗(W檢驗、D檢驗及矩法檢驗)當進行矩法檢驗計算偏度系數(SKEW)和峰度系數(KURT)時,雙側1=0.10,只有當上述兩個檢驗都不拒絕H0時,才有理由認為總體的分布為正態分布。②兩總體的方差齊性檢驗:雙側。=0.10,P>a,不拒絕H0時,尚不能認為兩總體方差不齊。1r S2(較大)v=n—1,v=n—1F二—t——v=n—1,v=n—1S2(較小)2方差分析方差分析的基本思想:將總變異按設計和需要分解成兩個或多個部分。用途:比較k個總體均數間差別有無統計學
意義。應用條件:①各樣本是相互獨立的隨機樣本,均服從正態分布;②各樣本的總體方差相等,即滿足方差齊性。?完全隨機設計資料的方差分析:又稱單因素方差分析。完全隨機設計是將同質的受試對象隨機地分配到各處理組,再觀察其實驗效應。%=SS組間+SS組內,v總=v組間+v組內變異來源SSvMSF總變異E(X—X)2N—1組間變異/n(X—X)2k—1ss組間/v組間MS組間/MS組內組內變異巴一SS組間N—kss組內/v組內
隨機區組設計資料的方差分析:屬于無重復數據的兩因素方差分析。隨機區組設計又稱配伍組設計,通常是將受試對象按性質相同或相近者組成b個區組(又稱配伍組),再將每個區組中的受試對象分別隨機分配到卜個處理組中。SS總=SS處理+SS區組+SS誤差,%=v處理+y區組+y誤差變異來源SSvMSF總變異£(X—X)2N—1處理組zn(X—X)2k—1ss處理/v處理MS處理/MS誤差區組£n(X—X)2jjb-1ss區組/v區組MS區組/MS誤差誤差SS總一SS處理一SS區組“總 v處理 v區組SS誤差/v誤差個多個均數兩兩之間比較:SNK法(q檢驗):比較每兩個樣本均數所代表的總體均數是否不同。Dunnett-t檢驗:用于多個處理組與對照組的比較。多個均數兩兩之間比較進行t檢驗會增大I型錯誤。交叉設計資料的方差分析:按事先設計好的實驗次序,在各個時期對受試對象先后實施各種處理。田總=非處理+SS階段+SS個體+SS誤差\「v處理+V階段+V個體+V誤差變異來源SSvMSF總變異£(X-X)22n-1處理£n處理(X處理-X)21SS處理/1MS處理/MS誤差階段£n (X -X)2階段階段1SS階段〃MS階段/MS誤差個體£n (X -X)2個體個體n—1SS個體/(n-1)MS個體/MS誤差誤差SS總-SS處理-SS階段-SS個體n—2SS誤差/(n-2)?析因設計資料的方差分析:析因設計是將兩個或多個實驗因素的各水平進行全面組合,對各組合都進行實驗,從而探討各實驗因素的單獨效應、主效應以及各因素間的交互效應。統計推斷時先判斷有無交互效應,若存在交互效應時,單純研究某個因素的作用是沒有意義的,必須在另一個因素的不同水平下研究該因素的作用大小。SS總=SS處理+SS誤差=(SS4+SSB+SSAB)+SS誤差v總=v處理+v誤差=(vA+vB+vAB)+v誤差變異來源SSvMSF總變異£(X-X)2N—1處理£n(X-X)2k-1A£n(X-X)2AA1SSA/vAMSA/MS誤差B£n(X-X)2BB1SSb/vBMSB/MS誤差ABSS處理-SSa-SSb1SSab/vBBMSAB/MS誤差誤差SS總-SS處理N-kSS誤差八誤差?重復測量資料的方差分析:重復測量資料是同一受試對象的同一觀察指標在不同時間點上進行多次測量所獲得的資料,常用來分析該觀察指標在不同時間點上的變化特點。前提條件:除需滿足一般方差分析的條件外,還需特別滿足協方差陣的球形性或復合對稱性。若球對稱性質不能滿足,方差分析的結果會增大I型錯誤的概率。球對稱性通常采用Mauchly檢驗來判斷。若PWa,從理論上講,應對受試對象內所有變異的自由度進行校正,包括時間效應、處理X時間的交互效應以及個體內誤差三者的自由度均需乘以G-G法或H-F法的“球對稱”系數0再查F界值表獲得P值。重復測量資料還可以用Mixed回歸模型分析,不要求資料滿足球形對稱性。ss總一SS受試對象間+SS受試對象內一(SS處理+SS個體間誤差)+(SS時間+SS處理x時間+SS個體內誤差)V總 V受試對象間+V受試對象內 "處理+V個體間誤差)+"時間+V處理X時間+V個體內誤差)變異來源SSvMSF總變異z(X-X)2N-1受試對象間工n(X-X)2k—1處理Zn處理(X處理-X)2g—1ss處理/y處理MS處理/MS個體間誤差個體間誤差ss對象間ss處理k-gss個體間誤差/y個體間誤差受試對象內SSjSS對象間N—k時間Zn(X -X)2時間時間P-1ss時間/'間MS時間/MS個體內誤差處理X時間n處理X時間(X處理X時間X)(g-1)(P-1)SS處理x時間處理X時間"S處理x時間/"S個體內誤差誤差ss對象內s'時間s'處理x時間N—k-g(p—1)ss個體內誤差/“個體內誤差e隨機區組設計與完全隨機設計相比,因為通過區組控制了可能的混雜因素,并將區組變異從原組內變異中分解出來,所以,當區組因素有統計學意義時,方差分析的隨機誤差部分更為準確,檢驗效能更高。e隨機區組設計和2X2析因設計雖然均為兩因素,但隨機區組設計通常為研究單因素而設計,區組因素只是一個控制因素,不能分析其交互效應;2X2析因設計為兩因素設計,可以分析兩因素間的交互作用。對析因設計資料,應先分析交互效應。若交互效應有統計學意義,須固定某一因素的水平,逐一分析其他因素的單獨效應;反之,若交互效應無統計學意義,則因素間的作用相互獨立,分析某一因素的作用只需考察該因素的主效應。定性資料的統計描述1、定性資料:在醫學研究和實踐中,有一類資料是按照事物的特征或屬性進行分類的,這類資料稱為定性資料,也稱分類資料或計數資料。定性資料的頻數分布:定性資料頻數分布表又稱列聯表,是用兩個分類變量對同一資料進行雙向分類形成的表,可用于考察兩種屬性的關系。常用相對數指標:(1)率:是指某現象實際發生數與某時間點或某時間段可能發生該現象的觀察單位數之比,用以說明該現象發生的頻率或強度。包括頻率和速率兩類指標。(2)構成比(proportion):即比例,是指事物內部某一部分組成觀察單位數與同一事物各組成部分的觀察單位總數之比,用以說明事物內部各組成部分所占比重。特點:①分子是分母的一部分,各組成部分的構成比數值之和等于1或100%。②事物內部各組成部分之間呈此消彼長關系。(3)相對比(ratio):是兩個有關聯的指標之比值,用以說明一個指標是另一個指標的幾倍或幾分之幾。可分為:①關系指標:指兩個有關的非同類事物的指標,如醫護人員與病床數之比。②對比指標:指同類事物的兩個指標之比,以達到比較的目的。如男女性別比。
應用相對數的注意事項:①計算相對數應有足夠的觀察單位數;②分析時不能以構成比代替率;③應將分子和分母分別合計求合計率;④相對數的比較應注意其可比性;⑤樣本率或樣本構成比的比較應作假設檢驗;⑥某些情況下最好使用絕對數:傳染病疫情描述和其他突發事件的描述。2、率的標準化:標準化法的基本思想就是采用統一的標準構成,以消除年齡、性別、病情輕重及病程長短等因素構成不同對病死率、死亡率、治愈率等的影響,使算得的標準化率具有可比性。直接法:已知被標化組的年齡別死亡率/,時,官用直接法計算標準化率。(1)已知標準組年齡別人口數時,£Np標準化率p'=——(標準化人口N按照被標化組的年齡別死亡率p去死)(2)已知標準組年齡別人口Nii構成比時,標準化率p'=Z(N)p(標準組年齡別人口構成比x被標化組的年齡別死亡率稱為分配死亡率)Ni間接法:當只有被標化組的年齡別人口數勺、死亡總數廠和標準組的年齡別死亡率P時,可采用間接法。, _r_ rp'=Px£^7=PxSMR(被標化組人口n按照標準組的年齡別死亡率P去死)£--是被標化組的實乙nP i i乙nPii ii際死亡數與預期死亡數之比,稱為標準化死亡比(SMR)標準組的選擇:①根據研究目的選擇有代表性的、較穩定的、數量較大的人群;②將欲比較的兩地或兩組的人口數合并作為標準組,或選擇其中一組較多的人口作為標準組。e應用標準化法的注意事項:①標準化率并不代表真實水平,選擇的標準不同,計算出的標準化率也不相同。因此標準化率僅適用于相互間的比較,實際水平應采用未標化率來反映。②樣本的標準化率是樣本指標值,亦存在抽樣誤差,若要比較其代表的總體標準化率是否不同,需作假設檢驗。③當被標準化組各年齡段人口數太少,年齡別死亡率波動較大時,宜采用間接法。④各年齡組率若出現明顯交叉,或呈非平行變化趨勢時,則不適合采用標準化法,宜分層比較各年齡組率。x2檢驗殍檢驗時在X2分布的基礎上,利用樣本信息考察樣本頻數分布與假設成立條件下的理論頻數分布之間差異的假設檢驗方法。由于X2分布本身是一種連續型隨機變量的概率分布形式,而基于頻數算的的X2值是離散的,不可能取[0,+8)的任意值,因此,Pearson^只是近似服從8分布,只有當樣本例數或理論頻數足夠大時,這種近似才較好,進行8檢驗才是有效的。1、獨立樣本率或構成比比較的X2檢驗2x2列聯表資料的X2檢驗:v=k-s—p=(R—1)(。-1)①當n>40且所有格子的T>5時,工①當n>40且所有格子的T>5時,工(A-T)一 T~(a+b)(c+d)(a+c)(b+d)②當n>40且有1<T<5時,亦可使用確切概率法_ (|ad-bc\-n『2)2n _£(|②當n>40且有1<T<5時,亦可使用確切概率法( (a+b)(c+d)(a+c)(b+d) T(a+b)!(c+d)!(a+c)!(b+d)!、③當n<40或有T<1時,應選擇Fisher確切概率法P= £P=1i a!b!c!d!n! ,四格表確切概率法的基本思想:在四格表周邊合計不變的條件下,利用超幾何分布直接計算發生樣本事件及比樣本事件更極端情形發生的概率。由于四格表的自由度為1,在周邊合計不變的條件下,只需依次增減樣本四格表第1個格子數據,即a由小變大,即可得到各種組合的四格表,按a由小到大排列,然后依次計算出各種組合的概率尸產找出概率小于或等于原四格表概率的所有四格表,將其對應的概率相加,得出雙側概率。最后,將計算出的概率與檢驗水準a比較,得出結論。?RXC列聯表資料的X2檢驗:一般要求不能有1/5以上格子的T<5,或有1個格子的T<1。X2二dzDi二n(Z土一1)T nn個RXC列聯表X2檢驗注意事項:①計算X2值時,必須用絕對數,而不能用相對數,因為X2值的大小與頻數大小有關。②X2檢驗時要求理論頻數不宜過小,否則有可能導致分析的偏性。處理方法:a.最好增大樣本含量,以達到增大理論頻數的目的;b.將理論頻數大小的行或列與性質相近的鄰行或鄰列合并,相應的實際頻數相加,使重新計算的理論頻數增大;c.刪去理論頻數太小的格子所對應的行或列;d.用確切概率法;③在比較各處理組的平均效應大小是否有差別時,應該用秩和檢驗。有序多分類變量時,X2值沒有考慮效應的等級順序,X2檢驗只能說明各處理效應的構成比是否有差異。④當多個樣本率(或構成比)比較的X2檢驗,結論拒絕H0時,只能認為各總體率(或總構成比)之間總的來說有差異,但不能說明它們彼此之間都有差異,或某兩者間有差異。多個樣本率兩兩比較的方法:a.調整檢驗水準后進行兩兩比較;b.X2分割;c.估計兩率之間的置信區間。2、配對設計樣本率比較的X2檢驗:配對2X2列聯表資料的X2檢驗:當b+c>40時,x2=(b—C)2,v=1(配對設計的X2檢驗又被稱為McNemar檢驗)b+c當b+c<40時,x2=(b:。卜1)2,v=1(Yates校正或連續性校正)b+ce注意事項:①比較兩種診斷方法的診斷效能有無差異時,要求所投入的檢品是用標準法檢出的陽性樣品,或者受檢對象是確診的病例,以便判斷兩種方法的優劣。a、d反映的是甲、乙兩種屬性一致的情況。②由于a、d兩個格子不能反映差異,因此,當a、d比較大,b、c比較小時,若得到差異有統計學意義,需結合兩樣本率差異的大小作出專業結論。③X2檢驗的分析目的在于比較兩種方法檢出陽性率的差異,而非兩種方法檢出陽性率的一致性。若要分析檢出結果是否一致,應進行一致性檢驗(Kappa檢驗)配對RXR列聯表資料的X2檢驗:^R-1(n—m)2T二乙一4—,v=R-1(A為第i行第i列的實際頻數,n和m分別為第,行合計和第,列合計)Rn+m-2A i iii=1iiii3、擬合優度的北檢驗:是根據樣本的頻數分布檢驗其總體是否服從某特定的理論分布。其原理是按照該理論分布計算理論頻數,利用8檢驗,推斷實際頻數與理論頻數的吻合程度。可用于判斷頻數分布是否符合正態分布、二項分布或Poisson分布等。X2=Z(A;TXV=k-S-1(k為組段數,S為利用樣本統計量估計的總體參數個數)iTe注意事項:①擬合優度的X2檢驗同樣要求樣本含量應足夠大,且每個組段的理論頻數均應三5。理論頻數過小時的處理方法:a.將理論頻數小于5的組段與相鄰組段合并,使窄5。b.當v=1時,可進行連續型校正,校正(A-T-0.5)2公式如下:x2=Z-i—t i=1 i②擬合優度X2檢驗中期望頻數分布服從理論分布,為了降低犯^型錯誤的概率,將斕高到0.1或0.2。4、率的線性趨勢X2檢驗:當率按某變量自然順序的等級分層,或連續性變量等級化后在分層時,可采用CochranArmitageq趨勢檢驗以分析率隨該分層因素變化的線性趨勢。N(NZtN-TZnZ)2X2T V V ,VT1T(N-T)[N乙nZ2-(ZnZ)2]N是總人數,n是各組人數,T是總陽性數,t是各組陽性數,Z是各組評分。如果是按數量分組的資料,評分的原則與分組間隔相適應;如果是按性質分組的資料,評分的原則是1,2,3,…。
秩和檢驗1、參數檢驗(parametrictest):以特定的總體分布為前提,對未知的總體參數作推斷的假設檢驗方法。非參數檢驗(nonparametrictest):不以特定的總體分布為前提,也不對總體參數作推斷,故也稱為任意分布檢驗(distribution-freetest)。由于非參數檢驗沒有利用觀察值的具體數據,而只利用了其大小次序的信息,信息利用不夠充分,故凡適合參數檢驗的資料,應首選參數檢驗。2、秩和檢驗(ranksumtest):是將原數據轉換為秩次,比較各組秩和的一類非參數檢驗方法。適用范圍:①等級資料;②總體分布類型不明的資料;③非正態分布的資料;④對比組間方差不齊的資料;⑤一端或兩端觀察值不確切的類型。Wilcoxon符號秩和檢驗(Wilcoxonsigned-ranktest):可用于配對設計計量差值的比較,還可用于單一樣本與總體中位數的比較。①配對設計的兩樣本比較:Wilcoxon配對符號秩和檢驗的基本思想:在配對樣本中,由于隨機誤差的存在,其對差值的影響不可避免。假定兩種處理的效應相同,則差值的總體分布為對稱分布,并且差值的總體中位數為0。若此假設成立,樣本差值為正的秩和與差值為負的秩和應相差不大,均接近i(n+1)/4;當正負組秩和相差懸殊,超出抽樣誤差可解釋的范圍時,則有理由懷疑該假設,從而拒絕H0。編秩過程:(1)求差值d.;(2)編秩,以差值的絕對值由小到大編秩,當差值為0,舍去不計,n隨之減少;(3)分別計算正差值的秩和T+與負差值T的秩和;(4)確定檢驗統計量T,任取T+或T作為檢驗統計量T。查表法:附表10(T界值表),若T值在上、下界值范圍內,其P值大于相應的概率;若T值恰好等于界值,其P值一般等于相應概率;若T值在上、下界值范圍外,其P值小于相應的概率,下移一行再做比較。正態近似法:隨著n的增大,T統計量的分布逐漸逼近均數為n(n+1)/4,方差為n(n+1)(2n+1)/24的正態分布,當n>50時,近似程度較滿意。T—nT—n(n+1)/4|-0.5'~Znn(n+1)(2n+1)/24T-n(n+1)4|-0.5? (當相持的情形較多時,如個體數超過n(n+1)(2n+1)工(t3一24482425%,可用校正的統計量Zc,今為第j個相同秩次的個數)②單一樣本與總體中位數比較;求差值、編秩、求秩和、計算檢驗統計量。成組設計兩樣本比較的秩和檢驗:Wilcoxon秩和檢驗(Wilcoxonranksumtest)推斷連續型定量資料或有序分類資料的兩個獨立樣本代表的總體分布位置是否有差別。基本思想:假設含量為n1和n2的兩個樣本(且n1<n2),來自同一總體或分布相同的兩個總體,則\樣本的秩和T1與其理論秩和n1(N+1)/2相差不大,即[T]-n](N+1)/2]僅為抽樣誤差所致。當兩者相差懸殊,超出抽樣誤差可解釋的范圍時,則有理由懷疑該假設,從而拒絕H0。①原始數據的兩樣本比較:原始數據為連續性定量資料,且不滿足參數檢驗條件時編秩過程:編秩過程同上,若兩樣本例數相等時,取任意組的秩和作為檢驗統計量;若兩樣本例數不相等時,取樣本含量較小組的秩和作為檢驗統計量。(1)查表法:當樣本含量較小組W10,且兩樣本含量之差W10時,查附表11(內大外小)。(2)正態近似法:當n1>10或n1-n2>10時,根據中心極限定理,這時T1的分布已接近均數為n1(N+1)/2,方差為nfn2(N+1)/12的正態分布。Z=二二,c=1-Z(13-1)/(NZ=二二,c=1-Z(13-1)/(N3-N)(當相持的情形較多時,如個體數超過25%n(N+1)/12可用校正的統計量Zc,今為第j個相同秩次的個數)②等級資料的兩樣本比較:編秩、求秩和、確定統計量,計算同上。成組設計多個樣本比較的秩和檢驗:Kruskal-WallisH秩和檢驗,同于推斷非正態分布定量變量或有序分類變量的多個總體分布位置有無差別。多個獨立樣本間的多重比較可以采用秩變換后進行方差分析及SNK法多重比較,也可以通過調整a水準(a,=a/需比較次數)直接采用兩獨立樣本的Wilcoxon秩和檢驗。隨機區組設計的秩和檢驗:可用Friedman秩和檢驗(FriedmanMtest),又稱M檢驗,為了比較平衡區組因素影響后個處理間的效應,采用了不同的編秩方法(區組內按大小編秩)。多個相關樣本的兩兩比較與多個獨立樣本間的多重比較相似。
二項分布和Poisson分布及其應用1、二項分布的定義、適用條件及性質和應用令在相同條件下每次試驗只有兩種對立結果(A或)、各次試驗相互獨立并且可重復的試驗叫作Bernoulli試驗或成敗性試驗。n次Bernoulli試驗,所感興趣的事件A發生X次的概率分布叫做二項分布。當每次Bernoulli試驗發生陽性的概率為五時,n次Bernoulli試驗中恰好發生X個陽性的概率為:P(X)=CP(X)=CX兀X(1一兀)n—X
nn!X!(n-X)!兀x(1一兀)n一X(X=0,1,2…,n)二項分布常計為X?B(n,n)適用條件:①每次試驗只會發生兩種對立的可能結果之一;②在相同試驗條件下,每次試驗產生某種結果的概率n固定不變;③重復試驗是相互獨立的。性質:(1)二項分布的均數與標準差:若X?B(n,n),則:X的總體均數:口=n兀;X的總體方差:O2=n兀(1一兀);X的總體標準差:。=\,;而(1-兀)。若以樣本率表示,則:樣本率P的總體均數為:口=1口=兀pn一I?, jr 1 兀(1一兀)樣本率P的總體方差為:02=—O2= ——人pn2 n樣本率P的總體標準差為:1 樣本率P的總體標準差為:1 :兀(1一兀)=n令樣本率的標準差也稱率的標準誤,常用來描述樣本率的抽樣誤差。當總體率五未知時,以樣本資料計算的P=X/n作為五的估計值,則'的估計值為:5作為五的估計值,則'的估計值為:5〃=p(1-p)n(2)二項分布的圖形:當n=0.5時,二項分布圖形是對稱的;當nW0.5時,圖形是偏態的,隨著n的增大,圖形趨于對稱。當n-8時,只要五不太靠近0或1,二項分布近似正態分布。應用:(一)總體率的區間估計:①直接法:對于小樣本資料3<50),直接查百分率的置信區間表(附表7)即可得到總體率的95%和99%置信區間;②正態近似法:當n較大、p和1-p均不太小,如np和n(1-p)均大于5時,可利用樣本率的口的分布近似正態分布來估計總體率的(1-。)置信區間。計算公式:p土ZSa/2p(二)單個樣本率與已知總體率的比較:①直接法:對單側檢驗,有下面兩種情況:A若是回答“差”或“低”的問題,則計算出“陽性”次數至多為k次的概率,即:£p(£p(x)=X=0工X=0n!X!(n一X)!加X(1一兀)B若是回答“優”或“高”的問題,則計算出現“陽性”次數至少為k次的概率,即:P(X>k)=£p(X)=Z——n——兀X(1一兀)n一X
x=k x=kX!(n-X)!兀W兀0,因此,對于雙側檢驗:由于要回答的是“是否有差別”,即無效假設H0:兀=兀0,備擇假設H1:
所要計算的雙側檢驗概率P值應為實際樣本出現的概率與更背離無效假設的事件出現的概率之和,即P=P(x=k)+ZP(x=i),其中i滿足P(X=i)<P(X兀W兀0,因此,>例題:一種鴨通常感染某種傳染病的概率是0.2,現將一種藥物注射到25只鴨后發現有1只鴨發生感染,試判斷這種藥物對預防感染是否有效。(1)建立假設檢驗,確定檢驗水準H°:此藥物對預防感染無效,即兀=0.2;H1:此藥物對預防感染有效,即冗<0.2; 單側a=0.05(2)計算概率:在X?B(25,0.2)成立的前提下,至多有1只感染的概率,則有:P(X<1)=P(X=0)+P(X=1)=0.825+C150.210.824=0.0274 *這表明在自然情況下,25只鴨感染只數不超過1只屬于小概率事件,很難在一次實驗中出現,現在的事實是竟然出現了;(3)作出統計推斷:根據檢驗水準,有理由拒絕藥物未起作用的假設H0,接受H1,認為藥物是有預防作用的。②正態近似法:當n較大,n不接近0,也不接近1,如nn和n(1-n)均大于5時,利用正態近似原理,可作樣本率p與已知總體率n作樣本率p與已知總體率n0的比較,檢驗統計量為:p一兀
0
儼0(1一兀0)(三)兩獨立樣本率的比較:兩獨立樣本率比較的目的在于利用樣本信息對相應兩總體率的差別進行統計推斷。設兩樣本含量分別為人和與,均較大;兩樣本率分別為p1和p2,且p1、1-p1及p2、1-p2均不太小,如np、n1(1-pJ及nR、n2(1-p2)均大于5時,采用正態近似法。檢驗統計量為:? 2z=z=4^sS p1-p2P1-P2XJX2(1_
n+nX+X-1 1、T 2)(一十)n+nnn2、弋Poisson2、弋而試驗的次數n很大的小概率事件出現規律性的一種泊松分布是描述當試驗中成功的概率式很小(如汽而試驗的次數n很大的小概率事件出現規律性的一種離散型隨機分布。用于描述在單位時間(空間)內稀有事件的發生數。?Poisson分布的概率密度函數:若離散型隨機變量X,其取值為0,1,2,…,相應的概率函數為:e-RaxP(X)=—7—則稱X服從參數為u的Poisson分布,記作X?P(u)。0:自然對數的底,e^2.7182;X!u為總體均數(u>0),稱為Poisson分布的參數;X為隨機變量。 之P(X)=1X=0適用條件:①平穩性:X的取值與觀察單位的位置無關,只與觀察單位的大小有關。②獨立增量性(無后效性):在某個觀察單位上X的取值與前面各觀察單位上X的取值獨立(無關)。③普通性:在充分小的觀察單位上X的取值最多為1。即在試驗次數n足夠大時,每次試驗可看作是一個“充分小的觀測單位”,且每次試驗只會發生兩種互斥的可能結果之一(“陽性”或“陰性”),這樣每次實驗的陽性數X的取值最多為1。性質:①總體均數U與總體方差。2相等,即與工。②當n很大,而n很小,且nn=u為常數時,Poisson分布可看作是二項分布的極限分布。③當后20時已接近正態分布,當后50時則非常接近正態分布,Poisson分布資料可作為正態分布處理。④Poisson分布具備加和性:如果X『X2,…,Xk相互獨立,且它們分別服從以UjU2,…Uk為參數的Poisson分布,則T=XjX2+…+Xk也服從Poisson分布,其參數為口=?+匕+…";⑤u越小,Poisson分布越偏,u越大,Poisson分布漸近正態分布。應用:①可用來分析一些不具有傳染性、無永久免疫、無遺傳性且發病率很低的疾病的發病程度,例出生缺陷、癌癥等非傳染性疾病;②研究單位時間(或單位空間、面積)內某事件發生次數的分布,如分析單位時間中放射性脈沖數,單位面積或容積內細菌數,單位空間內粉塵顆粒數,單位空間某種昆蟲或野生動物數等的分布。
(一)總體均數的區間估計:①查表法:樣本計數XW50時,可直接查Poisson分布u的置信區間表(附表8)。②正態分布法:當X>50時,可采用正態近似法估計總體均數的(1-a)置信區間。如總體均數的雙側(1-&)置信區間計算公式如下:X±Z5漢。(二)單個樣本均數與已知總體均數的比較:檢驗假設同二項分布①直接法:當總體均數u<20時,可采用直接計算概率的方法對樣本代表的總體均數與已知總體均數間的差別進行統計推斷,即對以樣本代表的總體率n與已知的總體率n0進行比較。單側檢驗時:若備擇假設為斗:口>匕(或者斗:n>;°),則所要計算的單側檢驗概率P=P(XNk);若備擇假設為此:口<匕(或者斗:n”°),則所要計算的單側檢驗概率P=P(XWk)。雙側檢驗時:備擇假設斗:口2%(或者斗:冗£冗0),所要計算的雙側檢驗概率P=2P(X=i),其中i滿足P(X二i)WP(X二k)。②正態近似法:一般當口三20時,近似正態分布。樣本計數*與已知總體均數%的比較,檢驗統計量為:(三)完全隨機設計兩個樣本均數的比較:設兩個樣本計數分別為£和%,當£和%均較大(一般要求£三20且X2三20)時,可采用正態近似法比較。 1 1「X一X①兩個樣本的觀察單位數相等(njnJ時:Z=&+X1V1 2②兩個樣本的觀察單位數不等('WnJ時:②兩個樣本的觀察單位數不等('WnJ時:XX―1——23、正態分布、二項分布和Poisson分布之間的關系:①Poisson分布與二項分布:當n很大,n很小時,二項分布B(n,n)逼近Poisson分布P(nn)。根據這一性質,在n很大且n很小時,利用Poisson分布概率計算可以簡化二項分布的概率計算。②正態分布與二項分布:當nn和n(1-n)均較大時(通常要求nn和n(1-n)均大于5并且n>40),二項分布逐漸逼近于均數為nn,方差為n(1-n)n的正態分布。此時可用正態分布N(nn,nn(1-n))作近似二項分布的概率計算,并且對應的樣本率P=X/n近似正態分布N(n,n(1-n)/n)。③正態分布與Poisson分布:當均數u越來越大時,Poisson分布逐漸逼近于均數為u,方差為u的正態分布。據此性質,均數較大的Poisson分布(通常要求u>20)可用正態分布計算。二項分布用于率的計算和比較,Poisson分布用于均數的計算和比較。統計表與統計圖1、統計表制表原則:重點突出、簡單明了、主謂分明、層次清楚。基本結構:標題、標目、線條、數字。2、統計圖基本架構:標題、標目、刻度、圖例。統計圖適用條件條圖適用于比較相互獨立的統計指標的數值大小圓圖、百分比條圖描述分類變量各類別所占構成比,后者特別適合多個構成比的比較線圖描述某統計量隨另一連續性數值變量變化而變化的趨勢直方圖描述數值變量的頻數分布箱式圖描述數據的分布特征統計地圖描述某指標在地理區域的分布
雙變量關聯性分析1、兩變量關聯性分析的目的在于推斷從某一總體中隨機抽取的同一份樣本觀測出的兩個變量間是否存在關聯性,以及這種關聯性的密切程度如何,這種關聯并不表示專業上的因果關系。在統計學上兩個隨機變量之間呈直線趨勢的關系被稱為直線相關,又稱簡單相關。?兩個定量變量間的直線相關:Pearson積矩相關系數----常被用于定量描述兩個定量變量間直線關系的相關方向和密切程度,又被稱為直線相關系數,用廠表示。樣本相關系數,正負號表示兩變量間直線相關的方向,大于0為正相關,小于0為負相關,等于0為零相關。其絕對值大小表示兩變量間直線相關的密切程度,絕對值越接近于1,說明相關密切程度越高;絕對值越接近于0,說明相關密切程度越低。廠取值范圍在[-1,1]之間。£xy」(£x)(£y)ii=1TOC\o"1-5"\h\ziini iii=1t=1 i=1 t=1£(xjx)2£(yi-y)2i=1 i=1統計推斷:用樣本計算出來的相關系數[[££(xjx)2£(yi-y)2i=1 i=1統計推斷:用樣本計算出來的相關系數Vini inii=1 i=1 i=1 i=1r是一個樣本統計量,存在抽樣誤差,需作假設檢驗以便判斷總體相關系數p是否為0。若PWa時,則拒絕H°,可認為兩變量間存在直線相關關系;若P>a,則不拒絕H°,尚不能認為兩變量間存在直線相關關系。 ° °r—0 .1—r2①t檢驗:t=—S=:--(S為樣本相關系數r的標準誤,當X和丫無線性關系,即H成立時,t服rSr\n-2 r 0 rr從自由度為v=n-2的t分布)②查表法:根據自由度丫』-2,查相關系數界值表(附表14),|丁|越大,P越小;|丁|越小,P越大。。注意事項:①進行直線相關分析前應先繪制散點圖;②Pearson積矩相關系數的統計推斷要求兩個隨機變量均服從正態分布。③出現離群點慎用;④相關關系不一定是因果關系;⑤分層資料不可盲目合并。?秩相關:對于不服從正態分布、總體分布未知、存在極端值或原始數據用等級表示的資料可采用秩相關,也稱等級相關,不以特定的總體分布為前提,屬于非參數統計方法。最常用的統計量是Spearman秩相關系數rs,又稱等級相關系數,其值在[-1,1]之間,無單位,rs>0,為正相關;rs<0,為負相關。rs:將兩變量x、y成對的觀察值分別從小到大編秩,用秩次作為分析變量,直接計算Pearson積矩相關系數。lr=p7qq統計推斷:總體秩相關系數4的假設檢驗,可用以下方法進行推斷:當nW50時,可查等級相關系數界值表(附表15),若|q|超過臨界值,則拒絕H0;當n>50時,可作t檢驗,同上。?分類變量的關聯性分析:兩個分類變量關聯性分析在設計上是從同一個總體中進行隨機抽樣,對樣本中的每個個體,考察其兩種屬性的關系。其目的是檢查兩個分類變量之間是否獨立。對于至少一個變量為無序分類變量的兩個分類變量的關聯性分析,通常先是根據交叉分類計數所得的列聯表進行兩種屬性獨立性的X,2檢驗,然后計算關聯系數。y2 , .一——,k=min(y2 , .一——,k=min(R,C)n(k-1)(2)RXC列聯表的關聯性分析:兩種屬性獨立性的X2檢驗,然后計算關聯系數。V=令至少一個變量為無序分類變量的兩個分類變量的獨立性檢驗與幾個獨立樣本頻率比較的假設檢驗所用的X2檢驗公式、理論頻數計算公式和自由度的計算公式完全相同。但是,必須注意,這兩種分析方法所針對的研究目的、設計方案、數據結構之間及其結果解釋都不相同。(3)兩有序分類變量的關聯性分析:宜用Goodman-KruskalGamma方法(簡稱Gamma法)來完成。利用列聯表,計算Gamma系數:①共變(concordance,。:變量X和Y具有相同變化趨勢,即兩者同向變化。②異變(discordance,。:變量X和Y具有不同變化趨勢,即兩者反向變化。
③共變頻數(Nc):變量X和Y具有相同變化趨勢的對子數。④異變頻數(Nd):變量X和Y具有不同變化趨勢的對子數。⑤Gamma系數:如果兩變量間相互獨立,那么兩變量共變頻率與異變概率之差應為零;否則,可認為兩變量存在相關。其總體值用Y表示,樣本值用G表示:G=N~NN+N獨立性檢驗一-Z檢驗:Z=Gx:NJNd、(N為列聯表的總例數)\N(1-G2)直線回歸分析1、直線回歸:用來研究兩個連續型變量之間數量上線性依存關系的方法,又稱簡單回歸。直線相關或回歸分析步驟:①繪制散點圖,判斷是否有線性趨勢及異常值;②滿足運用條件時,可計算樣本相關/回歸系數;③對樣本相關/回歸系數的假設檢驗;④正確解釋相關/回歸系數的意義;⑤回歸分析應評價回歸模型的擬合效果R2。描述歹隨x的變化而變化的方程稱為直線回歸方程,也稱為直線回歸模型,可表示為:9=。+次。其中,夕表示當x取某一值時因變量y的平均估計值;b為回歸系數,表示x增加(或減少)1個單位時y的平均改變b個單位;a為回歸直線的截距或常數項,表示x=0時,y的平均估計值。與單變量問題類似,由于個體觀察值不一定總等于其均數,所以散點圖中個點不會恰好都在回歸直線上,故兩變量的直線關系并非一一對應的函數關系,而是回歸關系,也就是說因變量的均數隨著自變量的改變呈線性變化。2、回歸方程的估計:統計學上將各點距回歸直線的縱向距離平方和最小這一原則稱為“殘差平方和最小”。按照最小二乘法,當E(y,一9J2取得最小值時所對應a和b的計算公式如下:I Z(X一工)(J-y) _y V (ZX)(Zy)b=產=—_、——,a=y-bxy=乙(x-x)(y-y)=乙xy l -(x-x)2 nXX式中,lxy為x與y的離均差交叉乘積和,簡稱離均差積和。3、直線回歸的統計推斷:?回歸系數的假設檢驗:對總體回歸系數B是否等于0進行統計推斷。①方差分析:對因變量y的離均差平方和E(y—歹)2作分解:E(y—歹)2=E(y—歹)2+E(y—y)2上式也可表示為:SS總上式也可表示為:SS總=SS回+SS殘,v總="一1'v回=1,v殘=n-2,v總="回十"殘SS即E(y-歹)2,稱為總離均差平方和,即不考慮y與x的回歸關系時y的總變異。總SS回即E(y-刃2稱為回歸平方和。SS回反映了在y的總變異中可以用y與x的回歸關系所解釋的部分,也即在y的總變異中由于y與x的回歸關系而使y的總變異減少的部分。SS回越大,說明回歸效果越好。SS儂即E(y-y)2,稱為殘差平方和,反映在總平方和中無法用回歸關系解釋的部分,表示考慮回歸關系之殘后y的隨機誤差。在散點圖中,各實測值離回歸直線越近,SS殘越小,說明直線回歸的估計誤差越小。「MSSSvF=回=一回回式中,MS為回歸均方,MS為殘差均方。SS=bl=l2/1=b21MSSSv 回 殘 回xyxyxxxx殘殘殘在H0為B=0的假設下,統計量F服從自由度為v回、v殘的F分布(附表4)。一,b-0 …S「②t檢驗:t= ,v=n-2S=y-x^SS=1-殘bS b :i y?x\n-2b xxx?總體回歸系數B的置信區間:0的雙側(1—a)置信區間為b±%/2("一2)Sb,式中與為樣本回歸系數b的標準誤;%/2m-2)是自由度為u=n-2的雙側概率對應的t界值。
?決定系數:回歸平方和,,與總離均差平方和、,總之比稱為決定系數,記為R2,R2?,取值在0到1之間,無單位,作為反映回歸貢獻的相對程度,即在因變量y的總變異中,用y與x的回歸系數系能解釋的比例。還可用來對回歸擬合效果作假設檢驗。4、??令令R2 SSVMSF= =—回一回=回(1-R2)/(n—2)SS殘/v殘MS殘直線回歸分析的應用:因變量總體條件均數的置信區間:給定數值”由于樣本回歸方程算出的%=a+%只是總體條件均數以\的一個點估計值。由于存在抽樣誤差,%會因樣本而異,反映其抽樣誤差大小的標準誤計算如下:11(X-X)2 人S.=sI-+———其條件總體均數RI的雙側(1-。)置信區間為:y土t S,yp y?x\n l y^ p3n-2)ypxx p因變量個體y值的預測區間:利用回歸方程進行統計預測,就是將自變量帶入回歸方程中,對因變量的個體值/ 1(x-X)2進行估計。給定數值與,對應的個體y也存在一個波動范圍,其標準差S,S=S 1+-+———P yx y\x y?x丫 n lp P xx%=%時個體y值的雙側(1-。)預測區間為y土tSP p0/2,vyxp當%-%p時,其條件總體均數的置信區間與個體y值的預測區間含義是不同的:前者表示在固定的%處,反復抽樣100次,可算出100個相應y的總體均數的置信區間,平均而言(概率意義上)有100X(1-a)個置信區間包含總體均數;而后者表示個體值的取值范圍,即固定在%處,隨機抽取100個個體,平均將有100X(1-a)個個體值在求出的范圍內。直線回歸與直線相關分析的區別與聯系:區別直線相關分析直線回歸分析使用條件要求x、y服從雙變量正態分布①x與y呈線性關系;②個體觀察值之間相互獨立;③不同的x值所對應的隨機變量y的方差相等;④在給定某個x值時y服從正態分布應用反映兩變量間相關關系、方向和密切程度反映兩變量數量依存變化的關系意義相關系數r說明具有直線關系的兩變量間相互關系的方向與密切程度回歸系數b表示x每改變一個單位所引起的y的平均改變量計算公式r=(xy/jlJyyb=lxy/lXX取值范圍-1<r<1一8<b<+8單位r沒有單位b有單位聯系①對于服從雙變量正態分布的同一組數據,既可作直線相關關系,又可作直線回歸分析,計算出的b與r正負號一致。②相關系數與回歸系數的假設檢驗等價,即對于同一樣本,tb=tr。由于相關系數的假設檢驗可以方便地查表得到P值,所以可用相關系數的假設檢驗來回答回歸系數的假設檢驗問題。③對于服從雙變量正態分布的同一組資料,其相關系數r和回歸系數b可以相互換算:r-J。④用回歸可以解釋相關。決定系數R2-SS回/SS總,為相關系數的平方。SS回越接近SS總,則相關系數和決定系數都越接近1,說明引入回歸效果越好。
生存分析1、生存資料:這類既考慮事件是否出現,又考慮事件出現的時間長短的資料,在統計學上稱為生存資料。特點:①包含有結局和發生結局所經歷的時間兩方面信息;②結局為兩分類互斥事件;③一般是通過隨訪觀察收集得到;④生存時間的不完全形式(不確切),使得資料分布類型不規則、不確定(未知),分布形式多樣。生存分析:它是將事件的結局和發生這種結局所經歷的時間進行綜合分析的一類統計分析方法。基本內容:①描述生存過程;②比較生存曲線;③分析生存過程的影響因素。死亡事件:又稱失效事件或終點事件,泛指標志某種處理措施失敗或失效的特征事件。生存時間:泛指研究者關心的某種現象的持續時間。①完全數據:指從觀察起點到發生死亡事件所經歷的時間。②截尾數據(censoreddata):簡稱截尾值,又稱刪失值或終檢值,從觀察起點至截尾時點所經歷的時間。生存時間觀察過程的截尾不是由于死亡事件,而是由于其他原因引起的,稱為截尾。截尾的主要原因:(1)失訪:指失去聯系;(2)退出:指死于非研究因素或非處理因素而退出研究;(3)終止:指設計時規定的研究時限已到而終止觀察,但研究對象仍然存活。死亡概率:記為q,是指死于某時段內的可能性大小,即在某單位時段開始時存活的個體在該時段內死亡的可能性大小。某年內死亡數q能性大小。某年內死亡數q二 1 某年年初觀察例數-土截尾例數生存概率:記為p,表示在某單位時段開始時存活的個體到該時刻結束時仍存活的可能性大小。某年活滿1年人數某年年初觀察例數-2截尾例數t時刻仍存活的例數死亡率:記為^?(t),是指觀察對象能存活到某一時點t的概率。S(t)=P(T>t)=‘而三將一(如觀察總例數人無截尾數據)當存在截尾數據時采用概率乘法原理估計生存率:s(t)=P(T>t)=pXpX...XpTOC\o"1-5"\h\z1 2 i\o"CurrentDocument"人 人生存曲線:是指以時點t為橫坐標,以各時點生存率s(t)為縱坐標,將各個時點t的生存率S(t)在坐標系中i i i i連接在一起的曲線圖,用以描述生存過程。中位生存時間:又稱半數生存期、中位生存期,是指生存率為0.5時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/YNIA 020-2023一次性使用滅菌包布
- 金融分析師專業考試試卷及答案2025年
- 商業心理咨詢師考試試卷及答案2025年
- 2025年現代舞蹈專業知識考試試卷及答案
- 2025年全國房地產經紀人資格考試試卷及答案
- 2025年創新思維與設計思維理論考試試題及答案
- 2025年公共衛生考試試卷及答案
- 2025年基礎化學知識考核試題及答案
- 2025年國際金融與投資管理專業考試真題及答案
- 測繪畢業設計答辯
- 2022-2023學年寧夏回族石嘴山市大武口區小學六年級第二學期小升初數學試卷含答案
- 經濟與社會:如何用決策思維洞察生活學習通課后章節答案期末考試題庫2023年
- 綠化設備車輛管理維護方案
- 2023汽車智能座艙分級與綜合評價白皮書
- 職業暴露針刺傷應急預案演練腳本-
- 外科學教學課件:腸梗阻闌尾炎
- 國開電大 可編程控制器應用實訓 形考任務4實訓報告
- 中國神華能源股份有限公司大柳塔煤礦礦山地質環境保護與土地復墾方案
- 抗菌藥物使用分級授權表
- GB/T 2774-2006金屬錳
- GB 2717-2018食品安全國家標準醬油
評論
0/150
提交評論