醫學科研數據統計分析策略課件_第1頁
醫學科研數據統計分析策略課件_第2頁
醫學科研數據統計分析策略課件_第3頁
醫學科研數據統計分析策略課件_第4頁
醫學科研數據統計分析策略課件_第5頁
已閱讀5頁,還剩62頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1醫學科研數據統計分析策略鄭州大學公共衛生學院 張衛東教授2醫學科研數據分析前的準備工作醫學科研數據分析方法的選擇醫學科研數據分析中存在的問題3一、數據分析前要的準備工作1. 原始數據的檢查 錯誤,遺漏的研究變量 采取補救措施更改,再次詢問,查閱檔案,重新檢測2. 選擇合適的數據管理與分析軟件 數據管理軟件EpidataMicrosoft AcessMicrosoft Excel 數據分析軟件SASSPSSEpi-InfoSTATA 通常應用數據管理軟件管理數據,應用數據分析軟件分析數據563. 數據的計算機錄入 給每一個問卷或研究對象編碼 識別錄入的數據與問卷或研究對象的對應關系,方便以后對

2、輸入數據的檢查、核對與修改錯誤 給輸入的變量定義名稱 中文 拼音 英文:gender (sex), age, height (ht), weight(wt) 變量取值的數量化7 字符型 (character type) 日期型 (date type) 數值型 (numerical type) 數值變量和有序變量 (ordinal variable) 分類變量(categorical variable) 先按照類別編碼數量化,如編碼為1,2,3,4, 多因素分析模型中轉換為啞變量 (dummy variable) 建議除日期型變量外,盡量設計為數值型84. 數據的檢查與核對 檢查數據的結構 觀測

3、數,變量名稱、數量 檢查各變量的取值情況 取值范圍 數值變量 最小值(minimum), 最大值(maximum) 均值(mean),中位數( median),發現異常值( outlier) Proc means n mean median min max data=?;var x1 x2 x3; run; 分類變量列表法、圖示法,回歸診斷95. 數據的整理 數據的分組 分類變量/有序變量 按照實際的類別進行分組 若有必要和合理,可將性質相近的類別合并 數值變量 按照實際的生理,病理,臨床和公共衛生意義分組 分位數分組 四分位數(quartiles),五分位數(quintiles) 使用的方便

4、程度/專業慣例分組 例:年齡在某一適宜范圍內每5或10歲一組種族原變量取值(x1)新變量X1_1X1_2X1_3X1_4White10000Black21000Hispanic30100Asian-pacific40010Others5000110 數據的轉換非正態數據的變量轉換 正態性(normality)檢驗 對數、平方根和倒數變換分類變量轉換為啞變量與分析有關的新變量的產生116. 確定擬分析的自變量(independentvariable)和因變量(dependent variable) 研究設計階段有助于選擇擬研究的變量,指導問卷設計 數據分析階段指導數據分析方法的選擇 因變量是分類

5、變量 因變量是數值變量 建立正確的統計學分析模型 不同教育水平糖尿病病人的血糖控制效果:消除性別、年齡、治療方法(飲食、口服藥物、胰島素) HbA1C=教育水平、治療方法、性別、年齡12proc glm data=? noprint;class edu type sex ;model HbA1C=edu typesex age/SS3;Lsmean type/pdiff stderr;run; quit;157.缺失數據(missing data)的處理 缺失數據是指其測量結果缺失 在問卷調查時遺漏出生日期和年齡,調查結束后又無法補救而使個別研究對象的年齡成為缺失數據;血脂或血糖因為血清量不足

6、或研究對象拒絕采血而導致某些研究對象實驗室的檢測結果成為缺失數據 分析時僅用無任何缺失數據的樣本進行分析,或是對缺失數據進行合理的賦值,但這些均具有不合理的一面。因為前者損失了樣本量,后者則是在不知其取值情況下進行人為的賦值16現在的數據分析處理件軟能夠很好地處理這個問題,如SAS軟件。SAS可以自動分析處理具有缺失數據的樣本,如一個數據庫中有性別和年齡等變量,性別有10個缺失數據,年齡有3個缺失數據,則在分析性別時SAS會不包括這10個個體,分析年齡時則不包括缺失年齡的3個個體,當在分析中(如多因素分析)共同使用了性別和年齡這兩個變量,則分析的實際樣本數量是性別和年齡這兩個變量均不含缺失數據

7、的樣本221.根據變量的類型選擇變量的類型數值變量,numerical (continuous) variable分類變量,categorical (nominal) variable有序變量,ordinal variable生存時間,survival variable二、醫學科研數據數據分析方法的選擇指南17二、醫學科研數據數據分析方法的選擇指南1.根據變量的類型選擇18192.根據研究設計類型選擇成組比較的設計若是兩組比較需要應用t檢驗或2檢驗多組比較需應用方差分析、行列表2檢驗配對(自身實驗前后)設計配比的t檢驗,2檢驗及配對的病例對照研究方法進行數據分析20 重復測量的設計 這類設計方

8、法是在給定一個處理因素后在不同的時間重復測量某一效應變量的改變情況。如欲評價生物制品接種后的免疫學效果,在接種后的2周、4周、6周和8周測定抗體滴度,即為此類設計類型 應用重復測量的方差分析方法進行數據的分析ValueTime21多因素設計若在研究設計中有多個自變量,則可根據因變量的性質選擇合適的多因素分析方法如果自變量是數值變量,則可考慮應用多元回歸分析方法、協方差分析方法如果是分類變量,則可選擇logistic回歸分析方法、判別分析方法及聚類分析方法等變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸

9、,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇例 某地區隨機抽取12名貧血兒童的家庭,實行健康教育干預三個月,干預前后兒童的血紅蛋白(%)測量結果如表所示,試問干預前后該地區貧血兒童血紅蛋白(%)平均水平有無變化? 變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系

10、數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇 配對設計兩樣本均數t檢驗 配對設計有兩種情況:(1) 自身配對:同一對象接受兩種處理,如同一標本用兩種方法進行檢驗,同一患者接受兩種處理方法;(2) 異體配對:將條件相近的實驗對象配對 例4-4 某婦產醫院的研究者欲探索孕婦在孕期補充鈣制劑對血清骨鈣素(ng/ml)的影響,選取孕婦的年齡、基礎骨鈣素值接近,孕周在26-28周的30名孕婦,隨機分成兩組

11、,每組15人。試驗組孕婦補充選定的某種鈣制劑,對照組孕婦采用傳統膳食。產后40-50天內測定兩組孕婦血清骨鈣素的改變值(產后骨鈣素和產前骨鈣素的差值),結果如下:試驗組:10.2,8.9,10.1,9.2,-0.8,10.6,6.5,11.2,9.3,8.0,10.7,9.5,12.7,14.4,11.9對照組:5.0,6.7,-1.4,4.0,7.1,-0.6,2.8,4.3,3.7,5.8,4.6,6.0,4.1,5.1,4.7問孕期補鈣和傳統膳食的產婦骨鈣素改變值的總體均數差別有無統計學意義? 變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分

12、析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析244.不同研究設計和數據類型的數據分析方法選擇2.4 兩樣本均數比較的t檢驗 t檢驗對兩樣本均數進行比較時,要求原始數據滿足以下三個條件: 獨立性(independence):各觀察值間是相互獨立的,不能相互影響; 正態性(normality):兩組均數比較時,要求兩組數據服從正態分布;配對設計時,要求差值服從正態分布。可用正態性

13、檢驗來確認。 方差齊性(homogeneity):兩樣本所對應的正態總體的方差相等,可由方差齊性檢驗來認定。 如果兩樣本方差齊性檢驗認為兩總體方差不等t檢驗就不適用,此時須用t 檢驗 例5-1:為研究鈣離子對體重的影響作用,某研究者將36只肥胖模型大白鼠隨機分為三組,每組12只,分別給予高脂正常劑量鈣(0.5%)、高脂中劑量鈣(1.0%)和高脂高劑量鈣(1.5%)三種不同的飼料,喂養9周,測其喂養前后體重的差值。問三組不同喂養方式下大白鼠體重改變是否不同?如表5-1所示。 變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分

14、析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇 基本概念完全隨機化設計單因素設計 研究對象隨機地分配到各處理組,各組分別接受不同的處理,比較各組均數之間的差別有無統計學意義,推斷處理因素的效應。應用條件:符合正態分布且方差齊單因素方差分析(one-way classification ANOVA)不符合正態分布或/和方差不齊變量變換或選擇非參數檢驗法(Kru

15、skal-Wills H檢驗)。 完全隨機設計單因素方差分析其結果如下:變異組間變異組內變異SSMSF值P值S Y.X方差分析結果:2.2.2 均數兩兩比較首先進入單因素方差分析對話框,顯示如下: 單擊Means單擊OK返回上一級窗口單擊OK即顯示結果 字母相同,無差異字母不同,有差異例5-2 為探索丹參對肢體缺血再灌注損傷的影響,將30只純種新西蘭實驗用大白兔,按窩別相同分為10個區組。每個區組的3只大白兔隨機接受三種不同的處理,即在松止血帶前分別給予丹參2ml/kg、丹參1ml/kg、生理鹽水2ml/kg,并分別測定松止血帶前及松后1小時后血中白蛋白含量(g/L),算出白蛋白的減少量如表5

16、-2所示。問三種處理效果是否不同?3種處理因素 每因素10個數據集名為eg5_23 隨機區組設計兩因素方差分析應用條件與單因素相同 存在總的變異。A: 不同區組差異無統計學意義,B: 三種不同的處理組差異有統計學意義。 結果顯示有相同字母的兩均數之間比較的差異無統計學意義,不同水平下均數由大到小排列,結果在左側顯示字母不同,有統計學意義 5.2 兩組重復測量 例5-5 某研究者欲研究青光眼結膜成纖維細胞增殖表達情況,在某醫院隨機抽取了20例青光眼患者和24例對照,取兩組研究對象眼角膜細胞進行培養,分別在3、6、9、12天四個時間點觀察平均細胞數(表5-6)。變量類型研究設計類型兩組比較兩組以上

17、比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇主效應交互作用重復測量方差分析例7-4 為了研究與糖尿病患者脂聯素相關的因素,某醫師收集了30名確診的糖尿病患者的相關資料,見表7-2,包括體重指數BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/ml)、空腹血糖FPG(

18、mmol/L)、脂聯素ADI(ng/ml),試分析糖尿病患者脂聯素相關因素。變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇參數估計及檢驗 BMI、LEP偏回歸系數均為負值,有顯著性,脂聯素隨瘦素和體重指數的增加而減小,LEP、BMI標準化

19、回歸系數的絕對值分別為0.52548、0.3622,瘦素對脂聯素的影響大于體重指數;脂聯素回歸方程為:利用此回歸方程可以根據每位糖尿病患者的瘦素和體重指數對其脂聯素進行點估計。 偏回歸系數標準化回歸系數多元線性回歸分析 回歸分析前提條件(1)線性(linear):應變量與自變量呈線性變化趨勢,用偏回歸圖、殘差圖判斷;(2)獨立性(independence):個體間相互獨立,通過專業知識和經驗來判斷,也可計算Durbin-Watson 統計量,取值04,在2附近認為滿足獨立性;(3)正態性(normality):X為某一定值時,應變量Y服從正態分布,即殘差服從正態分布,通過殘差圖或正態概率圖考察

20、;(4)等方差(equal variance):各X水平下Y的總體變異相同,通過殘差圖判斷。 例:在二乙基亞硝胺誘發大白鼠鼻咽癌的實驗中,一組單純用亞硝胺用亞硝胺向鼻腔滴注(鼻注組),另一組在鼻注基礎上加注維生素B12,實驗結果見下表。問兩組發癌率的差別有無統計學意義?表8-1 二乙基亞硝胺誘發大白鼠鼻咽癌實驗結果變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量Mann-Whitney 秩和檢驗Kruskal-Wallis

21、分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇四格表2檢驗 四格表2檢驗的應用條件: 四個格子的理論數T5且四個格子的合計n40。四格表校正2檢驗 當1T5, n40時,需計算校正2值。四格表Fisher的精確概率檢驗 當n40或有T ChiSq:P值; Point Estimate:比值比的點估計值95% Confidence Limits:比值比的95%可信區間上限和下限Logistic回歸例1 某研究者收集了兩組急性淋巴細胞白血病患者治療后的隨訪資料,淋巴細胞浸潤組(LA)18人,無淋巴細胞浸潤組(NLA)25

22、人,生存時間數據如下,不帶“”者表示已經死亡,即完全數據,帶“”者表示尚存活,即刪失數據。試作生存分析。生存時間單位為月。LA組: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,19+,20+,21+,23NLA組: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,20+,21,23,26,28,31,37,66,73,124+變量類型研究設計類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線 性 回 歸 ,Pearson相關系數分類變量2 檢驗2 檢驗2配對 檢驗列聯表相關系數有序變量

23、Mann-Whitney 秩和檢驗Kruskal-Wallis分析Wilcoxon 符號秩和檢驗Spearman 相關系數生存時間生存分析243.不同研究設計和數據類型的數據分析方法選擇 LA(1)與NLA(2)組急性淋巴細胞白血病患者生存曲線 生存分析-生存率比較例10-3 30例大腸癌患者手術后生存資料見表9-3。術后生存時間time以月為單位,status表示隨訪結局(status1表示病例死亡,為完全數據;status0表示病例失訪或尚存活,為刪失數據)3個協變量分別為:性別sex(sex0表示女,sex1表示男)、年齡age(歲)和確診到進行手術的時間dtime(月)。試進行Cox回歸分析,找出影響患者生存的因素。 timestatussexagedtimetimestatussexagedtimetimestatussexagedtime61066233110581016115687106721411053919

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論