流行病學數據的分析處理方法_第1頁
流行病學數據的分析處理方法_第2頁
流行病學數據的分析處理方法_第3頁
流行病學數據的分析處理方法_第4頁
免費預覽已結束,剩余31頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1山東大學公共衛生學院山東大學公共衛生學院School of Public HealthShandong University流行病與衛生統計學研究所流行病與衛生統計學研究所山東大學公共衛生學院山東大學公共衛生學院2 一、原始數據的檢查一、原始數據的檢查 在數據分析前需要對原始的流行病學調查研究數據進行一在數據分析前需要對原始的流行病學調查研究數據進行一次次審查審查,發現可能存在的錯誤、遺漏的研究變量取值和其他問,發現可能存在的錯誤、遺漏的研究變量取值和其他問題,并題,并采取相應的措施進行處理采取相應的措施進行處理。u若在調查表中發現有若在調查表中發現有缺失的數據缺失的數據,可以通過電話再次詢

2、問,可以通過電話再次詢問研究對象、查閱有關的記錄、應用儲存的血液標本重新檢研究對象、查閱有關的記錄、應用儲存的血液標本重新檢測或再次取樣等措施進行補充。測或再次取樣等措施進行補充。u若發現若發現邏輯錯誤邏輯錯誤,也要及時改正。需要對調查問卷進行編,也要及時改正。需要對調查問卷進行編碼或者對已編碼的問卷進行核查,避免重復和遺漏。碼或者對已編碼的問卷進行核查,避免重復和遺漏。 山東大學公共衛生學院山東大學公共衛生學院3 二、選擇合適的數據管理和數據分析軟件二、選擇合適的數據管理和數據分析軟件u常用的數據管理軟件常用的數據管理軟件 Microsoft FoxProMicrosoft FoxPro、M

3、icrosoft AccessMicrosoft Access、Microsoft ExcelMicrosoft Excel 這些數據管理軟件也具有簡單這些數據管理軟件也具有簡單的數據分析功能,的數據分析功能,ExcelExcel的數據分析功能更強,不的數據分析功能更強,不僅可實現描述性統計,還可以做僅可實現描述性統計,還可以做t t檢驗、方差分析、檢驗、方差分析、相關回歸分析等相關回歸分析等u常用的數據分析軟件常用的數據分析軟件 SASSAS(Statistical Analysis SystemStatistical Analysis System)和和SPSSSPSS(Statistic

4、al Package for Social ScienceStatistical Package for Social Science),它們均具有很強的數據分析和數據管理的功能它們均具有很強的數據分析和數據管理的功能山東大學公共衛生學院山東大學公共衛生學院4 三、數據的計算機錄入三、數據的計算機錄入 ( (編號、定義變量名、變量數量化)編號、定義變量名、變量數量化)u編號:給編號:給每一個每一個調查表或調查對象調查表或調查對象一個一個編號編號以識別錄入的數據與調查表或調查對象的對以識別錄入的數據與調查表或調查對象的對應關系應關系(唯一性)(唯一性)p使用阿拉伯數字使用阿拉伯數字1 1、2 2

5、、3 3等給每份調查表按照順等給每份調查表按照順序編號,這樣有利于以后對輸入的數據進行檢查、序編號,這樣有利于以后對輸入的數據進行檢查、核對與修改錯誤。核對與修改錯誤。p可以給編號以時間、地區、單位、調查對象編號可以給編號以時間、地區、單位、調查對象編號等,如:等,如:200501200501(濟南)(濟南)0202(歷下)(歷下)00010001(調查(調查對象)對象) 山東大學公共衛生學院山東大學公共衛生學院5 u定義變量名稱:定義變量名稱:命名:可以應用中文、拼音、也可以應用英文,但以命名:可以應用中文、拼音、也可以應用英文,但以使用拼音或英文為好,這樣可以方便輸入。使用拼音或英文為好,

6、這樣可以方便輸入。注意:注意:p 變量名應簡短、易懂易記:如對性別、年齡、身高、體重可變量名應簡短、易懂易記:如對性別、年齡、身高、體重可以使用以使用gender, age, height 和和weight進行命名。對名稱較進行命名。對名稱較長的變量,可以使用長的變量,可以使用簡寫簡寫,如,如wt表示表示weight、ht表示表示height。p 標記或說明:有些數據管理和分析軟件可變量進行標記或說標記或說明:有些數據管理和分析軟件可變量進行標記或說明,避免時間長久了而忘記數據庫中的變量名字,如對上述明,避免時間長久了而忘記數據庫中的變量名字,如對上述Wt可標記為可標記為“weight”。 山

7、東大學公共衛生學院山東大學公共衛生學院6 u變量數量化變量數量化 如果調查表的設計是如果調查表的設計是編碼式編碼式的,則此步驟可省略,的,則此步驟可省略,直接直接將變量取值編碼的結果輸入計算機。將變量取值編碼的結果輸入計算機。 若若不是編碼式不是編碼式的調查結果,則需要對變量的取值的調查結果,則需要對變量的取值結果進行結果進行編碼編碼( (數量化)數量化)。 山東大學公共衛生學院山東大學公共衛生學院7 l 常見變量的類型常見變量的類型 1 1、字符型、字符型(character type)(character type): 輸入字符如中文或英文輸入字符如中文或英文 2 2、數值型、數值型(nu

8、merical type)(numerical type): 以數值的形式輸入以數值的形式輸入 3 3、日期型、日期型(data type)(data type): 按照規定的格式輸入日期數值按照規定的格式輸入日期數值 4 4、邏輯性(、邏輯性(logical typelogical type): : 山東大學公共衛生學院山東大學公共衛生學院8 l變量數量化時應注意:變量數量化時應注意: (1)除日期型變量外)除日期型變量外盡量使用數值型變量盡量使用數值型變量 (2)某些數值變量)某些數值變量(numerical variable)可可直接輸入變量的取值直接輸入變量的取值,如研究對象的身高、,

9、如研究對象的身高、體重、血壓水平等。體重、血壓水平等。 (3)分類變量分類變量(categorical variable)及有及有 序變量序變量(ordinal variable)則可將其取值進行則可將其取值進行量化量化,然后再輸入計算機,然后再輸入計算機 山東大學公共衛生學院山東大學公共衛生學院9 白人白人1 黑人黑人2 西班牙裔人西班牙裔人3 亞太裔亞太裔4 其它種族其它種族5注意:注意: 分類變量在進行多因素分析時,分類變量在進行多因素分析時,必須轉換成啞變量必須轉換成啞變量(dummy variabledummy variable),不能直接將前述的取值),不能直接將前述的取值1 1、

10、2 2、3 3、4 4、5 5放入方程中進行分析。放入方程中進行分析。 山東大學公共衛生學院山東大學公共衛生學院10 l 有序變量的數量化順序合理,則可以直接進行分析有序變量的數量化順序合理,則可以直接進行分析 如:教育程度如:教育程度 文盲:文盲:0 小學:小學:1 中學:中學:2 高中及中專:高中及中專:3 大學:大學:4 碩士及以上:碩士及以上:5山東大學公共衛生學院山東大學公共衛生學院11 山東大學公共衛生學院山東大學公共衛生學院12 五、數據的整理五、數據的整理(一)數據分組(一)數據分組l分類變量:分類變量: 按其原有的分類進行分組,若有必要,可將性按其原有的分類進行分組,若有必要

11、,可將性質相近或差別不大的類別進行合并。如教育程度。質相近或差別不大的類別進行合并。如教育程度。l數值變量:數值變量: 按照按照實際的生理、病理或臨床意義分組實際的生理、病理或臨床意義分組,如體重,如體重指數:低體重、正常體重、超重和肥胖指數:低體重、正常體重、超重和肥胖 山東大學公共衛生學院山東大學公共衛生學院13 按使用的按使用的方便程度和專業上慣用方便程度和專業上慣用的方法分的方法分組,如年齡在某一個合適的范圍內每組,如年齡在某一個合適的范圍內每5 5歲或歲或1010歲歲分成一組。分成一組。 按按分位數分組分位數分組,即首先找出四分位數,即首先找出四分位數(quartile)或五分位數(

12、)或五分位數(quintile)的界值,)的界值,然后應用這些界值將研究對象平均分成然后應用這些界值將研究對象平均分成4組(每組(每組組25%的研究對象)或的研究對象)或5組(每組組(每組20%的研究對的研究對象)。象)。山東大學公共衛生學院山東大學公共衛生學院14 (二)數據的轉換二)數據的轉換1、非正態數據的變量轉換、非正態數據的變量轉換原理:原理: 正態分布正態分布 參數檢驗參數檢驗(parametric test) 非正態數據非正態數據非參數檢驗非參數檢驗(non-parametric test) (不是對原始數據檢驗)如:秩和檢驗(不是對原始數據檢驗)如:秩和檢驗 (是對(是對原始數

13、據的秩次檢驗)原始數據的秩次檢驗)檢驗:正態性檢驗、方差齊性檢驗檢驗:正態性檢驗、方差齊性檢驗 方法:對數變換;平方根變換;倒數變換方法:對數變換;平方根變換;倒數變換 山東大學公共衛生學院山東大學公共衛生學院15 2 2、分類變量轉換成啞變量、分類變量轉換成啞變量u原理:原理: 分類變量是分類變量是二分類尺度及順序尺度二分類尺度及順序尺度,則可,則可直接應用其原有的數量化數值。直接應用其原有的數量化數值。 名義尺度名義尺度因為各類別間沒有順序關系,在因為各類別間沒有順序關系,在進行不同分析(包括多元分析、進行不同分析(包括多元分析、logisticlogistic回歸、回歸、CoxCox回歸

14、等)時,不能使用原始的計算機錄入回歸等)時,不能使用原始的計算機錄入數值,必經進行變量轉換數值,必經進行變量轉換即將該變量轉換即將該變量轉換成(水平數成(水平數-1 -1)個啞變量)個啞變量,再將這些新轉換的再將這些新轉換的變量放入多因素模型中。變量放入多因素模型中。 山東大學公共衛生學院山東大學公共衛生學院16 u方法:方法: 例如:將種族原始取值轉換成啞變量(新變量)例如:將種族原始取值轉換成啞變量(新變量) 表表1. 分類變量轉換成啞變量的方法分類變量轉換成啞變量的方法 新變量新變量 .種族種族 原始取值原始取值(x1) x1-1 x1-2 x1-3 x1-4白人白人 1 0 0 0 0

15、黑人黑人 2 1 0 0 0亞太裔亞太裔 3 0 1 0 0西班牙裔人西班牙裔人 4 0 0 1 0其它種族其它種族 5 0 0 0 1新變量以白人為參照,新變量以白人為參照,X1X11 1表示黑人與白人比較,依此類推表示黑人與白人比較,依此類推山東大學公共衛生學院山東大學公共衛生學院17 六、確定擬分析的因變量和應變量六、確定擬分析的因變量和應變量l因(自)變量因(自)變量(independent variable):是指是指影響疾病的發生或健康狀況的分布的變量,影響疾病的發生或健康狀況的分布的變量,是原因變量是原因變量 、已知變量、已知變量、x變量。變量。l應變量應變量(dependent

16、 variable):是指隨因變量是指隨因變量的變化而發生變化的變量,是結果變量、預的變化而發生變化的變量,是結果變量、預測變量、測變量、y變量。變量。 應變量是在自變量作用下產生反應的變量應變量是在自變量作用下產生反應的變量山東大學公共衛生學院山東大學公共衛生學院18 意義意義l有助于選擇擬研究的變量:有助于選擇擬研究的變量:對調查表的設計具有指導對調查表的設計具有指導作用作用 l可以指導數據分析方法的選擇可以指導數據分析方法的選擇: 因變量是分類變量:因變量是分類變量:采用采用2檢驗,檢驗,logistic回歸回歸分析等。分析等。 因變量是數值變量:因變量是數值變量:采用采用t檢驗、方差分

17、析,協檢驗、方差分析,協方差分析、多元回歸等方差分析、多元回歸等 。 l有助于模型的建立有助于模型的建立 :應變量(:應變量( y )放在模型的左側,)放在模型的左側,因變量(因變量(x )放在模型的右側。)放在模型的右側。山東大學公共衛生學院山東大學公共衛生學院19 l例例1. 欲評價不同治療方法(口服藥物、注射胰島素及欲評價不同治療方法(口服藥物、注射胰島素及膳食控制)對糖尿病人的治療效果(血糖水平),分膳食控制)對糖尿病人的治療效果(血糖水平),分析時要求調整病人的性別、年齡和病程的影響析時要求調整病人的性別、年齡和病程的影響。 血糖水平(應變量血糖水平(應變量y y)= =治療方法(因

18、變量治療方法(因變量x)+x)+其它協變量其它協變量 (covariate,性別、年齡和病程),性別、年齡和病程)l例例2. 欲分析脂蛋白(欲分析脂蛋白(a)與冠心病發生的關系。)與冠心病發生的關系。 冠心病冠心病( (應變量應變量y)=y)=脂蛋白脂蛋白(a)(a)(因變量因變量x)x) 山東大學公共衛生學院山東大學公共衛生學院20 七、缺失數據(七、缺失數據(missing data)的處理)的處理 l 缺失數據:是指其測量結果缺失。缺失數據:是指其測量結果缺失。 產生的原因:產生的原因:p 問卷調查:遺漏出生日期和年齡,調查結束后又無法補救問卷調查:遺漏出生日期和年齡,調查結束后又無法補

19、救p 實驗室檢測:血脂或血糖因為血清量不足或研究對象拒絕采血實驗室檢測:血脂或血糖因為血清量不足或研究對象拒絕采血而致而致p 過去處理:僅用無缺失的數據進行分析過去處理:僅用無缺失的數據進行分析損失樣本量損失樣本量 缺失數據缺失數據“合理合理”賦值賦值人為賦值不一定合人為賦值不一定合理理山東大學公共衛生學院山東大學公共衛生學院21 u現在處理現在處理 數據分析處理件軟處理數據分析處理件軟處理 :SAS自動分析處理自動分析處理 如一個數據庫中有性別和年齡等變量,性別有如一個數據庫中有性別和年齡等變量,性別有1010個缺個缺失數據,年齡有失數據,年齡有3 3個缺失數據:個缺失數據:分析性別時不包括

20、性別缺失的分析性別時不包括性別缺失的10個個體個個體分析年齡時不包括缺失年齡的分析年齡時不包括缺失年齡的3個個體個個體當分析中(如多因素分析)共同使用了性別和年齡時,分析當分析中(如多因素分析)共同使用了性別和年齡時,分析的實際樣本數量是性別和年齡這兩個變量均不含缺失數據的的實際樣本數量是性別和年齡這兩個變量均不含缺失數據的樣本樣本 山東大學公共衛生學院山東大學公共衛生學院22流行病學數據分析方法的選擇流行病學數據分析方法的選擇一、流行病學數據的分析程序一、流行病學數據的分析程序 數值變量數值變量 正態性檢驗正態性檢驗 正態正態 數據轉換數據轉換 非正態非正態 參數檢驗參數檢驗 非參數檢驗非參

21、數檢驗 圖圖1. 數值變量的分析程序數值變量的分析程序 山東大學公共衛生學院山東大學公共衛生學院23 單因素分析單因素分析 2檢驗檢驗 分類變量分類變量 分層分析分層分析 多因素分析多因素分析 logistic回歸分析回歸分析 Cox回歸分析回歸分析 其它分析方法其它分析方法 圖圖2. 2. 分類分類變量的分析程序變量的分析程序 山東大學公共衛生學院山東大學公共衛生學院24 二、根據研究設計類型選擇二、根據研究設計類型選擇 (一)成組比較的設計(一)成組比較的設計 兩組比較:兩組比較:t t檢驗或檢驗或2 2檢驗檢驗多組比較:方差分析、行多組比較:方差分析、行列表列表2 2檢驗檢驗病例對照研究

22、:按其分析方法分析病例對照研究:按其分析方法分析分級的病列對照研究:按其分析方法分析分級的病列對照研究:按其分析方法分析(二)配對(自身實驗前后)設計(二)配對(自身實驗前后)設計配比的配比的t t檢驗、檢驗、2 2檢驗檢驗配對的病例對照研究方法進行數據配對的病例對照研究方法進行數據 山東大學公共衛生學院山東大學公共衛生學院25 (三)重復測量的設計(三)重復測量的設計 在給定一個處理因素后在不同的時間重復測量某在給定一個處理因素后在不同的時間重復測量某一效應變量的改變情況。如欲評價生物制品接種后的一效應變量的改變情況。如欲評價生物制品接種后的免疫學效果,在接種后的免疫學效果,在接種后的2 2

23、周、周、4 4周、周、6 6周和周和8 8周測定抗周測定抗體滴度:體滴度:重復測量的方差分析方法重復測量的方差分析方法 (四)多因素設計(四)多因素設計自變量是數值變量:多元回歸分析方法、協方差分自變量是數值變量:多元回歸分析方法、協方差分析方法析方法 自變量分類變量:自變量分類變量:logisticlogistic回歸分析方法、判別分回歸分析方法、判別分析方法、聚類分析方法析方法、聚類分析方法 山東大學公共衛生學院山東大學公共衛生學院26 三、根據變量的類型選擇三、根據變量的類型選擇 因變量 應變量(y) (x) 數值變量 分類變量有序變量數值變量相關分析,多元回歸分析 t檢驗,方差分析,協

24、方差分析,多元回歸分析 相關分析,多元回歸分析 分類變量t檢驗,方差分析,logistic回歸分析,判別分析,聚類分析 2檢驗,logistic回歸分析 2檢驗有序變量方差分析,logistic回歸分析,判別分析,聚類分析 2檢驗,logistic回歸分析 相關分析, 2檢驗 生存時間生存分析 山東大學公共衛生學院山東大學公共衛生學院27表表3. 3. 不同研究設計和數據類型的數據分析方法選擇不同研究設計和數據類型的數據分析方法選擇 研究設計類型變量類型 兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系數值變量t檢驗方差分析配對t檢驗重復測量的方差分析線性回歸Pearson相關系數 分類

25、變量2檢驗2檢驗配對2檢驗列聯表相關系數 有序變量Mann-Whitney秩和檢驗 Kruskal-Wallis分析(成組設計多個樣本比較的秩和檢驗 )Wilcoxon符號秩和檢驗 (配對設計差值的符號檢驗)Spearman相關系數 生存時間生存分析山東大學公共衛生學院山東大學公共衛生學院28不同流行病學研究類型的數據分析方法不同流行病學研究類型的數據分析方法一、描述性研究一、描述性研究 (一)現況研究(一)現況研究分布描述:患病率、危險因素流行率、數值變量分布分布描述:患病率、危險因素流行率、數值變量分布探討因素:相關回歸分析、探討因素:相關回歸分析、2 2檢驗、檢驗、t t檢驗、方差分析、

26、多因檢驗、方差分析、多因素分析、人群歸因危險度素分析、人群歸因危險度 (二)生態學研究(二)生態學研究 同現況研究同現況研究(三)篩檢(三)篩檢篩檢試驗的真實性和可靠性篩檢試驗的真實性和可靠性 人群中疾病、健康狀況、危險因素篩選結果分析方法:同現人群中疾病、健康狀況、危險因素篩選結果分析方法:同現況研究況研究 山東大學公共衛生學院山東大學公共衛生學院29(一)病例對照研究 病例對照研究數據病例對照研究數據 成組設計成組設計 配比設計配比設計 粗粗OR分級分級OR劑量反應劑量反應 分層分層OR 分級分級OR劑量反應劑量反應 (趨勢趨勢2檢驗檢驗) (趨勢趨勢2檢驗檢驗 )分層分層OR 混雜與效應修飾分析混雜與效應修飾分析混雜與效應修飾分析混雜與效應修飾分析 圖圖3. 3. 病例對照研究數據的分析程序病例對照研究數據的分析程序 山東大學公共衛生學院山東大學公共衛生學院30(二)隊列研究二)隊列研究 隊列研究數據隊列研究數據 人時、發病密度人時、發病密度/累積發病率累積發病率 粗粗RR、AR、AR%、PAR及及PAR%分層分層RR、AR、AR%、PAR、PAR% 分級分級RR、AR、AR%、PAR、PAR 山東大學公共衛生學院山

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論