R語言實戰-topic7方差分析_第1頁
R語言實戰-topic7方差分析_第2頁
R語言實戰-topic7方差分析_第3頁
R語言實戰-topic7方差分析_第4頁
R語言實戰-topic7方差分析_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Topic7 方差分析一、相關術語以焦慮癥治療為例,現有兩種治療方案:認知行為療法(CBT)和眼動脫敏再加工法(EMDR)。我們招募10位焦慮癥患者作為志愿者,隨機分配一半的人接受為期五周的CBT,另外一半接受為期五周的EMDR,設計方案如表9-1所示。在治療結束時,要求每位患者都填寫狀態特質焦慮問卷(STAI),也就是一份焦慮度測量的自我評測報告。在這個實驗設計中,治療方案是兩水平(CBT、 EMDR)的組間因子。之所以稱其為組間因子,是因為每位患者都僅被分配到一個組別中,沒有患者同時接受CBT和EMDR。表中字母s代表受試者(患者)。 STAI是因變量,治療方案是自變量。由于在每種治療方案

2、下觀測數相等,因此這種設計也稱為均衡設計(balanced design);若觀測數不同,則稱作非均衡設計(unbalanceddesign)。因為僅有一個類別型變量,表9-1的統計設計又稱為單因素方差分析(one-way ANOVA),或進一步稱為單因素組間方差分析。方差分析主要通過F檢驗來進行效果評測,若治療方案的F檢驗顯著,則說明五周后兩種療法的STAI得分均值不同。假設你只對CBT的效果感興趣,則需將10個患者都放在CBT組中,然后在治療五周和六個月后分別評價療效,設計方案如表9-2所示。療法(therapy)和時間(time)都作為因子時,我們既可分析療法的影響(時間跨度上的平均)和

3、時間的影響(療法類型跨度上的平均),又可分析療法和時間的交互影響。前兩個稱作主效應,交互部分稱作交互效應。當設計包含兩個甚至更多的因子時,便是多因素方差分析設計,比如兩因子時稱作雙因素方差分析,三因子時稱作三因素方差分析,以此類推。若因子設計包括組內和組間因子,又稱作混合模型方差分析,當前的例子就是典型的雙因素混合模型方差分析。本例中,你將做三次F檢驗:療法因素一次,時間因素一次,兩者交互因素一次。若療法結果顯著,說明CBT和EMDR對焦慮癥的治療效果不同;若時間結果顯著,說明焦慮度從五周到六個月發生了變化;若兩者交互效應顯著,說明兩種療法隨著時間變化對焦慮癥治療影響不同(也就是說,焦慮度從五

4、周到六個月的改變程度在兩種療法間是不同的)。現在,我們對上面的實驗設計稍微做些擴展。眾所周知,抑郁癥對病癥治療有影響,而且抑郁癥和焦慮癥常常同時出現。即使受試者被隨機分配到不同的治療方案中,在研究開始時,兩組療法中的患者抑郁水平就可能不同,任何治療后的差異都有可能是最初的抑郁水平不同導致的,而不是由于實驗的操作問題。抑郁癥也可以解釋因變量的組間差異,因此它常稱為混淆因素(confounding factor)。由于你對抑郁癥不感興趣,它也被稱作干擾變數(nuisance variable)。假設招募患者時使用抑郁癥的自我評測報告,比如白氏抑郁癥量表(BDI),記錄了他們的抑郁水平,那么你可以在

5、評測療法類型的影響前,對任何抑郁水平的組間差異進行統計性調整。本案例中, BDI為協變量,該設計為協方差分析(ANCOVA)。以上設計只記錄了單個因變量情況(STAI),為增強研究的有效性,可以對焦慮癥進行其他的測量(比如家庭評分、醫師評分,以及焦慮癥對日常行為的影響評價)。當因變量不止一個時,設 計 被 稱 作 多 元 方 差 分 析 (MANOVA ), 若 協 變 量 也 存 在 , 那 么 就 叫 多 元 協 方 差 分析(MANCOVA)。二、單因素方差分析(1)單因素方差分析以multcomp包中的cholesterol數據集為例(取自Westfall、 Tobia、 Rom、 H

6、ochberg, 1999), 50個患者均接受降低膽固醇藥物治療(trt)五種療法中的一種療法。其中三種治療條件使用藥物相同,分別是20mg一天一次(1time)、 10mg一天兩次(2times)和5mg一天四次(4times)。剩下的兩種方式(drugD和drugE)代表候選藥物。哪種藥物療法降低膽固醇(響應變量)最多呢?#單因素方差分析(感興趣地是比較分類因子定義的兩個或多個組別中的因變量均值) install.packages("multcomp") library(multcomp) attach(cholesterol) str(cholesterol) ch

7、olesterol table(trt) aggregate(response,by=list(trt),FUN=mean) aggregate(response,by=list(trt),FUN=sd) fit<-aov(responsetrt) summary(fit) library(gplots) plotmeans(responsetrt,xlab="Treatment",ylab="Response",main="Mean Plotn with 95%CI")(2)多重比較雖然ANOVA對各療法的F檢驗表明五種藥物療

8、法效果不同,但是并沒有告訴你哪種療法與其他療法不同。多重比較可以解決這個問題。TukeyHSD(fit) par(las=2) par(mar=c(5,4,6,2) plot(TukeyHSD(fit) (3)評估檢驗的假設條件當因變量服從正態分布,各組方差相等時,可用Q-Q圖來檢驗正態性假設qqPlot()要求用lm()擬合,若數據落在95%的置信區間范圍內,說明滿足正態性假設。library(car)qqPlot(lm(response trt, data=cholesterol), simulate=TRUE, main="Q-Q Plot", labels=FALS

9、E)R提供了一些可用來做方差齊性檢驗的函數bartlett.test(response trt, data=cholesterol)離群點檢驗library(car)outlierTest(fit)三、單因素協方差分析單因素協方差分析(ANCOVA)擴展了單因素方差分析(ANOVA),包含一個或多個定量的協變量。下面的例子來自于multcomp包中的litter數據集(見Westfall et al., 1999)。懷孕小鼠被分為四個小組,每個小組接受不同劑量(0、 5、 50或500)的藥物處理。產下幼崽的體重均值為因變量,懷孕時間為協變量。data(litter, package=&quo

10、t;multcomp")attach(litter)table(dose) aggregate(weight, by=list(dose), FUN=mean)fit <- aov(weight gesttime + dose) summary(fit)(1)評估檢驗的假設條件ANCOVA還假定回歸斜率相同。本例中,假定四個處理組通過懷孕時間來預測出生體重的回歸斜率都相同。library(multcomp) fit2<-aov(weightgesttime*dose,data=litter) summary(fit2)(2)結果可視化HH包中的ancova()函數可以繪制

11、因變量、協變量和因子之間的關系圖。library(HH)ancova(weight gesttime + dose, data=litter)四、雙因素方差分析在 雙 因 素 方 差 分 析 中 , 受 試 者 被 分 配 到 兩 因 子 的 交 叉 類 別 組 中 。 以 基 礎 安 裝 中 的ToothGrowth數據集為例,隨機分配60只豚鼠,分別采用兩種喂食方法(橙汁或維生素C),各喂食方法中抗壞血酸含量有三種水平(0.5mg、 1mg或2mg),每種處理方式組合都被分配10只豚鼠。牙齒長度為因變量attach(ToothGrowth)table(supp,dose)aggregate

12、(len, by=list(supp,dose), FUN=mean)aggregate(len, by=list(supp,dose), FUN=sd)dose <- factor(dose)fit <- aov(len supp*dose)summary(fit)五、重復測量方差分析所謂重復測量方差分析,即受試者被測量不止一次。本節重點關注含一個組內和一個組間因子的重復測量方差分析(這是一個常見的設計)。示例來源于生理生態學領域,研究方向是生命系統的生理和生化過程如何響應環境因素的變異(此為應對全球變暖的一個非常重要的研究領域)。基礎安裝包中的CO2數據集包含了北方和南方牧草類

13、植物Echinochloa crus-galli (Potvin、Lechowicz、 Tardif, 1990)的寒冷容忍度研究結果,在某濃度二氧化碳的環境中,對寒帶植物與非寒帶植物的光合作用率進行了比較。研究所用植物一半來自于加拿大的魁北克省(Quebec),另一半來自美國的密西西比州(Mississippi)。首先,我們關注寒帶植物。因變量是二氧化碳吸收量(uptake),單位為ml/L,自變量是植物類型Type(魁北克VS.密西西比)和七種水平(951000 umol/m2 sec)的二氧化碳濃度(conc)。另外, Type是組間因子, conc是組內因子。 Type已經被存儲為一個

14、因子變量,但你還需要先將conc轉換為因子變量含一個組間因子和一個組內因子的重復測量方差分析CO2$conc <- factor(CO2$conc)w1b1 <- subset(CO2, Treatment='chilled')fit <- aov(uptake (conc*Type) + Error(Plant/(conc), w1b1)summary(fit)par(las=2)par(mar=c(10,4,4,2)with(w1b1, interaction.plot(conc,Type,uptake, type="b", col=c

15、("red","blue"), pch=c(16,18), main="Interaction Plot for Plant Type and Concentration")boxplot(uptake Type*conc, data=w1b1, col=(c("gold","green"), main="Chilled Quebec and Mississippi Plants", ylab="Carbon dioxide uptake rate (umol/m2

16、 sec)")par(opar)六、多元方差分析當因變量(結果變量)不止一個時,可用多元方差分析(MANOVA)對它們同時進行分析。以MASS包中的UScereal數據集為例(Venables, Ripley(1999),我們將研究美國谷物中的卡路里、脂肪和糖含量是否會因為儲存架位置的不同而發生變化;其中1代表底層貨架, 2代表中層貨架, 3代表頂層貨架。卡路里、脂肪和糖含量是因變量,貨架是三水平(1、 2、 3)的自變量。library(MASS)attach(UScereal)shelf <- factor(shelf)y <- cbind(calories, fat, sugars)aggregate(y, by=list(shelf), FUN=mean)cov(y)fit <- manova(y shelf)summary(fit)summary.aov(fit)(1)評估假設檢驗單因素多元方差分析有兩個前提假設,一個是多元正態性,一個是方差-協方差矩陣同質性。第一個假設即指因變量組合成的向量服從一個多元正態分布。可以用Q-Q圖來檢驗該假設條件center <- colMeans(y)n <- nrow(y)p <

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論