SAS備課筆記-簡單線性回歸、多元線性回歸_第1頁
SAS備課筆記-簡單線性回歸、多元線性回歸_第2頁
SAS備課筆記-簡單線性回歸、多元線性回歸_第3頁
SAS備課筆記-簡單線性回歸、多元線性回歸_第4頁
SAS備課筆記-簡單線性回歸、多元線性回歸_第5頁
已閱讀5頁,還剩35頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

回歸分析-簡單線性回歸、多元線性回歸比較:方差分析是處理試驗數據的一類統計方法。這類統計方法的特點是所考察的指標(因變量)是測量得到的數值變量(連續變量,而影響指標的因子(自變量)水平是試驗者安排的幾個不同值(稱這種因子為分類變量或離散變量。試驗的目的是找出影響指標的主要因子及水平。在實際問題中,還經常遇到這樣一些數據,它們不是有意安排的試驗得到的數據,而是對生產過程測量記錄下來的數據。對它們進行分析,目的是想找出對我們所關心的指標(因變量)Y有影響為因素(也稱自變量或回歸變量)xx1 2

,. ,xm

,并建立用x,x1 2

,. ,xm

預報Y的經驗公式。但是僅僅有滿意顧客的比例是不夠的,商家希望了解什么是影響顧客觀點的因素,以及這些因素是如何起作用的。類似地,醫療衛生部門不能僅僅知道某流行病的發病率,而且想知道什么變量影響發病率,如何影響發病率的。發現變量之間的統計關系,并且用此規律來幫助我們進行決策才是統計實踐的最終目的。(數據來建立人們所關心的變量和其他有關變量的關系。模型(model。假如用Y表示感興趣的變量,用X表示其他可能與Y有關的變量x可能是若干變量組成的向量。則所需要的是建立一個函數關系Y=f(X)。這里Y稱為因變量或響應變量(dependentvariable,responsevariabl,而X稱為自變量,也稱為解釋變量或協變量variablexplanatoryvariable,covariateregressio。一旦建立了回歸模型,除了對各種變量的關系有了進一步的定量理解之外,還可以利用該模型(函數predictio對未知的因變量值進行估計,它并不一定涉及先后的概念,更不必要有因果關系。利情況的因素可能包括企業的資產負債率、銀行的利率水平、所在國的GDPGDP增長率的數據。使用回歸分析就可以得出由資產負債率、銀行的利率水平、所在國的GDPSAS/STAT中提供的關于回歸的過程很多,包括REG(回歸)過程、RSREG(二次響應面回歸)過程、ORTHOREG(病態數據回歸)過程、NLIN(非線性回歸)過程、TRAANSREG(變換同歸)過程、CALIS(線性結構方程和路徑分析)過程、GLM(一般線性回歸)過程、GENMOD(廣義線性回歸)過程等等。一、回歸分析知識點一元線性回歸分析這里所指的單變量,是針對自變量個數而言的,在不特別說明的情況下,應變量均為單個變量。單變量線性回歸為回歸分析中最為簡單的情形,也是其它類型回歸分析的基礎?!纠}1TSH160(15-17周及分娩時臍帶血TSHmU/10TSH(mU/)受TSHdata7_01)10名孕婦及其分娩時臍帶血TSH水平母血TSH1.211.301.391.421.471.561.681.721.982.10臍帶血TSH3.904.504.204.834.164.934.324.994.705.20TSHTSH水平的變化而變化,前者應被看作為應變量,用yx表示。編制如下程序。datasasuser.data7_01;【SAS程序】datasasuser.data7_01;inputinputxy@@;datalinesdatalines;1.213.901.304.501.394.201.424.831.471.213.901.304.501.394.201.424.831.474.161.564.931.684.321.724.991.984.702.105.20;;procreg;procreg;modelmodely=x;runrun;雖然reg過程選項、語句復雜,但我們經常用到的一般比較簡單,此例即為最簡單的情形,達到了reg過程程序代碼的最低限度。提交上述程序,結果如下。結果第一部分為模型的方差分析結果。第二部分給出模型的有關重要統計量,如R2(R-Squar、校正R2(Adj對應的假設檢驗結果。多元線性回歸多元線性回歸linearregression)分析,而選擇變量的途徑也有多種,一般常用的有前進法forwar、后退法backwar)以及逐步回歸法(stepwis。我們先來看看全模型(將所有變量納入模型)的回歸分析方法。20(公斤、胸圍(厘米、肩寬(厘米)及肺活量(升)data7_02)20名一年級女大學生肺活量及有關變量測量結果編號XXX(厘米)肺活量Y(升)123151.373.636.42.99248.983.934.03.11342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.274.732.11.92procregdata=sasuser.data7_02;【SAS(SASprocregdata=sasuser.data7_02;modelmodely=x1x2x3;runrun;據的評優標準,我們所常用的就是前述的三種方法,其中逐步回歸法更是最為常用。SASmodelslentry=”和“slstay=α=0.05,model語句如下。modely=x1x2x3/selection=stepwiseslentry=0.05modely=x1x2x3/selection=stepwiseslentry=0.05slstay=0.05;【SAS程序】modely=x1x2x3/selection=stepwisemodely=x1x2x3/selection=stepwiseslentry=0.05slstay=0.05;runrun;【SAS程序運行結果】2009_SAS2009_SAS備課筆記_回歸分析2009_SAS備課筆記2009_SAS備課筆記_回歸分析如“StepwiseSelection:Step【例題3下表是對32個企業的年賠償費用單位千年銷售額x1(單位百萬年利潤x2(單位:百萬和雇傭人數x3的調查數據??紤]建立如下模型yβ+β lnx+β lnxβ lnx+i(數0 1 1 2 2 3 3編號:data7_03)No.yx1x2x3No.yx1x2x314504600.6128.1480017324724.790.339123879255.4733.9559018225578.963.341433681526.2136.0137819254966.842.862642771683.2179.0277720208591.048.5106156762752.8231.53400215184933.1310.6653964542205.8329.52650224067613.2491.6894075072334.6331.83030233323457.4228.0552084962746.0237.9410024340545.354.678094871434.0222.325902569822862.83011.33371210383470.663.7860263062361.0203.05200113111508.0149.52108276132611.1201.0505012271464.430.0687283021013.2121.31863135249329.3577.33900205404560.3194.69794144982377.5250.7343030203855.763.41230153431174.382.61941315281211.6352.1718016354724.761.5359324565440.1655.28770【SAS程序】二、回歸分析SAS編程—reg過程regSASregreg的語句和基本格式。PROCREG<選項列表>;<MODEL=</BY;FREQ變量名;ID變量名列表;VAR變量名列表;WEIGHT變量名;ADD變量名列表;DELETE變量名列表;<MTEST/keyword=變量名列表keyword=|/||UNDO>PLOT<y變量名*x符號>...y變量名*x符號/PRINTRESTRICTREWEIGHT|ALLOBS></選項列表>|<STATUS|UNDO>;<標簽:>TEST變量表達式,<,...,變量表達式></選項>;Procregregmodel語句。各選項及其功能詳見下表。選項(依字母順序)allalpha=數值annotate=數據集名corrcovoutdata=數據集名edfgout=圖形目錄lineprinter|lpnoprintoutest=outseboutsscp=outstboutvifpcomit=pressridge=數值列表rsquaresimplesingular=ntableoutusscp

Procreg語句各選項及其功能功能描述執行所有選項的功能(特定語句環境下合法的選項)以指定的數值為水準計算各種可信區間plotSASmodelvar語句中的所有變量輸出相關矩陣向outest選項指定的輸出數據集輸出協方差矩陣指定用于進行回歸分析的數據集向outest選項指定的數據集輸出自變量個數、誤差自由度、R2等指定輸出圖形元素保存的路徑,默認值為work.gseg以點陣方式(行式打印機方式)plot禁止分析結果的輸出將參數估計值以及模型擬合過程統計量(可選)輸出到指定的數據集輸出參數估計值的標準誤到outest選項所指定的數據集將SSCP矩陣內容輸出到指定的數據集中將標準化的參數估計值輸出到outest選項指定的數據集中將VIF(方差膨脹因子)輸出到outest選項指定的數據集中對列表中每一個數值進行非完全主成分分析,并輸出到outestPressoutest數據集以列表中的每一個數值為ridge常數K進行ridge回歸分析,結果輸出到outest數據集outest選項指定的數據集輸出自變量個數、誤差自由度、R2將合計、均數、方差、標準差、離均差平方和等輸出到結果中n,此選項較少用到將參數估計值的標準誤、可信區間、t值、PoutestregSSCP矩陣輸出到結果中model語句model語句用以指定所要擬合的回歸模型。其最前面的標簽為可選項,可以是不超過8個字符的字符串,用來對定義的模型進行標識,以便于在結果中分辨不同的模型,一般情況下系統會以默認的方式對模型進行標識,你可以省略此項。關鍵字model后所列的是模型表達式,和方差分析中anova過程的model語句相似。模型表達式中等號的左邊為反應變量,等號的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數據集中,而且是數值型的。如果要用到幾個變量產生的綜合變量,必須在數據步完成新變量的創建過程,model語句中的組合型變量將被視為非法。Model語句后可設定眾多的選項,選項數目比procreg語句的要多,這里不再一一列出。不過大家不procreg語句的完全相同,功能也一樣,只是作用的范圍有所差別,這model且行使重要的功能,見下表。選項(依字母順序)adjrsqbclbcliclmcollincollinointcpinclude=ninfluencemaxstep=nnointppartialrsbcselection=slentry=slstayspss1ss2ssestart=sstop=sxpx

Model語句常用選項及其功能功能描述R2R2、Cp計算并輸出參數估計值的可信區間上、下限計算并輸出單個預測值的可信區間上、下限計算并輸出每條觀測下應變量期望值(均數)的可信區間上、下限對自變量之間的共線性進行分析Mallow’sp計量指定每次模型擬合必須包含自變量中的前n個針對每一條觀測,分析其對參數估計和預測值的影響限定逐步回歸分析時最多進行的步數為n要求模型擬合時不包含截距項計算每一條觀測應變量的預測值并輸出到結果對每一個自變量(包括截距項)繪制對于應變量的偏回歸殘差圖進行殘差分析并顯示在結果中計算每個模型的SBC統計量并顯示在結果中指定模型選擇的方法,可以是前進法(forward、后退法(backward、逐步法(stepwise)等等指定前進法和逐步法時變量進入模型的顯著性水平,默認值前進法為0.5,逐步法為0.15指定后退法和逐步法時變量留在模型內的顯著性水平,默認值后退法為0.1,逐步法為0.15對每個模型計算Sp統計量I型平方和(SS1)與各參數估計值一并列出II型平方和(SS2)計算并顯示每個模型的誤差平方和在模型選擇模式下,指定開始時包含在模型中的自變量個數(s個)指定包含在模型中的自變量個數為s個時停止模型選擇過程計算并顯示自變量交叉積和矩陣(X'X)id語句指定用以標識觀測的變量。如果某一條modelcli,clm,p,r,influenceid語句,SAS則用觀測的編號來標識每一條觀測。var語句varmodel語句中但需要將其包含在交叉積和矩陣中的數值型變量。在隨后的add語句中想交互地加入模型的變量以及要在plot語句中對其繪制散點圖的變量也需在varprocreg語句后的選項執行某些特定的功能,而并不會用到model語句的話,var語句則是必需的。add語句addmodelvar語句中出現的變量,你可以交互地加入某個變量到模型中或將在delete語句中剔除的變add語句的每一次執行都將改變模型的標簽。delete語句delete語句的作用與add語句相反,用以交互地將某個變量剔除出模型。同樣,對delete語句的每一次執行都會改變模型的標簽。mtest語句mtest語句用以在有多個應變量時進行模型的多重檢驗。其最前面的標簽項和model語句的完全相同。語句中的方程式用以指定多重檢驗的假設模型,是一組以系數和變量名組成的線性方程式。此語句用在多元回歸情況下,多個應變量對同一組自變量擬合線性模型時。此語句用以檢驗的檢驗假設與指定的方程式相對應,可理解為其中的自變量(量)對于其中的應變量(未指定時則為所有應變量)擬合線性模型時的參數估計值(即系數)canprindetaiprincanprin”選項要求對應變量組合與自變量組合之間進行典型相關分析并顯示在結果中detai”選項要求顯示多種中間計算過程的細節prin”選H(HypothesisEffect,模型效應)E(ErrorEffect,誤差效應)矩陣。reweight語句reweight語句用于重新指定各條用于擬合回歸方程的觀測的權重系數,它可以改變觀測的權重系數,Reweight語句可被多次使用,reweight語句對其后面的語句發生作用,它產生作用的同時會改變模型的標簽,以表示一個新的不同的模型。Reweightpaint語句的完全相同,大家可參考paintreweight語句,需要注意的是,reweight數值”用以對符合條件的觀測Reweight語句不會對相應的統計量立即進行重新計算,所以其后的paint語句或其它reweight語句可能發揮不了原先設想的作用。比如以下語句:Reweightr.>0;Reweightr.>0;其設想的作用是用殘差大于零的觀測重新擬合模型,在此基礎上再選出殘差大于零的觀測再重新擬合模型,但由于reweight語句不會立即對相應統計量重新計算,第二條語句所用的條件與第一條語句完全相同,因此不能起到應有的作用,即將新模型中殘差小于等于零的觀測剔除出去。解決的辦法就是在兩條語句之間加入其它可以對新模型立即進行重新計算的語句,最常用的是refit語句,簡單高效。output語句output語句用于將回歸分析中產生的結果輸出到指定的數據集中,它所對應的是最后一個model語句所定義的模型。新產生的數據集中,包括輸入數據集(用以進行回歸分析的數據集)corr、cov或sscp等,output語句則會失效。Outputout數據集名”選項指定輸出數據集的名稱(臨時性或永久性均可,為按順序排列的正整數為數據集命名keyword=變量名”選項用以指定要輸出的統計量并對相應統計量在輸出數據集中命名(即等號后的變量名,此選項多個(之間以空格分開,分別對各應變量(一個模型有多個應變量時)的相應統計量命名,其順序和各應變量在模型表達式中的順序相對應。選項中的keyword關鍵字及其表示的具體統計量見下表。關鍵字COOKDCOVRATIODFFITSHLCLLCLMPREDICTED|PRESSRESIDUAL|RRSTUDENTSTDISTDPSTDRSTUDENTUCLUCLM

keyword關鍵字及其表示的具體統計量代表的統計量Cook’sD影響值統計量每一觀測對應變量預測值的標準化影響值xi(XX’)xi’單個預測值可信區間的下限應變量期望值(均數)可信區間的下限應變量預測值(即Y^)i個觀測對應的殘差被(1-h)所除的商,h殘差不含該對應觀測的模型所計算的student殘差單個預測值的標準誤預測值期望(均數)的標準誤殘差的標準誤student殘差,即殘差除以它的標準誤所得的商單個預測值可信區間的上限應變量期望值(均數)可信區間的上限paint語句paint語句用于在散點圖中突出顯示符合條件的點,它僅對行式打印機方式(procreg“lineprint”選項時)輸出的圖形有效。此語句自己并不產生圖形,僅對隨后的plot語句所產生的圖形發揮plotregpaintplot語句所產生的圖形中。如果一個點被多條paint語句所影響,它的最終顯示方式只由最后作用于它的paint語句所決定。paint用“allobs”替代條件表達式。此處的條件表達式為如下的格式。變量比較運算符數值<邏輯算符變量比較運算符數值>“變量”為數據集中的任何一個變量<,<=,>,>=,=,^則為要和相應變量比較的具體值or”之一。Paint語句后可設定相應的控制選項,有如下三條。Nolist:禁止對所選定觀測的觀測號、所用的顯示標志等信息的輸出;Reset:將默認的圖形標志改變為你所指定的標志;Symbol=’符號’:指定作為突出顯示標志的符號,如’#’或’@’。Paint語句的選項除上述三條外,還有以下和上述選項相斥(不同時在一條語句中使用)Status:將選定觀測的觀測號、所用的顯示標志等信息輸出到log窗口;Undo:恢復最后一條paint語句對相應散點圖的作用。plot語句用以對兩個變量繪制散點圖,表達式中位置在前()y軸,位x用默認方式顯示圖形,但如需指定,符號要用單引號括起來。plot語句,同一個plot多個散點圖。圖形表達式中的變量名必須成對地出現,變量的選擇范圍為modelvar語句中的變量。此外,output語句中可以輸出到數據集中的統計量outest=”選項指定的輸出數據集中的統計量、其它SAS中obs(觀測號、npp(PP圖)nqq(QQ圖)達式,進而繪制關于該統計量的散點圖。y*x表達式,它等同于兩組變量之間所有可能的組合方式構成的表達式。如:(y1y2)*(x1x2x3)等同于y1*x1y1*x2y1*x3y2*x1y2*x2y2*x3。plot語句的選項,主要用于控制圖形的顯示,圖形繪制的方式(即行式打印機方式或高分辨率圖形方式)不同,可用的選項也不相同。但常用的基本選項兩者都具有,用好這些基本的選項足夠我們的需要,其它針對高分辨率圖形的各種高級控制選項這里不再介紹,將在后面的有關SAS繪圖功能的章節專門討論。各條基本選項及其功能見下表。plot語句的基本選項及其功能選項選項clearcollecthplots=數值nocollectoverlaysymbol=’字符’vplots=數值功能清除以前的所有圖形累積,即collect選項產生的重疊顯示效果plot語句產生的散點圖重疊顯示在同一個坐標系中,以便于比較,此選項對于隨后的plot語句將一直有效,直到出現nocollect選項為止。指定輸出格式的每一頁在橫向上顯示散點圖的個數當前plot語句產生的散點圖疊加顯示后停止圖形的疊加plotcollectoverlayplot語句,collectplot語句指定散點圖中表示點的圖形符號,圖形表達式中對符號的指定優先于此選項指定輸出格式的每一頁在縱向上顯示散點圖的個數print語句用于交互地顯示model語句中的有關選項,一般在模型經過修改后(add語句、delete語句以及reweight語句都會對模型進行修改)print語句就會非常有用,它將重新擬合的新模型的有關統計量顯示在結果中。語句中的選項列表用于指定需在結果中顯示的新模型的有關項目modelALL,CLI,CLM,COLLIN,COLLINOINT,CORRB,COVB,DW,I,INFLUENCE,P,PARTIAL,PCORR1,PCORR2,R,SCORR1,SCORR2,SEQB,SPEC,SS1,SS2,STB,TOL,VIF,orXPX等,這些選項的具體含義請參見model語句部分的內容。除指定以上選項外,print語句中還可指定anova和modeldata兩個選項。前者用于顯示關于當前模型(model語句指定的模型或經最近一次修改后的模型)型的數據。refit語句refit語句非常簡單,僅含refitreweightrefitpaintreweight語句在重新計算的有關統計量的基礎上運行。restrict語句restrict語句用于對模型的參數估計設置限定條件,它對位于它之前最近的modelmodelrestrictrestrict限制條件為關于模型中自變量以及截距項的線性方程式,可以為含有等號(多個限定條件)SASrestrict語句所指向的model有多個限制條件同時存在時,一定注意他們之間不能自相矛盾,否則語句無效。在有限制條件的情況下,參數估計值將會是那些滿足限制條件的并能令殘差平方和達到最小的參數值。每增加一個限制條件,模型的自由度degreeoffreedo)就會減少-00注意:procreg語句中如果設置了“pcomit=”或“ridge=”選項,restrict語句將被忽略。reweight語句reweight語句用于重新指定各條用于擬合回歸方程的觀測的權重系數,它可以改變觀測的權重系數,Reweight語句可被多次使用,reweight語句對其后面的語句發生作用,它產生作用的同時會改變模型的標簽,以表示一個新的不同的模型。Reweightpaint語句的完全相同,大家可參考paintreweight語句,需要注意的是,reweight數值”用以對符合條件的觀測Reweight語句不會對相應的統計量立即進行重新計算,所以其后的paint語句或其它reweight語句可能發揮不了原先設想的作用。比如以下語句:Reweightr.>0;Reweightr.>0;其設想的作用是用殘差大于零的觀測重新擬合模型,在此基礎上再選出殘差大于零的觀測再重新擬合模型,但由于reweight語句不會立即對相應統計量重新計算,第二條語句所用的條件與第一條語句完全相同,因此不能起到應有的作用,即將新模型中殘差小于等于零的觀測剔除出去。解決的辦法就是在兩條語句之間加入其它可以對新模型立即進行重新計算的語句,最常用的是refit語句,簡單高效。test語句test語句用于對指定的假設進行檢驗。語句前面的標簽為可選項,用以標識不同的假設檢驗。Test語句對指定的變量表達式(檢驗假設)restrictmodelrestricttest語句內可指定多個變量表達式用于檢驗,各表達式之間用逗號隔開。與restrict語句所不同的是,test如以下語句:modely=x1x2x3;testx1=0,x2=x3;test語句所檢驗的假設為:變量x1的系數b1等于零,變量x2的系數等于變量x3的系數,即b2=b3。Test語句可以設置一個選項,即“print”選項,其功能是將假設檢驗過程中所有的中間計算過程輸出到結果中加以顯示。三、各種分析工具的回歸分析用Analyst計算回歸方程Statistics→Regression→Simple以一元為例Statistics→Regression→Linear以多元為例Insight計算回歸方程:Analyze→Fit(YX)【案例1】數據庫中的數據是摘自世界衛生組織的數據,有192個國家的21個變量。其中包括區域(這里把世界各國分成6個區域)、(在城鎮和鄉村)使用清潔水的百分比、生活污水處理的百分比、飲酒量(每年每人消費的純酒精,單位升)、(每萬人中)內科醫生數目、護士和助產士數、衛生工作者數。病床數、護士助產士和內科醫生之比、衛生開支占總開支的百分比、占政府開支的百分比、人均衛生開支、成人識字率、人均收入、每千個出生中5歲前死亡人數、人口增長率、(男女的)預期壽命(年)、每10萬生育的母親死亡數等。這些變量之間的相關性很大。作為例子,我們關注每1000個5歲之前兒童的死亡人數。(數據編號:Riskfac)首先通過用描述性的點圖來看哪些變量和我們所關心的5歲前兒童的死亡率有關,有什么關系。我們發現,最相關的為女性的預期壽命(男性的預期壽命和女性的預期壽命密切相關,我們就不考慮了),以及區域這個定性變量。下面兩個圖分別給出了兒童死亡率和女性預期壽命的散點圖和分區域的兒童死亡率的盒形圖。圖告訴我們:女性預期壽命以及所在區域與兒童死亡率有密切關系之外,還可以看出各個區域的兒童死亡率的分布很不一樣。顯然這和各地區發展不平衡有關。我們將對這些關系做進一步的討論。60GMATMBAMBA學習前后的工資的散點圖??梢钥闯?,進入MBA后也高。我們希望能夠建立一個模型描述這個關系。(120個不同年齡和收入(兩水平:中低收入、高收入)對是否需要加強社會保險的觀點的數據。這里年齡是連續變量,收入是中低和高(12,或LH表示)兩個水平的(1表示(0表示人們想要知道的是究竟年齡和收入對觀點有沒有影響,有什么樣的影響,以及是否可以用模型表示出這個關系。(0和1的定量變量。該圖看上去很怪異。當然,還是可以大致看出,大年齡的支持加強社會保險的多,小年齡的(觀點)是定性變量,而自變量既有定量變量(年齡),又有定性變量(收入),【案例4】數據庫中的數據是50個從初中升到高中的學生(數據編號:highschool)。為了比較初三的成績是否和高中的成績相關,收集了他們在初三(J3)和高一(S1)的各科平均成績。散點圖如下圖。對這兩個變量的數據進行線性回歸,就是要找到一條直線來適當地代表上圖中的那些點的趨勢。這樣做就要在所有可能的直線中進行挑選。首先需要確定選擇這條直線的標準。當然,有很多標準,結果也不最小二乘回歸(leastsquaresregression)。古漢語“二乘”是平方的意思。最小二乘法就是尋找一條直線,使得所有點到該直線的豎直距離(即按因變量方向的距離)的平方和最小。這樣的擬合ft一條直線。根據上面的數據計SPSS輸出:截距444和斜率(變量j3根據這里得到的截距和斜率,可以把回歸直線加到初三和高一成績的散點圖上。由于這條回歸直線的截距為26.444,斜率為0.651,該直線的方程為:y26.440.65x這個直線實際上是對所假設的下面線性回歸模型的估計:y0

x1這里的是誤差項。該模型假定,變量x和y有上面的線性關系,而凡是不能被該線性關系描述的y的變化都由這個誤差項來承擔。由于誤差,觀測值不可能剛好在這條直線上,如果這個模型有道理的話,這些觀測值就不會離這條直線太遠。這里得到的截距和斜率0.651)是對和的估計。由于0 1不同的樣本產生不同的估計,所以估計量是個隨機變量(通常用^0

和1

表示),它們也有分布,也可以用由他們構造檢驗統計量來檢驗0

和是不是顯著。拿回歸主要關心的1

來說,假設檢驗問題是H:0 1

0H:01 1ySPSS9.089p0.000,所以該檢驗很顯著。當然,這些檢驗需要滿足一些條件。回歸中假設檢驗所需要的條件:最小二乘回歸本身并不需要什么假定的條件,但是要對回歸系數進行t檢驗或后面要介紹的關于擬合好壞的F1)(或標準差x為正態分布隨機變量。后面要引進的各種回歸中的t檢驗和F檢驗均需要這些條件。這些條件中的前3項是多數這一類回歸所假定的,而最后一個是為了檢驗所必須的。在前三個條件成立時,回歸模型的誤差項被認為是隨機誤差,也就是說,回歸模型是適當的。但是這些條件并不是自動成立的。在模型不適當時誤差項是不會滿足頭三個條件的。除了對的檢驗之外,還有一個說明自變量解釋因變量變化百分比的度量,叫做決定系數(coefficient1ofdetermination,也叫測定系數或可決系數)R2R2=0.632,這說明這里的自變量可以大約解63%的因變量的變化。R21,回歸就越成功。由于R2有當變量數目增加而增大的缺點,人們對R2(adjustedRsquare)0.625R2有類似的意義。此外,計算機還計算了一個在零假設下有下分布的檢驗統計量,它是用來檢驗回歸擬合好壞的(零假設是因變量和自變量沒有關系)。上例中F檢驗的p值也是0.000。這些結果在下面的兩個SPSS輸出表中:F檢驗和對1R2也等于這兩個變量的Pearson相關r的平方。但是,當多于一個自變量時,代表所有變量整體擬合情況的FR2的假定下進行的。如果沒有這些假定,最小二乘法照樣可以用來估計回歸系數(斜率截距等),但這兩個檢驗就沒有什么意義了。和剛才簡單的回歸模型類似,一般的有k個(定量)自變量x,x1 2

,. ,xk

,的對因變量y的線性回歸模型為(稱為多元回歸)

y

xx......x0 11 22 kk這里稱為回歸系數。對計算機來說,對多個自變量進行回歸和一個自變量的情況類似,只1 2不過多選自變量就是了,計算機也會自動輸出相應的檢驗結果。而這些檢驗也只有在前面說的關于誤差項的各種假定成立時才有意義。逐步回歸stepwiseregresso方法。該方法或息,這時選擇哪一組都有道理。2的數據來說明逐步回歸的過程。我們關心的是SalaryPostMBA(y)和什么有關。我們利用SPSSSalaryProMBA(xlFiveYearGai$thousanx2)YearsToPayback(x3)。最后得到的模型為:y106.8921.055x1SalaryProMBA(x1)回歸得到的模型為:

0.883x2

32.442x3y11.4032.829x14虛擬變量或啞元(dummy(這里收入的“低”,“中”,“高”,用1,2,3來代表)。所以,如果要用這種啞元進行回歸就沒有道理了。怎么辦呢?可以用下面的模型來描述:y

x

時0 11 1yx

時0 11 2y

x

時0 11 3這里0

為截距,1

,,1 2

代表三種家庭收入所導致的截距的變化。現在只要估計0

和,,1 1 2

即可。顯然,帶有定性變量的回歸模型要比只有定量變量的麻煩些。但對于計算機就不算什么了?!維PSSAnalize-Generallinearmodel-選DependentVariable(j3)選入Covariate(income)選入FactorOption、中的DisplayParameterestimates;回到主對話框后,再點擊Model,在SpecifyModelCustom,再把兩個有關的自變量選入右邊,再在下面BuildingTermeffect。然后就Continue-擬合值或預測值,那么只要在SavePredictedValuesUnstandardized,如果要輸出殘差,也可在Residuals這時的擬合直線有三條,對三種家庭收入各有一條:y28.7080.688x11.066,(低收入家庭)y28.7080.688x4.679,(中等收入家庭)y28.7080.688x,(高收入家庭)(僅截距不同還輸出了關于模型及各個變量顯著性的檢驗。這些檢驗也是在總體的正態性假設下有意義。注意,這里進行的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。但是,任何模型都是某種521度)數。同時還記錄了烘干器KWHACDRYER的經驗公式?!居谩胺治黾摇惫ぞ撸⊿tatistics-Regression-Linear)與結果】【程序】【程序】編號:prog7_14procplotdata=sasuser.kwh;plotkwh*ac='*';title'KWH和AC的散點圖';plotkwh*dryer='^';title'KWH和DRYER的散點圖';run;procregprocregdata=sasuser.kwh;modelmodelkwh=acdryer;titletitle'KWH與AC和DRYER的二元回歸模型';run;procregdata=sasuser.kwh;modelprocregdata=sasuser.kwh;modelkwh=acdryer;title'KWH與AC和DRYER的二元回歸模型';printcliclm;plotplotkwh*ac='o'pred.*ac='-'l95.*ac='L'u95.*ac='U'/overlay;runrun;6用每分鐘轉幾百轉度量)下,測量發動機產生的馬力POWERPOWERSPEED的關系式。Yx,yz函數。對這類不滿足線性關系的回歸問題,首先初步確定函數形形式,然后對變量yx作適當的變換,目的是化為線性回歸(一元線性或多元線性),然后求出變換后的線性關系式,最后轉化為回歸曲線。【用“分析家”工具(Statistics-Regression-Simple)與結果】【程序】編號:prog7_15procregdata=sasuser.enginegraphics;modelpower=speed;symbolv=star;plotsymbolv=star;runrun;編號:prog7_15_1datatemp;setsasuser.engine;speedsq=speed*speed;runrun;procregdata=temp;modelmodelpower=speedspeedsq;runrun;編號:prog7_15_2datatemp;setsasuser.engine;speedsq=speed*speed;runrun;procregdata=temp;modelmodelpower=speedspeedsq;printcliprintcli;plotplotpower*speed='a'pred.*speed='p'l95.*speedu95.*speed/overlaysymbol='L';runrun;回歸曲線擬合好壞的度量:線性回歸的效果可用決定系數R2和誤差均方s2來判斷;曲線回歸也有類似的統計量-相關指數用于度量回歸曲線的擬合效果,一元曲線回歸中的曲線回歸模型的剩余標準差。多元線性回歸:一、多元線性回歸模型;二、參數估計方法一最小二乘準則;三、假設檢驗問題:1.回歸方程的顯著性檢驗;2.回歸系數的顯著性檢驗在這些例子中都是研究一個(或幾個)因變量Y與另一些變量的相互依賴關系。具體地說,我們研究:建立因變量Yxx1 2

,. xk

的經驗公式(回歸方程);對經驗公式的可信度進行檢驗;判斷每個自變量xi(i k)對Y的影響是否顯著;利用經驗公式進行預報、控制及指導生產;診斷經驗公式是否適合這組數據?!景咐?】水泥數據:水泥在凝固時單位質量所釋放的熱量為Y卡/克與水泥中下列四種化學成分有關:x3CaOAlO1 2

的成分%,x2SiO2

的成分%,x4CaOAlOFeO%x2CaOSiO%,3 23 23 4 213:yxx1 2

,x,x3

的關系式。【逐步回歸】在實際問題中,影響因變量Y的因素(自變量)可能很多,人們希望從中挑選出影響顯著的自變量來建立回歸關系式,這就涉及到變量選擇問題。YY測的精度。因而適當選擇變量用于建立一個“最優”的回歸方程是十分重要的問題。?直觀考慮應該是方程中包含的所有變量對因變量YY的影響是不顯著的(可忽略)也就是從自變量集中選出適當的子集,使得y與其的回歸方程就是這樣的“最優”,這就是回歸變量的選擇問題?;貧w變量的選擇問題在實用上和理論上都是十分重要的,這個問題最大的困難就是如何比較不同選擇(即不同子集)的優劣,即最優選擇的標準。從不同的角度出發,可以有不同的比較準則,在不同的準則下“最優”回歸方程也可能不同。最優選擇的標準均方誤差最小 (2)預測均方誤差最小 (3)Cp

統計量最小準則(4)AIC或BIC準則 (5)修正R2準則(最大)選擇“最優”子集回歸的方法)選擇“最優”子集的簡便方法包括:逐步篩選法STEPWIS)向前引入法(FORWARD)和向后剔除法(BACKWARD) (2)計算量最大的全子集法:通過計算所R2、Cp

選擇法(CP)和修正R2選擇法(ADJRSQ)。 (3)計算量適中的選擇法:沒有計算所有可能回歸子集,但比較的子R2R2。Y影響最顯著的自變量,并對方程中的老變量逐YY影響不顯著的變量。編號:prog7_16【程序】編號:prog7_16procregprocregdata=sasuser.heat;modely=x1-x4/seletion=stepwisesle=0.1sls=0.1;run;run;printcli;基本回歸診斷基本回歸診斷和擬合回歸模型總是攪合在一起。首先擬合模型,然后用回歸診斷檢驗這個模型。診斷結果可能導致你接著擬合第二個模型,再用回歸診斷方法檢驗它。這個過程一直進行,直到求出擬合這組數據的最佳模型為止。一、殘差分析:1.殘差圖2.方差齊性的診斷及修正方法3.異常點的識別二、貢獻分析:1.影響函數2.Cook距離3.WK統計量線性診斷的方法是基于對自變量的觀測數據構成的矩陣XX進行分析,使用各種反映自變量間相關性的方差膨脹因子VIF((或容限TOL)和等。編號:prog7_16_1編號:prog7_16_1procregdata=sasuser.heat;modelmodely=x1-x4/vifcollinoint;runrun;2009_SAS2009_SAS備課筆記_回歸分析處理多元線性回歸中自變量共線性的幾種方法處理多元線性回歸中自變量共線性的幾種方法一、篩選變量的方法二、嶺回歸方法二、嶺回歸方法Yx1x2x311年的數據。(數據編號:import)【程序】procregdata=sasuser.importcorr;modelmodely=x1-x3/vifcollin;runrun;【程序-【程序-嶺回歸】procregdata=sasuser.importoutset=Oimportgraphicsoutvif;modelmodely=x1-x3/ridge=0.0to0.1by0.010.20.30.40.5;plotplot/ridgeplot;printprintdata=Oimport;三、主分量回歸法三、主分量回歸法【程序】procregdata=sasuser.importoutset=Oimport;modelmodely=x1-x3/pcomit=1,2outvif;procprintdata=Oimport;procrun;procprintdata=Oimport;procrun;run;四、偏最小二乘回歸法四、偏最小二乘回歸法【程序】procplsdata=sasuser.importoutset=Oimportcv=onemethod=simple;modelmodely=x1-x3;run;procprintdata=Oimport;run;【編程】SAS/STAT中有許多具有回歸分析功能的過程,功能最為全面的是過程REG?;靖袷剑簆rocregdata=數據集;model因變量名=自變量名;基本格式:procregdata=數據集;model因變量名=自變量名;run;例題-data7_04 一元線性回歸程序(prog7_04):程序(prog7_04):procregdata=sasuser.data7_04;modelmodely=x;runrun;運行結果:運行結果:modely=x/modely=x/noint;擬合不含常數項的回歸(prog7_04_1):procregdata=sasuser.data7_04;runrun;運行結果:預測-點(prog7_04_2):procreg預測-點(prog7_04_2):procregdata=sasuser.data7_04;modelmodely=x/p;ididx;runrun;在model語句中使用選項p可以對數據進行預測。idx是要求輸出結果時增加變量x作為標識變量。運行結果:inputx@@;對另外一些數據進行預測(prog7_04_3):inputx@@;對另外一些數據進行預測(prog7_04_3):datanew;datalinesdatalines;800090008000900010000;;procsortprocsortdata=sasuser.data7_04out=sorted;bybyx;datadatanew;setsetsortednew;runru

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論