![[數學]有關SAS統計檢驗的模型_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/0f170314-c97f-4ba9-a674-843808f76c2d/0f170314-c97f-4ba9-a674-843808f76c2d1.gif)
![[數學]有關SAS統計檢驗的模型_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/0f170314-c97f-4ba9-a674-843808f76c2d/0f170314-c97f-4ba9-a674-843808f76c2d2.gif)
![[數學]有關SAS統計檢驗的模型_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/0f170314-c97f-4ba9-a674-843808f76c2d/0f170314-c97f-4ba9-a674-843808f76c2d3.gif)
![[數學]有關SAS統計檢驗的模型_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/0f170314-c97f-4ba9-a674-843808f76c2d/0f170314-c97f-4ba9-a674-843808f76c2d4.gif)
![[數學]有關SAS統計檢驗的模型_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/0f170314-c97f-4ba9-a674-843808f76c2d/0f170314-c97f-4ba9-a674-843808f76c2d5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第 4 章 SAS 根本統計分析功能教學要求:了解幾種假設檢驗、線性回歸、方差分析、擬合優度檢驗、列聯表檢驗的原理背景掌握SAS語言進行均值假設檢驗掌握SAS語言進行線性回歸與方差分析掌握SAS語言進行擬合優度檢驗與列聯表檢驗引言:前面介紹SAS的編程來進行初步的統計分析、報表、繪圖.本章我們講述用SAS進行統計檢驗、線性回歸、方差分析、擬合優度檢驗和列聯表檢驗.4.1假設檢驗4.1.1 正態性檢驗(univariate 過程)1.背景原理:正態分布是一種最常見的分布,也是一種最重要的連續型分布,它以均值為對稱軸呈對稱的鐘型分布.檢3的零假設Ho:數據資料服從正態分布.備擇假設H1:數據資料不
2、服從正態分布.當樣本量n2000時,應用Kolmogorov-smirnov檢驗法,檢驗統計量為D=max:fn(Xi)-F(x),fn(Xi/)一F(x)13_nD值越大,P值越小,說明資料越不服從正態分布,反之,D值越小,P值越大,說明資料越服從正態分布.2.舉例在procunivariate語句中加上normal選項可以進行正態性檢驗. 【例例1檢驗數據集sasuser.gpa中變量gpa是否服從正態分布?輸出結果中正態檢驗局部為:正態性檢驗正態性檢驗檢驗檢驗- - -統計統計量量- -P 值值Shapiro-WiIkW0.966294PrWD0.0488Craifter-vonMise
3、sW-Sq0.212179PrW-SqA-Sqtan-1J補充P值檢驗法:所以,假設檢驗的p值方法為:對給定的顯著水平“,當p出寸,接受H0此例介紹的p值檢驗法對其他統計檢驗也使用,一般說來,檢驗的p值是檢驗統計量取其觀測值及更極端值得概率,統計軟件對假設檢驗都會計算檢驗的p值.2.應用舉例在SAS中用univariate過程默認進行某個變量均值為零科0=0的t檢驗,假設要檢驗1=10,那么需進行變量代換.例2:檢驗數據集sasuser.class中學生的身高均值與63有無顯著性差異.過程1.原理背景設總體XN,言未知,給定檢驗水平%對常數科要檢驗分位數t1-及什1滿足Pr|t|t設由已經得到
4、的樣本具體計算得到的大量重復試驗而言,t是隨機變量,且服從1-a/2n-1=at值為t.,假設|t0|t1-/2n-1 ,那么拒絕H0,否那么接受H.對t分布t n-1 .當1t0|tPr|t|t0,那么|t01Vt0Pr|t|t1-q(n-1)=a1-/2(n-1)等價于pa程序:UNIVARIATE過程過程變量:變量: 矩矩正態性檢躲正態性檢躲檢驗檢驗統計量統計量- -P值值Shi&piro-VIiIkW0.8790B3PrD0,1500C-ramer-vonr-Sq0.04Q51EPrl-Sq0.2500Andersen-Dar1ineA-Sq0.235778PrA-Sq0.25
5、00位置檢驗:位置檢驗:Mu0=0檢驗一統計量檢驗一統計量-學生學生tI-0.5638符號符號M-0.5符號秩符號秩S-10.5分析: 先作正態性檢驗.Ho: 變量y服從正態分布,其中shapiro-wilk檢驗的統計量為w=0.979083,檢驗的p彳1=0.9312=0.05,故應接受零假設,即有95%把握認為變量y正態.故采用單中本均值T檢驗.X變量y的零假設為Ho:科0=0.由輸出結果知T檢驗的統計量t=-0.5638,雙邊檢驗的p值為0.5798燈0.05,故接受原假設,即有95%的把握接受學生的平均身高為63.說明:4當變量服從正態分布時,優先采用t檢驗,當變量服從非正態時,可以采
6、用符號秩signedRank檢驗,符號檢驗sign的檢驗成效較差,一般不常用它.4對同一問題不同的檢驗方法一般是一致的,但有時也有互相矛盾的結果.4使用SAS軟件中的分析家,翻開數據集后,利用菜單“統計一“假設檢驗一“均值的單樣本T檢驗可以進行雙邊和單邊檢驗.4.1.3 兩獨立樣本均值檢驗TTest 過程、npar1way 過程1.原理背景假設兩組樣本來自兩個獨立總體,需要檢驗兩個總體的均值或中央位置是否一樣.如果兩個總體都服輸出結果為:均值均值標推偏差標推偏差限度限度未校平方和未校平方和變異系數變異系數n權重總和權重總和19-0.6631679觀觀測總和測總和-12.E5.12707525方
7、差方差2工?工?8圈網圈網6-0.2596695哩度哩度-0J389S82481.53校正平方和校正平方和473.164211-773.13039標潴誤差均值標潴誤差均值1.17623173均中眾值位數根本統計測度根本統計測度位置變異性位置變異性標準偏差標準偏差6J2708-0.20000方差方差6.26690-0.50000極差極差20,70000四分位極差四分位極差9.00000NOTE:顯不顯不的眾數是的眾數是2個個眾數的最小值計數為眾數的最小值計數為位置檢費:位置檢費:MM二二Q一統計量一統計量- -一一P值值秩生號號字符得t-0.5538M-0.5S-10,5PrFrXPrX0,57
8、98LOOQO0,6064Pr1+1Pr=MPr=S0.57331.00000.60B4從正態分布,那么可使用兩獨立樣本均值的T檢驗.有關公式如下:設兩個樣本的均值為Xi,X2,方差為Si,S2,觀測量為ni,n2o兩個樣本方差相等與不相等時使用的檢驗統計量是不一樣的,所以應該先對方差的齊性進行檢驗.方差齊性檢驗的零假設為H0:兩個獨立樣本的來自方差相等的總體,即仃12=仃22,檢驗統計量為Max(S,S2)|F=LMin(S1,S2)方差齊時,檢驗兩樣本的均值是否相同的零假設為Ho:兩個獨立樣本的來自均值相等的總體,即R=5檢驗統計量為tXX2Ut(ni+n2-2)c11SC,n1n2.一2
9、一,.一2口士(丹1)+(上1)S2、/.+平其中Sc-為合并方差.:n1n2-2方差不齊時,檢驗兩樣本的均值是否相同,用校正t檢驗.檢驗零假設為均值相等的總體,即,檢驗統計量為2 .Ttest過程格式:PROCTTEST選項;CLASS變量名;VAR變量名;BY變量名;RUN;說明:(1)proc語句中的選項有:Data=數據集,指明要分析的數據集;Cochran要求在方差不齊時用Cochran和Cox法計算t檢驗的概率水平;(2)Class語句中的變量必須是一個兩水平的分組變量,系統會把數據集中的觀測按這個變量的兩個水平分成比擬的兩組.(3)by語句和var語句作用同前.【例3】某克山病區
10、測得11例克山病人與13名健康人的血磷值(mmol/L)如表,據此判斷該地急性克山病人與健康人的血磷值是否相同?患者組0.841.051.21.391.531.671.81.872.072.11健康組0.540.640.640.760.841.351.481.581.87程序為:F(ni-1,n2-1)H0:兩個獨立樣本的來自t(nin2-2)UNIVARIATE過程過程變量:變量:x根本筋計測度根本筋計測度位置變異性位置變異性位置檢駐:位置檢駐:MuFU統計量統計量-P值值t11.95916PrIII.0001M5.5PrXMl0,0010S33PrXS|0.0010輸
11、出為:酊0up二1均值均值標淮偏差標淮偏差偏度偏度未校平方和未校平方和變異系數變異系數11根重總和根重總和111.5209. .的的9觀測總和觀測總和 16. .抬抬0.42178271方差方差0.1779D309-0.0828765瞳度瞳度-L164078527.2239校正平方和校正平方和1.7790909127.7329338標淮誤差均值標淮誤差均值0.12717529均值均值1.520909中位數中位數1J30000眾數眾數1,200000標推偏差標推偏差方差方差極差極差四分位梃差四分位梃差0.421780.177911.270000.67000t秩驗生號號檢學將符檢驗檢驗Shaplr
12、o-ViIkKolmagorDv-SiftirnovCramer-vonMi萼已0ndersonDarIing_1-三=K*Pr0,1500PrW-Sq0,2500PrA-Sq0.2500fiJFQUp二?二?UNI贈贈 RMTE 過程過程變量變量: :x正態性檢驗正態性檢驗統計量統計量W0.969147D0.140255W-$q0.0274420,1944叱叱均值均值標惟偏差隔標惟偏差隔度未校平方度未校平方和變異系數和變異系數131.08G153850.424058530.3428812217.434439,0422164權重總和觀測權重總和觀測總和方差唾蔗總和方差唾蔗校正平方和標校正平方和
13、標準誤差均值準誤差均值13U.120.17992564-1.07753S42J57907690J176126S根本統計測度根本統計測度位置變異性位置變異性均中眾值位數1.086154標標唯偏差唯偏差0.42406L160000方差方差0.17S83U,40000極差極差133叩叩. .四分位極差四分位極差0.80000位置檢驗:位置檢驗:Mu0=0秩臉生號號檢學將符一線計量一線計量P值值t9,235007M6.5845.500010.00020.0002正態性檢將正態性檢將檢驗統計量檢驗統計量P 值值ShgircrWiIkVI0.927888PrDD.1421Cramer-vonMisesW-
14、Sq0.070358PrW-的的0.2500Anderson-LarlinsA-Sq0.416755Prfl-Sq0.2500VariableXXStatisticsMaximum2.111.07eroup12Diff(b2)N1113LowerCLMean1.23750.82991.0759Mean1.520913620.4340UpperCLMeanLB0431.34240,7842LowerCLSidDev0.29470-30410.9272StdDev0.42I00.42410.423UtJperCLStdDev0.74020-70.5937StdErr0.12720.11750.17
15、33Minimw0.840.64Variab1aMethodT-T&stsVftriiftcesDFIVildBPrItl1Equal1tyofVariancesVartableMethodNumDFDsnDFFYtluaPrFXFo1ded F12W1.011.0000分析:(1)先作正態性檢驗如下:零假設為Ho:患者組的血磷值變量x服從正態分布,其中患者組的shapiro-wilk檢驗的統計量為w=0.959147,檢驗的p=0.7610“=0.05,故應接受零假設,即有95%把握認為x正態.零假設為Ho:健康組的血磷值變量x服從正態分布,其中健康組的shapiro-wilk檢驗的
16、統計量為w=0.927983,檢驗的p=0.3207“=0.05,故應接受零假設,即有95%把握認為x正態.(2)因此可采用兩獨立樣本均值的T檢驗.由ttest過程輸出先作方差齊性檢驗如下:H0:患者組和健康組來自方差相等的總體,即52=仃22,檢驗的統計量F=1.01,P=1.000a=0.05,故應接受零假設,即有95%把握認為患者組和健康組方差滿足齊性.再彳T檢驗.HO:患者組和健康組來自均值相等的總體,即3=%.選擇方差齊性一行的結果知t=2.51,p=0.0220.2989Two-SidedPr|z|0.5378tApproximation0he-SidedPr520.2932Two
17、-StdedPr|Z|0.5993Zincludeacontinuitycorrectionof0,5,Kruskal-aIIisTestChi-Squareij.2795DF1prg4.4TheNPfiRlWAYProcedurePrChi-Square0.5970分析:在例1中我們討論過變量gpa是非正態分布,故要采用wilxocon秩和非參數檢驗方法.零假設為H0:男生和女生來自中央位置相同的總體.由輸出結果的wilcoxon秩和檢驗中用正態近似得到的雙邊檢驗的z=0.5276,p=0.5978燈0.05,故應接受零假設,即有95%把握認為男生和女生的gpa無顯著性差異.4.1.4 兩相
18、關樣本均值檢驗Univariate 過程1.原理背景:適用于有兩種情況,一種是將研究對象按一定的條件先配對,每對中的兩個對象隨機分配到實驗組和對照組,一個試驗由假設干對組成,稱為配對試驗設計;另一種情況是同一批研究對象經過某種處理前后的指標值比擬,或者是同一批樣品經過兩種不同方法的測定結果的比擬.此時這兩個變量不再獨立,而是相關的,檢驗兩個相關變量的均值是否相等,等價于檢驗這兩個變量間的差值變量的均值是否為零.當差值變量服從正態分布時,可用配對樣本T檢驗的統計量為X-0t二S/.n其中X為兩個樣本的差值變量,X、S分別為差值變量的均值和標準差.2.實例分析為了檢驗兩個相關樣本的均值是否有顯著差
19、異,先用一個數據步計算差值,然后對差值變量用univariate過程可以實現檢驗差值變量的均值是否顯著為零.【例5】用克矽平霧化吸入治療矽肺患者7人,沒得治療前后的血清粘蛋白(mg/L)7對觀測值如表,據此能否認為治療會引起血清蛋白的變化?a=0.05)1234567治療前65737330735673治療后343603726433750程序為:輸出局部結果:UNIVARIATE過程過程變量:變量:x分析:先作正態性檢驗如下:零假設為Ho:差值變量x服從正態分布,由輸出結果知shapiro-wilk檢驗的統計量為w=0.896832,檢驗的p=0.31220=0.05,故應接受零假設,即有95%
20、把握認為x正態.故可采用兩相關樣本均值T檢驗.H.:治療前后的差值變量x的均值為0.由輸出結果知T檢驗的統計量t=5.879298,雙邊檢驗的p值為0.0011|t|0,00113.5PrAM0.015614Pr=S040156統統 i 十量十量 P 值值Sh&plro-YllkSh&plro-YllkKeiImogorov-SirnovCrdmer-YonMiswAnd&rson-DarIingWDV-SqA-Sq0.8368320.21E8720.0519561350785sqsqsqsq-WDWArFrrFrr rpppppppp0.31220.15000.250
21、00.2500輸出為:FJ均值標法均值標法偏差偏差偏度偏度未校平方和未校平方和變異系數變異系數UNIVARIATE過程過程變量:變量:diff矩矩10根重總和根重總和91.5觀惻總和觀惻總和38.4136833方差方差-1.3711697峰度峰度23203校正校正平方和平方和121.94S203標準誤差均值標準誤差均值103151475.611111.2S62659713280.512.1474734根本統計測度根本統計測度位置位置變異性變異性淋-值位數均中眾310000標睢偏差標睢偏差38.4136833.50000方差方差147629.00000極差極差119前網叩前網叩四分位極差四分位極
22、差32.00000NOTE:顯示的眾數是顯示的眾數是2個眾數的最小值個眾數的最小值計數為計數為2H位置檢驗:位置檢驗:MuC-0檢瞼一統計及一檢瞼一統計及一- -P值值- -學生學生tt2.593132P I符號符號M3Pr=符號秩符號秩S20.5Pr=0.02810JO940.0332正態正態性檢騎性檢騎檢肺檢肺統統 i 十量十量- -P值值ShftpiroWiIkW0.S35307PrD0.0323CramervonMisesW-Sq0.121702PrV-Sq0.0430Anderson-Dar1inaA-Sq0.707072PrA-Sq0.0450分析:先作正態性檢驗如下:零假設為Ho
23、:差值變量diff服從正態分布,由輸出結果知shapiro-wilk檢驗的統計量為w=0.835307,檢驗的p=0.03880=0.05,故應拒絕零假設,即有95%把握認為差值變量diff不服從正態分布.故采用符號秩非參數檢驗.H.:差值變量diff的均值為0.由輸出結果知符號秩檢驗的統計量S=20.5,雙邊檢驗的p值為0.0332“=0.05,故接受Ho,即第1組數據服從正態分布.類似可得第二、三、四、五組數據的shapiro-wilk統計量為w=0.937882、0.964898、0.985353、0.935122,檢驗的p=0.6415、0.8097、0.9326、0.6248a=0.
24、05,故這四組數據也服從正態分布.(2)方差齊性檢驗.Ho:5組數據的方差相等.正態分布由Leneve方差齊性檢驗的F=1.53,p=0.2451a=0.05,故這5組數據滿足方差齊性.(3)方差分析.Ho:5組數據的均值相等.由方差分析表中F=4.31,p=0.0162FMbdsl413195.700003233.925004.310.0162Error1511491.50000766.10000CorrectedTotal1924G87.20000R-SmareCoeffVarRootMSEKMean0.53451610.5723927,67351261,8000SourceDFP24M0
25、城氏SS13195.70000MenSquare3298.92500FVetlue4.31PrF0.01B2Levene1;AN0VAofiurMTheAND脂Pracedure$TestforHomogenelLyofxVarianceSquaredPaviationsfrc*iGroupMeansrjv-r1LevelPZTheAIWVAProcedureofX-NMeanStdDevP2431201相相Error157豕241479004tJ1.53Qi.245151143812345123454264.00000032.86335354277.25000024.431878142S9.
26、75000039.80263814235.500000235000005.7445626TheANCJVAProcedureSUI*OfSourceDFSquaresMeaiTiSouaireFValuePrFC=KK_c其中c滿足PHOK至c=a【例2】對上例1采用Krushal-Wallis檢驗法,檢驗不同品種的油菜的平均畝產是否相同.&=0.05輸出為:TheNPAR1WAYProcedureWiIcoxonSeeres(RankSums)forVariablexClaesifledbyVariableP2PZNSumofScoresExpectedUn
27、derHOStdDevUnderHOMeanScore1444.504210.57504511.125. .2452.0042.010.57504518.00003446.0042,010.5750451L50004457.5042.010.67604514.37605410JO42.010.5750462.6000Averagescoreswereusedfortie%Kruskal-fa11isTextChi-Square9.3185DF4PrChiSquare0,0418分析:HO:不同品種的油菜的平均畝產相同,由輸出結果中的Krushal-Wallis檢驗的?統計量為9.9185p=0
28、.0418a=0.05,故拒絕H0,即不同品種的油菜的平均畝產有顯著不同.注:在同等條件下Krushal-Wallis檢驗的成效比方差分析工效低,所以此處p值0.0418比方差分析中的p值0.0162要大.4.2.3 多因素方差分析SAS還提供了假設干個方差分析過程,可考慮多個因素、有交互作用、有嵌套等情況的方差分析.接下來我們只介紹用anova過程進行均衡設計的多因素方差分析.原理說明:固定水平的雙因素方差分析模型:X.=N+ot.+B.+工.十名八ijkijijijk_2_鳥jkN0產=1,2,rj=1,2,s,k=1,2,t,rsrsi=3=%=Lj=0i1j1i1j1其它同理類似.【例
29、3】:為了提升一種橡膠的定強,考慮三種不同的促進劑因素A、四種不同分量的氧化鋅因素Bdatarubber2;方法二;使用循環掙制建立數據集方法二;使用循環掙制建立數據集*/*/dodoa-a-1 1toto3 3; ;dob=lto4;doc=lto2:inpurtstrenstrenoutputoutput; ;end:end:run;- -procanovaprocanovadata=rubber1:classab;modelstrerpab;/*;/*分析因素確因素分析因素確因素B的主效應和交互效應的主效應和交互效應queansab:,*,*分析最正確配方分析最正確配方*/*/run;r
30、un;lFModel11183.456333317,507121212.06Fa256.583333328.29儂儂6719.400.0002b3I32J25DOOO44.041666730.20.0001a*be4.76000000.79166670.540JGS5The/NOVAProcedureLevelofAstrenNMeanStdDev1S35.25000002.60494036283G,87500002.587745853S船船oodho2.92770022LevelofstrensNMeanMeanStdDev分析:1對于檢驗促進劑因素A的主效應,H0:三種促進劑對橡膠的定強的
31、主效應為0.由輸出結果的詳細方差分析表中,因素A對應的F統計量為19.40,p值為0.0002,小于給定的顯著性水平a=0.05,故因素A對橡膠定強的主效應是顯性的.同理可得氧化鋅因素B的主效應是顯著的,A和B的交互效應不顯著.2為了得到最好配方,由輸出結果的每種水平下,指標定強stren的均值,可得促進劑因素A在第3水平使指標達最大值,氧化鋅在第4水平時使指標達最大,故最正確配方為:第3種促進劑和第4種氧化鋅分量.4.3回歸分析回歸分析是研究變量之間的依存關系.如果因變量Y和自變量或稱為解釋變量X呈直線關系時,稱直線回歸,直線回歸要求變量Y服從正態分布且方差相等.當變量間不是線性關系時,通常
32、需要進行TheANOVAProcedure33.839333336,333333337.666666740,33383332.041241451.3B626010L*卸卸蝴蝴2.42212028數據變換,再進行線性回歸分析,或直接用原數據進行非線性回歸.根據資料類型,SAS可以進行各類回歸分析:常用SAS過程回歸類型資料類型因變量自變量Reg線性回歸數值變量數值變量GLM協方差模型、一般線性模型數值變量數值變量、分類變量LogisticLogistic回歸分類及重數值變量、分類變量CatmodLogisticPoisson回歸分類及重數值變量、分類變量Nlin非線性回歸數值變量數值變量4.3.
33、1 直線回歸1背景概述多元線性回歸分析簡介假定因變量y與k個解釋變量xi,x2,x具有線性關系,即總體回歸模型:yi=1+bi*+b?X2i+.+bkXki+%,匕N(0,Q2I),i=1,2,.,n或E(yi)=b0biXiib2X2ibkXkiAAAAA樣本回歸模型:y=b0+b1可+b2X2i+.+bkXki殘差:?=y-%n2取小一乘法:min鏟口b0,b1,b2,.bki丑總離差平方和的分解式:總平方和=解釋平方和+殘差平方和22-2-TSS=ESS+RSS即工(yi-y)=(yi-y)十(yi-yi)2判定系數:R2=9=(yL巴TSS工(yy)回歸模型的顯著性檢驗(F檢驗):Ho
34、:b1=b2=bk=0H1:b1,b2,bk至少有一個不為0.RSS/k檢驗統計量F=-RSSAF(k,n-k-1)ESS/(n-k-1)變量(如xj顯著性檢驗(t檢驗):Ho:bi=0,H1:be.檢驗統計量t=、上t(n-k-1)Sb2.reg過程格式:Procreg212=數據集名選項;Var可參與建模的變量列表;Model因變量=自變量表/選項;Print輸出結果;Plot診斷圖形;Run;思路:先考察weight與heightage間的線性關系,可用散點圖和相關分析,確定有線性關系后再作回歸分析.二X,1T一/*/*線性回歸分析:線性回歸分析:re過程過程*/*/八作散點圖八作散點圖
35、*/*/- -procgplotprocgplot; ;symbol1i-nonev=starcolor=blue:symbol2i=nonev=starcolor=black;plotplotheight*weight=lage*weight=2/height*weight=lage*weight=2/overlay;overlay;runjrunj作相關分析作相關分析*/*/- -proccorrproccorrdatdata=sasuser.classa=sasuser.class; ;varweightheightage;runrun:“多元線性回歸:輸出常規結果和均值置信區間力多元線
36、性回歸:輸出常規結果和均值置信區間力 procrecprocrecclassclass:varweightheightage:wtodelweight=heifhtage;runrun. .$r|TelghtHeightAgeWeight1.000000.87779,00010.740890.0003Height0.87779.0001KOODOO0.Q1143.0001Age0.740080.00030.01143FModel27216,83710就.7.8185527.23COOOIError162120.DS974132,50623CorrectedTot61189335J3S84Roo
37、tMSE11,51114R-SquareL772gDependent100,02632AdjR-Sq0.7445CoeffVar11,50811ParameterEstimatesParameterStandardVariableDFEstImat&ErrortValuePr),t分析:由故點圖和相關分析可知weight和height,age間有較強的線性關系.(1)回歸方程為:weight=-141.22376+3.59708height+1.27839age判定系數:R2=0.7729R2=0.7445,說明因變量Y的變異中由模型能解釋的局部占到77.29%,模型擬合效果較好.(2
38、)回歸模型的顯著性檢驗檢驗的零假設Ho:b1=b2=0,由輸出結果的方差分析表中F統計量為27.23,檢驗的p值小于0.0001,在&=0.05的顯著性水平下,應拒絕H0,說明模型是顯著成立的.(3)變量的顯著性檢驗對變量height而言,檢驗的零假設Ho:b1=0,由輸出結果的參數估計局部的t統計量值為3.97,雙邊檢驗p值為0.0011,所以在a=0.05的顯著性水平下,應拒絕H0,說明height變量對weight變量有顯著性影響.類似可得對變量age,t統計量值為-0.41,雙邊檢驗p值為0.6865,在a=0.05的顯著性水平下,應接受H0,說明模型是age變量對weight
39、變量影響不顯著性.說明:(1)如果要自動挑選最優變量,可在model語句中增加選項飛3匕M.門=選擇方法,選擇方法有none(全用,默認卜forward(逐步引入法)、backward(逐步剔除法)、stepwise(逐步篩選法)等.如modelweight=heightage/selection=stepwise;/*逐步回歸*/run;(2)要輸出其它Z果可以print語句,如PrintcliRun;(3)假設是一元線性回歸,可以在因變量和自變量的散點圖上加上回歸直線和均值置信界限,程序如下:procregdata=sasuser.class;modelweight=height;plot
40、weight*height/conf95;InterceptHeightAge1-141.2287813.5970311.2763933,38309口.905463,111100.00060.00110.6865run;(4)假設是要輸出多元線性回歸中殘差對預測值診斷圖,可用如下語句:plotresidual.*predicted.4.3.2 非線性回歸許多情況下變量間呈曲線關系,求解變量間的曲線關系的方程,但有時也可以變量代換成直線方程,再應用直線駕照的方法求解.【例【例2】某地大氣中氧化物測定結果如下:可以直接擬合所選擇的曲線方程式,距離污染物距離X(m)氧化物濃度Y(mg/m3)5010
41、01502002503004005000.6870.3980.20.1210.090.050.020.01散點圖分析說明Y和X間呈現指數函數關系y二10a,現求回歸方程.方法一:TheREGProcedureModel:MODEL1DependentVariable:logyNumberofObservationsRead3NumberofObservationsUsed8AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFMode112.7C96QL70960701J0|t|Intercept1-0.D31840.04356-0.
42、730.4S23X1-0.004090,00015430-26.49FModelErrorUncorrectedTotal2680.69510.0010S0.E9R10.34760.000177I860.BEChiSqLIke1ihoodRati67.0S73540001ScoreBe.00195,0001Wald82.55325ChlSqIntercept1-0.24240.41300.34460.557210.0274. .前前055624.32720001time10,002400.002420.90620.3209pathscat10.56440.108527*06630001patl
43、hsize1-0.56660.10912G.B7600.5,故該病人癌變部位的淋巴結會含有癌細胞.1+e.戀愛與否變量V年齡age地區(Location)各科平均成績score性別(sex)身高(height)0:未戀愛單位:歲0:農村單位:分0:女單位:厘米1:已戀愛1:城巾1:男作業:P15916補充:某調查中收集了350大學生的數據信息,研究戀愛與否變量V與年齡age、地區Location,各科平均成績score、性別sexM身高height等變量的關系.各變量定義如下:agelocationscoreheightweightsexv2115931831541假設收集數據如下:20155
44、017717010211414175114101915021609800210361175126102105951661121120040917814011201436164128102214501701601023148216810600180016010600201475170120112006151651060019154916811010試建立Logistic模型,并分析22歲農村男生 、身高170cm,平均成績為560時的戀愛概率.4.4屬性數據分析變量分為數值型變量(連續型變量)和分類變量(離散型變量),而分類變量又分為名義變量(如性別分為:男、生,種族分為白、黃、黑)和有序變量(
45、年級分為一、二、三、四,成績等級分為優、良、中、差).前面所講到的統計分析是針對數值型變量,本節是針對離散型變量,討論單個離散變量分布的擬合優度檢驗方法,檢驗兩個離散變量的獨立性殘聯表檢驗,有序變量的關聯性度量(不作要求).4.4.1 單個離散變量的擬合優度卡方檢驗1.功能:檢驗離散變量的取值規律是否符合某種給定的比例.Pearson提出的卡方檢驗的零假設為:Ho:Pr(X=a)=pi(i=1,2,k)統計量為:壯士(ni-nPi)2J72(k-1)ynp其中:ni為事件Ai的觀測頻數,R為事件Ai的頻率.例1:某工廠近5年來發生了63次事故,按事故發生的星期號分類如下:星期一一三四五六次數9
46、101181312問事故的發生是否與星期幾有關?思路分析:采用擬合優度卡方檢驗六種情況發生的概率是否相等,H0:Pr(X=i)=1/6(i=1,2,6).程序為:卜卜dataaccident;inputinputdaytimes;cards;1 921031148513612hittinittin; ;_procfreqdata=accident;tablesday/chisqtestp=(0.1666670.1666670.1666670.1666670.1666670.166667);weighttiinx;/*/*:頻數變量頻數變量*/*/run:kl一一加一加一1輸出為:FREQ過程過
47、程day頻數頻數百分比百分比檢騎百分比檢騎百分比累積頻數累積頻數累積累積百分百分比比1S14.291S*67914.2921016.871隊B71930.1631117.4G1S.673047.G24812.7016,673860J251320.631S*675180.9561219,0516,e?63100.00指定比例的指定比例的卡方檢險卡方檢險樣本大小二樣本大小二63結果分析:零假設H0:Pr(X=i)=1/6(i=1,2,6),由輸出擬合優度卡方檢驗的統計量(=1.667,p=0.8991,對于給定的顯著性水平a=0.05,pa,所以接受H0,說明事故發生與星期幾沒有關系.注明:檢驗的
48、是等概率情形時,選項testp語句可以省略.4.4.2 兩個離散變量的列聯表獨立性檢驗1.列聯表的輸入與制表列聯表的概念:根據兩個離散變量的交叉分類取值把樣本進行分類,得到每一小類的觀測個數制成表格的形式稱為列聯表,如根據學生的性別和來源把學生分為4組,得到如下統計表:學生性別、來源分布表男生女生本地46外地147輸入方式一:枚舉法一一每一行為一個樣本觀測,即一個學生的信息記錄,如:dataclass;inputsnosex$from$;/*/*擬含優度卡方檢險擬含優度卡方檢險*/*/卡方卡方自由度自由度Pr卡方卡方1.666750.89S1labelsno=編號sex=性另1Jfrom=來源
49、cards;1男本地2女外地3男外地/*所有學生的記錄*/run然后使用freq過程可以制成列聯表,使用tables語句指定行變量和列變量,procfreqdata=class;tablesfrom*sex;run輸入方式二:頻數表法一一沒有具體每行樣本觀測的信息,只有匯總的頻數表,那么需要設置一個代表觀測頻數的變量,如/*輸入方式二:頻數法*/dataclass2;inputfrom$sex$numcell;labelfrom=來源sex=性別numcell=單元格頻數cards;本地男4本地女6外地男14外地女7run然后用freq過程可以制成列聯表,使用tables語句指定行變量和列變量
50、,weight語句指定單元格頻數變量procfreqdata=class2;tablesfrom*sex;weightnumcell;run兩種方式的輸出結果一樣,如下列圖,每一個格子中有4個數:Frequency頻數、percent百分比、RowPct行百分比、ColPct列百分比.在表的右側有行總計的頻數及百分比,在表的下側有列總計的頻數及百分比.輸出結果的第22122153531 1組病病病患病患患不患不煙煙煙煙吸吸吸吸不不;FREQ過程過程from米米sex表表本地本地4S1012.9019.9592.2640J10BO.OO22.2246,15外地外地147214E.16224586
51、766.6733,3377.7853*05合計合計16133158J641.84100JO說明:簡化形式的列聯表,可以在tables語句中加上nofreq、nopercent、norow、nocol等選項.如/*簡化形式的列聯表:只有單元格頻數*/procfreqdata=class2;tablesfrom*sex/nopercentnorownocol;|weightnumcell;run;2.列聯表獨立性檢驗功能:檢驗兩個離散變量的取值是否獨立.檢驗的零假設為H0:離散變量X與變量Y相互獨立檢驗統計量,2=8m皿)口:(r)imj注nnnjs其中n+=工nj,j1例2:為了探討吸煙與慢性支氣管炎有無關系,調查了339人,情況如下:患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙13121程序為:列聯表獨立性檢臉列聯表獨立性檢臉入databron;inputinputsmokedbron$nwiicellsmokedbron$nwiicell:labelwok吸煙吸煙 bmn=, ,慢性支氣管炎慢性支氣管炎numceLk單元格頻數單元格頻數;cards;幾種方法的統計量與p值,第三局部Fisher精確檢驗結果.比比比胃數分百百頻百行列rnj=,n,i=1FREQ過程過程smoke*bron表表5mcke啜啜胭胭brem慢性支氣管慢性支氣管炎炎. .頻數頻數期望值期望值不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑設計答辯匯報
- 冷鏈物流行業發展前景分析
- 2025建筑工程合同爭議解析
- 2025物流服務外包合同(專業律師審核起草修訂)
- 幼兒園假期安全教育指南
- 2025租房合同協議書標準版
- 2025合同管理規章:公章、資質、合同及其它證書的使用與保管辦法
- 2025投資合同轉讓協議書
- 手術室細節護理
- 2025住宅房屋租賃合同協議范本
- SH/T 1673-1999工業用環己烷
- GB/T 9661-1988機場周圍飛機噪聲測量方法
- GB 29541-2013熱泵熱水機(器)能效限定值及能效等級
- FZ/T 07019-2021針織印染面料單位產品能源消耗限額
- 重癥醫學科各項規章制度匯編
- 社會組織培訓概述課件
- 春節作文優秀課件
- 三角函數的應用論文Word版
- 農業創業風險控制與防范培訓課件
- 生物制造國內外狀況課件
- 幼兒園大班數學口算練習題可打印
評論
0/150
提交評論