第二講多元回歸與建模_第1頁
第二講多元回歸與建模_第2頁
第二講多元回歸與建模_第3頁
第二講多元回歸與建模_第4頁
第二講多元回歸與建模_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1第二講 2n研究多個變量間的關(guān)系,因變量如何受到多個自變量的影響,用多個自變量預(yù)測因變量的值。n例:n超市中商品的價格、擺放位置、促銷手段如何影響銷售量;n如何用客戶的個人資料(職業(yè)、收入、家庭成員人數(shù)、婚姻狀況、是否有抵押等)進(jìn)行信用預(yù)測;n連鎖旅店的利潤主要受哪些因素影響;n如何預(yù)測每個客戶的流失概率;n如何在達(dá)到環(huán)保標(biāo)準(zhǔn)的前提下找到最佳生產(chǎn)條件;n如何給二手車定價;n如何預(yù)測故障維修時間;n如何定新員工的薪水及解聘員工的補(bǔ)償金。3ppippppxbxbxbbypixxxNyNxxxy22110222110222110 ., 1 , 0,) , ( ), , 0( 估計的回歸方程是使用最

2、小二乘方法估計那么假定誤差項(xiàng)多元回歸模型4X2X1Y i5認(rèn)識認(rèn)識R R2 2n總變差的分解:總變差的分解:SST=SSR+SSE;n判定系數(shù):判定系數(shù): R2=SSR/SST;n多重相關(guān)系數(shù)多重相關(guān)系數(shù)R;n調(diào)整(修正)的判定系數(shù):調(diào)整(修正)的判定系數(shù): 1122)1 (1 pnnRRAdj6對回歸方程的檢驗(yàn)對回歸方程的檢驗(yàn)n問題:因變量和所有自變量的集合之間問題:因變量和所有自變量的集合之間是否存在顯著的關(guān)系?是否存在顯著的關(guān)系?n檢驗(yàn)假設(shè)檢驗(yàn)假設(shè)n拒絕域拒絕域 0 :210pH) 1 ,()1/(/pnpFFpnSSEpSSRMSEMSR7對回歸系數(shù)的檢驗(yàn)對回歸系數(shù)的檢驗(yàn)n檢驗(yàn)假設(shè)檢驗(yàn)

3、假設(shè)n檢驗(yàn)統(tǒng)計量檢驗(yàn)統(tǒng)計量n拒絕域拒絕域 0 : 0 :10iiHH的標(biāo)準(zhǔn)誤差是其中ibsbibstiibi ,) 1() 1(2/2/pnttpnttii或者8例:巴特勒運(yùn)輸公司例:巴特勒運(yùn)輸公司 巴特勒運(yùn)輸公司的主營業(yè)務(wù)地域?yàn)楸镜兀瑸榱私⒏玫墓ぷ魅粘瘫恚?jīng)理們計劃為他們的駕駛員估計日常行駛時間。9MilesTraveledNumberof DeliveriesTravel Time(hours)10049.35034.810048.910026.55024.28026.27537.46546.09037.69026.1100.02.04.06.08.010.00204060801001

4、20Miles traveledTravel time回歸統(tǒng)計M ul ti pl e R0.814906R Square0.664071Adj usted R Square0.62208標(biāo)準(zhǔn)誤差1.001792觀測值10方差分析dfSSM SFSi gni f i cance F回歸分析115.871315.8713 15.81458 0.004080177殘差8 8.028696 1.003587總計923.9Coef f i ci ents標(biāo)準(zhǔn)誤差t StatP-val ueLower 95%Upper 95%下限 95.0%上限 95.0%I ntercept1.273913 1.40

5、0745 0.909454 0.389687-1.95621171 4.504038-1.95621 4.504038M i l esTravel ed0.067826 0.017056 3.9767550.00408 0.028495691 0.107156 0.028496 0.107156回歸統(tǒng)計M ul ti pl e R0.950678R Square0.903789Adj usted R Square0.8763標(biāo)準(zhǔn)誤差0.573142觀測值10方差分析dfSSM SFSi gni f i cance F回歸分析221.6005610.8002832.878370.00027624

6、殘差72.2994430.328492總計923.9Coef f i ci ents標(biāo)準(zhǔn)誤差t StatP-val ueLower 95%Upper 95%I ntercept-0.86870.951548-0.912940.391634-3.1187526831.38135M i l esTravel ed0.0611350.0098886.1823970.0004530.0377520410.084517Num berofDel i veri es0.9234250.2211134.1762510.0041570.4005754891.44627513回歸系數(shù)的解釋nb1=0.0611 當(dāng)

7、送貨次數(shù)不變時,行駛里程每增加1英里,行駛時間期望的估計值增加0.0611小時。nb2=0.9234 當(dāng)行駛里程不變時,送貨次數(shù)每增加1次,行駛時間期望的估計值增加0.9234小時。DelivMilesy9234. 00611. 08687. 014例:房屋售價n一個房地產(chǎn)經(jīng)紀(jì)人認(rèn)為房屋的售價可由房屋的面積、臥室的個數(shù)和批量的大小來預(yù)測。他隨機(jī)選取了100座房屋并收集數(shù)據(jù)如下:PriceBedroomsH SizeLot Size124100312903900218300420806600117800312503750.15Regression StatisticsMultiple R0.74

8、833R Square0.559998Adjusted R Square0.546248Standard Error25022.71Observations100ANOVAdfSSMSFSignificance FRegression3 7.65E+10 2.55E+1040.72694.57E-17Residual96 6.01E+10 6.26E+08Total99 1.37E+11CoefficientsStandard Error t StatP-valueLower 95%Upper 95%Intercept37717.5914176.742.6605260.0091459576.9

9、6365858.23Bedrooms2306.0816994.1920.3297140.742335-11577.316189.45H Size74.2968152.978581.4023930.164023-30.8649179.4585Lot Size-4.3637817.024-0.256330.798244-38.156229.4286216多重共線性問題多重共線性問題n在多元線性回歸模型中,多重共線性性多重共線性性( (Multicollinearity) )是指自變量之間存在線性相關(guān)的關(guān)系。n多重共線性存在時會使得系數(shù)估計的標(biāo)準(zhǔn)誤差增大,從而使得相應(yīng)的t統(tǒng)計量減小和p值增加。我們將

10、無法確定任一自變量對因變量的單獨(dú)影響。單個系數(shù)的符號可能與實(shí)際不符。17識別多重共線性性識別多重共線性性n自變量的相關(guān)矩陣:自變量的相關(guān)矩陣:樣本相關(guān)系數(shù)的絕對值大于0.7。n方差膨脹因子方差膨脹因子(Variance Inflation Factors, 簡記作VIF): 刻畫了相比多重共線性不存在時回歸系數(shù)估計的方差增大了多少。VIF越大說明多重共線性問題越嚴(yán)重。n經(jīng)驗(yàn)法則:VIF 10n自變量矩陣自變量矩陣 X, XX有很小接近于有很小接近于0的特征根的特征根稱為容限。平方。回歸模型的性對模型中其余自變量線是自變量其中jjjjjjTOLRxRTOLRVIF2211118PriceBedr

11、oomsH SizeLot SizePrice1Bedrooms0.6454111H Size0.7477620.8464541Lot Size0.7408740.837430.993615119例:例:JohnsonJohnson過濾水股份公司過濾水股份公司 Johnson公司對遍步南弗羅里達(dá)州公司對遍步南弗羅里達(dá)州的水過濾系統(tǒng)提供維修服務(wù)。為了估計的水過濾系統(tǒng)提供維修服務(wù)。為了估計服務(wù)時間和成本,公司希望能夠?qū)︻櫩头?wù)時間和成本,公司希望能夠?qū)︻櫩偷拿恳淮尉S修請求預(yù)測必要的維修時間。的每一次維修請求預(yù)測必要的維修時間。他們收集的數(shù)據(jù)中包含最近一次維修至他們收集的數(shù)據(jù)中包含最近一次維修至今的

12、時間(月數(shù))、故障的類型(電子今的時間(月數(shù))、故障的類型(電子和機(jī)械)以及相應(yīng)的維修時間(小時)。和機(jī)械)以及相應(yīng)的維修時間(小時)。 你能夠建立起一個預(yù)測方程嗎?你能夠建立起一個預(yù)測方程嗎?20定性的自變量定性的自變量n引入虛擬變量(引入虛擬變量(Dummy Variable)n如何定義虛擬變量?如何定義虛擬變量? 例:例:x=0 (女性),女性),x=1(男性)(男性) x=0 (機(jī)械類),機(jī)械類),x=1(電子類)(電子類)n如何解釋回歸模型?如何解釋回歸模型? xyE10)(21建立維修時間的回歸方程建立維修時間的回歸方程n二元回歸方程二元回歸方程n解釋你得到的回歸方程!解釋你得到的

13、回歸方程! 112213876. 09305. 0:3876. 01932. 2:859. 0 2627. 13876. 09305. 0 xyxyRxxy機(jī)械類電子類n藍(lán)色為電子類,紅色為機(jī)械類23診斷你的模型:殘差分析診斷你的模型:殘差分析n殘差分析不僅被用于判斷你對模型中誤殘差分析不僅被用于判斷你對模型中誤差項(xiàng)所設(shè)的假定是否符合,而且還可以差項(xiàng)所設(shè)的假定是否符合,而且還可以檢測出異常值和有影響的點(diǎn)。檢測出異常值和有影響的點(diǎn)。n殘差圖殘差圖:由橫軸為自變量或者因變量的預(yù)由橫軸為自變量或者因變量的預(yù)測值、縱軸為殘差或者學(xué)生化殘差組成測值、縱軸為殘差或者學(xué)生化殘差組成的散點(diǎn)圖。的散點(diǎn)圖。24識

14、別影響點(diǎn)、異常值識別影響點(diǎn)、異常值n識別影響點(diǎn)的方法:杠桿率比較大識別影響點(diǎn)的方法:杠桿率比較大(大于大于 3(p+1)/n),或者,或者Cook距離距離D比較大比較大(1).n檢測異常值的方法: 散點(diǎn)圖; 利用學(xué)生化標(biāo)準(zhǔn)殘差基本服從標(biāo)準(zhǔn)正態(tài)分布來檢測(落在2個標(biāo)準(zhǔn)差之外時)。 n識別之后:建議應(yīng)該同時報告包含影響點(diǎn)和除識別之后:建議應(yīng)該同時報告包含影響點(diǎn)和除去影響點(diǎn)的兩種回歸結(jié)果。去影響點(diǎn)的兩種回歸結(jié)果。25其它的內(nèi)容其它的內(nèi)容n使用殘差檢驗(yàn)誤差項(xiàng)的正態(tài)性;使用殘差檢驗(yàn)誤差項(xiàng)的正態(tài)性;n使用殘差來分析誤差項(xiàng)的獨(dú)立性:使用殘差來分析誤差項(xiàng)的獨(dú)立性:Durbin-Watson統(tǒng)計量統(tǒng)計量d 殘差

15、對時間的散點(diǎn)圖殘差對時間的散點(diǎn)圖26Durbin-Watson 檢驗(yàn)則存在自相關(guān)性。或如果的取值區(qū)間為,4.4 , 0)(0:), 0( 12221021tLLnttnttttttdddddeeedHNiidzz27nHow does the weather affect the sales of lift tickets in a ski resort?nData of the past 20 years sales of tickets, along with the total snowfall and the average temperature during Christmas w

16、eek in each year, was collected.nThe model hypothesized wasTICKETS=0+1SNOWFALL+2TEMPERATURE+ nRegression analysis yielded the following results: ExampleSUMMARY OUTPUTRegression StatisticsMultiple R0.3464529R Square0.1200296Adjusted R Square 0.0165037Standard Error1711.6764Observations20ANOVAdfSSMSFS

17、ignif. FRegression2 6793798.2 3396899.11.1594 0.3372706Residual1749807214 2929836.1Total1956601012Coefficients Standard Error t StatP-value Lower 95% Upper 95%Intercept8308.0114903.7285 9.19303915E-08 6401.3083 10214.715Snowfall74.593249 51.574829 1.44631110.1663-34.22028 183.40678Tempture-8.753738

18、19.704359-0.4442540.6625-50.32636 32.818884The model seems to be very poor: The fit is very low (R-square=0.12), It is not valid (Signif. F =0.33) No variable is significant2901234567-2.5-1.5-0.50.51.52.5MoreThe errors may benormally distributed-4000-3000-2000-100001000200030007500850095001050011500

19、12500-4000-3000-2000-100001000200030000510152025Residual over timeResidual vs. predicted yThe errors are not independentThe error variance is constantThe modified regression modelTICKETS=0+ 1SNOWFALL+ 2TEMPERATURE+ 3YEARS+ All the required conditions are met for this model. The fit of this model is

20、high R2 = 0.74. The model is useful. Significance F = 5.93 E-5. SNOWFALL and YEARS are significant. TEMPERATURE is not significant. 32 “沒有哪一個模型是對沒有哪一個模型是對的,但是的確有一些模型是的,但是的確有一些模型是好的。好的。”回歸模型的建立回歸模型的建立33一般線性模型一般線性模型 的函數(shù)。是 , ), 2 , 1(2122110kjppxxxpjzzzzy模擬曲線關(guān)系交互作用包含因變量的變換內(nèi)蘊(yùn)線性的非線性模型34模擬曲線關(guān)系n例:雷諾茲公司管理人員

21、希望對公司銷售人員工作年限的長短和電子實(shí)驗(yàn)室天平的銷售數(shù)量之間的關(guān)系進(jìn)行調(diào)研。SalesMonths27541296106317763761041622215012367853081111894023551839112126763255618919050100150200250300350400020406080100120MonthsSalesMonths Residual Plot-100-50050100020406080100120Months殘差Months Line Fit Plot0100200300400020406080100120MonthsSales52.49781. 0

22、38. 21112sRmonthsSales估計的回歸方程:Monthsq Residual Plot-100-50050050001000015000Monthsq殘差Monthsq Line Fit Plot0100200300400050001000015000MonthsqSales45.34886. 0 0345. 0 34. 63 .452sRadjMonthsqMonthsSales38交互作用n例:泰勒為他的一種新的洗發(fā)產(chǎn)品進(jìn)行的回歸研究。21522421322110 xxxxxxyPriceAdvertisingExpenditure($1000s)Sales(1000s)2

23、504782.5503733503352504732.5503583503292504562.5503603503222504372.55036535034221008102.5100653310034521008322.5100641310037221008002.5100620310039021007902.5100670310039340平均值項(xiàng):Sales (1000s)Advertising Expenditure ($1000s)Price50100 總計2461808634.52.53646465053332375353.5總計385.6666667609.6666667497.666666741010020030040050060070080090022.5350100請將頁字段拖至此處平均值項(xiàng):Sales (1000s)PriceAdvertising Expenditure ($1000s)42考慮交互作用的模型考慮交互作用的模型n建立下面的模型建立下面的模型n怎樣檢驗(yàn)交互作用是否存在?怎樣檢驗(yàn)交互作用是否存在?nH0: =021322110 xxxxy43包含因變量的變換n經(jīng)常用來修正非常數(shù)方差。nBox-Cox變換n常用變換:對數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論