回歸分析理論_第1頁
回歸分析理論_第2頁
回歸分析理論_第3頁
回歸分析理論_第4頁
回歸分析理論_第5頁
免費預覽已結束,剩余11頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、回歸分析第一節回歸分析的意義一、什么是回歸分析回歸分析是根據一個已知變量來預測另一個變量平均值的統計方法?;貧w與相關之間既存在著密不可分的關系,也有本質的區別。從關系看,若兩變量無相關時(即r=0),則不存在預測的問題;若兩變量存在關系,那么相關程度愈高,誤差愈小,預測的準確性越高。當變量完全相關時(即r=1),意味著不存在誤差,其預測將會完全準確的。從區別看,一是相關表示兩個變量雙方向的相互關系,回歸只表示一個變量隨另一個變量變化的單方向關系。二是回歸中有因變量和自變量的區分,相關并不表明事物的因果關系,對所有的研究變量平等看待,不作因變量、自變量的區分二、回歸分析的內容通過回歸分析主要解決

2、以下幾個問題:(1)確定幾個變量之間的數學關系式。(2)對所確定的數學關系式的可信程度進行各種統計檢驗,并區分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。(3)利用所確定的數學關系式,根據一個或幾個變量的值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確度?;貧w分析內容:(一)建立回歸方程(二)檢驗方程的有效性(三)利用方程進行預測(四)進行因素分析第二節一元線性回歸方程的建立一、一元線性回歸意義一元線性回歸是指只有一個自變量的線性回歸(linearregression),對具有線性關系的兩個變量,回歸的目的首先是找出因變量(一般記為Y)關于自變量(一般記為X)的定量關系

3、。如例11-1:10位大一學生平均每周所花的學習時間及他們期末考試成績。觀察數據我們可以發現兩者之間呈正相關,不過更直接的方法是繪制散點圖,即分別用兩列變量做橫、縱軸,描點。若它們的分布在一條帶狀區域,就預示著兩列變量之間有相關,如圖11-1所示。若沒有隨機誤差的影響,這些點將落在一條直線上,這條直線稱回歸線(regressionline),它是描述因變量Y關于自變量X關系的最合理的直線。Y1009080706050元線性回歸方程Y=abX因回歸表示兩個變量單方向的推算關系,所以既可以用X去預測Y,也可以用Y去預測X。因此,回歸方程有兩個。以X為自變量預測因變量Y時,方程為Y?=bxYX+ax

4、Y以Y為自變量預測因變量X時,方程為父=bXYY+aXY三、b和a的求解原則和方法(一)最小二乘法建立一個線性回歸方程實際上就是確定一條直線,也就是求公式中的兩個常數一一截距a和回歸系數b,而研究這樣一條直線的常用方法是最小二乘法,這種方法需要我們找到這樣一條直線,使所有的點到直線的垂直距離的平方和最小,也稱最小平方法或最小二乘估計。就Y?=bXYX+aXY方程而方,對平面上任何一條直線我們都可以用數量(Y-Y?)去刻劃點(X,Y)到這條直線的遠近。其中,Y是實際觀測值,中是估計值。由于工(Y-Y?)=0,所以當我們用Y?去估計y時,要使其估計的誤差平方和工一心盡可能小。當z(Y-Y?i最小時

5、,方程Y?=bYXX+aYX所表示的直線就是最優擬合直線。所以求最優擬合方程的問題就可以歸結為根據實際觀測值求出Y?=byxX+ayx方程中的兩個常數a和b,使2(Y-Y?)的值最小。根據數學分析中的極值原理,當Y-Y?i最小時,Y?=bYxX+aYx中的常數a和b可以由下列公式求出hZ(X-X)(Y-Y)Lxyb二=-5二三(x-x)2Lxxa=Y-bx某一點的誤差為y_Y?=(y_Y)印Y)回歸線之斜率bi為對邊比鄰邊,即有,Y?-Yb=x-x5Y=b(xx)將代入,有Y-Y?=(Y-Y)-b(x-x)將誤差平方,則中Y-Y?)=I(y-Y)-b(x-x)2各個點誤差的平方和為工(Y-Y)

6、2=(Y-Y)-b(x-x)fY-ab2二-又x將代入,有%(Y-Y)2:J|(YXY-a1-Y)-Y-x-(x-x)一(Y-a-bx)0,則有由Z(Y-Y)2=(Y-a-bY)2分別求a,b的偏導數,并令它們等于fk(Y-a-bx)21八二0二a仆(Y-a-bx)21::b根據偏導數特性,有-2%(Y-a-bx)=0-2V(Y-a-bx)x=0整理后,則有x(Y-a-bx)=0%(xY-ax-bx2)=0-二0x(Y-a-bX):0、7-va-bvX=0%a=%Yb%Xa=Y一bXY-bX代入(XY-aX-bX2)=0得“XY-(Y-bX)X-bX21-0xXY-xXYbxXX-bxX2=0

7、vY%X“XYX-bX2-X)nnXY-vXxY/nb二2:2、X2-CX)2/n(X-X)(Y-丫)x(X-X)2所以,回歸系數b和截距a的計算公式分別為bYX(X_X)(Y_Y),(X-X)2同理,aYX=Y-bX“Y-bxX義=bY+a方程中求a,b的公式為bXY(X-X)(Y-Y)”(丫-丫)2aXY二X_bYXWY2.定義式bYXbXY計算式回歸系數的其他計算法%(X_X)(Y_Y)V(X-X)2(XX)(YY)“(丫-丫)2二、XY-xXxY/n“X1X2X)2/n二XY-xXxY/n“丫=、Y2-(Y)2/”(X-X)(Y-Y)4-(X-X)2_(XY-XY-X丫X丫)%(X2-

8、2XX-X2)x(XY-XY-XYXY)2_2(X-2XX-X)“XYXY%XYYXN2N2N2、XN“X2、.2XXvX2-2N%X、Y%XY%(X-X)(Y-Y)%(X-X)2%XY-%X,Yno2“X2-VXn同理,有bXY%(X-X)(Y-Y)v(Y-Y)2“XY-XYn根據例11-1的數據可以計算有關的統計量如下,求其回歸系數和截距。ZX=2902X=9714Y2=59152X=29Sx-11-42Y=76SY=11.80二XY23011-29076010I_23011bYX-29714-29010971=0.741304aYX=76-0.7429=54.54所以,以學習時間預測考試

9、成績的回歸方程為Y?=0.74X54.54若某人的學習時間為35小時,其考試成績則為Y?=0.743554.54=80.443.相關系數法SYbYX=rSXbXY=rbYX-SXST_%(X-X)(Y-Y)%(X-X)2Z(X1以丫他(YY2F,8嚴5=5.32,p0.05),則b與卜二0之間無顯著差異,其差異主要是抽樣誤差,可忽略不計,說明b是來自B=0總體。這時即使計算的b值較大也不能認為X與Y之間存在線性關系。相反,若b在以P=0的抽樣分布上出現誤差的概率較小(即p/0052=2.31p/S-1卜1。例如:三、預測的置信區間就中=bX+a而言,其預測區間為Y=Y?1.96SEx或Y=Y?2.58SEyx如例1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論