第一節(jié):回歸分析_第1頁
第一節(jié):回歸分析_第2頁
第一節(jié):回歸分析_第3頁
第一節(jié):回歸分析_第4頁
第一節(jié):回歸分析_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、回 歸 分 析一切運動著的事物都是相互聯(lián)系、相互制約的,從而描述事物和事物運動的變量之間也是相互聯(lián)系、相互制約的。變量之間的相互關(guān)系,可分為兩類:一類叫做確定性關(guān)系,也叫做函數(shù)關(guān)系,其特征是一個變量隨著其他變量的確定而確定。例如圓面積與半徑之間的關(guān)系。另一類關(guān)系叫做相關(guān)關(guān)系,這類關(guān)系的特征是:變量之間的關(guān)系很難用一種精確的方法表示出來。例如,人體的身高與體重之間有一定的關(guān)系,但是由身高不能精確地計算出體重,由體重也不能精確地計算出身高。不過,需要指出的是:確定性關(guān)系與相關(guān)性關(guān)系之間沒有一道不可逾越的鴻溝。由于存在測量誤差等原因,確定性關(guān)系在實際問題中往往通過相關(guān)關(guān)系表示出來。另一方面,當(dāng)對事物

2、內(nèi)部的規(guī)律了解的更加透徹時,相關(guān)關(guān)系也可以轉(zhuǎn)化為確定性關(guān)系。回歸分析就是處理變量之間的相關(guān)關(guān)系的一種數(shù)學(xué)方法。它是最常用的數(shù)理統(tǒng)計方法,能解決預(yù)測、控制、生產(chǎn)工藝優(yōu)化等問題。在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究各個領(lǐng)域中均有廣泛應(yīng)用?;貧w分析一般分為線性回歸分析和非線性回歸分析。本章著重介紹線性回歸分析,它是兩類回歸分析中較簡單的一類,也是應(yīng)用的較多的一類。第一節(jié) 一元線性回歸一、數(shù)學(xué)模型一元線性回歸分析的基本模型為 (1)其中未知參數(shù)稱為回歸系數(shù),自變量也稱為回歸變量。是隨機誤差項,總是假設(shè)N(0, )。(1)式兩邊同時取期望得:,稱為對的回歸直線方程。在該模型下,第個觀測值可以看作樣本(這些樣本相互獨立

3、但不同分布)的實際抽樣值,即樣本值。一元線性回歸分析的主要任務(wù)是:(i)建立因變量與自變量之間的回歸模型;(ii)用樣本值對和作點估計;(iii)對回歸系數(shù)作假設(shè)檢驗;(iv)在處對作預(yù)測,并對作區(qū)間估計。二、模型參數(shù)估計有n組獨立觀測值(x1,y1),(x2,y2),(xn,yn)設(shè), N(0, )且相互獨立 記 最小二乘法就是選擇和的估計值,使得 為此,將上式分別對求偏導(dǎo)數(shù),根據(jù)極值存在的必要條件,得整理后得到下面的方程組此方程組稱為正規(guī)方程。解上方程組并用取代,得或 其中,。用這種方法求出的估計值稱為的最小二乘估計,簡稱LS估計。(經(jīng)驗)回歸方程為: 三、一元線性回歸模型的檢驗一元線性回

4、歸分析模型的檢驗分為擬合程度檢驗和顯著性檢驗,它是利用統(tǒng)計學(xué)中的抽樣理論來檢驗回歸方程的可靠性。(一)一元線性回歸方程擬合程度的評價所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。判斷回歸模型擬合程度大小的最常用指標是判定系數(shù)和估計標準誤差。這兩個指標都是建立在對總離差平方和進行分解的基礎(chǔ)上的。對于任一樣本觀測點,因變量的實際觀測值與其樣本均值的離差即總離差可以分解為兩部分:一部分是因變量的回歸值與其樣本均值的離差,它可以看成是總離差中能夠由回歸直線解釋的部分,稱為可解釋離差;另一部分是實際觀測值與回歸值的離差,它是總離差中不能由回歸直線加以解釋的殘差,該殘差可以看作是回歸模型中隨

5、機誤差項的一個估計。對任意一實際觀察值總有:對于全部樣本觀測點,可以證明有如下關(guān)系式成立:如果記,,則有:上式中:是總的離差平方和(或總變差);是由回歸直線可以解釋的那一部分離差平方和,稱為回歸平方和(或回歸變差);是用回歸直線無法解釋的離差平方和,稱為剩余平方和(剩余變差)。顯然,各點觀測值與直線越靠攏,回歸變差占總變差的比重就越大,說明直線擬合得就越好。1. 判定系數(shù)我們把回歸平方和與總離差平方和之比定義為樣本判定系數(shù),即判定系數(shù)是一個回歸直線與樣本觀測值擬合優(yōu)度的指標。的值總是在0和1之間。一個線性回歸模型如果充分利用了的信息,則越接近于1,擬合優(yōu)度就越好。反之,如果不大,說明以模型中給

6、出的對的信息還不充分,應(yīng)進行修改,使和的信息得到充分的利用。2回歸標準差如上所述,從觀測值與估計值的對比來看,回歸直線上的各點同對應(yīng)的觀測值各點之間,均存在一定的離差,即觀測值曲線上各點的值均偏離回歸直線。離差越大,擬合程度越差。因而需要測定估計值的標準差,而回歸標準差就是用來估量值在回歸直線兩側(cè)的離差程度,以便在進行實際預(yù)測時為預(yù)測值建立一個置信區(qū)間范圍?;貧w標準差的計算公式為:值越小,表明回歸直線擬合程度越好。(二)一元線性回歸方程的顯著性檢驗回歸分析中的顯著性檢驗包括三個方面的內(nèi)容:一是對各回歸系數(shù)的顯著性檢驗(檢驗);二是對回歸方程整體的顯著性檢驗(檢驗);三是與之間線性相關(guān)程度的檢驗

7、(檢驗)1檢驗檢驗的目的在于檢驗各回歸系數(shù)的顯著性,即與之間是否真正存在線性關(guān)系,具體表現(xiàn)為回歸系數(shù)是否為0。若為0,則所求回歸直線就為一條水平線,與之間無線性關(guān)系;若不為0,認為與之間存在線性關(guān)系,所建立的回歸方程符合變量間的變化規(guī)律。檢驗的步驟如下:(1) 假設(shè)觀測的樣本來自沒有線性關(guān)系的總體,即: (2)計算回歸系數(shù)的檢驗統(tǒng)計量值:式中,為回歸系數(shù)的標準差,其計算公式為: 為回歸估計標準誤差,計算方法是: (3)根據(jù)給定的顯著性水平和自由度,查分布表,可得相應(yīng)的臨界值。(4)決策:若,則拒絕,得到的結(jié)論;若,則不能拒絕。 2檢驗檢驗的目的在于檢驗所得到的線性回歸方程在整體上是否顯著成立,

8、進一步檢驗與之間是否存在線性關(guān)系。其檢驗步驟如下:(1)假設(shè)回歸方程是不顯著的,即:方程不顯著 :方程顯著(2)計算回歸方程的統(tǒng)計量:(3)根據(jù)給定的顯著性水平,分子自由度1和分母自由度,查分布表中相應(yīng)的臨界值。(4)決策:若,則拒絕原假設(shè),說明回歸方程顯著;若,則不能拒絕原假設(shè),與之間的關(guān)系不明顯或無關(guān)系,說明回歸方程不顯著。3檢驗我們已經(jīng)提到,如果回歸變差占總變差的比重就越大,說明直線擬合得就越好,記(或)稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù)。故統(tǒng)計量可用來刻畫與之間線性相關(guān)的密切程度,也可用來檢驗假設(shè),其檢驗方法稱為檢驗法。四、運用回歸方程進行估計和預(yù)測如果我們利用最小二乘法原理,得到變量與

9、之間的簡單線性回歸方程,并且證明了與之間在統(tǒng)計上具有顯著的關(guān)系,那么由估計的回歸方程給出的對樣本數(shù)據(jù)的擬合,在我們看來就是一個好的擬合。我們利用估計的回歸方程進行估計和預(yù)測,應(yīng)該是合適的。將已判斷出的未來的自變量的值代入預(yù)測模型,就可以算出預(yù)測值。預(yù)測值的置信區(qū)間,就是在一定的概率下,估計預(yù)測值的范圍,或它的上下限。從理論上講,如果觀測值數(shù)據(jù)越多,即樣本越大,則可用回歸標準差來判斷預(yù)測值的置信區(qū)間。其公式為:對于小樣本,即時,估算預(yù)測值的置信區(qū)間,應(yīng)引入一個校正系數(shù),則置信區(qū)間為五、可線性化的一元非線性回歸(曲線回歸)例:出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕,容積不斷增大.我們希

10、望知道使用次數(shù)與增大的容積之間的關(guān)系.對一鋼包作試驗,測得的數(shù)據(jù)列于下表:使用次數(shù)增大容積使用次數(shù)增大容積234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76將畫出散點圖,這些點分布在一條曲線附近。從下圖可以看出,開始時侵蝕速度快,然后逐漸減慢,而點的分別逐漸接近于一條平行于軸的直線,因此鋼包容積不會無限增加。顯然將此例看作一元線性回歸是不合適的,此即非線性回歸或曲線回歸問題(需要配曲線)配曲線的一般方法是:先對兩個變量和作n次試驗觀察得畫出散點圖,根據(jù)散點圖確定須配

11、曲線的類型.然后由n對試驗數(shù)據(jù)確定每一類曲線的未知參數(shù)和。采用的方法是通過變量代換把非線性回歸化成線性回歸,即采用非線性回歸線性化的方法。通常選擇的六類曲線如下:(1) 雙曲線。(2)冪函數(shù)曲線, 其中。(3)指數(shù)曲線,其中參數(shù)。(4)倒指數(shù)曲線,其中參數(shù)。(5)對數(shù)曲線, 其中。(6)S型曲線。現(xiàn)在來求解例題。由散點圖我們選配到指數(shù)曲線根據(jù)線性化方法,算得由此 最后得 。第二節(jié) 多元線性回歸一、數(shù)學(xué)模型本節(jié)介紹有多個自變量的多元線性回歸,這種回歸在工程上應(yīng)用更為廣泛。一般地,影響試驗指標的因素往往不止一個,即有多個因素,假設(shè)它們之間有如下的線性關(guān)系式: (1)其中,為可觀察的隨機變量,稱為因

12、變量。為非隨機的可精確觀查的變量,稱為自變量或因子,為個未知參數(shù),為隨機變量。一般假設(shè)N(0, )。為了估計,我們對與同時作次觀察得組觀察值,它們滿足關(guān)系式為了用矩陣表示上式,令, ,于是,(1)式可變?yōu)?且N(0, ),為階單位矩陣。二、模型參數(shù)估計下面用最小二乘法求的估計量,作離差平方和選擇,使達到最小。根據(jù)微積分學(xué)中的最值原理,只需求下面正規(guī)方程組的解,即解此方程組得到的不是的真值,而是估計值,故將此正規(guī)方程組可化簡為解得 將計算得到的,代入方程得三、回歸方程的假設(shè)檢驗在實際問題中,事先我們并不知道或者不能判定與之間確有線性關(guān)系。往往只是一種假設(shè),因此在求出線性回歸方程之后,還須對求出的

13、線性回歸方程同實際觀測數(shù)據(jù)擬合效果進行檢驗,可提出以下原假設(shè)(1)檢驗由前面的知識知,當(dāng)成立時,有根據(jù)給定的顯著性水平,分子自由度和分母自由度,查分布表中相應(yīng)的臨界值若,則拒絕原假設(shè),說明回歸方程顯著;若,則不能拒絕原假設(shè),與之間的關(guān)系不明顯或無關(guān)系,說明回歸方程不顯著。(2)檢驗定義為與的多元相關(guān)系數(shù)或復(fù)相關(guān)系數(shù)。容易證明與有如下關(guān)系:故用與檢驗是等效的。四、多項式回歸設(shè)變量、的回歸模型為其中p是已知的,是未知參數(shù),服從正態(tài)分布。稱為回歸多項式。上面的回歸模型稱為多項式回歸。令,i=1,2,k多項式回歸模型則變?yōu)槎嘣€性回歸模型。第三節(jié) MATLAB統(tǒng)計工具箱中的回歸分析命令MATLAB統(tǒng)計

14、工具箱中提供了一些回歸分析的命令,現(xiàn)介紹如下:一、多元線性回歸:多元線性回歸的命令式regress,此命令也可用于一元線性回歸。其格式如下: 1確定回歸系數(shù)的點估計值:b=regress( Y,X )2求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: b, bint, r, rint, stats = regress( Y,X,alpha)3畫出殘差及其置信區(qū)間: rcoplot(r,rint)上述命令中,各符號的含義如下:(1) b,Y,X見第二節(jié),其中b為回歸系數(shù)的點估計值,即, 對一元線性回歸,取k =1即可(2) alpha 為顯著性水平(缺省時為0.05);(3) bint 為回歸系數(shù)

15、的區(qū)間估計;(4) r與rint 分別為殘差及其置信區(qū)間;(5) stats 是用于檢驗回歸模型的統(tǒng)計量,有三個數(shù)值,第一個是相關(guān)系數(shù),越接近1,說明回歸方程越顯著;第二個值是值,時拒絕原假設(shè),越大,說明回歸方程越顯著;第三個是與對應(yīng)的概率,時拒絕,回歸模型成立。例1:測16名成年女子的身高與腿長所得數(shù)據(jù)如下,是研究身高與腿長之間的關(guān)系。身高(cm)143145146147149150153154腿長(cm)8885889192939395身高(cm)155156157158159160162164腿長(cm)969897969899100102解:1輸入數(shù)據(jù):x=143 145 146 14

16、7 149 150 153 154 155 156 157 158 159 160 162 164X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2回歸分析及檢驗: b,bint,r,rint,stats=regress(Y,X); b,bint,stats得結(jié)果:b = -16.0730 0.7194 bint =-33.7071 1.56120.6047 0.8340stats = 0.9282 180.9531 0.0000即;的置信區(qū)間為-33.7017,1.5612, 的置信區(qū)間為0.6047,0.

17、834; =0.9282, =180.9531, =0.0000,0.05, 可知回歸模型 成立.3殘差分析,作殘差圖: rcoplot(r,rint)從殘差圖可以看出,除第二個數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點均較近,且殘差的置信區(qū)間均包含零點,這說明回歸模型 能較好的符合原始數(shù)據(jù),而第二個數(shù)據(jù)可視為異常點。4預(yù)測及作圖: z=b(1)+b(2)* plot(x,Y,k+,x,z, r) 二、多項式回歸1.一元多項式回歸 一元多項式回歸可以用命令polyfit, polyval, polyconf來實現(xiàn).命令格式如下:(1)回歸:回歸可以用以下兩個命令之一:確定多項式系數(shù)的命令:p,S=polyf

18、it(x,y,m)其中,是多項式的系數(shù)S是一個矩陣,用來估計預(yù)測誤差。一元多項式回歸命令:polytool(x,y,m)。此命令產(chǎn)生一個交互式的畫面,畫面中有擬合曲線和Y的置信區(qū)間。通過左下方的Export下拉式菜單,可以輸出回歸系數(shù)等。(2)預(yù)測和預(yù)測誤差估計:Y=polyval(p,x)求polyfit所得的回歸多項式在x處的預(yù)測值Y;Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得的回歸多項式在x處的預(yù)測值Y及預(yù)測值的顯著性為1-alpha的置信區(qū)間YDELTA;alpha缺省時為0.05。一元多項式也可化為多元線性回歸來解。例2 觀測物體降落的距離s與時間

19、t的關(guān)系,得到數(shù)據(jù)如下表,求s關(guān)于t的回歸方程.t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.48法一 用一元多項式回歸:(1)輸入數(shù)據(jù):t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.

20、48;(2)作二次多項式回歸p,S=polyfit(t,s,2)得回歸模型為 :(3)預(yù)測及作圖Y=polyconf(p,t,S)plot(t,s,k+,t,Y,r)法二 化為多元線性回歸:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t(t.2);b,bint,r,rint,stats=regress(s,T);b,stats得回歸模型為 :可以看出,兩種方法得出的結(jié)果是一樣的。2.多元二項式回歸多元

21、二項式回歸用命令:rstool(x,y,model, alpha)。其中,輸入數(shù)據(jù)x、y分別為nm矩陣和n維列向量,alpha為顯著性水平(缺省時為0.05);model由下列4個模型中選擇1個(用字符串輸入,缺省時為線性模型):linear(線性):purequadratic(純二次):interaction(交叉):quadratic(完全二次):例3 設(shè)某商品的需求量與消費者的平均收入、商品價格的統(tǒng)計數(shù) 據(jù)如下,建立回歸模型,預(yù)測平均收入為1000、價格為6時的商品需求量。需求量10075807050659010011060收入1000600 1200500300400130011001

22、300300價格5766875439選擇純二次模型,即 法一:直接用多元二項式回歸:(1) 數(shù)據(jù)輸入x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2;(2)回歸、檢驗及預(yù)測 rstool(x,y, purequadratic)將左邊圖形下方方框中的“800”改成1000,右邊圖形下方的方框中仍輸入6.則畫面左邊的“Predicted Y”下方的數(shù)據(jù)由原來的“86.3791”變?yōu)?8.4791,即預(yù)測出平均收入為1000

23、價格為6時的商品需求量為88.4791。在畫面左下方的下拉式菜單中選“all”, 則betarmse和residuals都傳送到MATLAB工作區(qū)中。在MATLAB工作區(qū)中輸入命令: beta, rmse得結(jié)果:beta = 110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse = 4.5362故回歸模型為:剩余標準差為4.5362, 說明此回歸模型的顯著性較好。法二:將化為多元線性回歸X=ones(10,1) x1 x2 (x1.2) (x2.2) ;b,bint,r,rint,stats=regress(y,X);b,stats結(jié)果為: b = 110.5313 0.1464 -26.5709 -0.0001 1.8475 stats = 0.9702 40.6656 0.0005可以看出,兩種方法的結(jié)果是一樣的。Stats中第一個數(shù)據(jù)與1非常接近,第三個數(shù)據(jù)與0非常接近,這說明所得的回歸模型顯著性很好。三、非線性回歸非線性回歸可用命令nlinfit,nlintool,nlpredci來實現(xiàn)。命令格式如下1回歸:(1)確定回歸系數(shù)的命令: beta,r,J=nlinfit(x,y, model,beta0)其中,輸入數(shù)據(jù)x、y分別為nm矩陣和n維列向量,對一元非線性回歸,x為n維列向量;m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論