第九章回歸分析_第1頁
第九章回歸分析_第2頁
第九章回歸分析_第3頁
第九章回歸分析_第4頁
第九章回歸分析_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第九章 回歸分析9.1 一元線性回歸 引言在客觀現(xiàn)象中,普遍存在著變量與變量之間的某種關(guān)系。數(shù)學(xué)上是用數(shù)量來描述這些關(guān)系。人們通過各種實(shí)踐,發(fā)現(xiàn)變量之間的關(guān)系概括起來可分為“確定性的”與“非確定性的”兩個(gè)類型。例如,作勻速直線運(yùn)動(dòng)的物體,經(jīng)過的路程(S)與時(shí)間(t)的關(guān)系滿足這就是說,對(duì)已知的時(shí)間t,路程S可由上式完全確定,反之亦然。這是確定性關(guān)系。數(shù)學(xué)上稱這種確定關(guān)系為“函數(shù)關(guān)系”。 但在客觀現(xiàn)象中,還存在著另一種類型的變量之間的關(guān)系,它們不能用函數(shù)的關(guān)系敘述。例如,人的身高x與體重Y是兩個(gè)變量,在通常情況下,即使是身高完全相同的兩個(gè)人,體重也不一定一樣,因而身高不能完全確定體重,但平均來說

2、,身高者體重也大些。x與Y之間的關(guān)系是“非確定性”關(guān)系。產(chǎn)生這種關(guān)系的原因是一些不可控制的因素,如遺傳,性格,飲食習(xí)慣等。像這樣的例子是很多的,如年齡與血壓的關(guān)系,煉鋼爐中鐵水的含碳量與冶煉時(shí)間的關(guān)系,農(nóng)作物的產(chǎn)量與施肥量的關(guān)系等。數(shù)學(xué)上稱這種非確定性關(guān)系為“相關(guān)關(guān)系”。 在相關(guān)關(guān)系中的變量,有的是可以控制的,如年齡與血壓的關(guān)系中的變量年齡,煉鋼爐中鐵水的含碳量與冶煉時(shí)間中的關(guān)系中的變量冶煉時(shí)間等。但大多數(shù)變量都是不可控制的,如煉鋼爐中鐵水的含碳量與冶煉時(shí)間中的變量含碳量就是不可控制的,冶煉時(shí)間一定,含碳量卻不能確定,這種不可控制的變量是隨機(jī)變量。嚴(yán)格地說,討論自變量為可控變量而因變量為隨機(jī)變

3、量的關(guān)系問題稱為回歸分析;討論隨機(jī)變量之間的關(guān)系問題稱為相關(guān)分析。這兩種問題有時(shí)也統(tǒng)稱為回歸分析,或統(tǒng)稱為相關(guān)分析。 回歸這個(gè)名詞由英國統(tǒng)計(jì)學(xué)家F·Galton在1885年首先使用,他在研究父親身高與兒子身高之間的關(guān)系時(shí)發(fā)現(xiàn):高個(gè)子父親所生兒子比他更高的概率要小于比他矮的概率;同樣,矮個(gè)子父親所生兒子比他矮的概率小于比他高的概率。這兩種高度父親的后代,其高度有向中心(平均身高)回歸的趨勢。 我們?cè)鯓觼硌芯恳蜃兞浚ㄒ卜Q響應(yīng)變量)Y與自變量x之間的相關(guān)關(guān)系呢?由于Y是隨機(jī)變量,故對(duì)于自變量x的每一個(gè)確定的值,Y有一定的概率分布,因此,假如Y的數(shù)學(xué)期望若存在的話,則E(Y/x)顯然是x的函

4、數(shù)。統(tǒng)計(jì)上稱Y的條件期望 ()為Y對(duì)x回歸函數(shù),簡稱回歸。 回歸函數(shù)描述了因變量Y的均值與自變量x的相依關(guān)系,例如,若Y表示某種農(nóng)作物的畝產(chǎn)量,x表示每畝的施肥量,則可理解為在相當(dāng)大的面積上每畝施肥量為x時(shí)的畝平均產(chǎn)量,由于Y分布是未知的,故回歸函數(shù)也是未知的。我們只能利用試驗(yàn)數(shù)據(jù)對(duì)進(jìn)行估計(jì),統(tǒng)計(jì)學(xué)稱估計(jì)的問題為求Y對(duì)x的回歸問題。 下面介紹求回歸問題的一般步驟:(1)求取試驗(yàn)數(shù)據(jù)取自變量x一組不全相同的數(shù)值: 進(jìn)行n次獨(dú)立試驗(yàn),得到Y(jié)的相應(yīng)觀察值:。于是就構(gòu)成n對(duì)數(shù)據(jù)我們稱這n對(duì)數(shù)據(jù)為樣本觀察值。(2)選取回歸模型 所謂選擇模型,是指選取怎樣的函數(shù)來描述。這不是一個(gè)純數(shù)學(xué)問題,它往往要結(jié)合經(jīng)

5、驗(yàn)或試驗(yàn)來確定,統(tǒng)計(jì)學(xué)的方法能幫助我們根據(jù)試驗(yàn)初步確定這個(gè)函數(shù)的類型。具體作法是:將樣本觀察值在直角坐標(biāo)系中描出,得到的圖形稱為“散點(diǎn)圖”。它的分布狀況可幫助我們粗略地選定的類型。如果“散點(diǎn)圖”近似在一條直線上,我們就可以選取,這時(shí)可建立回歸模型其中a和b是待估計(jì)的參數(shù)。稱為統(tǒng)計(jì)誤差。統(tǒng)計(jì)誤差由模型誤差和隨機(jī)誤差構(gòu)成。模型誤差是Y與x的真實(shí)回歸關(guān)系與選取的回歸函數(shù)之間的誤差,如果選取的回歸函數(shù)正確,模型誤差可忽略不計(jì)。故為隨機(jī)誤差,。(3)對(duì)回歸模型中未知參數(shù)作估計(jì)如果回歸模型已經(jīng)選定,接下來的問題就是對(duì)模型中的未知參數(shù)進(jìn)行估計(jì)。通常采用最小二乘法估計(jì)和極大似然估計(jì)方法得到回歸函數(shù)中未知參數(shù)的

6、估計(jì)量,矩估計(jì)得到響應(yīng)變量Y的方差2的估計(jì)量。若將此估計(jì)代入選定的回歸函數(shù)中得到經(jīng)驗(yàn)回歸方程。如就是一元線性回歸中的經(jīng)驗(yàn)回歸方程。(4)對(duì)選定的模型進(jìn)行檢驗(yàn)?zāi)P偷倪x定是根據(jù)經(jīng)驗(yàn)或“散點(diǎn)圖”。很明顯,根據(jù)這些理由而選定的模型與實(shí)際數(shù)據(jù)是否有良好的吻合是不足為據(jù)的。因此,有必要用樣本觀察值對(duì)選定的模型進(jìn)行檢驗(yàn)。如檢驗(yàn)Y與x是否有線性關(guān)系,就是檢驗(yàn)假設(shè)Ho:b = 0 。如果通過樣本觀察值拒絕了Ho,就可以為Y與x顯著地存在線性關(guān)系。否則Y與x的線性關(guān)系不顯著。(5)預(yù)測與控制實(shí)際中,當(dāng)自變量x 取一個(gè)值時(shí),Y的取值如何是一個(gè)很值得考慮的問題。也就是說,當(dāng)自變量x取定一數(shù)值時(shí),對(duì)Y的取值作一個(gè)估計(jì)(

7、點(diǎn)估計(jì)和區(qū)間估計(jì)),這就是預(yù)測。另外,如果預(yù)先將Y的取值控制在某一范圍內(nèi)來確定此時(shí)的自變量x的取值,這就是控制。. 一元線性回歸的參數(shù)估計(jì)我們考慮一元線性回歸模型, ()及為未知參數(shù)。設(shè)為樣本,則 ()其中表示第i次試驗(yàn)中的隨機(jī)誤差。由于試驗(yàn)相互獨(dú)立,試驗(yàn)條件沒有改變,故,相互獨(dú)立且與同分布。,可看作的一個(gè)樣本設(shè)為 樣本觀察值,似然函數(shù)()顯然,要使L取最大值,只要上式右邊的平方和的部分為最小,即只需二元函數(shù) ()為求a和b的極大似然估計(jì),注意到是a和b的非負(fù)二次函數(shù),因此最小值點(diǎn)存在且唯一,滿足方程組的解。經(jīng)整理后得到() 其中, , , 由此方程組可解得到a,b的極大似然估計(jì)值()將式()

8、中換成隨機(jī)變量,y換成Y,就得a和b估計(jì)量,仍然記為和。在一般的線性模型中,并不假定服從正態(tài)分布,此時(shí)似然函數(shù)就不是式(),因而得不到式(),然而式(9.1.5)表示Y的觀察值與Y的回歸值的偏差的平方和最小。故從式(9.1.5)出發(fā)求得a , b的估計(jì)量是符合“最小二乘法”原則的。按式(9.1.5)求估計(jì)量的方法實(shí)際上就是最小二乘法。由此得到的估計(jì)量為最小二乘估計(jì)。最小二乘法的直觀想法是:在平面上找一條直線,使得“總的看來最接近散點(diǎn)圖”中的各個(gè)點(diǎn)。而Q(a , b)就是定量地描述了直線y = a + bx 與“散點(diǎn)圖”中各點(diǎn)的總的接近程度。因此,直線,即(經(jīng)驗(yàn))回歸直線,就是最接近“散點(diǎn)圖”中

9、各點(diǎn)的直線。如果參數(shù)2也是未知的,我們還需對(duì)2進(jìn)行估計(jì)。由于是的二階原點(diǎn)距,按矩估計(jì),可用()作為2的估計(jì)。然而a和b 是未知的,我們可用和來代替,直觀上可以想到作為2的估計(jì),但它不是2的無偏估計(jì),這里稱為殘差平方和。2的一個(gè)無偏估計(jì)可以通過用其自由度去除獲得,其中殘差的自由度=試驗(yàn)次數(shù)-模型中參數(shù)的個(gè)數(shù)。對(duì)于一元回歸模型,殘差的自由度=n-2,故2的估計(jì) ()為使計(jì)算的數(shù)值更方便,(8)可寫為 ()其中。例 某車間為了制定工時(shí)定額,需要確定加工零件所消耗的時(shí)間,為此進(jìn)行了10次試驗(yàn),其結(jié)果如下表x(個(gè)) 102030405060708090100Y(分)6268758189951021081

10、15122其中x表示零件數(shù),Y表示時(shí)間,試求Y對(duì)x的回歸方程,并求2的無偏估計(jì)的值。解 本題中n = 10。通過計(jì)算,有,故從而經(jīng)驗(yàn)回歸直線方程2的無偏估計(jì)值模型檢驗(yàn)為了對(duì)參數(shù)作假設(shè)檢驗(yàn)和區(qū)間估計(jì),我們給出一些統(tǒng)計(jì)量的分布 () () ()設(shè),則 ()上式稱為平方和分解式,稱SST為總平方和,SSR為回歸平方和,SSE為剩余平方和。當(dāng)時(shí), ()且SSR和SSE獨(dú)立。在實(shí)際工作中,事先我們并不能確定Y和x確有線性關(guān)系。因此按極大似然法和最小二乘法求得a 和 b 的估計(jì)和,確定的回歸方程不一定反映Y與x的關(guān)系,這是因?yàn)閷?duì)于任何兩個(gè)變得x 與Y 之間的一組數(shù)據(jù),i =1,2,n, 無論它們是否線性相

11、關(guān),都可按照上述方法建立Y對(duì)x的回歸方程。也就是說,即使Y與x之間并不存在線性相關(guān)關(guān)系,同樣可以求出Y對(duì)x的回歸方程,顯然這樣的回歸方程是沒有意義的。因此,對(duì)線性問題必須進(jìn)行顯著性假設(shè)檢驗(yàn)。有多種檢驗(yàn)方法,我們只介紹檢驗(yàn)法 對(duì)回歸系數(shù)提出原假設(shè)Ho :b = 0()若被拒絕,說明Y與之間顯著存存線性關(guān)系。否則,我們不能認(rèn)為Y與有線性關(guān)系。引起線性不顯著通常有如下一些原因:影響Y的數(shù)值除了變量外還有其它重要因素(或變量),這樣固定時(shí)Y不服從正態(tài)分布;Y與之間不是線性關(guān)系,而是某種非線性關(guān)系,例如二次拋物線(它的對(duì)稱軸平行于軸)形式的聯(lián)系;Y的值與無關(guān)。選取統(tǒng)計(jì)量()對(duì)給定顯著性水平(0<&

12、lt;1)得到拒絕域()利用試驗(yàn)數(shù)據(jù)計(jì)算統(tǒng)計(jì)量的值,并查表求出。若成立,則拒絕Ho,認(rèn)為Y與x有線性相關(guān)關(guān)系,否則認(rèn)為Y與x 沒有線性相關(guān)關(guān)系。例檢驗(yàn)例中Y與x之間的線性關(guān)系是否顯著,取 = 0.01解:采用T檢驗(yàn)法。計(jì)算T的值而查表求得從而得到 ,故拒絕,即Y與 x之間顯著地存在線性關(guān)系。預(yù)測如果得到的回歸方程經(jīng)檢驗(yàn)顯著,也稱回歸方程擬合得好,就可利用它進(jìn)行預(yù)測。預(yù)測就是指對(duì)x = xo時(shí),Y所對(duì)應(yīng)的Yo大致是什么或在什么范圍內(nèi)。由于Y為隨機(jī)變量,所以只能對(duì)Y作點(diǎn)估計(jì)或區(qū)間估計(jì)。預(yù)測的具體方法如下(1)求Y0的預(yù)測值設(shè)自變量x與因變量Y服從模型(),則有且樣本與樣本相互獨(dú)立。我們可以得到Y(jié)0

13、的預(yù)測值()這樣求出的預(yù)測值是有誤差的,產(chǎn)生誤差的第一個(gè)原因是只是Y0的平均值E(Y0)的一個(gè)估計(jì),Y0的實(shí)際值可能偏離它的平均值;第二個(gè)原因是估計(jì)量是以a和b為基礎(chǔ)的,而a和b本來就有隨機(jī)抽樣的誤差。和參數(shù)的點(diǎn)估計(jì)一樣,預(yù)測值只能對(duì)因變量Y0的值比較粗糙的描述,對(duì)預(yù)測的誤差大小不能作很好的判斷,預(yù)測區(qū)間比較好地解決了這一問題。(2)求Y0的預(yù)測區(qū)間Y0的預(yù)測區(qū)間就是對(duì)Y0的區(qū)間估計(jì),它分三個(gè)步驟:首先構(gòu)造一個(gè)估計(jì)量并推導(dǎo)其分布。可用作點(diǎn)估計(jì),而由統(tǒng)計(jì)分布性質(zhì)有 () ()容易證明()這樣得到了的預(yù)測區(qū)間()其中 ()最后,利用樣本數(shù)據(jù)求得具體的預(yù)測區(qū)間。順便指出,在x處Y的預(yù)測區(qū)間為()區(qū)間

14、的長度為。當(dāng)x變動(dòng)時(shí),預(yù)測區(qū)間的長度也在變化。顯然當(dāng)時(shí),預(yù)測區(qū)間最短,估計(jì)也就是最精確。當(dāng)n很大時(shí),在離的距離不遠(yuǎn)處,有,故在x處Y的預(yù)測區(qū)間為此時(shí),預(yù)測區(qū)間的上下限近似一條直線。例 已知例中的,求Y0的預(yù)測值與置信度為99%的預(yù)測區(qū)間。解 Y0的預(yù)測值為,置信度為99%的預(yù)測區(qū)間為(98.38-2.53,98.38+2.53)即(95.85,100.01)。9.1.5控制控制是預(yù)測的反問題,它是討論當(dāng)Y在區(qū)間內(nèi)取值時(shí),求出自變量x的取值范圍的問題。然而控制問題比預(yù)測問題復(fù)雜得多。由式()知,對(duì)某x相應(yīng)的Y的置信度為的預(yù)測區(qū)間為滿足對(duì)于區(qū)間,為使覆蓋Y的概率為,即只需取 ()如果能由上兩方程解

15、出x的兩個(gè)解,設(shè),則就是要求的控制區(qū)間,稱為x的置信度為的控制區(qū)間。但是,由于(x)很復(fù)雜,一般很難由上兩方程求出x的兩個(gè)解的。不過當(dāng)n充分大,且與接近時(shí),有。于是得解之得 ()當(dāng)時(shí),的置信度為的控制區(qū)間為;當(dāng)時(shí),的置信度為的控制區(qū)間為。9.2 多元線性回歸 在許多實(shí)際問題中,影響響應(yīng)變量的因素常常不止一個(gè)。例如考慮某種產(chǎn)品的銷售額,一般與銷售地區(qū)的總產(chǎn)值,人均收入,人口密度,廣告費(fèi)等有關(guān)。可以推知,多考慮幾個(gè)因素即用多個(gè)變量來預(yù)測其效果要比一元回歸好,而基本原理和一元回歸是一致的,只是在具體的方法上前者比后者更復(fù)雜一些。本節(jié)研究響應(yīng)變量與多個(gè)自變量的相關(guān)關(guān)系的問題,這就是多元回歸分析的內(nèi)容。

16、模型和參數(shù)估計(jì)設(shè)因變量與自變量之間滿足 ()其中均為待定的未知參數(shù)稱為回歸參數(shù)。稱(1)為多元線性模型。為了估計(jì)參數(shù),我們對(duì)作次觀察(試驗(yàn)),設(shè)是一個(gè)容量為的樣本,則我們可以得到(9.2.1)的一個(gè)有限樣本模型 ()其中相互獨(dú)立且與同分布。為了用矩陣表示上式,記于是模型(9.2.2)變?yōu)?)通常稱模型(9.2.3)為高斯馬爾柯夫多元線性模型。其中X為已知的階矩陣,稱為回歸設(shè)計(jì)矩陣;為維向量,和均未知;為維單位矩陣。Y是n維響應(yīng)變量向量,為n維隨機(jī)誤差向量,表示維向量服從均值向量為,協(xié)方差矩陣為的正態(tài)分布。對(duì)進(jìn)行估計(jì)就是找到的估計(jì)量,使得誤差平方和 ()達(dá)到最小。越小,模型也就越好。因?yàn)槭堑姆秦?fù)

17、二次函數(shù),所以最小值點(diǎn)存在且唯一。我們可以用達(dá)到最小值時(shí)的值作為的估計(jì),并稱這樣的估計(jì)方法為最小二乘估計(jì)方法,稱為的最小二乘估計(jì)。為了求,對(duì)關(guān)于求導(dǎo)數(shù),即即當(dāng)X為列滿秩時(shí),的最小二乘估計(jì)為()稱 ()為經(jīng)驗(yàn)回歸方程。與一元回歸模型類似,我們可以證明的極大似然估計(jì)也是(),的無偏估計(jì)為() 與一元回歸模型類似,我們可以給出和的統(tǒng)計(jì)性質(zhì):(1) ()(2)與獨(dú)立(3)設(shè),則 ()式()稱為總離差平方和分解式,稱為總離差平方和,稱SSR為回歸平方和,稱SSE為剩余平方和。(4)當(dāng)時(shí),且SSR和SSE獨(dú)立。例某廠生產(chǎn)的圓鋼,其屈服點(diǎn)受含碳量和含錳量的影響,現(xiàn)做了25次觀察,測得如下數(shù)據(jù)16181917

18、20161615191818171717183938393938484548484846484946442424.524.5242524.5242424.524.524.524.52524.524.5182021161819192119214548485555565858494924.52525252525.525.526.524.526求關(guān)于和的經(jīng)驗(yàn)回歸方程。解 設(shè)。因?yàn)? 所以又因所以故 多元回歸模型的檢驗(yàn)線性模型的有效性檢驗(yàn)與一元線回歸類似,要檢驗(yàn)變量間有沒有這種線性聯(lián)系,只要檢驗(yàn)個(gè)系數(shù)是不是全為零.。如果p個(gè)系數(shù)全為零,則認(rèn)為線性回歸不顯著;否則認(rèn)為線性回歸顯著。因此,多元線性模型的檢

19、驗(yàn)假設(shè)由n組觀察值檢驗(yàn)它是否成立。若接受Ho, 則認(rèn)為線性回歸不顯著,否則認(rèn)為線性回歸顯著。當(dāng)H0成立時(shí),有()因?yàn)椋从掣饕蛩貙?duì)的總的線性影響所起的作用,反映了其它因素對(duì)的影響所起的作用。如果比值較大,更精細(xì)些,如果比值F較大,則說明對(duì)的線性作用比其它因素對(duì)的影響作用大,此時(shí)就不能認(rèn)為Ho成立,如果F很小,則說明其它因素(隨機(jī)因素)對(duì)起主要作用,因此不能拒絕Ho。給定顯著性水平,則查表可得使得到拒絕域()回歸系數(shù)的顯著性檢驗(yàn) 在多元線性模型中,雖然經(jīng)檢驗(yàn)知與之間具有顯著線性關(guān)系,但是每個(gè)對(duì)的影響作用并不是一樣的,因此,經(jīng)檢驗(yàn)不拒絕線性模型之后,還需從線性模型中剔除可有可無的因素,保留那些比較

20、重要的因素,重新建立更為簡單的線性回歸方程,以便更利于實(shí)際應(yīng)用。因此,對(duì)的檢驗(yàn)假設(shè)也是很重要的。因?yàn)?,記為的第i行第j列元素,。從而 ()()得到拒絕域或()如果檢驗(yàn)結(jié)果不拒絕Ho,即 ,應(yīng)將從回歸方程中剔除。需要注意的是:在剔除對(duì)影響不顯著的變量時(shí),考慮變量之間的重要作用,每次只剔除一個(gè)不顯著的變量,如果有幾個(gè)變量對(duì)的影響都不顯著,則先剔除其中F值最小的那個(gè)變量,剔除一個(gè)變量且由最小二乘法建立新的回歸方程后,還必須對(duì)剩下的p-1個(gè)變量再用上述方法檢驗(yàn)它們對(duì)的影響是否顯著,如果有不顯著的,則逐個(gè)剔除,直到保留下來的變量對(duì)都影響顯著為止。例考慮例,檢驗(yàn)線性模型是否顯著和檢驗(yàn)假設(shè)是否成立。 解

21、因?yàn)樗杂忠颍?,故線性模型顯著。 因?yàn)椋宜院投硷@著不為0。預(yù)測點(diǎn)預(yù)測設(shè)我們獲得了的一組新的觀察值(不是樣本值),它們?yōu)椋瑢?duì)預(yù)測是對(duì)作點(diǎn)估計(jì)和區(qū)間估計(jì),記相應(yīng)的值為,有 ()其中與獨(dú)立,顯然可用 ()作為Y0的點(diǎn)預(yù)測(估計(jì)),因?yàn)椋裕瑢?shí)際上是Y0的無偏估計(jì)量。區(qū)間估計(jì)對(duì)于給定的求的置信度為的置信區(qū)間,可以證明 ()其中,為的第i行第j列元素,。同時(shí)還可以證明 ()給定置信度,查得 的值,使從而可得的置信度為的預(yù)測(置信)區(qū)間為, (9)例考慮例中,當(dāng)時(shí),求相應(yīng)的的置信度為0.95的預(yù)測區(qū)間解 因的置信度為0.95的預(yù)測區(qū)間(25.4296,26.7736)變量選擇及多元共線性性問題

22、在多元線性回歸模型是,由于有多個(gè)自變量,存在一些有一元線性回歸模型中不會(huì)遇到的問題。本節(jié)討論兩個(gè)涉及到變量之間關(guān)系的問題。第一個(gè)問題是關(guān)于自變量與因變量之間的關(guān)系。當(dāng)我們就一個(gè)實(shí)際問題建立多元線性回歸模型時(shí),可能會(huì)考慮到多個(gè)對(duì)因變量有潛在影響的自變量,但在對(duì)數(shù)據(jù)進(jìn)行分析之前無法事先斷定哪些變量是有效的(對(duì)因變量有顯著影響),哪些是無效的(對(duì)因變量沒有顯著影響)。有效變量應(yīng)該保留在模型中,而無效變量應(yīng)該從模型中去掉。因?yàn)闊o效變量在模型中會(huì)對(duì)分析結(jié)果產(chǎn)生干擾,從而產(chǎn)生誤導(dǎo)。那么究竟哪些變量是有效的,哪些變量是無效的呢?這就是變量選擇的問題。第二個(gè)問題是關(guān)于自變量之間的關(guān)系。在某些實(shí)際問題中(如在實(shí)

23、驗(yàn)室或某些工業(yè)生產(chǎn)條件下),觀測者(試驗(yàn)者)可以控制自變量的值,這是他可以在事先設(shè)計(jì)好的自變量值上觀測因變量。而在另一些情況下(研究社會(huì)、地質(zhì)、水文)。觀測者不能控制自變量的值,或者說自變量是隨機(jī)變量。這時(shí),自變量之間會(huì)有統(tǒng)計(jì)相關(guān)性。當(dāng)這種統(tǒng)計(jì)相關(guān)性很強(qiáng)時(shí)就產(chǎn)生“多元共線性”的問題。多元共線性的存在對(duì)回歸分析的結(jié)果產(chǎn)生很壞的影響。因此數(shù)據(jù)分析這應(yīng)該理解多元共線性的影響,并知道用何種方法去克服這種影響。本節(jié)的前三小節(jié)介紹幾種變量選擇的方法,后三小節(jié)分別介紹多元共線性的影響及克服它的兩種方法。變量選擇的max法通常在建立一個(gè)回歸模型時(shí),我們要將所有可能對(duì)因變量產(chǎn)生影響的自變量考慮到模型中去,以免由

24、于遺漏了重要的變量而造成模型與實(shí)際相偏離。但是通常在所有備選的自變量中,往往只有一部分真正對(duì)因變量有影響,稱之為有效變量;而其他的則可能對(duì)因變量沒有影響,稱之為無效變量。從原則上講,一個(gè)好的模型應(yīng)該包含所有的有效變量,而不包含任何無效變量。問題在于如何才能找到滿足上述要求的模型?本小節(jié)所介紹的max 準(zhǔn)則是根據(jù)的大小在所有可能的模型中選擇“最優(yōu)模型”的一種方法。 設(shè)備選的自變量共有K個(gè),先假定已知有效變量的數(shù)目為r,我們來考慮恰好包含r個(gè)變量的模型。這樣的模型共有 個(gè)。記恰好包含r個(gè)有效變量(而不包含任何無效變量)的那個(gè)模型為 ,如何從個(gè)模型中來找到 呢?由于在中所有的自變量都是有效的,我們可

25、以認(rèn)為在中的r個(gè)變量對(duì)因變量的總影響應(yīng)該比其他任何r個(gè)變量的總影響都大。對(duì)一個(gè)包含r個(gè)變量的模型,其中的自變量對(duì)因變量的總影響可以由它的決定系數(shù)來度量,其中(可以證明:與檢驗(yàn)量互為單調(diào)增函數(shù))。因此,我們可以從所有含r個(gè)回歸變量的模型中選擇達(dá)到最大的那個(gè),作為要找的。具體地說,記備選的含r個(gè)回歸變量的模型為,其中。記第 個(gè)模型 的決定系數(shù)為 。由定義,其中為因變量的總平方和,在任何模型下都是一個(gè)常數(shù),為在模型 下的回歸平方和。最大準(zhǔn)則就是要選模型,滿足。于是我們認(rèn)為就是要找的最優(yōu)模型了,這樣就解決了在已 知有效變量的個(gè)數(shù)r時(shí)的模型選擇的問題。下一個(gè)問題是:在有效變量的個(gè)數(shù)r未知時(shí),如何確定它?

26、對(duì)這個(gè)問題,很難給出一個(gè)明確的數(shù)學(xué)準(zhǔn)則,而只能基于某種相當(dāng)模糊的判斷。考慮如下的思路,對(duì)記為在j個(gè)回歸變量的模型中所達(dá)到的最大,不難得出,是隨j單調(diào)增的: 。因?yàn)楫?dāng)模型中的變量個(gè)數(shù)增加時(shí),相應(yīng)的回歸平方和會(huì)增大,從而 的值增大。我們要利用上述的關(guān)系來為r的選擇提供線索。假設(shè)r為有效變量的個(gè)數(shù),我們可以用上述的max來確定恰由這r個(gè)有效變量所組成的模型,相應(yīng)的為,現(xiàn)在設(shè)想在這個(gè)模型中再增加一個(gè)變量,由于所有r個(gè)有效變量已經(jīng)在模型中,增加的那個(gè)變量肯定是無效變量,因此相對(duì)于增加的幅度應(yīng)該比較小,由于以后在模型中每增加一個(gè)變量都只可能是無效變量,因此,當(dāng)時(shí),隨j增加的速度會(huì)比較緩慢,且越來越慢,反之

27、,在已經(jīng)包含了r個(gè)變量的模型中去掉一個(gè)變量,則會(huì)使回歸平方和會(huì)大大地下降,因此,按照這個(gè)思路,如果作平面點(diǎn)圖,可以看到,當(dāng)時(shí),隨j增加而迅速上升,當(dāng)時(shí),隨j增加的而比較緩慢,造成聯(lián)結(jié)點(diǎn)的折線在點(diǎn)處形成一個(gè)明顯的拐點(diǎn)。這樣就可以找到r.注意,這種方法只是一具經(jīng)驗(yàn)的模糊的準(zhǔn)則,因?yàn)闆]有任河數(shù)學(xué)原理來證明上述推理的正確性,同時(shí)選取拐點(diǎn)也是憑感覺來判斷的。max 準(zhǔn)則要求對(duì)所有可能的回歸模型計(jì)算 ,當(dāng)備選變量的數(shù)目比較小時(shí),用這種方法可以保證對(duì)給定的有效變量的個(gè)數(shù)r找到理論上的最優(yōu)模型。但當(dāng)備選變量的數(shù)目比較大時(shí),用這種方法其計(jì)算量非常地大。向后、向前和逐步回歸 基于 的模型選擇程序通常都是給出一串模

28、型,而并不自動(dòng)給出一個(gè)“最終”模型。在上一節(jié)中我們知道,可以通過F檢驗(yàn)的方法來判斷,(在一定的模型下)某個(gè)變量是否有理由保留在模型中。基于F檢驗(yàn),統(tǒng)計(jì)學(xué)家發(fā)展出一些對(duì)變量進(jìn)行系列的F檢驗(yàn),并得到一個(gè)“最終”模型的變量選擇程序。這些方法有各種各樣的變種,大致可以分為三類:向后回歸法,向前回歸法和逐步回歸法.限于篇幅,我們只介紹這些方法的大意,在標(biāo)準(zhǔn)的統(tǒng)計(jì)回歸分析軟件中都有這些方法的程序。(1)向后回歸法 其基本思路是:先將所有可能對(duì)因變量產(chǎn)生影響的自變量都納入模型,然后逐個(gè)地從中剔除認(rèn)為是最沒有價(jià)值的變量,直至所留在模型中的變量都不能被剔除,或者模型中沒有任何變量為止。在逐步的剔除過程中,每次都

29、對(duì)當(dāng)前模型中的所有變量計(jì)算評(píng)估附加影響的F統(tǒng)計(jì)量,并找到其中最小的。如果最小F統(tǒng)計(jì)量超過指定的臨界值 ,當(dāng)前模型中的所有變量都保留,將當(dāng)前模型作為最終模型,程序終止。反之,如果最小F統(tǒng)計(jì)量達(dá)不到臨界值,就將相應(yīng)的變量加以剔除,得到一個(gè)較小的模型。在新的模型下重復(fù)以上作法。以上步驟不斷進(jìn)行,直至沒有變量可以剔除,或者模型中沒有任何變量為止。最終的模型就是所選定的“最優(yōu)”模型。標(biāo)準(zhǔn)的統(tǒng)計(jì)軟件通常還輸出所有中間模型。(2)向前回歸法其基本思路是:先將所有可能對(duì)因變量產(chǎn)生影響的自變量作為備選的變量集,都放在模型之外,從零模型,即不包含任何自變量的模型開始,然后逐個(gè)地向模型中加入被認(rèn)為是最有附加價(jià)值的變

30、量,直至所留在模型外的變量都不能被加入,或者所有備選的變量都已加入模型為止。在逐步加入的過程中,第一步對(duì)所有變量計(jì)算當(dāng)模型中只有一個(gè)變量時(shí)的F統(tǒng)計(jì)量,并找到其中最大的。如果最大F統(tǒng)計(jì)量不超過臨界值,則所有在模型外的變量都不能加入到模型中去,將零模型作為最終模型,程序終止。反之,如果最大F統(tǒng)計(jì)量超過臨界值,就將相應(yīng)的變量加入到模型中去。從第二步開始,每次都對(duì)當(dāng)前模型外的任一變量計(jì)算;當(dāng)這個(gè)變量被加入模型后,在新模型下計(jì)算它的F統(tǒng)計(jì)量,并找到其中最大的。如果最大F統(tǒng)計(jì)量不超過臨界值,可以認(rèn)為所有在當(dāng)前模型外的變量都是無效變量,因此都不能加入到當(dāng)前模型中去,將當(dāng)前模型作為最終模型,程序終止。反之,如

31、果最大F統(tǒng)計(jì)量超過臨界值,就將相應(yīng)的變量加入到當(dāng)前模型中去,得到一個(gè)較大的模型。以上步驟不斷進(jìn)行,直至沒有變量可以加入,或者模型中已經(jīng)包含了所有變量為止。最終的模型就是所選定的“最優(yōu)”模型,標(biāo)準(zhǔn)的統(tǒng)計(jì)軟件通常還輸出所有中間模型。(3)逐步回歸法逐步回歸法是對(duì)向前回歸的一個(gè)修正。在向前回歸中,變量逐個(gè)被加入到模型中去,一個(gè)變量一旦被加入到模型中,就再也不可能被剔除。但是,原來在模型中的變量在引入新變量之后,可能會(huì)變得沒有存在的價(jià)值而沒有必要再留在模型中。出現(xiàn)這種情況是因?yàn)榛貧w變量之間存在著相關(guān)性的緣故。因此,在逐步回歸中,每當(dāng)向模型中加入一個(gè)變量之后,就對(duì)原來模型中的變量在新模型下再進(jìn)行一次向后

32、剔除的檢查,看是否其中有變量應(yīng)該被剔除。這種“加入剔除”的步驟反復(fù)進(jìn)行,直至所有已經(jīng)在模型中的變量都不能剔除,而且所有在模型外的變量都不能加入,過程就終止,最終的模型就是被選定的“最優(yōu)”模型,標(biāo)準(zhǔn)的統(tǒng)計(jì)軟件通常還輸出所有中間模型。例在有氧訓(xùn)練中,人的耗氧能力記為,是衡量人的身體狀況的重要指標(biāo),它可能與下列的變量有關(guān):x1:年齡;x2:體重;x3:1.5英里跑所用時(shí)間;x4:靜止時(shí)心速;x5:跑步時(shí)心速;x6: 跑步時(shí)最大心速;北卡羅來納州立大學(xué)的健身中心作了一次試驗(yàn),對(duì)31個(gè)自愿參加者進(jìn)行了測試,得到數(shù)據(jù)如下表IDX1X2X3X4X5X6y14489.4711.376217818244.609

33、24075.0710.076218518545.31334485.848.654515616854.29744268.158.174016617259.57153889.029.225517818049.87464777.4511.635817617644.81174075.9811.957017618045.68184381.1910.856416217049.09194481.4213.086317417639.442103881.878.634817018660.055114473.0310.134516816850.541124587.6614.035618619237.3881345

34、66.4511.125117617644.754144779.1510.604716216447.273155483.1210.335016617051.855164981.428.954418018679.156175169.6310.955716817240.836185177.9110.004816216846.672194891.6310.254816216446.774204973.3710.086716816850.388215773.3712.635817417639.407225479.3811.076215616546.080235276.329.634816416645.4

35、41245070.878.924814615554.625255167.2511.084817217245.118265491.6312.884416817245.118275173.7110.475918618845.790285759.089.934914815550.545294976.329.405618618848.673304861.2411.505217017647.920315282.7810.505317017247.467我們考察耗氧能力與這些自變量之間的關(guān)系。 解:建立線性模型可以算出:SSR=722.54321 SST=851.38154 SSE=128.83794 F

36、=22.433如果取,說明線性模型是有效的。我們用SAS/STAT中的PROC REG程序中的向后回歸法進(jìn)行變量選取擇,其過程和結(jié)果如下:第一步:首先對(duì)全模型計(jì)算模型的有效性的F統(tǒng)計(jì)量,為F=22.433;模型有效,每個(gè)變量檢驗(yàn)的F統(tǒng)計(jì)量為變量X1X2X3X4X5X6F5171854642011951493,由此可得到應(yīng)剔除,首先剔除;重新建立模型第二步:對(duì)剔除后的新模型計(jì)算模型有效性的F統(tǒng)計(jì)量,為F=27.90;,模型有效,每個(gè)變量檢驗(yàn)的F統(tǒng)計(jì)量為變量X1X2X3X5X6F52918461.8910.165.18,由此可得到應(yīng)剔除;第三步:對(duì)剔除后的新模型計(jì)算模型有效性的F統(tǒng)計(jì)量,為F=33

37、.33;,模型有效,每個(gè)變量檢驗(yàn)的F統(tǒng)計(jì)量為變量X1X3X5X6F4.2766.058.784.10,由此可得到?jīng)]有變量可剔除,這樣就得到了最終的模型程序?qū)⒔o出參數(shù)估計(jì)。多元共線性什么是多元共線性?多元共線性對(duì)LS估計(jì)有什么影響?如何判別數(shù)據(jù)中存在多元共線性?我們先從最簡單的情況開始,設(shè)有兩個(gè)自變量,它們的觀測數(shù)據(jù)可用n維向量表示,這兩個(gè)變量的統(tǒng)計(jì)相關(guān)性可用“樣本相關(guān)系數(shù)”的平方 (9.2.30)來表示。其中表示樣本平均,將數(shù)據(jù)“標(biāo)準(zhǔn)化” ()為標(biāo)準(zhǔn)化樣本。當(dāng) 時(shí),線性相關(guān),即兩向量共線。若兩向量共線,我們將的最小二乘估計(jì)滿足的方程 ()改寫為 ()系數(shù)矩陣的行列式,即的最小二乘估計(jì)沒有唯一解

38、,可以證明它有無窮多解。當(dāng)若兩向量接近共線時(shí),即時(shí),的最小二乘估計(jì)的方差非常地大,其估計(jì)的性質(zhì)很不穩(wěn)定。 將兩個(gè)自變量的情況可以推廣到多個(gè)自變量,參見陸璇應(yīng)用統(tǒng)計(jì)P106-120。 線性回歸的推廣非線性回歸在許多實(shí)際問題中,響應(yīng)變量與一組自變量之間并不存在線性相關(guān)關(guān)系,但它們的關(guān)系可能是某種非線性相關(guān)關(guān)系,反映在圖形上所描的點(diǎn)成非線性關(guān)系。例如研究商品年銷售額與流通費(fèi)率就是非線性關(guān)系。對(duì)于這類問題當(dāng)然不能直接用前面所述的線性回歸方法,需要將回歸模型的理論加深,建立非線性最小二乘估計(jì)理論;或?qū)⒎蔷€性關(guān)系通過變量代換或線性近似化為線性關(guān)系處理,這種方法我們通常稱之為非線性回歸線性化方法。例如,因變

39、量Y與自變量x可能有關(guān)系(平均說來):,我們通過變量替換得到了線性模型利用一元線性回歸分析可求得回歸系數(shù)a,b 的估計(jì)值,得到回歸方程從而就得到了Y對(duì)x的回歸方程一般說來,非線性回歸線性化可按如下步驟進(jìn)行(1)如果是一元回歸問題,對(duì)變量,Y作n次試驗(yàn)觀察值(),i=1,2,,n并作“散點(diǎn)圖”,二元非線性回歸類似。(2)根據(jù)散點(diǎn)圖的形狀選擇適當(dāng)?shù)姆蔷€性類型。至于選擇哪種變換才能線性化,有一個(gè)簡單的判別方法,將變換后的數(shù)據(jù)點(diǎn)在新坐標(biāo)(變換后的坐標(biāo))中,若所得的點(diǎn)基本上成直線狀,則適合,否則不適合。注意并不是每一個(gè)非線性函數(shù)都可以找到線性化的變換,例如。(3)利用多元線性回歸方法求得回歸系數(shù)的估計(jì)將

40、其代回歸非線性的表達(dá)式中,就得到了經(jīng)驗(yàn)回歸方程。 例 出鋼時(shí)所用的盛鋼水的鋼包,由于鋼水對(duì)耐火材料的侵蝕,容積不斷增大,我們希望找到使用次數(shù)x與增大的容積Y之間的關(guān)系。試驗(yàn)數(shù)據(jù)如下表使用次數(shù)x12345678增大容積y6.428.209.589.509.7010.009.939.99使用次數(shù)x9101112131415增大容積y10.4910.5910.6010.8010.6010.9010.76試確定非線性回歸方程。解 畫出“散點(diǎn)圖”,這些點(diǎn)大約分布在一條曲線附近,我們選用指數(shù)曲線。對(duì)其等式兩邊取對(duì)數(shù),再令,于是得到從而化成了線性回歸問題。按一元線性回歸方法可求出回歸系數(shù)的估計(jì)值。由此得到故

41、可得到經(jīng)驗(yàn)回歸方程多項(xiàng)式回歸當(dāng)一個(gè)自變量與一個(gè)響應(yīng)變量之間的關(guān)系是平滑的,但不是一條直線時(shí),因?yàn)槿魏喂饣暮瘮?shù)可以用多項(xiàng)式來近似,我們可以采取多項(xiàng)式模型。多項(xiàng)式回歸的基本形式如下(9.2.34)其中p是多項(xiàng)式的階;如果p=2,模型是二次的,d=3為三次的,等等。需要指出的是,當(dāng)p=2時(shí),回歸多項(xiàng)式是拋物線方程,多項(xiàng)式回歸也稱為拋物線。我們也可以假設(shè)。多項(xiàng)式模型一般用作近似,幾乎從來不表示一個(gè)物理模型。可以用最小二乘法分析多項(xiàng)式模型。定義p個(gè)新變量,則模型被寫成()這是典型的線性模型形式,對(duì)這種模型,我們可用前面介紹過的參數(shù)估計(jì)、假設(shè)檢驗(yàn)和預(yù)測的方法處理。這就是說,當(dāng)某種現(xiàn)象應(yīng)該用一種多項(xiàng)式來描述時(shí),若我們?nèi)〉昧嗽摲N現(xiàn)象的樣本數(shù)據(jù)進(jìn)行上面介紹的線性變換,就可以用線性模型的方法去處理了。為了說明多項(xiàng)式回歸的應(yīng)用,下面舉例說明。例6 已知某種半成品在生產(chǎn)過程中的廢品率與它的化學(xué)成分在關(guān),現(xiàn)將試驗(yàn)得到的數(shù)據(jù)列于下表化學(xué)成分x343637383939394040

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論