簡單線性回歸_第1頁
簡單線性回歸_第2頁
簡單線性回歸_第3頁
簡單線性回歸_第4頁
簡單線性回歸_第5頁
已閱讀5頁,還剩111頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

簡單線性回歸本章內容14.1簡單線性回歸模型14.2最小平方法14.3判定系數14.4模型假設14.5顯著性檢定14.6利用估計回歸方程式進行估計與預測14.7殘差分析:驗證模型假設14.8殘差分析:離群值及具影響力的觀察值214.1簡單線性回歸模型回歸模型與回歸方程式估計回歸方程式3第14章簡單線性回歸

第501-502頁簡單線性回歸模型回歸術語應變數(dependentvariable):想預測的變量。自變數(independentvariable):用來預測應變數數值的變量。例如在分析廣告費用對銷售額的影響時,營銷經理要預測的是銷售額,所以銷售額為應變數;廣告費用則是用來預測銷售額之自變數。以統計符號而言,y表示應變數,而x表示自變數。4第14章簡單線性回歸

第501頁簡單線性回歸模型簡單線性回歸:僅牽涉到單一自變數與單一應變數,而且兩變量間的關系近似直線。這種類型稱為簡單線性回歸(simplelinearregression)。復回歸分析:牽涉兩個或以上自變數的回歸分析稱為復回歸分析(multipleregressionanalysis)

。5第14章簡單線性回歸

第501頁描述y

與x

及誤差項之關系的方程式,稱為回歸

模型(regressionmodel)

。簡單線性回歸模型b0

b1為回歸模型的參數(parameter)。?

則為一隨機變量,稱為誤差項。簡單線性回歸模型y=b0+b1x+?6第14章簡單線性回歸

第501頁簡單線性回歸方程式簡單線性回歸方程式的圖形是一條直線B0

為回歸線的y

截距b1為斜率E(y)為對應特定x

值之

y的期望值或平均數。簡單線性回歸模型E(y)=

0+

1x7第14章簡單線性回歸

第502頁簡單線性回歸模型E(y)x斜率

b1為正回歸線截距b0正線性關系8第14章簡單線性回歸

第502頁簡單線性回歸模型負線性關系9E(y)x斜率

b1為負回歸線截距b0第14章簡單線性回歸

第502頁無關系E(y)x斜率

b1為

0回歸線截距b0簡單線性回歸模型10第14章簡單線性回歸

第502頁估計簡單線性回歸方程式估計回歸方程式的圖形被稱為估計回歸線(estimatedregressionline)b0為y

截距b1為斜率是E(y)的點估計量11估計的簡單線性回歸方程式第14章簡單線性回歸

第503頁估計回歸方程式12第14章簡單線性回歸

第503頁評注不能將回歸分析解釋為建立變量間因果關系的程序,它僅能指出變量間如何相關及其相關的程度。任何關于因果關系的結論,都必須根據最了解該相關應用的人士的判斷而定。簡單線性回歸的回歸方程式是E(y)=β0

+β1x。進階的教科書在討論回歸分析時常將回歸方程式寫成E(y│x)=β0

+β1x,以強調回歸方程式是在已知特定x值下得到y的平均值。13第14章簡單線性回歸

第503頁最小平方法(leastsquaresmethod)是利用樣本資料算出估計回歸方程式的方法。最小平方法準則其中

yi=應變數之第

i

個觀察值的實際值=應變數之第

i個觀察值的估計值

14.2最小平方法

14第14章簡單線性回歸

第504-505頁估計回歸方程式的斜率與y截距其中xi

=自變數的第

i

個觀察值yi

=應變數的第i

個觀察值

=自變數的平均數

=應變數的平均數n=觀察值的個數最小平方法15第14章簡單線性回歸

第506頁最小平方法實例以亞曼披薩屋為例,說明最小平方法。假定資料來自10間鄰近大學校園的分店。對于樣本中第i個觀察值或第i間餐廳而言,xi為學生人數(單位:千人);yi

為每季銷售額(單位:$1000)。10間餐廳之xi

與yi

值匯整于表14.1。我們可看到餐廳1之x1=2且y1=58;即其鄰近學生人數為2000人之校園且每季銷售額為$58,000。餐廳2之x2=6且y2=105,表示它鄰近學生人數為6000人之校園且每季銷售額為$105,000。銷售額最大的是餐廳10,其鄰近學生人數為26,000人之校園,每季銷售額為$202,000。16第14章簡單線性回歸

第504頁最小平方法實例17第14章簡單線性回歸

第504頁最小平方法實例圖14.3為表14.1之資料的散布圖,學生人數為橫軸,每季銷售額為縱軸。回歸分析的散布圖(scatterdiagrams)

系將自變數x之值置于橫軸,應變數y之值置于縱軸繪制而成。散布圖讓我們能由圖形來觀察資料,并得到變量間可能關系的初步結論。靠近學生人數愈多之校園餐廳,每季銷售額似乎愈高。再者,由這些資料可發現學生人數與每季銷售額的關系近似直線;的確,x與y間似乎存在正向的直線關系。因此,我們選擇簡單線性回歸模型來表示學生人數與每季銷售額的關系。這個選擇的接下來的任務即是利用表14.1的樣本資料來決定估計簡單線性回歸方程式中b0和b1的值。18第14章簡單線性回歸

第504頁最小平方法實例19第14章簡單線性回歸

第505頁最小平方法實例對第i

間餐廳而言,估計回歸方程式為

其中

=第i

間餐廳每季銷售額的估計值($1000)

b0=估計回歸線之y

截距

b1=估計回歸線之斜率

xi=第

i間餐廳鄰近校園的學生人數(千人)?以yi表示餐廳i

每季銷售額的觀察(實際)值,而以式(14.4)中之

表示餐廳

i銷售額的預測值,樣本中每間餐廳均有銷售額的實際觀察值yi與估計值

。為了使估計回歸線能非常配適這些資料,我們希望銷售額的實際觀察值與預測值的差距是小的。20第14章簡單線性回歸

第504-505頁最小平方法實例求算亞曼披薩屋的最小平方估計回歸方程式時所需之部分計算列于表14.2。在此例子中,因有10間餐廳(觀察值),故

n=10。我們先計算與。 計算亞曼披薩屋之估計回歸方程式中的斜率與截距21第14章簡單線性回歸

第506-507頁最小平方法實例22第14章簡單線性回歸

第506頁最小平方法實例利用最小平方法得到的估計回歸方程式為

圖14.4為此方程式的散布圖。估計回歸方程式的斜率(b1=5)為正,表示當學生人數增加時,銷售額亦會增加。事實上,我們可得到結論是(銷售額單位為$1000,學生人數單位為千人):學生人數每增加1000人,每季期望銷售額可提高$5000;換言之,我們預期每名學生可增加$5的銷售額。23第14章簡單線性回歸

第507頁最小平方法實例24第14章簡單線性回歸

第507頁最小平方法實例如果我們相信最小平方估計回歸方程式能適當地描述x

與y

的關系,則利用估計回歸方程式預估已知的x

值所對應的y

值似乎是很合理的。例如,如果我們要預測鄰近學生人數為16,000人校園的餐廳的每季銷售額,可計算如下

因此,我們將預期此餐廳每季的銷售額為$140,000。25第14章簡單線性回歸

第507-508頁評注最小平方法提供可使應變數之實際觀測值yi

與其估計值的差距平方和為最小之估計回歸方程式,此最小平方準則即是選擇可提供「最佳配適」(thebestfit)之方程式。若使用其他不同準則,例如,使yi與之絕對差距的總和為最小,將得到不同方程式。實務上,最小平方法是最廣為使用的方法。26第14章簡單線性回歸

第508頁14.3判定系數相關系數27第14章簡單線性回歸

第514頁SST、SSR與SSE間的關系

其中SST=總平方和SSR=回歸平方和SSE=誤差平方和14.3判定系數SST=SSR+SSE28第14章簡單線性回歸

第514.515.516頁我們為亞曼披薩屋的例子建立估計回歸方程式

=60+5x

以近似學生人數x

與每季銷售額y之間的線性關系。接下來的問題是:此估計回歸方程式與這些資料到底有多配適?表14.3是亞曼披薩屋的誤差平方和計算過程。例如,對餐廳1而言,自變數與應變數之值各為x1=2和y1=58,利用估計回歸方程式,我們發現餐廳1的估計銷售額是=60+5(2)=70。因此,對餐廳1而言,使用估計y1

而產生的誤差是y1-

=58-70=?12。誤差項的平方(?12)2=144列于表14.3的最后一欄。計算樣本中每一餐廳的殘差項并取平方后,加總得到SSE=1530。因此,SSE=1530可以用來衡量估計回歸方程式=60+5x

預測銷售額時會發生的誤差。判定系數實例29第14章簡單線性回歸

第514頁判定系數實例30第14章簡單線性回歸

第515頁判定系數實例31第14章簡單線性回歸

第515頁判定系數實例32第14章簡單線性回歸

第516頁判定系數實例若已知其中兩個平方和,就可輕易求得第三個平方和。以亞曼披薩屋為例,已知SSE=1530且SST=15,730,因此求出式(14.11)中之SSR,可得回歸平方和為

SSR=SST-SSE=15,730-1530=14,200完美的配適(aperfectfit):SSE=0最差的配適:SSR=0且SSE=SST時33第14章簡單線性回歸

第516頁判定系數其中

SSR=回歸平方和SST=總平方和r2=SSR/SST判定系數34第14章簡單線性回歸

第517頁判定系數實例亞曼披薩屋之例子的判定系數為我們將判定系數以百分比表示時,r2可被解釋為總平方和中可由估計回歸方程式解釋的百分比。就亞曼披薩屋的例子而言,我們可得到的結論是:以估計回歸方程式=60+5x來預估銷售額時,可解釋總平方和的90.27%。換言之,每季銷售額之變異的90.27%,可由學生人數與銷售額間的線性關系來解釋。我們應該很高興發現,估計回歸方程式能有如此好的配適度。35第14章簡單線性回歸

第517頁樣本相關系數其中

b1=估計回歸方程式之斜率若估計回歸方程式為正斜率(b1>0),則樣本相關系數之符號亦為正;但當估計回歸方程式為負斜率時(b1<0),那么樣本相關系數之符號則為負。36第14章簡單線性回歸

第517頁樣本相關系數實例以亞曼披薩屋為例,估計回歸方程式=60+5x的判定系數值為0.9027。既然估計回歸方程式是正斜率,由式(14.13)可知樣本相關系數為=+0.9501。由于樣本相關系數rxy=+0.9501,所以我們可得到的結論是x

y間存在高度線性正相關。37第14章簡單線性回歸

第517頁評注在建立最小平方估計回歸方程式與計算判定系數時,我們并未做任何對誤差項ε的機率假設,也沒有對x與y間關系的顯著性進行統計檢定。r2

較大,只表示最小平方線與資料間的配適程度較高;也就是說觀察值較接近最小平方線。然而,僅使用r2,我們無法得到x與y間的關系是否具統計顯著性的結論。只能在考量樣本大小與最小平方估計量之近似抽樣分配的特性后,方可獲得上述結論。38第14章簡單線性回歸

第518頁評注從實務的觀點而言,社會科學的典型資料,判定系數只要達0.25即被認為是相當有用的。但物理與生命科學之資料,常可發現0.60甚至更大的判定系數;事實上,有些案例的判定系數可能在0.90以上。在商業的運用上,r2

差異甚大,端視每個應用的特性而定。39第14章簡單線性回歸

第518頁y=β0+β1x+?14.4模型假設40第14章簡單線性回歸

第521頁誤差項?

為隨機變量,平均數或期望值為0;即E(?)=0。對所有x

值而言,?之變異數(表示為σ2)均相同。?值是互相獨立的。誤差項?

為常態分配的隨機變量。關于回歸模型中誤差項?的相關假設第14章簡單線性回歸

第521頁關于回歸模型中誤差項?

的相關假設涵義既然β0

與β1為常數,E(β0)=β0且E(β1)=β1;因此,對已知的x

值,y

之期望值為E(y)=β0

+β1x回歸線y

的變異數變異數等于σ2。而且對所有x值此值均相同。特定x

值之?

與其他x

值不相關的,因此特定x

值對應之y

值亦與任何其他x

值對應之

y

值無關。因y

為?

之線性函數,故對所有x

值而言,y

亦為來自常態分配的隨機變量。42第14章簡單線性回歸

第521頁模型假設43第14章簡單線性回歸

第522頁14.5顯著性檢定σ2

的估計值t檢定β1

的信賴區間F檢定解釋顯著性檢定時的注意事項44第14章簡單線性回歸

第521-528頁顯著性檢定為檢定是否存在顯著的回歸關系,我們必須進行

β1是否

為0的假設檢定。兩種普遍被使用的檢定:t

檢定與F檢定有兩種常用的檢定方法,都必須先估計回歸模型中ε的

變異數

σ2。45第14章簡單線性回歸

第521頁

σ2

的估計值MSE之值可做為σ2的估計值,所以亦記作符號

s2。誤差均方(σ2的估計值)其中46第14章簡單線性回歸

第522頁為了估計

σ,我們取s2

的平方根所算出之s值稱為估計值的標準誤(standarderroroftheestimate)。估計值的標準誤

σ2

的估計值47第14章簡單線性回歸

第523頁b1的抽樣分配14.3節已算出亞曼披薩屋的SSE=1530,因此

這是σ2的不偏估計值。48第14章簡單線性回歸

第522-523頁期望值標準差分配形式:常態

b1的抽樣分配49第14章簡單線性回歸

第523頁b1的估計標準差

b1的抽樣分配50第14章簡單線性回歸

第524頁假設檢定

檢定統計量t

檢定51第14章簡單線性回歸

第524頁拒絕法則其中,tα/2系依自由度

n?2之t

分配求得。若t≤–tα/2

或若t≥tα/2,則拒絕H0t

檢定p

值法:臨界值法:若p

值≤

α,則拒絕H052第14章簡單線性回歸

第524頁t

檢定實例假設亞曼披薩屋使用另外10家不同餐廳組成之樣本的銷售資料,此新樣本的回歸分析得到新的估計回歸方程式,類似先前的估計回歸方程式=60+5x。然而,我們是否可得到完全相同的方程式(截距恰為60,斜率恰為5)則非常值得懷疑。事實上,最小平方估計量b0

與b1

是有自己抽樣分配的樣本統計量。以亞曼披薩屋為例,s=13.829,因此利用表14.2的結果,可得:

做為b1的估計標準差。53第14章簡單線性回歸

第523-524頁1.建立假設檢定2.界定顯著水平3.選擇統計檢定量α

=0.014.宣告拒絕法則拒絕

H0

若p

值≤0.01或|t|>3.355(自由度為10–2=8)t

檢定實例54第14章簡單線性回歸

第523-524頁5.計算統計檢定量的值6.決定是否拒絕H0t

檢定實例t

值為3.355的右尾面積是0.005。因此,對應于檢定統計量t=8.62的右尾面積必小于0.005。由于此檢定為雙尾檢定,我們將此值加倍后,可得到結論為與t=8.62相對應的p值必小于2(0.005)=0.01。Excel顯示p值是0.000。由于p值<α

=0.01,所以拒絕H0,結論是β1不等于0。統計證據已足夠讓我們得到以下的結論:學生人數與每季銷售額存在顯著的關系。55第14章簡單線性回歸

第524頁β1的信賴區間我們可以以t

分配利用β1的95%信賴區間來檢定

假設檢定如果β1的檢定值并不在β1的信賴區間內,則拒絕H056第14章簡單線性回歸

第525頁β1的信賴區間β1

的信賴區間的形式如下:信賴系數是1?α

,tα/2

是右尾面積為α/2的t

值,t

分配的自由度是n?2。b1是點估計量

是邊際誤差57第14章簡單線性回歸

第525頁β1的信賴區間實例例如,我們若要對亞曼披薩屋的β1的

99%信賴區間。由附錄B的表2可知,對應于α

=0.01及n?2=10?2=8的自由度,t0.005=3.355。因此,β1的99%信賴區間估計值是

或者是3.05到6.95。58第14章簡單線性回歸

第525頁β1的信賴區間實例在α

=0.01的顯著水平下,我們也可以用99%信賴區間對亞曼披薩屋的假設檢定提出結論。由于β1

的假設值為0,并不在信賴區間3.05到6.95之間,我們可以拒絕虛無假設H0,得到的結論是:學生人數與每季銷售額間的確有統計上的顯著關系。一般而言,信賴區間可以用來檢定任何有關β1

的雙尾檢定。如果β1

的假設值落在信賴區間,就不拒絕H0,否則就拒絕H0。59第14章簡單線性回歸

第525頁假設檢定統計檢定量F=MSR/MSEF

檢定60第14章簡單線性回歸

第526頁拒絕法則其中,Fα系依分子自由度為1,分母自由度為n-2的F

分配求得。F

檢定若F≥Fα,則拒絕H0p

值法:臨界值法:若p

值≤

α,則拒絕H061第14章簡單線性回歸

第526頁F=MSR/MSE1.建立假設檢定2.界定顯著水平3.選擇統計檢定量α

=0.014.宣告拒絕法則拒絕

H0

若p

值≤0.01或

F≥74.25

(自由度為10–2=8)F

檢定實例62第14章簡單線性回歸

第525-526頁F=MSR/MSE=14,200/191.25=74.25F

檢定實例5.計算統計檢定量的值6.決定是否拒絕H0F=74.25的右尾面積必然小于0.01。因此,我們亦可得到p

值必小于0.01的結論。Excel軟件顯示p

值=0.000。因p

值小于α=0.01,故拒絕H0且可得到以下結論:學生人數與每季銷售額間存在顯著關系。63第14章簡單線性回歸

第525-526頁F

檢定實例64第14章簡單線性回歸

第527頁F

檢定實例65第14章簡單線性回歸

第527頁拒絕虛無假設

H0:β1=0

而得到x和y

之間存在顯著關系的結論,并不等于認定x與y間有因果關系。只有分析人員可以根據某些理論上的證據來認定關系具因果性時,才可確保因果關系的成立。僅因可拒絕H0:β1=0并證明存在統計顯著性,并不能認定x與y

有線性關系。我們僅能說x

與y

有相互關系,且在樣本中所觀察到的x

范圍內,線性關系解釋了大部分y

的變異。解釋顯著性檢定時的注意事項66第14章簡單線性回歸

第527頁解釋顯著性檢定時的注意事項67第14章簡單線性回歸

第528頁誤差項的相關假設(14.4節)是本節進行顯著性檢定的必要假設。根據這些假設,我們才能得到b1之抽樣分配的特性與之后的t檢定與F檢定。不要將統計上的顯著性與實務上的顯著性混為一談。當樣本數很大時,即使對很小的b1

值亦可能得到統計顯著的結果;我們在此情形下,必須小心判斷此關系是否具實務的顯著性。評注68第14章簡單線性回歸

第528頁我們也可以利用樣本相關系數rxy

來進行x與y間線性關系的顯著性檢定。令ρxy

表示母體相關系數,則檢定的假設如下:H0:ρxy=0Ha:ρxy

≠0若拒絕H0,則結論是存在顯著關系。然而,本節介紹的t檢定和F檢定的結果,與利用相關系數進行顯著性檢定的結果相同。因此,已進行t檢定或F檢定時,就不需再利用相關系數進行顯著性檢定。評注69第14章簡單線性回歸

第528頁區間估計y的平均數之信賴區間個別y值的預測區間14.6利用估計回歸方程式進行

估計與預測70第14章簡單線性回歸

第531-535頁E(y*)的信賴區間yp的預測區間其中,信賴系數為1?α,且t

/2系由自由度n?2的

t

分配查表而得。利用估計回歸方程式進行估計與預測71第14章簡單線性回歸

第532.534頁在亞曼披薩屋的例子中,對x=10

(即

10,000

個學生)預測此間餐廳的每季銷售額為

即$110,000。點估計實例72第14章簡單線性回歸

第531頁x*

=自變數x的已知值y*

=表示依變量y

的可能值的隨機變量,當x=x*時E(y*)=

依變量y

的平均數或期望值,當x=x*時=b0+b1x*

E(y*)的點估計值,以及當x=x*時y*的個別值之預測量E(yp)的信賴區間實例73第14章簡單線性回歸

第531頁估計之變異數時的公式,記作標準差的估計值,公式如下E(yp)的信賴區間實例74第14章簡單線性回歸

第532頁求算學生人數

10,000

人之校園的所有亞曼披薩屋平均每季銷售額的

95%

信賴區間時,需要知道對應于α/2=0.025與自由度為

n-2=10-2=8之值。查附錄

B的表

2,可得tα/2

=2.306。以美元來表示為

$110,000±$11,415。因此,當學生人數是

10,000人時,每季平均銷售額的信賴區間估計值為$98,585至$121,415。110

11.415=$98.585至$121.415E(y*)的信賴區間實例75第14章簡單線性回歸

第532頁E(y*)的信賴區間實例76第14章簡單線性回歸

第533頁個別y值的預測區間估計實例77第14章簡單線性回歸

第534頁利用t0.025=2.306

與spred=14.69,可求得鄰近

Talbot

學院之亞曼披薩屋的季銷售額的

95%預測區間以美元來表示,預測區間為$110,000±$33,875或$76,125至$143,875。注意:相較于鄰近學生人數10,000人之校園的所有餐廳平均季銷售額的信賴區間,鄰近Talbot學院的新餐廳的預測區間較寬。此差異反映的是,比起預測

y

的個別值,預測

y

之平均數會比較準確。110

33.875=76.125至143.875個別y值的預測區間估計實例78第14章簡單線性回歸

第534頁預測區間用來預測對應新的觀察值的應變數y的值。如前述說明如何為鄰近有10,000名學生校園的亞曼新餐廳之季銷售額建立預測區間。x=10不在表14.1的亞曼餐廳樣本資料中,這并不意味著不能為樣本資料中的x值建立預測區間。但是,為表14.1的10間餐廳的任何一間建立季銷售額的預測區間是沒有意義的,因為我們已經知道這10家餐廳的真正銷售額。換言之,對某些新的,或以此例而言是對于不一定在樣本資料中的某特定x值的新觀察值而言,預測區間才有意義。評注79第14章簡單線性回歸

第535頁x的殘差圖

的殘差圖標準化殘差常態機率圖14.7殘差分析:驗證模型假設80第14章簡單線性回歸

第538-544頁殘差分析(residual

analysis)是判定假設之回歸模型是否適當的主要工具。所如果這些關于誤差項?

的假設有問題的話,有關回歸關系顯著性的假設檢定與區間估計的結果就可能是無效的。殘差值提供有關?

的最佳訊息,因此殘差分析是決定的假設是否恰當的重要步驟。第i

個觀察值的殘差殘差分析大多以圖形檢查為基礎。殘差分析:驗證模型假設81第14章簡單線性回歸

第538頁殘差分析:驗證模型假設關于誤差項?

的假設

E(?)=0。?

之變異數,表示為σ2,對所有x

值均相同。?

值互相獨立。誤差項?

服從常態分配。82第14章簡單線性回歸

第538頁殘差分析:驗證模型假設83第14章簡單線性回歸

第538頁殘差分析:驗證模型假設84第14章簡單線性回歸

第539頁對應x值的殘差圖幾種殘差圖的形式,若對所有的x

值85?之變異數均相等的假設成立且此一回歸模型可充分表達兩變量間的關系,則殘差圖應呈現類似水平帶狀的圖形,如圖

14.12

中之圖

A。?的變異數并不完全相同,例如,當

x

值較大時,對回歸線的變異亦較大的話,將會看到類似圖

14.12

的圖

B,此時,?的變異數固定的假設并不成立。另一種可能的殘差圖如圖C所示,此時,可得結論為:所假設的模型并不適合表示變量間的關系。我們應考慮曲線(curvilinear)回歸模型或復回歸模型。第14章簡單線性回歸

第539頁x0良好模式殘差對應x

值的殘差圖(圖14.11(A))86第14章簡單線性回歸

第540頁x0殘差變異數不為常數對應x

值的殘差圖(圖14.11(B))87第14章簡單線性回歸

第540頁x0殘差回歸模式不適當對應x

值的殘差圖(圖14.11(C))88第14章簡單線性回歸

第540頁對應

x

值的殘差圖實例回到圖14.10亞曼披薩屋的殘差圖。這些殘差近似圖14.11中圖A之水平形式,因此我們可以得到的結論是:此殘差圖并未提供足以對亞曼披薩屋回歸模型所做之假設產生質疑的證據。因而,我們對于結論可以有信心,結論是:亞曼披薩屋的簡單線性回歸模型是有效的。89第14章簡單線性回歸

第539-540頁另一種殘差圖的橫軸是應變數的預測值,縱軸是殘差值。每個殘差值在圖形上以一個點來表示。。圖14.12是殘差圖。圖14.12的形式與對應x的殘差圖相同。此形式讓我們不必質疑模型假設的有效性。對簡單線性回歸而言,對應的殘差圖與對應x的殘差圖提供相同訊息。對復回歸分析而言,由于出現一個以上的自變數,所以我們較常使用對應的殘差圖。對應

值的殘差圖90第14章簡單線性回歸

第541頁對應值的殘差圖91第14章簡單線性回歸

第541頁標準化殘差大部分計算機軟件提供的殘差圖是使用標準化殘差。我們在前幾章談過,可以將隨機變量減去平均數再除以其標準差,即將隨機變量標準化。運用最小平方法,殘差的平均值是0。因此,只要將每個殘差除以其標準差就可得到標準化殘差(standardizedresidual)。92第14章簡單線性回歸

第541頁第i個殘差的標準差其中第i個觀察值的標準化殘差標準化殘差

s

=

估計值的標準誤93第14章簡單線性回歸

第541-542頁標準化殘差94第14章簡單線性回歸

第542頁標準化殘差95第14章簡單線性回歸

第543頁常態機率圖另一個決定「誤差項是常態分配」的假設是否有效的方法為常態機率圖(normalprobabilityplot)

。為了說明如何繪制常態機率圖,我們先介紹常態分數(normalscores)的概念。假定我們由平均數0、標準差1的常態機率分配中隨機抽取10個值,并將10個數由小到大排列,而且抽樣過程不斷重復。我們現在只考慮每組樣本中的最小值。表示重復抽樣過程中每組樣本的最小值的隨機變量稱一階統計量(first-orderstatistic)。96第14章簡單線性回歸

第543頁常態機率圖統計學家已證明,對于來自標準常態機率分配,樣本大小為10的隨機樣本而言,一階統計量的期望值是?1.55。這個期望值稱為常態分數。如果樣本大小為10,就有10階的統計量,以及10個常態分數(見表14.9)。一般而言,如果資料集有n個觀察值,就有n階統計量及n個常態分數。97第14章簡單線性回歸

第543頁常態機率圖實例我們現在要說明,如何用10個常態分數來決定亞曼披薩屋的標準化殘差是否來自標準常態機率分配。先將表14.8的10個標準化殘差排序,并將排序后的標準化殘差及常態分數都列于表14.10。若常態分配的假設成立,最小的標準化殘差應該很接近最小的常態分數,次小的標準化殘差應該很接近次小的常態分數,依此類推。若以常態分數為橫軸,對應的標準化殘差為縱軸,在圖上以點表示,如果標準的亞曼披薩屋之常態分數及排序后標準化殘差趨近常態分配時,資料點應聚集在通過原點呈45度的直線附近。此圖形排序后稱為常態機率圖(normalprobabilityplot)。98第14章簡單線性回歸

第543頁常態機率圖實例99第14章簡單線性回歸

第543頁常態機率圖實例圖14.14是亞曼披薩屋的常態機率圖。我們要判斷圖形與45度線的偏差,是否足以讓我們認為標準化殘差不是來自標準常態機率分配。圖14.14的點十分靠近45度線,因此我們的結論是「誤差項呈常態分配的假設」是合理的。通常,點愈靠近45度線,支持常態分配假設的證據就愈強。任何常態機率圖若呈現相當程度的彎曲,即為殘差項不是常態分配的證據。利用Minitab之類的統計軟件可以輕易得到常態分數與對應的常態機率圖。100第14章簡單線性回歸

第543-544頁常態機率圖實例101第14章簡單線性回歸

第544頁評注我們用殘差及常態機率圖來驗證回歸模型的假設是否成立。如果檢驗的結果顯示,有一個或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論