CHAPTER7概率統計課件_第1頁
CHAPTER7概率統計課件_第2頁
CHAPTER7概率統計課件_第3頁
CHAPTER7概率統計課件_第4頁
CHAPTER7概率統計課件_第5頁
已閱讀5頁,還剩74頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第7章回歸分析第7.1節一元回歸分析模型第7.2節回歸系數的最小二乘估計第7.3節回歸估計的統計推斷第7.4節預測第7.5節多元回歸分析返回變量間的關系確定性關系或函數關系y=f(x)人的身高和體重家庭的收入和消費商品的廣告費和銷售額糧食的產量和施肥量股票的價格和時間學生的期中和期末考試成績,…非確定性關系如果對于任何已知的x值,變量y和按某個概率取某些特殊的值,則x和y之間的關系為隨機的.xY實變量隨機變量非確定性關系第7.1節一元回歸分析模型(x,y)采集樣本信息(xi,yi)回歸分析散點圖回歸方程回歸方程的顯著性檢驗對現實進行預測與控制基本思想如果數學關系式描寫了一個變量與另一個變量之間的關系,則稱其為一元回歸分析;如果數學關系式描寫了一個變量與另多個變量之間的關系,則稱其為多元回歸分析,并且稱這一個變量是被影響變量(因變量:DependentVariable);稱這多個變量是影響變量(自變量:IndependentVariable).回歸分析是根據變量觀測數據分析變量間關系的常用統計分析方法.通常把變量觀測數據稱為樣本.某市場在t時刻黃瓜銷量的數據如下(其中qt表示t時刻銷售黃瓜的數量,單位為:斤,pt表示t時刻的銷售價格,單位為:元):這是一個確定性關系:例如

若x、y之間的關系是隨機的,例如這時,方程的形式為稱為隨機擾動或隨機誤差項.其中為隨機變量.表8.4.1合金鋼強度y與碳含量x的數據

序號x(%)y(×107Pa)序號x(%)y(×107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0為找出兩個量間存在的回歸函數的形式,可以畫一張圖:把每一對數(xi,yi)看成直角坐標系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖8.4.1

對于回歸模型,我們假設:可得到:如果給出a和b的估計量分別為,則經驗回歸方程為:一般地,稱為殘差,y稱為因變量,x稱為自變量,稱為隨機擾動,a,b稱為待估計的回歸參數,下標i表示第i個觀測值。兩個變量之間的線性關系,其回歸模型為殘差可視為擾動的“估計量”。設對y及x做n次觀測得數據(xi,yi)

(i=1,2,…,n).以(xi,yi)為坐標在平面直角坐標系中描點,所得到的這張圖便稱之為散點圖.若散點呈直線趨勢,則認為y與x的關系可以用一元回歸模型來描述.設線性回歸方程為

Y=a+bx+ε

其中:ε是隨機誤差,ε~N(0,σ2).將(xi,yi)(i=1,2,…,n)逐一代入上式:第7.2節回歸系數的最小二乘估計

二元函數的最小值點稱為a,b的最小二乘估計(簡記為OLSE).記其中所以方程組有解,解得其中即最小二乘估計所得回歸方程為例7.2.1某市場連續12天賣出黃瓜的價格和數量的調查數據如下:試求:黃瓜銷量對價格的回歸方程.1.a,b的點估計(1)估計量分別是a,b的無偏估計量;(2)由于均為相互獨立正態變量的線性組合,根據正態分布的性質,它們也一定是正態的。2.a,b的點估計的方差(2)自變量x的值越分散,的方差越小.(1)擾動εi的方差σ2越大,的方差也越大.(3)當時,的方差最小.第7.3節回歸估計的統計推斷

總體方差的一個無偏估計量是:它們的算術平方根分別稱為a,b的估計標準誤差。3.的點估計和a,b的估計標準誤差得到方差的無偏估計量分別是:4.a和b的區間估計置信水平為的區間估計是:5.的區間估計計算得所以,記則的置信水平為的區間估計是:=06.y的樣本變差的分解

其中故反映了回歸自變量變差的貢獻反映了其它因素的影響回歸平方和殘差平方和

離差平方和=回歸平方和+殘差平方和即

SST=SSR+SSE稱R2=SSR/SST為判定系數,它度量了經驗回歸方程對觀測數據的擬和程度.0≤R2≤1,它的值越大,表明因變量與自變量之間的相關性越強.提出原假設和備擇假設

H0:b=0;H1:b≠0(2)選擇檢驗統計量(3)對于給定的顯著性水平α,當時就拒絕H0,認為回歸方程有顯著意義.7.回歸方程的顯著性檢驗

或者提出原假設和備擇假設

H0:b=0;H1:b≠0(2)選擇檢驗統計量(3)對于給定的顯著性水平α,當時就拒絕H0,認為回歸方程有顯著意義.注以上兩種方法檢驗結果相同,后一種檢驗可用于多個自變量的情況.我們從一組樣本數據進行回歸系數的估計,得到經驗回歸方程,因為還要進行區間估計、顯著性檢驗,所以必須求出回歸估計量的標準誤差,以及判定系數,通常可寫成表達式:,=…()()其中括號內填寫相應的t-檢驗顯著性概率值。這樣就較全面地表述了樣本回歸估計式。8.回歸分析的表述例7.3.1某市場連續12天賣出黃瓜的價格和數量的調查數據如下:由此可知:(1)R2=0.889,S=8.360=(698.889/10)0.5,平方和分解SST=6300=5601.111+698.889=SSR+SSE,(2)回歸方程的顯著性檢驗,從t檢驗和F檢驗均有:顯著性概率值p=4.34E-06<<0.05,所以認為回歸方程是顯著的。(3)a的95%置信區間是(182.435,238.454)b的95%置信區間是(-197.047,-118.508)(4)經驗回歸方程:(1.21E-08)(4.34E-06)下面我們求的95%置信區間:已知,對應預測因變量y的取值為y0,稱為的預測值.點預測值即為回歸方程計算所得回歸值.1.預測值(predictionvalue)第7.4節預測

例7.4.1

對于例7.2.1,預測當價格分別為1.2,1.1,0.85,0.75,0.45時,黃瓜的銷量情況。解:經驗回歸方程為:實際值與其預測值之間有預測誤差,即預測誤差總方差()=隨機擾動產生的方差()+抽樣誤差產生的方差(),通過計算可知:從而易見:如果要降低,可以采取如下措施(1)增大樣本容量n;(2)增大樣本中自變量的分散性(即增大);(3)減少x0與自變量樣本均值之間的距離。所求即為x=x0時,對應y0的1-α置信區間.所以y0的1-α預測區間為記則對給定的概率水平1-α2.預測區間

例7.4.2

承例7.4.1,求每個自變量值所對應的因變量值的預測區間。多元回歸模型的一般形式為:其中y是因變量,為k個自變量,為隨機擾動,為回歸參數。對因變量和所有自變量進行n次觀測,得到樣本數據假定第i次觀測的隨機誤差為,且服從正態分布則第7.5節多元回歸分析根據最小二乘法,對例7.5.1

某住宅小區附近的家具商城認為住宅銷售戶數和新婚對數這兩個因素對家具的銷售額有明顯的作用。為了確定該商城每季度家具的進貨和銷售,他們對全市各個小區家具店收集了12組市場調查資料如下:由微積分求極值方法求最小值.得多元經驗回歸方程為:請為商城人員建立二元經驗回歸方程并進行統計推斷。所求結果為(1)提出原假設:H0:bi=0;備擇假設H1:bi≠0(i=1,2,…,k)(2)選擇檢驗統計量1.t檢驗(3)若則拒絕原假設,說明對應的自變量作用是顯著的;反之,則接受原假設,認為該自變量的作用是不顯著的。多元線性回歸方程的顯著性檢驗2.F檢驗F檢驗的原假設H0:判定系數統計量的真值等于零.選擇檢驗統計量若就拒絕原假設,認為已建立起來的線性回歸模型整體上顯著有效。例7.5.2

天津某區關于“電腦銷售量、人均收入和電腦平均價格”的調查資料如下:試建立電腦銷售量的二元經驗回歸方程并進行統計推斷,檢驗回歸效果的顯著性.電腦銷售量的二元經驗回歸方程為:F=103.39151,P(F(2,6)>103.39151)=2.242E-05<<0.05,所以認為回歸方程是顯著有效的。(1)復相關分析復相關是指一個因變量同多個自變量之間的相關關系。復相關系數的計算指標為R,它表明所有自變量同因變量關系的密切程度,也是對回歸模型擬和優度的測定.(2)偏相關分析偏相關是指多元回歸中各個自變量在其它自變量固定不變時,單個自變量同因變量的相關關系.其相關程度用偏回歸系數測定(偏相關系數的計算要使用更高級的統計分析軟件,如SAS、SPSS等來實現)。多元線性回歸模型的相關分析從散點圖我們發現12個點基本在一條直線附近,這說明兩個變量之間有一個線性相關關系,這個相關關系可以表示為y=

0+

1x+

(8.4.2)這便是y關于x的一元線性回歸的數據結構式。通常假定

E(

)=0,Var(

)=

2(8.4.3)在對未知參數作區間估計或假設檢驗時,還需要假定誤差服從正態分布,即

y~N(

0+

1x,

2)(8.4.4)顯然,假定(8.4.4)比(8.4.3)要強。

由于

0,

1均未知,需要我們從收集到的數據(xi,yi),i=1,2,…,n,出發進行估計。在收集數據時,我們一般要求觀察獨立地進行,即假定y1,y2,

,yn,相互獨立。綜合上述諸項假定,我們可以給出最簡單、常用的一元線性回歸的數學模型:(8.4.5)

由數據(xi,yi),i=1,2,…,n,可以獲得

0,

1的估計,稱(8.4.6)為y關于x的經驗回歸函數,簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后,稱為回歸值(在不同場合也稱其為擬合值、預測值)。

8.4.3回歸系數的最小二乘估計

一般采用最小二乘方法估計模型(8.4.5)中的

0,

1:令:

應該滿足

稱這樣得到的稱為

0,

1的最小二乘估計,記為LSE。

最小二乘估計可以通過求偏導數并命其為0而得到:(8.4.7)這組方程稱為正規方程組,經過整理,可得(8.4.8)

解(8.4.8)可得(8.4.9)這就是參數的最小二乘估計,其中

表8.4.2例8.4.2的計算表

xi=1.90n=12

yi=590.5

xi2=0.3194

xiyi=95.9250

yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為:

例8.4.2

使用例8.4.1種合金鋼強度和碳含量數據,我們可求得回歸方程,見下表.

定理8.4.1在模型(8.4.5)下,有(1)(2)(3)對給定的x0,關于最小二乘估計的一些性質羅列在如下定理之中

定理8.4.1說明

分別是

0,

1的無偏估計;

是E(y0)=

0+

1x0的無偏估計;

除外,與是相關的;

要提高的估計精度(即降低它們的方差)就要求n大,lxx大(即要求x1,x2,

,xn較分散)。

8.4.4回歸方程的顯著性檢驗

在使用回歸方程作進一步的分析以前,首先應對回歸方程是否有意義進行判斷。如果

1=0,那么不管x如何變化,E(y)不隨x的變化作線性變化,那么這時求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果

10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。綜上,對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗:H0:

1=0vsH1:

10拒絕H0表示回歸方程是顯著的。一、F檢驗采用方差分析的思想,我們從數據出發研究各yi不同的原因。數據總的波動用總偏差平方和表示。引起各yi不同的原因主要有兩個因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個x的觀測值處的回歸值不同,其波動用回歸平方和表示;其二是其它一切因素,包括隨機誤差、x對E(y)的非線性影響等,這可用殘差平方和表示。且有如下平方和分解式:ST=SR+Se(8.4.13)

在一元線性回歸中有三種等價的檢驗方法,下面分別加以介紹。定理8.4.2設yi=

i+

1

xi

+

i,其中

i

n相互獨立,且E

i=0,Var(yi)=

2,i=1,

,n,沿用上面的記號,有(8.4.14)(8.4.15)這說明是

2的無偏估計。

關于SR

Se所含有的成分可由如下定理說明。

進一步,有關SR

Se的分布,有如下定理。

定理8.4.3

設y1,y2,

,yn相互獨立,且

yi~N(

i+

1

xi

,

2),i=1,

,n,則在上述記號下,有(1)Se/

2~

2(n2),(2)若H0成立,則有SR/

2~

2(1)(3)SR與Se,獨立(或與Se,獨立)。

如同方差分析那樣,我們可以考慮采用F比作為檢驗統計量:

1

=0時,F~F(1,n

2),其中fR=1,fe=n

2.對于給定的顯著性水平

,拒絕域為

F

F1-

(1,n

2)整個檢驗也可列成一張方差分析表。

來源平方和自由度均方和F比回歸SR=317.2589fA=1MSA=317.2589176.55殘差Se=17.9703fe=10MSe=1.79703總和ST=335.2292fT=11例8.4.3在合金鋼強度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關于回歸方程的顯著性檢驗。經計算有

若取=0.01,則F0.99(1,10)=10<F,因此在顯著性水平0.01下回歸方程是顯著的。

二、t檢驗對H0:

1

=0的檢驗也可基于t分布進行。由于,因此在H0為真時,有,其中,它可用來檢驗假設H0。對給定的顯著性水平

,拒絕域為.由于,稱為的標準誤,即的標準差的估計。

注意到t2=F,因此,t檢驗與F檢驗是等同的。以例8.4.2中數據為例,可以計算得到若取

=0.01,則由于13.2872>3.1698,因此,在顯著性水平0.01下回歸方程是顯著的。

三、相關系數檢驗一元線性回歸方程是反映兩個隨機變量x與y間的線性相關關系,它的顯著性檢驗還可通過對二維總體相關系數

的檢驗進行。它的一對假設是H0:

=0vsH1:

0(8.4.18)所用的檢驗統計量為樣本相關系數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論