第九章 相關(guān)與回歸分析ppt課件_第1頁
第九章 相關(guān)與回歸分析ppt課件_第2頁
第九章 相關(guān)與回歸分析ppt課件_第3頁
第九章 相關(guān)與回歸分析ppt課件_第4頁
第九章 相關(guān)與回歸分析ppt課件_第5頁
已閱讀5頁,還剩111頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第第9 9章章 相關(guān)與一元線性回歸相關(guān)與一元線性回歸9.1 變量間關(guān)系的度量變量間關(guān)系的度量 9.2 一元線性回歸一元線性回歸9.3 利用回歸方程進展估計和預(yù)測利用回歸方程進展估計和預(yù)測9.4 殘差分析殘差分析學(xué)習(xí)目的1. 相關(guān)系數(shù)的分析方法相關(guān)系數(shù)的分析方法一元線性回歸的根本原理和參數(shù)的最小二乘一元線性回歸的根本原理和參數(shù)的最小二乘估計估計回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度回歸方程的顯著性檢驗回歸方程的顯著性檢驗利用回歸方程進展估計和預(yù)測利用回歸方程進展估計和預(yù)測用用 SPSS 進展回歸進展回歸9.1 9.1 變量間關(guān)系的度量變量間關(guān)系的度量9.1.1 9.1.1 變量間的關(guān)系變量間的關(guān)系

2、9.1.2 9.1.2 相關(guān)關(guān)系的分類相關(guān)關(guān)系的分類9.1.3 9.1.3 相關(guān)關(guān)系的描畫與測度相關(guān)關(guān)系的描畫與測度9.1.4 9.1.4 相關(guān)系數(shù)的顯著性檢驗相關(guān)系數(shù)的顯著性檢驗函數(shù)關(guān)系與相關(guān)關(guān)系函數(shù)關(guān)系與相關(guān)關(guān)系 當一個變量取一定數(shù)值時,另一個變量有確當一個變量取一定數(shù)值時,另一個變量有確定值與之相對應(yīng),這種關(guān)系稱為函數(shù)關(guān)系。定值與之相對應(yīng),這種關(guān)系稱為函數(shù)關(guān)系。 當一個變量取一定數(shù)值時,與之相對應(yīng)的另當一個變量取一定數(shù)值時,與之相對應(yīng)的另一變量的數(shù)值雖然不確定,但它仍按某種規(guī)一變量的數(shù)值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,這種關(guān)系稱為相關(guān)律在一定的范圍內(nèi)變化,這種關(guān)系稱為相關(guān)

3、關(guān)系。關(guān)系。 對相關(guān)關(guān)系的分析是統(tǒng)計學(xué)的重要研討內(nèi)容。對相關(guān)關(guān)系的分析是統(tǒng)計學(xué)的重要研討內(nèi)容。 主要研討方法:相關(guān)分析和與回歸分析。主要研討方法:相關(guān)分析和與回歸分析。9.1.19.1.1變量間的關(guān)系變量間的關(guān)系函數(shù)關(guān)系是一一對應(yīng)確實定關(guān)系是一一對應(yīng)確實定關(guān)系設(shè)有兩個變量設(shè)有兩個變量 x x 和和 y y ,變量,變量 y y 隨變量隨變量 x x 一同變化,并完全一同變化,并完全依賴于依賴于 x x ,當變量,當變量 x x 取某個取某個數(shù)值時,數(shù)值時, y y 依確定的關(guān)系取相依確定的關(guān)系取相應(yīng)的值,那么稱應(yīng)的值,那么稱 y y 是是 x x 的函的函數(shù),記為數(shù),記為 y = f (x)y

4、 = f (x),其中,其中 x x 稱為自變量,稱為自變量,y y 稱為因變量稱為因變量函數(shù)關(guān)系(幾個例子)相關(guān)關(guān)系(correlation)變量間關(guān)系不能用函數(shù)關(guān)變量間關(guān)系不能用函數(shù)關(guān)系準確表達系準確表達一個變量的取值不能由另一個變量的取值不能由另一個變量獨一確定一個變量獨一確定當變量當變量 x 取某個值時,變?nèi)∧硞€值時,變量量 y 的取值能夠有幾個的取值能夠有幾個各觀測點分布在直線周圍各觀測點分布在直線周圍 相關(guān)關(guān)系(幾個例子)相關(guān)分析與回歸分析 相關(guān)分析相關(guān)分析Correlation AnalysisCorrelation Analysis研討變量之研討變量之間相關(guān)的方向和相關(guān)的程度,

5、但無法給出變量間間相關(guān)的方向和相關(guān)的程度,但無法給出變量間相互關(guān)系的詳細方式,因此無法從一個變量推測相互關(guān)系的詳細方式,因此無法從一個變量推測另一個變量。另一個變量。 回歸分析回歸分析Regression) Regression) 可以確定變量之間相互可以確定變量之間相互關(guān)系的詳細方式回歸方程,確定一個變量對關(guān)系的詳細方式回歸方程,確定一個變量對另一個變量的影響程度,并根據(jù)回歸方程進展預(yù)另一個變量的影響程度,并根據(jù)回歸方程進展預(yù)測。測。1.1.按相關(guān)關(guān)系涉及的要素多少來分,可分為:按相關(guān)關(guān)系涉及的要素多少來分,可分為: 單相關(guān)和復(fù)相關(guān)。單相關(guān)和復(fù)相關(guān)。 在實踐任務(wù)中,如存在多個自變量,可抓住在

6、實踐任務(wù)中,如存在多個自變量,可抓住其中主要的自變量,研討其相關(guān)關(guān)系,而堅持另其中主要的自變量,研討其相關(guān)關(guān)系,而堅持另一些要素不變,這時復(fù)相關(guān)可轉(zhuǎn)化為偏相關(guān)。一些要素不變,這時復(fù)相關(guān)可轉(zhuǎn)化為偏相關(guān)。二要素之間的相關(guān)關(guān)系稱單相關(guān),即只涉及二要素之間的相關(guān)關(guān)系稱單相關(guān),即只涉及一個自變量和一個因變量。一個自變量和一個因變量。三個或三個以上要素的相關(guān)關(guān)系稱復(fù)相關(guān),三個或三個以上要素的相關(guān)關(guān)系稱復(fù)相關(guān),或多元相關(guān),即涉及二個或二個以上的自變量和或多元相關(guān),即涉及二個或二個以上的自變量和因變量。因變量。9.1.29.1.2相關(guān)關(guān)系的分類相關(guān)關(guān)系的分類 2.2.按相關(guān)關(guān)系的性質(zhì)來分,可分為按相關(guān)關(guān)系的性

7、質(zhì)來分,可分為: : 正相關(guān)和負相關(guān)正相關(guān)和負相關(guān)正相關(guān)是指兩相關(guān)景象變化的方向是一正相關(guān)是指兩相關(guān)景象變化的方向是一致的。致的。負相關(guān)是指兩相關(guān)景象變化的方向是相負相關(guān)是指兩相關(guān)景象變化的方向是相反的。反的。正相關(guān)負相關(guān)3. 3. 按相關(guān)關(guān)系的方式來分,可分為:按相關(guān)關(guān)系的方式來分,可分為: 直線相關(guān)和曲線相關(guān)直線相關(guān)和曲線相關(guān) 直線相關(guān)是指兩個相關(guān)景象之間,當自變量X的數(shù)值發(fā)生變動時,因變量y隨之發(fā)生近似于固定比例的變動,在相關(guān)圖上的散點近似地表現(xiàn)為直線方式,因此稱其為直線相關(guān)關(guān)系。 曲線相關(guān)是指兩個相關(guān)景象之間,當自變量X的數(shù)值發(fā)生變動時,因變量y也隨之發(fā)生變動,但這種變動在數(shù)值上不成固

8、定比例,在相關(guān)圖上的散點可表現(xiàn)為拋物線、指數(shù)曲線、雙曲線等方式,因此稱其為曲線相關(guān)關(guān)系。曲線相關(guān)直線相關(guān)4. 4. 按相關(guān)程度分,可分為:按相關(guān)程度分,可分為: 完全相關(guān)、不完全相關(guān)和不相關(guān)完全相關(guān)、不完全相關(guān)和不相關(guān) 完全相關(guān)就是相關(guān)景象之間的關(guān)系是完全確定的關(guān)系,因此完全相關(guān)關(guān)系就是函數(shù)關(guān)系。 不相關(guān)是指兩景象之間在數(shù)量上的變化上各自獨立,互不影響。 不完全相關(guān)就是介于完全相關(guān)和不相關(guān)之間的一種相關(guān)關(guān)系。相關(guān)分析的對象主要是不完全相關(guān)關(guān)系。9.1.39.1.3相關(guān)關(guān)系的描畫與測度相關(guān)關(guān)系的描畫與測度( (散點圖散點圖) )散點圖 Scatter Diagram 散點圖是察看兩個變量之間的相

9、關(guān)程度和類型最直觀的方法。 散點圖是在直角坐標系中用相對應(yīng)的兩個變量值作為圖中一個點的橫坐標和縱坐標描點得到的圖形。自變量和因變量 假設(shè)兩個變量中一個變量是另一個變量變化的結(jié)果,那么 代表緣由的變量稱為自變量 Independent (Explanatory) Variable, 代表結(jié)果的變量稱為因變量 Dependent (Response) Variable 。 在散點圖中習(xí)慣上把因變量繪制在縱軸上。散點圖(scatter diagram)散點圖(例題分析) 【例】一家大型商業(yè)銀行在多個地域設(shè)有分行,【例】一家大型商業(yè)銀行在多個地域設(shè)有分行,其業(yè)務(wù)主要是進展根底設(shè)備建立、國家重點工其業(yè)務(wù)

10、主要是進展根底設(shè)備建立、國家重點工程建立、固定資產(chǎn)投資等工程的貸款。近年來,程建立、固定資產(chǎn)投資等工程的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)務(wù)的開展帶來較較大比例的增長,這給銀行業(yè)務(wù)的開展帶來較大壓力。為弄清楚不良貸款構(gòu)成的緣由,希望大壓力。為弄清楚不良貸款構(gòu)成的緣由,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的方法。下面是該銀行所屬找出控制不良貸款的方法。下面是該銀行所屬的的25家分行家分行2019年的有關(guān)業(yè)務(wù)數(shù)據(jù)年的有關(guān)業(yè)務(wù)數(shù)據(jù) 散點圖(例題分析)散

11、點圖(例題分析) 不良貸款與貸款余額的散點圖不良貸款與貸款余額的散點圖024681012140100200300400貸款余額不良貸款 不良貸款與累計應(yīng)收貸款不良貸款與累計應(yīng)收貸款的散點圖的散點圖02468101214051015202530累計應(yīng)收貸款不良貸款 不良貸款與貸款項目個數(shù) 不良貸款與貸款項目個數(shù)的散點圖的散點圖0 02 24 46 68 81010121214140 020204040貸款項目個數(shù)貸款項目個數(shù)不良貸款不良貸款 不良貸款與固定資產(chǎn)投資額不良貸款與固定資產(chǎn)投資額的散點圖的散點圖02468101214050100150200固定資產(chǎn)投資額不良貸款9.1.39.1.3相關(guān)

12、關(guān)系的描畫與測度相關(guān)關(guān)系的描畫與測度( (相關(guān)系數(shù)相關(guān)系數(shù)) )相關(guān)系數(shù)相關(guān)系數(shù)(correlation coefficient)(correlation coefficient)對變量之間關(guān)系親密程度的度量對變量之間關(guān)系親密程度的度量衡量兩個定量變量之間線性相關(guān)程度的常衡量兩個定量變量之間線性相關(guān)程度的常用目的是皮爾遜用目的是皮爾遜 PearsonPearson相關(guān)系數(shù)。相關(guān)系數(shù)。也稱為簡單相關(guān)系數(shù)也稱為簡單相關(guān)系數(shù)假設(shè)相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,假設(shè)相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為稱為總體相關(guān)系數(shù),記為假設(shè)是根據(jù)樣本數(shù)據(jù)計算的,那么稱為樣假設(shè)是根據(jù)樣本數(shù)據(jù)計算

13、的,那么稱為樣本相關(guān)系數(shù),記為本相關(guān)系數(shù),記為 r r相關(guān)系數(shù)相關(guān)系數(shù)(計算公式計算公式) 樣本相關(guān)系數(shù)的計算公式22)()()(yyxxyyxxr2222yynxxnyxxynr相關(guān)系數(shù)相關(guān)系數(shù)(取值及其意義取值及其意義)相關(guān)系數(shù)的性質(zhì)性質(zhì)性質(zhì)1:r 的取值范圍是的取值范圍是 -1,1 |r|=1,為完全相關(guān),為完全相關(guān)r =1,為完全正相關(guān),為完全正相關(guān)r =-1,為完全負正相關(guān),為完全負正相關(guān) r = 0,不存在線性相關(guān)關(guān)系,不存在線性相關(guān)關(guān)系 -1r0,為負相關(guān),為負相關(guān)0r1,為正相關(guān),為正相關(guān)|r|越趨于越趨于1表示關(guān)系越強;表示關(guān)系越強;|r|越趨于越趨于0表示關(guān)表示關(guān)系越弱系越

14、弱相關(guān)系數(shù)的性質(zhì)性質(zhì)性質(zhì)2:r具有對稱性。即具有對稱性。即x與與y之間的相關(guān)系數(shù)和之間的相關(guān)系數(shù)和y與與x之間之間的相關(guān)系數(shù)相等,即的相關(guān)系數(shù)相等,即rxy= ryx性質(zhì)性質(zhì)3:r數(shù)值大小與數(shù)值大小與x和和y原點及尺度無關(guān),即改動原點及尺度無關(guān),即改動x和和y的的 數(shù)據(jù)原點及計量尺度,并不改動數(shù)據(jù)原點及計量尺度,并不改動r數(shù)值大小數(shù)值大小性質(zhì)性質(zhì)4:僅僅是:僅僅是x與與y之間線性關(guān)系的一個度量,它不能用之間線性關(guān)系的一個度量,它不能用 于描畫非線性關(guān)系。這意為著,于描畫非線性關(guān)系。這意為著,r=0只表示兩個變只表示兩個變 量之間不存在線性相關(guān)關(guān)系,并不闡明變量之間沒量之間不存在線性相關(guān)關(guān)系,并

15、不闡明變量之間沒 有任何關(guān)系有任何關(guān)系性質(zhì)性質(zhì)5:r雖然是兩個變量之間線性關(guān)系的一個度量,卻不雖然是兩個變量之間線性關(guān)系的一個度量,卻不 一定意味著一定意味著x與與y一定有因果關(guān)系一定有因果關(guān)系相關(guān)系數(shù)的閱歷解釋 |r|0.8時,可視為兩個變量之間高度相關(guān)0.5|r|0.8時,可視為中度相關(guān)0.3|r|0.5時,視為低度相關(guān)|r|t,回絕,回絕H0n 假設(shè)假設(shè)tt(25-2)=2.0687,回絕,回絕H0,不良貸款,不良貸款與貸款余額之間存在著顯著的正線性相關(guān)關(guān)系與貸款余額之間存在著顯著的正線性相關(guān)關(guān)系 相關(guān)系數(shù)的顯著性檢驗(例題分析) 各相關(guān)系數(shù)檢驗的統(tǒng)計量各相關(guān)系數(shù)檢驗的統(tǒng)計量例題 198

16、5-20191985-2019年北京市城鎮(zhèn)居民人均年消費性支出年北京市城鎮(zhèn)居民人均年消費性支出變量變量Y Y和人均年可支配收入變量和人均年可支配收入變量X X的有關(guān)的有關(guān)資料見資料見9.1.sav9.1.sav,請對,請對X X和和Y Y變量進展相關(guān)分析變量進展相關(guān)分析 。消費支出消費支出可支配收入可支配收入消費支出消費支出1 1可支配收入可支配收入0.99680.99681 1 計算結(jié)果: t檢驗值為 臨界值t212.08,故回絕H0,以為相關(guān)系數(shù)顯著。消費支出和可支配收入的相關(guān)系數(shù)顯著性檢驗消費支出和可支配收入的相關(guān)系數(shù)顯著性檢驗消費支出可支配收入消費支出1可支配收入0.996812220

17、.99682157.1981110.9968rntr留意:相關(guān)關(guān)系留意:相關(guān)關(guān)系因果關(guān)系!因果關(guān)系! 典型的錯誤推斷:典型的錯誤推斷: 統(tǒng)計分析闡明,慶賀生日次數(shù)越統(tǒng)計分析闡明,慶賀生日次數(shù)越多的人越長壽。因此,慶賀生日有利于安康。多的人越長壽。因此,慶賀生日有利于安康。 調(diào)查闡明,世界各國人均電視機擁有量與預(yù)期壽命調(diào)查闡明,世界各國人均電視機擁有量與預(yù)期壽命存在很強的正相關(guān)性。因此,電視機擁有量越高,存在很強的正相關(guān)性。因此,電視機擁有量越高,預(yù)期壽命越長。預(yù)期壽命越長。 對小學(xué)各年級學(xué)生的抽樣調(diào)查闡明,學(xué)生的識字程對小學(xué)各年級學(xué)生的抽樣調(diào)查闡明,學(xué)生的識字程度與他們鞋子的尺寸高度正相關(guān)。因

18、此,學(xué)生穿的度與他們鞋子的尺寸高度正相關(guān)。因此,學(xué)生穿的鞋越大,他的識字程度就越高。鞋越大,他的識字程度就越高。9.2 一元線性回歸9.2.1 一元線性回歸模型一元線性回歸模型9.2.2 參數(shù)的最小二乘估計參數(shù)的最小二乘估計9.2.3 回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度9.2.4 顯著性檢驗顯著性檢驗關(guān)于F.GaltonGaltonGalton1822-19111822-1911是一位人類學(xué)家,著名生物是一位人類學(xué)家,著名生物學(xué)家達爾文的表兄弟,早年學(xué)醫(yī),曾在劍橋大學(xué)學(xué)家達爾文的表兄弟,早年學(xué)醫(yī),曾在劍橋大學(xué)念書。雖然他的數(shù)學(xué)不是很好,但在人類學(xué)和優(yōu)念書。雖然他的數(shù)學(xué)不是很好,但在人類學(xué)和優(yōu)

19、生學(xué)研討中萌生的統(tǒng)計學(xué)思想,對生物統(tǒng)計的開生學(xué)研討中萌生的統(tǒng)計學(xué)思想,對生物統(tǒng)計的開展產(chǎn)生了深遠影響,如展產(chǎn)生了深遠影響,如“回歸、回歸、 “雙變量正態(tài)分雙變量正態(tài)分布的概念等。他沒有子女,但終身寫了布的概念等。他沒有子女,但終身寫了9 9部書,部書,發(fā)表了近發(fā)表了近200200篇論文。篇論文。18601860年中選英國皇家學(xué)會會年中選英國皇家學(xué)會會員,員,19091909年被封為爵士。年被封為爵士。為什么叫回歸“? “回歸這個詞是由英國統(tǒng)計學(xué)家回歸這個詞是由英國統(tǒng)計學(xué)家F.GaltonF.Galton創(chuàng)建創(chuàng)建的。他在研討父子身高的。他在研討父子身高10781078對數(shù)據(jù)關(guān)系時發(fā)對數(shù)據(jù)關(guān)系時發(fā)

20、現(xiàn),高個子的父親常生高個子的兒子,但兒子身現(xiàn),高個子的父親常生高個子的兒子,但兒子身高超越父親的概率要小于低于父親的概率;同樣高超越父親的概率要小于低于父親的概率;同樣矮個子的父親常生矮個子的兒子,但兒子身高比矮個子的父親常生矮個子的兒子,但兒子身高比父親更矮的概率要小于比父親高的概率。也就是父親更矮的概率要小于比父親高的概率。也就是說不能夠無限制的一代比一代高,或一代比一代說不能夠無限制的一代比一代高,或一代比一代矮。后代的高度有向平均高度回歸的趨勢;分開矮。后代的高度有向平均高度回歸的趨勢;分開均值越遠,所遭到回歸的壓力也越大。均值越遠,所遭到回歸的壓力也越大。“回歸這回歸這個詞就由此而來

21、。個詞就由此而來。 F. GaltonRegression 的原始釋義什么是回歸分析?(Regression)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式系式對這些關(guān)系式的可信程度進展各種統(tǒng)計檢驗,對這些關(guān)系式的可信程度進展各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個或幾個變量的取利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預(yù)測或控制另一個特定變量的取值,并給值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的準確程度出這

22、種預(yù)測或控制的準確程度回歸分析與相關(guān)分析的區(qū)別回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量相關(guān)分析中,變量 x 變量變量 y 處于平等的位置;處于平等的位置;回歸分析中,變量回歸分析中,變量 y 稱為因變量,處在被解釋稱為因變量,處在被解釋的位置,的位置,x 稱為自變量,用于預(yù)測因變量的變化稱為自變量,用于預(yù)測因變量的變化相關(guān)分析中所涉及的變量相關(guān)分析中所涉及的變量 x 和和 y 都是隨機變量;都是隨機變量;回歸分析中,因變量回歸分析中,因變量 y 是隨機變量,自變量是隨機變量,自變量 x 可以是隨機變量,也可以是非隨機確實定變量可以是隨機變量,也可以是非隨機確實定變量相關(guān)分析主要是描畫兩個變量之

23、間線性關(guān)系的親相關(guān)分析主要是描畫兩個變量之間線性關(guān)系的親密程度;回歸分析不僅可以提示變量密程度;回歸分析不僅可以提示變量 x 對變量對變量 y 的影響大小,還可以由回歸方程進展預(yù)測和控制的影響大小,還可以由回歸方程進展預(yù)測和控制 回歸模型的類型線線 性性 回回 歸歸非非 線線 性性 回回 歸歸一一 元元 回回 歸歸線線 性性 回回 歸歸非非 線線 性性 回回 歸歸多多 元元 回回 歸歸回回 歸歸 模模 型型9.2.1一元線性回歸模型一元線性回歸模型一元線性回歸涉及一個自變量的回歸因變量y與自變量x之間為線性關(guān)系被 預(yù) 測 或 被 解 釋 的 變 量 稱 為 因 變 量(dependent va

24、riable),用y表示用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independent variable),用x表示 因變量與自變量之間的關(guān)系用一個線性方程來表示一元線性回歸模型一元線性回歸模型描畫因變量描畫因變量 y 如何依賴于自變量如何依賴于自變量 x 和誤差項和誤差項的的方程稱為回歸模型方程稱為回歸模型一元線性回歸模型可表示為一元線性回歸模型可表示為 y = + b x + y 是是 x 的線性函數(shù)的線性函數(shù)(部分部分)加上誤差項加上誤差項線性部分反映了由于線性部分反映了由于 x 的變化而引起的的變化而引起的 y 的變化的變化誤差項誤差項 是隨機變量是隨機變量反映了除反映了除

25、 x 和和 y 之間的線性關(guān)系之外的隨機要素之間的線性關(guān)系之外的隨機要素對對 y 的影響的影響是不能由是不能由 x 和和 y 之間的線性關(guān)系所解釋的變異性之間的線性關(guān)系所解釋的變異性 和和 稱為模型的參數(shù)稱為模型的參數(shù)一元線性回歸模型一元線性回歸模型( (根本假定根本假定5 5個個) ) 因變量因變量x與自變量與自變量y之間具有線性關(guān)系之間具有線性關(guān)系在反復(fù)抽樣中,自變量在反復(fù)抽樣中,自變量x的取值是固定的,即假定的取值是固定的,即假定x是是非隨機的非隨機的誤差項誤差項是一個期望值為是一個期望值為0的隨機變量,即的隨機變量,即E()=0。對。對于一個給定的于一個給定的 x 值,值,y 的期望值

26、為的期望值為E ( y ) = + x對于一切的對于一切的 x 值,值,的方差的方差2 都一樣都一樣誤差項誤差項是一個服從正態(tài)分布的隨機變量,且相互獨是一個服從正態(tài)分布的隨機變量,且相互獨立。即立。即N(0 ,2 )獨立性意味著對于一個特定的獨立性意味著對于一個特定的 x 值,它所對應(yīng)的值,它所對應(yīng)的與與其他其他 x 值所對應(yīng)的值所對應(yīng)的不相關(guān)不相關(guān)對于一個特定的對于一個特定的 x 值,它所對應(yīng)的值,它所對應(yīng)的 y 值與其他值與其他 x 所對所對應(yīng)的應(yīng)的 y 值也不相關(guān)值也不相關(guān)一元線性回歸模型一元線性回歸模型( (根本假定根本假定) ) y總體回歸方程總體回歸函數(shù) (regression e

27、quation)描畫描畫 y 的平均值或期望值如何依賴于的平均值或期望值如何依賴于 x 的方的方程稱為回歸方程程稱為回歸方程一元線性回歸方程的方式如下一元線性回歸方程的方式如下3. E( y ) = + x方程的圖示是一條直線,也稱為直線回歸方程方程的圖示是一條直線,也稱為直線回歸方程是回歸直線在是回歸直線在 y 軸上的截距,是當軸上的截距,是當 x=0 時時 y 的期望值的期望值是直線的斜率,稱為回歸系數(shù),表示當是直線的斜率,稱為回歸系數(shù),表示當 x 每變動一個每變動一個單位時,單位時,y 的平均變動值的平均變動值估計的回歸方程樣本回歸函數(shù) (estimated regression equ

28、ation)xy1、總體回歸線是未知的,只需一條。樣本回歸線是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線。2、總體回歸函數(shù)中的 和 是未知的參數(shù),表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的 和 是隨機變量,其詳細數(shù)值隨所抽取的樣本觀測值不同而變動。3、總體回歸函數(shù)中的ei是i與未知的總體回歸線之間的縱向間隔 ,它是不可直接觀測的。而樣本回歸函數(shù)中的i是i與樣本回歸線之間的縱向間隔 ,當根據(jù)樣本觀測值擬合出樣本回歸線之后,可以計算出i的詳細數(shù)值。9.2.2參數(shù)的最小二乘估計參數(shù)的最小二乘估計(xn , yn)(x1 , y1)(x2 , y2)(xi , yi)ei = yi-yi最小二乘

29、估計最小niiiniixyyy1212)() (最小二乘估計(圖示) xy 2iymin)(iy假設(shè)要使 最小,只需:)( 10 xy2x222yiiii2e)(20 xxyx2x2x2y2x2iiii2iiii2e2e最小二乘法 ( 和 的計算公式)xyxxnyxyxnniniiiniiniiniii1212111估計方程的求法(例題分析)【例】求不良貸款對貸款余額的回歸方程【例】求不良貸款對貸款余額的回歸方程8295. 0268.120037895. 0728. 3037895. 07 .300637.516543252 .937 .300614.17080252xy037859.0825

30、9.00.037895估計方程的求法(例題分析)不良貸款對貸款余額回歸方程的圖示不良貸款對貸款余額的回歸直線不良貸款對貸款余額的回歸直線-2024681012140100200300400貸款余額不良貸款一元線性回歸的計算機實現(xiàn)一元線性回歸的計算機實現(xiàn) Spss Spss:analyzeregressionlinearanalyzeregressionlinear; Eviews Eviews:quickestimate equationquickestimate equation。 根據(jù)表9.1的數(shù)據(jù),建立北京市城鎮(zhèn)居民消費模型,以人均年消費性支出變量Y為因變量,以人均年可支配收入變量X為自

31、變量,建立一元線性回歸模型。例題9.2 結(jié)果分析 上式中,0.7246是邊沿消費傾向,表示人均可支配收入每添加1千元,人均消費支出會添加0.7246千元;0.5628是自主性消費,即與收入無關(guān)的最根本人均消費為0.5628千元。ttXY7246. 05658. 0一元線性回歸方程的評價和檢驗一元線性回歸方程的評價和檢驗 擬合優(yōu)度 1、決議系數(shù) 2、估計規(guī)范誤差 顯著性檢驗 3、t檢驗 4、F檢驗9.2.3回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度1、決議系數(shù) 回歸直線與各觀測數(shù)據(jù)的接近程度稱為回歸直線的擬合優(yōu)度goodness of fit。 度量回歸直線的擬合優(yōu)度最常用的目的是決議系數(shù)coeffi

32、cient of determination ,又稱可決系數(shù)、斷定系數(shù)。 該目的是建立在對總離差平方和進展分解的根底之上的。 變差因變量因變量 y 的取值是不同的,的取值是不同的,y 取值的這種動搖取值的這種動搖稱為變差。變差來源于兩個方面稱為變差。變差來源于兩個方面由于自變量由于自變量 x 的取值不同呵斥的的取值不同呵斥的除除 x 以外的其他要素以外的其他要素(如如x對對y的非線性影響、丈的非線性影響、丈量誤差等量誤差等)的影響的影響對一個詳細的觀測值來說,變差的大小可以經(jīng)對一個詳細的觀測值來說,變差的大小可以經(jīng)過該實踐觀測值與其均值之差過該實踐觀測值與其均值之差 來表示來表示yy 變差的分

33、解(圖示) yxyyyyyyy),(iiyx離差平方和的分解 (三個平方和的關(guān)系) niiniiniiyyyyyy121212離差平方和的分解 (三個平方和的意義)總平方和總平方和(SST)(sum of squares for total)反映因變量的反映因變量的 n 個察看值與其均值的總離個察看值與其均值的總離差差回歸平方和回歸平方和(SSR)(sum of squares for regression)反映自變量反映自變量 x 的變化對因變量的變化對因變量 y 取值變化取值變化的影響,或者說,是由于的影響,或者說,是由于 x 與與 y 之間的線之間的線性關(guān)系引起的性關(guān)系引起的 y 的取值

34、變化,也稱為可解的取值變化,也稱為可解釋的平方和釋的平方和殘差平方和殘差平方和(SSE)(sum of squares for error)反映除反映除 x 以外的其他要素對以外的其他要素對 y 取值的影響,取值的影響,也稱為不可解釋的平方和或剩余平方和也稱為不可解釋的平方和或剩余平方和斷定系數(shù)R2 (coefficient of determination)回歸平方和占總離差平方和的比例niiniiniiniiyyyyyyyySSTSSRR1212121221斷定系數(shù)R2 (例題分析)【例】計算不良貸款對貸款余額回歸的斷定系數(shù),并解釋【例】計算不良貸款對貸款余額回歸的斷定系數(shù),并解釋其意義其

35、意義 斷定系數(shù)的實踐意義是:在不良貸款取值的變差中,斷定系數(shù)的實踐意義是:在不良貸款取值的變差中,有有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系可以由不良貸款與貸款余額之間的線性關(guān)系來解釋,或者說,在不良貸款取值的變動中,有來解釋,或者說,在不良貸款取值的變動中,有71.16%是由貸款余額所決議的。也就是說,不良貸款是由貸款余額所決議的。也就是說,不良貸款取值的差別有取值的差別有2/3以上是由貸款余額決議的。可見不良以上是由貸款余額決議的。可見不良貸款與貸款余額之間有較強的線性關(guān)系貸款與貸款余額之間有較強的線性關(guān)系 %16.717116. 06504.3124860.2222SSTSS

36、RR估計規(guī)范誤差估計規(guī)范誤差(standard error of estimate)實踐察看值與回歸估計值離差平方和的均方根反映實踐察看值在回歸直線周圍的分散情況對誤差項的規(guī)范差的估計,是在排除了x對y的線性影響后,y隨機動搖大小的一個估計量反映用估計的回歸方程預(yù)測y時預(yù)測誤差的大小 計算公式為MSEnSSEnyysniiie22129.2.4顯著性檢驗顯著性檢驗線性關(guān)系的檢驗檢驗自變量與因變量之間的線性關(guān)系能否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,運用F檢驗來分析二者之間的差別能否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自在度(自變量的個數(shù)k) 殘差均方:殘差平方和SSE除以

37、相應(yīng)的自在度(n-k-1)線性關(guān)系的檢驗線性關(guān)系的檢驗 (檢驗的步驟檢驗的步驟) 提出假設(shè)H0:=0 線性關(guān)系不顯著H1:0)2,1 ()2(1nFMSEMSRnSSESSRF線性關(guān)系的檢驗線性關(guān)系的檢驗 ( (例題分析例題分析) ) 提出假設(shè)提出假設(shè)H0H0:=0 =0 不良貸款與貸款余額之間的線性關(guān)系不良貸款與貸款余額之間的線性關(guān)系不顯著不顯著H1H1:002.2.計算檢驗統(tǒng)計量計算檢驗統(tǒng)計量F F753844.56)225(164421.90148598.222)2(1nSSESSRF線性關(guān)系的檢驗 (方差分析表) 回歸系數(shù)的檢驗回歸系數(shù)的檢驗(樣本統(tǒng)計量 的分布)(E2xxi2xxss

38、iexy2xxssie回歸系數(shù)的檢驗 (檢驗步驟) 提出假設(shè)H0: b = 0 (沒有線性關(guān)系) H1: b 0 (有線性關(guān)系) 計算檢驗的統(tǒng)計量) 2(ntst幾點闡明幾點闡明 為什么要檢驗回歸系數(shù)能否等于為什么要檢驗回歸系數(shù)能否等于0 0? 假設(shè)總體中的回歸系數(shù)等于零,闡明相應(yīng)的自假設(shè)總體中的回歸系數(shù)等于零,闡明相應(yīng)的自變量對變量對y y缺乏解釋才干,在這種情況下我們能缺乏解釋才干,在這種情況下我們能夠需求中回歸方程中去掉這個自變量。夠需求中回歸方程中去掉這個自變量。 我們也可以對常數(shù)項進展我們也可以對常數(shù)項進展t t檢驗,但大部分情檢驗,但大部分情況下我們并不關(guān)懷常數(shù)項的檢驗結(jié)果。況下我

39、們并不關(guān)懷常數(shù)項的檢驗結(jié)果。 通常情況下即使常數(shù)項在模型中不顯著,我們通常情況下即使常數(shù)項在模型中不顯著,我們也會在模型中保管常數(shù)項,去掉常數(shù)項能夠會也會在模型中保管常數(shù)項,去掉常數(shù)項能夠會對模型帶來不利影響。對模型帶來不利影響。回歸系數(shù)的檢驗 (例題分析)對例題的回歸系數(shù)進展顯著性檢驗對例題的回歸系數(shù)進展顯著性檢驗(0.05)提出假設(shè)提出假設(shè)H0:b = 0 H1:b 0 計算檢驗的統(tǒng)計量計算檢驗的統(tǒng)計量533515. 7005030. 0037895. 0t回歸系數(shù)的檢驗 (例題分析)P 值的運用值的運用回歸分析結(jié)果的評價回歸分析結(jié)果的評價l建立的模型能否適宜?或者說,這個擬合的模型有多“

40、好?要回答這些問題,可以從以下幾個方面入手l所估計的回歸系數(shù) 的符號能否與實際或事先預(yù)期相一致l在不良貸款與貸款余額的回歸中,可以預(yù)期貸款余額越多,不良貸款也能夠會越多,也就是說,回歸系數(shù)的值應(yīng)該是正的,在上面建立的回歸方程中,我們得到的回歸系數(shù) 為正值,l假設(shè)實際上以為x與y之間的關(guān)系不僅是正的,而且是統(tǒng)計上顯著的,那么所建立的回歸方程也應(yīng)該如此l在不良貸款與貸款余額的回歸中,二者之間為正的線性關(guān)系,而且,對回歸系數(shù)的t檢驗結(jié)果闡明而這之間的線性關(guān)系是統(tǒng)計上顯著的037895. 0回歸模型在多大程度上解釋了因變量y取值的差別?可以用斷定系數(shù)R2來回答這一問題在不良貸款與貸款余額的回歸中,得到

41、的R2=71.16%,解釋了不良貸款變差的2/3以上,闡明擬合的效果還算不錯調(diào)查關(guān)于誤差項的正態(tài)性假定能否成立。由于我們在對線性關(guān)系進展F檢驗和回歸系數(shù)進展t檢驗時,都要求誤差項服從正態(tài)分布,否那么,我們所用的檢驗程序?qū)⑹菬o效的。正態(tài)性的簡一方法是畫出殘差的直方圖或正態(tài)概率圖回歸分析結(jié)果的評價回歸分析結(jié)果的評價根據(jù)自變量根據(jù)自變量 x x 的取值估計或預(yù)測因變量的取值估計或預(yù)測因變量 y y的取值的取值估計或預(yù)測的類型估計或預(yù)測的類型點估計點估計y y 的平均值的點估計的平均值的點估計y y 的個別值的點估計的個別值的點估計區(qū)間估計區(qū)間估計y y 的平均值的置信區(qū)間估計的平均值的置信區(qū)間估計y

42、 y 的個別值的預(yù)測區(qū)間估計的個別值的預(yù)測區(qū)間估計9.3利用回歸方程進展估計和預(yù)測利用回歸方程進展估計和預(yù)測點估計點估計0 y y 的平均值的點估計n 利用估計的回歸方程,對于自變量利用估計的回歸方程,對于自變量 x x 的一個給定值的一個給定值 x0 x0 ,求出因變量,求出因變量 y y 的平的平均值的一個估計值均值的一個估計值E(y0) E(y0) ,就是平均值,就是平均值的點估計的點估計n 在前面的例子中,假設(shè)我們要估計貸款在前面的例子中,假設(shè)我們要估計貸款余額為余額為100100億元時,一切分行不良貸款的億元時,一切分行不良貸款的平均值,就是平均值的點估計平均值,就是平均值的點估計

43、。根據(jù)估。根據(jù)估計的回歸方程得計的回歸方程得)(96. 2100037895. 08295. 0)(0億元yEy 的個別值的點估計0 y 利用估計的回歸方程,對于自變量利用估計的回歸方程,對于自變量 x x 的一個給定值的一個給定值 x0 x0 ,求出因變量,求出因變量 y y 的一的一個個別值的估計值個個別值的估計值 ,就是個別值的點,就是個別值的點估計估計 例如,假設(shè)我們只是想知道貸款余額為例如,假設(shè)我們只是想知道貸款余額為72.872.8億元的那個分行億元的那個分行( (這里是編號為這里是編號為1010的的那個分行那個分行) )的不良貸款是多少,那么屬于的不良貸款是多少,那么屬于個別值的

44、點估計個別值的點估計 。根據(jù)估計的回歸方程。根據(jù)估計的回歸方程得得)(93. 18 .72037895. 08295. 00億元y區(qū)間估計區(qū)間估計點估計不能給出估計的精度,點估計值與實踐值點估計不能給出估計的精度,點估計值與實踐值之間是有誤差的,因此需求進展區(qū)間估計之間是有誤差的,因此需求進展區(qū)間估計對于自變量對于自變量 x x 的一個給定值的一個給定值 x0 x0,根據(jù)回歸方程,根據(jù)回歸方程得到因變量得到因變量 y y 的一個估計區(qū)間的一個估計區(qū)間區(qū)間估計有兩種類型區(qū)間估計有兩種類型置信區(qū)間估計置信區(qū)間估計(confidence interval estimate)(confidence i

45、nterval estimate)預(yù)測區(qū)間估計預(yù)測區(qū)間估計(prediction interval estimate)(prediction interval estimate)置信區(qū)間估計n利用估計的回歸方程,對于自變量利用估計的回歸方程,對于自變量 x x 的一個給的一個給定值定值 x0 x0 ,求出因變量,求出因變量 y y 的平均值的估計區(qū)間的平均值的估計區(qū)間 ,這一估計區(qū)間稱為置信區(qū)間這一估計區(qū)間稱為置信區(qū)間(confidence (confidence interval)interval)n E(y0) E(y0) 在在1-1-置信程度下的置信區(qū)間為置信程度下的置信區(qū)間為niiex

46、xxxnsnty1220201)2(置信區(qū)間估計(例題分析)【例】求出貸款余額為【例】求出貸款余額為100100億元時,不良貸款億元時,不良貸款95% 95% 置信程度下的置信區(qū)間置信程度下的置信區(qū)間解:根據(jù)前面的計算結(jié)果,知解:根據(jù)前面的計算結(jié)果,知n=25n=25, se=1.9799se=1.9799,t t(25-2)=2.0687 (25-2)=2.0687 5744.154933268.1201002519799. 10687. 296. 28059. 31141. 20 y)(96. 2100037895. 08295. 00億元y置信區(qū)間為置信區(qū)間為對于 一個給定的x值 x0 ,y 的一個個別值的估計區(qū)間。這一區(qū)間常稱為預(yù)測區(qū)間prediction interval)。 y0在1-置信程度下的預(yù)測區(qū)間為 個別值預(yù)測的置信區(qū)間預(yù)測區(qū)間個別值預(yù)測的置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論