統計學第八章相關和回歸分析_第1頁
統計學第八章相關和回歸分析_第2頁
統計學第八章相關和回歸分析_第3頁
統計學第八章相關和回歸分析_第4頁
統計學第八章相關和回歸分析_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學課件第八章相關和回歸分析7/26/20231第1頁,課件共77頁,創作于2023年2月相關和回歸分析是研究事物的相互關系,測定它們聯系的緊密程度,揭示其變化的具體形式和規律性的統計方法,是構造各種經濟模型、進行結構分析、政策評價、預測和控制的重要工具。7/26/20232第2頁,課件共77頁,創作于2023年2月本章學習目的1.理解相關的意義、主要形式、以及相關分析的基本內容。2.掌握相關系數的設計原理,以及相關關系顯著性檢驗。3.回歸和相關的區別和聯系4.普通最小二乘法的原理以及回歸參數的意義。5.估計標準誤差的分析等。7/26/20233第3頁,課件共77頁,創作于2023年2月

第一節相關的意義和種類一、問題的提出二、相關關系的概念三、相關關系的種類四、相關關系的主要內容7/26/20234第4頁,課件共77頁,創作于2023年2月一、問題的提出相關7/26/20235第5頁,課件共77頁,創作于2023年2月一、相關關系的概念

客觀現象之間的數量聯系存在著兩種不同的類型:

函數關系和相關關系函數關系:即當一個(或一組)變量每取一個值時,相應的另一個變量必然有一個確定值與之對應。

7/26/20236第6頁,課件共77頁,創作于2023年2月(函數關系)(1)是一一對應的確定關系(2)設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x

,當變量x取某個數值時,

y依確定的關系取相應的值,則稱y是x的函數,記為y=f(x),其中x稱為自變量,y稱為因變量(3)各觀測點落在一條線上

xy7/26/20237第7頁,課件共77頁,創作于2023年2月自變量與因變量如果變量之間有因果關系,那么原因變量就叫作自變量,而受自變量影響的變量就稱因變量。自變量通常發生在因變量之前。(不是所有先發生的變量都是自變量)一般自變量記為X,因變量記為Y。7/26/20238第8頁,課件共77頁,創作于2023年2月【例】(1)某種商品的銷售額(y)與銷售量(x)之間的關系可表示為y=px(p為單價)(2)圓的面積(S)與半徑之間的關系可表示為

S=R2(3)企業的原材料消耗額(y)與產量(x1)、單位產量消耗(x2)、原材料價格(x3)之間的關系可表示為y=x1x2x3

7/26/20239第9頁,課件共77頁,創作于2023年2月相關關系(correlationanalysis):相關關系:變量之間存在有依存關系,但這種關系是不完全確定的隨機關系,即當一個(或一組)變量每取一個值時,相應的另一個變量可能有多個不同值與之對應。7/26/202310第10頁,課件共77頁,創作于2023年2月

因果關系相關關系互為因果關系共變關系隨機性依存關系確定性依存關系函數關系變量之間關系7/26/202311第11頁,課件共77頁,創作于2023年2月

相關關系(1)變量間關系不能用函數關系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當變量x取某個值時,變量y的取值可能有幾個;(4)各觀測點分布在直線周圍。xy7/26/202312第12頁,課件共77頁,創作于2023年2月【例】商品的消費量(y)與居民收入(x)之間的關系商品銷售額(y)與廣告費支出(x)之間的關系糧食畝產量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關系收入水平(y)與受教育程度(x)之間的關系父母親身高(y)與子女身高(x)之間的關系身高與體重的關系7/26/202313第13頁,課件共77頁,創作于2023年2月相關關系與函數關系的關系:在一定的條件下互相轉化.

具有函數關系的變量,當存在觀測誤差和隨機因素影響時,其函數關系往往以相關的形式表現出來.

而具有相關關系的變量之間的聯系,如果我們對它們有了深刻的規律性認識,并且能夠把影響因變量變動的因素全部納入方程,這時相關關系也可轉化為函數關系.另外,相關關系也具有某種變動規律,所以,相關關系也經常可以用一定的函數形式去近似地描述.7/26/202314第14頁,課件共77頁,創作于2023年2月二、相關關系的種類1.按相關的程度分:完全相關不完全相關不相關(或零相關)例:完全相關:在價格P不變的情況下,銷售收入Y與銷售量X的關系;不相關:股票價格的高低與氣溫的高低是不相關的;7/26/202315第15頁,課件共77頁,創作于2023年2月2.按相關的方向分:正相關負相關正相關:兩個變量之間的變化方向一致,都是增長趨勢或下降趨勢。

例:收入與消費的關系;工人的工資隨勞動生產率的提高而提高。負相關:兩個變量變化趨勢相反,一個下降而另一個上升,或一個上升而另一個下降。

例:物價與消費的關系;商品流轉的規模愈大,流通費用水平則越低。7/26/202316第16頁,課件共77頁,創作于2023年2月3.按相關的形式分:線性相關非線性相關線性相關(直線相關):當一個變量每變動一個單位時,另一個變量按一個大致固定的增(減)量變動。例:人均消費水平與人均收入水平非線性相關(曲線相關):當一個變量變動時,另一個變量也相應發生變動,但這種變動是不均等的。例:產品的平均成本與總產量;農產量與施肥量.7/26/202317第17頁,課件共77頁,創作于2023年2月4.按相關的影響因素多少分:單相關復相關偏相關單相關(一元相關):只有一個自變量。復相關(多元相關):有兩個及兩個以上的自變量。如:居民的收入與儲蓄額;成本與產量如:某種商品的需求與其價格水平以及收入水平之間的相關關系便是一種復相關。7/26/202318第18頁,課件共77頁,創作于2023年2月

偏相關:

在某一現象與多種現象相關的場合,假定其他變量不變,專門考察其中兩個變量的相關關系稱為偏相關。

如:

在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關系就是一種偏相關。7/26/202319第19頁,課件共77頁,創作于2023年2月不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關

圖示7/26/202320第20頁,課件共77頁,創作于2023年2月三、相關分析的主要內容根據研究目的,搜集有關資料編制相關圖表計算相關系數建立回歸方程進行統計檢驗7/26/202321第21頁,課件共77頁,創作于2023年2月第二節相關圖表和相關系數一、相關表和相關圖二、簡單相關系數7/26/202322第22頁,課件共77頁,創作于2023年2月相關分析:就是用一個指標來表明現象間相互依存關系的密切程度。廣義的相關分析包括相關關系的分析(狹義的相關分析)和回歸分析。7/26/202323第23頁,課件共77頁,創作于2023年2月定性分析是依據研究者的理論知識和實踐經驗,對客觀現象之間是否存在相關關系,以及何種關系作出判斷。定量分析在定性分析的基礎上,通過編制相關表、繪制相關圖、計算相關系數等方法,來判斷現象之間相關的方向、形態及密切程度。相關關系的判斷7/26/202324第24頁,課件共77頁,創作于2023年2月一、相關表和相關圖相關表和相關圖是研究相關關系的直觀工具,在進行詳細的定量分析之前,可以先利用它們對現象之間存在的相關關系的方向、形式、和密切程度作大致的判斷。7/26/202325第25頁,課件共77頁,創作于2023年2月簡單相關表:將自變量x的數值按照從小到大的順序,并配合因變量y的數值一一對應而平行排列的表。消費支出y15203040425360657870可支配收入x18254560627588929899居民消費和收入的相關表單位:百元7/26/202326第26頁,課件共77頁,創作于2023年2月相關圖:又稱散點圖。將x置于橫軸上,y置于縱軸上,將(x,y)繪于坐標圖上。用來反映兩變量之間相關關系的圖形。例:7/26/202327第27頁,課件共77頁,創作于2023年2月二、簡單相關系數(一)簡單相關系數的概念是度量兩個變量之間線性相關密切程度和相關方向的統計指標。包括簡單相關系數、復相關系數、偏相關系數、曲線相關系數(相關指數).簡單相關系數又稱皮爾遜(1890年,英國)相關系數,或積矩相關系數或動差相關系數。若相關系數是根據總體全部數據計算的,稱為總體

相關系數,記為.若是根據樣本數據計算的,則稱為樣本相關系數,記為r.樣本相關系數是總體相關系數的一致估計量.

7/26/202328第28頁,課件共77頁,創作于2023年2月

樣本簡單相關系數的計算公式(積差法)(二)簡單相關系數的計算公式式中:(1)1.用計算器計算協方差Sxy7/26/202329第29頁,課件共77頁,創作于2023年2月(1)式可化簡為如下公式:或:7/26/202330第30頁,課件共77頁,創作于2023年2月㈡用計算機計算⒈選取“工具”-“數據分析”⒉選“相關系數”⒊選“確定”⒋輸入“輸入區域”⒌輸入“輸出區域”⒍在“分組方式”中選“逐列”⒎選“標志位于第一行”⒏確定出現結果如下:7/26/202331第31頁,課件共77頁,創作于2023年2月1.r的取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負相關2.r=0,不存在線性相關關系3.-1r<0,為負相關4.0<r1,為正相關5.|r|越趨于1表示關系越密切;|r|越趨于0表示關系越不密切相關系數取值及其意義7/26/202332第32頁,課件共77頁,創作于2023年2月r的范圍在0.1-0.3是微弱相關r的范圍在0.3-0.5是低度相關;r的范圍在0.5-0.8是顯著相關;r的范圍在0.8以上是高度相關.7/26/202333第33頁,課件共77頁,創作于2023年2月-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加7/26/202334第34頁,課件共77頁,創作于2023年2月【例1】計算人均可支配收入和消費支出之間的簡單相關系數。7/26/202335第35頁,課件共77頁,創作于2023年2月解:由表中數據得:∑y=473,∑x=662,∑y2=26507,∑x2=51656,∑xy=36933,n=10計算得人均可支配收入和消費支出間的簡單相關系數為:7/26/202336第36頁,課件共77頁,創作于2023年2月(三)相關系數的顯著性檢驗1. 檢驗兩個變量之間是否存在線性相關關系總體相關系數是未知的,常用樣本相關系數來估計,不同的樣本其相關系數不同,r對

代表程度與樣本容量有關.計算出樣本相關系數r以后,還要對其進行顯著性檢驗,以判定現象總體間線性相關是否顯著.在二元正態總體情況下,r的抽樣分布具有確定的函數形式,當總體相關系數時,r呈t分布(n=30).2.等價于對回歸系數b的檢驗3.采用t檢驗

7/26/202337第37頁,課件共77頁,創作于2023年2月檢驗的步驟

提出假設:H0:(無關);H1:0(相關)

計算檢驗的統計量:

確定顯著性水平,并作出決策若t>t,拒絕H0若t<t,接受H07/26/202338第38頁,課件共77頁,創作于2023年2月對例2計算的相關系數進行顯著性檢(0.05)提出假設:H0:;H1:0計算檢驗的統計量3.根據顯著性水平=0.05,查t分布表得t(n-2)=2.306由于t=17.94>t(10-2)=2.306,拒絕H0,總體人均消費支出與人均可支配收入之間的線性相關關系顯著.例:7/26/202339第39頁,課件共77頁,創作于2023年2月為了簡化檢驗的過程,有人根據t統計量和r的關系,編成《相關系數臨界值表》,相關系數的顯著性檢驗可直接查表進行。檢驗方法:對于給定的顯著性水平α若IrI≥r

(n-2)

,變量x與y之間有顯著的線性相關關系。若IrI<r

(n-2)

,變量x與y之間不存在線性相關關系。前例中:r=0.9878>r0.05(10-2)=0.632,所以總體人均消費支出與人均可支配收入之間的線性相關關系顯著。7/26/202340第40頁,課件共77頁,創作于2023年2月第三節一元線性回歸分析一、回歸分析概念二、回歸分析的種類三、一元線性回歸分析7/26/202341第41頁,課件共77頁,創作于2023年2月回歸方程一詞是怎么來的7/26/202342第42頁,課件共77頁,創作于2023年2月一、回歸分析的概念

是指對具有相關關系的現象,根據其相關關系的具體形態,選擇一個合適的數學模型(稱為回歸方程式),用來近似地表達變量間的平均變化關系的一種統計分析方法。7/26/202343第43頁,課件共77頁,創作于2023年2月二、回歸分析的內容從一組樣本數據出發,確定變量之間的數學關系式。對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度。7/26/202344第44頁,課件共77頁,創作于2023年2月回歸分析和相關分析的區別:相關分析中,變量x

變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化.相關分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x則作為研究時給定的非隨機變量。相關分析主要是描述兩個變量之間線性關系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制7/26/202345第45頁,課件共77頁,創作于2023年2月相關分析與回歸分析的聯系相關分析和回歸分析有著密切的聯系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須互相補充。相關分析需要依靠回歸分析來表明現象數量相關的具體形式,而回歸分析則需要依靠相關分析來表明現象數量變化的相關程度。只有當變量之間存在著高度相關時,進行回歸分析尋求其相關的具體形式才有意義。簡單說:1、相關分析是回歸分析的基礎和前提;

2、回歸分析是相關分析的深入和繼續。7/26/202346第46頁,課件共77頁,創作于2023年2月三、回歸分析的種類1.按自變量的個數分:一元回歸多元回歸2.按回歸方程的形式分:線性回歸非線性回歸本章主要介紹一元線性回歸。7/26/202347第47頁,課件共77頁,創作于2023年2月四、一元線性回歸分析(一)一元線性回歸方程當只涉及一個自變量時稱為一元回歸,若因變量y與自變量x之間為線性關系時稱為一元線性回歸。2、對于具有線性關系的兩個變量,可以用一條線性方程來表示它們之間的關系。3、描述因變量y如何依賴于自變量x和誤差項

的方程稱為回歸模型。7/26/202348第48頁,課件共77頁,創作于2023年2月注意:⑴在兩個變量之間,必須確定哪個是自變量,哪個是因變量⑵回歸方程的主要作用是用自變量來推算因變量。7/26/202349第49頁,課件共77頁,創作于2023年2月

回歸模型的表達式如下:Y=a

+

X+e1、模型中,y是x的線性函數(部分)加上隨機誤差項2、線性部分反映了由于x的變化而引起的y的變化,是Y的數學期望,即對應于X某一取值時Y的平均值:7/26/202350第50頁,課件共77頁,創作于2023年2月3、隨機誤差項(隨機干擾項)是隨機變量A、反映了除x和y之間的線性關系之外的隨機因素對y的影響B、是不能由x和y之間的線性關系所解釋的變異性隨機誤差項是Y與E(Y)的離差:4、和稱為模型的參數7/26/202351第51頁,課件共77頁,創作于2023年2月總體回歸線與隨機誤差項

XYiY。。。。。7/26/202352第52頁,課件共77頁,創作于2023年2月(二)回歸參數的普通最小二乘估計(OLS)

基本原理:

1、使因變量的觀察值Y與估計值之間的離差平方和達到最小來求得。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線都小。7/26/202353第53頁,課件共77頁,創作于2023年2月回歸參數推導過程:為使Q達到極小值,則須有:整理得如下標準方程組:7/26/202354第54頁,課件共77頁,創作于2023年2月解上述方程組得:其中可變形為:7/26/202355第55頁,課件共77頁,創作于2023年2月【例】根據例1(幻燈片35)中數據,擬合人均消費支出對人均可支配收入的回歸方程,并指出回歸系數的含義。解:∑y=473,∑x=662,∑y2=26507,∑x2=51656,∑xy=36933,n=10由表中數據得:所以:所建立的回歸方程為:回歸系數的含義是:人均可支配收入每增加1元,人均消費支出平均增加0.72元。7/26/202356第56頁,課件共77頁,創作于2023年2月相關系數與回歸系數的關系7/26/202357第57頁,課件共77頁,創作于2023年2月(三)回歸方程的顯著性檢驗1.回歸模型檢驗的種類回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義:檢驗主要涉及參數估計值的符號和取值區間.如食品支出的恩格爾函數中,b的取值區間應在0-1之間;7/26/202358第58頁,課件共77頁,創作于2023年2月一級檢驗又稱統計學檢驗,它是利用統計學中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗.一級檢驗對所有的現象進行回歸分析時都必須通過的檢驗.二級檢驗又稱經濟計量學檢驗,它是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關檢驗,異方差性檢驗等.7/26/202359第59頁,課件共77頁,創作于2023年2月2.顯著性檢驗包括兩方面的內容:(1)對整個回歸方程的顯著性檢驗---F檢驗回歸方程的顯著性檢驗即對自變量和因變量之間線性關系整體上是否顯著進行檢驗。(2)對回歸系數的顯著性檢驗:----t檢驗7/26/202360第60頁,課件共77頁,創作于2023年2月

(1)對整個回歸方程的顯著性檢驗

----即擬合程度的評價所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。判斷回歸模型擬合程度優劣最常用的數量尺度是樣本可決系數(又稱判定系數)。它是建立在對總離差平方和進行分解的基礎之上的。7/26/202361第61頁,課件共77頁,創作于2023年2月分析:因變量Y的取值是不同的,Y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差、隨機因素等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示7/26/202362第62頁,課件共77頁,創作于2023年2月估計標準誤差Syx(可說明回歸方程的代表程度)實際觀察值與回歸估計值離差平方和的均方根。

估計標準誤差反映了實際觀察值在回歸直線周圍的分散狀況,是用來說明回歸方程代表性大小的統計指標。也說明了回歸直線的擬合程度.7/26/202363第63頁,課件共77頁,創作于2023年2月由一元回歸方程樣本資料計算:估計標準誤差的計算公式為:

k表示自變量個數7/26/202364第64頁,課件共77頁,創作于2023年2月例7/26/202365第65頁,課件共77頁,創作于2023年2月簡化式:7/26/202366第66頁,課件共77頁,創作于2023年2月【例】前例1中回歸方程估計標準誤差為:7/26/202367第67頁,課件共77頁,創作于2023年2月作為回歸模型擬合優度的判斷和評價指標,估計標準誤差顯然不如判定系數,判定系數是無量綱的系數,有確定的取值范圍(0-1),便于對不同資料回歸模型擬合優度進行比較.而估計標準誤差則是有計量單位的,又沒有確定的取值范圍,不便于對不同資料回歸模型擬合優度進行比較.7/26/202368第68頁,課件共77頁,創作于2023年2月利用回歸方程進行預測和估計根據自變量x

的取值估計或預測因變量y的取值.當給出的x屬于樣本內的數據時,計算的yc值稱為內插檢驗或事后預測,當給出的x在樣本之外時,計算的yc值稱為外推預測或事前預測.估計或預測的類型點估計y的平均值的點估計y的個別值的點估計區間估計y的平均值的置信區間估計y的個別值的預測區間估計7/26/202369第69頁,課件共77頁,創作于2023年2月點估計:2.點估計值y的平均值的點估計y的個別值的點估計3.在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區間估計中則不同對于自變量x的一個給定值x0,根據回歸方程得到因變量y的一個估計值7/26/202370第7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論