




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章相關與回歸分析養猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七嗎?這畜牲就是不如人聰明。”猴子們竊竊私語:“朝四暮三和朝三暮四,雖然吃到肚子里都等于七,但朝四暮三更符合早吃飽,晚吃少的科學道理,不信去問問費雪。人雖然比我們聰明,但沒學過統計的人,智商還真不如我們高。”
——新《齊物論》學習目的及重難點提示本章學習目的掌握相關關系的測定方法特別是相關系數的計算方法。領會相關關系的含義、分類及與函數關系的區別,相關分析和回歸分析之間的關系。掌握一元線性回歸分析方法。本章重難點提示重點:相關關系的含義,相關系數及測定,一元線性回歸分析。難點:相關系數的計算、回歸參數的計算。學習內容3.1相關關系與相關分析3.2簡單線性回歸分析3.3多元線性回歸分析(略)3.4非線性回歸分析(略)3.1相關關系與相關分析3.1.1變量間的相互關系3.1.2
相關關系的類型3.1.3相關分析與回歸分析概述3.1.4相關分析的方法3.1.1變量間的相互關系1變量間的函數關系定義:客觀現象之間相互依存的確定性的數量關系。函數關系是變量之間客觀存在的一種對應關系。在這個關系中,當中一個或多個表述現象的數量(自變量)發生變化時,另一個表述現象的數量(因變量)按照一定的規律有確定的值與之對應,可以用數學表達式描述這種關系。
函數關系的說明1.是一一對應的確定關系。2.設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數值時,
y依確定的關系取相應的值,則稱y是x的函數,記為y=f(x),其中x稱為自變量,y稱為因變量。3.如:各觀測點落在一條線上。
xy函數關系的例子1.某種商品的銷售額(y)與銷售量(x)之間的關系可表示為y=px
(p為單價);2.圓的面積(S)與半徑之間的關系可表示為S=R2
;3.企業的原材料消耗額(y)與產量(x1)
、單位產量消耗(x2)
、原材料價格(x3)之間的關系可表示為y=x1x2x3
2變量間的相關關系定義:當一個或幾個相互聯系的變量取一定數值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規律在一定的范圍內變化。==即:現象之間客觀存在的不嚴格、不確定的數量依存關系。變量間的相關關系的說明(1)變量間關系不能用函數關系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當變量x取某個值時,變量y的取值可能有幾個;(4)如:各觀測點分布在直線周圍。
xy相關關系的圖示
不相關
負線性相關
正線性相關
非線性相關
完全負線性相關完全正線性相關
變量間的相關關系的例子1.商品的消費量(y)與居民收入(x)之間的關系;2.商品銷售額(y)與廣告費支出(x)之間的關系;3.糧食畝產量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關系;4.收入水平(y)與受教育程度(x)之間的關系;5.父親身高(y)與子女身高(x)之間的關系。變量間的相關關系的例子6.中國水價低推高美國油價???====2011.7.6彭博社;作者:彼得·歐爾薩格(美國前白宮行政管理與預算局局長)中國主要靠燃煤發電,其次靠水力發電。很明顯,水是水力發電的根本,但很多煤電廠也離不開水,比如開礦、加工煤和給發電機降溫。這無疑使中國已然嚴峻的水短缺雪上加霜。據世界銀行介紹,中國人均水占有量僅為全球平均水平的1/4,水分布極不均衡。在干旱等情況下,意味著中國水壩發電量將會減少,沒有足夠的水用于燃煤發電。因此,中國人不得不更加依靠柴油發電。這也就導致官方禁止柴油出口。一名美國司機一邊在高速公路上飛奔著,一邊抱怨油價過高。他或許永遠想不到,中國水價的不合理也是推高賬單的原因之一。世行報告透露,只要服務質量好、價格公道,中國人愿意為水多付錢。目前中國水價過低,難以達到高效用水維持供給的標準。提高水價不僅能讓民眾減少浪費,還能實現合理用水。3.1.2相關關系的種類1.按相關關系的程度劃分:
完全相關:當一種現象的數量變化完全由另一個現象的數量變化所確定時,稱這兩種現象間的關系為完全相關。例如在價格不變的條件下,商品銷售額與銷售量之間成正比例關系。
完全不相關:當兩個現象彼此互不影響,其數量變化各自獨立時,稱為不相關現象。不完全相關:兩個現象之間的關系介于完全相關和不相關之間,稱為不完全相關,一般的相關現象都是指這種不完全相關。如人的身高和體重之間的關系。2.按現象之間相關的形式分
線性相關:當兩種相關現象之間的關系大致呈現為線性關系時,稱之為線性相關,即直線相關。如產品總成本和單位成本之間的關系、職工工資總額和職工平均工資之間的關系等。
非線性相關:如果兩種相關現象之間,并不表現為直線的關系,而是近似于某種曲線方程的關系,則這種相關關系稱為非線性相關,即曲線相關。如產品單位成本和產量之間的關系。
相關關系的種類3.按相關的方向劃分(1)正相關:兩個相關現象間,當一個變量的數值增加(或減少)時,另一個變量的數值也隨之增加(或減少),即同方向變化。例如收入與消費的關系。(2)負相關:當一個變量的數值增加(或減少)時,而另一個變量的數值相反地呈減少(或增加)趨勢變化,即反方向變化。例如物價與消費的關系。相關關系的種類4.按相關關系涉及的變量多少劃分:兩個變量之間的相關,稱為單相關。當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時,稱為復相關。例如,某種商品的需求與其價格水平以及收入水平之間的相關關系便是一種復相關。在某一現象與多種現象相關的場合,假定其他變量不變,專門考察其中兩個變量的相關關系稱為偏相關。例如,在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關系就是一種偏相關。5.按相關關系的真實與否:真實相關、虛假相關。
3.1.3相關分析與回歸分析概述1相關分析廣義:研究現象之間相關關系的理論方法統稱,包括回歸分析。狹義:研究呈平行關系的相關變量之間的關系,即不區分自變量和因變量,不能指出變量間相互關系的具體形式。相關分析內容
(1)確定現象之間是否存在相關關系;(2)確定相關關系的表現形式;(3)判定相關關系的方向和密切程度;(4)檢驗。2回歸分析(內容)
1.判斷變量間具有真實的相關關系;2.從一組樣本數據出發,確定變量之間的數學關系式;3.對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著;4.利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度。3相關分析與回歸分析的區別1)相關分析中,變量x
變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化;2)相關分析不能指出變量間相互關系的具體形式;而回歸分析能確切的指出變量之間相互關系的具體形式,它可根據回歸模型從已知量估計和預測未知量。3)相關分析所涉及的變量一般都是隨機變量,而回歸分析中因變量是隨機的,自變量則作為研究時給定的非隨機變量。4相關分析與回歸分析的聯系(1)相關分析是回歸分析的基礎和前提。如果缺少相關分析,沒有從定性上說明現象間是否存在相關關系及相關關系的密切程度,就無法進行回歸分析。(2)回歸分析是相關分析的深入和繼續。僅僅說明現象間具有密切的相關關系是不夠的,只有進行回歸分析,擬合回歸方程,才可能進行深入分析和回歸預測,相關分析才有實際應用價值。5相關關系的測度定性分析:是依據研究者的理論知識和實踐經驗,對客觀現象之間是否存在相關關系,以及何種關系作出判斷。定量分析:在定性分析的基礎上,通過編制相關表、繪制相關圖、計算相關系數等方法,來判斷現象之間相關的方向、形態及密切程度。(1)
相關表
1)簡單相關表:直接根據原始資料,將某一變量按大小排列,再將另一變量的對應值平行排列得到的相關表。
表3-1某市居民月消費支出和可支配收入相關表單位:百元
2)分組相關表:是將原始資料進行分組而編制的相關表。可分為單變量分組相關表和雙變量分組相關表。
○單變量分組相關表在具有相關關系的兩個變量中,把其中一個變量進行分組,列出各組次數,另一個變量不分組,這種相關表稱為單變量分組相關表。
○雙變量分組相關表雙變量分組相關表是對具有相關關系的兩個變量都進行分組而編制的相關表。
(2)相關圖
相關圖是以直角坐標系的橫軸代表自變量,縱軸代表因變量,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用來反映兩變量之間相關關系的圖形,又稱散點圖或散布圖或相關點圖。
(3)相關系數3.1.4簡單相關分析的方法---相關系數
相關系數的概念和意義
(1)概念:相關系數是指在直線相關條件下,說明兩個現象之間相關關系密切程度的統計分析指標。
(2)意義:比相關表和相關圖更能概括表現相關的形式和程度。根據相關系數的大小,或把若干相關系數加以對比,可以發現現象發展中決定性的影響因素,因而相關系數對于判斷變量之間相關關系的密切程度有著重要的作用。對兩個變量之間線性相關程度的度量:1)若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為;2)若是根據樣本數據計算的,則稱為樣本相關系數,記為r;總體相關關系的定義公式樣本相關關系的測度公式
(Pearson相關系數)或化簡為:樣本定義式:相關系數取值及其意義r
的取值范圍是[-1,1]1.|r|=1,為完全相關:r=1,為完全正相關;r=-1,為完全負相關;2.r=0,不存在線性相關關系;3.-1
r<0
為負相關;4.0<r
1
為正相關。r經驗判斷|r|<0.3稱為微弱相關;0.3≤|r|<0.5稱為低度相關;0.5≤|r|<0.8稱為顯著相關;0.8≤|r|<1稱為高度相關或強相關。★上述解釋必須建立在對相關系數的顯著性進行檢驗的基礎之上。表3-1某地人均國民收入與人均消費金額數據單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1991199219931994199519961997393.8419.14460.86544.11668.29737.73859.972492672893294064515131998199920002001200220031068.81169.21250.71429.51725.92099.56436907138039471148相關關系的測度計算例【例3.1】在研究某地人均消費水平的問題中,把人均消費額記為y,把人均國民收入記為x。收集到1991~2003年的樣本數據(xi
,yi),i=1,2,…,13,數據見表3-1,計算相關系數。相關關系的測度計算結果解:根據樣本相關系數的計算公式有人均國民收入與人均消費金額之間的相關系數為0.9987(小樣本)相關系數的顯著性檢驗要點
1.檢驗兩個變量之間是否存在線性相關關系。2.檢驗的步驟為:1)提出假設:H0:
;H1:
02)計算檢驗的統計量:3)確定顯著性水平,查表t
(
,n-2);4)并作出決策:若t>t
,拒絕H0
若t<t
,接受H0相關系數的顯著性檢驗實例
對前例計算的相關系數進行顯著性檢(0.05)1.提出假設:H0:
;H1:
02.計算檢驗的統計量:2.根據顯著性水平=0.05,查t分布表得t
(n-2)=2.2013.由于t=64.9809>t
(13-2)=2.201,拒絕H0,接受H1,表明人均消費金額與人均國民收入之間的相關關系顯著。(大樣本)相關系數的顯著性檢驗要點
1.檢驗兩個變量之間是否存在線性相關關系。2.檢驗的步驟為:1)提出假設:H0:
;H1:
02)計算統計量:U=r(n-1)1/23)確定顯著性水平,查表U
1-
;4)并作出決策:若U>U1-
,接受
H1
若U<U1-
,接受H0相關系數檢驗表的使用若IrI小于表上
=5%相應的值,稱變量x與y之間沒有明顯的線性關系;若IrI大于表上的
=5%相應的值,小于表上
=1%相應的值,稱變量x與y之間有顯著的線性關系;若IrI大于表上
=1%相應的值,稱變量x與y之間有十分顯著的線性關系;====根據前例的r=0.9987>=5%(n-2)=0.553,表明人均消費金額與人均國民收入之間有十分顯著的線性相關關系。3.1.5相關分析的方法--等級相關系數略講3.1.6相關分析的方法--自相關系數3.1.7相關分析的方法--復相關系數3.2簡單線性回歸分析3.2.1一元線性回歸模型3.2.2參數的最小二乘估計3.2.3回歸方程的顯著性檢驗3.2.4應用認識“回歸”回歸的古典意義:高爾頓遺傳學的回歸概念
“回歸”一詞最早由FrancisGalton引入。Galton發現,雖然父母的身高對子女的身高起到決定性作用,但給定父母的身高后,他們兒女輩的平均身高卻趨向于或者“回歸”到社會平均水平。Galton的普遍回歸定律(lawofuniversalregression)。Galton的朋友KarlPearson通過收集一些家庭的1000多名成員的父子身高數據,證明兒子確實“回歸到中等(regressiontomediocrity)”
回歸的現代意義一個因變量對若干解釋變量依存關系的研究回歸的目的(實質):
由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值3.2.1回歸模型與回歸方程回歸模型1.描述因變量y如何依賴于自變量x和誤差項u
的方程稱為回歸模型(回歸函數)。它回答“變量之間是什么樣的關系?”2.方程中運用1個數字的因變量(響應變量)被預測的變量1個或多個數字的或分類的自變量(解釋變量)用于預測的變量3.主要用于預測和估計回歸模型的類型一個自變量兩個及兩個以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸一元線性回歸模型
(概念要點)1.當只涉及一個自變量時稱為一元回歸,若因變量y與自變量x之間為線性關系時稱為一元線性回歸。2.對于具有線性關系的兩個變量,可以用一條線性方程來表示它們之間的關系。一元線性回歸模型
(概念要點)====對于只涉及一個自變量的簡單線性回歸模型可表示為:
y=b0+b1x+u模型中,y是x的線性函數(部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項u是隨機變量反映了除x和y之間的線性關系之外的隨機因素對y的影響是不能由x和y之間的線性關系所解釋的變異性
0和
1稱為模型的參數回歸系數估計的思想為什么只能對未知參數作估計?
參數是未知的、不可直接觀測的、不能精確計算的
能夠得到的只是變量的樣本觀測值結論:只能通過變量樣本觀測值選擇適當方法去近似地估計回歸系數。前提:
u是隨機變量其分布性質不確定,必須作某些假定,其估計才有良好性質,其檢驗才可進行。原則:
使參數估計值“盡可能地接近”總體參數真實值。一元線性回歸模型
(基本假定)假定1:零均值假定。假定2:同方差假定。
假定3:無自相關假定。
假定4:隨機擾動與自變量不相關。假定5:正態性假定回歸方程
(概念要點)1.描述y的平均值或期望值如何依賴于x的方程稱為回歸方程。2.簡單線性回歸方程的形式如下:
E(y)=
0+
1x方程的圖示是一條直線,因此也稱為直線回歸方程;
0
是回歸直線在y軸上的截距,是當x=0時y的期望值;
1
是直線的斜率,稱為回歸系數,表示當x每變動一個單位時,y的平均變動值。估計(經驗)的回歸方程簡單線性回歸中估計的回歸方程為其中:是估計的回歸直線在y
軸上的截距;是直線的斜率,它表示對于一個給定的x
的值,是y
的估計值,也表示x
每變動一個單位時,y的平均變動值。2.用樣本統計量和代替回歸方程中的未參數和,就得到了估計的回歸方程。總體回歸參數
和
是未知的,必需利用樣本數據去估計。3.2.2
參數
0和
1的最小二乘估計
(OLS:OrdinaryLeastSquare)最小二乘法
(概念要點)使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線都小。最小二乘法圖示xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法
(
和的計算公式)
根據最小二乘法的要求,可得求解和的標準方程如下:估計方程的求法實例【例】根據例3.1中的數據,配合人均消費金額對人均國民收入的回歸方程。根據和的求解公式得:估計(經驗)方程人均消費金額對人均國民收入的回歸方程為:y=54.22286+0.52638x^估計方程的求法
(Excel的輸出結果)
最小二乘估計的性質
——高斯—馬爾可夫定理
前提:
在基本假定滿足時最小二乘估計是因變量的線性函數
最小二乘估計是無偏估計。在所有的線性無偏估計中,回歸系數的最小二乘估計的方差最小。結論:回歸系數的最小二乘估計是最佳線性無偏估計
的無偏估計
為什么要估計?
確定所估計參數的方差需要由于不能直接觀測,也是未知的對的數值只能通過樣本信息去估計。怎樣估計?可以證明的無偏估計為:3.2.3
回歸方程的顯著性檢驗1判定系數r2:離差平方和的分解1.因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響2.對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示。離差平方和的分解圖示xyy{}}
離差分解圖離差平方和的分解
(三個平方和的關系)2.兩端平方后求和有1.從圖上看有SST=SSR+SSE總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){離差平方和的分解
(三個平方和的意義)1.總平方和(SST)反映因變量的n個觀察值與其均值的總離差。2.回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關系引起的y的取值變化,也稱為可解釋的平方和。3.殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和。樣本決定系數(判定系數r2)1.回歸平方和占總離差平方和的比例反映回歸直線的擬合程度;取值范圍在[0,1]之間;
r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差;判定系數等于相關系數的平方,即r2=(r)2
。估計標準誤差Sy1.實際觀察值與回歸估計值離差平方和的均方根;2.反映實際觀察值在回歸直線周圍的分散狀況;3.從另一個角度說明了回歸直線的擬合程度;4.計算公式為:2回歸方程的顯著性檢驗
(線性關系的檢驗
)1.檢驗自變量和因變量之間的線性關系是否顯著;2.具體方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著:如果是顯著的,兩個變量之間存在線性關系;如果不顯著,兩個變量之間不存在線性關系。回歸方程的顯著性檢驗
(檢驗的步驟)1.提出假設H0:線性關系不顯著H1:線性關系顯著2.計算檢驗統計量F確定顯著性水平,查出臨界值F
(,1,n-2)作出決策:若F>F
,接受H1;若F<F
,接受H0回歸方程的顯著性檢驗
(方差分析表)平方和均方3回歸系數的顯著性檢驗在一元線性回歸中,等價于回歸方程的顯著性檢驗。檢驗x與y之間是否具有線性關系,或者說,檢驗自變量x對因變量y的影響是否顯著;理論基礎是回歸系數
的抽樣分布;回歸系數的顯著性檢驗
(樣本統計量的分布)
是根據最小二乘法求出的樣本統計量,它有自己的分布的分布具有如下性質:分布形式:正態分布數學期望:標準差:由于無未知,需用其估計量Sy來代替得到的估計的標準差回歸系數的顯著性檢驗
(樣本統計量的分布)的抽樣分布回歸系數的顯著性檢驗(步驟)
1.提出假設H0:b1=0(沒有線性關系)H1:b1
0(有線性關系)2.計算檢驗的統計量確定顯著性水平,查t分布表。并進行決策:
t>t
,接受H1;t<t
,接受H0回歸系數的顯著性檢驗
(實例)1.提出假設H0:b1=0人均收入與人均消費之間無線性關系H1:b1
0人均收入與人均消費之間有線性關系2.計算檢驗的統計量
t=65.0758>t
=2.201,拒絕H0,接受H1,表明人均收入與人均消費之間有線性關系。對前例的回歸系數進行顯著性檢驗(
=0.05)回歸系數的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷凍飲品行業人才培養與職業發展考核試卷
- 品牌聲音與品牌形象的協同發展考核試卷
- 2025年中國PPA塑膠原料數據監測研究報告
- 2025年中國PP-R管材數據監測研究報告
- 2025年中國L型收縮包裝機數據監測研究報告
- 2025年中國EVA熱壓眼鏡盒數據監測報告
- 2025年中國BOPP啞光膜數據監測報告
- 2025年中國21孔硬膠圈數據監測報告
- 2025至2030年中國黃花梨高靠背椅市場分析及競爭策略研究報告
- 2025至2030年中國雪梅肉市場分析及競爭策略研究報告
- 運輸公司交通安全培訓課件
- 2025年陜西省中考數學試題(解析版)
- 《康復治療學專業畢業實習》教學大綱
- 北師大版7年級數學下冊期末真題專項練習 03 計算題(含答案)
- 職業衛生管理制度和操作規程標準版
- 小學信息技術四年級下冊教案(全冊)
- 河道保潔船管理制度
- 【增程式電動拖拉機驅動系統總體設計方案計算1900字】
- 2025年重慶市中考物理試卷真題(含標準答案)
- 高中家長會 共筑夢想,攜手未來課件-高二下學期期末家長會
- 中考首字母填空練習67篇含答案
評論
0/150
提交評論