信息分析 第2版 課件 第7講 相關(guān)分析與回歸分析法_第1頁
信息分析 第2版 課件 第7講 相關(guān)分析與回歸分析法_第2頁
信息分析 第2版 課件 第7講 相關(guān)分析與回歸分析法_第3頁
信息分析 第2版 課件 第7講 相關(guān)分析與回歸分析法_第4頁
信息分析 第2版 課件 第7講 相關(guān)分析與回歸分析法_第5頁
已閱讀5頁,還剩126頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

相關(guān)分析回歸分析第7講定量分析方法(二)1

大學(xué)本科必修課程2

相關(guān)關(guān)系

一、問題的提出二、相關(guān)關(guān)系的概念三、相關(guān)關(guān)系的種類四、相關(guān)關(guān)系的主要內(nèi)容

3

一、問題的提出相關(guān)唯物辯證法世界是普遍聯(lián)系的沒有孤立存在的事物和現(xiàn)象

小世界理論相似性原理4

伊拉克戰(zhàn)爭correlation?SARS?5

蝴蝶翅膀振動(dòng)候鳥遷徙海嘯死亡人數(shù)correlation?6

二、相關(guān)關(guān)系的概念客觀現(xiàn)象之間的數(shù)量關(guān)系存在兩種類型:函數(shù)關(guān)系相關(guān)關(guān)系

函數(shù)關(guān)系:即當(dāng)一個(gè)(或一組)變量每取一個(gè)值時(shí),相應(yīng)的另一個(gè)變量必然有一個(gè)確定值與之相對應(yīng)。相關(guān)關(guān)系:變量之間存在依存關(guān)系,但這是不完全確定的隨機(jī)關(guān)系,即當(dāng)一個(gè)(或一組)變量每取一個(gè)值時(shí),相應(yīng)的另一個(gè)變量可能有多個(gè)不同值與之對應(yīng)。二、相關(guān)關(guān)系的概念8

函數(shù)關(guān)系(1)是一一對應(yīng)的確定關(guān)系(2)設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x

,當(dāng)變量x取某個(gè)數(shù)值時(shí),

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量(3)各觀測點(diǎn)落在一條線上

xy9

自變量與因變量如果變量之間有因果關(guān)系,那么原因變量就叫作自變量,而受自變量影響的變量(結(jié)果變量)稱因變量。自變量通常發(fā)生在因變量之前。不是所有先發(fā)生的變量都是自變量。一般自變量記為X,因變量記為Y。

10

【例】函數(shù)關(guān)系(1)某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=p*x(p為單價(jià))(2)圓的面積(S)與半徑之間的關(guān)系可表示為

S=

*R2

(3)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價(jià)格(x3)之間的關(guān)系可表示為y=x1*x2*x311

停下來想一想?自變量與因變量判斷

1.產(chǎn)品產(chǎn)量與總成本。2.銷售稅的總量與商品總成本。3.電影院里爆米花的銷售量與垃圾袋的使用量。4.太陽能發(fā)電量與熱天的天數(shù)。12

相關(guān)關(guān)系1.變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá)2.一個(gè)變量的取值不能由另一個(gè)變量唯一確定3.當(dāng)變量x取某個(gè)值時(shí),變量y的取值可能有幾個(gè)4.各觀測點(diǎn)分布在直線周圍

xy13

【例】相關(guān)關(guān)系商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系父母親身高(y)與子女身高(x)之間的關(guān)系身高與體重的關(guān)系14

停下來想一想?下列變量之間存在相關(guān)關(guān)系嗎?

1.抽煙與肺癌之間的關(guān)系2.懷孕期婦女的飲酒量與嬰兒出生體重之間的關(guān)系3.納稅者年齡和他們交納稅款的數(shù)量之間的關(guān)系4.采光量與植物的生產(chǎn)量之間的關(guān)系5.一個(gè)人的投票傾向性與其年齡之間的關(guān)系15

在一定的條件下互相轉(zhuǎn)化

具有函數(shù)關(guān)系的變量,當(dāng)存在觀測誤差和隨機(jī)因素影響時(shí),往往以相關(guān)的形式表現(xiàn)出來;具有相關(guān)關(guān)系的變量之間的聯(lián)系,如果對它們有了深刻的規(guī)律性認(rèn)識,并且能夠把影響因變量變動(dòng)的因素全部納入方程,這時(shí)相關(guān)關(guān)系可轉(zhuǎn)化為函數(shù)關(guān)系;相關(guān)關(guān)系也具有某種變動(dòng)規(guī)律,所以,相關(guān)關(guān)系也經(jīng)??梢杂靡欢ǖ暮瘮?shù)形式近似地描述。函數(shù)關(guān)系與相關(guān)關(guān)系的關(guān)系16

因果關(guān)系相關(guān)關(guān)系互為因果關(guān)系共變關(guān)系隨機(jī)性依存關(guān)系確定性依存關(guān)系函數(shù)關(guān)系變量之間關(guān)系變量之間關(guān)系的總結(jié)17

三、相關(guān)關(guān)系的種類1.按相關(guān)的程度分:完全相關(guān)不完全相關(guān)不相關(guān)(或零相關(guān))完全相關(guān):在價(jià)格P不變的情況下,銷售收入Y與銷售量X的關(guān)系。不相關(guān):股票價(jià)格的高低與氣溫的高低不相關(guān)。18

2.按相關(guān)的方向分:正相關(guān)負(fù)相關(guān)正相關(guān):兩個(gè)變量之間的變化方向一致,都是增長趨勢或下降趨勢。收入與消費(fèi)的關(guān)系:工人的工資隨勞動(dòng)生產(chǎn)率的提高而提高。負(fù)相關(guān):兩個(gè)變量變化趨勢相反,一個(gè)下降而另一個(gè)上升,或一個(gè)上升而另一個(gè)下降。物價(jià)與消費(fèi)的關(guān)系:商品流轉(zhuǎn)的規(guī)模愈大,流通費(fèi)用水平則越低。三、相關(guān)關(guān)系的種類19

3.按相關(guān)的形式分:線性相關(guān)非線性相關(guān)線性相關(guān)(直線相關(guān)):當(dāng)一個(gè)變量每變動(dòng)一個(gè)單位時(shí),另一個(gè)變量按一個(gè)大致固定的增(減)量變動(dòng)。例:人均消費(fèi)水平與人均收入水平。非線性相關(guān)(曲線相關(guān)):當(dāng)一個(gè)變量變動(dòng)時(shí),另一個(gè)變量也相應(yīng)發(fā)生變動(dòng),但這種變動(dòng)是不均等的。例:產(chǎn)品的平均成本與總產(chǎn)量;農(nóng)產(chǎn)量與施肥量。三、相關(guān)關(guān)系的種類20

4.按相關(guān)的影響因素多少分:單相關(guān)復(fù)相關(guān)偏相關(guān)單相關(guān)(一元相關(guān)):只有一個(gè)自變量。如:居民的收入與儲蓄額;成本與產(chǎn)量。復(fù)相關(guān)(多元相關(guān)):有兩個(gè)及兩個(gè)以上的自變量。如:某種商品的需求與其價(jià)格水平以及收入水平之間的相關(guān)關(guān)系。三、相關(guān)關(guān)系的種類偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考察其中兩個(gè)變量的相關(guān)關(guān)系稱為偏相關(guān)。如:在假定人們的收入水平不變的條件下,某種商品的需求與其價(jià)格水平的關(guān)系就是一種偏相關(guān)。21

5.按相關(guān)的性質(zhì)分:真實(shí)相關(guān)虛假相關(guān)真實(shí)相關(guān):由現(xiàn)象的內(nèi)在聯(lián)系所決定。虛假相關(guān):如某人曾觀察過某一國家歷年的國內(nèi)生產(chǎn)總值與精神病患者人數(shù)的關(guān)系,呈相當(dāng)高的正相關(guān)。(偶然或巧合)三、相關(guān)關(guān)系的種類22

討論下面的關(guān)系是因果關(guān)系還是偽關(guān)系?1.冰淇淋的銷量與兒童出事故次數(shù)之間2.街上警察數(shù)量與犯罪數(shù)量之間3.歷史上,婦女裙子的長度與經(jīng)濟(jì)的好壞有關(guān)系:裙子越短,經(jīng)濟(jì)越景氣。4.鸛的數(shù)量與丹麥鄉(xiāng)間嬰兒出生率的關(guān)系三、相關(guān)關(guān)系的種類23

不相關(guān)

負(fù)線性相關(guān)

正線性相關(guān)

非線性相關(guān)

完全負(fù)線性相關(guān)完全正線性相關(guān)

三、相關(guān)關(guān)系的種類24

定性分析依據(jù)研究者的知識和經(jīng)驗(yàn)來對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系以及存在何種關(guān)系作出判斷。定量分析通過編制相關(guān)表、繪制相關(guān)圖、計(jì)算相關(guān)系數(shù)等方法來判斷現(xiàn)象之間是否存在相關(guān)關(guān)系及相關(guān)方向、形態(tài)和密切程度。相關(guān)關(guān)系的判斷25

四、相關(guān)分析的主要內(nèi)容根據(jù)研究目的搜集有關(guān)資料編制相關(guān)圖表計(jì)算相關(guān)系數(shù)建立回歸方程進(jìn)行統(tǒng)計(jì)檢驗(yàn)26

相關(guān)分析:

就是用一個(gè)指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度。廣義的相關(guān)分析包括相關(guān)關(guān)系分析(狹義的相關(guān)分析)和回歸分析。

相關(guān)分析的概念27

相關(guān)圖表相關(guān)圖表相關(guān)表和相關(guān)圖是研究相關(guān)關(guān)系的直觀工具,在進(jìn)行詳細(xì)的定量分析之前,可以先利用它們對現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式和密切程度作大致判斷。

簡單相關(guān)表:將自變量x的數(shù)值按照從小到大的順序,并配合因變量y的數(shù)值一一對應(yīng)而平行排列的表。消費(fèi)支出y15203040425360657870可支配收入x18254560627588929899居民消費(fèi)和收入的相關(guān)表單位:百元簡單相關(guān)表29

相關(guān)圖:又稱散點(diǎn)圖,將x置于橫軸上,y置于縱軸上,將(x,y)繪于坐標(biāo)圖上,用來反映兩個(gè)變量之間相關(guān)關(guān)系的圖形。

簡單相關(guān)圖30

簡單相關(guān)系數(shù)相關(guān)系數(shù)度量兩個(gè)變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)指標(biāo)。包括簡單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)、偏相關(guān)系數(shù)、曲線相關(guān)系數(shù)(相關(guān)指數(shù))。簡單相關(guān)系數(shù)又稱皮爾遜(1890年,英國)相關(guān)系數(shù),或積矩相關(guān)系數(shù)或動(dòng)差相關(guān)系數(shù)。相關(guān)系數(shù)若是根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為(方差占總差的比例)

相關(guān)系數(shù)若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),記為r。樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計(jì)量。簡單相關(guān)系數(shù)32

樣本簡單相關(guān)系數(shù)的計(jì)算公式(積差法)簡單相關(guān)系數(shù)的計(jì)算公式式中:(1)用計(jì)算器計(jì)算相關(guān)系數(shù)33

(1)式可化簡為:或:(2)34

1.r

的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)相關(guān)

2.r=0,不存在線性相關(guān)關(guān)系

3.-1

r<0,為負(fù)相關(guān)

4.0<r

1,為正相關(guān)

5.|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)系數(shù)取值及其意義35

r的范圍在0.1-0.3是微弱相關(guān);r的范圍在0.3-0.5是低度相關(guān);r的范圍在0.5-0.8是顯著相關(guān);r的范圍在0.8以上是高度相關(guān)。相關(guān)系數(shù)取值及其意義36

-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加相關(guān)系數(shù)取值及其意義37

【例1】在研究我國人均消費(fèi)水平的問題中,把全國人均消費(fèi)額記為y,把人均國民收入記為x。根據(jù)1981~1993年的樣本數(shù)據(jù)(xi

,yi),i=1,2,…,13,計(jì)算相關(guān)系數(shù)。我國人均國民收入與人均消費(fèi)金額數(shù)據(jù)單位:元年份人均國民收入人均消費(fèi)金額年份人均國民收入人均消費(fèi)金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.97249267289329406451513198819891990199119921993

1068.81169.21250.71429.51725.92099.5643690713803947114838

解:根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有

人均國民收入與人均消費(fèi)金額之間的相關(guān)系數(shù)為0.9987,高度相關(guān)。計(jì)算相關(guān)系數(shù)的計(jì)算實(shí)例39

【例2】計(jì)算人均可支配收入和消費(fèi)支出之間的簡單相關(guān)系數(shù)。解:由表中數(shù)據(jù)得∑y=473,∑x=662,∑y2

=26507,∑x2

=51656,∑xy

=36933,n=10計(jì)算得人均可支配收入和消費(fèi)支出間的簡單相關(guān)系數(shù)為0.9878,高度相關(guān)。2008-1-441

相關(guān)系數(shù)的顯著性檢驗(yàn)檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系總體相關(guān)系數(shù)是未知的,常用樣本相關(guān)系數(shù)來估計(jì),不同的樣本其相關(guān)系數(shù)不同,r對

代表程度與樣本容量有關(guān)。計(jì)算出樣本相關(guān)系數(shù)r以后,還要對其進(jìn)行顯著性檢驗(yàn),以判定現(xiàn)象總體間線性相關(guān)是否顯著。顯著性檢驗(yàn)(significancetest)是事先對總體的參數(shù)或總體分布形式做出一個(gè)假設(shè),然后利用樣本信息來判斷這個(gè)假設(shè)是否合理,即判斷總體的真實(shí)情況與原假設(shè)是否有顯著性差異?;蛘哒f,顯著性檢驗(yàn)要判斷樣本與對總體所做的假設(shè)之間的差異是純屬機(jī)會變異,還是由假設(shè)與總體真實(shí)情況之間不一致所引起的。顯著性檢驗(yàn)是針對我們對總體所做的假設(shè)做檢驗(yàn),其原理就是“小概率事件實(shí)際不可能性原理”來接受或否定假設(shè)。抽樣實(shí)驗(yàn)會產(chǎn)生抽樣誤差,在進(jìn)行比較分析時(shí),不能僅憑結(jié)果的不同就作出結(jié)論,而是要進(jìn)行統(tǒng)計(jì)學(xué)分析,鑒別出兩者差異是抽樣誤差引起的,還是由特定的實(shí)驗(yàn)處理引起的。采用t檢驗(yàn)相關(guān)系數(shù)的顯著性檢驗(yàn)在二元正態(tài)總體情況下,r的抽樣分布具有確定的函數(shù)形式,當(dāng)總體相關(guān)系數(shù)時(shí),r呈t分布(n=30)。相關(guān)系數(shù)的顯著性檢驗(yàn)43

對計(jì)算的相關(guān)系數(shù)進(jìn)行顯著性檢(

0.05)1.提出假設(shè):H0:

;H1:

0

3.根據(jù)顯著性水平

=0.05,查t分布表得t

(n-2)=2.306由于

t

=17.94>t

(10-2)=2.306,拒絕H0,總體人均消費(fèi)支出與人均可支配收入之間的線性相關(guān)關(guān)系顯著。2.計(jì)算檢驗(yàn)的統(tǒng)計(jì)量44

t檢驗(yàn)表為了簡化檢驗(yàn)的過程,有人根據(jù)t統(tǒng)計(jì)量和r的關(guān)系,編成《相關(guān)系數(shù)臨界值表》,相關(guān)系數(shù)的顯著性檢驗(yàn)可直接查表進(jìn)行。檢驗(yàn)方法:對于給定的顯著性水平α若︱r︱

≥r

(n-2)

,變量x與y之間有顯著的線性相關(guān)關(guān)系。若︱

r︱

<r

(n-2)

,變量x與y之間不存在線性相關(guān)關(guān)系。46

相關(guān)系數(shù)顯著性檢驗(yàn)的簡化方法相關(guān)系數(shù)臨界值表α給定的顯著性水平n-2為自由度48

相關(guān)系數(shù)檢驗(yàn)表的使用

若︱r︱大于表上的

=0.05相應(yīng)的值,小于表上

=0.1相應(yīng)的值,稱變量x與y之間有顯著的線性關(guān)系若︱r︱大于表上

=0.1相應(yīng)的值,稱變量x與y之間有十分顯著的線性關(guān)系若︱r︱小于表上

=0.05相應(yīng)的值,稱變量x與y之間沒有明顯的線性關(guān)系例1:r=0.9987>

=0.05(13-2)=0.553人均消費(fèi)金額與人均國民收入之間有十分顯著的線性相關(guān)關(guān)系。例2:r=0.9878>

=0.05(10-2)=0.632

總體人均消費(fèi)支出與人均可支配收入之間有十分顯著的線性相關(guān)關(guān)系。相關(guān)系數(shù)檢驗(yàn)表的使用

49

回歸分析50

回歸分析的概念(Regression)用樣本數(shù)據(jù)確定變量的數(shù)學(xué)關(guān)系式;對關(guān)系式的可信程度進(jìn)行統(tǒng)計(jì)檢驗(yàn),找到影響某一特定變量的顯著因素;根據(jù)變量的取值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確程度。51

回歸模型(數(shù)學(xué)模型)回答變量之間是什么關(guān)系?方程中運(yùn)用1個(gè)因變量(響應(yīng)變量、被解釋變量)被預(yù)測的變量1個(gè)或多個(gè)自變量(解釋變量)用于預(yù)測的變量3. 主要用于預(yù)測和估計(jì)52

回歸模型的類型一個(gè)自變量兩個(gè)及兩個(gè)以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸53

回歸分析的一般步驟★主要內(nèi)容1.一元線性回歸2.多元線性回歸55

一元線性回歸56

57

一元線性回歸分析的步驟58

一元線性回歸涉及一個(gè)自變量的回歸稱為一元回歸;因變量y與自變量x之間為線性關(guān)系稱為一元線性回歸;因變量(dependentvariable):被預(yù)測或被解釋的變量,用y表示。自變量(independentvariable):預(yù)測或解釋因變量的一個(gè)或多個(gè)變量,用x表示。59

60

一元線性回歸模型描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型;一元線性回歸模型:

y=b0+b1x+e或y=a+b

x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于x的變化引起的y的變化誤差項(xiàng)

是隨機(jī)變量反映了除x和y之間線性關(guān)系之外的隨機(jī)因素對y的影響是不能由x和y之間的線性關(guān)系所解釋的變異

0和

1稱為一元線性回歸模型的參數(shù)61

一元線性回歸模型(基本假定)誤差項(xiàng)ε是期望值為0的隨機(jī)變量,即E(ε)=0。對于一個(gè)給定的x值,y的期望值為

E(y)=

0+

1x或E(y)

=a+b

x對于所有的x值,ε的方差σ2都相同誤差項(xiàng)協(xié)方差等于零,即εi和εj相互獨(dú)立(i≠j);誤差項(xiàng)ε是服從正態(tài)分布的隨機(jī)變量。即ε~N(0,σ2)62

回歸方程

(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程;一元線性回歸方程的形式如下:標(biāo)準(zhǔn)方程

E(y)=

0+

1x或E(y)

=a+b

x

方程表示一條直線,也稱為直線回歸方程;

0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值;

1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值;63

估計(jì)的回歸方程

(estimatedregressionequation)一元線性回歸中估計(jì)的回歸方程為:用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程;總體回歸參數(shù)和

是未知的,必須利用樣本數(shù)據(jù)去估計(jì);其中:是估計(jì)的回歸直線在y

軸上的截距,是直線的斜率,它表示對于一個(gè)給定的x

的值,是y

的估計(jì)值,也表示x

每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值。64

建立回歸方程的關(guān)鍵在于如何確定參數(shù)與的值;一般采用最小二乘法來求與的值。65

建立回歸方程的關(guān)鍵最小二乘法

(OLS:OrdinaryLeastSquare)使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小66

最小二乘估計(jì)

(圖示)

xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}εi

=yi-yi^67

根據(jù)微積分的極值定理,Q最小的必要條件為:最小二乘法

(OLS:OrdinaryLeastSquare)68

整理后所得方程稱最小二乘法的標(biāo)準(zhǔn)方程:解方程得最小二乘法

(OLS:OrdinaryLeastSquare)69

最小二乘法

(

和的計(jì)算公式)根據(jù)最小二乘法估計(jì),可得求解和公式如下70

例:擬合生產(chǎn)費(fèi)用對產(chǎn)量的一元回歸直線方程企業(yè)編號產(chǎn)量x生產(chǎn)費(fèi)用y12345678910111240425055657884100116125130140130150155140150154156170167180175185160017642500302542256084705610000134561562516900196001690022500240251960022500237162722528900278893240030625342255200630077507700975012012138601700019372225002275025900合計(jì)10251921101835310505170094將表中數(shù)據(jù)代入公式中:72

最小二乘法

(

和的計(jì)算實(shí)例)生產(chǎn)費(fèi)用對產(chǎn)量的直線回歸方程為:其中β0=124.15(千克)的含義為生產(chǎn)費(fèi)用的起點(diǎn)值;β1=0.4027表示產(chǎn)品產(chǎn)量每增加1千件,生產(chǎn)費(fèi)用平均增加0.4027千元。最小二乘法

(

和的計(jì)算實(shí)例)73

74

一元回歸方程

統(tǒng)計(jì)檢驗(yàn)的主要內(nèi)容75

76

總離差平方和的分解因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面:由于自變量x的取值不同造成的;除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響。對一個(gè)具體的觀測值來說,變差的大小可以通過該實(shí)際觀測值與其均值之差來表示。77

離差平方和的分解

(圖示)xyy{}}

離差分解圖78

離差平方和的分解

(三個(gè)平方和的關(guān)系)2.兩端平方后求和有從圖上看有SST=SSR+SSE或S總=S回+S殘總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){79

判定系數(shù)R2

(coefficientofdetermination)回歸平方和占總離差平方和的比例80

反映回歸方程的擬合程度;取值范圍在[0,1]之間;

R2

1,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差;一元線性回歸中,判定系數(shù)等于y和x相關(guān)系數(shù)的平方,即R2=(r)2。判定系數(shù)R2

(coefficientofdetermination)81

82

線性關(guān)系的檢驗(yàn)檢驗(yàn)所有自變量與因變量之間線性關(guān)系是否顯著;將均方回歸(MSR)同均方殘差(MSE)加以比較,用F檢驗(yàn)來分析二者之間的差別是否顯著;均方回歸:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)K);均方殘差:殘差平方和SSE除以相應(yīng)的自由度(n-k-1)。83

線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)提出假設(shè)H0:

1=0所有回歸系數(shù)與零無顯著差異,y與全體x的線性關(guān)系不顯著。計(jì)算檢驗(yàn)統(tǒng)計(jì)量F:一元回歸K為184

線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)線性關(guān)系的簡單斷定F與R存在以下關(guān)系:n為樣本個(gè)數(shù)R為判斷系數(shù)85

確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

作出決策:若F>F

,拒絕H0;若F<F

,不能拒絕H0線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)86

F檢驗(yàn)表(α=0.05)88

檢驗(yàn)回歸方程中的每個(gè)解釋變量x與被解釋變量y之間是否存在顯著的線性關(guān)系;確定解釋變量能否保留在線性回歸方程中?;貧w系數(shù)的顯著性檢驗(yàn)89

回歸系數(shù)的檢驗(yàn)

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,服從正態(tài)分布;的分布具有如下性質(zhì)數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量se來代替得到的估計(jì)標(biāo)準(zhǔn)差90

回歸系數(shù)的檢驗(yàn)

(檢驗(yàn)步驟)提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量

確定顯著性水平,并進(jìn)行決策

t>t

,拒絕H0;t<t

,不能拒絕H091

92

利用回歸方程進(jìn)行估計(jì)和預(yù)測根據(jù)自變量x

的取值估計(jì)或預(yù)測因變量y的取值估計(jì)或預(yù)測的類型點(diǎn)估計(jì)y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y的平均值的置信區(qū)間估計(jì)y的個(gè)別值的預(yù)測區(qū)間估計(jì)93

一元線性回歸分析的計(jì)算實(shí)例已知某品牌汽車2002-2008年的年銷售額如下表所示,試用一元線性回歸分析法預(yù)測2010年和2012年的汽車銷售額。計(jì)算單位:萬輛年份2002200320042005200620072008銷售額380034004200450056006100660094

(1)根據(jù)數(shù)據(jù)表繪散點(diǎn)圖95

(2)建立一元線性回歸模型,數(shù)據(jù)計(jì)算96

97

(2)建立一元線性回歸模型,數(shù)據(jù)計(jì)算(3)求相關(guān)系數(shù)RR=0.961,說明y與x有顯著的正相關(guān)關(guān)系。98

(4)回歸方程效果的F檢驗(yàn)給定顯著水平α=0.05查F分布表得F0.05(1,5)=6.6,F(xiàn)>F0.05(1,5)建立的一元線性回歸模型成立99

(5)計(jì)算預(yù)測值如果不考慮對觀測區(qū)間的控制,應(yīng)用預(yù)測模型預(yù)測2010年和2012年的銷售額2010年,xi=5;2012年,xi=72010年的銷售額為7600.012012年的銷售額為8685.73100

多元線性回歸101

多元回歸模型

(multipleregressionmodel)一個(gè)因變量與兩個(gè)及兩個(gè)以上自變量的回歸;描述因變量y如何依賴于自變量x1

,x2

,…,

xk

和誤差項(xiàng)

的方程,稱為多元回歸模型;涉及k個(gè)自變量的多元回歸模型可表示為

b0,b1,b2

,,bk是參數(shù)

是被稱為誤差項(xiàng)的隨機(jī)變量

y是x1,,x2,

,xk

的線性函數(shù)加上誤差項(xiàng)

是y不能被k個(gè)自變量的線性關(guān)系所解釋的變異性102

多元回歸模型

(基本假定)

誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(

)=0;對于自變量x1,x2,…,xk的所有值,

的方差

2都相同;誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,即ε~N(0,

2),且相互獨(dú)立;103

多元回歸方程

(multipleregressionequation)描述因變量y的平均值或期望值如何依賴于自變量x1,x2

,…,xk的方程多元線性回歸方程的形式為

E(y)=b0+b1x1

+b2x2

+…+bk

xkb1,b2,,bk稱為偏回歸系數(shù),系數(shù)求解同一元回歸(最小二乘法)

bk

表示假定其他變量不變,當(dāng)xk

每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值104

105

調(diào)整的多重判定系數(shù)

(adjustedmultiplecoefficientofdetermination)

用樣本容量n和自變量的個(gè)數(shù)k去修正R2得到計(jì)算公式為避免增加自變量而高估R2意義與R2類似數(shù)值小于R2106

107

線性關(guān)系檢驗(yàn)提出假設(shè)H0:

1

2

k=0線性關(guān)系不顯著H1:

1,

2,,

k至少有一個(gè)不等于0計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F

作出決策:若F>F

,拒絕H0108

109

回歸系數(shù)的檢驗(yàn)

(步驟)提出假設(shè)H0:bi=0(自變量xi與

因變量y沒有線性關(guān)系)H1:bi

0(自變量xi與

因變量y有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t

確定顯著性水平,并進(jìn)行決策

t>t

,拒絕H0;t<t

,不能拒絕H0110

解:分析變量之間的關(guān)系某地區(qū)的蔬菜消費(fèi)量與許多因素有關(guān),如與該地區(qū)的人口數(shù)、可支配收入、蔬菜價(jià)格、副食年人均消費(fèi)量等有關(guān),經(jīng)分析決定保留人口數(shù)、蔬菜價(jià)格、和副食年人均消費(fèi)量三個(gè)因素,對蔬菜未來三年的消費(fèi)量進(jìn)行預(yù)測。設(shè)蔬菜消費(fèi)量為因變量y,人口數(shù)、價(jià)格、副食年人均消費(fèi)量為自變量x1,x2,x3。分別收集y和x1,x2,x3的數(shù)據(jù)列表。111

112

多元線性回歸分析的計(jì)算實(shí)例113

多元線性回歸分析的計(jì)算實(shí)例根據(jù)公式可得三元線性回歸模型為:將相關(guān)數(shù)據(jù)代入回歸模型得方程組114

多元線性回歸系數(shù)(1)R檢驗(yàn)。對蔬菜銷售量(因變量)和人口數(shù)、蔬菜年平均價(jià)格、年人均副食消費(fèi)量(自變量)的相關(guān)系數(shù)進(jìn)行分析,確定是否可以利用三元線性回歸模型。通過對相關(guān)系數(shù)的分析判斷所選擇的自變量是否對因變量有顯著性影響。相關(guān)系數(shù)計(jì)算如下表。將相關(guān)系數(shù)代入R中,得到相關(guān)系數(shù)R為0.9323,表明自變量與因變量之間高度正相關(guān),三元線性回歸方程可用于未來蔬菜需求量預(yù)測。(4)回歸檢驗(yàn)相關(guān)系數(shù)計(jì)算117

(2)F檢驗(yàn)(回歸方程顯著性檢驗(yàn))。通過F檢驗(yàn),可知回歸方程參數(shù)同時(shí)為零的概率是否小于5%。F值的相關(guān)數(shù)據(jù)如下表。顯著性水平α=0.05,查F檢驗(yàn)表,自由度為(3,6)得F分布臨界值,F(xiàn)α=4.76,F(xiàn)>Fα,F檢驗(yàn)通過。F檢驗(yàn)119

F檢驗(yàn)相關(guān)系數(shù)表(3)確定預(yù)測值。根據(jù)所得的回歸分析模型,若2009年消費(fèi)人口為570萬,蔬菜年平均價(jià)格為14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論