應用回歸分析課件_第1頁
應用回歸分析課件_第2頁
應用回歸分析課件_第3頁
應用回歸分析課件_第4頁
應用回歸分析課件_第5頁
已閱讀5頁,還剩576頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

應用回歸分析

AppliedRegressionAnalysis(ARA)2024/4/61關于RA的發展情況:如果從高斯(Gauss,1777-1855)1809年提出最小二乘法為回歸分析的開端到今年正好是202周年Galton(1822-1911)在1886年發表了關于回歸的開山論文《遺傳結構中向中心的回歸(Regressiontowardsmediocrityinhereditystructure)》到現在是130年2024/4/62References:[1]Seber,G.A.F.,LinearRegressionAnalysis,JohnWiley,1977.[2]N.R.DraperH.SmithAppliedRegressionAnalysis,NewYork,1981.2024/4/63[3]陳希孺,王松桂,近代回歸分析,合肥:安徽教育出版社,1987。2024/4/64[4]方開泰,實用回歸分析,北京:科學出版社,1988。2024/4/65[5]張勇,王國明,趙秀珍譯,[美]約翰·內特,應用線性回歸模型北京:中國統計出版社,1990。2024/4/66[6]周紀薌,回歸分析,上海:華東師范大學出版社,1993。2024/4/67[7]2024/4/68[8]何曉群,回歸分析與經濟數據建模,北京:中國人民大學出版社,1997。2024/4/69[9]2024/4/610[10]2024/4/611[11]2024/4/612[12]2024/4/613有關RA應用的情況:50年代計算機的發展促進了RA的應用70年代中國應用90年代中國開始廣泛應用經濟領域中的應用自然科學中的應用社會科學中的應用2024/4/614主要內容:第1章回歸分析概述第2章一元線性回歸第3章多元線性回歸第4章違背基本假定的情況第5章自變量選擇與逐步回歸第6章多重共線性的情形及其處理第7章嶺回歸第8章主成分回歸與偏最小二乘第9章非線性回歸第10章含定性變量的回歸模型2024/4/615第1章回歸分析概述1.1變量間的統計關系1.2回歸方程與回歸名稱的由來1.3回歸分析的主要內容及其一般模型1.4建立實際問題回歸模型的過程1.5回歸分析應用與發展述評思考與練習2024/4/6161.1變量間的統計關系函數關系商品的銷售額與銷售量之間的關系y=px圓的面積與半徑之間的關系S=

R2

原材料消耗額與產量(x1)

、單位產量消耗(x2)

、原材料價格(x3)之間的關系y=x1x2x3

2024/4/6171.1變量間的統計關系2024/4/6181.1變量間的統計關系相關關系的例子子女身高(y)與父親身高(x)之間的關系收入水平(y)與受教育程度(x)之間的關系糧食畝產量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關系商品的消費量(y)與居民收入(x)之間的關系商品銷售額(y)與廣告費支出(x)之間的關系2024/4/6191.1變量間的統計關系2024/4/6201.2回歸方程與回歸名稱的由來英國統計學家F.Galton(1822-1911年)。F.Galton和他的學生、現代統計學的奠基者之一K.Pearson(1856—1936年)在研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦,2024/4/6212024/4/622

1.3回歸分析的主要內容及其一般模型回歸分析的主要內容2024/4/622f(x)=E(y|x) (1.1)(1.2)2024/4/623 (1.3) (1.7)

1.4建立實際問題回歸模型的過程設置指標變量收集整理數據構造理論模型估計模型參數修改

N模型運用Y經濟因素分析經濟變量控制

經濟決策預測實際問題模型檢驗2024/4/6242024/4/625

建立實際問題回歸模型的過程

這里要說明的是,當變量及樣本較多時,參數估計的計算量很大,只有依靠計算機才能得到可靠的結果。現在這方面的現成計算機軟件很多,如Minitab、SPSS、SAS等都是參數估計的基本軟件。2024/4/6252024/4/6261.5回歸分析應用與發展述評從Gauss提出最小二乘法算起,回歸分析已經有200年的歷史。回歸分析的應用非常廣泛,我們大概很難找到不用它的領域,這也正是一百多年來經久不衰,生命力強大的根本原因。這里簡述回歸分析在經濟領域的廣泛應用。我們知道計量經濟學是現代經濟學中影響最大的一門獨立學科。諾貝爾經濟學獎獲得者薩繆爾森曾經說過:第二次世界大戰后的經濟學是計量經濟學的時代。然而,計量經濟學中的基本計量方法就是回歸分析,計量經濟學的一個重要理論支柱是回歸分析理論。2024/4/6262024/4/627

回歸分析應用與發展述評自從1969年設立諾貝爾經濟學獎以來,已有60多位學者獲獎,其中絕大部分獲獎者是統計學家、計量經濟學家、數學家。從大多數獲獎者的著作看,他們對統計學及回歸分析方法的應用都有嫻熟的技巧。這足以說明統計學方法在現代經濟研究中的重要作用。矩陣理論和計算機技術的發展為回歸分析模型在經濟研究中的應用提供了極大的方便。國民經濟是一個錯綜復雜的系統,對于宏觀經濟問題常需要涉及幾十個甚至幾千個變量和方程,如果沒有先進的計算機和求解線性方程組的矩陣計算理論,要研究復雜的經濟問題是不可想象的。2024/4/6272024/4/628

回歸分析應用與發展述評一個20階的線性方程組要用克萊姆法則去求解,就需要計算1022次乘法運算,這可是一個天文數字。然而用矩陣變換的方法只需6000次乘法運算。也正是由于計算方法的改進和現代計算機的發展,使得過去不可想象的事情變成了現實。計量經濟學研究中涉及的變量和方程也越來越多。例如英國劍橋大學的多部門動態模型,多達2759個方程,7484個變量;由諾貝爾經濟學獎獲得者克萊因發起的國際連接系統,使用了7447個方程和3368個外生變量。2024/4/6282024/4/629

回歸分析應用與發展述評模型技術在經濟問題研究中的應用在我國也已盛行起來。從20世紀80年代初期以來,每年都有許多國家級和省級鑒定的計量經濟應用成果。特別是在一些省級以上的重點經濟課題中,經濟學碩士學位的論文中,如果沒有模型技術的應用,給人的印象總感分量不足。這些足以說明模型技術的應用在我國也倍受重視。這里要強調說明的是,回歸分析方法是模型技術中最基本的內容。回歸分析的理論和方法研究200年來也得到不斷發展。統計學中的許多重要方法都與回歸分析有著密切的聯系。如時間序列分析、判別分析、主成分分析、因子分析、典型相關分析等。這些都極大地豐富了統計學方法的寶庫。2024/4/6292024/4/630

回歸分析應用與發展述評回歸分析方法自身的完善和發展至今是統計學家研究的熱點課題。例如自變量的選擇、穩健回歸、回歸診斷、投影尋蹤、非參數回歸模型等近年仍有大量研究文獻出現。在回歸模型中,當自變量代表時間,因變量不獨立并且構成平穩序列時,這種回歸模型的研究就是統計學中的另一個重要分支——時間序列分析。它提供了一系列動態數據的處理方法,幫助人們科學地研究分析所獲得的動態數據,從而建立描述動態數據的數學模型,以達到預測、控制的目的。2024/4/6302024/4/631回歸分析應用與發展述評因變量y和自變量x都是一維時,稱它為一元回歸模型;當x是多維,y是一維時,則它為多元回歸模型;若x是多維,y也是多維的,則稱它為多重回歸模型。特別是當因變量觀察矩陣Y的諸行向量假定是獨立的,而列向量假定是相關的,就稱為半相依回歸方程系統。對于滿足基本假設的回歸模型,它的理論已經成熟,但對于違背基本假設的回歸模型的參數估計問題近些年仍有較多研究。2024/4/6312024/4/632

回歸分析應用與發展述評在實際問題的研究應用中,人們發現經典的最小二乘估計的結果并不總是令人滿意,統計學家們從多方面進行努力試圖克服經典方法的不足。例如,為了克服設計矩陣的病態性,提出了以嶺估計為代表的多種有偏估計。Stein于1955年證明了當維數p大于2時,正態均值向量最小二乘估計的不可容許性,即能夠找到另一個估計在某種意義上一致優于最小二乘估計.從此之后人們提出了許多新的估計,其中主要有嶺估計,主成分估計,Stein估計,以及特征根估計,偏最小二乘法。這些估計的共同點是有偏的,即它們的均值并不等于待估參數。于是人們把這些估計稱為有偏估計。當設計矩陣X呈病態時,這些估計都改進了最小二乘估計。2024/4/632

一元線性回歸2.1一元線性回歸模型2.2參數β0、β1的估計2.3最小二乘估計的性質2.4回歸方程的顯著性檢驗2.5殘差分析2.6回歸系數的區間估計2.7預測和控制2.8本章小結與評注2024/4/6332.1一元線性回歸模型例2.1

表2.1列出了15起火災事故的損失及火災發生地與最近的消防站的距離。2024/4/634表2.1 火災損失表2024/4/635【例2.2】在研究我國城鎮人均支出和人均收入之間關系的問題中,把城鎮家庭平均每人全年消費性支出記作y(元);把城鎮家庭平均每人可支配收入記作(元)。我們收集到1990——2012年23年的樣本數據。數據見表2.2;樣本分布情況見圖2.2。2024/4/6362024/4/6372024/4/638圖2-22.1一元線性回歸模型一元線性回歸模型

y=β0+β1x+ε2024/4/639回歸方程E(y|x)=β0+β1x2.1一元線性回歸模型樣本模型

yi=β0+β1xi+εi, i=1,2,…,n2024/4/640回歸方程E(yi)=β0+β1xi,var(yi)=σ2,樣本觀測值(x1,y1),(x2,y2),…,(xn,yn)經驗回歸方程

回歸方程平均意義的解釋2.2參數β0、β1的估計一、普通最小二乘估計

(OrdinaryLeastSquareEstimation,簡記為OLSE)2024/4/641最小二乘法就是尋找參數β0、β1的估計值使離差平方和達極小稱為yi的回歸擬合值,簡稱回歸值或擬合值

稱為yi的殘差有人用絕對值2.2參數β0、β1的估計2024/4/6422.2參數β0、β1的估計2024/4/643經整理后,得正規方程組2.2參數β0、β1的估計2024/4/644得OLSE為記2.2參數β0、β1的估計2024/4/645續例2.1回歸方程2.2參數β0、β1的估計2024/4/646二、最大似然估計

連續型:是樣本的聯合密度函數:離散型:是樣本的聯合概率函數。似然函數并不局限于獨立同分布的樣本。似然函數在假設εi~N(0,σ2)時,由(2.10)式知yi服從如下正態分布:2.2參數β0、β1的估計2024/4/647二、最大似然估計

y1,y2,…,yn的似然函數為:對數似然函數為:與最小二乘原理完全相同

2.3最小二乘估計的性質2024/4/648一、線性

是y1,y2,…,yn的線性函數

:2.3最小二乘估計的性質2024/4/649其中用到

二、無偏性

無偏性的意義2.3最小二乘估計的性質2024/4/650三、的方差

回歸系數的相關情況2.3最小二乘估計的性質2024/4/651三、的方差

在正態假設下GaussMarkov條件

2.4回歸方程的顯著性檢驗2024/4/652一、t

檢驗

原假設:H0:β1=0 對立假設:H1

:β1≠0

由當原假設H0:β1=0成立時有:

2.4回歸方程的顯著性檢驗2024/4/653一、t

檢驗

構造t統計量

其中2.4回歸方程的顯著性檢驗2024/4/654二、用統計軟件計算

1.例2.1用Excel軟件計算什么是P值?

(P-value)P值即顯著性概率值

SignificenceProbabilityValue是當原假設為真時得到比目前的樣本更極端的樣本的概率,所謂極端就是與原假設相背離它是用此樣本拒絕原假設所犯棄真錯誤的真實概率,被稱為觀察到的(或實測的)顯著性水平2024/4/655雙側檢驗的P值2024/4/656

/

2

/

2

t拒絕拒絕H0值臨界值計算出的樣本統計量計算出的樣本統計量臨界值1/2P值1/2P值左側檢驗的P值2024/4/657H0值臨界值a樣本統計量拒絕域抽樣分布1-

置信水平計算出的樣本統計量P值右側檢驗的P值2024/4/658H0值臨界值a拒絕域抽樣分布1-

置信水平計算出的樣本統計量P值利用P值進行檢驗的決策準則若p-值>

,不能拒絕H0若p-值<

,拒絕H0雙側檢驗p-值=2×單側檢驗p-值2024/4/6592.4回歸方程的顯著性檢驗2024/4/660二、用統計軟件計算2.例2.1用SPSS軟件計算2.4回歸方程的顯著性檢驗2024/4/661二、用統計軟件計算2.用SPSS軟件計算2.4回歸方程的顯著性檢驗2024/4/662三、F檢驗平方和分解式

SST=SSR+SSE構造F檢驗統計量

可以證明SSR和SSE均服從卡方分布2.4回歸方程的顯著性檢驗2024/4/663三、F檢驗一元線性回歸方差分析表方差來源自由度平方和均方F值P值回歸殘差總和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(F>F值)=P值2.4回歸方程的顯著性檢驗2024/4/664四、相關系數的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/665四、相關系數的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/666四、相關系數的顯著性檢驗

附表1相關系數的臨界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4回歸方程的顯著性檢驗2024/4/667四、相關系數的顯著性檢驗

用SPSS軟件做相關系數的顯著性檢驗

2.4回歸方程的顯著性檢驗2024/4/668四、相關系數的顯著性檢驗

兩變量間相關程度的強弱分為以下幾個等級:當|r|≥0.8時,視為高度相關;當0.5≤|r|<0.8時,視為中度相關;當0.3≤|r|<0.5時,視為低度相關;當|r|<0.3時,表明兩個變量之間的相關程度極弱,在實際應用中可視為不相關。2.4回歸方程的顯著性檢驗2024/4/669五、三種檢驗的關系H0:b=0H0:r=0H0:回歸無效2.4回歸方程的顯著性檢驗2024/4/670六、樣本決定系數

可以證明2.5殘差分析

2024/4/671一、殘差概念與殘差圖

殘差

誤差項

殘差ei是誤差項ei的估計值。

2.5殘差分析

2024/4/672一、殘差概念與殘差圖

2.5殘差分析

2024/4/673一、殘差概念與殘差圖

圖2.6火災損失數據殘差圖2.5殘差分析

2024/4/674二、殘差的性質

性質1E(ei)=0

證明:2.5殘差分析

2024/4/675二、殘差的性質

性質2其中稱為杠桿值

2.5殘差分析

2024/4/676二、殘差的性質

2.5殘差分析

2024/4/677二、殘差的性質

性質3.

殘差滿足約束條件:

這表明殘差是相關的,不是獨立的.2.5殘差分析

2024/4/678三、改進的殘差

標準化殘差學生化殘差2.6回歸系數的區間估計2024/4/679

等價于β1的1-α置信區間2.7預測和控制

2024/4/680一、單值預測

2.7預測和控制

2024/4/681

二、區間預測找一個區間(T1,T2),使得

需要首先求出其估計值的分布

1.因變量新值的區間預測二、區間預測1因變量新值的區間預測2024/4/682以下計算的方差從而得二、區間預測1因變量新值的區間預測2024/4/683記于是有

則二、區間預測1因變量新值的區間預測2024/4/684y0的置信概率為1-α的置信區間為

y0的置信度為95%的置信區間近似為

能不能兩全其美二、區間預測2因變量平均值的區間估計2024/4/685得E(y0)的1-α的置信區間為

E(y0)=β0+β1x0是常數二、區間預測計算2024/4/686

對例2.1的火災損失數據,假設保險公司希望預測一個距最近的消防隊x0=3.5公里的居民住宅失火的損失

點估計值95%區間估計單個新值:(22.32,32.67)平均值E(y0):(26.19,28.80)

的95%的近似置信區間為

=(27.50-2×2.316,27.50+2×2.316)=(22.87,32.13)三、控制問題

2024/4/687

給定y的預期范圍(T1,T2),如何控制自變量x的值才能以1-α的概率保證

用近似的預測區間來確定x。如果α=0.05,則要求

把帶入2.8本章小結與評注

一、一元線性回歸模型從建模到應用的全過程(略)例2.2

全國人均消費金額記作y(元);人均國民收入記為x(元)2024/4/688表2.2 人均國民收入表具體看書2.8本章小結與評注

二、有關回歸假設檢驗問題

1973年Anscombe構造了四組數據,這四組數據所建的回歸方程是相同的,決定系數,F統計量也都相同,且均通過顯著性檢驗。

2024/4/6892.8本章小結與評注2024/4/690多元線性回歸

3.1多元線性回歸模型3.2回歸參數的估計3.3參數估計量的性質3.4回歸方程的顯著性檢驗3.5中心化和標準化3.6相關陣與偏相關系數3.7本章小結與評注2024/4/6913.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/692y=β0+β1x1+β2x2+…+βpxp+ε3.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/693對n組觀測數據(xi1,xi2,…,xip;yi),i=1,2,…,n,線性回歸模型表示為:3.1多元線性回歸模型一、多元線性回歸模型的一般形式

2024/4/694寫成矩陣形式為:y=Xβ+ε,其中,2024/4/695i=1,2,3j=1,2k=1,2為種第i種小麥并施了第J種化肥的第K塊地的產量寫出這個雙因素方差分析模型的矩陣形式,并把每個矩陣的具體形式寫出來。作業:設有3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6961.解釋變量x1,x2,…,xp是確定性變量,不是隨機變量,且要求rk(X)=p+1<n。表明設計矩陣X中的自變量列之間不相關,X是一滿秩矩陣。3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6972.隨機誤差項具有0均值和等方差,即

這個假定稱為Gauss-Markov條件

3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/6983.正態分布的假定條件為:

用矩陣形式(3.5)式表示為:

ε~N(0,s2In)3.1多元線性回歸模型二、多元線性回歸模型的基本假定

2024/4/699在正態假定下:

y~N(Xβ,s2In)E(y)=Xβ

var(y)=s2In

3.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6100y表示空調機的銷售量,x1表示空調機的價格,x2表示消費者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2

在x2保持不變時,有在x1保持不變時,有3.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6101考慮國內生產總值GDP和三次產業增加值的關系,

GDP=x1+x2+x3現在做GDP對第二產業增加值x2的一元線性回歸,得回歸方程本章思考與練習中表3—103.1多元線性回歸模型2024/4/6102年份GDP第一產業增加值x1第二產業增加值x2第三產業增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0...............2006216314.424040.0103719.588554.92007265810.328627.0125831.4111351.92008314045.433702.0149003.4131340.02009340902.835226.0157638.8148038.02010401512.840533.6187383.2173596.02011473104.047486.2220412.8205205.02012518942.152373.6235162.0231406.53.1多元線性回歸模型三、多元線性回歸方程的解釋

2024/4/6103建立GDP對x1和x2的回歸,得二元回歸方程=2914.6+0.607x1+1.709x2你能夠合理地解釋兩個回歸系數嗎?3.2回歸參數的估計

一、回歸參數的普通最小二乘估計

2024/4/6104最小二乘估計要尋找3.2回歸參數的估計

一、回歸參數的普通最小二乘估計

2024/4/61053.2回歸參數的估計

一、回歸參數的普通最小二乘估計

2024/4/6106經整理后得用矩陣形式表示的正規方程組

移項得存在時,即得回歸參數的最小二乘估計為:3.2回歸參數的估計

二、回歸值與殘差2024/4/6107為回歸值

稱為帽子矩陣,其主對角線元素記為hii

,則此式的證明只需根據跡的性質tr(AB)=tr(BA),因而3.2回歸參數的估計

二、回歸值與殘差2024/4/6108

cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得

D(ei)=(1-hii)σ2,i=1,2,…,n3.2回歸參數的估計

二、回歸值與殘差2024/4/6109

是σ2的無偏估計

3.2回歸參數的估計

三、回歸參數的最大似然估計

2024/4/6110

y~N(Xβ,σ2In)似然函數為

等價于使(y-Xβ)′(y-Xβ)達到最小,這又完全與OLSE一樣四、實例分析【例3.1】現實生活中,影響一個地區居民消費的因素有很多,例如,一個地區的人均生產總值、收入水平、消費價格指數、生活必需品的花費等。本例選取9個解釋變量研究城鎮居民家庭平均每人全年的消費性支出y,解釋變量為居民的食品花費,居民的服裝花費,居民的居住花費,居民的醫療花費,居民的教育花費,地區的職工平均工資,地區的人均GDP,地區的消費價格指數,地區的失業率。本例選取2013年《中國統計年鑒》我國30個省、市、自治區(西藏地區失業率數據缺失,因此從樣本中去除西藏)2012年的數據,以居民的消費性支出(元)為因變量,以如上9個變量為自變量作多元線性回歸。數據見表3.1,其中,自變量單位為元,因變量單位為百分數。2024/4/6111表3.12024/4/6112地區北京753526391971165836968474287475106.51.324046天津734418811854155622546151493173107.53.620024河北421115421502104712043865836584104.13.712531山西38561529143990615064423633628108.83.312212內蒙古546327301584135419724655763886109.63.717717遼寧580920421433131018444185856649107.73.616594吉林4635204515941448164338407434151113.714614黑龍江468718071337118112173640635711104.84.212984上海9656211117901017372478673853731063.126253江蘇665819161437105830785063968347112.63.118825浙江755221101552122829975019763374104.5321545.................................陜西555117891322121220794307338564109.43.215333甘肅460216311288105013883767921978108.62.712847青海46671512123290610974648333181110.63.412346寧夏476918761193106315164743636394105.54.214067新疆523920311167102812814457633796114.83.413892用SPSS22.0計算出的回歸系數見輸出結果3.1(65頁)輸出結果3.1

回歸系數表2024/4/6113因而y對9個自變量的線性回歸方程為2024/4/61143.3參數估計量的性質

2024/4/6115

性質1

是隨機向量y的一個線性變換。性質2

是β的無偏估計。

2024/4/61163.3參數估計量的性質

2024/4/6117

當p=1時

即可得(2.41)、(2.42)、(2.45)式利用SPSS軟件可以方便的計算出的協方差陣與相關陣,的協方差陣與相關陣不屬于默認輸出值,在LinearRegression對話框中點選Statistics→Covariancematrix即可。例3.1的數據計算出的的相關陣與協方差陣如表3.2、表3.3所示,其中表的格式已略作修改。2024/4/61183.3參數估計量的性質

2024/4/6119

性質4Gauss-Markov定理預測函數

是的線性函數

Gauss-Markov定理

在假定E(y)=Xβ,D(y)=σ2In時,β的任一線性函數的最小方差線性無偏估計(BestLnearUnbiasedEstimator簡記為BLUE)為c′,其中c是任一p+1維向量,是β的最小二乘估計。3.3參數估計量的性質

2024/4/6120

第一,取常數向量c的第j(j=0,1,…,p)個分量為1,其余分量為0,這時G-M定理表明最小二乘估計是βj的最小方差線性無偏估計。第二,可能存在y1,y2,…,yn的非線性函數,作為的無偏估計,比最小二乘估計的方差更小。第三,可能存在的有偏估計量,在某種意義(例如均方誤差最小)下比最小二乘估計更好。第四,在正態假定下,是的最小方差無偏估計。也就是說,既不可能存在y1,y2,…,yn的非線性函數,也不可能存在y1,y2,…,yn的其它線性函數,作為的無偏估計,比最小二乘估計方差更小。3.3參數估計量的性質

2024/4/6121性質5cov(,e)=0此性質說明與e不相關,在正態假定下等價于與e獨立,從而與獨立。性質6

在正態假設(1)(2)3.4回歸方程的顯著性檢驗2024/4/6122

一、F檢驗

H0:β1=β2=…=βp=0SST=SSR+SSE

當H0成立時服從方差來源自由度平方和均方F值P值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值3.4回歸方程的顯著性檢驗2024/4/6123

一、F檢驗

對例3.1的數據,用SPSS軟件計算出的方差分析表見輸出結果3.2。輸出結果3.2F=298.8822024/4/61243.4回歸方程的顯著性檢驗2024/4/6125

二、回歸系數的顯著性檢驗(t檢驗)H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)記(X'X)-1=(cij)i,j=0,1,2,…,p構造t統計量

其中3.4回歸方程的顯著性檢驗2024/4/6126

二、回歸系數的顯著性檢驗輸出結果3.1輸出結果3.32024/4/6127輸出結果3.42024/4/61283.4回歸方程的顯著性檢驗2024/4/6129

二、回歸系數的顯著性檢驗

從另外一個角度考慮自變量xj的顯著性。y對自變量x1,x2,…,xp線性回歸的殘差平方和為SSE,回歸平方和為SSR,在剔除掉xj后,用y對其余的p-1個自變量做回歸,記所得的殘差平方和為SSE(j),回歸平方和為SSR(j),則自變量xj對回歸的貢獻為ΔSSR(j)=SSR-SSR(j),稱為xj的偏回歸平方和。由此構造偏F統計量3.4回歸方程的顯著性檢驗2024/4/6130

二、回歸系數的顯著性檢驗

當原假設H0j

:βj=0成立時,(3.42)式的偏F統計量Fj服從自由度為(1,n-p-1)的F分布,此F檢驗與(3.40)式的t檢驗是一致的,可以證明Fj=tj2(3.42)3.4回歸方程的顯著性檢驗2024/4/6131

三、回歸系數的置信區間可得βj的置信度為1-α的置信區間為:3.4回歸方程的顯著性檢驗2024/4/6132四、擬合優度

決定系數為:

y關于x1,x2,…,xp的樣本復相關系數3.5中心化和標準化

2024/4/6133

一、中心化

經驗回歸方程

經過樣本中心

將坐標原點移至樣本中心,即做坐標變換:

回歸方程轉變為:回歸常數項為3.5中心化和標準化

2024/4/6134

二、標準化回歸系數

樣本數據的標準化公式為:

得標準化的回歸方程

3.5中心化和標準化

2024/4/6135

二、標準化回歸系數

當自變量的單位不同時普通最小二乘估計的回歸系數不具有可比性,例如有一回歸方程為:其中x1的單位是噸,x2的單位是公斤3.6相關陣與偏相關系數

2024/4/6136

一、樣本相關陣(第78頁表3.5)自變量樣本相關陣

增廣的樣本相關陣為:

3.6相關陣與偏相關系數

2024/4/6137二、偏判定系數

當其他變量被固定后,給定的任兩個變量之間的相關系數,叫偏相關系數。

偏相關系數可以度量p+1個變量y,x1,x2,xp之中任意兩個變量的線性相關程度,而這種相關程度是在固定其余p-1個變量的影響下的線性相關。

3.6相關陣與偏相關系數

2024/4/6138

二、偏判定系數

偏判定系數測量在回歸方程中已包含若干個自變量時,再引入某一個新的自變量后y的剩余變差的相對減少量,它衡量y的變差減少的邊際貢獻。3.6相關陣與偏相關系數

2024/4/6139

1.兩個自變量的偏判定系數二元線性回歸模型為:yi=β0+β1xi1+β2xi2+εi記SSE(x2)是模型中只含有自變量x2時y的殘差平方和,SSE(x1,x2)是模型中同時含有自變量x1和x2時y的殘差平方和。因此模型中已含有x2時再加入x1使y的剩余變差的相對減小量為:此即模型中已含有x2時,y與x1的偏判定系數。3.6相關陣與偏相關系數

2024/4/6140

1.兩個自變量的偏判定系數同樣地,模型中已含有x1時,y與x2的偏判定系數為:3.6相關陣與偏相關系數

2024/4/6141

2.一般情況在模型中已含有x2,…,xp時,y與x1的偏判定系數為:3.6相關陣與偏相關系數

2024/4/6142

三、偏相關系數

偏判定系數的平方根稱為偏相關系數,其符號與相應的回歸系數的符號相同。

例3.2

研究北京市各經濟開發區經濟發展與招商投資的關系,因變量y為各開發區的銷售收入(百萬元),選取兩個自變量,

x1為截至1998年底各開發區累計招商數目,

x2為招商企業注冊資本(百萬元)。表中列出了至1998年底招商企業注冊資本x2在5億至50億元的15個開發區的數據。3.6相關陣與偏相關系數

2024/4/6143

三、偏相關系數

北京開發區數據x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6相關陣與偏相關系數

2024/4/6144

三、偏相關系數

偏相關系數表書后有part解釋3.6相關陣與偏相關系數

2024/4/6145

三、偏相關系數

用y與x1做一元線性回歸時,x1能消除y的變差SST的比例為再引入x2時,x2能消除剩余變差SSE(X1)的比例為因而自變量x1和x2消除y變差的總比例為=1-(1-0.651)(1-0.546)=0.842=84.2%。這個值84.2%恰好是y對x1和x2二元線性回歸的判定系數R23.6相關陣與偏相關系數

2024/4/6146

三、偏相關系數

對任意p個變量x1,x2,…,xp定義它們之間的偏相關系數其中符號Δij表示相關陣第i行第j列元素的代數余子式驗證以x1表示某種商品的銷售量,

x2表示消費者人均可支配收入,

x3表示商品價格。從經驗上看,銷售量x1與消費者人均可支配收入x2之間應該有正相關,簡單相關系數r12應該是正的。但是如果你計算出的r12是個負數也不要感到驚訝,這是因為還有其它沒有被固定的變量在發揮影響,例如商品價格x3在這期間大幅提高了。反映固定x3后x1與x2相關程度的偏相關系數r12;3會是個正數。2024/4/61473.7本章小結與評注

2024/4/6148

例3.3中國民航客運量的回歸模型。y—民航客運量(萬人),x1—國民收入(億元),x2—消費額(億元),x3—鐵路客運量(萬人),x4—民航航線里程(萬公里),x5—來華旅游入境人數(萬人)。根據《1994年統計摘要》獲得1978-1993年統計數據3.7本章小結與評注

2024/4/6149

年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.703.7本章小結與評注

2024/4/6150

3.7本章小結與評注

2024/4/6151

3.7本章小結與評注

2024/4/6152

當回歸模型的未知參數估計出來后,我們實際上是由n組樣本觀測數據得到一個經驗回歸方程,這個經驗回歸方程是否真正反映了變量y和變量x1,x2,…,xp之間的線性關系,這就需要進一步對回歸方程進行檢驗。一種檢驗方法是擬合優度檢驗,即用樣本決定系數的大小來衡量模型的擬合優度。樣本決定系數R2越大,說明回歸方程擬合原始數據y的觀測值的效果越好。但由于R2的大小與樣本容量n以及自變量個數p有關,當n與p的數目接近時,R2容易接近于1,這說明R2中隱含著一些虛假成分。因此,僅由R2的值很大,去推斷模型優劣一定要慎重。前幾年我們在著名的《經濟研究》雜志也看到有作者忽略了這一問題,犯了統計方法應用的低級錯誤。2024/4/6153對于回歸方程的顯著性檢驗,我們用F統計量去判斷假設H0:β1=β2=…=βp=0是否成立。當給定顯著性水平α時,F>Fα(p,n-p-1),則拒絕假設H0,否則不拒絕H0。接受假設H0和拒絕假設H0對于回歸方程來說意味著什么,這仍需慎重對待。2024/4/6154一般來說,當接受假設H0時,認為在給定的顯著性水平α之下,自變量x1,x2,…,xp對因變量y無顯著性影響,于是通過x1,x2,…,xp去推斷y也就無多大意義。在這種情況下,一方面可能這個問題本來應該用非線性模型去描述,而我們誤用線性模型描述了,使得自變量對因變量無顯著影響;另一方面可能是在考慮自變量時由于我們認識上的局限性把一些影響因變量y的自變量漏掉了。這就從兩個方面提醒我們去重新考慮建模問題。2024/4/6155當我們拒絕了假設H0時,我們也不能過于相信這個檢驗,認為這個回歸模型已經很完美了。其實當拒絕H0時,我們只能認為這個回歸模型在一定程度上說明了自變量x1,x2,…,xp與因變量y的線性關系。因為這時仍不能排除我們漏掉了一些重要的自變量。參考文獻[2]的作者認為,此檢驗只宜用于輔助性的、事后驗證性質的目的。研究者在事前根據專業知識及經驗,認為已把較重要的自變量選入了,且在一定誤差限度內認為模型為線性是合理的。經過樣本數據計算后,可以用來驗證一下,原先的考慮是否周全。這時,若拒絕H0,可認為至少并不與他原來的設想矛盾。如果接受H0,可以認為模型是不能反映因變量y與自變量x1,x2,…,xp的線性關系,這個模型就不能應用于實際預測和分析。2024/4/6156當樣本容量n較小,變量個數p較大時,F檢驗或t檢驗的自由度太小,這時盡管樣本決定系數R2很大,但參數估計的效果很不穩定。我們曾發現一個實際應用例子暴露出這方面的問題。有文獻在研究建筑業降低成本率y對流動資金x1、固定資金x2、優良品率x3、竣工面積x4、勞動生產率x5、施工產值x6的關系時,利用書上表3.8數據建立回歸方程,得回歸方程SST=154.7646,SSR=143.45,SSE=11.3146F=4.226,R2=0.926792024/4/6157由于R2=0.92679,所以該文獻中作者認為上述回歸方程非常顯著。其實進一步作F檢驗,給定α=0.05,查F分布表,F0.05(p,n-p-1)=F0.05(6,2)=19.3。F=4.226<F0.05(6,2)=19.3。回歸方程沒有通過F檢驗。可是該文獻當時給錯了自由度,查F0.05(6,9)=3.37。結果F>F0.05(6,9),通過了檢驗,從而進一步肯定了上述回歸方程。之所以R2在0.9以上,已接近1,方程還通不過F檢驗,這就是樣本容量個數n太小,而自變量又較多造成R2的虛假現象。如果樣本容量再稍作改變,未知參數就會發生較大變化,即表現出很不穩定的狀況。2024/4/6158違背基本假設的情況2024/4/6159

4.1異方差性產生的背景和原因4.2一元加權最小二乘估計4.3多元加權最小二乘估計4.4自相關性問題及其處理4.5BOX-COX變換4.6異常值與強影響點4.7本章小結與評注第四章違背基本假設的情況2024/4/6160

Gauss-Markov條件

4.1異方差性產生的背景和原因

2024/4/6161

一、異方差產生的原因

例4.1居民收入與消費水平有著密切的關系。用xi表示第i戶的收入量,yi表示第i戶的消費額,一個簡單的消費模型為:yi=β0+β1xi+εi,i=1,2,…,n低收入的家庭購買差異性比較小,高收入的家庭購買行為差異就很大。導致消費模型的隨機項εi具有不同的方差。4.1異方差性產生的背景和原因

2024/4/6162

二、異方差性帶來的問題

當存在異方差時,普通最小二乘估計存在以下問題:(1)參數估計值雖是無偏的,但不是最小方差線性無偏估計;(2)參數的顯著性檢驗失效;(3)回歸方程的應用效果極不理想。4.2一元加權最小二乘估計

2024/4/6163

一、異方差性的檢驗(一)殘差圖分析法

圖2.5(b)存在異方差4.2一元加權最小二乘估計

2024/4/6164

一、異方差性的檢驗(二)等級相關系數法

等級相關系數檢驗法又稱斯皮爾曼(Spearman)檢驗,是一種應用較廣泛的方法。這種檢驗方法既可用于大樣本,也可用于小樣本。進行等級相關系數檢驗通常有三個步驟。第一步,作y關于x的普通最小二乘回歸,求出ei的估計值,即ei的值。4.2一元加權最小二乘估計

2024/4/6165

(二)等級相關系數法

第二步,取ei的絕對值,分別把xi和|ei|按遞增(或遞減)的次序分成等級,按下式計算出等級相關系數:其中,n為樣本容量,di為對應于xi和|ei|的等級的差數。4.2一元加權最小二乘估計

2024/4/6166

(二)等級相關系數法

第三步,做等級相關系數的顯著性檢驗。在n>8的情況下,用下式對樣本等級相關系數rs進行t檢驗。檢驗統計量為:如果t≤tα/2(n-2)可認為異方差性問題不存在,如果t>tα/2(n-2),說明xi與|ei|之間存在系統關系,異方差性問題存在。4.2一元加權最小二乘估計

2024/4/6167

例4.3設某地區的居民收入與儲蓄額的歷史統計數據如表4.1。(1)用普通最小二乘法建立儲蓄y與居民收入x的回歸方程,并畫出殘差散點圖;(2)診斷該問題是否存在異方差;序號儲蓄y(萬元)居民收入x(萬元)1 2 3

31264 105 90 …23008777 9210 9954 …382004.2一元加權最小二乘估計

2024/4/6168

序號儲蓄y居民收入xxi等級殘差ei|ei||ei|等級di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.4510100………………………3123003820031-286.1286.1247494.2一元加權最小二乘估計

2024/4/6169

圖4.1殘差圖4.2一元加權最小二乘估計

2024/4/6170

用SPSS計算等級相關系數。

4.2一元加權最小二乘估計

2024/4/6171

(2)計算等級相關系數。

t=5.076>2.0454.2一元加權最小二乘估計

2024/4/6172

Spearman等級相關系數可以反映非線性相關的情況,Pearson簡單相關系數不能反映非線性相關的情況。例如x與y的取值如下,序號12345678910x12345678910y149162536496481100容易計算出y與x的簡單相關系數r=0.9746,而y與x的等級相關系數rs=1具有完全的曲線相關。4.2一元加權最小二乘估計

2024/4/6173

二、一元加權最小二乘估計消除異方差性的方法通常有:加權最小二乘法,Box-Cox變換法,(參考文獻[1])

方差穩定性變換法加權最小二乘法(WeightedLeastSquare,簡記為WLS)是一種最常用的消除異方差性的方法。4.2一元加權最小二乘估計

2024/4/6174

二、一元加權最小二乘估計一元線性回歸普通最小二乘法的殘差平方和為:

一元線性回歸的加權最小二乘的離差平方和為:

第96頁4.2一元加權最小二乘估計

2024/4/6175

加權最小二乘估計為:

其中,

是自變量的加權平均;

是因變量的加權平均。

4.2一元加權最小二乘估計

2024/4/6176

觀測值的權數應該是觀測值誤差項方差的倒數,即在實際問題中,誤差項的方差是未知的,常與自變量x的冪函數xm成比例,其中m是待定的未知參數。此時權函數為所以誤差項的方差較大的觀測值接受較小的權數;誤差項的方差較小的觀測值接受較大的權數。4.2一元加權最小二乘估計

2024/4/6177

三、尋找最優權函數利用SPSS軟件可以確定冪指數m的最優取值。依次點選Analyze-Regression-WeightEstimation進入估計權函數對話框,默認的冪指數m的取值為m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先將因變量y與自變量x選入各自的變量框,再把x選入Weight變量框,冪指數(Power)取默認值,計算結果如下(格式略有變動):4.2一元加權最小二乘估計

2024/4/6178

4.2一元加權最小二乘估計

2024/4/61794.2一元加權最小二乘估計

2024/4/6180

冪指數m的最優取值為m=1.5。加權最小二乘的r2=0.9360,F值=423.741;普通最小二乘的r2=0.912,F值=300.732。說明加權最小二乘估計的效果好于普通最小二乘的效果。4.2一元加權最小二乘估計

2024/4/6181

圖4.2加權最小二乘殘差圖殘差圖序號小方差組126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2一元加權最小二乘估計

2024/4/6182

序號中等方差組11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2一元加權最小二乘估計

2024/4/6183

序號大方差組222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.2一元加權最小二乘估計

2024/4/6184

不是像小殘差組那樣得到改善,而是誤差變得更大。其道理也很簡單,加權最小二乘估計照顧小殘差項是以犧牲大殘差項為代價的,有得必有失,也是有局限性的。從上面的分析看到,當回歸模型存在異方差時,加權最小二乘估計只是對普通最小二乘估計的改進,這種改進有可能是細微的,不能理解為加權最小二乘估計一定會得到與普通最小二乘估計截然不同的回歸方程,或者一定有大幅度的改進。實際上,可以構造出這樣的數據,回歸模型存在很強的異方差,但是普通最小二乘與加權最小二乘所得的回歸方程卻完全一樣。另外,加權最小二乘以犧牲大方差項的擬合效果為代價改善了小方差項的擬合效果,這也并不總是研究者所需要的。在社會經濟現象中,通常變量取值大時方差也大,在以經濟總量為研究目標時,更關心的是變量取值大的項,而普通最小二乘恰好能滿足這個要求。所以在這樣的一些特定場合下,即使數據存在異方差,也仍然可以選擇使用普通最小二乘估計。2024/4/61854.3多元加權最小二乘

2024/4/6186當誤差項εi存在異方差時,加權離差平方和為記加權最小二乘估計WLS的矩陣表達4.3多元加權最小二乘估計

2024/4/6187

通常取權函數W為某個自變量xj(j=1,2,…,p)的冪函數,即,在x1,x2,…,xp這p個自變量中取哪一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論