虛擬變量第八章_第1頁
虛擬變量第八章_第2頁
虛擬變量第八章_第3頁
虛擬變量第八章_第4頁
虛擬變量第八章_第5頁
已閱讀5頁,還剩36頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

虛擬變量第八章第8章模型中的特殊解釋變量虛擬變量(dummyvariable)主要內容一、為什么引入虛擬變量二、用虛擬變量測量截距變動三、測量斜率變動四、分段線性回歸3一、為什么引入虛擬變量1.定量解釋變量諸如前幾章介紹的,可以在取值范圍內連續取值的解釋變量,稱作定量解釋變量。如:人均收入,農產品收購量,等。2.定性變量如性別、民族、國籍、戰爭、自然災害和政治體制等,只表示某種特征的存在與不存在,稱作定性變量。4一、為什么引入虛擬變量建立回歸模型的過程中,被解釋變量不僅受定量解釋變量影響,有時還受一些諸如如性別、民族、國籍、戰爭、自然災害和政治體制等定性變量的影響。因此,當這些定性變量對被解釋變量產生影響時,當然也應該包括在回歸模型中。5一、為什么引入虛擬變量3.如何將定性變量引入模型由于定性變量通常表示的是某種特征或屬性是否存在,如男性、女性,城市戶口、非城市戶口等,所以量化方法可采用取值為0或1。可以用1表示該屬性存在,0表示該屬性不存在(也可相反)。6一、為什么引入虛擬變量4.虛擬變量上述這種取值為0或1的變量稱作虛擬變量,用D(Dummy)表示。虛擬變量應用于模型中,對其回歸系數的估計與檢驗方法與定量變量相同。

當一個定性變量含有m個類別時,應向模型引入m-1個虛擬變量。

7一、為什么引入虛擬變量比如“性別”含男性與女性兩個類別,所以當“性別”作解釋變量時,應向模型引入一個虛擬變量。取值方式是:

(男性)(女性)(女性)(男性)或8一、為什么引入虛擬變量

再例如,定性變量“學歷”還有四個類別,即大學學歷、中學學歷、小學學歷和無學歷。當“學歷”作解釋變量時,應向模型引入(4-1)三個虛擬變量,一種取值方式是:(大學學歷)(非大學學歷)(小學學歷)(非小學學歷)(中學學歷)(非中學學歷)9一、為什么引入虛擬變量5.虛擬變量注意事項(1)當定性變量含有m個類別時,模型不能引入m個虛擬變量。否則在虛擬變量間會產生完全多重共線性,無法估計回歸參數。例如:一年四季,取m=4個虛擬變量。截距項對應的單位向量等于D1+D2+D3+D4。即出現完全多重共線性。tβ0D1D2D3D41995.1110001995.2101001995.3100101995.4100011996.1110001996.2101001996.3100101996.4100011997.11

100010一、為什么引入虛擬變量(2)把虛擬變量取值為0所對應的類別稱作基礎類別。例如:按上面對“學歷”的賦值方法,“無學歷”為基礎類別。(3)當定性變量含有m個類別時,不能把虛擬變量的值設成如下形式:(第一個類別)(第二個類別)(第m個類別)這種賦值法在一般情形下與虛擬變量賦值是完全不同的兩回事。11一、為什么引入虛擬變量(4)回歸模型可以只用虛擬變量作解釋變量,也可以用定量變量和虛擬變量一起作解釋變量。12二、用虛擬變量測量截距變動下面給出的模型都屬于測量截距變動的模型。以上面第二個模型為例,D=1、0時,回歸函數分別是(D=1)(D=0)由此可見,向模型引入虛擬變量,其數學意義就是回歸函數截距項發生變化。對虛擬變量的系數作顯著性檢驗,就是判別兩條回歸直線的截距項是否存在顯著性差異。13二、用虛擬變量測量截距變動例8.3隨機調查美國舊金山地區20個家庭的儲蓄情況,擬建立年儲蓄額Yi(千美元)對年收入Xi

(千美元)的回歸模型。上部的6個樣本點,都是自己有房的家庭。下部的14個樣本點,都是租房住的家庭。這兩類家庭所對應的樣本觀測點各自都表現出明顯的不同的線性關系。14二、用虛擬變量測量截距變動為研究不同住房狀況家庭的儲蓄情況,引入定性變量“住房狀況”,用D表示。虛擬變量D定義如下:建立回歸模型:(有房戶)(租房戶)Y—年儲蓄額Y(千美元)X—年收入(千美元)D—住房狀況15二、用虛擬變量測量截距變動因為D不能作為Eviews的用戶變量名,所以虛擬變量的名稱取D1。16二、用虛擬變量測量截距變動由于虛擬變量D的回歸系數顯著地不為零,說明對住房狀況不同的兩類家庭來說,回歸函數截距項確實明顯不同。(因為D不能作為Eviews的用戶變量名,所以取D1)17二、用虛擬變量測量截距變動當模型不引入虛擬變量“住房狀況”時,得回歸方程如下:比較上述兩個回歸方程的統計檢驗指標,說明該回歸模型引入虛擬變量非常必要。18二、用虛擬變量測量截距變動引入虛擬變量后,不同住房狀況的居民的儲蓄明顯具有不同的截距:(1)D=1時,即對于有房戶(2)D=0時,即對于租房戶19二、用虛擬變量測量截距變動例8.4季節影響“季節”是在研究經濟問題中常常遇到的定性因素。比如,酒、肉的銷量在冬季要超過其他季節,而飲料的銷量又以夏季為最大。當建立這類問題的計量模型時,就要考慮把“季節”因素引入模型。由于一年有四個季節,所以這是一個含有四個類別的定性變量。應該向模型引入3個虛擬變量。20二、用虛擬變量測量截距變動

研究,1982年第1季度至1988年第4季度全國按季節市場用煤銷售量,時間序列圖如下21二、用虛擬變量測量截距變動從上圖看出,煤銷售量隨季節不同呈明顯的周期性變化。給出三個虛擬變量,設:(第四季度)(其他季度)(第二季度)(其他季度)(第三季度)(其他季度)這里是以第一季度為基礎類別,也可以選其他季度為基礎類別。設模型為:22二、用虛擬變量測量截距變動

1982年第1季度取t=1,估計模型參數給定顯著性水平α=0.05,D2、D3的系數沒有顯著性,說明第二、三季度可以歸并入基礎類別第一季度。23二、用虛擬變量測量截距變動現在考慮只加入一個虛擬變量D1,把季節因素分為第四季度和第一、二、三季度兩類。(第四季度)(其他季度)這里第一、二、三季度為基礎類24二、用虛擬變量測量截距變動第四季度用煤量:第一、二、三季度用煤量:25三、測量斜率變動用虛擬變量還可以考察回歸函數的斜率是否發生變化,來分析不同“類型”的不同斜率。方法是在模型中加入定量變量與虛擬變量的乘積項:設模型如下按β2、β3是否為零,回歸函數可有如下四種形式:26三、測量斜率變動截距、斜率同時發生變化的兩種情形:27三、測量斜率變動例2:利用中國進出口貿易總額數據(1950-1984)。試檢驗改革前后該時間序列的斜率是否發生變化。定義虛擬變量D如下:從圖中觀察到,改革開放前后的散點斜率確實不同,所以可以用虛擬變量進行測度。1978年28三、測量斜率變動模型的數學形式:以時間time為解釋變量,進出口貿易總額用trade表示:Eviews先中生成解釋變量time和虛擬變量D的乘積:

genrtimeD=time*D1

(因為D不能作為Eviews的用戶變量名,所以取D1)29三、測量斜率變動30三、測量斜率變動還有虛擬變量的兩項都是顯著的,所以上式說明,改革前后無論截距和斜率都發生了變化。進出口貿易總額的年平均增長量(斜率)擴大了17倍。31四、分段線性回歸當在模型中使用虛擬變量時,回歸函數就不再是連續的了,分段線性回歸可以既使用虛擬變量描述出模型結構變化,又可以使回歸函數保持連續,其中每一段都是線性的。32四、分段線性回歸考慮下面的模型其中Xb1表示結構發生變化的t=b1時刻的Xt的值。當D1=0時,當D1=1時,其中Xt=Xb1時,兩個式子相等。盡管兩個子時段回歸函數不同,但是在結構發生突變的那一刻,兩個子時段回歸函數是連續的。33四、分段線性回歸如果回歸函數在兩個時刻t=b1,b2,(b1<b2)發生結構變化時,定義兩個虛擬變量如下:

其中t=1,2,3,……,T,相應的分段線性回歸模型為:34四、分段線性回歸三個直線段的回歸函數分別是:35四、分段線性回歸例8.6中國貨幣流通量。對數的中國貨幣流通序列LMt

通過對LMt序列的分析,可知:(1)從建國初期~1961(三年經濟困難時期開始年)年的LMt增加速度比較快;(2)1962~1978年由于處于經濟困難和文化大革命時期,LMt增速明顯減緩;(3)1978年改革開放以后,進入社會主義市場經濟時期,LMt增速是建國以來最快的一個時期。使用虛擬變量進行分析。36四、分段線性回歸定義兩個虛擬變量:37四、分段線性回歸均顯著38

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論