第9章含定性變量的回歸模型_第1頁
第9章含定性變量的回歸模型_第2頁
第9章含定性變量的回歸模型_第3頁
第9章含定性變量的回歸模型_第4頁
第9章含定性變量的回歸模型_第5頁
已閱讀5頁,還剩71頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第9章章 含定性變量的回歸模型含定性變量的回歸模型 9.1 自變量中含有定性變量的回歸模型9.2 自變量定性變量回歸模型的應用9.3 因變量是定性變量的回歸模型9.4 logistic(邏輯斯蒂)回歸9.5 多類別logistic回歸9.6 因變量是順序變量的回歸9.7 本章小結與評注9.1 自變量中含有定性變量的回歸模型一、簡單情況一、簡單情況 首先討論定性變量只取兩類可能值的情況,例如研究糧食產量問題,y為糧食產量,x為施肥量,另外再考慮氣候問題,分為正常年份和干旱年份兩種情況,對這個問題的數量化方法是引入一個0-1型變量d,令:di=1表示正常年份di=0表示干旱年份9.1 自變量中含

2、有定性變量的回歸模型糧食產量的回歸模型為: yi=0+1xi+2di+i其中干旱年份的糧食平均產量為:e(yi|di=0)=0+1xi正常年份的糧食平均產量為: e(yi|di=1)=(0+2)+1xi9.1 自變量中含有定性變量的回歸模型 例例9.19.1 某經濟學家想調查文化程度對家庭儲蓄的影響,在一個中等收入的樣本框中,隨機調查了13戶高學歷家庭與14戶中低學歷的家庭,因變量y為上一年家庭儲蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學歷,高學歷家庭x2=1,低學歷家庭x2=0,調查數據見表9.1:9.1 自變量中含有定性變量的回歸模型序號y(元)x1(萬元)x212352

3、.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表表9.1anova290372875.9242145186437.96287.425.00039856639.705241660693.321330229515.63026regressionresidualtotalmodel1sum of squaresdfmean squarefsig.9.1 自變量中含有定性變量的回歸模型建立y對x1、x2的線性回歸model summary.9

4、38a.879.8691288.68model1rr squareadjusted rsquarestd. errorof theestimatepredictors: (constant), x2, x1a. 9.1 自變量中含有定性變量的回歸模型coefficients-7976.8091093.445-7.295.0003826.129304.591.92112.562.000-3700.330513.445-.529-7.207.000(constant)x1x2bstd. errorunstandardizedcoefficientsbetastandardizedcoefficie

5、ntstsig. 兩個自變量x1與x2的系數都是顯著的,判定系數r2=0.879,回歸方程為:=-7976+3826x1-3700 x2y 9.1 自變量中含有定性變量的回歸模型 這個結果表明,中等收入的家庭每增加1萬元收入,平均拿出3826元作為儲蓄。高學歷家庭每年的平均儲蓄額少于低學歷的家庭,平均少3700元。 如果不引入家庭學歷定性變量x2,僅用y對家庭年收入x1做一元線性回歸,得判定系數r2=0.618,擬合效果不好。9.1 自變量中含有定性變量的回歸模型 家庭年收入x1是連續型變量,它對回歸的貢獻也是不可缺少的。如果不考慮家庭年收入這個自變量,13戶高學歷家庭的平均年儲蓄增加額為30

6、09.31元,14戶低學歷家庭的平均年儲蓄增加額為5059.36元,這樣會認為高學歷家庭每年的儲蓄額比低學歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數值是3824元,兩者并不相等。9.1 自變量中含有定性變量的回歸模型 用回歸法算出的高學歷家庭每年的平均儲蓄額比低學歷的家庭平均少3824元,這是在假設兩者的家庭年收入相等的基礎上的儲蓄差值,或者說是消除了家庭年收入的影響后的差值,因而反映了兩者儲蓄額的真實差異。而直接由樣本計算的差值2050.05元是包含有家庭年收入影響在內的差值,是虛假的差值。所調查的13戶高學歷家庭的平均年收入額為3.8385萬元,14

7、戶低學歷家庭的平均年收入額為3.4071萬元,兩者并不相等。9.1 自變量中含有定性變量的回歸模型二、復雜情況二、復雜情況某些場合定性自變量可能取多類值,例如某商廈策劃營銷方案,需要考慮銷售額的季節性影響,季節因素分為春、夏、秋、冬4種情況。為了用定性自變量反應春、夏、秋、冬四季,我們初步設想引入如下4個0-1自變量:其它春季 , 0 , 111xx其它季 , 0 夏 , 122xx其它季 , 0 秋 , 133xx其它季 , 0 冬 , 144xx9.1 自變量中含有定性變量的回歸模型 可是這樣做卻產生了一個新的問題,即x1+x2+x3+x4=1,構成完全多重共線性。 解決這個問題的方法很簡

8、單,我們只需去掉一個0-1型變量,只保留3個0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。對一般情況,一個定性變量有k類可能的取值時,需要引入k-1個0-1型自變量。當k=2時,只需要引入一個0-1型自變量即可。9.1 自變量中含有定性變量的回歸模型三、單因素方差分析 設yij是正態總體n(j,2),的樣本 j=1,c,i=1,2,nj原假設為:h0: 1=2=c記ij= yij-j,則有ijn(0,2),進而有 yij=j+ij ,i=1,2,nj,j=1,c, (9.39) 記,aj=j-,則(9.39)式改寫為: yij=+ai+ij ,i=1,2,ni,j=1,c, (9.

9、39) 9.1 自變量中含有定性變量的回歸模型引入0-1型自變量xij,將(9.40)式表示為yij=+a1xi1+a2xi2+acxic +ij 其中 1j 當 0,x1j 當 , 1i11 ix2j 當 0,x2j 當 , 1i22ixcxicj 當 0,xcj 當 , 1ic9.1 自變量中含有定性變量的回歸模型 其中還存在一個問題,就是c個自變量x1,x2, ,xc之和恒等于1,存在完全的復共線性。為此,剔除xc,建立回歸模型yij=+a1xi1+a2xi2+ac-1xic-1 +ij i=1,2,nj,j=1,c,回歸方程顯著性檢驗的原假設為:h0: a1=a2=ac-1=09.1

10、自變量中含有定性變量的回歸模型 由aj=j-=j- 可知cjjc11h0: a1=a2=ac-1=0 與h0: 1=2=c是等價的線性回歸的f檢驗與單因素方差分析的f檢驗是等價的。9.2 自變量定性變量回歸模型的應用一、分段回歸一、分段回歸 例例9.2 表9.3給出某工廠生產批量xi與單位成本yi(美元)的數據。試用分段回歸建立回歸模型。序號yx(= x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.7748009.2 自變量定性變量回歸模型的應用x( 批 量 )90080070060050

11、0400300200y( 單 位 成 本 )5.04.54.03.53.02.52.01.51.0圖圖9.1 單位成本對批量散點圖單位成本對批量散點圖9.2 自變量定性變量回歸模型的應用 由圖9.1可看出數據在生產批量xp=500時發生較大變化,即批量大于500時成本明顯下降。我們考慮由兩段構成的分段線性回歸,這可以通過引入一個0-1型虛擬自變量實現。假定回歸直線的斜率在xp=500處改變,建立回歸模型 yi=0+1xi+2(xi-5)di+i來擬合,其中500 x 當 0,d500 x 當 , 1diiii9.2 自變量定性變量回歸模型的應用引入兩個新的自變量 xi1=xi xi2=(xi-

12、5)di這樣回歸模型轉化為標準形式的二元線性回歸模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解為兩個線性回歸方程:當x1500時,e(y)=0+1x1當x1500時,e(y)=(0-5002)+(1+2)x19.2 自變量定性變量回歸模型的應用9.2 自變量定性變量回歸模型的應用 用普通最小二乘法擬合模型(9.3)式得回歸方程為: =5.895-0.00395x1-0.00389x2 利用此模型可說明生產批量小于500時,每增加1個單位批量,單位成本降低0.00395美元;當生產批量大于500時,每增加1個單位批量,估計單位成本降低0.00395+0.00389=0.0

13、0784(美元)。y 9.2 自變量定性變量回歸模型的應用 以上只是根據散點圖從直觀上判斷本例數據應該用折線回歸擬合,這一點還需要做統計的顯著性檢驗,這只需對(9.2)式的回歸系數2做顯著性檢驗。9.2 自變量定性變量回歸模型的應用 對2的顯著性檢驗的顯著性概率sig=0.153,2沒有通過顯著性檢驗,不能認為2非零。用y對x做一元線性回歸,計算結果為:coefficients6.795.32420.963.000-6.318e-03.001-.976-10.90.000(constant)xbstd. errorunstandardizedcoefficientsbetastandardiz

14、edcoefficientstsig.9.2 自變量定性變量回歸模型的應用二、回歸系數相等的檢驗二、回歸系數相等的檢驗 例例9.39.3 回到例9.1的問題,例9.1引入0-1型自變量的方法是假定儲蓄增加額y對家庭收入的回歸斜率1與家庭年收入無關,家庭年收入只影響回歸常數項0,這個假設是否合理,還需要做統計檢驗。檢驗方法是引入如下含有交互效應的回歸模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y為上一年家庭儲蓄增加額, x1為上一年家庭總收入, x2表示家庭學歷,高學歷家庭x2=1,低學歷家庭x2=0。9.2 自變量定性變量回歸模型的應用 回歸模型(9.8)式可以分解為對

15、高學歷和對低學歷家庭的兩個線性回歸模型,分別為:高學歷家庭x2=1, yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低學歷家庭x2=0, yi=0+1xi1+i9.2 自變量定性變量回歸模型的應用 要檢驗兩個回歸方程的回歸系數(斜率)相等,等價于檢驗h0:3=0,當拒絕h0時,認為30,這時高學歷與低學歷家庭的儲蓄回歸模型實際上被拆分為兩個不同的回歸模型。當接受h0時,認為3=0,這時高學歷與低學歷家庭的儲蓄回歸模型是如下形式的聯合回歸模型:yi=0+1xi1+2xi2+i9.2 自變量定性變量回歸模型的應用coefficients-8763.9361270.878-

16、6.896.0004057.151359.284.97711.292.000-776.9392514.459-.111-.309.760-787.564663.367-.443-1.187.247(constant)x1x2x3bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.9.3 因變量是定性變量的回歸模型 在許多社會經濟問題中,所研究的因變量往往只有兩個可能結果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。 一、定性因變量的回歸方程的意義一、定性因變量的回歸方程的意義 設因變量y是只

17、取0,1兩個值的定性變量,考慮簡單線性回歸模型yi=0+1xi+i (9.12) 在這種y只取0,1兩個值的情況下,因變量均值e(yi)=0+1xi有著特殊的意義。9.3 因變量是定性變量的回歸模型由于yi是0-1型貝努利隨機變量,則得如下概率分布: p(yi=1)=i p(yi=0)=1-i根據離散型隨機變量期望值的定義,可得e(yi)=1(i)+0(1-i)=i (9.13) 得到 e(yi)=i=0+1xi9.3 因變量是定性變量的回歸模型二、定性因變量回歸的特殊問題二、定性因變量回歸的特殊問題 1. 離散非正態誤差項。 對一個取值為0和1的因變量,誤差項i=yi-(0+1xi)只能取兩

18、個值: 當yi=1時, i=1-0-1xi=i 當yi=0時, i=-0-1xi=1-i 顯然,誤差項i是兩點型離散分布,當然正態誤差回歸模型的假定就不適用了。9.3 因變量是定性變量的回歸模型2. 零均值異方差性。 當因變量是定性變量時,誤差項i仍然保持零均值,這時出現的另一個問題是誤差項i的方差不相等。0-1型隨機變量i的方差為 d(i)=d(yi) =i(1-i) =(0+1xi)(1-0-1xi) (9.14) i的方差依賴于xi,是異方差,不滿足線性回歸方程的基本假定。9.3 因變量是定性變量的回歸模型3.回歸方程的限制 當因變量為0、1虛擬變量時,回歸方程代表概率分布,所以因變量均

19、值受到如下限制:e(yi)=i1 對一般的回歸方程本身并不具有這種限制,線性回歸方程yi=0+1xi將會超出這個限制范圍。9.4logistic回歸模型回歸模型 一、分組數據的一、分組數據的logistic回歸模型回歸模型 針對0-1型因變量產生的問題,我們對回歸模型應該做兩個方面的改進。 第一,回歸函數應該改用限制在0,1區間內的連續曲線,而不能再沿用直線回歸方程。9.4logistic回歸模型回歸模型 限制在0,1區間內的連續曲線有很多,例如所有連續型隨機變量的分布函數都符合要求,我們常用的是logistic函數與正態分布函數。logistic函數的形式為 xxxeeexf111)( lo

20、gistic函數的中文名稱是邏輯斯諦函數,或簡稱邏輯函數。9.4logistic回歸模型回歸模型 第二,因變量yi本身只取0、1兩個離散值,不適于直接作為回歸模型中的因變量。 由于回歸函數e(yi)=i=0+1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機變量,因而e(yi)=i就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。下面通過一個例子來說明logistic回歸模型的應用。9.4logistic回歸模型回歸模型 例例9.4 在一次住房展銷會上,與房地產商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內

21、,只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數據,建立logistic回歸模型 9.4logistic回歸模型回歸模型 9.4logistic回歸模型回歸模型 logistic回歸方程為 cixxpiii, 2 , 1,)exp(1)exp(1010其中c為分組數據的組數,本例c=9。做線性化變換,令 )1ln(iiippp上式的變換稱為邏輯(logit)變換,得 pi=0+1xi+i(9.16)(9.18) (9.17) 9.4logistic回歸模型回歸模型 計算出經驗回歸方程為-0.886+0.156x

22、(9.19)判定系數r2=0.9243,顯著性檢驗p值0,高度顯著。還原為(9.16)式的logistic回歸方程為)156. 0886. 0exp(1)156. 0886. 0exp(xxpi p 利用(9.20)式可以對購房比例做預測,例如對x0=8,590. 0436. 11436. 1)8156. 0886. 0exp(1)8156. 0886. 0exp(ip9.4logistic回歸模型回歸模型 我們用logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,(9.18)式的回歸模型不是等方差的,應該對(9.18)式用加權最小

23、二乘估計。當ni較大時,pi的近似方差為:)1 (1)(iiiinpd其中i=e(yi),因而選取權數為:wi=nipi(1-pi)9.4logistic回歸模型回歸模型 用加權最小二乘法得到的logistic回歸方程為 )149. 0849. 0exp(1)149. 0849. 0exp(xxpi對x0=8時的購房比例做預測585. 0409. 11409. 1)8149. 0849. 0exp(1)8149. 0849. 0exp(ip9.4logistic回歸模型回歸模型 二、未分組數據的二、未分組數據的logistic回歸模型回歸模型 設y是0-1型變量,x1,x2,xp是與y相關的確

24、定性變量, n組觀測數據為(xi1 ,xi2 ,xip ;yi),i=1,2,n, yi與xi1 ,xi2 ,xip的關系為:e(yi)=i=f(0+1xi1+2xi2+pxip) 其中函數f(x)是值域在0,1區間內的單調增函數。對于logistic回歸xxeexf1)(9.4logistic回歸模型回歸模型 于是yi是均值為i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函數為:p(yi=1)=i p(yi=0)=1-i 可以把yi的概率函數合寫為:iyyiiiiyp1)1 ()(i=1,2,n于是y1, y2 , , yn的似然函數為:niniiiiiiyyypl111)1

25、 ()(9.4logistic回歸模型回歸模型 niiiiiiiniiiyyyl11)1ln()1 (ln)1ln()1 (lnln)exp(1)exp(110110ippiippiixxxx代入得)exp(1ln( )(ln1101110ippiniippiixxxxyl對數似然函數logistic回歸極大似然估計就是選取0 ,1 ,2 ,p的估計值使上式達極大。9.4logistic回歸模型回歸模型 例例9.5 9.5 在一次關于公共交通的社會調查中,一個調查項目是“是乘坐公共汽車上下班,還是騎自行車上下班。”因變量y=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1

26、是年齡,作為連續型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。 調查對象為工薪族群體,數據見表9.9,試建立y與自變量間的logistic回歸。9.4logistic回歸模型回歸模型 序號性別年齡 月收入y序號性別年齡 月收入y101885001512010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481

27、2000241411500011055180012514518001120562100126148100001305818001271521500114118850028156180019.4logistic回歸模型回歸模型 以下是spss軟件部分運行結果: 22)(.jjdesbwald9.4logistic回歸模型回歸模型 x2(月收入)不顯著,將其剔除。最終的回歸方程為: )1023. 02239. 26285. 2exp(1)1023. 02239. 26285. 2exp(agesexagesexpi9.4logistic回歸模型回歸模型 三、三、probit回歸模型回歸模型 pro

28、bit回歸稱為單位概率回歸,與logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數是1011()iipipxx1011()iipipipxx【例例9.6】 仍然使用例9.4購房數據9.4logistic回歸模型回歸模型 9.4logistic回歸模型回歸模型 得回歸方程: 1()0.5520.0970ipx 或等價地表示為:( 0.5520.0970 )ipx 對x0=80( 0.5520.0970 8)(0.224)0.589p 9.4logistic回歸模型回歸模型 spss軟件提供了對分組數據擬合probit回歸。 1()0.531770.09354ipx 得 9.4l

29、ogistic回歸模型回歸模型 在spss軟件的probit回歸對話框,可以看到一個logit選項,用這個選項可以對分組數據做logistic回歸。對此例計算出的logistic回歸方程是0.851780.14982px 這也是使用數值計算的最大似然估計,與用最小二乘法所得到的logistic回歸方程)156. 0886. 0exp(1)156. 0886. 0exp(xxp很接近。)14982. 085178. 0exp(1)14982. 085178. 0exp(xxp9.5 多類別多類別logistic回歸回歸 當定性因變量y取k個類別時,記為1,2,k。因變量y取值于每個類別的概率與一

30、組自變量x1,x2,xp有關,對于樣本數據 (xi1,xi2,xip ;yi),i=1,2,n ,多類別logistic回歸模型第i組樣本的因變量yi取第j個類別的概率為:011011111011exp()exp()exp()jjipjipijipipkkipkipxxxxxx1,2, ;1,2,injk(9.34) 9.5 多類別多類別logistic回歸回歸 上式中各回歸系數不是惟一確定的,每個回歸系數同時加減一個常數后的數值保持不變。為此,把分母的第一項中的系數都設為0,得到回歸函數的表達式011021212011exp()1 exp()exp()jjipjipijipipkkipkip

31、xxxxxx1,2, ;1,2,injk(9.35) 9.5 多類別多類別logistic回歸回歸【例例9.7】 本例數據選自spss軟件自帶的數據文件telco.sav. 該文件在 spss tutorialsample_files文件夾內。 一個電信商要分析顧客選擇服務類別的影響因素,因變量是顧客類別(customer category),變量名為custcat,共取4個類別: 1=“basic service”; 2=“e-service”; 3=“plus service”; 4=“total service”數據的樣本量n=1 000。 可以用edit菜單中的options選項的ge

32、neral選項卡選擇顯示變量標簽,可以在顯示變量完整的名稱。9.5 多類別多類別logistic回歸回歸進入多類別logistic回歸對話框。把因變量customer categorycustcat選入dependent框條中,這里customer category是變量標簽,custcat是變量名稱。把定性自變量 marital status marital, level of education ed, retired retire和gender gender 選入 factors框條中。把數值型自變量 age in years age, years at current address

33、address, household income in thousands income, years with current employer employ,和 number of people in household reside 選入covariates框條中。 在因變量框條的下面有一個reference category按鈕,點擊進入,選擇以first category為參照類別,這也就是選擇(9.35)式的回歸方程。9.5 多類別多類別logistic回歸回歸9.5 多類別多類別logistic回歸回歸9.5 多類別多類別logistic回歸回歸使用逐步回歸 9.5 多類別多類別logistic回歸回歸9.5 多類別多類別logistic回歸回歸9.5 多類別多類別logistic回歸回歸輸出結果輸出結果9.14 parameter estimates9.5 多類別多類別logistic回歸回歸9.5 多類別多類別logistic回歸回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論