




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、自變量的選擇 回歸方程中的變量過多,會使資料的搜集、系統(tǒng)的運(yùn)作及模型的解釋都會遇到困難,如何將模型精簡而又能有很好的解釋能力是回歸分析面對的重要問題。自變量的選擇 為分析自變量選擇失當(dāng)而出現(xiàn)的后果,我們首先舉一例分析。例如,分析通貨膨脹時,我們考慮失業(yè)率與預(yù)期通貨膨脹率是影響通貨膨脹的主要因素,若其正確的模型形式是二元線性回歸模型,即:22110)(xxye 其中,y表示通貨膨脹率(%); x1表示失業(yè)率(%); x2表示預(yù)期通貨膨脹率(%)。 統(tǒng)計資料估計的回歸模型,計算機(jī)輸出結(jié)果如下22110)(xxye自變量的選擇 (一)確定自變量的原則 原則:準(zhǔn)則:有效性,獨(dú)立性,邊際貢獻(xiàn) (二)確定
2、自變量的步驟 (三)自變量篩選的方法 1. 所有回歸式的比較選取法 ( r2最大,mse最小)2. 分步回歸法包括(1)向前選取法(2)向后選取法(3)逐步選取法(1)向前法 是選取進(jìn)入模型的解釋變量越選越多,每一步都是選取剩余解釋能力最強(qiáng)的一個變量進(jìn)入模型,但其解釋能力必須要通過事前定好的門檻(如 顯著性水平為0.05)。 第一步,開始時模式中沒有任何變量,接著第一步在所有變量中選取對y最有解釋能力的進(jìn)入模型,其選取方式是找f值最大的。 第二步,選取除了上面進(jìn)入模型的x之外的剩余變量中偏f最大,且通過門檻者。),(),()(),()|()|(414144141414 | 1xxmsexxss
3、exssexxmsexxmsrxxff如: (2)向后選取法 與向前選取法相反,在一開始時是所有變量都放在模型中,然后再將解釋能力差的變量一一去掉,直到所有放在模型中的變量其偏f值都大于預(yù)設(shè)的門檻。 第一步,先計算所有偏f值,去掉最小且小于門檻值的變量。 (3)逐步選取法 是結(jié)合向前和向后選取法而成的。 開始時一向前選取法進(jìn)入一個變量,而后每當(dāng)選入一個新變量后,就利用向后法試試看在模型中已存在的變量有無偏f值小于門檻的變量,若有,則將其排除之外,接著再進(jìn)行向前選取,若無,則繼續(xù)向前選取,這樣向前向后選取法輪流使用,直到?jīng)]有變量可進(jìn)來,也沒有變量會被去除。自變量選擇中最常見的問題-存在共線性時的
4、處理方法 引起解釋變量共線性的原因?qū)Χ嘀毓簿€性本質(zhì)的認(rèn)識,至少可從以下幾方面理解:由變量之間的性質(zhì)引起的由變量之間的性質(zhì)引起的。 這時,不管數(shù)據(jù)以什么形式取得,數(shù)據(jù)取樣是大是小,都會出現(xiàn)x2與x1高度相關(guān)稅率增加值總產(chǎn)值稅收額其中_,_,_:3213322110 xxxyxxxy數(shù)據(jù)問題引起的(多重共線數(shù)據(jù)點(diǎn))數(shù)據(jù)問題引起的(多重共線數(shù)據(jù)點(diǎn)) 指即使使總體諸解釋變量沒有線性關(guān)系,但在具體樣本中仍可能有線性關(guān)系。情況一:當(dāng)樣本容量很小時。情況二:若建模所用的解釋變量是時序變量 引起解釋變量共線性的原因總量變量相關(guān)總量變量相關(guān), ,增量之間、人均量之間無關(guān)。增量之間、人均量之間無關(guān)。 近不相關(guān)差分
5、變量與水平變量接得將其右端減加因此的估計可能會很不準(zhǔn)確和高度相關(guān)和式中12101010112110,tttttttttttyxxyxxxyxxy 引起解釋變量共線性的原因 逐步分析估計檢驗(yàn)法 這種方法首先計算因變量對每個解釋變量的回歸方程因變量對每個解釋變量的回歸方程,得到基本回歸方程。再根據(jù)理論上、邏輯上的分析,參考其他先驗(yàn)信息以及統(tǒng)計檢驗(yàn)的結(jié)果來分析這些基本回歸方程,從中選出最合理的基本回歸方程。然后在這個選定的基本回歸方程中增加新的解釋變量,并根據(jù)統(tǒng)計分析作如下分類判。 (1)如果新加入的解釋變量改進(jìn)了r2,且每個系數(shù)又是統(tǒng)計上顯著的,那么就認(rèn)為這個新變量是有用的,應(yīng)該保留。 (2)如果
6、新加入的解釋變量未能改進(jìn)r2,對其他系數(shù)值也沒有影響,則認(rèn)為新變量是多余的,應(yīng)予以舍棄。 (3)如果新加入的解釋變量不僅改變了r2的值,而且同時也顯著地影響其他系數(shù)的符號或大小,以至于使某些系數(shù)達(dá)到不能接受的程度,那么,可以斷言產(chǎn)生了嚴(yán)重的多重共線性。這個新的解釋變量也可能是重要的,但由于它與其他解釋變量之間存在線性相關(guān)關(guān)系,普通最小二乘法失效。需要特別注意的是,這時不能盲目略去這類變量,否則,可能造成擾動項(xiàng)與解釋變量相關(guān)。1.從變量上思考引出的去除不重要解釋變量的方法。 去掉不重要的解釋變量雖然可以削弱共線性,卻容易導(dǎo)致模型設(shè)定誤差,因此有時會出現(xiàn)兩難選擇: 若共線性存在,不能有效地估計模型
7、中的參數(shù),若去掉有關(guān)解釋變量,又會錯誤地估計參數(shù)的真實(shí)數(shù)值。 直接合并解釋變量 當(dāng)模型中存在多重共線性時,在不失去實(shí)際意義的前提下,可以把有關(guān)的解釋變量直接合并,從而降低或消除多重共線性。 如果研究的目的是預(yù)測全國貨運(yùn)量,那么可以把重工業(yè)總產(chǎn)值和輕工業(yè)總產(chǎn)值合并為工業(yè)總產(chǎn)值,從而使模型中的解釋變量個數(shù)減少到兩個以消除多重共線性。甚至還可以與農(nóng)業(yè)總產(chǎn)值合并,變?yōu)楣まr(nóng)業(yè)總產(chǎn)值。解釋變量變成了一個,自然消除了多重共線性。2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的主要形式有如下兩種:(1)差分形式xxxxy,xxxxy:tttttttt的高度相關(guān)了就不會像原來兩變量間和那么可以作如下改變是共線
8、性的與若假定設(shè)定模型為2122112122110 但這種變換也會出現(xiàn)新的問題:第一,即使上式中的隨機(jī)擾動項(xiàng)不存在序列相關(guān),差分后的隨機(jī)擾動項(xiàng)也可能存在序列相關(guān)。第二,差分變換導(dǎo)致丟失一個觀測值,在小樣本情況下,就不能不考慮自由度損失問題,另外還需要注意,差分變換不適用于截面數(shù)據(jù)。2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的主要形式有如下兩種:(2)是共 線lnp與lnp格表示世界 該示世界該產(chǎn)p,格表示我國 該示我國該產(chǎn)p量表示世界 該示世界該產(chǎn)q總量表示我國某 種示我國某ylnqlnplnplny假定 設(shè)定設(shè)定模型wwwtw3w210t2.從模型形式上思考引出的變量轉(zhuǎn)換法。 變量轉(zhuǎn)換的
9、主要形式有如下兩種:(2)變量比形式twwtwwwtwwtqppy,ppppqyqppy:lnlnlnlnln,lnlnlnln103210釋變量可以把相對價格作為解是共線性的與格表示世界該產(chǎn)品出口價格表示我國該產(chǎn)品出口價量表示世界該產(chǎn)品出口總總量表示我國某種產(chǎn)品出口假定設(shè)定模型為 這種方法適用于截面數(shù)據(jù),但經(jīng)過這種變換后將無法研究lnp和lnpw各自的變化對被解釋變量lny 的影響,而且要保證所構(gòu)造的變量比具有明確的經(jīng)濟(jì)意義,否則不能進(jìn)行變量比變換。3.從先驗(yàn)信息上思考引出的約束法。 klakylkklayekalylnlnln:,lnlnlnln:模型變?yōu)閯t利用這一約束條件將模報酬不變?nèi)粢?/p>
10、知該生產(chǎn)系統(tǒng)是規(guī)高度相關(guān)與對上式兩變?nèi)?shù)得假定生產(chǎn)函數(shù)模型 采取約束法的關(guān)鍵是先驗(yàn)信息如何獲取。通常可依據(jù)經(jīng)濟(jì)理論和實(shí)際分析獲得,當(dāng)然也可以提出約束,并進(jìn)行約束檢驗(yàn),當(dāng)約束檢驗(yàn)通過后再采用約束法。4.從數(shù)據(jù)上思考引出的板塊數(shù)據(jù)法、增加樣本容量法和剔除影響點(diǎn)法 板塊數(shù)據(jù)法就是把截面數(shù)據(jù)與時序數(shù)據(jù)結(jié)合起來的方法。 采用這種方法隱含著一個假定,即從截面數(shù)據(jù)中估計的參數(shù)與從時序數(shù)據(jù)中估計的參數(shù)是相等的,因此它僅適用于從一個截面到另一個截面數(shù)據(jù)、估計值相對穩(wěn)定的情況。 剔除多重共線性的影響點(diǎn)法是指經(jīng)過診斷后假定樣本點(diǎn)為影響點(diǎn),從原樣本中剔除第i個樣本點(diǎn),可以減輕共線性程度。 這種方法的問題是診斷出的這
11、個樣本點(diǎn)是否應(yīng)該剔除,這里需特別指出的是,當(dāng)沒有真正弄清楚樣本點(diǎn)形成機(jī)制之前,不能輕易剔除,因?yàn)橛绊扅c(diǎn)的形成可能是隨機(jī)因素,也可能是經(jīng)濟(jì)機(jī)制變化,當(dāng)后者發(fā)生時,無論影響點(diǎn)的剔除對減輕多重共線性的作用有多大,也不能剔除。 合并截面數(shù)據(jù)與時間序列數(shù)據(jù) 這種方法屬于約束最小二乘法(rls)。其基本思想是,先由截面數(shù)據(jù)求出一個或多個回歸系數(shù)的估計值,再把它們代入原模型中,通過用因變量與上述估計值所對應(yīng)的解釋變量相減從而得到新的因變量,然后建立新因變量對那些保留解釋變量的回歸模型,并利用時間序列樣本估計回歸系數(shù)。 由于把估計過程分作兩步,從而避免了多重共線性問題。顯然這種估計方法默認(rèn)了顯然這種估計方法默
12、認(rèn)了一種假設(shè),即相對于時間序列數(shù)據(jù)各個時一種假設(shè),即相對于時間序列數(shù)據(jù)各個時期截面數(shù)據(jù)所對應(yīng)的收入彈性系數(shù)估計值期截面數(shù)據(jù)所對應(yīng)的收入彈性系數(shù)估計值都與第一步求到的都與第一步求到的 相同相同。當(dāng)這種假設(shè)不成立時,這種估計方法會帶來估計誤差。4.從數(shù)據(jù)上思考引出的板塊數(shù)據(jù)法、增加樣本容量法和剔除影響點(diǎn)法 板塊數(shù)據(jù)法就是把截面數(shù)據(jù)與時序數(shù)據(jù)結(jié)合起來的方法。 采用這種方法隱含著一個假定,即從截面數(shù)據(jù)中估計的參數(shù)與從時序數(shù)據(jù)中估計的參數(shù)是相等的,因此它僅適用于從一個截面到另一個截面數(shù)據(jù)、估計值相對穩(wěn)定的情況。 剔除多重共線性的影響點(diǎn)法是指經(jīng)過診斷后假定樣本點(diǎn)為影響點(diǎn),從原樣本中剔除第i個樣本點(diǎn),可以減
13、輕共線性程度。 這種方法的問題是診斷出的這個樣本點(diǎn)是否應(yīng)該剔除,這里需特別指出的是,當(dāng)沒有真正弄清楚樣本點(diǎn)形成機(jī)制之前,不能輕易剔除,因?yàn)橛绊扅c(diǎn)的形成可能是隨機(jī)因素,也可能是經(jīng)濟(jì)機(jī)制變化,當(dāng)后者發(fā)生時,無論影響點(diǎn)的剔除對減輕多重共線性的作用有多大,也不能剔除。 5.從估計方法上思考引出的估計量 如有偏估計 所謂有偏估計法是指參數(shù)估計量是有偏的,但估計量的均方誤差比采取ols法估計的無偏估計量的均方誤差小,即以偏誤為代價來提高估計量的準(zhǔn)確性。主成分回歸分析 1993年由hotelling提出了主成分分析的方法,之后w.f.massy于1965年根據(jù)主成分分析的思想提出了主成分回歸。如今主成分回歸
14、方法已經(jīng)被廣泛采用,成為回歸分析中較有影響的估計方法。 主成分分析的核心思想就是通過降維,把多個指標(biāo)化為少數(shù)幾個綜合指標(biāo),而盡量不改變指標(biāo)體系對因變量的解釋程度。 主成分的提取分5個步驟: 1、為了使結(jié)果不受量綱的影響,先把原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 2、求出標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣、協(xié)方差。 3、導(dǎo)出相關(guān)系數(shù)矩陣的特征值和特征向量。 4、最大的特征值對應(yīng)的特征向量即為第一主成分的系數(shù),第二大的特征值對應(yīng)的特征向量即為第二主成分的系數(shù),以此類推。取幾個主成分取決于主成分對因變量的解釋程度。如果前i個特征值之和與所有特征值之和的比達(dá)到一定的程度比如80%時,就可以認(rèn)為這些主成分就能代替所有的自變量體系
15、。 5、用主成分對因變量進(jìn)行普通最小二乘法即可得出各個主成分對因變量的解釋程度。 可以看出,主成分回歸分析解決多重共線性問題是通過求特征值和特征向量達(dá)到降維來實(shí)現(xiàn)的,因?yàn)樵诮稻S前,指標(biāo)之間的多重共線性可能是由于某個指標(biāo)或者少數(shù)指標(biāo)所包含的信息與其他指標(biāo)所包含的信息之間的相關(guān)性引起的,通過降維的處理我們提取了主成分,就像是把指標(biāo)體系所包含的信息分了類,某一大類由一個主成分來表現(xiàn),這樣就消除了產(chǎn)生多重共線性問題的根源信息的交迭。 主成分回歸分析雖然比較好地解決了多重共線性問題,但仍存在很多不足之處,比如:主成分的實(shí)際含義不明確,主成分與因變量之間的關(guān)系不很直接,估計出的參數(shù)是有偏的等等。使用sps
16、s中stepwise回歸分析 直接使用 spss 系統(tǒng)給定的逐步回歸法進(jìn)行回歸分析,有時難以得到所需要的分析結(jié)果,因?yàn)橄到y(tǒng)給出的最終結(jié)果僅是一個滿足統(tǒng)計學(xué)檢驗(yàn)的結(jié)果,該結(jié)果不一定滿足實(shí)際問題的需要。 為分析影響服務(wù)業(yè)發(fā)展的因素, 引入如下指標(biāo): 用第三產(chǎn)業(yè)產(chǎn)值占 gdp 的比重作為反映服務(wù)業(yè)發(fā)展水平的指標(biāo)(y, 單位: %); 1.城鄉(xiāng)居民收入水平指標(biāo) (x1, 單位元); 2.城市化水平的指標(biāo)(x2, 單位: %); 3.人口密度(x3, 單位: 人/每平方公里); 4.居民年消費(fèi)水平(x4, 單位: 元); 5.食品消費(fèi)所占比重 (x5, 單位: %); 6.個體私營經(jīng)濟(jì)從業(yè)人員占社會從業(yè)
17、員的比重 (x6, 單位: %); 7. 實(shí)際外商直接投資在全社會固定資產(chǎn)投資中所占比例 (x7, 單位: %)。 為解決由自變量之間的相關(guān)性導(dǎo)致的多重共線性, 在method 一欄中選擇 stepwise 進(jìn)行回歸分析, 得到如下方程: y= - 22.699 + 0.01063x1+0.06917x3- 0.00913x4 (- 2.353) (2.953) (5.145) (- 2.322) r2=0.956, f=168.813 在顯著水平為 0.05 時, 估計方程及其所有估計系數(shù)都通過檢驗(yàn)。然而我們進(jìn)一步分析發(fā)現(xiàn), x4 在這里表示的是居民年消費(fèi)水平, 其系數(shù)為負(fù), 表示 x4 每
18、增加一個單位, y 將減少 0.00913 個單位, 從經(jīng)濟(jì)學(xué)意義上來說, 這是不合理的, 因此, 不能作為分析的最終結(jié)果。 本例表明, 直接用 spss 系統(tǒng)內(nèi)部給出的 stepwise 進(jìn)行回歸分析有時難以得到我們所需要的結(jié)果。如何才能得到所需要的估計方程呢? 首先分別求 y 與 x1x7 的回歸方程, 得到 7 個基本方 程: y = 26.2 + 0.003063x1 y = - 196.572 + 4.131x2 (31.643) (14.111) (- 9.537) (11.25) r2=0.904 f=199.118 r2=0.857 f=126.559 y = - 106.70
19、4 + 0.191x3 y = 26.116 + 0.003348x4 (- 3.913) (5.208) (29.43) (13.205) r2=0.554 f=27.122 r2=0.892 f=174.365 y = 51.505 - 0.332x5 y = 27.41 + 2.323x6 (5.144) (- 1.652) (28.789) (11.184) r2=0.076 f=2.73 r2=0.855 f=125.072 y = 27.891 + 0.438x7 (29.794) (10.992) r2=0.851 f=120.819在上述 7 個基本方程中, 除了(5) 式中
20、x5 的系數(shù)是負(fù)數(shù)外, 其余方程的變量的系數(shù)都是正數(shù), 從經(jīng)濟(jì)學(xué)意義上來說這是合理的。由 7 個基本方程和經(jīng)濟(jì)理論可知, x1( 城鄉(xiāng)居民收入水平) 是最重要的變量, 因此選擇(1) 式為最初的回歸方程, 然后按照 r2 從大到小的順序每次引入一個變量逐步引入其他變量。每次引入的變量是否保留在方程中要從兩方面進(jìn)行分析 ,一是從經(jīng)濟(jì)學(xué)意義上分析 ,一是從統(tǒng)計學(xué)意義上分析。從經(jīng)濟(jì)學(xué)意義上分析 ,主要要求引入新變量后重新估計的方程各系數(shù)的符號從經(jīng)濟(jì)學(xué)意義上來說是合理的; 從統(tǒng)計學(xué)意義上分析 ,應(yīng)按下述原則判斷: 1、如果新加進(jìn)去的解釋變量改進(jìn)了 r2, 并且其他回歸系數(shù)在統(tǒng)計上仍是顯著的 ,則可以保
21、留此變量; 2、如果新加進(jìn)去的解釋變量未能改進(jìn) r2, 其他回歸系數(shù)也沒有影響, 則不加入此變量; 3、如果新加入的解釋變量不僅改變了 r2, 而且影響到其他變量的回歸系數(shù)的符號或數(shù)值 ,致使某些回歸系數(shù)達(dá)到不能接受的地步 ,則用新加入的變量分別替代它所影響的變量估計方程 ,從中選擇估計效果最好的一個方程。 首先選擇(1) 式為最初的回歸方程 ,在(1)式 中引入變量 x4, 得新方程 y = 26.661 + 0.01242x1 - 0.0103x4 (32.92) (2.596) (- 1.958) r2 = 0.916, f = 115.582 由于式 中 x4 的系數(shù)為負(fù) ,從經(jīng)濟(jì)學(xué)意義上說是不合理的。因此, 按上述原則, 不應(yīng)該引入變量 x4。 在(1)式 中引入下一個變量 x2 y = -7 1.454 + 0.001923x1 + 1.8x2 (-2 .702) (5.46) (3.694) r2 = 0.941, f = 169.339 由于引入 x2 改變了 r2 ,同時不影響 x1 的顯著性 ,而且 x2 也是顯著的。按上述原則 ,應(yīng)該引入變量 x2。 在式 中引入變量 x6 y = - 68.285 + 0.00341x1 + 1.734x2 1.138x6 (-2 .624) (2.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)生編織手工課件圖片
- 廠房建設(shè)項(xiàng)目施工、設(shè)備安裝及調(diào)試合同
- 財務(wù)合規(guī)審核勞動合同
- 場監(jiān)督管理局行政執(zhí)法權(quán)委托執(zhí)行協(xié)議
- 電力與工業(yè)作業(yè)安全知識考核試卷及答案要點(diǎn)
- 2024-2025學(xué)年江蘇省宿遷市沭陽縣高一下學(xué)期期中歷史試題及答案
- 養(yǎng)小雞教學(xué)課件
- 危險化學(xué)品儲存環(huán)節(jié)事故統(tǒng)計分析考核試卷
- 農(nóng)藥制劑穩(wěn)定性與生物安全性研究考核試卷
- 人力資源市場調(diào)研與企業(yè)人才梯隊(duì)建設(shè)的關(guān)系考核試卷
- CJT 211-2005 聚合物基復(fù)合材料檢查井蓋
- 云南省曲靖市2023-2024學(xué)年八年級下學(xué)期期末語文試題
- DZ∕T 0212.4-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 鹽類 第4部分:深藏鹵水鹽類(正式版)
- JT-T 1495-2024 公路水運(yùn)危險性較大工程專項(xiàng)施工方案編制審查規(guī)程
- 第一目擊者理論考試題題庫110題
- 借款利息確認(rèn)書
- 蘇州交通報告
- 廣東省廣州市花都區(qū)2022-2023學(xué)年三年級下學(xué)期語文期末試卷
- 焊條烘烤操作規(guī)程
- 人工智能倫理導(dǎo)論- 課件 第3、4章 人工智能倫理、人工智能風(fēng)險
- 能源使用和能源消耗
評論
0/150
提交評論