斷點回歸設計(RDD)_第1頁
斷點回歸設計(RDD)_第2頁
斷點回歸設計(RDD)_第3頁
斷點回歸設計(RDD)_第4頁
斷點回歸設計(RDD)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、讓“跳躍”更有意義:斷點回歸設計(RDD)原創 2016-09-24 張立龍 定量群學在一個高度依賴規則的世界里,有些規則的出現十分隨意,這種隨意性為我們提供了性質良好的實驗(Angrist& Pischke,2009)。斷點回歸設計(RegressionDiscontinuity Design)是一種僅次于隨機實驗的能夠有效利用現實約束條件分析變量之間因果關系的實證方法。Lee(2008)認為在隨機實驗不可得的情況下,斷點回歸能夠避免參數估計的內生性問題,從而真實反映出變量之間的因果關系。斷點回歸方法首先是由美國西北大學心理學家Campbell于1958

2、年提出的;并與1960年,與 Thistlethwaite正式發表了第一篇關于斷點回歸的論文,提出斷點回歸是在非實驗的情況下處理處置效應(Treatment Effects)的一種有效的方法,主要應用于心理學和教育學領域。1963年,Campbell and Stanley為斷點回歸提供了更加清晰化的概念,但由于當時還缺乏嚴密的統計證明,加之IV 方法在處理內生性的思路和范式上具有更廣闊的適用范圍,因此在隨后的幾十年間,RD 方法一直沒有得到經濟學者的重視。直到上世紀90 年代末,隨著該方法的理論基礎得到進一步發展,大量經濟學文獻才開始使用RD 方法對變量之間的因果關系進行識別。斷點回歸可以分

3、為兩類,一類是模糊斷點回歸(Fuzzy RD),另一類是清晰斷點回歸(Sharp RD)。清晰斷點回歸可以看作是一種基于可觀察變量進行的選擇(selection-on-observablesstory),而模糊斷點回歸則常被視為一種工具變量的方法(instrumental-variables-type)。清晰斷點回歸(Sharp RD)當處理狀態是協變量確定型、不連續函數時,可以使用清晰間斷點回歸法。對于清晰斷點回歸,個體在臨界值的一邊接受處理效應(treatment effect)的概率為0,而在臨界值另一邊的概率則為1。最早使用清晰斷點回歸方法的典型例子是:獲得國家杰出獎學金的學生是不是會

4、更愿意讀研究生(Thistlewaithe and Campbell,1960; Campbell, 1969)。清晰斷點回歸通過比較PSAT分數剛好高于或低于國家杰出獎學金分數線的那些高中生的研究生入學率來回答這一問題。一般情況下,在PAST考試中得分越高的學生,其將來讀研究生的概率也就越大。通過回歸來擬合研究生院入學率和PSAT之間的關系,可以控制這一趨勢,將分數線附近PSAT成績和大學入學率之間的關系中出現的跳躍視為存在處理效應的證據。Imben and Limieux(2008)認為斷點回歸的有效性依賴于我們對協變量的外推,或者至少在協變量有不連續的那個領域內外推,因此,條件期望函數的

5、具體形式的設定很重要。給予具體函數形式得到的斷點回歸估計值的有效性依賴于多項式模型能否精確的描述條件期望函數。如果不能,那么看上去由于個體被處理而發生的跳躍可能只不過是條件期望函數的某個點的不連續,在設定期望函數之前我們并沒有預計到這種不連續。為了使得這種錯誤降低到最低,斷點回歸在實際操作中只去考察在不連續點的領域中的數據,也就是考察區間x0-,x0+,其中為某個很小的正數。換言之,在x0左側和右側一個足夠小領域內比較Y1i和Y0i的平均值之間的差別,就可估計出處理效應,而這種方法與條件期望函數的具體的形式無關。斷點回歸估計方法可以分為參數估計和非參數方法的估計。大部分利用斷點回歸進行的經驗研

6、究中,仍然是參數型估計。參數估計方法內涵一個思想是:賦予靠近臨界值的數據點更大的權重。隨著不連續樣本窗口的縮小,斷點回歸估計值會變得不精確,但是用來模型化函數f(xi)的多項式的階數也會下降。當以X0為中心不斷調整樣本窗口大小時,控制變量會逐漸變少,但Di的處理效應會保持穩定。非參數方法的應用越來越廣泛。使用非參數方法對斷點回歸進行估計時,需要分別對x0左側和右側領域中的Yi的平均值做出精確估計,但這至少會遇到兩個問題:如果在臨界值很小的領域中進行估計,那么可用的數據就相對較少;在有界領域中對條件期望函數的估計是有偏的。針對這一問題,Hahn, Todd and van der Klaauw

7、在2001年提出了使用非參數的局部線性回歸,感興趣的讀者可以進一步閱讀。清晰斷點回歸的一個經典例子是關于執政黨地位對其再次當選的研究。在美國的議會政治中,執政黨被再次高概率當選已經成為美國議會政治中最為引人注目的事實。Lee在其<Randomized Experiments from Non-randomSelection in U.S. House Elections>一文中試圖回答的問題是:如果民主黨在上次競選中獲勝,那么是否會在本次競選中獲得優勢。這項研究可能遇到的問題是:議會會員是否會利用他們的官方身份所帶來的權利和資源為他們自己的黨派謀取利益。也就說,執政黨的成功并不必然

8、是反映真正的選舉優勢,而是在滿足投票者或者換取選票方面更高明。為了尋求執政黨地位所帶來的因果效應,Lee將民主黨候選人獲勝看作是由Di=1(xi>=0)決定,xi是選舉勝利者在邊際上的得票份額(民主黨和共和黨的得票之差)。Di是xi的確定性函數,在xi之外并無其他變量干擾。Lee通過將民主黨獲勝的概率(Y軸)和在上一次選舉中民主黨與共和黨得票份額之差(X軸)在坐標抽中繪出,發現民主黨在0點處獲勝的概率大幅提高,民主黨得多數票,由于這一點跳躍,執政黨大約可以將再次當選的概率提高40%。Lee的分析認為以往選舉中的獲勝率應該與上次選舉中的獲勝的斷點沒有關系,這一檢驗符合了Sharp RD 識

9、別策略的假設。在給定的處理狀態下,協變量應該是像在隨機實驗中一樣被處理平衡。然而需要解決的一個問題是,在選舉中存在私利的人可能會控制操縱處在臨界值附近的xi,從而使得臨界值兩邊的狀況不可比,但Lee通過計算接近x0處的xi的比例來考察不連續點附近的xi的分布密度發現,這種情況不太可能出現。作者通過清晰斷點回歸設計,創造出“近似實驗(near-experimental)”方法,驗證了執政黨的選舉優勢。模糊斷點回歸(Fuzzy RD)作為一種工具變量法的模糊斷點回歸是在給定某個協變量的情況下,處理狀態的概率和期望值所發生的不連續變化。與清晰斷點回歸不同的是,處理狀態不再是變量Xi的確定函數,而是一

10、種概率函數。由于個體被處理的概率會有一個跳躍,不連續性成了針對處理狀態的工具變量,不再和處理狀態有確定性的聯系。模糊斷點回歸設計提供了一個簡單的工具變量估計策略。模糊斷點回歸方法的第一個例子是關于助學金是否是高校爭奪優質生源的有效工具的研究。Van der Klaauw(2002)的<Estimatingthe Effect of Financial Aid Offers on College Enrollment: ARegression-Discontinuity Approach>,文中關注的是助學金是否是高校爭奪優質生源的有效工具?Van der Klaauw使用了Fuzz

11、 RD 設計估計了大學生資助學金對大學入學率的影響。學生的入學決策受到很多因素的影響,其中一些因素是學校管理者無法觀測的。正是由于遺漏變量的存在,當我們評估助學金對入學率的影響時,助學金常常很難被看作是外生變量。為了尋求能夠解決內生性問題的辦法,作者對決策的規則進行了深入的分析。學校給予學生的資助金額受到很多客觀和主觀評價的影響,因此很難用一個簡單的公式進行描述。盡管有一些評價因素在學校的數據庫中能夠找到,如學生的學術能力,民族、父母的收入等。但其他的一些信息如學生的學習目的、已修課程、筆記是否工整、推薦信等在數據庫中則不能找到。然而,在很多學校,助學金的評判過程都是客觀和公平的。例如,學校x

12、通過SAT和GPA的成績構建一個綜合指數S,通過這個構建的指數將學生分為不同的等級。依據這一指數,將學生分為四個不同等級。三個切點分別為S1、S2、S3,S3其中最高的一個等級。不同等級的學生可以得到不同等級的助學金。盡管助學金的評定并不僅僅看S的等級,這使得不同的等級內部的助學金也會存在差異。在給定學生的指數是決定其能否得到助學金主要變量后,因此,學生得到的助學金是學生成績的函數,并會在切點處出現跳躍。那些比切點處的綜合指數大的得到助學金較大,而比切點處的綜合指數小的得到助學金較小。由于學生得到助學金的多少是學生綜合指數S的函數且存在間斷點,這其實符合了模糊斷點方法的設定原則。因此,作者利用

13、模糊RD的方法,通過分析助學金在學生綜合指數的切點處的變化,得出助學金是高校爭奪優質生源的有效工具的結論。另外一篇相對更早的使用模糊斷點回歸設計進行因果效應估計是Angrist & Lavy 在<Using Maimondides Rule to Estimate theEffect of Class Size on Scholastic Achievement>一文中完成的班級規模對學生成績影響的準實驗分析。在以色列,學校的班級規模方面,存在一個“邁蒙尼德”法則,認為班級規模不能超過40人。如果一個年級的學生不足40人,那么這些學生將被編入一個班級。而如果超過40人,如4

14、1人,那么這些學生將會被分為兩個班,81名學生時將會被分為3個班。Angrist & Lavy 對所選的兩個年級的學生的實際班級規模和用邁蒙尼德法則計算班級規模進行對比發現,邁蒙尼德法則并沒有很好的預測班級規模,大部分是因為年級人數沒有超過40人,也被分為了兩個班;但總體來看,學生人數為40,80,120處發生的班級規模的劇降。作者認為可以運用模糊RD來進行研究設計。當不存在控制變量時,班級規模和考試成績存在強烈的正相關。當把學校中具有殘障或者貧困等不利背景的學生比例作為控制變量加入回歸后,班級規模和學生成績之間的相互關系不在顯著。但作者利用模糊斷點回歸的方法(將利用“邁蒙尼德”法則計

15、算的班級規模作為實際班級規模的工具變量)的估計得出班級規模對考試成績具有顯著影響,這與利用STAR實驗的相關研究得出的結論一致。 參考文獻:Lee, David S. (2008): “Randomized experimentsfrom non-random selection in U.S. House elections”, Journal of Econometrics,142, 675-697.Thistlethwaiite, D., and D. Campbell (1960): “Regression-DiscontinuityAnalysis: An Alternat

16、ive to the Ex Post Facto Experiment,” Journal of EducationalPsychology, 51, 309317.Campbell, Donald Thomas (1969): “Reforms asExperiments”, American Psychologist, 24, 409-429.Campbell, Donald Thomas, and Julian C. Stanley(1963): “Experimental and Quasi-experimental Designs for Research”. RandMcNally

17、, Chicago.Imbens, Guido, and Thomas Lemieux (2008): “RegressionDiscontinuity Designs: A Guide to Practice”, Journal of Econometrics, 142,615635Hahn, Jinyong, Petra Todd, and Wilbur van derKlaauw (2001): “Identification and Estimation of Treatment Effects with aRegression-Discontinuity Design”, Econometrica, 69, 201-209.Van der Klaauw, Wilbert (2002): “Estimating theEffect of Financial Aid Offers on College Enrollment: ARegression-Discontinuity Approach”, International Economic Review, 43.Angrist, Joshua D., and

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論