




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計建模與R軟件 郭廣報 數據分析與軟件課程意義如何讓數據說話!2課程教材和參考書目薛毅,陳立萍.統計建模與R軟件.清華大學出版社,2007Kabacoff著,高濤,肖楠等譯. R語言實戰(R inAction:Data analysis and graphics with R).人民郵電出版社,2013何曉群.多元統計分析(第三版).中國人民大學出版社,2012課程教材和資料李子奈.計量經濟學(第三版).高等教育出版社,2010易丹輝.數據分析與Eviews應用.中國人民大學出版社,2008吳喜之.統計學-從數據到結論(第4版).中國統計出版社,2013吳喜之.復雜數據統計方法基于R的應用.
2、中國人民大學出版社,2012相關網站:國家統計局、統計之都、人大經濟論壇統計之都/5人大經濟論壇6課程內容與進度序號123456789內容統計建模概論R軟件的使用數據描述性分析參數估計假設檢驗回歸分析方差分析應用多元分析計算機模擬7第一講 概論統計建模的概念及特點統計建模的步驟統計建模常用軟件統計建模大賽一、統計建模的概念及特點統計學:收集、分析、展示和解釋數據的科學。統計建模:以計算機統計分析軟件為工具,利用各種統計分析方法對批量數據建立統計模型和探索處理的過程,用于揭示數據背后的因素,詮釋社會經濟現象,或對經濟和社會發展做出預測或判斷。統計建模的意義隨著計算機和
3、網 絡技術的快速普及和廣泛發展,我們 面對著數據和信息爆炸的挑戰,如何迅速有效地將數據提升為信息、知識和智能,是統計工作者面臨的重要課 題。統計建模將統計方法、計算機技術完美結合,帶動以數據分析為導向的統計思維,發現和挖掘數據背后 的規律,為經濟社會的發展提供更好更多的統計信息。統計建模的特點1. 模型只能是對客觀世界的一種近似,是現實的簡單化或理想化。統計建模的宗旨,就是設法建立 “有用的” 模型,而不是所謂“絕對正確的”模型。 Box(1976)“有用的”模型能抓住并凸顯現象中與分析目的最相關之主要特征,因此統計建模的成功與對主題領域的了解密切相關。例如:邊際消費傾向(或乘數-加速數模型)
4、Ct yt統計建模的特點2. 建模者應根據目的來尋找合適的數據和建模方法 。數據:數據的來源;數據的真實性;數據所含信息;數據是否適合建模。方法:同一個問題,可采用多種方法,也可能需要多種方法。一個好的建模(統計學實證文章)的三要素:ideadatamodel統計建模的特點3.統計建模是一個學習與實踐的過程統計學:統計學基礎、多元統計分析、非參數統計、貝葉斯統計計量經濟學:時間序列、面板數據、微觀計量、非參數時間序列分析:一元、多元、波動建模、非線性專業領域背景知識統計分析軟件 :Matlab、R、SPSS、SAS統計建模的注意事項避免只用一種方法(未比較其他模型和交叉驗證),應該避免沒有根據
5、或比較地任意假定模型形式。避免使用現成的經濟、金融模型,比如Cobb-Douglas模型、索羅模型、拉姆齊模型等,要有創新不要過度夸大一個模型的功能,即使是諾貝爾經濟獎獲得者也無法預測出任何一次經濟危機?任何一個現成模型必須得經受最新數據的考驗,否則必須被替代或修改:例如,線性非線性;一元多元;水平二階矩偏度和峰度經驗:模仿權威文獻,適當引入自己變量!避免使用31個省市自治區數據做除了描述之外的事情(如回歸等推斷)。慎用宏觀數據,鼓勵用微觀或調查數據。盡量對原始數據進行分析,避免只使用匯總數據(均值,百分數,比例)等加工過的數據建模前對建模根據要進行交代,對模型殘差要進行檢驗,分布假定必須要有
6、根據。避免任意使用大樣本結論于小樣本情況。統計建模的注意事項統計的本質觀測/實驗數據理論/假說/模型例如: 奧肯定律是否適用于中國?菲利普斯曲線是否合理?持久收入假說是否正確?李嘉圖等價?p2明確問題數據收集數據預處理撰寫論文結果分析模型檢驗模型估計模型構建二、統計建模的步驟1.明確問題許多數理統計雜志喜歡發表沒有任何數據背景的有關數學模型的文章;許多統計畢業生只會推導和證明各種模型,卻不擅長處理真實的問題和數據;許多人面對著有限樣本,也假裝是大樣本,并且不經驗證,據此得到結論;一些人不從數據出發,在學習或者構建了一個新模型后,就生搬硬套,尋找“適合”的數據來“證明”自己的模型有意義。廣州亞運
7、期間地鐵、公交和過江輪渡免費?長假期間高速免費?節假日火車票免費?火車梯形退票費問題;高鐵票價問題;小微企業相繼倒閉;溫州樓市泡沫及其破裂;沿海民工荒問題;富二代問題;放開二胎問題;放開二胎問題;企業稅負減免問題;人民幣升值問題;收入差距擴大問題;大學排行榜問題明確問題:以問題和數據為導向明確問題:以問題和數據為導向可以搜集哪些變量?哪些是控制變量?哪些是無法掌控的變量?哪些是需要重點研究的變量?適合構建什么模型?模型結果與理論是否吻合?預測精度怎樣?未來的變化趨勢怎樣?有何政策含義?統計建模已經幫這個世界解決許多真實且實際的問題(農業、醫學、遺傳、工業、商業等)。各個領域都靠統計解決許多問題
8、,所以統計是問題導向,人們在“沒有標準答案的問題”中尋求近似可靠穩定的模型提供解決方案!明確問題:以問題和數據為導向2.數據收集一手數據:調查、實驗觀察二手數據:書籍、網絡、年鑒統計建模時,一定要寫清數據來源!數據收集1.政府統計數據統計局網站或年鑒國家各部委,例如人民銀行、國稅總局、商務部等2.國際組織世界銀行世界發展指數數據庫國際貨幣基金組織IMFIFS 數據庫世界貿易組織WTO貿易統計年鑒國際清算銀行、亞洲開發銀行、泛美開發銀行、聯合國世界糧農組織、聯合國環境署、聯合國教科文組織等數據收集3.權威商業機構統計數據庫全球銀行、金融機構信息庫BvD全球市場信息數據庫GMID亞洲經濟數據庫(C
9、EIC ASIA)英國路透(Reuters)數據庫中經網統計信息數據庫4.非政府組織的抽樣調查數據:大學、科研院所組織的調查統計美國北卡萊羅納大學和中國疾病控制與預防中心聯合主辦的 “中國健康與營養調查(CHNS)高校常用數據庫1.國家統計局官網2.中經網統計數據庫3.國研網統計數據庫4.CCER統計數據庫5.Wind數據庫6.BvD數據庫如果有些數據庫找不到,請與其它高校的同學或者朋友聯系,或者國外同學聯系國家統計局28國內常用微觀數據庫1. CHIP數據中國社會科學院經濟研究所收入分配課題組(李實、趙人偉老師主持,福特基金會贊助)于1988年、1995年和2002年,進行的全國調查中的中國
10、農村和城市居民家庭收入分配調查得到的。1995年的調查覆蓋19個省(市、自治區),調查了6931戶城鎮家庭和7998戶農村家庭,分別涉及21696位城鎮居民和34739位農村居民;2002年的調查覆蓋22個省(市、自治區),調查了6835戶城鎮家庭和9200戶農村家庭,分別涉及20632位城鎮居民和37969位農村居民。國內常用微觀數據庫2. CHNS(中國健康與營養調查)3.CHARLS(中國健康與養老追蹤調查)http:/ Health and Fertility Survey )這些通常需要先注冊,通過郵件獲得密碼、ID之類的才能繼續下載,所以可能需要點耐心。其中CFPS還需要寄信函到北
11、京才能取得密碼和ID。注意保密!禁止傳播!3.數據預處理缺失值(例如,一月份的工業增加值數據)異常值(例如,國稅數據某直轄市為負數)不一致(例如,名義值實際值、季節調整、人民幣美元轉換、時間長度不一致等)這些工作很可能非常費時而且極其瑣碎,但必須去做,否則后續的分析是不可能的。異常值判斷40302003 2004 2005 2006 2007 2008 2009 2010 2011 2012ORIGINAL2080104000-101601202003 2004 2005 2006 2007 2008 2009 2010 2011BJ原始數據不完善數據缺失怎么辦?刪除用同一變量其他值的均值或中
12、位數填補在各個變量之間建立模型(比如回歸模型,最近鄰方法等)來填補。R包:missForest。專門用于填補缺失值。采用隨機森林的方法,同時自動填補定量變量和分類變量。4. 模型構建第一步:探索性分析。利用圖形(例如散點圖)、各種統計量(均值、標準差、最大值、最小值、負值等)、或者稍微復雜的探索方法來查看數據的關聯性、線性性、異方差性、多重共線性、聚類特征、分布形狀等。第二步:尋找適合的模型,例如,統計模型、計量經濟模型、時間序列模型、多元統計分析。當代計量經濟模型體系單位根檢驗ARIMA(時間序列)模型SARIMA(季節時間序列)模型PANEL(面板數據)模型、空間計量模型DS(離散選擇)模
13、型、有序響應、計數模型LDV(受限因變量)模型(刪失、截斷模型)線性時間序列時間序列模型回歸模型單序列模型向量序列模型時間序列的加法、乘法模型,X12 季節調整組合模型截面數據回歸蒙特卡羅模擬技術非線性時間序列波動模型單位根檢驗時間序列回歸GAR(廣義自回歸)、BL(雙線性)模型TAR、STAR(門限自回歸、平滑轉移)模型ARCH、GARCH(自回歸條件異方差)模型SV(隨機波動)模型ACD、SCD(自回歸、隨機條件久期)模型研究VAR、VEC(向量自回歸、誤差修正)模型單方程(線性、可線性化非線性)回歸模型聯立方程模型(結構、簡化型、遞歸模型)分位數回歸模型 單位根檢驗各種統計方法層出不窮,
14、學習永無止境,怎么辦?針對不同類型的數據,如何選取合適的模型?遇到沒學過的模型,怎么辦?谷歌和百度!論壇或者QQ群!5.模型估計不同的模型有不同的估計方法和檢驗方法。常見的模型估計方法包括: 最小二乘(OLS)法 極大似然估計(MLE)法 廣義矩(GMM)法 分位數回歸方法 貝葉斯方法6.模型檢驗各種檢驗準則:經濟意義檢驗:定性檢驗統計學檢驗:t檢驗、F檢驗、擬合優度檢驗計量經濟學檢驗:異方差、自相關、多重共線性等檢驗預測精度檢驗比較模型的標準算法模型交叉驗證(cross validation):拿一部分數據作為訓練集(training set),得到模型,再用另一部分數據(稱為測試集,tes
15、ting set)來看誤差是多少。有時需要進行k折交叉驗證(k-foldcross validation),即把數據分成k份,每次拿k-1份作為訓練集,用剩下的一份作為測試集,重復k次,得到k個誤差作出平均,以避免僅用一個測試集可能出現的偏差。顯然,交叉驗證的方法也適用于傳統模型之間或者在傳統模型和算法模型之間的比較。選擇模型不是最終目的,最終目的是解釋模型所產生的結果,而結果必須是應用領域的結果,必須有實際意義。僅僅用統計術語說某個模型較好、某個變量顯著之類的話是不夠的。例如,恩格爾定律、邊際消費傾向、庫茲涅茨倒U假說。7.結果分析8.撰寫論文(分析報告)論文:學校的要求,建模比賽、課堂作業
16、、統計建模比賽、畢業論文分析報告:企業的要求論文結構一、標題:寫出較確切的題目。二、摘要: 200300字,包括模型的主要特點、建模方法和主要結果。要求:既簡練又能說明整篇論文的內容。三、關鍵詞:要能體現在整篇論文中的地位及作用。一般3-5個。論文撰寫四、正文1問題提出,問題分析。2模型建立:(1)提出假設條件,明確概 念,引進參數;(2)模型構建;(3)模型求解。3計算方法設計和計算機實現。4主要的結論或發現。5結果分析與檢驗(非常重要,容易被忽視)。6討論模型的優缺點,結果的意義,不足與展望。論文撰寫五、參考文獻(權威性、準確性)六、附錄部分計算程序,框圖。各種求解演算過程,計算中間結果。
17、各種圖形、表格。其中統計建模比賽還需要提供數據包。數據包中應包括所收集、使用的數據,收集過程或數據出處,以及數據分析程序。統計建模范文:可參看獲獎論文杭州下沙新生代農民工生活滿意度調查三、常用統計建模軟件統計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些需要更多的實踐才能掌握。還有些是專門的軟件,只處理某一類統計問題。網上可以獲得的統計或者計量軟件起碼有多達幾百種。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。SPSS、EXCEL、SAS、Eviews、R語言、Matlab、Statistics,統計軟件統計軟件的種類很多。差異較大: 功能是否齊全? 價格是否便宜?是
18、否開源? 是否容易操作? 軟件是否太大? 是否專門性軟件?只處理某一類統計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。統計軟件Excel嚴格說來并不是統計軟件,但作為數據表格軟件,必然有一定統計計算功能。而且凡是有Microsoft Office 的 計 算 機 , 基 本 上 都 裝 有Excel。注意:有時在裝Office時沒有裝數據分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel 還算方便,但隨著問題的深入,Excel 就不那么“傻瓜”,需要使用函數,甚至根本沒有相應的方法了。統計軟件SPSS很受歡迎;容易操作;輸出漂亮;功能齊全;價格合
19、理;傻瓜化;它對于非專業統計工作者是很好的選擇。幫助功能很好。統計軟件SAS功能非常齊全(不如R齊全)的軟件;盡管價格相當不菲,許多公司,特別是美國制藥公司,還是因為其功能眾多和某些美國政府機構認可而使用;盡管現在已經盡量“傻瓜化”(遠不如SPSS“傻”),但仍然需要一定的訓練才可以進入。可以對它編程;幫助系統很差,查尋不易;對于基本統計課程則不那么方便。統計軟件S-plus這是R出現之前統計學家最喜愛的軟件;功能齊全;強大的編程功能,使得研究人員可以編制自己的程序來實現自己的理論和方法;目前正在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。統計軟件MATLAB這也是應用于各個領域的
20、以編程為主的軟件,在理工領域應用最廣泛。編程類似于S和R。但是統計方法不多。Statistics Toolbox統計工具箱Econometrics Toolbox-計量經濟學工具箱R免費,永遠正版R 資源公開(不是黑匣子)R可以在UNIX, Windows和Macos X上運行R 有優秀的內在幫助系統R有優秀的畫圖功能學生能夠輕松地轉到商業支持的 S-Plus程序(如果需要使用商業軟件)R語言有一個強大的,容易學習的語法,有許多內在的統計函數統計軟件R軟件通過用戶自編程序,R語言很容易延伸和擴大。它就是這樣成長的。R 是計算機編程語言,類似于UNIX語言,C語言,Pascal,Gauss語言等
21、。對于熟練的編程者, 它將覺得該語言比其他語言更熟悉。而對計算機初學者, 學習R語言使得學習下一步的其他編程不那么困難。那些傻瓜軟件(SAS,SPSS等)語言的語法則完全不同。R的優點R的缺點沒有商業支持 (但有網上支持);需要編程,不夠傻瓜;速度不如C+或FORTRAN其它統計軟件Eviews:用于處理回歸和時間序列的經濟類軟件Rats:專門處理時間序列數據Amos:結構模型Nlogit:離散選擇模型和受限因變量模型Stata:面板數據模型功能很強大Gauss:運算速度最快的計量經濟學軟件。計量經濟學大牛的最愛。FORTRAN:這是應用于各個領域的歷史很長的非常優秀的數學編程軟件,功能強大,
22、也有一定的統計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。軟件說明不要隨意貶低任何一款軟件,每一款軟件都有其強大之處!我到底該學什么軟件呢?糾結!傷其十指,不如斷其一指!四、統計建模大賽國家統計局組織,每年一次,命題作文。例如2013年參賽論文的主題是“環境” 。參賽者需結合自己的專業領域和研究方向為自己的參賽論文選取具體名稱。標題或者副標題中須帶有“環境”這一關鍵詞。選題可以是環境與經濟、生態、健康、疾病、交通、城市化、能源、氣候等諸多方面相關的問題。建議多關注一些更為實際、具體的問題,例如某市中水系統使用比例問題、出租車油改氣對于大氣環境的影響、食品安全、城市綠
23、化率、拼車問題、居民對環境的認知、疾病發生發展、亞健康狀態研究等。四、統計建模大賽由參賽者自行搜集數據,提出問題和假設條件,建立模型,運用統計分析方法和統計分析軟件進行模型求解,闡明主要結論及意義,并對結果進行分析與檢驗,討論模型的優缺點和改進方向。研究數據可以從相關專業網站上獲取,也可以根據提出的問題自行設計的問卷,進行現場抽樣調查等方法取得。參賽者須公開數據來源,提交原始數據包和數據分析程序。大賽要求參賽者提交承諾書,承諾參賽論文是所有參賽隊員共同參與原創的。要求參賽論文使用正版統計分析軟件。四、統計建模大賽要求完成一篇包括模型的假設、建立和求解、計算方法的設計及計算機實現、結果的分析和檢
24、驗、模型的改進等方面的論文(即答卷)。大賽評獎標準:選題的有效性假設的合理性建模的創造性結果的正確性文字表述的清晰程度參賽人員構成統計建模大賽要求以小組為單位, 每小組3人,要共同完成好統計的命 題作文,需要小組成員合理分工、密 切配合。典型的分工是: 數據收集和處理 統計分析方法和模型 論文寫 作,文筆較規范全國大學生統計建模比賽官方網站http:/ 一切根據數據。任何所采用的統計方法要說明條件和假定。任何輸出結果要有說明和解釋。數據準備基本數據:包括機動車(貨運,大客車、小轎車、農用車和工程車等)、非機動車(自行車、三輪車)、其他(如電動、加力自行車和機動三輪車,雖然可能非法)、殘疾人車、獸力車、行人等等;數據也應該包括事故等級,事故個數、死亡人數、財產損失、受傷人數等;肇事者的職業、年齡、駕齡、教育程度、是否酒后駕車(很重要!)、是否疲勞駕車、是否打手機、車速、路況(街道、普通公路、等級公路、高速公路)、事故時間段等等(這些都是交管部門的標準記錄)。數據應該覆蓋至少10年(最好有月度數據)。附加數據:各省市自治區的相應年份的經濟資料,包括各種道路的里程、各種機動車的保有數等。影響因素與變量選擇1.找出各種車輛的各種事故的概率(及影響因素)、這些事故數量的影響變量(比如年齡因素、是否喝酒、山區或鬧市區、時間段、何種道路、車輛種類,等等)。2.找
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉村振興戰略實施效果與優化策略
- 鄉村小規模學校建設的策略及實施路徑
- 2024年山東特殊教育職業學院招聘真題
- 信用期限管理制度
- 儲備糧資產管理制度
- 公司發展期管理制度
- 公司招商部管理制度
- 公司蓄電池管理制度
- 農藥回收點管理制度
- 辦公室8s管理制度
- 白酒寄售合同協議書范文模板
- 歷代中醫名人
- 垃圾滲濾液處理站運維及滲濾液處理投標方案(技術方案)
- 國家開放大學本科《商務英語4》一平臺機考真題及答案(第二套)
- JG-T 568-2019 高性能混凝土用骨料
- 變電站一鍵順控改造技術規范(試行)
- 光儲充一體化充電站設計方案
- JTT 854-2013 公路橋梁球型支座規格系列
- 《公路橋涵施工技術規范》JTGT3650-2020
- 2024年湖北省中考英語試題(附答案)
- 2023-2024學年廣東省深圳市龍崗區六年級下學期模擬數學試題含解析
評論
0/150
提交評論