數據挖掘與分析作業章晶晶51092907020_第1頁
數據挖掘與分析作業章晶晶51092907020_第2頁
數據挖掘與分析作業章晶晶51092907020_第3頁
數據挖掘與分析作業章晶晶51092907020_第4頁
數據挖掘與分析作業章晶晶51092907020_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘與分析作業中國交通運輸與經濟發展聯系社會學研究生 章晶晶(51092907020)前言選擇此份數據是因為:1、文件夾中的部分數據沒有題項名稱,解釋困難;2、有的數據已經有同學選擇;3、本份數據主要是連續變量,有利于用多種分析方法解釋之。聲明本人在制作本作業之前曾參考同學已完成作業之樣式,特別鳴謝吳志恒等同學。一、數據概況本份數據主要包括1980-2002年交通運輸長度,貨運運輸量和客運運輸量三個數據文件。經過合并,形成交通與經濟發展數據主要包含了16個變量,包括年份、鐵路(長度、客運、貨運)公路(長度、客運、貨運)、水運(長度、客運、貨運)、民航(長度、貨運)以及交通投入、當年GDP總

2、量、貨運、客運總計(皆為連續變量)。在挖掘、分析數據之前,首先要確立需要思考的問題:1、 歷年來交通事業發展的概況;2、 交通投入與GDP增長之間的關系;原假設:無顯著相關3、 對GDP增長而言,哪幾類交通發展與之相關性較大; 在數據中,我們遇到的第一個問題就是“缺失值”的情況。因為各種原因,本數據的部分年數情況不明。對于數據,為分析需要,首先處理中間的缺失值,對末尾的缺失值不做處理。變量缺失年份替換方法交通投入1991臨近點的中位數公路貨運1989臨近點的中位數民航貨運1989臨近點的中位數水運貨運1989臨近點的中位數二、交通事業發展的各階段聚類的方法 根據交通長度、貨運、客運三方面的數據

3、,采用系統聚類分析。 步驟(分析分類系統聚類,勾選樹狀圖)如下: 按“確定”后,得到以下圖形: 注:由于數據缺失,只是歸類到1999年 按照解釋需要,我們將其歸類為三個類別,第一類別為19811983年;第二類別為19841992年;第三類別為19931999年。這反映了交通發展的三個階段。 通過excel制圖得到圖一,觀測數據。 圖1:19812002國民生產總值增長的三階段通過交通事業發展的三階段和GDP增長的三階段,我們試圖發展交通發展與國民經濟發展之間的關聯程度。三、交通事業發展指標與國民經濟的發展關系初探多重線性回歸交通事業發展衡量的數據有很多,我們選擇交通投入、貨運總量和客運總量三

4、項指標來討論與當年GDP之間的關系。 在此之前,先討論幾個變量之間的相關性:步驟(圖形舊對話框散點圖矩陣分布) 得到散點圖:由上圖可以看出,當年GDP總量與交通投入、貨運總量和客運總量有較強的關系。擬合多重線性回歸模型。步驟(分析回歸線性)ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression2.048E1036.827E9693.754.000aResidual1.673E8179840793.091Total2.065E1020a. Predictors: (Constant), 客運總計, 貨運總計, MEDIAN(交通投入,2)b.

5、 Dependent Variable: gdp 可以從上表看出:F=693.754;sig<0.001<0.05,說明至少一個自變量的回歸系數不為0,所建立的回歸模型是具有統計學意義的。 在修正客運總計(sig=0.661>0.05)的相關性之后得到下表:CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-8397.0315789.996-1.450.163MEDIAN(交通投入,2)16.0301.131.87014.16

6、9.000貨運總計.016.007.1362.214.039a. Dependent Variable: gdp 因此,我們將模型公式寫作:Y=-8397.031+16.03*交通投入+0.016*貨運總計附:交通事業發展指標與國民經濟的發展關系進一步假設本文討論,在多重線性回歸之后,我們是否可以嘗試進一步深入建立模型,是否可以按照前年交通指標來預測經濟發展速度?可惜筆者嘗試logistic回歸以及多重線性回歸未曾成功做得。只能將前期數據轉換交代如下:首先處理數據本身。第一步是計算出GDP年增長率。1、步驟(轉換計算變量)得到新變量“增長率”檢驗其分布是否為正態分布(用QQ圖初步觀測)通過非參數檢驗中的k-s分布檢驗,得到下圖One-Sample Kolmogorov-Smirnov TestGDP增長率N21Normal Parametersa,bMean.1580Std. Deviation.08807Most Extreme DifferencesAbsolute.137Positive.137Negative-.086Kolmogorov-Smirnov Z.627Asymp. Sig. (2-tailed).826a. Test distribution

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論