基于回歸分析的人口預測_第1頁
基于回歸分析的人口預測_第2頁
基于回歸分析的人口預測_第3頁
基于回歸分析的人口預測_第4頁
基于回歸分析的人口預測_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、理學沈統計系課程實驗論文基于回歸分析的人口數量預測學號:2014962005姓名:李洋年級:2014級專業:統計學課程:回歸分析2016年6月19日指導教師:姜喜春完成日期:摘要I.刖H1第1章一元線性回歸21.1 指標的選擇21.2 樣本確定21.3 一元回歸分析31.3.1 繪制總人口與糧食產量的散點圖31.3.2 設定理論模型41.3.3 回歸診斷4第2章多元線性回歸51.1.1 數據中心化標準化51.2.1 多元回歸模型建立51.3.1 逐步回歸法61.4.1 多重共線性72.3.1多重共線性檢測82.4主成分分析92.4.1主成分分析模型建立9第3章非線性模型11曲線回歸11曲線擬合

2、11Logistic模型13結論15參考文獻16摘要回歸分析法是在掌握大量觀察數據的基礎上,利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式(稱回歸方程式)。同時依據事物發展變化的因果關系來預測事物未來的發展走勢,它是研究變量間相互關系的一種定量預測方法,又稱回歸模型預測法或因果法,應用于經濟預測、科技預測和企業人力資源的預測等。回歸分析可以說是統計學中內容最豐富、應用最廣泛的分支。這一點幾乎不帶夸張。包括最簡單的t檢驗、方差分析也都可以歸到線性回歸的類別。而卡方檢驗也完全可以用logistic回歸代替。眾多回歸的名稱張口即來的就有一大片,線性回歸、logistic回歸、cox回歸、

3、poission回歸、probit回歸等等。關鍵詞:線性回歸;非線性回歸;logistic回歸、兒刖百最早的形式回歸的方法是最小二乘法,這是在1805年出版的勒讓德,和高斯在1809年。勒讓德和高斯都采用的方法確定的問題,從天文觀測,有關Sun的機構(主要是彗星,但后來也新發現的小行星)的軌道。1821年,高斯發表最小二乘法理論的進一步發展,在包括高斯-馬爾可夫定理的一個版本。弗朗西斯高爾頓在十九世紀的“回歸”是杜撰來描述一種生物現象。這種現象是高度高大的祖先的后代往往倒退下來,對一個正常的平均水平(這種現象也被稱為向均值回歸)。對高爾頓,回歸只有這個生物意義,Udny圣誕節和皮爾遜但他的工作

4、,后來擴展到更一般的統計范圍內。在圣誕節和Pearson工作的響應和解釋變量的聯合分布被假定為高斯。這個假設RA費舍爾在1922年和1925年,他的作品被削弱。費舍爾認為的響應變量的條件分布為高斯分布,但聯合分布不一定要。在這方面,費舍爾的假設是高斯1821年制定的。在20世紀50年代和20世紀60年代,經濟學家舊機電臺計算器,計算回歸。1970年以前,有時長達24小時接收從一個回歸的結果。回歸方法繼續是一個活躍的研究領域。在最近的幾十年中,新的方法已經制定了穩健回歸,回歸涉及的相關反應,如時間序列曲線和增長曲線,回歸的預測或響應變量的曲線,圖片,圖表或其他復雜的數據對象,容納不同的回歸方法丟

5、失的數據,非參數回歸,貝葉斯方法進行回歸,回歸的預測變量的測量誤差,預測變量的觀測回歸,回歸和因果關系的推論與類型。第1章一元線性回歸指標的選擇影響人口增長的主要因素經濟因素,經濟因素對人口自然增長的作用主要表現在它決定了人口的增殖條件和生存條件,通過改變人口的出生率和死亡率來影響人口的自然增率。一般情況下,當人口數量不能滿足經濟發展對勞動力的需求時,人口自身的再生產必將會刺激;當人口數量超越了經濟發展所能提供的消費總數后,人口自身的再生產必將受到遏制。在現代生產力水平下,人口的自然增長率往往隨著經濟水平的提高而下降。經濟因素對人口機械增長也有重要影響。通常情況下,經濟發達或發展速度較快的地區

6、,對人口具有一種吸引力和凝聚力,人口機械增長為正值;相反,經濟落后或經濟發展速度緩慢的地區,對人口會產生一種排斥力和離散力,人口機械增長一般為負值。與此同時糧食產量、出生率、死亡率,也是影響人口增長的因素。符號說明:用Xi、X2、X3、X4表示糧食產量、GDP出生率、死亡率。y表示總人口。樣本確定通過查閱中國政府網,得到了1980年至I2014年各因素的數據。表1-1樣本數據年份糧食產量(萬噸)GDP(億元)出生率(%)死亡率(%)總人口(萬人)201460702.61635910.212.377.16P136782201360193.84588018.812.087.161360722012

7、58957.9753412312.17.15P135404201157120.85484123.511.937.14134735201054647.7140890311.97.11134091200953082.08345629.211.957.08133450200852870.92316751.712.147.06132802200750160.28268019.412.16.93P132129200649804.23217656.612.096.81131448200548402.19185895.812.46.51P130756200446946.95160714.412.296.42

8、129988200343069.53136564.612.416.4129227200245705.7512100212.866.41128453200145263.67110270.413.386.43127627200046217.5299776.314.036.45P126743199950838.5890187.714.646.46125786199851229.5384883.715.646.5P124761199749417.179429.516.576.51123626199650453.571572.316.986.56122389199546661.861129.817.12

9、6.57121121199444510.148459.617.76.49119850199345648.835524.318.096.64118517199244265.827068.318.246.64117171199143529.321895.519.686.7P115823199044624.318774.321.066.67114333198940754.917090.321.586.54112704198839408.115101.122.376.64111026198740297.712102.223.336.72109300198639151.210308.822.436.86

10、107507198537910.89039.921.046.78105851198440730.57226.319.96.82P104357198338727.55975.620.196.9103008198235450533322.286.6P1016541981325024898.120.916.36100072198032055.54551.618.216.3498705一元回歸分析定義1.1回歸分析(regressionanalysis)1確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種

11、回歸分析稱為一元線性回歸分析。繪制總人口與糧食產量的散點圖140000.00-130000M-1人口(萬人)izoDootxr11000000-10000000-9000000-T3000084000000500000060000.00雙擊以方活DDO.OO圖1-1糧食產量與總人口散點圖設定理論模型根據圖1-1隨著糧食產量的增加,總人口的數量增加,且各樣本點大致落在一條直線附近,故可以采用公式:y=?oX;(1-1)一元線性回歸理論模型,對數據進行一元回歸分析。回歸診斷表1-1模型摘要模型RR平方整彳爰R平方襟型偏斜度1.909a.826.8214985.99669a.值:(常數),糧食產量(

12、萬噸)根據表1-1模型摘要表可以看到,r=0.909,說明以糧食產量為唯一因變量與總人口的擬合程度很高。表1-2系數模型非襟型化彳系數襟型化彳系數TMI著性BBeta1(常酚53054.4045500.0139.646.000糧食產量(萬噸)1.468.117.90912.513.000a.鷹燮數:人口(萬人)根據表1-2系數表,將系數帶入公式(1-1)可得出回歸模型公式:y=53054.4041.468x用一元回歸模型對2014年的總人口進行預測,的到的預測值夕=142165.8355第2章多元線性回歸定義2.1在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸事實上,一種現象常常是

13、與多個因素相聯系的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際。數據中心化標準化數據中心化和標準化在回歸分析中的意義是取消由于量綱不同、自身變異或者數值相差較大所引起的誤差。Zx1|IZx2|Zx3|Zx4-,23311-714811.16627-J1643-76404-724001.29641-,61155-.94884-734851.49411-.23069-.82678-751201.73436.07400-.98409760991.50913.60719115429-767911.16127.30251-.76739-77780875

14、97.46485*104223-.78462.94855.75954*149194-.788131.47159-.33303*1.89644*790601.12873-1.2970919577179239.45304137326圖2-1標準化結果多元回歸模型建立多元回歸模型公式:yuB0x,:2乂2,.,:pXp;對數據進行多元回歸分析,結果如圖2.2表2-1模型摘要模型RR平方整彳爰R平方襟型偏斜度i.972a.944.9362967.56830a.值:(常數),死亡率(%,出生率(%,糧食產量(萬噸)GDP(億元)表2-2燮昊敷分析模型平方和df平均值平方F骸著9

15、8441112212310.996126.295.000b殘差264193847.616308806461.5874713043091.60034a.鷹燮數:人口(萬人)b.道剛值:(常數),死亡率(%,出生率(%,糧食產量(萬噸),GDP(億元)表2-3保數a模型1(常旭糧食產量(萬噸)GDP(億元)出生率(%死亡率(%非襟型化彳系數襟型化彳系數TMI著性BBeta124574.66721501.7295.794.0001.045.152.6476.893.000-.005.008-.078-.635.531-1460.798262.207-.496-5.571.000-4060.27236

16、49.700-.091-1.112.275a.鷹燮數:人口(萬人)根據表2-1可知R=0.972,擬合度高,所以能用該模型進行預測,同時模型的檢驗P值sig0.05,說明該模型顯著可信;根據表2-3得到多遠線性回歸方程:夕=124574.6671.045x10.005x21.460.798x34060.272x4同時,根據方程得到14年總人口預測值夕=138182.2403,與真實值相差e=1400.25403.逐步回歸法定義2.2逐步回歸法:逐步回歸的基本思想是有進有出。具體做法是將變量一個一個的引入,每引入一個變量后,對已引入變量進行逐個檢驗,當原引入變量因后引入變量變得不顯著時,對其進行

17、剔除,保證最后所得的回歸子集是最優回歸子集。根據圖2.2可知,變量GDP與死亡率未通過顯著性檢驗,因此采用逐步回歸的方法對方程進行優化。表2-4逐步回歸保數模型非襟型化彳系數襟型化彳系數TMI著性BBeta1(常/出生率(%165146.388-2687.9493543.313210.086-.91246.608-12.794.000.0002(常/108407.8058355.07212.975.000出生率(為-1534.270211.155-.521-7.266.000糧食產量(萬噸).816.116.5057.052.0003(常/134678.87814308.5429.412.00

18、0出生率(%-1366.202213.615-.464-6.396.000糧食產量(萬噸)1.012.141.6267.184.000死亡率(%-5681.5572580.897-.127-2.201.035a.鷹燮數:人口(萬人)根據圖表2-4,經過逐步回歸,剔除了GDP這一變量得到一個擬合度更好的方程:?=134678.8781012x1-1366.202x3-5681.55次4同時得到2014年總人口的預測值?=138506.21662與真實值相差e=172.21662對比一般多元回歸方法的出的模型預測值與運用了逐步回歸后的預測值,發現不用逐步回歸的預測值更接近真實值;其原因主要有三方面

19、:.我國的人口普查為10年一次,其數據主要也是通過預測的出,所以數據本身存在較大的誤差;.在實際問題中,自變量之間通常存在相關性,當相關程度嚴重時稱為多重共線性。自變量之間的多重共線性會對回歸產生極大的影響;.人口預測不適合采用線性多元回歸的方法進行預測。2.4多重共線性定義2.3多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精確相關關系或高度相關關系而使模型估計失真或難以估計準確。多重共線性產生原因:(1)經濟變量相關的共同趨勢;(2)滯后變量的引入;(3)樣本資料的限制。影響:(1)完全共線性下參數估計量不存在;(2)近似共線性下OLS估計量非有效

20、,多重共線性使參數估計值的方差增大,1/(1-r2)為方差膨脹因子(VarianceInflationFactor,VIF)如果方差膨脹因子值越大,說明共線性越強。相反因為,容許度是方差膨脹因子的倒數,所以,容許度越小,共線性越強。可以這樣記憶:容許度代表容許,也就是許可,如果,值越小,代表在數值上越不容許,就是越小,越不要。而共線性是一個負面指標,在分析中都是不希望它出現,將共線性和容許度聯系在一起,容許度越小,越不要,實際情況越不好,共線性這個“壞蛋”越強。進一步,方差膨脹因子因為是容許度倒數,所以反過來;(3)參數估計量經濟含義不合理;(4)變量的顯著性檢驗失去意義,可能將重要的解釋變量

21、排除在模型之外;(5)模型的預測功能失效。變大的方差容易使區間預測的“區間”變大,使預測失去意義。多重共線性檢測用SPSS22.0對數據進行多重共線性檢測表2-5共性模型雉度特徵值修件指數燮累敷比例(常/出生率(為糧食產量(萬噸)死亡率(%111.9721.000.01.012.0288.447.99.99212.9291.000.00.00.002.0686.557.00.18.063.00333.7981.00.81.94313.9271.000.00.00.00.002.0707.506.00.17.03.003.00336.436.15.79.74.034.00186.828.85.0

22、4.24.97a.鷹建數:人口(萬人)檢測結果表2-5顯示:(1)特征值有3個接近0,表明存在多重共線性;(2)條件指數有3個10,表明可能存在多重共線性;(3)在相關系數矩陣中,死亡率數值接近1可能存在多重共線性;表2-6排除共線性變量后的保數模型非襟型化彳系數襟型化彳系數TMI著性共性統言十資料BBeta允差VIF1(常酚165146.3883543.31346.608.000出生率(%-2687.949210.086-.912-12.794.0001.0001.0002(常酚108407.8058355.07212.975.000出生率(%-1534.270211.155-.521-7.

23、266.000.4002.502糧食產量(萬噸).816.116.5057.052.000.4002.5023(常酚134678.87814308.5429.412.000出生率(%-1366.202213.615-.464-6.396.000.3492.868糧食產量(萬噸)1.012.141.6267.184.000.2414.146死亡率(%-5681.5572580.897-.127-2.201.035.5531.808a.鷹燮數:人口(萬人)根據表2-6,剔除GDP這一變量后,其余變量的VIF全部小于10,排除變量問存在多重共線性的原因,不需要再次剔除變量。得到剔除共線性后的多元線性

24、回歸方程:134678.8781.012x1-1366.202x3-5681.557x42.4主成分分析定義2.4主成分分析(PrincipalComponentAnalysis,PCA),是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。主成分分析首先是由K.皮爾森對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。主成分分析的主要原理是尋找一個適當的線性變換:(1

25、)將彼此相關的變量轉變為彼此獨立的新變量;(2)方差較大的幾個新變量就能綜合反應原多個變量所包含的主要信息;(3)新變量各自帶有獨特的專業含義。住成分分析的作用是:(1)減少指標變量的個數;(2)決多重相關性問題2.4.1主成分分析模型建立運用SPSS22.0對數據進行主成分分析表2-7各變量所占權重元件起始特徵值攝取平方和載入燮昊的%累加%燮昊的%累加%13.04076.00476.0043.04076.00476.0042.72718.17694.1793.1523.79397.9724.0812.028100.000擷取方法:主元件分析。根據主成分分析結果可以看出前兩個變量所占比重最多,

26、二者的和所占比例為948%,所以可以采用前兩個變量建立回歸模型。表2-8回歸保數模型非襟型化彳系數襟型化彳系數TMI著性BBeta1(常酚53075.7119733.1915.453.000糧食產量(萬噸)1.468.235.9086.252.000GDP(億元)2.494E-5.009.000.003.998a.鷹燮數:人口(萬人)根據表2-8,得到回歸方程:?-53075.7111.468x12.494*10Jx2根據回歸方程預測出2014年人口p=142180.52727萬人。因為:.主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維后的信息量須保

27、持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。.主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小于原始變量個數p(除非p本身較小),否則維數降低的利”可能抵不過主成分含義不如原始變量清楚的弊”。所以預測的結果出現了更大的誤差130000.00-1ZOOM.OCTIIOOOOOG-iQOWOOC-*0000.00-第3章非線性模型3.1曲線回歸定義3.1非線性回歸是在掌握大量觀察數據的基礎上,利用數理統計方法建立因變量與自

28、變量之間的回歸關系函數表達式(稱回歸方程式)。回歸分析中,當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。確定兩個變數間數量變化的某種特定的規則或規律;估計表示該種曲線關系特點的一些重要參數,如回歸參數、極大值、極小值和漸近值等;為生產預測或試驗控制進行內插,或在論據充足時作出理論上的外推。3.1.1曲線擬合對國內總人口的擬合,選取總人口指標為因變量,單位為萬人,擬合總人口關于時間t的趨勢曲線。以1980年為基準年,取值為t=1,2014年t=35。繪制總人口與變量t的散點圖,如圖3-1所示。14000000-

29、圖3-1總人口對t的散點圖從散點圖可以看到,總人口大致符合三次函數形式,當人口的增長速度大致相同時,其趨勢線就是三次函數形式。:反Mhmift,修口型通過觀察圖3-2,發現三次曲線模型擬合度最好,其次為線性和復合模型,故根據公式:y=b0btb2t233建立三次曲線模型。表3-1模型摘要RR平方整彳爰R平方襟型偏斜度1.000.999.999365.498自燮時間表3-2燮昊數分析平方和df平均值平方F骸著性帚4708901835.39031569633945.13011749.732.000殘差4141256.21031133588.9104713043091.60034自燮時間表3-3三次

30、曲線系數非襟型化彳系數襟型化彳系數TMI著性BBeta時間1849.09465.5011.60928.230.000時間*2-17.6834.196-.571-4.214.000時間*3-.070.077-.076-.908.371(常知96103.588276.157348.004.000根據圖表3-1,得到三次函數模型的R=1.000,說明擬合程度非常好;同時根據表3-2可知,方程整體都通過了顯著性檢驗;根據表3-3可知,不但方程整體通過了顯著性檢驗,每個不同次幕的t也經過了顯著性檢驗,所以建立的三次方程式完全符合實際情況的。根據第三個表建立出三次函數方程:1849.094-17.683t

31、2-0.077t3同時得出2014年預測值?=136174.94841萬人,預測值與真實值相差e=607.0516萬人。預測值與真實值相差程度遠小于運用線性多元回歸方法、逐步回歸法和主成分分析后的預測值與真實值之間的差異,進一步證明建立的三次函數模型符合實際情況。3.2Logistic模型Logistic模型增長公式為:Pt=Pm.1(1eabt)其中Pt為時刻的人口總數,Pm為人口極限規模,e為自然對數的底,t為時刻長度,a、b為待定參數。Logistic模型考慮到人口總數增長的有限性,提出了人口總數增長的規律即隨著人口總數的增長,人口增長率逐漸下降,但對于在短期內如30-50年內人口增長可

32、能呈上升趨勢如人口生育率上升、死亡率下降等原因而導致人口呈上升趨勢。Logistic模型在應用中對時間長,人口數據變化大,因此誤差較大且不穩定。而小城鎮人口的變化就存在人口數據變化較大的特點,所以Logistic模型對小城鎮人口的預測并不適合。用對人口進行Logistic曲線擬合,運用命令:x=20142013201220112010200920082007200620052004200320022001200019991998199719961995199419931992199119901989198819871986198519841983198219811980y=1367821360

33、7213540413473513409113345013280213212913144813075612998812922712845312762712674312578612476112362612238912112111985011851711717111582311433311270411102610930010750710585110435710300810165410007298705x=x;y=y;st_=20001276271;(在x,y內任意取的數)ft_=fittype(a/(1+b*exp(-k*(x-1980),.dependent,y,independent,x,.co

34、efficients,a,b,k);cf_=fit(x,y,ft_,Startpoint,st_)最后運行出的結果:cf_=Generalmodel:cf_(x)=a/(1+b*exp(-k*(x-1980)Coefficients(with95%confidencebounds):a=1.217e+005(1.144e+005,1.29e+005)b=1.176e+005(-4.741e+009,4.742e+009)k=13.21(-4.032e+004,4.035e+004)根據運行結果,得到Logistic擬合方程:o1.217e005?二11.176e005*exp(-13.21*(x-1980)其中a為人口上線的估計值,因為在1995年人口的實際值就已經超過了預測上限,所以該模型不是和用于預測未來的人口。造成模型不準確的原因主要是數據過少,且人口數據多數來自抽樣調查,數據本身存在一定誤差。結論通過不同的模型建立方法對獲得的人口數據建立了多個不同的預測模型;經過對比發現三次曲線模型是最符合實際運用的;導致其他模型不適用的原因主要為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論