基于spss的多元回歸分析模型選取的研究畢業論文_第1頁
基于spss的多元回歸分析模型選取的研究畢業論文_第2頁
基于spss的多元回歸分析模型選取的研究畢業論文_第3頁
基于spss的多元回歸分析模型選取的研究畢業論文_第4頁
基于spss的多元回歸分析模型選取的研究畢業論文_第5頁
已閱讀5頁,還剩27頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 PAGE31 / NUMPAGES32 畢 業 論 文題 目 基于SPSS的多元回歸分析模型選取的研究基于SPSS的多元回歸分析模型選取的研究摘 要 本文不僅對于復雜的統計計算通過常用的計算機應用軟件SPSS來實現,同時通過對兩組數據的實證分析,來研究統計學中多元回歸分析中的變量選取,讓大家對統計學中的多元回歸分析中模型的選取以與變量的選取和操作方法有更深層次的了解. 一組數據是對于淘寶交易額的未來發展趨勢的研究,一組數據時對于我國財政收入的研究. 本文通過兩個實證淘寶交易額研究和財政收入研究從不同程度上對非線性回歸模型和變量選取的研究運用通俗的語言和淺顯的描述將SPSS在多元回歸分析中的統

2、計分析方法呈現在大家面前,讓大家對多元回歸分析以與SPSS軟件都可以有更深一步的了解. 通過SPSS軟件對數據進行分析,對數據進行處理的方法進行總結,找出SPSS對于數據處理和分析的優缺點,最后得在對變量的選取和軟件的操作提出建議. 關鍵詞:統計學,SPSS,變量的選取,多元回歸分析 AbstractThis article not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical ana

3、lysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody in the multiple regression analysis of statistical model selection as well as the selection of variables and operation methods have a deeper understanding

4、. Is a set of data for the future development trend of research taobao transactions, a set of data for the research of our countrys fiscal revenue. In this paper, through two empirical taobao transactions and fiscal revenue research from different degree of the study of nonlinear regression model an

5、d variable selection using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through SPSS software to analyze data, and summ

6、arizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis, finally had to put forward the proposal to the operation of the selection of variables and software. Keywords: Statistical, SPSS, The selection of variables, multiple regression anal

7、ysis 目錄摘要1Abstract1引言3第一章多元回歸模型的選取41.1 回歸分析的概述41.1.1 回歸分析的概念與主要容41.1.2 回歸分析研究的問題與應用51.2 相關系數的概述51.3 非線性回歸模型的概述61.4 多元線性回歸模型自變量的選擇6第二章非線性回歸模型案例:淘寶交易額模型的研究72.1 回歸模型變量的確定72.1.1 數據的來源72.1.2 復相關系數82.1.3 散點圖看線性關系92.1.4 回歸分析看擬合度122.1.5 確定回歸模型變量122.2 調整后的變量的相關分析122.2.1散點圖122.2.2 計算相關系數142.3 多元線性回歸分析172.4 小結

8、18第三章變量選取案例:財政收入模型的研究193.1 數據的來源與變量的選取193.2相關分析203.2.1散點圖203.2.2 計算相關系數223.3 回歸分析253.4 逐步回歸263.5 小結28第四章總結28參考文獻30引 言隨著社會的發展,統計的運用圍越來越廣泛,統計學作為高等院校經濟類專業和工商管理類專業的核心課程,不管是在經濟管理領域,或是在軍事、醫學等領域的研究中對于數量分析與統計分析都需要更高的要求,需要用到的數學知識較多,應用方面的靈活性也較強,計算量大且復雜.然而科學研究的深入,研究的對象也日益變得復雜,復雜系統的研究問題更是成為當今研究的熱點. 為了更好的描述一個復雜的

9、現象,就需要大量的數據和信息,如何高效、準確地利用已知的信息便成為當今社會研究的一項重要課題. 在科學技術飛速發展的今天,統計學通過不斷吸收和融合相關學科的新理論,開發應用新技術和新方法,拓展新的領域的同時不斷深化和豐富了統計學傳統領域的理論與方法. 在我國,社會主義市場經濟體制的逐步建立,實踐發展的需要對統計學提出了新的更多、更高的要求. 隨著我國社會主義市場經濟的成長和不斷完善,統計學的潛在功能將得到更充分更完滿的開掘. 從20世紀60年代開始,關于回歸自變量的選擇成為統計學中研究的熱點問題,統計學家提出了許多回歸選元的準則,并提出了許多行之有效的選元方法. 在應用回歸分析去處理實際問題時

10、,回歸自變量選擇是首先要解決的重要問題. 通常在做回歸分析時,人們根據所研究問題的目的,結合經濟理論羅列出對因變量可能有影響的的一些因素作為自變量引進回歸模型,把一些對因變量影響很小的,有些甚至是沒有影響的自變量,不但使得計算量變大,估計和預測的精度也下降了. 此外,如果遺漏了某些重要變量,回歸方程的效果肯定不好. SPSS軟件作為當今國際上運用廣泛的統計分析軟件,其功能齊全帶有各種特點,在各個領域都得到了迅速普與,并成為各個行業提高管理水平、形成科學決策的重要手段. 然而,我國對于該軟件的運用和理解始終處于早期應用階段,無論是在功能的研究開發還是實際生活當中的運用都與西方發達國家相差甚遠.

11、尤其是在管理決策方面,都因為沒有進行深度分析而造成了浪費,要么就是利用SPSS軟件進行簡單分析而未進行深度開發,導致所得的信息有限、各信息間的關系不明確,最終導致管理者的判斷出現偏差.基于以上背景,本文通過總結和吸取其他國外學者對統計學研究的,并結合我國的實際情況,本文采用了案例一對于網絡購物這塊的的研究,通過對2005年到2012年的居民消費水平,以與我國網絡普與度,我國人人均純收入以與我國的居民消費水平對淘寶網的未來發展趨勢進行非線性回歸模型的研究以與案例二對于我國財政收入的進行變量選取研究,通過對1992年到2012年的人均國生產總值,城鎮居民家庭人均可支配收入,全社會固定投資,進出口總

12、額,居民消費價格水平對我國財政收入的影響進行定量數據的研究. 通過對數據的選取,回歸模型的確定以與軟件的操作方法來告知讀者如何在SPSS的操作中變量選取的原則、要求和方法. 多元回歸模型的選取1.1 回歸分析的概述1.1.1回歸分析的概念與主要容回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法(即尋找具有相關關系的變量減的數學表達式并進行統計推斷的一種統計方法). 1)運用十分廣泛,按照其所涉與的自變量,可分為一元回歸分析和多元回歸分析;2)線性回歸分析和HYPERLINK :/baike.baidu /view/1159484.htm非線性回歸分析是按照自變量和因變量之

13、間的關系劃分的.一元線性回歸分析是指一個自變量與一個因變量之間的線性關系可以用一條近似直線來表示. 而本文運用了多元線性回歸分析中的方法,HYPERLINK :/baike.baidu /view/1380349.htm多元線性回歸分析就是指回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是HYPERLINK :/baike.baidu /view/91595.htm線性關系. 多元回歸分析的主要容為:1)從一組數據出發,確定某些變量之間的定量關系式,即建立HYPERLINK :/baike.baidu /view/76167.htm數學模型并估計其中的未知參數. 估計參數的常用方法

14、是HYPERLINK :/baike.baidu /view/139822.htm最小二乘法. 2)對這些關系式的可信程度進行檢驗. 3)在許多自變量共同影響著一個因變量的關系中,判斷哪些自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸等方法. 4)利用所求的關系式對某一生產過程進行預測或控制. 在回歸分析中,把變量分為兩類. 因變量和自變量,因變量是實際問題中所關心的一類指標,通常用表示;而影響因變量取值的變量叫自變量,常用來表示. 1.1.2回歸分析研究的主要問題與應用回歸分析研究的主要有如下四個問題:(1)確定與間的定

15、量關系表達式,這種表達式稱為回歸方程;(2)對求得的回歸方程的可信度進行檢驗;(3)判斷自變量對因變量有無影響;(4)利用所求得的回歸方程進行預測和控制.回歸分析主要應用于研究兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,通過分析現象之間相關的具體形式,確定其因果關系,并用HYPERLINK :/baike.baidu /view/76167.htm數學模型來表現其具體關系,并根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變量作進一步預測.1.2 相關系數的概述相關關系是一種非確定性的關系,相關系數是研究變量之間線性相

16、關程度的量. 相關關系是現象間客觀存在的,但數值又是不嚴格與不完全確定的相互依存關系. 1)復相關系數 在一元回歸分析中我們用相關系數來說明兩變量之間線性相關的程度,在多元回歸分析中,仍用它來表示與其他自變量之間的線性密切程度,此為復相關系數. 復相關是指因變量與多個自變量之間的相關關系. 復相關系數只是反映變量間表面的非本質的聯系,因為變量很有可能受到其他變量的影響. 2)偏相關系數在多變量的情況下,變量之間的相關系數是相當復雜的. 任意兩個變量之間都有可能存在著相關關系,因此,只知道被解釋變量與解釋變量的總的相關程度是不夠的. 如果需要了解某兩個變量間的相關程度,就應在消除其他變量影響的情

17、況下來計算他們的相關系數,這就是偏相關系數. 偏相關系數與復相關系數不同,復相關系數的取值在0-1之間,而偏相關系數則是有正有負,所以復相關系數與偏相關系數之間也有可能相差很大. 變量之間本存在錯綜復雜的關系,甚至可能使得符號也相反,但是偏相關系數才是變現變量之間的本質聯系的. 偏相關的主要用途:偏相關主要是用來研究自變量與因變量之間的關系的,其通過得到的自變量與因變量數據來進行計算,通過偏相關系數可以看出哪些自變量對因變量的影響更大一些,同時對于偏相關系數較小的變量,可以剔除. 1.3 非線性回歸模型的概述非線性回歸模型是指在眾多的現象中,分析變量之間的關系時不符合解釋變量線性和參數線性的一

18、種模型.在實際的經濟活動中,經濟變量的關系是相當復雜的,直接表示為線性關系的情況也并不多見.但大多數的非線性關系是可以通過一些簡單的數學處理,使之轉化為線性關系,從而通過線性回歸來進行計算.而非線性回歸模型又分為可化為線性模型的非線性回歸模型和不可化為線性模型的非線性回歸模型.本文研究的是可轉化為線性模型的非線性回歸模型,而可轉化為線性模型的非線性回歸模型又有好幾種方法可以對變量進行轉換.其有以下幾種模型:多項式函數模型對于形如: ,的模型為多項式模型.令 ,原模型可化為線性形式 ,那么就可以用多元線性回歸分析的方法進行處理了.指數函數模型對于形如: ,的模型為指數函數模型. 令 ,原模型可化

19、為線性形式 ,那么就可以用多元線性回歸分析的方法進行處理了.雙曲線模型;半對數模型和雙對數模型等.本文將對指數函數型非線性模型進行案例說明,所以對于其他類型的非線性回歸模型的道理是一致的,在這里就不進行一一解釋.1.4 多元線性回歸模型自變量的選擇在多元線性回歸模型中自變量的選擇實質上就是模型的選擇. 現設一切可供選擇的變量是個 ,它們組成的回歸模型稱為全模型(記:),在獲得組觀測數據后,我們有模型: , 其中:是的觀測值,是未知參數向量,是結構矩陣,并假定的秩為. 現從這個變量中選變量,不妨設,那么對全模型中的參數和結構矩陣可作如下的分塊(記:): , .我們稱下面的回歸模型為選模型: ,其

20、中:是的觀測值,是未知參數向量, 是結構矩陣,并假定的秩為.自變量的選擇可以看成是這樣的兩個問題,一是究竟是用全模型還是用選模型,二是若用選模型,則究竟應包含多少變量最適合. 然而自變量的選擇與相關系數,回歸分析都有密切的關系,自變量的選擇需要通過一系列的驗證,剔除之后才能得到最好的變量從而得到最好的回歸模型. 下面我們用兩個案例來對多元回歸模型的選取來進行解釋和探討.非線性回歸模型案例:淘寶交易額研究2.1 回歸模型變量的確定 2.1.1數據的來源 為研究淘寶網未來發展趨勢,從新浪官方微博淘寶數據魔方中獲得淘寶2009年聚劃算中購物群眾的年齡比例作為定性數據,進行研究年齡對淘寶購物的影響.

21、并在新浪財經網上獲得淘寶網自2003年到2012年的淘寶交易額以與淘寶注冊人數的數據. 在中商情報局里獲得我國近網絡普與度等數據并從國家統計年鑒中選取統計指標居民消費水平. 淘寶注冊人數()在一定程度上反應了網絡購物的群眾的人數,反應了當今社會網絡購物的普遍性. 同時淘寶的注冊人數也展現了人們對網絡購物的認可度,換言之也就是說接受了網絡購物并會在網上進行消費,是對網絡購物很大程度上的支持. 我國網絡普與度()是指我國近幾年網絡在我國普與的圍,這一塊更好的反映了網絡對居民網絡消費的影響,因為網絡是網絡消費的必要條件. 我國網絡普與度反映的是在我國日趨發展的經濟下,人們對網絡的接受程以與信任程度也

22、是直接影響到淘寶的網絡購物. 居民消費水平()主要通過消費的物質產品和勞務的數量和質量來反映. 居民消費水平的提高也能很好的展現在網絡消費上作出的貢獻. 第二產業增加值()是指采礦業,制造業,電力、煤氣與水的生產和供應業,建筑業. 而制造業的發展也相繼影響著產品的銷售,所以在這里采用第二產業對淘寶交易額的影響. 通過對以上這三個定量數據的研究來其與淘寶交易額的關系,從而研究淘寶未來的發展趨勢以與優劣態. 原始數據如下:表2.1為消除數據之間因單位不同產生的量綱的影響,對數據進行標準化得如下數據得到表2.2:表2.22.1.2 復相關系數對表2.2 的數據進行復相關系數的研究,看變量之間的復相關

23、關系,得到如下表2.3的復相關系數表: 表2.3解析:表2.3中有帶“*”號的結果表明有關的兩變量在0.01的顯著性水平下顯著相關,由上圖可知,與的相關系數為0.9870,表示變量之間存在線性關系,其相關系數檢驗對應的概率P值為0.000,低于顯著性水平0.05,說明淘寶交易額與淘寶注冊人數之間相關性顯著. 與的相關系數為0.9230,表示變量之間存在線性關系,其對應值為0.000,小于顯著性水平0.05,說明淘寶交易額與我國網絡普與度之間相關性顯著.與的相關系數為0.9630,表示變量之間存在線性關系,其對應值為0.000,小于顯著性水平0.05,說明淘寶交易額與居民消費水平之間相關性顯著.

24、 與的相關系數為0.9190,表示變量之間存在線性關系,其對應P值為0.000,小于顯著性水平0.05,說明我國第二產業增加值與居民消費水平之間相關性顯著. 綜上所述通過SPSS得出的相關系數的矩陣得到為:0.987 ,0.923,0.963 ,0.919 . 雖然變量都通過了檢驗,但是可以看到和較另外兩個復相關系數較低,因此對變量進行散點圖的分析來了解自變量與因變量的相關關系.2.1.3 散點圖看線性關系對與各個變量作出散點圖 (1)淘寶注冊人數與淘寶網交易總額的相關性散點圖:圖2.1 (2)網絡普與度與淘寶網交易總額的散點圖:圖2.2 (3)我國居民消費水平與淘寶交易額的散點圖:圖2.3

25、(4)第二產業增加值對淘寶交易額的散點圖:圖2.4解析:圖2.2和2.4分別是自變量和與因變量的相關系數圖,可以看出自變量和因變量之間呈明顯的指數線性關系,而變量也是同樣與因變量之間呈明顯的指數線性關系.他們之間是非線性回歸模型的關系. 所擬合的效果不理想所以我們還需要對數據進行進一步的處理和分析,得到確切的答案. 2.1.4 回歸分析看擬合度對數據進行回歸分析:表2.4 解析:表2.4是自變量與因變量得到的回歸分析,可知,因變量與常數項和自變量,的回歸的標準化回歸系數分別為0.01,0.660,-0.229,1.439,-0.899.而通過檢驗可以看到由上表2.4可以看出常數項以與各自變量的

26、值分別為:0.906,0.000,0.018,0.000與0.000. 可以看出原始變量所得到的值并沒有全部通過檢驗. 說明常數項對因變量影響不顯著.對數據進行值檢驗,在給定的,自由度的臨界值時,查表得2.262,其常數項的值為0.123小于2.262,說明常數項不顯著. 綜上所述,可以初步得到一個模型為: . 2.1.5確定回歸模型變量 綜上通過散點圖、復相關系數以與回歸分析可以知道由于自變量和與因變量之間是非線性關系,是呈指數線性關系為研究之間線性關系,所以得到的模型的擬合程度并不是很理想.因此對自變量和進行取的對數即和來對變量進行研究看擬合效果得到下表.表2.5解析:下面對表2.5進行變

27、量分析與研究,通過對非線性模型中的變量的研究來了解多元回歸分析中變量的選取與使用,同時對自變量進一步進行分析.2.2 調整后變量的相關分析2.2.1散點圖對與各個變量作出散點圖 (1)淘寶注冊人數與淘寶網交易總額的相關性散點圖:圖2.5 (2)的網絡普與度次方與淘寶網交易總額的相關性檢驗:圖2.6 (3)我國居民消費水平與淘寶交易額的相關性檢驗:圖2.7 (4)的第二產業增加值的次方對淘寶交易額的影響:圖2.8解析:由以上四個散點圖可知,其所有的點均落在了左上至右下的一條直線上,表明了數據之間存在顯著相關關系. 所以我們還需要對數據進行進一步的分析,得到確切的答案. 2.2.2 計算相關系數(

28、1)復相關系數是用來衡量回歸直線對于觀察值配合的密切程度,即用來衡量因變量與自變量,之間相關的密切程度. 以下是用SPSS對數據進行相關性分析,得到如下的相關系數圖表2.6解析:圖中有帶“*”號的結果表明有關的兩變量在0.01的顯著性水平下顯著相關,由上圖可知,與的相關系數為0.9870,表示變量之間存在線性關系,其相關系數檢驗對應的概率P值為0.000,低于顯著性水平0.05,說明淘寶交易額與淘寶注冊人數之間相關性顯著. 與的相關系數為0.9790,表示變量之間存在線性關系,其對應P值為0.000,小于顯著性水平0.05,說明淘寶交易額與我國網絡普與度之間相關性顯著.與的相關系數為0.963

29、0,表示變量之間存在線性關系,其對應P值為0.000,小于顯著性水平0.05,說明淘寶交易額與居民消費水平之間相關性顯著. 與的相關系數為0.9970,表示變量之間存在線性關系,其對應P值為0.000,小于顯著性水平0.05,說明我國第二產業增加值與居民消費水平之間相關性顯著. 綜上所述通過SPSS得出的相關系數的矩陣得到為:0.987 ,0.979 ,0.963 ,0.997 . 由以上數據可以看出,各列之間存在正相關關系. 即淘寶網注冊人數、的我國網絡普與度、我國居民消費水平、的我國第二產業增加值次方與淘寶交易總額存在顯著的相關關系. 計算偏相關系數:下面是用SPSS作出的偏相關系數:除我

30、國網絡普與度、第二產業增加值和居民消費水平的影響后,計算淘寶注冊人數與淘寶交易額的偏相關系數為:表2.7解析:由上可知,淘寶注冊人數與淘寶交易額的偏相關系數為0.795. 消除淘寶交易額、第二產業增加值和居民消費水平的影響后,我國網絡普與度和淘寶交易額的偏相關系數為:表2.8解析:由上可知我國網絡普與度與淘寶交易額的偏相關系數為0.733. 消除淘寶注冊人數、第二產業增加值和我國網絡普與度的影響后,我國居民消費水平和淘寶交易額的偏相關系數:表2.9解析:由上可知,我國居民消費水平和淘寶交易額的偏相關系數為-0.932. 消除淘寶注冊人數、我國網絡普與度和居民消費水平的影響后,計算第二產業增加值

31、與淘寶交易額的偏相關系數:表2.10解析:由上可知,的第二產業增加值次方與淘寶交易額的偏相關系數為0.946. 下表為各個變量之間的偏相關系數表,為方便,這里直接變各變量之間的偏相關系數:表2.11解析:這里我們對變量和采用的是其指數冪,是因為在對變量的相關性進行檢驗時,通過散點圖可以看出和與因變量之間呈的是指數線性關系,是非線性關系所以對數據進行了處理,因為原始變量之間存在的非線性關系得出的結果不具有代表性. 可以通過散點圖看到從以上的偏相關系數來看,如果,和保持不變,與之間存在相關關系,當,和的保持不變時,和之間存在相關關系,其他關系同上,在這里就不進行一一解釋.我們也可以通過以上的偏相關

32、系數表可以看出各個自變量之間也存在一定的偏相關關系,但是相對于自變量與因變量之間的偏相關關系較小,說明這些變量之間的選擇比較顯著.但是其關系強度較前者略低,所以經過以上系數得到的偏相關系數可以看出,其相關程度較原關系的強度低,應采用原數據的自變量和因變量. 即所采用的自變量和因變量保持不變.通過復相關系數的計算和偏相關系數的計算結果可以看出,復相關系數的取值在0-1之間,偏相關系數的取值在-1到1之間,由上數據便可看出偏相關系數與復相關系數之間的差距相差甚大,有的甚至改變了符號. 從上可以看出通過復相關系數不能很好的確定變量之間的相關關系,不能明確的解釋變量,而偏回歸系數可以看出變量是否符合要

33、求. 從下面的回歸分析中繼續對變量進行研究.2.3 多元線性回歸分析對數據進行回歸分析,得到如下結果:表2.12解析:復相關系數為1,判定系數為0.999,調整系數為0.999,估計值的標準誤差為0.03296.表2.13解析:由上面結果的看其顯著性檢驗結果為,回歸平方和為9.993,殘差平方和0.007,總平方和10.000,統計量的值為2.299E3,對應的概率值為0.000,小于顯著性水平0.05,即:淘寶交易總額與淘寶網注冊人數、的我國網絡普與度次方、我國居民消費水平和的我國第二產業增加值次方之間存在線性關系,所以可認為所建立的回歸方程有效. 表2.14解析:由上表可知,因變量與常數項

34、和自變量,的回歸的標準化回歸系數分別為-1.119,0.244,0.107,-0.321,0.615. 3個回歸系數的顯著性水平均小于0.05,這里可以認為自變量,對因變量有顯著性影響. 于是得到回歸方程為: ,由上圖可知對數據進行值檢驗,在給定的,自由度的臨界值時,查表得2.262,因為,,的參數對應的統計量的絕對值均大于2.262,這說明的顯著性水平下,斜率系數均顯著不為0,表明淘寶網注冊人數,的我國網絡普與度次方,我國居民消費水平,的我國第二產業增加值次方等變量聯合起來對該商品的消費支出有顯著的影響. P檢驗:由上表可以看出各自變量以與常數項的P值分別為:0.00,0.018,0.039

35、,0.001與0.000,可以看出其P值均小于0.05,均通過檢驗 綜上所述,四個自變量對因變量都有顯著性影響,并都通過了檢驗可以得到最優方程式為: .2.4 小結 通過相關系數和回歸分析對原始變量進行對比,通過相關系數的對比可以看到對變量進行處理后所得到的回歸方程的擬合效果更好,對因變量的影響更加的顯著. 再加上最后對變量進行回歸分析與檢驗可以得出淘寶網注冊人數,的我國網絡普與度次方,我國居民消費水平,的我國第二產業增加值次方等變量聯合起來對淘寶交易總額有更顯著的影響.說明研究多元線性回歸分析中對變量的線性關系的要求也是直接影響自變量對因變量影響程度的重要因素. 在研究變量之間相關關系的時候

36、一定要對變量進行檢驗和處理. 綜上可以知道影響淘寶交易額的公式可以近似為: .即:淘寶注冊人數增加就可使得淘寶網的交易額增加. 眾所周知我國網絡普與度是在逐年增加的,可以看出淘寶交易額的增加與我國網絡普與度呈指數增長,隨著社會的發展,中國的發展更是越來越迅速,網絡普與度的增加使得更多的地方有網絡,更多的人了解網絡才能使得我國淘寶注冊人數的增加. 同時我國第二產業增加值表示了我國制造業的增加,而淘寶的銷售與制造業之間存在緊密的關系,這里可以看到我國第二產業增加值與淘寶交易額呈指數型增長趨勢.這幾個自變量之間存在著相對嚴密的關系. 人均收入的增加固使得人們的消費指數上升,那么人們在網絡購物和日常消

37、費的比例也會發生變化,這里我們可以看出這個比例是在增加的,那么淘寶交易額增加也是必不可少的.第三章 變量選取案例:財政收入模型的研究3.1 數據的來源與變量的解釋為研究我國財政收入情況,為研究人均國生產總值,城鎮居民家庭人均可支配收入,全社會固定資產投資,第一產業增加值,教育經費對財政收入的影響,通過中國國家統計局下載1992年到2012年的數據進行研究. 人均國生產()總是指國生產總值的絕對值與該年平均人口的比值,是衡量一個國家或地區每個居民對該國家或地區的經濟貢獻或創造價值的指標. 城鎮居民家庭人均可支配收入()是指在16周歲與以上,有勞動能力,參加或要求參加社會經濟活動的人口. 全社會固

38、定資產投資()反映固定資產投資規模、結構和發展速度的綜合性指標的同時,也是觀察工程進度和考核投資效果的重要依據.第一產業增加值()是指按市場價格計算的一個國家(或地區)所有常住單位在一定時期從事第一產業生產活動的最終成果. 第一產業是指農、林、牧、漁業. 教育經費總投入()包括國家財政性教育經費、社會團體和公民個人辦學經費、社會捐贈經費、學費和雜費、其他教育經費. 財政收入()指國家財政參與社會產品分配所取得的收入,是實現國家職能的財力保證. 原數據如下: 表3.1由于數據單位不同,為了消除量綱的影響,用SPSS對數據進行標準化處理,得到如下標準化的數據(所有取值保留了兩位小數):表3.2解析

39、:以上為數據標準化后的數據,下面的案例會針對標準化后的數據進行研究.3.2 相關分析3.2.1 散點圖(1)人均國生產總值與我國財政收入的關系散點圖:圖3.1 (2)城鎮居民家庭人均可支配收入與我國財政收入的線性關系:圖3.2(3)全社會固定資產投資與我國財政收入的線性關系:圖3.3 (4)我國的第一產業的增加值與財政收入的線性關系:圖3.4我國教育經費的總投入與財政收入的線性關系:圖3.5解析:由以上四個線性趨勢圖可以初步看出人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財政收入存在顯著相關. 為驗證其實際關系需要對數據進行進一步

40、分析. 3.2.1 相關系數 (1)本案例中計算的是因變量與自變量,,之間相關的密切程度. 以下是用SPSS對數據進行相關性分析,得到如下的相關系數圖表3.3解析:圖中有帶“*”號的結果表明有關的兩變量在0.01的顯著性水平下顯著相關,由上圖可知,與的相關系數為0.9960,表示呈顯著線性關系,其 值為0.000,低于顯著性水平0.05,說明人均國生產總值與我國財政收入之間相關性顯著. 與的相關系數為0.9900,表示呈顯著線性關系,其值為0.000,低于顯著性水平0.05,說明城鎮居民家庭人均可支配收入與我國財政收入之間相關性顯著. 與的相關系數為0.9970,表示呈顯著線性關系,其 P值為

41、0.000,低于顯著性水平0.05,說明全社會固定資產投資與我國財政收入之間相關性顯著. 與的相關系數為0.9910,表示呈顯著線性關系,其 P值為0.000,低于顯著性水平0.05,說明我國的第一產業增加值與財政收入之間相關性顯著. 與的相關系數為0.9910,表示呈顯著線性關系,其 P值為0.000,低于顯著性水平0.05,說明我國的教育經費總投入與財政收入之間相關性顯著. 綜上所述通過SPSS得出的相關系數的矩陣得到為:0.996 ,0.990 ,0.997 ,0.991 ,0.999 , 由以上數據可以看出,各列之間存在正相關關系. 即人均國生產總值、城鎮居民家庭人均可支配收入、全社會

42、固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財政收入存在顯著性相關關系. (2)計算偏相關系數:下面是用SPSS作出人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財政收入的偏相關系數:表3.4表3.5ry x1x2x3x4x5y0.871-0.8750.233-0.3060.906x10.8710.896-0.1110.431-0.726x20.896-0.875-0.114-0.120.883x30.233-0.111-0.1140.2820.115x4-0.3060.431-0.120.2820.173x50.90

43、6-0.7260.8830.1150.173表3.6解析:表3.9為回歸分析圖中的人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財政收入的偏相關系數,表3.10為SPSS偏相關系數操作中得出的我國人均國生產總值與我國財政收入的偏相關系數. 由人均國生產總值為例可以看出我國人均國生產總值與我國財政收入的偏相關系數為0.693. P值檢驗的概率為0.0020.05,可以說明我國人均國生產總值與我國財政收入之間顯著性相關. 表3.11是變量與變量之間的偏相關系數,可以看出其他自變量與自變量之間的偏相關系數并不高. 同理,從以上的偏相關系數

44、來看,如果人均國生產總值、全社會固定資產投資、第一產業增加值、教育經費保持不變,城鎮居民家庭人均可支配收入與財政收入的偏相關系數為-0.834,其對應的P值檢驗為0.0000.05,即全社會固定資產投資與財政收入之間不存在顯著相關. 當人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產、教育經費投資保持不變,我國的第一產業增加值與財政收入的偏相關系數為-0.361,其P值檢驗為0.1540.05, 我國的進出口總額與財政收入的相關性不顯著. 當人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資和我國的第一產業增加值保持不變,教育經費總投入與財政收入的偏相關系數為0.885,

45、其P值檢驗為0.0000.05, 我國的教育經費總投入與財政收入的存在顯著相關性. 常數項的P值為1,sig大于0.05只表示此常數值不是很大 ,這里的常數項對數據的影響不顯著,也需要剔除. 而因變量與自變量和的偏相關系數很低,說明其對因變量的影響不顯著,應該剔除,下面通過回歸分析和逐步回歸對數據處理和整理. 3.3 回歸分析 對數據進行回歸分析,得到如下結果:表3.7 解析:復相關系數為1,判定系數為1,調整系數為1,估計值的標準誤差為0.01766. 表3.8 解析:由上面結果的看其顯著性檢驗結果為,回歸平方和為19.995,殘差平方和0.005,總平方和20, F統計量的值為1.282E

46、4,對應的概率P值為0.000,小于顯著性水平0.05,即:人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財政收入之間存在線性關系,所以可認為所建立的回歸方程有效. 表3.9 解析:由上圖可知,因變量與常數項和自變量,的回歸的標準化回歸系數分別為-6.671E-170.74,-0.584,0.54,-0.64,0.851. 5個回歸系數中可以看出,的顯著性水平大于0.05,即自變量,對因變量的顯著性不明顯. 常數項為的值為1,即說明常數項近似為0.而自變量,的值檢驗均小于0.05,說明自變量,對因變量有顯著性影響. 檢驗:在給定的,

47、自由度的臨界值時,查表得2.209可以看出常數項與自變量,的參數對應的值的絕對值均大于2.201,這表明顯著性水平5%的情況下,人均國生產總值、城鎮居民家庭人均可支配收入、教育經費總投入等變量聯合起來對我國的財政收入有顯著的影響. 而我國的進出口總額的值為0.233小于2.209,說明我國的進出口總額對我國的財政收入的影響不顯著. 所以需要對數據進行逐步回歸,剔除影響不顯著的變量. 其回歸方程為: .3.4逐步回歸 由上可知自變量進出口總額未通過檢驗,因此對數據進行逐步回歸的處理. 對人均國生產總值、城鎮居民家庭人均可支配收入、全社會固定資產投資、我國的第一產業增加值、我國的教育經費總投入與財

48、政收入進行逐步回歸分析得:表3.10 解析:由上可以看出,被剔除. 其逐步回歸的順序為,.表3.11解析:上表為逐步回歸模型的統計量,從上表可以看到自變量的判定系數分別為1,0.999,0.999,這說明自變量與因變量之間的擬合程度很好.調整后的判定系數與判定系數一樣,其估計標準誤差分別為 0.04762,0.03533,0.01766其值均很小,說明所選值之間的標準誤差很小. 表3.12 解析:上表為方差分析表,與逐步回歸每一步的回歸模型的方差分析,可以看出其顯著性水平的概率均為0.000,表明此回歸模型極顯著. CoefficientsaModelUnstandardized Coeffi

49、cientsStandardized CoefficientstSig.BStd. ErrorBeta1x5.999.011.99993.818.0002x51.300.0751.30017.434.000 x2-.303.075-.303-4.063.0013x5.935.062.93515.157.000 x2-.652.060-.652-10.866.000 x1.713.096.7137.420.000a. Dependent Variable: y表3.13解析:上表為回歸方程系數表,根據多元回歸模型: ,通過SPSS作出的逐步回歸得到以上的結果,在統計顯著水平,則檢驗值為2.201

50、下,三個變量與常數項的檢驗的絕對值分別為15.157,10.866,7.420其絕對值均大于2.201,說明三個因子自變量的顯著性水平高. 可得到的最優回歸方程為: .Trend值為該區域中1992年到2012年的模擬值. 該值可以通過最優方程式得出,比如2012年的值為 ,由上結果可以看出誤差較小,其誤差百分比在以的占比比較大,說明模擬效果還可以. 求得的逐步回歸模型效果比較顯著. 3.5小結通過SPSS操作最后得到的我國財政收入的預測方程式: , 再加上最后對數據的檢驗可以得出人均國生產總值、城鎮居民家庭人均可支配收入、我國教育經費總投入對財政收入有顯著的影響. 從上面的操作可以看出變量通

51、過初步的選取是不夠的,需要對所選自變量進行檢驗,然后剔除未通過檢驗的變量,所以在案例二較案例一的區別在于多了一個逐步回歸分析. 即:眾所周知人均國生產總值,城鎮居民家庭人均可支配收入,全社會固定投資都是逐年變化的,這里表現出的城鎮居民家庭人均可支配收入為負指標,隨著社會的發展,中國的發展更是越來越迅速,這三個自變量之間存在著相對嚴密的關系. 第四章總結SPSS 是世界上最早采用圖形菜單驅動界面的統計 HYPERLINK :/baike.baidu /view/37.htm t _blank 軟件,其最突出的特點就是操作界面極為友好,輸出結果美觀漂亮,是“統計產品與服務解決方案” HYPERLI

52、NK :/baike.baidu /view/37.htm t _blank 軟件.對于那些常見的統計方法,SPSS的命令語句、子命令與選擇項的大部分都是由“對話框”的操作完成. 所以不需要花大量時間來記憶這些大量的命令、過程或選擇項. 由以上SPSS的操作方法可以知道SPSS中有很多的統計方法,適合專業的統計人員對數據進行統計整理得出自己想要的結果. SPSS在得出的趨勢線以與變量之間的線性關系,需要自己用一元線性回歸的方法得出數據之間的系數,然后自己把方程寫在趨勢線旁邊. 由兩個案例分析中可以看出在對數據計算結果如果需要更精確一點,就需要通過對多元回歸分析的操作方法進行對比可以知道,采用逐

53、步回歸分析的方法對數據進行處理,剔除沒有通過檢驗的,對因變量影響不顯著的. 由以上案例中可以看到,多元回歸分析中變量的選擇不能靠簡單的自行篩選就可以,有時候對于一些變量的篩選都通過檢驗,并不能代表你在選擇數據上有多高明,而是需要通過相關性分析,計算復相關系數和偏相關系數來了解你所選的變量之間的相關關系的大小,而變量之間存在線性關系和非線性關系需要通過散點圖的觀察來對變量之間關系進行判斷. 在一些情況下,某些自變量的觀測數據的獲得代價十分貴,這些自變量可能對因變量的影響非常小,而我們把它引進了模型中,勢必造成數據收集和模型的應用不必要的加大.所以在回歸分析中,對進入模型的自變量作精心的選擇是十分必要的. 所以我們在選擇回歸模型時一定要注意.而本文可以讓我們知道在多元回歸分析中變量的選擇中我們需要的是先選擇模型,案例一我們是對于非線性回歸模型轉化為線性回歸模型同時采用的是全模型進行分析,案例二我們用得則是選模型,與在變量的選取上我們應該如何去選擇. 相關系數以與方差分析就是很好檢驗數據的方法,同時逐步回歸時對數據進行剔除的一個很好方法. 從而可以看出所選的變量是否符合要求. 然后再通過回歸分析,看數據之間的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論