近年居民消費結構統計分析的研究綜述_關于因子分析和聚類分析的_第1頁
近年居民消費結構統計分析的研究綜述_關于因子分析和聚類分析的_第2頁
近年居民消費結構統計分析的研究綜述_關于因子分析和聚類分析的_第3頁
近年居民消費結構統計分析的研究綜述_關于因子分析和聚類分析的_第4頁
近年居民消費結構統計分析的研究綜述_關于因子分析和聚類分析的_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、收稿日期:2006年03月24日文章編號:1002-1566(200705-0776-06近年居民消費結構統計分析的研究綜述關于因子分析和聚類分析的應用吳 棟 李樂夫 李陽子(清華大學經濟與管理學院,北京,100084摘要:本文對近年有關居民消費結構的實證分析進行研究,簡述了數據選取、實證方法的變革與演進;回顧了模型分析的過程與結論;并且進行了相應的評述、提出了建議,以期為今后統計實證手段的應用及后續研究提供相應參考。關鍵詞:消費結構;因子分析;聚類分析中圖分類號:O 212,F126.1文獻標識碼:AThe Review of Empirical Studies on Cons u m pt

2、ion Struct ureWU Dong ,L I Le fu ,LI Y ang zi(Schoo l o f Econom i cs&M anage m ent ,T s i nghua U niversity ,Beiji ng ,100084Abstrac t :Th i s arti c le exa m i nes the e mp irical st udies on consu m pti on struct u re pub lished in recen t years ,rev ie w s t he m ethods used in data co llect

3、i on ,the transiti on of emp irica lm ethods ,and the processes and concl usions of t he m odel analysis .The aut hor a lso prov i des so m e comm ents and s uggesti ons wh ich can be taken as re ferences for the f u t ure study on appl y ing emp irical me t hods .K ey word s :Consu m pti on Structu

4、re ;F actor Ana l ys i s ;C luster A na l y si s近年來隨著我國經濟的快速平穩發展,消費需求不足日益突出,對于消費問題的關注成為轉型期經濟研究的重點之一。消費總量和消費結構是研究消費問題的兩個基礎,而對于消費結構的研究難度更大,因為其變量較多、機理復雜、數據量很大,所以各種較新的數理實證方法在此領域中應用逐漸受到廣大學者的重視。近年來運用因子分析、聚類分析等實證手段研究消費結構的方法在學術界日漸得到廣泛應用,有必要梳理分析的過程、回顧其分析結果,以期為今后統計實證手段的應用提出一定的建議。1 數據選取和實證方法綜述在近年來對于農村居民消費結構的研究

5、中,實證分析手段日趨多樣化。傳統的實證分析一般停留在簡單地對各類指標進行年均增減等比對分析,從而發現問題或佐證觀點。但是隨著統計方法日趨完善,各類年鑒中統計指標逐漸細化,且有充足統計數據的時間段逐漸延長,對于同一指標的描述也從原來的單變量變為了多維變量,數據量大大增加,而刻畫描述的細化程度也越來越有利于我們對實際情況進行分析。可以說,單從各類數據角度出發,對類似于農民消費結構這樣的重大經濟問題,我們已經有了擺脫簡單實證分析的數據基礎。從數據選取來看,針對農村居民的消費結構問題在 中國統計年鑒 中,其指標體系共有2007年 9月第26卷 第5期 數理統計與管理App lication of St

6、atisti cs and M anage m en t S ep ,2007V ol 26 No 5九項,在 各地區農村居民家庭平均每人生活消費現金支出 (或者 消費總支出 表中將消費細分為 總量 與 食品 、 衣著 、 家庭設備及服務 、 醫療保健 、 交通和通訊 、 文教娛樂用品及服務 、 其他商品及服務 等八項指標。而消費結構的實證分析主要以這些數據為準,多數研究者都是采取了某一年份31個省、市、自治區(以下簡稱省份的截面數據,也有個別學者以9年時間序列為準,不用分區數據,僅用全國的總合分析八項指標的在9年間的變動情況。從方法上看,針對31個省份,八項指標在9年來所形成的大量數據,無論

7、是僅做消費的單獨實證分析,還是要進一步回歸分析,討論消費與收入、GDP 等指標的關系,都離不開因子分析和聚類分析的方法。這兩種分析方法都可以把多維變量根據數據自身的變動規律,通過矩陣運算等方式有效地降維和歸類。在已有的文獻中不難發現因子分析比聚類分析的應用更為廣泛,可以在論文中單獨使用,也常常配合別的統計方法,其中主成分析方法最為常見。學者們對因子分析過程的描述較之聚類方法也更為詳細。大概包括以下幾個過程:首先確定該數據是否適合進行因子分析。因子分析的前提是該數據具有多維性和強相關關系,針對此點一般軟件中都會有專門的統計量加以刻畫,學者們經常應用的是 取樣適當性數 即 KMO (Ka i s

8、er-M eyer-O l k i n 檢驗,而現有文獻中更為普遍的方法直接列出相關系數陣或協方差陣,通過粗略觀測其數值大小來分析該數據是否適合進行因子分析。第二,從相關系數矩陣中捉取特征向量,通過轉軸方式確定各個變量在各個因子中的方差貢獻率,以確定因子數目和歸為同一因子的變量。一般學者均采取 最大變異數法 (VERI M AX ,或稱為 方差最大旋轉方法 進行轉軸。多數學者在此步驟會比較詳細,表述清晰向量模型,以及各個因子提取后的方差累計貢獻率,同時對于各個因子含義進行簡要分析。第三,給各個地區在不同因子上打分,然后進行排序以及相關解釋或者后續分析。多數學者不會列出因子與原始數據關系的模型,

9、而孫艷玲此步驟前以綜合模型的方式列出各因子前的系數,直觀反映了其貢獻率的權重。在后續分析中,可以是單獨因子的排名討論,也可以利用因子得分再進行聚類或者畫圖分析。具體見后文。聚類分析在消費結構研究中很少單獨出現,一般都是配合因子分析出現的,在聚類方法上的說明均比較簡略,所采用的具體方法也較為統一,一般都采用歐氏距離平方的距離測試,選擇最小方差聚類方法進行分析,聚類的對象可以為八項消費,也可以為31個省份,具體將在下文分章列出。一般31個省份的聚類結果由于比較復雜,在文章中經常省略,僅保留聚類過程說明結果。在軟件方面,研究者使用SPSS 軟件的居多,尤其對于需要輸出聚類圖譜的文章基本上都是應用SP

10、SS,其在作圖和輸出方面比較易于操作。也有部分學者使用SAS 數據分析系統,二者在普通分析上差別不大。2 模型結論綜述綜合近年來的論文,可以發現因子分析和聚類分析的同時使用是近年來對于消費結構分析的發展趨勢,本文選取的幾篇論文基本上都采用了兩種實證方法,或者在這兩種方法的數據基礎上再進行回歸分析,具有一定的代表性。具體而言,可以先聚類,利用聚類的結果來分區域進行因子分析,最后對比不同地區在八項消費上所體現的特點,進而分析得出結論。柯健2利用2002年的城鎮居民消費數據,對于消費和地區互相做了聚類。其先用31個777吳棟,李樂夫等:近年居民消費結構統計分析的研究綜述778 數理統計與管理 第26

11、卷 第5期 2007年9月省份作為八項消費的屬性,對于消費結構進行聚類,又將圖標進行轉置,即把八項消費作為31個省份的屬性,對31個省份再進行聚類,將其分為四個層次。具體結果見后表。應該說,我國幅員遼闊,地區間的自然稟賦、文化基礎迥異,這樣的分析思路雖然在理論上符合實事求是、具體問題具體分析的要求,但在研究農村消費結構上的應用較少。極少有學者把農村分消費進行分區域比對,而在研究城市消費結構時則較多使用,具體原因是農村地區的消費結構差異沒有在城市間體現得顯著。殷玲3分別就發達地區城市和農村的消費結構和不發達地區城市和農村的消費結構分別做了因子分析,并且進行了對比,應該指出其劃分發達與不發達的標準

12、并非是先聚類的結果,而是根據GDP進行排名。因子結果是城市的發達與不發達在消費結構上體現明顯,發達城市的醫療與教育在因子一中,而不發達地區的食品、交通和其他商品消費在第一因子中,兩地區毫不重合,明顯可以看出其生活質量的差別,而發達地區的農村和不發達農村在消費結構上的差異很小,僅是交通消費在發達地區屬于因子一,而在不發達地區進入了因子二。葛虹、逢守艷4應用了類似的方法,但是仍然只用了2002年城鎮居民消費結構數據,對于31個省份進行了聚類分析,把城市分為兩個層次,分別進行因子分析,等到兩個因子分類結果,再對總的數據進行因子分析,得到另一個結果。對比三個因子分析結果,得出結論。孫艷玲5的方法則真正

13、綜合了因子分析與聚類分析,不同的是其先進行了因子分析,再用因子分析的結果進行了聚類分析。孫艷玲較多運用了31個省份的因子得分,在2002年農村居民消費結構的數據基礎上,她不但計算出單因子情況下31個省份的得分,而且計算出了31個省份在八項消費產生的3個因子上的得分,再把該得分作為31個省份的屬性,采用離差平方和(w ard方法進行聚類,最后將城市分為四層。其次該文利用了單因子得分的地區排名和聚類后的四類地區的排名進行對比,發現北京等發達城市不單單在單因子排名中名列前茅,而且在占總信息88%的第一因子中仍然位居前列,很有充分地說明了排名前列的城市代表了數據結果的總趨勢。相對而言王芳、王景東6單純

14、利用因子分析2001年對我國城鎮居民消費進行因子分析就略顯簡單,文章也提取了3個因子,并且利用了3個因子得分對于31個省份進行了3次排名。從經濟學原理出發消費是社會經濟活動中的關鍵環節,所以和消費相關的經濟活動與消費結構本身聯系變化的內在機理是非常值得探索的。莊燕君7就利用聚類分析以及線性回歸研究了農村地區消費結構變動與區域產業結構的關系。文中首先進行了聚類分析,將全國城市分成四個層次,再對比四個層次城市的農村居民消費結構(即八項消費的比例和三次產業比例,最后用線性回歸實證出各個產業與各項消費的相關性。孫冰、王其元8利用1997年和1999年的城鎮居民消費結構數據分別進行了因子分析,對兩年都提

15、取了三個因子,雖然三個因子對于八項消費的具體歸類文中沒有詳細歸納,但是對比了三因子中各項消費的變動情況,得出了我國居民生活水平已有很大提高,生活質量有了明顯改善,消費觀念正迅速轉變等結論。以上列舉的文章都是采取截面數據,很少有用序列數據作為八項指標的屬性,寧自軍9在分析浙江省城鎮居民人均生活消費結構時就采用了1992年到2000年的數據對八項消費進行了因子分析,但是和一般分析全國的文章不同,該文僅選取了兩個因子,并且以兩個因子分為縱軸,以年份為橫軸,直觀地反映了浙江省消費結構的變動情況。蘇梽芳、胡日東10也采取類似的方法步驟對福建地區的城鎮居民從1992年到2003年的八項消費數據進行分析。同

16、樣作為分區域研究,田萍、廖靖宇11對于河南省城鎮居民2000年的消費結構進行了研究。該文也是利用轉置,對于河南省17個地區和八項消費分別進行了聚類分析和因子分析。以上論文的具體輸出結果見下表:因子數目、命名。聚類結果將單獨標明。論文作者數據年份因子1因子2因子3選取數據孫艷玲2002食物、交通、其他家電、教育、住宅醫藥、衣著全國農村葛虹逄守艷2002(結果以聚類為準分類食物、交通、其他住宅。命名:主消費因子家電、教育、醫藥命名:次消費因子衣著命名:弱消費因子全國城鎮食物、交通、其他家電、教育、醫藥衣著、住宅全國城鎮發達地區食物、交通、教育住宅、醫療、其他衣著因子4:家電全國城鎮不發達地區殷玲2

17、001(結果以GDP 為準分類醫療、教育食物、交通、住宅、其他衣著全國城鎮發達地區食物、衣著、其他教育、醫療、交通家電因子4:住宅全國城鎮不發達地區食物、交通、家電、教育、住宅、其他衣著、醫療全國農村發達地區食物、家電、教育、住宅衣著、醫療、交通、其他全國農村不發達地區王芳、王景東2001食物、交通、住宅其他命名:生活必需因子家電、醫療、教育命名:享受因子衣著命名:季節因子全國城鎮柯健2002聚類一:食物、交通、其他聚類二:家電、教育、住宅聚類三:醫藥聚類四:衣著全國城鎮田萍2002家電、教育、其他衣著、交通醫藥、食物、住宅河南城鎮寧自軍時間序列食品、衣著、醫療保健、文化娛樂、交通通訊和居住家

18、庭設備和雜項浙江城鎮3 簡要評論3.1 研究地區應側重農村,實證方法應側重綜合,研究領域應加強聯系拓展;從上表不難看出,對于城鎮消費結構研究要多于對于農村消費結構研究,雖然這和本文選取的論文樣本有一定關系,但如前文所述,城鎮消費結構差異體現更為明顯等特點使得對于城779吳棟,李樂夫等:近年居民消費結構統計分析的研究綜述780 數理統計與管理 第26卷 第5期 2007年9月鎮消費結構研究的論文在數量上確有一定優勢。隨著中央第八個一號文件提出 建設社會主義 的號召,對于 三農問題 的分析研究應該得到進一步的加強,尤其是以日趨完善的統計數據為基礎,運用更加科學化的實證手段多層次、多角度地開展分析更

19、應成為目前研究的方向,所以應加強對于因子分析、聚類分析等數理方法在 三農 研究中的應用。通過目前的文獻來看,簡單運用以上分析方法的文章居多,尤其是僅用因子分析的論文占了很大部分,聚類分析則一般不會單獨使用。應該說,兩種方法的側重點不同,聚類更加注重分類的結果,而因子分析則可更好地說明幾列變量在變化趨勢的相近程度,從而總結隱藏在多個變量后的較少的幾個因子。所以對于兩種方法的綜合運用可以幫助我們更加清晰地從不同層次、不同地區分辨多變量的關系,已達到因地制宜的良好效果。當然僅此兩種方法往往只能局限在消費結構內部討論問題,從更加廣闊的視角出發,應該加強消費結構與收入、產出等等其他關鍵環節的聯系,從而有

20、利于我們以更為深刻的經濟機理為依據,為長期的政策目標提供有參考價值的研究結果。3.2 數理過程可以適當省略,重要指數應當形成統一標準;因子分析和聚類分析作為一種統計方法,在其看似簡單的結果背后有著大量的運算過程。從已有的眾多文獻來看,對于這些預算過程的處理方式大致有三種,一是完整列出,有的論文甚至有三分之一以上的篇幅是羅列出因子分析的運算機理;第二是完全忽略,絲毫不提數理過程;第三是通過索引形式,為要參看數理過程的研究者指明可參考的書目,再簡要概括自己的運算步驟。應該說完全列出是可取的,一般研究者不會特別關注運算過程,且該過程對于不同文章并無太大差異,沒有必要每篇均列出。采取第三種方式即方便了

21、多數讀者閱讀,也方便想要詳細借鑒方法的學者查閱,應當提倡這種適當的省略。對于運算過程中的各種檢驗指數也存在這樣的問題,有文章花費大量篇幅列出矩陣的相關系數陣和協方差陣,用以說明各數列間存在較強的相關性,可以進行因子和聚類分析。但是這樣做稍顯繁瑣。在一般統計軟件內,除了前文提到的 KMO 外,還有 B artlett球形檢驗 (Bartl e tt s test of sphericity的卡方統計量也可以更加簡明的說明數據是否適合做因子分析。如能在一般的統計分析中統一規范,列出幾個重要檢驗指標則,則會大大精簡篇幅,同時加大說服力。3.3 結果表述缺乏直觀圖示,大量列表不易說明觀點;在現有軟件技術水平基礎上,因子分析和聚類分析的結果不單可以用表格和數列的形式表明,也可以用較為直觀的圖示來輸出,但一般而言圖示比表格要更加清晰。尤其是對于因子分析,其因子打分的作用不單單體現在單個因子的排名上,更可以將因子作為緯度,把變量的因子得分作為在三個緯度上的取值,直接輸出平面圖形甚至三維圖形,這樣就可以直觀地表達出各個點的位置,作為消費結構的研究,則可以把各個地區的位置在平面圖上標明,更加清晰直觀。而在以各個年份數據作為八項消費的屬性做因子分析時,以年份為橫軸、因子得分為縱軸的畫圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論