




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、我國16個地區農民在某年支出情況的聚類分析中 文 摘 要聚類分析是多元統計分析中研究“物以類聚”的一種方法,用于對事物的類別面貌尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進行分類的場合。聚類分析主要目的是研究事物的分類,而不同于判別分析。在判別分析中必須事先知道各種判別的類型和數目,并且要有一批來自各判別類型的樣本,才能建立判別函數來對未知屬性的樣本進行判別和歸類。若對一批樣品劃分的類型和分類的數目事先并不知道,這時對數據的分類就需借助聚類分析方法來解決。聚類分析把分類對象按一定規則分成組或類,這些組或類不是事先給定的而是根據數據特征而定的。在一個給定的類里的這些對象在某種意義上傾向于
2、彼此相似,而在不同類里的這些對象傾向于不相似。關于聚類分析的任何通則必定是含糊的、不明確的,因為在眾多的各種不同領域里聚類方法已經發展了,類和對象間的相似性具有不同定義。各種聚類分析方法通過用于聚類分析的各種各樣的領域反映出來。因此盡管聚類方法有很多種,但不管哪一種都不能說得到的分類是準確的。本文選取了我國16個地區農民在某年支出情況數據的6項數據分析相關指標。利用SAS軟件建立模型,并對測算的數據進行分析得出結論。關鍵詞:聚類分析;農民支出;主成分分析; 動態聚類;; 第一章 引 言§1.1 問題提出聚類的實質是根據樣本(變量)間的親疏關系將樣本(變量)分為類,相近的歸為一類,差別
3、較大的歸為另一類。所獲得的分類應有一定的意義。聚類分析的關鍵有兩個:親疏關系的判別:相似性與距離(不相似性);分類數的確定:分多少類合適。 農民工資性收入穩定增長。調查顯示,以外出務工收入為主的工資性收入穩定上升,并成為農民增收的主要來源。2009年至2011年,農民工資性收入每年呈兩位數增長,增長率分別為38.45%和21.44%。2011年農民人均工資性收入達到7884.12元,工資性收入占農戶家庭現金收入的比重為65.72%。農民收入增加的同時支出應該也有所變化。隨著國家經濟發展,農民收入增加,支出也有所增長,但是支出范圍依舊狹小。支出有償付性支出和消費性支出構成。償付性支出主要是農民償
4、還債務的開銷,由于各種因素,這方面我們沒做調查,我也知之甚少,就不妄加談論了,我主要說說消費性支出。消費支出莫過于衣食住行再加上教育、醫療、衛生和一些精神消費。從總體來看,我們國家農村經濟支出很是可觀。看看支出總額,與十年前相比,不知增長了多少,說明農民手中有錢了,也敢花錢了。但是農民收入支出的主要去向是哪里?各個省市的農民收入支出有何不同?本文將對此問題加以研究。指標選取考慮的因素:(1)指標的選擇要能盡量反映農民的收入支出狀況;(2)數據盡量從統計年鑒等規范、權威的刊物中獲取。下面各個指標和數據符合以上要求。§1.2 相關理論一、 聚類分析的基本原理:聚類分析又稱群分析,是根據“
5、物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。其實質是尋找一些能客觀反映研究對象之間親疏關系的統計量,然后根據這種統計量把研究對象按距離相近或性質相似的原則分成若干類,以便對各組數據進行分類研究,找出組內數據的共性以及組間數據的差異。聚類分析起源于分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,于是人們逐漸地把
6、數學工具引用到了分類學中,形成了數值分類學,之后又將多元分析的技術引入到數值分類學形成了聚類分析。聚類分析被應用于很多方面,在商業上,聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識;在地理上,聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性;在保險行業上,聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組;在因特網應用上,聚類分析被用來在網上進行文檔歸類來修復信息。聚類分析的內容十分豐富,按其分類對象的不同就分為Q-型聚類分析(對
7、樣品分類),它是依據被觀測的樣品的各種特征,將特征相似的歸為一類;R-型聚類分析(對指標或變量分類)是依據被觀測的變量之間的相似性,將其特征相似的變量歸并為一類。聚類分析按其分類方法又分為系統聚類法、動態聚類法等。系統聚類分析也稱為分層聚類法Hierarchical Cluster,它是聚類分析中應用最廣泛的一種方法。分層聚類的思想是:開始將樣品或指標各視為一類,根據類與類之間的距離或相似程度將最相似的類加以合 并,再計算新類與其他類之間的相似程度,并選擇最相似的類加以合并,這樣每合并一次就減少一類,不斷繼續這一過程,直到所有樣本或指標合并為一類為止。動態聚類法也稱為快速聚類法或K均值聚類法,
8、快速聚類的方法是:首先按照一定的方法選取一批聚類中心,再將其他樣本以聚類中心為標本凝聚起來,形成遵照一定原理的初始分類,然后按照最近距離原則,不斷修改認為不合理分類直至合理為止。二、SAS軟件介紹SAS系統全稱為Statistics Analysis System,最早由北卡羅來納大學的兩位生物統計學研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統,但該軟件系統最早的功能限于統計分析,至今,統計分析功能也仍是它的重要組成部分和核心功能。SAS現在的版本為9.0版,大小約為1G。經過多年的發展,SAS已被全世界120多個國家和地區的近
9、三萬家機構所采用,直接用戶則超過三百萬人,遍及金融、醫藥衛生、生產、運輸、通訊、政府和教育科研等領域。在英美等國,能熟練使用SAS進行統計分析是許多公司和科研機構選材的條件之一。在數據處理和統計分析領域,SAS系統被譽為國際上的標準軟件系統,并在9697年度被評選為建立數據庫的首選產品。堪稱統計軟件界的巨無霸。在此僅舉一例如下:在以苛刻嚴格著稱于世的美國FDA新藥審批程序中,新藥試驗結果的統計分析規定只能用SAS進行,其他軟件的計算結果一律無效!哪怕只是簡單的均數和標準差也不行!由此可見SAS的權威地位。 SAS系統是一個組合軟件系統,它由多個功能模塊組合而成,其基本部分是BASE SAS模塊
10、。BASE SAS模塊是SAS系統的核心,承擔著主要的數據管理任務,并管理用戶使用環境,進行用戶語言的處理,調用其他SAS模塊和產品。也就是說,SAS系統的運行,首先必須啟動BASE SAS模塊,它除了本身所具有數據管理、程序設計及描述統計計算功能以外,還是SAS系統的中央調度室。它除可單獨存在外,也可與其他產品或模塊共同構成一個完整的系統。各模塊的安裝及更新都可通過其安裝程序非常方便地進行。SAS有一個智能型繪圖系統,不僅能繪各種統計圖,還能繪出地圖。SAS提供多個統計過程,每個過程均含有極豐富的任選項。用戶還可以通過對數據集的一連串加工,實現更為復雜的統計分析。此外,SAS還提供了各類概率
11、分析函數、分位數函數、樣本統計函數和隨機數生成函數,使用戶能方便地實現特殊統計要求。 SAS軟件的宗旨是為所有需要進行數據處理、數據分析的計算機或者非計算機工作人員提供一種易學易用、完整可靠的軟件系統。SAS語言本身是一種非過程語言(第四代語言),類似于C語言,且綜合了各種高級語言的功能和靈活的格式,將數據處理和統計分析融合于一體。SAS在統計分析領域和數據挖掘技術幾乎處于壟斷地位,成為國際上流行標準企業管理軟件。 經過近30年的不斷發展完善,SAS系統已由最初的統計分析軟件發展成為大型集成應用軟件系統,發展成具有完備的數據集成訪問、數據倉庫管理、決策業務分析,數據挖掘等功能。SAS和SPSS
12、、BMDP并稱為國際上最富知名度的三大統計軟件。在國際學術界有條不成文的規定:凡是用SAS和SPSS統計分析的結果,在國際學術交流中不必說明算法,由此可見其權威性和信譽度。學習SAS軟件時,需要讀者有基本的統計學知識,對所選用的統計方法有較清楚的了解,沒有統計學基礎知識要掌握SAS軟件較為困難。SAS系統是一個由三十多個專用模塊組成的大型集成式軟件包。其功能包括客戶機/服務器計算、數據訪問、數據存儲及管理、應用開發、圖形處理、數據分析、報告編制、質量控制、項目管理、運籌學方法、計量經濟學與預測等。實際使用時可以根據需要選擇相應的模塊。SAS主要有如下模塊:SAS基本部分:稱為SAS/BASE。
13、可以完成基本的數據管理工作和數據統計工作,是SAS系統的基礎,所有其它SAS模塊必須與之結合使用。SAS分析核心:這一部分是SAS系統的靈魂。它提供了嚴肅的、權威的數據分析與決策支持功能。包括SAS/STAT(高級統計),SAS/ETS(時間序列分析),SAS/IML(交互式矩陣語言),SAS/OR(運籌學),SAS/QC(質量控制),SAS/INSIGHT,SAS/LAB。SAS開發工具:面向對象的開發工具,可以定制信息處理應用系統。包括SAS/AF,SAS/EIS(經濟信息系統),SAS/GRAPH(圖形處理)等模塊。SAS分布式處理及數據倉庫設計:此部分為SAS的高級數據處理功能。包括S
14、AS/ACCESS,SAS/CONNECT,SAS/SHARE等模塊。SAS的這些模塊可單獨使用、也可互相配合起來使用,其中最常用的3個模塊分別是SAS/BASE(基礎)、SAS/STAT(統計)和SAS/GRAPH(圖形),SAS系統是一個模塊化的集成軟件系統,便于用戶根據自己的需要進行選擇。其基本部分是Base SAS軟件,此外還有用于統計分析的SAS/STAT軟件;用于高級繪圖的SAS/GRAPH軟件;用于矩陣運算的SAS/IML軟件;用于運籌學和線性規劃的SAS/OR軟件;用于經濟預測和時間序列分析的SAS/ETS軟件等。1)操作簡便 SAS的宗旨是為所有需要進行數據處理、數據分析的非
15、計算機專業人員提供一種易學易用、完整可靠的軟件系統。用戶把要解決的問題用SAS語言(近乎自然英語的非過程語言)表達出來,組成SAS程序,提交給SAS系統就可以解決所提出的問題。執行情況和輸出結果都在屏幕上顯示出來。2)SAS系統將數據管理與統計分析融為一體SAS程序的結構由兩個基本步驟任意組合而成。DATA用于對數據的加工處理;PROC用于分析數據和編寫報告。SAS系統克服了通常軟件或偏重于數據管理功能或偏重于統計分析的弊病,把數據管理與統計分析有機地結合在一起。3)適用性強、應用面廣SAS系統適用于任何經驗的人員(初學者或有經驗的用戶);適用于任何類型的數據;適用于幾乎是任何應用的需要;適用
16、于任何計算機環境;適用于今日與未來(擴展性能強)。第二章 我國16個地區農民在某年支出情況的聚類分析§2.1 問題的引入表1-1是我國16個地區農民在某年支出情況的抽樣調查數據的匯總資料,每個地區都調查了反映每人平均生活消費支出情況的六個指標。(1)試對調查資料中的16個地區的農民生活水平進行主成分分析,(2)并利用前兩個主成分對16個地區的農民生活水平進行分類表1-1 16個地區的農民生活水平的調查數據 (單位:元)地區食品()衣著()燃料()住房()生活用品及其它()文化生活服務()北京190.3343.779.7360.5449.019.04天津135.2036.4010.47
17、44.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.409.8918.173.25內蒙古128.4127.638.9412.5823.993.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00
18、安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5017.6419.1915.974.94山東115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30§2.2 模型的建立和分析對上表數據,我們運用聚類分析法可有:SAS程序如下:proc fastclus data=d641 out=out653 maxc=4 list;var x1-x6;id group;run;SAS程序分析:maxc=4:規定最大分類個數為4類l
19、ist:要求列出分類結果。out=out653:指定生成名為out653的輸出數據集,包含VAR中的變量,新變量cluster和新變量distance(觀測與所屬類中心的距離)。主要輸出結果: 動態聚類的初始凝聚點(數據不標準化)動態聚類的分類結果(數據不標準化)第一類:北京、浙江第二類:上海第三類:河北、山西、黑龍江、山東、河南第四類:內蒙、遼寧、吉林、江蘇、安徽、福建、江西動態聚類產生的各類均值和標準差(數據不標準化)以下SAS程序首先調用STANDARD過程對數據作標準化變化,然后用標準化變換后的數據進行動態聚類分析。程序:Proc standard data=d641 mean=0 s
20、td=1 out=sta653;Var x1-x6;/*將數據集d641中的變量x1-x6標準化,輸出到數據集sta653中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x6;id group;Run;主要輸出結果:動態聚類的初始凝聚點(數據標準化)動態聚類的分類結果(數據標準化)第一類:北京 第二類:上海 第三類:河北、山西、內蒙、山東、河南第四類:天津、遼寧、吉林、黑龍江、江蘇、浙江、安徽、福建、江西程序:proc tree data=B10_4 horizontal graphics n=5 out=C10_4; co
21、py X1-X6; title 'c'主要輸出結果:從圖中可見,分為兩類的結果為:G1 = 上海,北京,G2 = 天津,江蘇,福建,廣東,山東,河北,遼寧,廣西,浙江,內蒙,江西,黑龍江,安徽。 分為三類的結果為:G1 = 上海,北京,G2 = 天津,山東,江蘇,浙江,吉林,黑龍江,安徽,江西,G3 = 河北,河南,山西,內蒙。第三章 總結及建議我們國家的農民支出金額是增加了不少,但是這就一定能說明農民的生活水平已經得到了大幅度的提高嗎?我們國家的農民都富有了嗎?從上文分析的結果看來卻不是如此。造成農民支出金額急速增長我認為有以下兩個原因。一、我們國家為了適應全球經濟發展趨勢,不得大幅度提高貨物價格,這樣就造成了人們收入和支出大幅增加的虛像。二、農民收入渠道增加,收入增加,支出也就隨之增加。 至于農村支出范圍依舊狹隘,我認為主要是農民消費觀念依然陳舊,對精神消費等認識不正確。 三、擴大農民支出的建議 1.千方百計增加農民收入,提高農民購買力。增加農民收入是提高消費的前提。擴大農村支出消費,首先要保持農民收入穩定增長,提高農村居民購買力,這是擴大農村消費支出的基礎。從農村目前的情況來看,一是要鞏固農村第一產業,發展農村第二、第三產業,拓寬農民增收渠道。二是要推進農村勞動力繼續轉移,提高勞動力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030全球及中國身份與數字信任行業發展趨勢分析與未來投資戰略咨詢研究報告
- 廣東金融學院《基礎分子生物學實驗》2023-2024學年第一學期期末試卷
- 和田職業技術學院《常微分方程緒論》2023-2024學年第一學期期末試卷
- 和田職業技術學院《光電專業英語》2023-2024學年第一學期期末試卷
- 常熟理工學院《醫學統計學二》2023-2024學年第一學期期末試卷
- 德陽科貿職業學院《UI交互設計》2023-2024學年第一學期期末試卷
- 西安建筑科技大學《跨文化交流》2023-2024學年第一學期期末試卷
- 2025至2030兒童樂園產業運行態勢及投資規劃深度研究報告
- 河北化工醫藥職業技術學院《數論與密碼學》2023-2024學年第一學期期末試卷
- 湖北中醫藥高等專科學校《文學傳播學》2023-2024學年第一學期期末試卷
- 醫療器械經銷商和代理商法規義務
- 糖尿病專科護士培訓學習匯報課件
- 心理健康教育C證面試20個題目參考答案
- 危險化學品庫房貯存規定培訓課件
- Part 3-4 Unit 7 Invention and Innovation教案-【中職專用】高一英語精研課堂(高教版2021·基礎模塊2)
- 出租房(群租房)一戶一檔檢查表
- 頸腰椎病預防及診治
- 網絡集成實踐報告
- 報關實務第5版羅興武課后參考答案
- 2022-2023學年福建省廈門市數學五年級第二學期期末學業質量監測試題含答案
- 水文水位觀測
評論
0/150
提交評論