




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
應用數理統計作業——聚類分析與判別分析-13-應用數理統計聚類分析與判別分析(第二次作業)學院:姓名:學號:2015年12月
目錄我國部分城市經濟發展水平的聚類分析和判別分析 4摘要: 41. 引言 42. 相關統計基礎理論 42.1聚類分析 42.2判別分析 53. 模型建立 63.1設置變量 63.2數據收集和整理 64. 數據結果及分析 84.1聚類分析 84.2判別分析 105. 結論 14參考文獻 15
我國部分城市經濟發展水平的聚類分析和判別分析摘要:本文基于《中國統計年鑒》(2014年版)統計數據,統計全國各省市居民消費情況,包括各地區農村居民人均純收入、農村居民人均現金消費、城鎮居民人均可支配收入、城鎮居民人均現金消費情況共4個指標,利用統計軟件SPSS綜合考慮各指標,對所選地區進行K-Means聚類分析,利用Fisher線性判別待判地區類型,進一步驗證所建模型的有效性。關鍵字:聚類分析,判別分析,SPSS,各省市居民消費引言改革開放以來,我國經濟飛速發展,居民生活水平不斷提高,隨之,居民的消費也逐漸增加,對于各地區的居民收入和消費的分析,一定程度上能夠體現該地區的經濟狀況,有助于相關政策的制定。相關統計基礎理論2.1聚類分析聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類分析的目標就是在相似的基礎上收集數據來分類。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。本文使用統計軟件SPSS對所收集的數據進行快速聚類,其特點是:在確定類別數量基礎上,先給定一個粗糙的初始分類,然后按照某種原則進行反復修改,直至分類較為合理。在選定類中心作為凝聚點的基礎上進行分類和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受輸入量k;然后將n個數據對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。K-Means算法的工作過程說明如下:首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。一般而言,k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。2.2判別分析判別分析是市場研究的重要分析技術,也是多變量分析技術。它可以就一定數量的個體的一個分類變量和相應的其它多元變量的已知信息,確定分類變量與其它多元變量之間的數量關系,建立判別函數,并利用判別函數構建Biplot二元判別圖(概念圖)。同時,利用這一數量關系對其他已知多元變量的信息、但未知分組的子類型的個體進行判別分組。判別分析屬于監督類分析方法,例如:市場細分研究中,常涉及判別個體所屬類型的問題,也常涉及不同品牌在一組產品屬性之間的消費者偏好和認知概念,判別分析可以很好地對這種差異進行鑒別。并在低維度空間表現這種差異。判別分析主要有距離判別、貝葉斯(Bayes)判別、費舍爾(Fisher)判別等幾種常用方法。距離判別的基本原理是:首先對樣本到總體G之間的距離進行合理規定,然后依照“就近”原則判定樣本的歸屬,常用馬氏距離(Mahalanobis)規定為:式中為p元總體G的協方差陣,x是取自G的樣品,則該式即為樣品x到總體G的馬氏距離。貝葉斯判別既考慮了先驗分布產生的影響,也考慮到誤判損失產生的影響,是衡量一個判別優劣的比較合理的準則。費舍爾判別的基本思想與主成分分析十分相似,當總體是高維向量時,先把其綜合成一個一維變量,然后在對一維變量進行距離判別,費舍爾判別實際上是一種降維處理,降維壓縮后,樣品y到各個總體的距離可以用歐式距離度量,即:由此導出Fisher判別規則為:,則本文及使用Fisher判別建立線性判別函數進行距離判別。模型建立3.1設置變量本文綜合考慮了評價各地區居民的收入支出情況,選取能夠反映一個省(市)收支狀況的主要因素,包括各地區農村居民人均純收入、各地區農村居民人均現金消費、各地區城鎮居民人均可支配收入、各地區城鎮居民人均現金消費,共4項因素:X1:各地區農村居民人均純收入 X2:各地區農村居民人均現金消費X3:各地區城鎮居民人均可支配收入X4:各地區城鎮居民人均現金消費3.2數據收集和整理本文所有數據來源于《中國統計年鑒(2014)》,選取2013年度31個省市居民收支狀況數據進行模型建立及分析,初始數據見表1所示。其中浙江、廣東、重慶未參與聚類分析和判別分析,而是作為了判別分析驗證數據。表1各地區居民收支狀況編號地區農村居民人均純收入/元農村居民人均現金消費/元城鎮居民人均可支配收入/元城鎮居民人均現金消費/元1北京18337.513470.240321.026274.892天津15841.010088.632293.621711.863河北9101.95969.622580.313640.584山西7153.55463.222455.613166.195內蒙古8595.76763.325496.719249.066遼寧10522.76864.925578.218029.657吉林9621.26827.622274.615932.318黑龍江9634.16542.119597.014161.719上海19595.013872.943851.428155.0010江蘇13597.89486.932537.520371.4811浙江16106.011541.137850.823257.1912安徽8097.95344.923114.216285.1713福建11184.27552.530816.420092.7214江西8781.54910.121872.713850.5115山東10619.97184.228264.117112.2416河南8475.35353.022398.014821.9817湖北8867.05531.122906.415749.5018湖南8372.15854.223414.015887.1119廣東11669.37881.533090.024133.2620廣西6790.94547.023305.415417.6221海南8342.65090.722928.915593.0422重慶8332.05057.825216.117813.8623四川7895.35406.122367.616343.4524貴州5434.03888.320667.113702.8725云南6141.33953.023235.515156.1526西藏6578.22661.520023.412231.8627陜西6502.65420.722858.416679.6928甘肅5107.84393.718964.814020.7229青海6196.45506.619498.513539.5030寧夏6931.05942.121833.315321.1031新疆7296.55519.919873.815206.16數據結果及分析4.1聚類分析4.1.1聚類分析過程采用統計軟件SPSS可以快速方便的將樣本分類,“K-均值聚類”將樣本分為設定好的三類,分類結果如下:(1)K-均值聚類初始聚類中心表1初始聚類中心聚類123農村居民人均純收入5107.8019595.0015841.00農村居民人均現金消費4393.7013872.9010088.60城鎮居民人均可支配收入18964.8043851.4032293.60城鎮居民人均現金消費14020.7228155.0021711.86(2)樣本聚類表3聚類成員案例號地區聚類距離1北京22106.0632上海22106.0633天津34094.7144內蒙古15520.4525遼寧15465.7436江蘇32044.4307福建31948.5048山東34631.4639河北12185.57810山西12126.01311吉林12503.62912黑龍江13538.32313安徽11508.76514江西11763.94815河南1849.61416湖北11478.08017湖南11656.69418廣西11720.47519海南11096.90720四川11193.36921貴州13445.53622云南12392.05523西藏14670.97224陜西12074.79325甘肅14400.22126青海13484.40327寧夏11064.07228新疆12324.098(3)最終聚類中心表4最終聚類中心聚類123農村居民人均純收入7747.2518966.2512810.73農村居民人均現金消費5352.4413671.558578.05城鎮居民人均可支配收入22147.4742086.2030977.90城鎮居民人均現金消費15181.1827214.9519822.08表5最終聚類中心間的距離聚類123127155.81011642.926227155.81015552.591311642.92615552.591(4)聚類方差分析表6聚類方差分析聚類誤差FSig.均方df均方df農村居民人均純收入1.446E822458629.3842558.812.000農村居民人均現金消費74433749.03021132487.9062565.726.000城鎮居民人均可支配收入4.525E823345462.88325135.265.000城鎮居民人均現金消費1.554E822738553.2752556.758.000F檢驗應僅用于描述性目的,因為選中的聚類將被用來最大化不同聚類中的案例間的差別。觀測到的顯著性水平并未據此進行更正,因此無法將其解釋為是對聚類均值相等這一假設的檢驗。4.1.2聚類結果分析在本文中把31個省市分為了3個組,從上述聚類分析過程可知,樣本完全有效,這三類分別為:G1:遼寧、廣西、貴州、青海、新疆、安徽、江西、四川、甘肅、河北、山西、內蒙古、吉林、黑龍江、河南、湖北、湖南、云南、陜西、寧夏G2:北京、上海G3:天津、江蘇、山東、福建從分類結果可知,G2類北京、上海是經濟比較發達的地方,城鎮居民與農村居民收入都最高,相應的,其農村居民和城鎮居民的消費也最高;接下來的G3包括天津、江蘇、山東、福建,居民收入也較高,居民消費水平也較高;剩余的省市被歸為了G2組。G1的北京、上海兩大經濟中心,經濟發達遠超其他地區,G2組都是沿海省份,這說明現在我國經濟發展不平衡,沿海地區經濟比較發達,內地經濟發展落后。從最后的方差分析中可知,分類檢驗水平顯著,分類結果值得借鑒。4.2判別分析4.2.1判別結果及分析一般來講,利用判別分析首先要明確變量測量尺度及變量的類型和關系;因變量(dependentvariable):分組變量——定性數據(個體、產品/品牌、特征,定類變量)。自變量(independentvariable):判別變量——定量數據(屬性的評價得分,數量型變量)。本文中,自變量就是各地區農村居民人均純收入、各地區農村居民人均現金消費、各地區城鎮居民人均可支配收入、各地區城鎮居民人均現金消費4項。判別圖從圖中明顯可以看出,看到三個組分別圍繞各自中心分布,說明直觀上分組判別是完全可以接受的。典型判別式函數摘要表7特征值函數特征值方差的%累積%正則相關性113.497a99.499.4.9652.078a.6100.0.269a.分析中使用了前2個典型判別式函數。表8Wilks的Lambda函數檢驗Wilks的Lambda卡方dfSig.1到2.06464.6088.0002.9271.7703.621表9標準化的典型判別式函數系數函數12農村居民人均純收入-.307-.963農村居民人均現金消費.6951.045城鎮居民人均可支配收入1.317-.610城鎮居民人均現金消費-.745.800表10結構矩陣函數12城鎮居民人均可支配收入.895*-.009農村居民人均現金消費.623*.506農村居民人均純收入.590*-.078城鎮居民人均現金消費.579*.489判別變量和標準化典型判別式函數之間的匯聚組間相關性按函數內相關性的絕對大小排序的變量。*.每個變量和任意判別式函數間最大的絕對相關性表11組質心處的函數案例的類別號函數121-1.639.059210.540.51433.746-.581在組均值處評估的非標準化典型判別式函數從表7到表11中我們看到,因為分組變量是三類,所以我們得到兩個判別函數,其中第一判別函數解釋了數據的99.4%,第二判別函數解釋了0.6%;兩個判別函數解釋了100%;當然,兩個判別函數直接具有顯著的差異和判別力。(3)分類統計量表12組的先驗概率案例的類別號先驗用于分析的案例未加權的已加權的1.3332222.0002.33322.0003.33344.000合計1.0002828.000表13分類函數系數案例的類別號123農村居民人均純收入-.003-.005-.003農村居民人均現金消費.002.010.005城鎮居民人均可支配收入.008.017.012城鎮居民人均現金消費-.001-.006-.004(常量)-77.582-287.181-151.747Fisher的線性判別式函數表14組統計量案例的類別號均值標準差有效的N(列表狀態)未加權的已加權的1農村居民人均純收入7747.25001438.049772222.000農村居民人均現金消費5352.43641026.523812222.000城鎮居民人均可支配收入22147.47271770.801522222.000城鎮居民人均現金消費15181.17861624.321652222.0002農村居民人均純收入18966.2500889.1867822.000農村居民人均現金消費13671.5500284.7519022.000城鎮居民人均可支配收入42086.20002496.3697822.000城鎮居民人均現金消費27214.94501329.4385322.0003農村居民人均純收入12810.72502397.7316644.000農村居民人均現金消費8578.05001426.2234844.000城鎮居民人均可支配收入30977.90001962.4993744.000城鎮居民人均現金消費19822.07501939.8958444.000合計農村居民人均純收入9271.96073603.804452828.000農村居民人均現金消費6407.46072561.681272828.000城鎮居民人均可支配收入24833.15716051.283382828.000城鎮居民人均現金消費16703.71863748.239062828.000我們用Fisher線性判別函數用來構建判別方程,也就是說,理論上,如果我們知道某個城市在這4項居民收支狀況,就可以依據該函數判斷該城市屬于哪一組城市類型。4.2.2判別檢驗判別變量是數量型測量尺度變量,分析樣本個數至少比判別變量多兩個,我們為了得到判別函數,經常需要把樣本隨機分成訓練樣本和檢驗樣本等工作,如本文最后四個(序號33-36)個體就可作為檢驗樣本,也成待判樣本。由上表可知Fisher判別方程:G判別規則:,則判別結果:地區農村居民人均純收入農村居民人均現金消費城鎮居民人均可支配收入城鎮居民人均現金消費G1G2G3分組浙江1610611541.137850.823257.19176.7314251.6205218.8213G2廣東11669.37881.53309024133.26143.7598151.0179153.1996G3重慶83325057.825216.117813.8691.4525443.5275479.88376G1因此浙江與北京上海同屬經濟發達的G2組,廣東與天津、江蘇、山東、福建同屬經濟較發達的G3組,而重慶屬于經濟欠發達的G3組。與31個地區共同做分類后得到的結果一直,因此該分類是合理的。表1531個省市聚類成員案例號地區聚類距離1北京1795.5932天津23897.9553河北32234.4104山西32227.9455內蒙古35354.9186遼寧35313.7697吉林32456.9298黑龍江33660.5919上海14304.86710江蘇21876.33611浙江14537.36512安徽31333.92913福建21852.41514江西31859.36915山東25293.48716河南3855.53117湖北31353.31418湖南31502.62019廣東23986.80320廣西31629.91821海南3946.11822重慶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云計算下的網絡技術試題及答案
- 低碳公路設計相關試題及答案
- 2025年消費與零售行業戶外運動裝備市場消費趨勢及品牌策略報告
- 葡萄栽培試題及答案詳解
- 組織文化在行政管理中的作用試題及答案
- 行政組織中有效決策的關鍵要素試題答案
- 傳媒的招聘面試題及答案
- 小區物業面試題目及答案
- 2025標準裝飾設計合同范本
- 文化概論英語試題及答案
- 價格認定規定培訓課件
- 創業計劃書九大要素
- 《肺癌的診治指南》課件
- 機關干部反邪教知識講座
- 2024年新興際華投資有限公司招聘筆試參考題庫含答案解析
- (決勝小升初)北京市六年級下冊數學重點學校分班考試卷(通用版 )
- MSOP(測量標準作業規范)測量SOP
- 資產評估學教程(第八版)習題及答案 喬志敏
- 校園保安服務投標方案
- 異分母分數加減法教學設計
- 完整版雙膝骨性關節炎護理查房ppt
評論
0/150
提交評論