




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 實驗六 聚類分析 動態聚類和變量聚類二、動態聚類法FASTCLUS過程動態聚類又稱為逐步聚類,基本思想是,開始先粗略地分一下類(先選一批凝聚點,讓樣品向最近的凝聚點聚集,就得到初始分類),然后按照某種最優的原則修改不合理的分類,直到分得比較合理為止。FASTCLUS過程的一般格式:PROC FASTCLUS MAXCLUSTER=n|RADIUS=t <options>VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;語句說明:PROC FASTCLUS 語句用來開始FASTCLUS過程,必須
2、規定說明項MAXCLUSTER= 或RADIUS= 中的一個。說明項和常用選項:(1) MAXCLUSTER=n|MAXC=n :指定所允許的最大分類數,缺省為100.(2) RADIUS=t :為選擇新的“凝聚點”指定的最小距離準則。當一個觀測點與已有“凝聚點”的最小距離均大于由該選項規定的值t時,該觀測可考慮用來作為新的“凝聚點”。t的缺省值為0.(3) DATA=SAS-data-set:給出進行聚類的觀測數據集的名字。(4) OUT= SAS-data-set:聚類結果保存都新的數據集中,包含VAR中變量,及新變量cluster和distance(觀測與所屬類間的距離)。(5) CLU
3、STER=name: 規定在輸出的數據集中用以指示觀測屬于哪一類的變量名字。缺省為CLUSTER.(6) DRIFT:執行逐個修改法(7) MAXITER=n:指定重新計算類的凝聚點的最大迭代次數。當n>0時,執行按批修改法。缺省為1.(8) DISTANCE:要求輸出類均值之間的距離(9) LIST:要求列出所有觀測所歸入類的類號及觀測同最終凝聚點之間的距離。注意事項:應用舉例:例2:試用FASTCLUS過程對16個地區農民生活水平的調查數據(數據集d641)進行分類。SAS程序:proc fastclus data=d641 out=out653 maxc=4 list;var x1
4、-x6;id group;run;maxc=4:規定最大分類個數為4類list:要求列出分類結果。out=out653:指定生成名為out653的輸出數據集,包含VAR中的變量,新變量cluster和新變量distance(觀測與所屬類中心的距離)。主要輸出結果: 動態聚類的初始凝聚點(數據不標準化)動態聚類的分類結果(數據不標準化)第一類:北京、浙江第二類:上海第三類:河北、山西、黑龍江、山東、河南第四類:內蒙、遼寧、吉林、江蘇、安徽、福建、江西動態聚類產生的各類均值和標準差(數據不標準化)以下SAS程序首先調用STANDARD過程對數據作標準化變化,然后用標準化變換后的數據進行動態聚類分析
5、。Proc standard data=d641 mean=0 std=1 out=sta653;Var x1-x6;/*將數據集d641中的變量x1-x6標準化,輸出到數據集sta653中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x6;id group;Run;主要輸出結果:動態聚類的初始凝聚點(數據標準化)動態聚類的分類結果(數據標準化)第一類:北京 第二類:上海 第三類:河北、山西、內蒙、山東、河南第四類:天津、遼寧、吉林、黑龍江、江蘇、浙江、安徽、福建、江西三、變量聚類VARCLUS過程VARCLUS過程的一般格
6、式:PROC VARCLUS語句及選項:數據集選項:(1) DATA=SAS-data-set:指定要分析的數據集,數據集可以是通常的SAS數據集或是TYPE=CORR,UCORR(矯正過的相關系數矩陣),COV,UCOV等的數據集。(2) OUTSTAT=SAS-data-ste:生成一個輸出數據集,包含均值、標準差、相關系數、類得分系數和類的結構。(3) OUTTREE=SAS-data-set:生成輸出數據集,包含有聚類過程的樹狀結構信息,可用TREE過程畫樹狀圖。確定分類個數的選項:(1) MAXCLUSTERS=n|MAXC=n:規定所要求的最大分類個數,缺省為變量個數。(2) MI
7、NCLUSTERS=n|MINC=n:規定所要求的最小分類個數,缺省從一個類開始試著按照選項PROPORTION=或者MAXEIGEN=進行分裂分類(3) MAXEIGEN=n:規定每一類第二特征值所允許的最大值,缺省,若沒有規定選項PROPORTION=或MAXC=,且輸入數據集為相關陣時,缺省值為1;若輸入數據集為協方差陣時,缺省值為變量方差的均值。該選項不能與CENTROID同時使用(4) PROPORTION=n|PERCENT=n:規定類分量必須解釋的方差比例或百分比。若指定選項CENTROID,缺省為0.75,否則為0聚類方式選項:(1) CENTROID:使用重心分量而不是主分量
8、,缺省為主分量法(2) MAXITER=n:規定最大迭代次數,若規定了CENTROID,缺省為1,否則,缺省為10控制輸出的選項:(1) CORR|C:只輸出相關陣(2) NOPRINT:不要求打印輸出(3) SHORT:不打印類結構,得分系數和類間相關陣(4) SIMPLE|S:打印均值和標準差(5) SUMMARY:只打印最后的匯總表(6) TRACE:列出在迭代過程中每個變量所歸入的類。應用舉例(課本P260 例6.7.1)例3:對305名女中學生測量8項體型指標:X1為身高,X2為手臂長,X3為手肘長,X4為小腿長,X5為體重,X6為頸圍,X7為胸寬。表6.12是由3.5名中學生的觀測
9、數據計算得到的相關系數矩陣,試對8個體型指標分類。SAS程序:data d672(type=corr); title '在中學生中測量八個體型指標的相關系數' label x1='身高' x2='手臂長' x3='上肢長' x4='下腿長' x5='體重' x6='頸圍' x7='胸圍' x8='胸寬' input _name_ $ x1-x8; _type_='corr' cards;x1 1.000 .846 .805 .859 .
10、473 .398 .301 .382x2 .846 1.000 .881 .826 .376 .326 .277 .415x3 .805 .881 1.000 .801 .380 .319 .237 .345x4 .859 .826 .801 1.000 .436 .329 .327 .365x5 .473 .376 .380 .436 1.000 .762 .730 .629x6 .398 .326 .319 .329 .762 1.000 .583 .577x7 .301 .277 .237 .327 .730 .583 1.000 .539x8 .382 .415 .345 .365 .
11、629 .577 .539 1.000;proc print;title;proc varclus data=d672;run;程序說明:第一個VARCLUS過程沒有規定聚類的方法,缺省時用主分量聚類分析法;且沒有規定選項PROPORTION=或maxc=,故以MAXEIGEN=1確定分類個數。VARCLUS過程的主要輸出結果上表輸出主分量聚類分析的基本信息和分為一類時的匯總表.包括類的序號(cluster)、類內成員個數(members)、類內的總方差(cluster variation)、由類分量所解釋的方差大小(variation explained)、由類分量解釋的方差占類內總方差的比
12、例(proption explained)、類中第二特征值(second eigenvalue).由于MAXEIGEN=n缺省,且沒有規定選項PROPORTION=或maxc=,故缺省值為1,由于輸出結果中第二特征值為1.7710>1,所以一類要繼續分為兩類。也可看proption explained,缺省值為0.75,此處小于0.75,故要繼續分類。 出分為兩類時的匯總表和比率。 類時第一類和第二類的第二特征值分別為0.2361和0.4764,都小于1,故分類結束,最終分為兩類。 下半部分給出有關的信息: Own Cluster為某變量與自己所在類的類分量之間相關系數的平方,值越大,說
13、明該變量越應該被分到該類中; Next Closest表示某變量與最接近類的類分量相關系數的平方,值越小,說明類分得越好; 1-Ratio等于(1- with Own Cluster)除以(1- with Next Closest),值越小越好。 標準得分系數標準得分系數表示由變量預測類分量的標準回歸系數。分類結構 分類結構給出的是每個變量同每個類分量之間的相關系數。結果顯示第一類中的變量與第一個類分量的相關系數較大,與第二個類分量的相關系數較小。類分量之間的相關系數陣和分類總結表 上半部分為類間相關系數,兩類建相關系數為0.44513,相關性較小。proc varclus data=d672 maxc=8 summary outtree=o672;run;proc tree data=o672 horizontal graphics ;run;程序解釋說明:選項maxc=8規定最大分類個數為8;VARCLUS過程使用選項outtree=o772,表示用譜系聚類方法,產生的輸出數據集o772
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國功夫美術課件
- 腫瘤免疫治療藥物作用機理
- 大單元課堂活動設計
- 中國制度面對面課件
- 2025屆福建省漳州市龍文區龍文中學英語八下期中質量檢測模擬試題含答案
- ICU患者的護理常規
- 莒縣招工作總結與計劃
- 公交機動車運行技術課件
- 義工服務技能培訓
- 走好人生第一步廉政教育
- 供水公司合同協議樣本
- 商飛在線測評內容題
- 2024年食品安全抽檢監測技能大比武理論考試題庫(含答案)
- 069.糖尿病酮癥酸中毒診斷和處理
- 桿杠各類題型復習-2024-2025學年浙教版九年級上冊科學
- 四川省遂寧市(2024年-2025年小學四年級語文)人教版期末考試((上下)學期)試卷及答案
- 可持續棕櫚油圓桌倡議組織RSPO供應鏈認證管理手冊及程序文件
- 游戲行業的數據分析和決策支持
- DL∕T 516-2017 電力調度自動化運行管理規程
- 江蘇省鹽城市東臺市2023-2024學年八年級下學期期末英語試卷(含答案解析)
- 住院成人高血糖患者血糖監測醫護協議處方共識
評論
0/150
提交評論