




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章簡 本文目 數據說 案例使用的軟 第2章創建項 新建EM項 創建流程圖和數據 第3章數據探索分 基本準 圖形探 多式 統計探 小 第4章數據修 基本準 定位缺失 刪除方 處理 繼續處理缺失 第5章聚類分 基本準 聚類結 聚類確 結果解 第6章SCORE新數據 基本準 SCORE步 在SASBASE中 第1本文目本文使用SASEM演示聚類建模的整個過程,希望給予SASEM初學者帶來助數據說變描變描用資產負債率=(負債總額÷資產總額負債與有形凈資產比率=(負債總額÷有形凈資產主營業務毛利率=銷售毛利÷主營業務收入凈額主營業務利潤率=利潤÷主營業務收入凈額凈資產收益率=凈利潤÷平均凈資產總資產增長率=本年總資產增長額÷年初資產總額市值(億元案例使用的軟本文案例中使用SASEM版本為“SASEnterpriseMiner13.2作作者,數據挖掘實踐者。 第2建項EM打開SASEM創建新SASEM項目,填寫項目名稱和SAS服務器 稱根據個人喜好設置,SAS服務器 新建項目完成后設置項目啟動代項目啟動代碼一般用于為EM創建LIBNAME,創建流程圖和數據FC右鍵單擊“數據源”創建數據源,按照提示步驟進因為前面設置了項目啟動代碼,直接瀏覽到數據文件“caiwu2014.sas7bdat口“缺失值百分比閾值設置當缺失值超過一定百分比后則使用該變量“水平計數閾值”:當類別變量水平數超過一定數量后則使用該變量;第3基本準SASEM中實現基本數據探索功能的主要有“圖形探多式統計探索”操作步驟此步驟可以通過勾選“基本統計量”等查看基本的統計圖形探圖形探索節點,是EM提供的一個作圖工具可以通過簡單的鼠標操作即生成相下面通過幾個例子說明操作散點圖:用于反應兩個變量之間的相互關系將流動比率設為X,速動比率設為Y,從理論上兩個變量應當正圖可對圖形的相關屬性執行個性化設置,優化圖形效數變 密度圖:反映變量的分布情況總資產收益率的密度圖直觀的顯示出了長尾有偏分布特征另外,可以直接圖形--->將其他需要探索的變量設 X,即直接生成其變量的密度圖三維圖形:展示三個變量之間的分布任意選擇三個變量,效果如下多式量“I”設定為目標變量。多式圖可以自動各個變量與目標變量之間的圖形。多式圖可以生成條形圖、散點圖,或同時生成兩者。節點的屬性設置如下運行節點,結果顯示如在輸出窗口,還顯示了各個變量的簡單統計量統計探 設定為目標運行節點,生成的結果中多了一個相關圖和變量效用圖小統計探索主要用于存在目標變量的情況下,可以便捷的探索解釋變量與目標變量的圖第4據修基本準本章節主要利用EM解決數據缺失與異常兩方面的問題,為聚類分析準備優質的定位缺失融行業的財務報表與其他行業的財務報表項目存在一些基礎性的差異,猜測缺失值或上市公司所屬行業有關,通過加入“S代碼”節點來進行相關驗證。將“SAS代碼”節點與“輸入數據節點”連接--->SAS代碼的屬性窗口選擇“代SET Liu_Dong_Ratio=.ORSu_Dong_Ratio=.ORXian_Jin_Liu_Dong_Ratio=.ORZi_Chan_Fu_Zhai_Ratio=.ORChan_Quan_Ratio=.ORFu_Zhai_You_Xing_Ratio=.ORYing_Shou_Kuan_Turn_Ratio=.ORCun_Huo_Turn_Ratio=.ORZong_Zi_Chan_Turn_Ratio=.ORGu_Ding_Zi_Chan_Turn_Ratio=.ORZhu_Ying_Mao_Ratio=.ORZhu_Ying_Li_Run_Ratio=.ORZi_Chan_Jing_Li_Ratio=.ORJing_Zi_Chan_Shou_Yi_Ratio=.ORZi_Ben_Lei_Ji_Ratio=.ORZi_Chan_Zeng_Zhang_Ratio=.ELSEISMIS=0;PROCSQL;/*PROCSQL統計每個行業存在的缺失值數量以及缺失值占比*/ COUNT_MIS*1.0/CALCULATEDCOUNT_TOTALASPCTFROMGROUPBYINDUSTRY,1746322結果與預期一致,1746322因此本案例決定刪除金融行業的上市公司,僅對其余公司做后續聚類刪除方SASEM中刪除部分觀測值可以使用以下使用“過濾”節點交互式的過濾掉、銀行和保險行業的觀測添加“過濾”節點,屬性窗口設置如下點擊“分類變量”--->在“交互式分類過濾中選擇、銀行和保 多選“SAS代碼”節點添加 代碼”節點--->“打開代碼編輯器”--->在“訓練代碼窗口”中輸入如SET&EM_IMPORT_DATA;IFINDUSTRYNOTIN("","銀行","保險運行“SAS代碼”節點--->點擊“導出的數據”--->選擇“TRAIN”--->點擊“屬性發現此時導出的數據集僅包含2833條數據,較之前的2880條數據少了47條,而、銀行和保險行業的公司數量正好是 條,因此刪除成功處理變量,在此使用MAD方法處理值。節點屬性設置如下:相關閾值參數保持默認值不變,可以點擊“截止值”查看相關屬性運行節點,可以查看替換結果替換后的變量名稱在原變量前加了個前綴“REP_”可以通過“查看”--->“評分 代碼”查看所使用的替換方法繼續處理缺失將“補缺”節點連接至“替換”節點--->使用“中位數”補齊缺失值,節點下運行節點,查看結果如IMP_第5類分基本準聚類結聚類Ward:該方法生22個聚類,點線圖和CCC圖如下根據以上兩個圖 方法生成的聚類數量較多,并且各個類別之間的辨識度高均值平均值法生成四個聚類,點線圖和CCC圖均表明四個聚類間具有明顯的差異。聚類重心法:同樣,重心法也生成四個聚類,且四個聚類間的辨識度聚類確分布情況。要查看“聚類ward”方法的結果數據集,可以通過選中“聚類ward”節點--->點擊屬性設置中的“導出的數據道“聚類ward”生成的數據集名稱CLUS_TRAIN類重心法”生成的數據集名稱為“CLUS2_TRAIN碼PROCSELECTAVG.STOCK_CODE,CEN._SEGMENT_AS,WARD._SEGMENT_ASWARD_CLUS &EM_LIB..CLUS2_TRAINASCENONAVG.STOCK_CODE=CEN.STOCK_CODE TITLE"平均值法結果與重心法結果對比";TITLE"WARD法結果對比";PROCFREQDATA=TREE_METHOD_RESULT;輸出如下可以發現平均值法與重心法生成的聚類結果完全一致Ward法生成的22個聚類中,聚類4、7、8、13主要分布于平均法的1;聚類1、6、9、14主要分布于平均法的2;聚5、11、21主要分布于平均法的聚類3;聚類、、、、、、、、、、22主要分布于平均法的聚類4。根據上述分析,將原始觀測值劃分為四個聚類是比較合結果解在市場活動中常常會針對劃分出的聚類設定不同的方案那么要做到更進一變變 指標意 聚類 聚類 聚類 聚類LiuDongRatioSuDongRatioXianJinLiuDongRatioChanQuanRatio----FuZhaiYouXingRatioZiChanFuZhaiRatioJingZiChan----
--
--
--ZiChanJingLi
-
-XiaoShouZengZhangRatZiBenLeiJiRatioZiChanZengGuDingZiChanTurn
營運
---
YingShouKuanTurnRatio營運能力ZongZiChanTurn 營運
-
-
--7,聚類3 聚類 償債能力、能力、發展能力偏低,營運能力高分析至此,喜歡根據財務指標選股的朋友已經差不多心中有個大概了節點并連接至“聚類平均值”節點段剖面”節點設置如下:運行節點,打開結果”容易看出各個聚第6章SCORE新數據基本準為SCORE。本節流程圖如下:SCOREEMSCORE新數據集是非常簡單的工作,首先往項目中添加需要被SCORE的CAIWU2015節點連接至“評分”節點--->同時將“聚類平均值”節點連接至“評分”節點。評分節點設置如下本例將“評分數據類型”設為數據,即生成一個數據集,如果選擇視圖,則生據視圖。另外,如果需要C語言或JAVA語言的評分代碼,可將相應屬性設為“是。運行節點,打開結果優化的SAS 代碼保存為SAS代碼文件,在沒有EM的條件下,也可以使用SASBASE對新數據集評那么評分運行完之后,評分結果在哪呢看到SCORE數據集存在,且其名稱為EMWS1.SCORE_SC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論