數據挖掘及決策樹_第1頁
數據挖掘及決策樹_第2頁
數據挖掘及決策樹_第3頁
數據挖掘及決策樹_第4頁
數據挖掘及決策樹_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、- -昆明理工大學信息工程與自動化學院學生實驗報告(20162017學年第學期)課程名稱:數據倉庫與數據挖掘開課實驗室:信自樓4442017年06月01日年級、專業、班軟件141班學號2014104131XX姓名陳*成績實驗項目名稱數據挖掘及決策樹指導教師賈連印教師評語該同學是否了解實驗原理:兒了解口B.基本了解口CJ、了解口該同學的實驗能力:A.強口B.中等口C.差口該同學的實驗是否達到要求:A.達到口B.基本達到口C.未達到口實驗報告是否規范:A.規范口B.基本規范口C.不規范口實驗過程是否詳細記錄:A.詳細口B.一般口C.沒有口教師簽名:年月日、上機目的及內容目的:1理解數據挖掘的基本概

2、念及其過程;2.理解數據挖掘與數據倉庫、OLAP之間的關系3理解基本的數據挖掘技術與方法的工作原理與過程,掌握數據挖掘相關工具的使用。內容:給定AdventureWorksDW數據倉庫,構建“Microsoft決策樹”模型,分析客戶群中購買自行車的模式。要求:利用實驗室和指導教師提供的實驗軟件,認真完成規定的實驗內容,真實地記錄實驗中遇到的二、實驗原理及基本技術路線圖(方框原理圖或程序流程圖)請描述數據挖掘及決策樹的相關基本概念、模型等。1.數據挖掘:從大量的、不完全的、有噪音的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。2.數據挖掘的功能:功能

3、概念或作用概念描述對某類對象的內涵進行描述,并概括這類對象的有關特征關聯分析從大量的數據中發現項集之間有趣的聯系、相關關系或因果結構,以及項集的頻繁模式分類與預測分類:提出一個分類函數或者分類模型,該模型能把數據庫中的數據項映射到給定類別中的一個;預測:利用歷史數據建立模型,再運用最新數據作為輸入值,獲得未來變化趨勢或者評估給定樣本可能具有的屬性值或值的范圍聚類分析根據數據的不同特征,將其劃分為不同數據類偏差分析對差異和極端特例的描述,揭示事物偏離常規的異常現象,其基本思想是尋找觀測結果與參照值之間有意義的差別3.決策樹:是一種預測模型,它代表的是對象屬性與對象值之間的一種映射關系。樹中每個節

4、點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數輸出,可以建立獨立的決策樹以處理不同輸出。4.常用決策樹算法:算法概念ID3在實體世界中,每個實體用多個特征來描述。每個特征限于在一個離散集中取互斥的值C4.5對ID3算法進行了改進:用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;在樹構造過程中進行剪枝;能夠完成對連續屬性的離散化處理;能夠對不完整數據進行處理。三、所用儀器、材料(設備名稱、型號、規格等或使用軟件)1臺PC及MicrosoftSQLServer套件

5、四、實驗方法、步驟(或:程序代碼或操作過程)(一)準備AnalysisServices數據庫1.AnalysisServices項目創建成功解決方案黃源管理器-疝嬴三斗X隔箱口AdventureWorks|晶|匕會源視圓i匕鑫融翼集,I.匕匕角色;匕叫集:&詢2.更改存儲數據挖掘對象的實例H目標司率扳本1適步丑|l&calhot頻AdvcnturcWark造日闞牛認但專行部署False造心僅部里更逑竭用s袈尋頂E弗生到其中的Anal/sisServices室周S?i=(C);SiftCDevelopmeiit)*平白色;不可用樂取消SEih&5=KiO).SEih&5=KiO).3.創建數據源

6、4.修改數據源視圖(二)生成目標郵件方案.創建用于目標郵件方案的挖掘結構ai_jAdv&ntur&WorkDUV$-口舞據源j-&數據源視圖CnistumerKeyGeuaphyKuyChie+amerA_tpCnistumerKeyGeuaphyKuyChie+amerA_tprnat.TitleFirmttT:如曰Middl&Nam&La5-LK:jjTieN:diii嘲StyleEirtKDatet:=JEt:ktnETargetedMail沁gdmm程序集匕雜項.修改目標郵件模型創建聚類分析挖掘模型NaiveBayes模型處理挖掘模型(三)決策樹H.lJhiLuuqr./hFILaHrLpJUdMlOMM;NfaFL?JKi-OM耳ICEO?rlv.(四)依賴關系網絡五、實驗結果(測試數據、圖表、計算等)決策樹六、分析和結論(誤差分析與數據處理、成果總結等。其中,繪制曲線圖時必須用計算紙或程序運行結果、改進、收獲)在本次實驗中,在建立數據源視圖時,多次出現錯誤,后來發現是因為未附加數據庫的原因,附加數據庫后解決了。因為實驗沒有完成就關閉了電腦,重啟電腦后,出現無法連接的錯誤,后通過管理界面啟動服務后解決。在部署時,出現由于“創建用于目標郵件方案的挖掘結構”中“內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論