數據挖掘軟件CLEMENTINE介紹_第1頁
數據挖掘軟件CLEMENTINE介紹_第2頁
數據挖掘軟件CLEMENTINE介紹_第3頁
數據挖掘軟件CLEMENTINE介紹_第4頁
免費預覽已結束,剩余30頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘軟件數據挖掘軟件CLEMENTINE介紹介紹Clementine產品介紹產品介紹 Clementine是ISL(Integral Solutions Limited)公司開發的數據挖掘工具平臺。1999年SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發,現在Clementine已經成為SPSS公司的又一亮點。 作為一個數據挖掘平臺, Clementine結合商業技術可以快速建立預測性模型,進而應用到商業活動中,幫助人們改進決策過程。 強大的數據挖掘功能和顯著的投資回報率使得Clementine在業界久負盛譽。 同那些僅僅著重于模型的外在表現而忽略了數據挖掘在整

2、個業務流程中的應用價值的其它數據挖掘工具相比,Clementine其功能強大的數據挖掘算法,使數據挖掘貫穿業務流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。 Clementine中的Data Mining 的方法 Classification Clustering Estimation Prediction Market Basket Analysis Description預測和分類推估類似,不同在于是預測未來,將新資料帶入既有資料建立的模型預見結果銀行新申請信用卡的客戶要給多少額度估計和分類的不同在於目標變量為連續值,常和分類配合用分類判斷為會貸款客戶后再推估會貸款的金額聚類非

3、監督式,未知有幾類,將性質類似的資料加以區分,把顧客資料分群對不同群體采用不同推銷手法購物籃分析找出哪些事件會一起發生超級市場發現男性客戶會一起購買啤酒跟尿布描述增進對于資料的認識,圖形視覺化呈現,或規則、決策樹等相相關關技技術術神經網絡決策樹 (C5.0 C&RT)Logistic 回歸等等相相關技術關技術K-Means兩步驟Kohonen等等相關技術相關技術分類跟估計的所有方法相相關關技技術術AprioriGRI等等相相關關技技術術決策樹規則各類圖表等等分類目標變量(因變量、反應變量數)為類別的狀況信用卡公司將既有資料分為偽卡非偽卡找出偽卡的模式Debt$40KQ QQ QQ QQ

4、 QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經網絡神經網絡 Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標市場 價格彈性分析 客戶細分 市場細分 傾向性分析 客戶保留 目標市場 欺詐檢測

5、關聯分析關聯分析 AssociationAssociation 市場組合分析 套裝產品分析 目錄設計 交叉銷售Clementine面板面板Clementine的使用的使用 1打開一個流文件 2執行流文件中的某一流程執行流文件中的某一流程 3得到結果 4瀏覽結果1 4瀏覽結果2 5瀏覽結果3Clementine流文件的建立流文件的建立1讀取數據文件1 在節點區,雙擊文件讀入節點,在流區出現其圖標再在流工作區,雙擊文件讀入節點,讀入所需數據文件。 讀取數據文件2 對數據進行處理12456 去掉兩個變量Na、K3 增加新變量:Na_to_K=Na/K 定義變量的方向在節點區雙擊Type節點,使之在流

6、區中出現把Drug的Direction從in(輸入)改為out(輸出) 作分類處理讀取文本數據與查看數據 Clementine可以讀入的數據文件文本格式數據 SPSS/SAS數據 Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等數據庫 用戶輸入數據文件讀入節點:讀取文本數據與查看數據 查看數據1點擊Data 和Types,出現數據的屬性 查看數據2點擊Table,使之出現在流工作區,再點擊Execute(執行),得到右面圖表:Clementine中的字段類離散型 二分 eg:sex:m/f 多分 eg: 等級:好/中/差 離散 eg: 連續型 整

7、數 實數 日期、時間 其它數據理解之數據質量 缺失值的檢查:quality節點點擊Quality節點,使之出現在工作區,再執行Quality,出現數據質量表,從中可以看出,數據100%有效,一共有200個有效數據。 Distribution節點-初步 理解字符型字段的分布 1234 簡單數據整理 Derive節點介紹2 增加新變量:Na_to_K=Na/K根據原有字段值生成新字段值 Filter節點介紹對某些字段進行重命名或丟棄某些無意義的字段去掉兩個變量Na、K數據理解之數據間簡單關系 Web節點-研究字符型字段間關系1 Web節點-研究字符型字段間關系2執行后,得到字符間的網狀連系,其中粗線條,表示字符之間的強聯系。 Statistics節點-研究連 續型字段間線性相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論