




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Clementine基礎培訓基礎培訓 第一部分第一部分 介紹介紹Clementine數據挖掘軟件的基本操作和環境,學習如數據挖掘軟件的基本操作和環境,學習如何使用何使用Clementine讀取、處理數據讀取、處理數據 培訓內容培訓內容 ?第一章第一章 Clementine簡介 ?第二章第二章?第三章第三章?第四章第四章?第五章第五章 ? 2006 SPSS Inc. 2 讀取數據文件 數據質量 數據處理 尋找數據之間的關系 第一章第一章 Clementine簡介簡介 SPSS SPSS 世界級軟件公司世界級軟件公司 ?19681968成立成立 ?1993,Nasdaq1993,Nasdaq 上
2、市上市 ?總部總部: Chicago : Chicago ?遍布全球遍布全球 6060多個國家多個國家2000 2000 多名員工多名員工 ?超過超過250,000 250,000 家企業使用家企業使用SPSS SPSS ?2 2百多萬名授權用戶百多萬名授權用戶 Chicago Chicago ? 2006 SPSS Inc. 4 SPSS 銀行業用戶銀行業用戶 The World Bank Group ? 2006 SPSS Inc. 5 SPSS 保險業用戶保險業用戶 ? 2006 SPSS Inc. 6 SPSS 電信業用戶電信業用戶 ? 2006 SPSS Inc. 7 Clement
3、ine系統結構圖系統結構圖 ? 2006 SPSS Inc. 8 Clementine 簡介簡介 ?實用的數據挖掘方法論CRISPDM ?圖形化的操作環境,提高了易用性、減低了入門要求和學習時間 ?率先引入可視化建模思想和數據展現概念 ?Client/Server的結構提高了處理大數據量的能力 ?Data Preparation 的優越功能 ?多種(Telecom、Fraud、CRM)Clementine應用模板(CATs) ?有多家合作伙伴開發行業應用方案,Siebel、Sybase等公司已選用Clementine作為其CRM和BI方案的數據挖掘平臺。 ? 2006 SPSS Inc. 9
4、Clementine 特點特點 ?支持圖形化界面、菜單驅動、拖拉式的操作 ?提供豐富的數據挖掘模型和靈活算法 ?具有多模型的整合能力,使得生成的模型穩定和高效?數據挖掘流程易于管理、可再利用、可充分共享 ?提供模型評估方法 ?數據挖掘的結果可以集成于其它的應用中 ?滿足大數據量的處理要求 ?能夠對挖掘的過程進行監控,及時處理異常情況 ?具有并行處理能力 ?支持訪問異構數據庫 ?提供豐富的接口函數,便于二次開發 ?挖掘結果能夠轉化為主流格式的適當圖形 ? 2006 SPSS Inc. 10 Clementine操作簡介操作簡介 ?內容 ?熟悉 Clementine 中的工具和面板?介紹可視化編程
5、的思想 ?目的 ?初步了解 Clementine 的功能 ?數據 ?課程配有相應的虛擬的數據文件 ? 2006 SPSS Inc. 11 Clementine用戶界面用戶界面 菜單欄 工具欄 數據流, 輸出和模型 管理器 數據流區域 選項板區 項目窗口 節點 ? 2006 SPSS Inc. 12 可視化編程可視化編程 ?節點 ?一個圖標代表在 Clementine ?工作流 ?一系列連接在一起的節點 ?選項板 ?包含一系列不同功能的圖標 ? 2006 SPSS Inc. 13 中進行的一個操作選項板選項板 ?源節點 ?用來將數據讀入 Clementine 中 ?記錄選項節點 ?在記錄上進行操
6、作 ?一條記錄是一種“情形”或一“行” 數據?字段選項節點 ?在字段上進行操作 ?一個字段是一個變量 ?圖形節點 ?在建模之前和之后用來可視化數據 ?建模節點代表有效建模算法 ?注意:建模算法產生生成的模型 ? 2006 SPSS Inc. 14 在下面一部分在下面一部分舉例:舉例: ?增加一個節點 ?移動一個節點 ?編輯一個節點 ?重新命名一個節點 ?復制一個節點 ?刪除一個節點 ? 2006 SPSS Inc. ?注釋一個節點 ?保存一個節點 ?重新載入一個節點 ?連接節點 ?刪除節點連接 ?獲得幫助 15 增加一個節點增加一個節點 ?在選項板上雙擊節點,自動放置節點到數據流區域注意:它會
7、自動地連接到“中心”節點 ?將節點從選項板拖放到數據流區域中 ?在選項板上點擊一個節點,然后在數據流區域中點擊一下 ? 2006 SPSS Inc. 未選未選選擇選擇 擇擇 當節點在選項板中被選中后,會變成淡藍色 16 ?編輯一個節點編輯一個節點 ? 2006 SPSS Inc. ?在節點上右擊,展開一個節點 ?點擊 “編輯” ?在菜單上還可以選擇連接、斷開連接、重命名、注釋、復制、刪除、載入、保存等操作 17 連接節點連接節點 ?使用鼠標中鍵來連接節點 ?在數據流區域上,把一個節點連接到另一個上,可以通過鼠標中間鍵點擊和拖放來完成(如果您的鼠標沒有中間鍵,可以通過按住“Alt”鍵來模擬這個過
8、程) 使用鼠標中鍵使用鼠標中鍵 ? 2006 SPSS Inc. ?通過雙擊來連接節點 ?雙擊選項板上的節點,自動把新節點連接到數據流區域中的“中心”節點上 未選中的節點(灰白色)未選中的節點(灰白色) 被選中的節點被選中的節點(淡藍色)(淡藍色) 18 刪除節點之間的連接刪除節點之間的連接 ?在連接箭頭的頭部按住鼠標右鍵選擇“刪除連接” ? 2006 SPSS Inc. 19 關于連接節點:關于連接節點:源節點源節點 ? 2006 SPSS Inc. ?源節點是連接到初始數據源的節點 ?源節點只能發送數據 ?不能連接到一個源節點 20 關于連接節點:關于連接節點:終端節點終端節點 ?終端節點
9、是生成輸出、圖形、表格和模型的節點 ?不能從終端節點連接到任何節點 ? 2006 SPSS Inc. 21 設置目錄設置目錄 ? 2006 SPSS Inc. ?為了方便地存取數據文件或流,您可以將目錄設定為自己文件的位置 ?只在本次操作中起作用 ?通過選擇菜單“文件”中 “設置目錄” 選項,然后輸入或選擇工作目錄 22 Clementine 客戶端和服務器端客戶端和服務器端 ?Clementine 可以運行在 客戶端和服務器端兩種模式下 ?默認的模式是客戶端 ?在菜單 “ 工具” 中選擇 “服務器登錄” ?注意 Clementine 客戶端和服務器端版本必須匹配 ? 2006 SPSS In
10、c. 23 幫助菜單幫助菜單 ?幫助主題 ?CRISP-DM 幫助 ?教程 ?軟件使用 ?輔助選項幫助 ?鍵盤代替鼠標操作?這是什么 ? 2006 SPSS Inc. 24 第二章第二章 讀取數據文件讀取數據文件 課程簡介課程簡介 ?內容 ?Clementine 中可以讀取的數據格式 ?讀取文本數據文件 ?讀取 SPSS 數據文件 ?使用 ODBC 讀取數據庫 ?查看數據 ?Clementine 中的數據類型和字段方向 ?保存 Clementine 數據流 ?目的 ?介紹數據讀入 Clementine 的一些方法? 2006 SPSS Inc. 26 Clementine 中讀取數據格式中讀取
11、數據格式 ?文本文件 ?SPSS 數據文件 ?ODBC 兼容的數據庫 ?SAS 數據文件 ?用戶輸入文件 ? 2006 SPSS Inc. 27 文本文件文本文件 ?自由字段文本文件是包含分隔符(逗號、制表符、空格或一些其它字符)的數據文件,可以使用變項文件節點讀取數據 ?如果數據是列界定的(字段未被分隔,但是始于相同的位置并有固定長度),應該使用固定文本文件導入固定文件節點 ?讀取文件 ?SmallSampleComma.txt ?SmallSampleFixed.txt ? 2006 SPSS Inc. 28 讀取自由字段文本文件讀取自由字段文本文件 ?添加變量文件節點到數據流區域 ?編輯
12、節點指向文件 SmallSampleComma.txt ?通過選擇“類型” 條目檢查結果 ? 2006 SPSS Inc. 29 讀取固定字段文本文件讀取固定字段文本文件 ?移動一個固定文件節點到數據流區域 ?編輯這個節點指向文件 SmallSampleFixed.txt ?構造 4 個新字段,列出變量名和字段長度 ?交互式 ?手動輸入 ? 2006 SPSS Inc. 30 讀取讀取 SPSS 數據文件數據文件 ?添加 SPSS 文件節點到數據流區域 ?編輯節點,指向文件 SmallSample.sav ?SPSS 數據文件有特殊的“標簽”: ?變量標簽描述字段 ?數值標簽附上解釋數值的編碼
13、 ? 2006 SPSS Inc. 31 數據庫節點數據庫節點 ?使用數據庫節點前必須配置 ODBC 驅動去指定數據庫的位置 ?“控制面板-管理工具” ? 選擇 ODBC ?選擇 “添加” ? 2006 SPSS Inc. 32 添加添加 ODBC 數據源數據源 ? 2006 SPSS Inc. ?選擇合適的 ODBC 驅動,該驅動應該匹配數據庫的名稱和版本 ?數據源 Holidays ?數據庫文件custandhol.mdb 33 使用數據庫節點使用數據庫節點 ?添加并編輯數據庫節點: ?選擇數據庫節點連接數據源 ?選擇“添加新的數據庫連接” ?在數據源列表中選擇需要連接的數據源,點擊連接
14、?選擇需要讀取的表格 ? 2006 SPSS Inc. 34 定義字段類型定義字段類型 ?類型節點指定字段的一系列重要屬性 ?指定字段類型、方向和缺失值 ?Clementine 可以自動設置變量類型,用戶也可以強制指定類型 ?為建立模型,指定字段的方向 ?指定缺失值以及如何處理缺失值 ?變量值檢查保證字段值滿足一定的設置 ? 2006 SPSS Inc. 35 定義字段類型定義字段類型 ?字段類型幫助您理解正在使用的數據,是一些數據準備和所有建模程序所必需的 ?字段類型: 連續型 用于描述數值,如0-100 或者0.75-1.25 內的連續值一個連續值可以是整數、實數或日期/時間 ?離散型用于
15、當一個具體值的精確數量未知時描述字符串,一旦數據被讀取,其類型就會是標記、集合或者無類型 ?集合型 用于描述帶有多個具體值的數據(黃、綠、藍) ?標記型 用于只取兩個具體值的數據(真、假) ?無類型 用于不符合上述任一種類型的數據或者含有太多元素的集合類型數據 ? 2006 SPSS Inc. 36 字段實例化字段實例化 ?在讀取值前數據稱為未實例化,字段設置為連續或離散型 ?通過讀取值后數據完全實例化,字段的取值和類型都是可知的 ?通過類型節點或數據源節點上的類型條目可以指定數據類型 ? 2006 SPSS Inc. 37 字段實例化字段實例化 ?何時在源節點實例化 ?數據集不太大 ?不打算
16、以后在流中增加字段 ?何時在類型節點實例化 ?數據集較大,而且流在類型節點前就過濾了子集 ?數據在流中被過濾 ?數據在流中被合并或追加 ?在處理過程中導出新的數據字段 ? 2006 SPSS Inc. 38 字段類型字段類型 ?用變項文件節點讀取SmallSampleComma.txt ?字段實例化 ?將ID字段的類型修改為無類型 ? 2006 SPSS Inc. 39 字段方向字段方向 ? 2006 SPSS Inc. ?輸入:輸入或者預測字段 ?輸出:輸出或者被預測字段字段 ?兩者:既是輸入又是輸出,只在關聯規則中用到 ?段無:建模過程中不使用該字 ?分區:將數據拆分為訓練、測試(驗證)部
17、分 ?才起作用字段方向設置只有在建模時 40 第三章第三章 數據質量數據質量 課程計劃課程計劃 ?內容 ?缺失數據定義 ?介紹質量節點 ?使用數據審核節點檢查所有字段的分布 ?目的 ?熟悉Clementine 中的一些用來發現數據的準確性、完整性和數據整體分布的方法 ? 2006 SPSS Inc. 42 缺失數據類型缺失數據類型 ?系統缺失值,也被稱作 nulls,這些值在數據庫中被留為空格,而且在類型節點上它們并不被明確設置為“缺失”系統缺失值在 Clementine中顯示為 $null$ ?用戶自定義缺失值,也被稱作空白 blanks,這些值在類型節點上被明確地定義為缺失確定為空白的數據
18、值被標記為特殊對待,而且在大多數計算中被剔除 ? 2006 SPSS Inc. 43 SmallSampleMissing.txt ? 2006 SPSS Inc. 44 自動定義缺失值自動定義缺失值 ?在類型條目對話框中: ?右擊菜單中選中“全選” ?再右擊選中設置“缺失” ?選擇“開” ? 2006 SPSS Inc. 45 數據審核數據審核 ?打開數據流:數據稽查.str ?使用制表節點輸出表格: ?共有 4117 條記錄 ?使用數據審核節點連接類型節點檢查數據整體的分布 ?抽樣條目選擇抽樣當記錄數多于 5000 ,這樣可以檢查所有的記錄 ?執行數據審核節點輸出檢查結果 ? 2006 S
19、PSS Inc. 46 輸出檢查結果輸出檢查結果 點擊小圖看完整的 分布圖或直方圖 ? 2006 SPSS Inc. 47 第四章第四章 數據處理介紹數據處理介紹 課程計劃課程計劃 ?內容 ?介紹選擇節點處理記錄 ?介紹幾個字段處理節點:過濾、字段重排、導出和重新分類 ?介紹如何自動生成字段和記錄處理節點 ?目的 ?學會使用Clementine中 一些可用的數據處理技術,并使用這些技術清洗和精煉數據 ? 2006 SPSS Inc. 49 數據處理技術數據處理技術 ?CLEM( Clementine Language for Expression Manipulation )是一種功能強大的語
20、言,用來分析操作 Clementine 中使用的數據 ?用在導出、選擇、過濾、平衡和報告等節點 ?這些函數可以導出新的值、根據條件選擇記錄、比較和評估數據、插入數據 ?注意:為了將錯誤減少到最小,當使用注意:為了將錯誤減少到最小,當使用 CLEM時經常需要為字段名加上單引號時經常需要為字段名加上單引號 ? 2006 SPSS Inc. 50 表達式構造器表達式構造器 ?盡量不要手動輸入CLEM 表達式 ? 2006 SPSS Inc. 51 選擇節點選擇節點 ?打開數據流:選擇節點.str ?使用選擇節點連接類型節點 ?選擇符合條件“INCOME 20000” 的記錄 ?選擇模式“包含” ?使
21、用分布節點分別連接類型節點和選擇節點 ?生成字段 RISK 的分布 ?比較選擇前后的分布 ? 2006 SPSS Inc. 52 兩個分布的比較兩個分布的比較 ? 2006 SPSS Inc. 選擇后53 選擇前 過濾節點過濾節點 ?打開數據流:過濾節點.str ?使用過濾節點連接類型節點 ?改變字段名 STORECAR 為 STORECARDS ?移除字段 ID ?使用制表節點輸出表格查看結果 ? 2006 SPSS Inc. 54 字段重排節點字段重排節點 ? 2006 SPSS Inc. ?使用字段重排節點連接過濾節點重新排列字段順序 ?點擊“選擇字段” 按鈕選擇字段 : ?NUMKID
22、S,NUMCARDS和 RISK ?點擊“移動選定字段到頂部”選項將字段 Risk 移到頂部 ?使用制表節點輸出表格查看結果 55 導出節點導出節點 ?使用導出節點連接過濾節點導出新字段 ?導出節點四種形式: ?導出規則 ?導出標記 ?導出集合 ?導出條件 ? 2006 SPSS Inc. 56 重新分類節點重新分類節點 ?使用重新分類節點連接最后一個導出節點 ?選擇單一模式 ?重分類 Risk 字段為新字段 RISKCAT ?bad loss,bad profit 新值bad ?good risk 新值 good ?使用制表節點輸出表格 ?通過表格比較兩個字段 ? 2006 SPSS Inc
23、. 57 CLEM 建議建議 ?大小寫敏感性 ?在字符值和所有變量(字段)名上加引號 ?當涉及數值時使用小數點( 0.0) ?標準 CLEM 函數全部是小寫字母 ?任何以 開頭的 CLEM 函數都是大寫字母 ? 2006 SPSS Inc. 58 自動生成節點自動生成節點 ?大部分輸出都包含“生成”菜單項,可以自動生成一個節點 ? 2006 SPSS Inc. 59 自動生成導出節點自動生成導出節點 ?使用直方圖節點連接最后一個導出節點 ?直方圖節點中選擇字段INCOME 生成直方圖 ?在生成的直方圖上數值 20000、30000、40000 處點擊 ?自動生成導出節點 ?導出集合 ? 200
24、6 SPSS Inc. 60 第五章第五章 尋找數據之間的關系尋找數據之間的關系 課程計劃課程計劃 ?內容 ?介紹網絡圖節點和矩陣節點研究符號字段之間關系 ?使用相關系數來研究數值字段之間關系 ?目的 ?探索一些在Clementine中研究字段之間關系的途徑 ? 2006 SPSS Inc. 62 在數據中尋找關系在數據中尋找關系 ?矩陣節點生成符號數據交叉列聯表 ?網絡圖節點可視化表現符號數據之間的關系 ?統計量節點計算數值字段之間的相關系數 ?散點圖節點和直方圖節點可視化表現數值數據(交疊符號字段) ? 2006 SPSS Inc. 63 矩陣節點:關聯兩個符號字段矩陣節點:關聯兩個符號字段 ?打開數據流:Riskdef.str ?使用矩陣節點連接類型節點生成列聯表 ?RISK 是否隨 GENDER 改變 ?行 RISK,列 GE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45813-2025造紙機械安全要求
- 大數據技術專業教學標準(高等職業教育專科)2025修訂
- 老年保健與管理專業教學標準(高等職業教育??疲?025修訂
- 2025年中國林業經濟行業發展前景預測及投資戰略研究報告
- 中國燃氣空調行業市場深度評估及投資戰略規劃報告
- 中國中藥保健品行業發展監測及投資戰略規劃研究報告
- 2024年中國銅藍礦行業市場調查建議報告
- 中國碳化硅陶瓷異型梁行業發展監測及投資前景展望報告
- 2020-2025年中國蜂膠行業市場前景預測及投資戰略研究報告
- 汽車后板簧托板總成項目投資可行性研究分析報告(2024-2030版)
- 飼料學全套課件
- 奇瑞入職在線測評題庫
- 智能制造中的安全與隱私問題
- DB3307-T 119 -2021 金華地方傳統小吃 永康肉麥餅
- 過程校驗儀市場需求分析報告
- 2017風電功率預測系統測風塔數據測量技術要求
- 樣品管理程序檢驗科程序文件
- 橋梁基本狀況卡片(2021新版)
- 有機硅化學課件-有機硅化學基本反應
- 《Python程序設計(第3版)》完整版PDF
- 如何根據三視圖畫軸測圖及補視圖缺線課件
評論
0/150
提交評論