




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Clementine的數據處理介紹Clementine的數據處理技術,學習如何合并和處理文件,樣本數據,處理缺失值和時序數據培訓內容 第一章 合并多個數據源數據第二章 抽取樣本,選擇和緩存數據第三章 處理缺失數據第四章 處理日期第五章 處理時序數據第六章 文件操作第七章 效率2第一章合并多個數據源數據3第一章 合并多個數據源數據內容:使用追加節點串聯包含相似字段的記錄集的文件使用合并節點把不同數據源的信息加入到現有數據源使用超級節點簡化數據流區域的內容數據:acct97.txt, accounts98.sav, customer.dat4追加節點合并數據文件不同組記錄的相似信息有可能存儲在不同
2、數據文件不同財政年度的銀行帳目信息不同學年的考試結果不同部門的欺詐信息不同周的事務辦理數據追加節點可以合并兩個或者更多的數據源,可以分析和比較不同記錄組的相似信息。5文件讀入追加節點讀取并下傳來自同一數據源的所有記錄直至該數據源不再有記錄為止,然后讀取下一個數據源的記錄。第一個讀入的數據源的數據結構(記錄和字段數目等)默認為輸出數據的數據結構。追加節點假定讀入的數據源和最初輸入源有相似的數據結構,根據不同數據文件的字段名合并數據。6字段數目不同時的讀入規則如果一個輸入的字段數目比最初數據源少,輸入源記錄缺失的字段用未定義值($null$)填補。如果一個輸入的字段數目比最初數據源多,默認為從流中
3、過濾掉多余的字段,有一個選項可以允許輸入所有數據集的字段,所有記錄缺失的字段用未定義值($null$)填補。7追加文件使用變量文件節點讀入文件acct97.txt確定選中“從文件讀取字段名”使用SPSS文件節點讀入文件accounts98.sav使用追加節點連接兩個數據源節點使用制表節點分別輸出表格8輸入條目改變主數據集9條目設置10處理字段使用導出節點和子鏈函數提取字段substring (1, 2, ACCTNO)提取字段ACCTsubstring (4, 5, ACCTNO)提取字段CUSTREF substring (10, 5, ACCTNO)提取字段ACCTREF使用過濾節點過濾字
4、段ACCTNO11數據流和追加文件12合并節點合并數據文件在很多企業里,個體的信息存放于不同數據源中消費者信息和購買信息賬目詳細資料和事務辦理數據房產商的信息按照個體和財產水平同樣本調查中每隔一段時間收集的個體的信息合并節點可以合并兩個或者更多的數據源,可以整體分析個體存放于不同數據源中的信息。13合并文件使用變量文件節點讀入文件customer.dat確認選中從文件讀取字段名分隔符選中制表符,取消逗號分隔符使用合并節點連接變量文件節點和追加節點選中按照關鍵字段包括匹配和不匹配記錄使用制表節點輸出表格14合并方法按照順序合并數據:如每一輸入的第n 個記錄被合并生成第n 個輸出記錄。只要任一記錄
5、缺少匹配的輸入記錄,則不會生成任何輸出記錄。按照關鍵字段合并數據:如果某一關鍵字段值不止一次的出現,則返回所有可能的組合。只包括匹配記錄(內部合并)包括匹配和不匹配記錄(完全外部合并)包括匹配和選中的不匹配記錄(部分全外部合并)包括第一個數據集中且不與其它數據集匹配的記錄(反向合并)合并相同的關鍵字段:每個輸出字段都有不同的字段名15外部合并選擇數據集16超級節點簡化數據流超級節點在流中用星型圖標表示,圖標的明暗程度表示超級節點的類型和流的方向(流向或者流出)總共有三種類型的超級節點: 源超級節點 過程超級節點 終端超級節點17超級節點規則兩個選中的節點之間必須有路徑通過。一個完整的流不能壓縮
6、為一個超級節點。要壓縮的部分流不能包括分叉路徑(終端超級節點在每個分叉路徑包含終端節點除外)。操作創建超級節點編輯超級節點保存超級節點18練習custtravel1.dat,custtravel2.dat 記錄旅游公司顧客的信息,holtravel.dat記錄不同假期,公司提供的旅游信息,合并三個數據文件。使用變量文件節點分別讀入這三個數據文件。 連接三個制表節點,檢查數據文件的讀入是否正確。用Append節點,追加兩個記錄顧客信息的數據文件。編輯節點,并檢查節點設置是否正確(確保custtravel1.dat是第一個數據文件),用制表節點,查看追加結果。用Merge節點,合并holtrave
7、l.dat和生成的數據文件,選擇包括匹配和不匹配記錄。用制表節點,查看合并結果。19第二章抽取樣本,選擇和緩存數據20第二章 抽取樣本,選擇和緩存數據內容:使用區分節點刪除副本使用抽樣和選擇節點抽取樣本使用分割節點分割數據為訓練和測試樣本使用緩存數據加速數據處理和凍結樣本目的:介紹一系列對數據進行預處理的方法數據:前一章合并生成的數據,存儲于文件fulldata.txt21使用區分節點刪除副本打開分割數據.str使用變量文件節點讀入文件fulldata.txt確定選中“從文件讀取字段名”使用制表節點輸出表格使用區分節點連接變量文件節點在字段ID選擇副本使用制表節點輸出表格22使用抽樣節點抽取樣
8、本使用抽樣節點連接變量文件節點設定抽樣節點選項包括樣本random值為60設定隨機種子數54321使用制表節點輸出表格23使用導出、選擇節點抽取樣本使用導出節點連接變量文件節點導出字段flag規則random0 (2) 使用制表節點輸出表格使用分布節點連接導出節點選擇字段flag輸出分布圖使用選擇節點連接導出節點條件flag=0 使用制表節點輸出表格24使用分割節點分割樣本使用分割節點連接數據文件節點選擇分成兩部分分割部分的和少于100%,丟棄剩余的數據設定隨機種子123使用分布節點連接分割節點選擇字段Partition輸出分布圖25數據緩存為了最優化的執行,用戶可以對任何沒有結束的節點建立一
9、個緩存。當對一個節點建立一個緩存的時候,緩存區會被下一次執行數據流時要通過節點的數據所填滿。以后數據就從該緩存區中讀取而不是從數據源中讀取。緩存的主要作用:避免預處理過程的重復,提高速度凍結樣本,例如導出和分割節點中使用隨機函數選擇樣本26分割節點中使用緩存啟用緩存帶有緩沖區的節點能夠以一個小的文件圖標被顯示在右上角。當數據在節點處被緩存時,這個文件圖標是綠色的。刷新緩存保存緩存以SPSS 文件的形式來保存一個緩存區的內容讀取緩存可以通過SPSS 文件節點在流中讀入可以恢復到最初生成緩存的節點27練習使用變量文件節點,讀入數據文件custandhol.dat。使用區分節點移除重復記錄,區分字段
10、為CUSTID。使用制表節點查看數據文件對上述數據文件,用抽樣節點隨機抽取70%的記錄 在抽樣節點,設置隨機種子值執行該流,觀察每次的結果是否相同使用分割節點把數據文件分割成兩部分,70訓練集,30測試集。分別使用制表節點和分布節點查看結果在抽樣節點,緩存數據再次執行數據流,觀察數據流是從數據源節點,還是從抽樣節點執行28第三章處理缺失數據29第三章 處理缺失數據內容:使用質量節點產生過濾和選擇節點包含和排除具有缺失數據的字段和記錄使用填充節點刪除空白使用類型節點自動檢查空白處理缺失數據的建議目的:這一章引入一系列方法處理缺失數據數據:數據文件SmallSampleMissing.txt30使
11、用質量節點提高數據質量使用變量文件節點讀入數據SmallSampleMissing.txt 確定選中“讀取字段名”使用類型節點連接變量文件節點CHILDREN值99設定空白使用制表節點輸出表格使用質量節點選中未定義值,空格,空白和空字符串輸出質量報告31生成選擇節點和過濾節點質量報告產生菜單生成選擇節點和過濾節點,插入類型節點和制表節點之間使用制表節點輸出表格生成選擇節點選擇帶有至少一個缺失值的記錄生成過濾節點過濾帶有缺失值的字段32數據流和輸出33使用填充節點移除空白使用類型節點指定空白三個填充節點插入類型節點和制表節點之間字段CHILDREN替換為0字段INCOME替換為23407 字段S
12、EX 替換為“unknown”使用制表節點輸出表格34自動檢查缺失和超出邊界的值類型節點包含一種自動檢查過程,自動檢查數據是否符合當前的類型和邊界設置。檢查過程會忽略空白自動檢查設置:無,無效,強制,丟棄,警告,中止強制設置選項35強制設定結果36處理缺失數據的建議使用生成的選擇節點丟棄有問題的記錄使用生成的過濾節點丟棄有問題的字段使用填充節點填充值使用自動檢查強制或丟棄不合規定的值可以用預測模型(例如神經網絡)導出的值填充缺失值37練習變量文件節點讀入數據文件custandhol.dat。類型節點連接數據源節點,指定空白。 GENDER 字段White Space指定為空白HOLCOST字段
13、null指定為空白在類型節點上連接質量節點,計算空白值數目。從質量節點自動生成選擇節點,選擇沒有缺失值的記錄統計節點連接生成選擇節點,計算HOLCOST 字段的均值。填充節點連接類型節點,均值填充HOLCOST字段缺失值。用制表節點查看輸出結果。用超級節點封裝填充節點和制表節點保存流mystream.str,以后的練習將會用到這個流。38第四章處理日期39第四章 處理日期內容:介紹如何設定流中的日期格式介紹日期函數處理涉及日期字段的計算介紹字符串函數處理日期的格式介紹如何使用導出節點的多重模式目的:這一章我們介紹在Clementine中如何處理日期字段數據:fulldata.txt, Acco
14、unt_DateProb.dat ,MultDate.txt 40在Clementine中指定日期格式41計算時間長度使用變量文件節點讀入數據fulldata.txt確定選中“從文件讀取字段名”使用導出節點導出字段LENGTH_WAIT導出規則date_months_difference(STARTDT,OPENDATE)使用過濾節點過濾除STARTDT,OPENDATE和 LENGTH_WAIT以外的字段使用制表節點輸出表格42日期格式化的字符串處理實例打開流日期格式化.str 流基本上由一些導出節點組成,把字段中不正常的格式轉換成Clementine支持的日期格式。43表格顯示有問題的日期
15、字段可以看出Open_Date 字段有兩個問題有些記錄中部分字段名“Open_” 前綴于日期值有些記錄中只有月和年解決辦法移除前綴“Open_” 缺失天數值的記錄,填補1544從字段中提取日期部分45填補天數值46多重字段的處理打開數據流 多重時間.str 加入導出節點選擇多重模式導出字段Pur1, Pur2, Pur3, Pur4 和 Pur5 字段名后綴_Time 導出規則date_days_difference(AcctEst, FIELD)47練習打開數據流ex4.str通過數據流特征對話框更改日期顯示的格式為dd/mm/yy2-digit date設置為2005導出節點連接生成選擇節
16、點導出兩個字段分別表示顧客年齡和開始旅游的月份。字段age,導出規則date_years_difference(date1,date2) 字段hol_month,導出規則substring(position, length, field)使用制表節點查看結果。保存流。48第五章處理時序數據49第五章 處理時序數據內容:介紹一些CLEM時序函數介紹導出節點的計數和狀態選項介紹使用歷史節點重構時序數據目的:這一章中我們介紹在Clementine中可用的一些處理時序數據的方法數據:year_balances.txt ,year_balances.sav50數據變量文件節點讀入數據文件year_bal
17、ances.txt 確定選中“從文件讀取字段名”使用類型節點實例化數據使用排序節點按照ACCTNO,MONTH 排序使用制表節點輸出表格51CLEM時序函數使用INDEX記錄索引使用OFFSET重新得到字段的值OFFSET(ACCTNO,1)OFFSET(ACCTNO,-3)平均,求和,比較值MIN MAX MEAN SUM SDEVSUM(BALANCE)MEAN(BALANCE,3) 52計算每個賬目字段余額3月平均 53導出節點的計數選項54導出節點的狀態選項55圖解數據經過歷史節點56使用歷史節點重構時序數據使用歷史節點連接排序節點選擇字段BALANCE 偏差1,間隔11使用制表節點輸
18、出表格使用抽樣樣本包括樣本抽樣1-in-12使用制表節點輸出表格57練習首先,創建新的字段表示假日消費的累積總額。在創建新的字段前,我們必須對數據根據日期進行排序。排序節點連接導出節點hol_month 。設置Sort節點,根據hol_month和TRAVDATE字段的升序排序導出節點連接排序節點。導出一個字段用以表示字段HOL_COST的累積值。導出規則SUM(field)使用制表節點查看數據。附加題:對字段HOLCODE,hol_month和TRAVDATE進行升序排序后生成新的字段。從1開始,每次遇到新的度假地點時增加1可以利用OFFSET和導出節點的計數形式58第六章文件操作59第六章
19、 文件操作內容介紹聚合節點總結記錄介紹設計標記節點轉換一個集字段為一組標記字段使用合并節點合并聚合節點和設計標記節點的輸出目的這一章介紹兩個能改變數據整體結構的節點數據fulldata.txt60圖解數據經過聚合節點61聚合數據打開流排序節點連接選擇節點按字段ID排序聚合節點連接排序節點關鍵字段ID,關鍵字段相鄰聚合字段:AGE, INCOME和 CHILDREN 聚合模式:Max聚合字段OPEN_BAL和 CURR_BAL聚合模式:Sum使用制表節點輸出表格62圖解數據經過設計標記字段和聚合字段63設為標志節點設為標記節點連接排序節點集字段ACCOUNT 排序節點連接設計標記節點按ID排序設計標記節點中選中聚合關鍵詞ID使用制表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國舒林酸膠囊行業市場發展前景及發展趨勢與投資戰略研究報告
- 中國計算機網絡系統市場調查研究及行業投資潛力預測報告
- 2025年中國錨具行業競爭格局分析及投資規劃研究報告
- 中國女式童鞋底行業市場發展前景及發展趨勢與投資戰略研究報告(2024-2030)
- 2025年中國滾筒式清理機行業市場運營現狀及投資規劃研究建議報告
- 機房可行性分析報告
- 2025年中國鍍鋅金屬軟管行業市場全景評估及發展戰略研究報告
- 2025年中國航空翻新輪胎行業發展運行現狀及發展趨勢預測報告
- 2025年中國炙烤爐市場競爭策略及行業投資潛力預測報告
- 中國新能源商用車行業發展監測及發展趨勢預測報告
- 天津小卷試題及答案物理
- 胰十二指腸切除術后個案護理
- 2024年深圳市中考語文試卷真題(含答案解析)
- “扣子”智能體在高中生物學教學中的應用
- 2025年內蒙古興安銀鉛冶煉有限公司招聘筆試參考題庫含答案解析
- 新能源汽車充電站建設合作協議
- 大學生畢業代表演講稿
- 中成藥處方大全-僅作參考
- 凈水機產品培訓
- 山西焦煤招聘2025筆試題庫
- 北師大版4四年級下冊數學期末復習試卷(5套)
評論
0/150
提交評論