




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據倉庫與數據挖掘實驗指導書(適用于信息系統與信息管理專業)目 錄前 言1實驗一、SPSS Clementine 軟件功能演練5實驗二、SPSS Clementine 數據可視化9實驗三、決策樹C5.0 建模10實驗四、關聯規則挖掘21實驗五、欺詐屏蔽/異常檢測/神經網絡29實驗六、分類和回歸樹節點(C&RT)40實驗七、多項 Logistic 回歸50實驗八、綜合實驗:電力負荷預測56前 言一、課程簡介數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在數據庫,數據倉庫或其他信息庫中的大量的
2、數據中“挖掘”有趣知識的過程。數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery in Database, KDD),因此,數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。數據挖掘有機結合了來自多學科技術,其中包括:數據庫、數理統計、機器學習、高性能計算、模式識別、神經網絡、數據可視化、信息檢索、圖像與信號處理、空間數據分析等,這里我們強調數據挖掘所處理的是大規模數據,且其挖掘算法應是高效的和可擴展的。
3、通過數據挖掘,可從數據庫中挖掘出有意義的知識、規律,或更高層次的信息,并可以從多個角度對其進行瀏覽察看。所挖掘出的知識可以幫助進行決策支持、過程控制、信息管理、查詢處理等等。因此數據挖掘被認為是數據庫系統最重要的前沿研究領域之一,也是信息工業中最富有前景的數據庫應用領域之一。當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。而據Gartner的報告也指出,數據挖掘會成為未來10年內重要的技術之一。二、課程的任務和實驗的教學目標課程編號:5405190課程屬性:專業任選課實驗學時:12 適用專業:信息管理與信息系統先修課程:管理信息系統、計算機基礎、
4、數據庫技術、統計學數據倉庫與數據挖掘是一門理論和實踐相結合的課程,它在整個信息系統與信息管理專業中處于信息系統應用的前沿應用的地位,是計算機科學的算法理論基礎和數據庫、數據倉庫技術、統計技術的結合,以及在管理實踐中應用。其上機實驗的目的主要是實現數據挖掘的主要算法,訓練學生實際動手進行數據挖掘設計和軟件應用的能力,加深對數據挖掘相關概念和算法的理解。本課程具有技術性和實踐性較強的特點,因此,配合基本原理的講授,應當安排相應的實習操作。通過實驗和操作,使學生鞏固和加深數據倉庫與數據挖掘理論知識,進一步加強學生獨立分析問題和解決問題的能力、綜合設計及創新能力的培養,為今后工作打下良好的基礎。經過多
5、層次、多方式的全面訓練后,學生應達到下列要求:1進一步鞏固和加深數據倉庫與數據挖掘基本知識的理解,提高綜合運用所學知識,建立和管理數據的能力。2能根據需要選學參考書,查閱相關的工具,通過獨立思考,深入鉆研有關問題,學會自己獨立分析問題、解決問題,具有一定的創新能力。3能正確處理大規模數據,選擇數據挖掘工具的開發平臺和相關的軟件解決實踐問題。4能獨立撰寫實驗報告,準確分析實驗結果,總結有關的問題,提出相關的建議。三、實驗教材及參考書理論課教材及參考書:F 數據倉庫與數據挖掘教程(叢書名: 高等院校信息管理與信息系統專業系列教材)作者: 陳文偉 編著,清華大學出版社,2006.8F 數據倉庫和數據
6、挖掘,蘇新寧 等編著,清華大學出版社,2006.4F 數據倉庫與數據挖掘技術(第2版),陳京民 編著,電子工業出版社,2007.11F Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques.高等教育出版社(影印版),2001.5.F Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (第二版). 機械工業出版社(影印版),2005.F Richard J. Roiger, Michael W
7、. Geatz. Data Mining: A Tutorial-Based Primer.清華大學出版社,2003.實驗教材:F 數據挖掘Clementine應用實務,謝邦昌 主編,機械工業出版社,2008.4F 數據挖掘原理與SPSS Clementine應用寶典,元昌安 主編,電子工業出版社,2009.8四、實驗基本內容及學時分配按照數據倉庫與數據挖掘實驗教學大綱的要求,共設立實驗8個,總計20學時。試驗基本內容與學時分配如下表:序號實驗名稱實驗學時每組人數實驗屬性實驗者類別開出要求1SPSS Clementine 軟件功能演練21演練本科必開2實驗二、SPSS Clementine 數
8、據可視化21演練本科必開3決策樹C5.0 建模21驗證綜合本科必開4關聯規則挖掘21驗證綜合本科必開5欺詐屏蔽/異常檢測/神經網絡21驗證綜合本科必開6分類和回歸樹節點(C&RT)21驗證綜合本科必開7多項 Logistic 回歸21驗證綜合本科必開8實驗八、綜合實驗:電力負荷預測61綜合實驗本科必開五、實驗方式與基本要求1、本課程的實驗為非單獨設課,因此,應該課程的內容安排和進度,配合技術原理的講授,進行相應的操作和實驗。 2、該課以綜合性實驗為主,教師給出實驗題目,實驗前學生必須進行預習, 3、在規定的時間內,由學生獨立完成,出現問題,教師要引導學生獨立分析、解決,不得包辦代替。4、實驗中
9、按要求做好學生實驗情況及結果記錄,實驗后認真填寫實驗記錄。5、 實驗指導書僅作為上機時的參考步驟,不能作為唯一的依據,以教材和課堂講授為準。實驗一、SPSS Clementine 軟件功能演練【實驗目的】1、熟悉SPSS Clementine 軟件功能和操作特點。2、了解SPSS Clementine 軟件的各選項面板和操作方法。3、熟練掌握SPSS Clementine 工作流程。【實驗內容】1、打開SPSS Clementine 軟件,逐一操作各選項,熟悉軟件功能。2、打開一有數據庫、或新建數據文件,讀入SPSS Clementine,并使用各種輸出節點,熟悉數據輸入輸出。(要求:至少做a
10、ccess數據庫文件、excel文件、txt文件、可變文件的導入、導出)【實驗步驟】1、啟動 Clementine:請從 Windows 的“開始”菜單中選擇: 所有程序SPSS Clementine 11.1SPSS Clementine client 11.12、Clementine窗口當第一次啟動 Clementine 時,工作區將以默認視圖打開。中間的區域稱作流工作區。在 Clementine 中,這將是用來工作的主要區域。Clementine 中絕大部分的數據和建模工具都在選項板中,該區域位于流工作區的下方。每個選項卡都包含一組以圖形表示數據挖掘任務的節點,例如訪問和過濾數據,創建圖
11、形和構建模型。要將節點添加到工組區,可在節點選項板中雙擊圖標或將其拖拽至工作區后釋放。隨后可將各個圖標連接以創建一個表示數據流動的流。窗口的右上方是輸出和對象管理器。這些選項卡用于查看和管理各種 Clementine 對象。“流”選項卡包含了當前會話中打開的所有流。可以將這些流保存并關閉,也可將其添加到工程中。“輸出”選項卡包含了由 Clementine 中的流操作產生的各類文件。可以顯示、重命名和關閉此處所列的表格、圖形和報告。“模型”選項卡是一個功能強大的工具,包含了在一次會話中產生的所有模型(即,已在 Clementine 中構建完畢的模型)。通過它,可以對模型作更深入的查看、將其添加至
12、流中、導出或為其加注解。窗口右側底部的部分是工程工具,它用來創建和管理數據挖掘工程。查看在 Clementine 中創建的工程有兩種方式 - 類視圖或 CRISP-DM 視圖。 “CRISP-DM”選項卡提供了一種組織工程的方式。“類”選項卡提供了一種在 Clementine 中按類別(即,按照所創建對象的類別)組織工作的方式。當要獲取數據、流、模型等對象的詳盡目錄時,這種視圖十分有用。 實驗二、SPSS Clementine 數據可視化【實驗目的】1、熟悉SPSS Clementine 繪圖。2、了解SPSS Clementine 圖形選項面板各節點的使用方法。3、熟練掌握SPSS Clem
13、entine 數據可視化流程。【實驗內容】1、打開SPSS Clementine 軟件,逐一操作各圖形選項面板,熟悉軟件功能。2、打開一有數據庫、或新建數據文件,讀入SPSS Clementine,并使用各種輸出節點,熟悉數據輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點圖、時間散點圖)【實驗步驟】1、啟動 Clementine:請從 Windows 的“開始”菜單中選擇: 所有程序PSS Clementine 11.1SPSS Clementine client 11.12、建立一個流、導入相關數據,打開圖形選項面板3、繪制以下各類圖形(1)以顏色為層次的圖(2)以大小為層次的圖(
14、3)以顏色、大小、形狀和透明度為層次的圖(4)以面板圖為層次的圖(5)三維收集圖(6)動畫散點圖(7)分布圖(8)直方圖(9)收集圖(10)多重散點圖未標準化時的多重散點圖標準化后的多重散點圖(11)網絡圖實驗三、決策樹C5.0 建模【實驗目的】1、熟悉SPSS Clementine建模方法。2、掌握SPSS Clementine分布圖、散點圖、網絡圖的創建方法。3、掌握決策樹C5.0決策方法。【實驗內容】1、創建散點圖。2、創建分布圖。3、創建網絡圖。【實驗步驟】假設你是一位正在匯總研究數據的醫學研究員。已收集了一組患有同一疾病的患者的數據。在治療過程中,每位患者均對五種藥物中的一種有明顯反
15、應。的任務就是通過數據挖掘找出適合治療此疾病的藥物。此示例使用名為 druglearn.str 的流,此流引用名為 DRUG1n 的數據文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 druglearn.str 位于 Classification_Module 目錄中。此 demo 中使用的數據字段包括: 年齡(數值)性別M 或 FBP血壓:高、正常或低膽固醇血液中的膽固醇含量:正常或高
16、Na血液中鈉的濃度K血液中鉀的濃度藥品對患者有效的處方藥1、讀取文本數據使用變量文件節點讀取定界文本數據。可以從選項板中添加變量文件節點,方法是單擊源選項卡找到此節點,或者使用收藏夾選項卡(默認情況下,其中包含此節點)。然后,雙擊新添加的節點以打開相應的對話框。單擊緊挨“文件”框右邊以省略號“.”標記的按鈕,瀏覽到系統中的 Clementine 安裝目錄。打開 demos 目錄,然后選擇名為 DRUG1n 的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。單擊數據選項卡,覆蓋和更改某個字段的存儲。注意,存儲不同于類型或數據字段的用途。類型選項卡可幫助了解數據中的更多字段類型。還可
17、以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。類型選項卡可幫助了解數據中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。2、添加表。現在已載入數據文件,可以瀏覽一下某些記錄的值。其中一個方法就是構建一個包含表節點的流。要將表節點添加到流中,可雙擊選項板中的表節點圖標或將其拖放到工作區。雙擊選項板中的某個節點后,該節點將自動與流工作區中的選定節點相連接。此外,如果尚未連接節點,則可以使用鼠標中鍵將源節點與表節點相連接。要模擬鼠標中鍵操作,請在使用鼠標時按下 Alt 鍵。要查看表,請單擊工具欄上的綠色箭頭按鈕執行
18、流,或者右鍵單擊表節點,然后選擇執行。3、創建分布圖數據挖掘過程中,創建匯總視圖通常有助于研究數據。Clementine 提供了若干不同類型的圖表供您選擇,具體取決于要匯總分析的數據類型。例如,要找出每種藥物的對癥患者的比例,請使用分布節點。將分布節點添加到流,并將其與源節點相連接,然后雙擊該節點以編輯要顯示的選項。選擇藥品作為要顯示其分布的目標字段。然后,在對話框中單擊執行最終圖表將有助于查看數據的“結構”。結果表明,藥品 Y 的對癥患者最多,而藥品 B 和藥品 C 的對癥患者最少。此外,還可以添加并執行數據審核節點,同時快速瀏覽所有字段的分布圖和直方圖。可以在“輸出”選項卡中找到數據審核節
19、點。4、創建散點圖現在我們來看一下有哪些因素會對藥品(目標變量)產生影響。作為研究員,您一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數值,您可以用顏色區分藥品,創建一個關于鈉和鉀的散點圖。將散點圖節點放在工作區中,并將其與源節點相連接,然后雙擊該節點對其進行編輯在“散點圖”選項卡中,選擇 Na 作為 X 字段,選擇 K 作為 Y 字段,并選擇藥品作為交疊字段。然后單擊執行。此散點圖清楚地顯示一個閾值,在此閾值上方,對癥藥品始終是 Y,在此閾值下方,對癥藥品均不是 Y。此閾值是一個比率,即鈉(Na)和鉀(K)的比率。5、創建網絡圖因為很多數據字段均可分類,也可嘗試繪制網絡圖,此圖表將
20、反映不同類別之間的聯系。首先,將網絡節點與您工作區中的源節點相連接。在“網絡節點”對話框中,選擇 BP(血壓)和藥品。然后單擊執行。此圖顯示,藥品 Y 與三種級別的血壓均相關。Y 是最佳藥品。實驗四、關聯規則挖掘【實驗目的】1、熟悉C5.0 規則歸納2、掌握購物籃分析的方法。【實驗內容】1、字段和記錄的篩選。2、規則歸納 (C5.0)分類。3、購物籃分析。【實驗步驟】本示例處理描述超級市場購物籃內容(即,所購買的全部商品的集合)的虛構數據,以及購買者的相關個人數據(可通過忠誠卡方案獲得)。目的是尋找購買相似產品并且可按人口統計學方式(如按年齡、收入等)刻畫其特征的客戶群。本示例說明了數據挖掘的
21、兩個階段: 關聯規則建模和一個揭示所購買商品之間聯系的 Web 顯示 C5.0 規則歸納(描繪已標識產品組的購買者的特征) 注意:此應用不直接使用預測建模,因此,不對最終模型進行準確性度量,在數據挖掘過程中也不存在與之相關的訓練/檢驗兩個步驟的區分。本例使用名為 baskrule 的流,該流引用名為 BASKETS1n 的數據文件。任何 Clementine Client 安裝的 Demos 目錄中都具有這些文件,通過從 Windows 的“開始”菜單中選擇 Start All Programs SPSS Clementine 11.1 Demos 可訪問這些文件。文件 baskrule 位于
22、 Classification_Module 目錄下。1、訪問數據使用“變量文件”節點連接到數據集 BASKETS1n,選擇要從該文件讀取的字段名稱。將“類型”節點連接到數據源,然后將該節點連接到“表”節點。將字段卡 ID 的類型設置為無類型(因為每個忠誠卡 ID 在數據集中只出現一次,因此對于建模沒有用處)。選擇集作為字段性別的類型(這是為了確保 GRI 建模算法不會將性別視為標志)。現在,執行該流以將“類型”節點實例化并顯示表。數據集包含 18 個字段,其中每條記錄表示一個購物籃。下列標題中會顯示 18 個字段。購物籃摘要: l cardid.購買此籃商品的客戶的忠誠卡標識符。l valu
23、e.購物籃的總購買價格。l pmethod.購物籃的支付方法。卡持有者的個人詳細信息: l sex l homeown.卡持有者是否擁有住房。l 收入 l age 購物籃內容產品類別的出現標志: l fruitveg l freshmeat l dairy l cannedveg l cannedmeat l frozenmeal l beer l wine l softdrink l fish l confectionery 3、發現購物籃內容的關系首先,需要使用一般規則歸納 (GRI) 大致了解購物籃內容的關系(關聯)以生成關聯規則。選擇要在此建模過程中使用的字段,方法是:編輯“類型”節點
24、,將所有產品類別的方向設置為雙向,并將所有其他方向設置為無。(雙向表示該字段可以是結果模型的輸入或輸出。)注意:通過按住 Shift 鍵并單擊以選擇多個字段,然后指定列中的選項,可為多個字段設置選項。指定了用于建模的字段后,請將 GRI 節點附加到“類型”節點,編輯它,選擇選項只顯示值為真的標志變量,然后執行 GRI 節點。結果(管理器窗口右上角“模型”選項卡上的非精練模型)包含您可以查看(使用上下文菜單,然后選擇瀏覽)的關聯規則。這些規則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關聯;酒和糖果也具有關聯。出現雙向關聯規則(如:frozenmeal beer beer frozenmeal)Web
25、顯示(只顯示雙向關聯)可能會突出顯示此數據中的一些模式。將 Web 節點附加到“類型”節點,編輯 Web 節點,選擇所有購物籃內容字段,選擇僅顯示 true 標志,然后執行 Web 節點。因為大多數產品類別組合都會出現在多個購物籃中,所以此 Web 上的強鏈接太多,無法顯示 GRI 模型表示的客戶群。要提高臨界值以便只顯示最強的鏈接,請使用工具欄上的滑塊來實現最多只顯示 50 個連接。要指定弱連接和強連接,請單擊工具欄上的黃色雙箭頭按鈕。這會展開顯示 Web 輸出摘要和控件的對話框。選擇大小表示強/正常/弱。將弱鏈接設置為低于 90。將強鏈接設置為高于 100。在最終顯示中,會有三個客戶群突出
26、顯示:l 購買魚和果蔬的客戶,可將這類客戶稱為“健康食客”l 購買酒和糧果的客戶l 購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶請注意,GRI 僅標識這些客戶群中的最后兩個;健康食客未形成足夠強的模式,GRI 無法發現它。4、描繪客戶群的特征現在,已經根據客戶購買的產品類型標識了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統計學特征。通過為每個群中的每名客戶添加標志,并使用規則歸納 (C5.0) 來基于規則描繪這些標志的特征,可以實現這一點。首先,必須獲取每個群的標志。使用剛剛創建的 Web 顯示,可以自動生成每個群的標志。使用鼠標右鍵,單擊fruitveg和fish之間的鏈
27、接,并選擇為鏈接生成“派生”節點。編輯最終的“派生”節點以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復該練習,并將最終的“派生”字段命名為 wine_chocs。對于第三個群(涉及三個鏈接),首先要確保未選擇任何鏈接。然后,在按住 shift 鍵的同時單擊鼠標左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從 Web 顯示菜單中選擇:生成:導出節點(“和”)將最終“派生”字段的名稱更改為 beer_beans_pizza。要描繪這些客戶群的特征,請連續將現有的類型節點連接
28、到這三個導出節點,然后附加另一個類型節點。在新類型節點中,請將除以下字段外的所有字段的方向都設置為無:value、pmethod、sex、homeown、income和age(這些字段的方向應該設置為輸入),以及相關的客戶群(例如,beer_beans_pizza,它們的方向應該設置為輸出)。附加 C5.0 節點,將輸出類型設置為規則集,然后執行它。最終模型(用于 beer_beans_pizza)包含此客戶群的明確人口統計學特征:Rule 1 for T:if income T通過在第二個類型節點中選擇其他客戶群標志作為輸出,可將同一方法應用到這些標志。通過在此上下文中使用 GRI 代替 C
29、5.0,可生成更多替代特征描繪;GRI 也可用于同時描繪所有客戶群標志的特征,原因是,GRI 并非被限制到一個輸出字段。示例說明如何使用 Clementine 通過建模(使用 GRI)和直觀化(使用 Web 顯示)發現數據庫中的關系(即鏈接)。這些鏈接與數據中的案例組相對應,并且,通過建模(使用 C5.0 規則集)可詳細研究這些組并描繪其特征。例如,在零售領域,可能會使用這種客戶組確定特殊優惠目標,以提高直接郵寄的響應率,或自定義某分部的存貨產品范圍以與其人口統計學基礎的需求匹配。1、2、。3、。實驗五、欺詐屏蔽/異常檢測/神經網絡【實驗目的】1、 熟悉各種聚類分析方法2、 了解神經網絡分析方
30、法與過程3、 掌握異常檢測的方法。【實驗內容】1、聚類分析。2、神經網絡建模。3、異常檢測。【實驗步驟】此示例顯示了 Clementine 在檢測詐欺行為方面的應用。這一領域涉及農業發展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發財政補貼和退役田地財政補貼。本例使用虛擬數據演示如何通過分析方法來發現與標準數據的偏差,同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關注其中的不合理部分。分析通過兩個階段執行:先使用“異常檢測”進行預篩選,然后使用“神經網絡”模型進行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 g
31、rantfraudN.db 的數據文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 fraud_anomalies.str 位于 Classification_Module 目錄下。此示例顯示了 Clementine 在檢測詐欺行為方面的應用。這一領域涉及農業發展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發財政補貼和退役田地財政補貼。本例使用虛擬數據演示如何通過分析方法來發現與標準
32、數據的偏差,同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關注其中的不合理部分。分析通過兩個階段執行:先使用“異常檢測”進行預篩選,然后使用“神經網絡”模型進行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 grantfraudN.db 的數據文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 fraud_anoma
33、lies.str 位于 Classification_Module 目錄下。此數據包含 9 個字段: ID。唯一標識符。 姓名。申請人姓名。 區域。地理位置(中部北部西南部東南部)。 田地質量。以整數為計量單位 - 農戶申報的田地質量。 降雨量。以整數為計量單位 - 田地年降雨量。 田地收入。以實數為計量單位 - 申報的田地年收入。 主要農作物。主產農作物(玉米小麥馬鈴薯油菜籽)。 申請類型。申請的財政補貼類型 (decommission_land/arable_dev)。 申請金額。以實數為計量單位 - 申請的財政補貼額。1、預篩選要快速篩選異常記錄,可以使用異常檢測節點(如樣本文件 fra
34、ud_anomalies.str 中所示)。首先使用變量文件節點連接到數據集 grantfraudN.db。此數據集包含字段名稱,因此可以將表節點添加到流并執行以檢查其構成。此外,還可以通過單擊源節點中的類型選項卡并讀取值對數據有一些初步了解。在類型選項卡中,單擊讀取值讀取數據,然后將姓名和 ID 字段的方向設置為無,因為建模過程中不使用這些字段。所有其他字段的方向應設置為輸入,這樣他們將作為輸入內容包含在異常檢測模型中。在異常檢測節點的“模型”選項卡中,選擇訓練數據中大多數異常記錄的數目,然后輸入值 10。然后執行此節點,并將生成的節點添加到流。在已生成模型的“設置”選項卡中,可以選擇相應選
35、項放棄非異常記錄,這樣在評分過程中,只有標記為潛在異常的記錄才保留在流中。添加表節點并執行,以查看得分數據。模型生成的 $0-Anomaly 字段表明哪些記錄為潛在異常記錄。由于在“設置”選項卡中選中了放棄記錄選項,所以僅列出標記為潛在異常的記錄。還列出了每條記錄的整體異常指數值,同時給出了對等組和最有可能造成記錄異常的三個字段。您可以使用圖表更方便地查看要標記的記錄。例如,您可以針對申請金額繪制田地大小,并附上 $0-Anomaly 字段來查看異常記錄。(將散點圖節點添加到生成的異常檢測模型中。要查看顯示所有記錄(不僅僅是異常記錄)的完整散點圖,請取消選擇已生成模型中“設置”選項卡上的放棄記
36、錄選項。)如您所期望的那樣,將標志出金額最高的申請。不過,還標志出了許多其他金額的申請,其中包括某些金額最低的申請。要弄清事情緣由,有必要進一步觀察數據。2、數據調查。要繼續分析詐欺數據,可以使用勘察表來調查數據(如樣本文件 fraud.str 中所示)。此操作可幫您設立對建模很有用的假設條件。在本例中,我們將逐步講解從訪問數據到訓練神經網絡的具體操作步驟。首先,思考數據中可能存在的詐欺類型。一種可能是一塊田地同時出現多份財政補貼資助申請表。要檢查重復申請,請將分布節點連接至數據集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。(要查看結果
37、,請單擊計數列標題,按計數對行進行降序排列。)要繼續分析詐欺數據,可以使用勘察表來調查數據(如樣本文件 fraud.str 中所示)。此操作可幫您設立對建模很有用的假設條件。在本例中,我們將逐步講解從訪問數據到訓練神經網絡的具體操作步驟。首先,思考數據中可能存在的詐欺類型。一種可能是一塊田地同時出現多份財政補貼資助申請表。 要檢查重復申請,請將分布節點連接至數據集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。(要查看結果,請單擊計數列標題,按計數對行進行降序排列。)以此為基礎,您可以使用選擇節點放棄具有多個記錄的田地所對應的記錄。然后,您
38、只需關注申請資助的單塊田地的特征就可以了。您可以使用 Clementine 構建一個模型,根據田地的大小、主要農作物類型、土壤類型等來評估該田地的期望收入。要準備建模,您需要在導出節點中使用 CLEM 語言導出新字段。例如,您可以通過 farmsize * rainfall * landquality 這一簡單公式評估收入。要查明偏差,需要繪制 diff 的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距很有意思。既然所有大偏差都發生在 arable_dev 財政補貼上,就可以只選擇 arable_dev 財政補貼申請。為此,將選擇節點添加到名為 diff 的導出節點,然后使用 C
39、LEM 表達式 claimtype = arable_dev 選擇記錄。3、訓練神經網絡在最初的數據調查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網絡的意義所在。在數據中使用變量,神經網絡可以根據目標變量或相關變量來進行預測。通過這些預測變量,您可以查明偏差的記錄或記錄組。在最初的數據調查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網絡的意義所在。在數據中使用變量,神經網絡可以根據目標變量或相關變量來進行預測。通過這些預測變量,您可以查明偏差的記錄或記錄組。 建模準備過程中,應首先將類型節點添加到當前流中。由于要使用數據中的其他
40、變量來預測申請值,您可以使用類型節點將申請金額的方向設置為輸出。添加神經網絡節點并執行。一旦神經網絡訓練結束,可以將已生成模型添加到流,然后繪制一張預期申請金額與實際申請金額的比較圖。大多數案例的預期申請金額與實際申請金額都基本相符。導出另一個 claimdiff 字段(與之前導出的“收入差額”字段類似)。此導出節點使用 CLEM 表達式(abs(claimvalue - $N-claimvalue) / claimvalue) * 100為了說明實際申請金額與預估申請金額之間的差異,請使用 claimdiff 直方圖。您主要想了解申請金額比預估金額(由神經網絡判斷)高的人。通過在直方圖劃出區
41、域,您可以右鍵單擊劃出的區域,然后生成一個選擇節點以進一步調查 claimdiff 值相對較大(如大于 50%)的人。這些申請有待進一步調查。實驗六、分類和回歸樹節點(C&RT)【實驗目的】1、掌握C&RT分類算法。2、掌握決策樹的建立和修剪3、了解C&RT分類算法在管理決策中的應用【實驗內容】1、C&RT分類算法建立決策樹【實驗步驟】分類和回歸樹節點 (C&RT) 是一種基于樹的分類和預測方法,此方法使用遞歸分區將訓練記錄分割為多個具有相似的輸出字段值的段。在本示例中,將 C&RT 應用于某市場研究,其中的目標字段為有意預訂有線電視交互服務。預測變量字段包括年齡、性別、教育、收入類別、每天看
42、電視的時間和子女數(按有序集合編碼,因為值 8 表示 8 個或更多)。此示例使用名為 Newschancart.str 的流,此流引用名為 NewsChan.sav 的數據文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的開始菜單下選擇 Start All Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 Newschancart.str 位于 Base_Module 目錄下。1、創建樹要創建流,可執行下列操作:在 Demos 文件夾中添加指向 NewsChan.sav
43、的 SPSS 文件源節點。為流添加類型節點。在類型節點中選擇讀取值以實例化字段。選擇 NEWSCHAN 并將其類型設置為標志,將其方向設置為輸出。其他所有字段用作預測變量(輸入)。將 C&RT 節點連接到類型節點。在“模型”選項卡上,選擇啟動交互會話作為構建選項。這樣,在執行節點時將啟動“交互樹”窗口,通過該窗口可以在生成模型之前生成并編輯樹。在“專家”選項卡上選擇專家模式并選擇修剪樹和使用標準誤規則。將最小雜質改變值設置為 0.003。增加此值可避免進行改進意義十分微小的分割,從而傾向于生成較簡單的樹。要指定停止標準,可在“專家”選項卡上單擊停止。在“停止標準”對話框中選擇使用絕對值。將最小
44、絕對臨界值更改為 25 和 10,然后單擊確定。行節點。此時將出現交互樹窗口,在其中可以生成并編輯樹。 最初,僅顯示根節點。統計顯示訓練數據中有 442 個記錄。因為尚未分割樹,因此所有的記錄 (100%) 都落在此節點中。在整個示例中,有 215 個記錄對預訂的響應為是,其總響應率為 48.6%。使用樹模型,我們可以嘗試是否能夠通過找到最有可能作出積極響應的子組來提高此匹配率。提示:要查看字段標簽,例如否和是響應的標簽,可單擊菜單欄上的顯示字段和值的標簽按鈕在“查看器”選項卡上,單擊根節點以選中它并從菜單中選擇以下項: 樹 生成樹和修剪生成的樹具有五層和五個終端節點。(要查看整個樹,可使用縮
45、放工具或單擊工具欄右側的圖窗口工具按鈕。)如果尚未選中修剪選項,則樹可能會復雜得多。修剪操作基于成本復雜性算法,此算法可根據終端節點數調整風險評估。 2、生成模型和節點以便評分使用決策樹時,共有幾個選項可用于生成或導出會話結果。其中兩個常用的選項為根據當前樹生成模型或根據當前樹生成選擇節點。這些選項會在下面各節中進行說明。有關其他選項的說明,例如過濾節點和規則集,請參閱 Clementine 幫助。根據當前樹生成模型可使用此流生成模型,該模型可根據分配到節點的記錄的積極響應率對這些記錄進行評分。在交互樹窗口的“查看器”選項卡上,從“生成”菜單中選擇生成模型。此時將出現“生成新模型”對話框。 在
46、“生成新模型”對話框中,輸入新模型的名稱(可選),然后單擊確定。 該模型位于流工作區中。在流工作區中,將生成的 NEWSCHAN1 模型連接到類型節點。在生成的 NEWSCHAN1 模型中,單擊設置選項卡,選擇計算置信度和規則 ID,然后單擊確定。連接表節點并執行流。已執行的表中顯示了可能接受有線電視服務預訂的用戶的記錄。$R-NEWSCHAN 列顯示了對這些記錄的預測結果。如果某記錄顯示的值為 1,則可以預測該用戶對預訂的響應為是。如果需要,可將此生成的模型保存到模型選項板上以備將來的數據使用。右鍵單擊流中的 NEWSCHAN1 模型并選擇添加到模型選項板。然后單擊模型選項板上的模型并選擇保
47、存模型。生成選擇節點還可以生成選擇節點,該節點包括所有落在節點 2 和 13 中的記錄。然后,可以使用具有新數據的選擇節點確定哪些用戶最有可能對預訂做出積極的響應。 在交互樹窗口中,使用按住 Ctrl 鍵并單擊的方法選中節點 2 和 13。 從“生成”菜單中,選擇選擇節點。生成的選擇節點位于流工作區中。該生成的選擇節點可根據在交互樹窗口中為節點 2 和 13 選擇的標準來構建表達式。 將生成的選擇節點連接到流中的類型節點上。 將表連接到選擇節點并執行該表以查看記錄。注意,此次僅選中 226 個記錄而不是原來的 442 個記錄。今后還可將此選擇節點應用于其他數據集中;可根據同樣的已定義的年齡、收
48、入、教育和性別屬性過濾這些新數據。本示例演示了如何在市場研究中應用 C&RT 節點和決策樹來確定那些愿意預訂有線電視交互服務的用戶。通過使用預測變量,例如年齡、性別、教育、收入類別、每天看電視的時間和子女數,我們可以預測和分類響應以便在商業競爭中獲取最高響應率。樹模型使用簡單,易于理解。系統將構建樹并遞歸分割每個分支直到符合一個或多個停止標準為止。然后,可根據使用的建模方法在每個分割處自動選擇最合適的預測變量。如本示例所示,可使用樹生成模型或選擇節點并將其應用到以后的數據集中。實驗七、多項 Logistic 回歸【實驗目的】1、熟悉Logistic 回歸。2、掌握Clementine 中Log
49、istic 回歸建模方法。【實驗內容】1、在Clementine 中建立多項Logistic 回歸【實驗步驟】Logistic 回歸是一種統計方法,它可根據輸入字段的值對記錄進行分類。這種統計方法類似于線性回歸,但是它使用的是分類目標字段而非數值目標字段。例如,假設某個電信服務提供商已按照服務使用模式對其客戶群進行了劃分,將這些客戶分類到四個組中。如果可使用人口數據預測組成員,則可以為單個預期客戶定制服務使用模式。此示例使用名為 telco_custcat.str 的流,此流引用名為 telco.sav 的數據文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下
50、找到這些文件,也可以通過從 Windows 的“開始”菜單下選擇 Start All Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 telco_custcat.str 位于 Classification_Module 目錄下。本示例將焦點集中于使用人口數據預測使用模式。目標字段 custcat 有四個可能的值對應于四個客戶組,如下所示:值標簽1基本服務2電子服務3附加服務4全套服務因為目標含有多個類別,因此將使用多項模型。如果目標含有兩個截然不同的分類,例如是/否,真/假,或流失/保持,則會轉而創建二項模型。 1、構建流在 Demos 文件夾中添
51、加指向 telco.sav 的 SPSS 文件源節點。添加一個用來定義字段的類型節點,確保所有類型均設置正確。例如,可以將值為 0 和 1 的大多數字段視為標志字段,但對于某些字段(如性別),將其視為具有兩個值的集合字段更為準確。提示:要更改具有相似值(如 0/1)的多個字段,請單擊值列標題,以便按值對字段進行排序,然后按住 Shift 鍵的同時使用鼠標或箭頭鍵選擇所有要更改的字段。然后您可以右鍵單擊這些選擇,以更改所選字段的類型或其他特性。因為將性別視為集合比視為標志更精確一些,所以請單擊其“類型”值,然后將其更改為集合。將客戶類別字段的方向設置為輸出。所有其他字段的方向都應設置為輸入。因為此示例主要關注人口統計,所以請使用過濾節點以選取相關字段(地區、年齡、婚姻狀況、地址、收入、教育程度、行業、退休、性別、居住地和客戶類別)。其他字段可以排除在此分析之外。(另外,您可以將這些字段的方向更改為無,而不要排除這些字段,或者選擇要在建模節點中使用的字段。)2、瀏覽模型在 L
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林地區普通高中友好學校聯合體2024-2025學年高二下學期期中地理試卷(含答案)
- 財務會計實習個人工作總結
- 廣東省2024-2025學年八下英語期末模擬測試卷(二)(無答案)
- 幼兒園保育員培訓課件2024鮮版
- 臨床低T3綜合征定義、流行病學、病理生理機制、治療策略等診治策略要點
- 日語語法題目解析及答案
- 日語動詞變形題目及答案
- 2023-2024學年山東省東營市高二下學期期末質量監測數學試題(解析版)
- 環境系統工程課件
- 農村發展方向問題研究
- 屋頂分布式光伏電站施工管理要點
- 廣東省珠海市金灣區2023-2024學年七年級下學期期末考試生物試題(無答案)
- 2024年湖南中考化學試卷及答案
- DL-T-300-2011火電廠凝氣器管防腐防垢導則
- 何家弘法律英語第四版翻譯完整版
- 機修鉗工實訓室整體方案及流程
- 2024年中考地理簡答題答題模板
- 農村自建房施工安全建議
- 2024助貸委托服務協議合同模板
- 2024年湖北省丹江口市初中畢業生適應性考試地理·生物試題
- 承包商安全管理培訓課件
評論
0/150
提交評論