數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用第24章 SPSSClementine典型案例分析_第1頁
數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用第24章 SPSSClementine典型案例分析_第2頁
數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用第24章 SPSSClementine典型案例分析_第3頁
數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用第24章 SPSSClementine典型案例分析_第4頁
數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用第24章 SPSSClementine典型案例分析_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社第24章SPSSClementine典型案例分析

本章包括:市場購物籃分析利用決策樹模型挖掘商業(yè)信息利用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行欺詐探測24.1市場購物籃分析本節(jié)的例子采用Clementine系統(tǒng)自帶的數(shù)據(jù)集BASKETS1n。該數(shù)據(jù)集是超市的“購物籃〞〔一次購物內(nèi)容的集合〕數(shù)據(jù)和購置者個人的背景數(shù)據(jù),目標是發(fā)現(xiàn)購置物品之間的關(guān)聯(lián)分析。

24.1.1定義數(shù)據(jù)源

24.1.2理解數(shù)據(jù)

在建模之前,我們需要了解數(shù)據(jù)集中都有哪些字段,這些字段如何分布,它們之間是否隱含著某種相關(guān)性等信息。只有了解這些信息后才能決定使用哪些字段,應(yīng)用何種挖掘算法和算法參數(shù)。這個過程就是一個理解數(shù)據(jù)的過程。

24.1.3準備數(shù)據(jù)

在這18個字段中,有一些對于挖掘知識來說是沒有用的,如cardid等,這時我們就可以把這些暫時沒有用到的字段剔除出挖掘過程。這樣可以節(jié)約挖掘時間和效率。24.1.4建模

對字段設(shè)置完畢之后,下一步就是選擇挖掘所需要的模型,在這里我們會選擇使用三種不同的模型來挖掘該數(shù)據(jù)集。1.“Apriori〞模型節(jié)點2.GRI模型3.“網(wǎng)絡(luò)〞節(jié)點24.2利用決策樹模型挖掘商業(yè)信息

輸出類型除了選用“決策樹〞之外,還可以選擇“規(guī)那么集〞來顯示結(jié)果。用“規(guī)那么集〞表示的結(jié)果很多時候比“決策樹〞更加直觀、易懂。。

一般生成的決策樹都是經(jīng)過剪枝的。下面看看剪枝程度的上下對挖掘結(jié)果的影響。選中“模式〞中的“專家〞,把“修剪嚴重性〞的值改為“0〞,這意味著在挖掘過程中,進行的剪枝程度將很小。模型名稱改為“nocut〞。選擇“執(zhí)行〔E〕〞。在右面管理器窗口中選中“模型〔S〕〞,在“nocut〞上右擊,選擇“瀏覽〔B〕〞,查看生成模型結(jié)果。利用剪枝程度較高的決策樹、剪枝程度低的決策樹、規(guī)那么集生成的結(jié)果,可以通過Clementine系統(tǒng)提供的很多模型來進行精度測試。在這兒選用“分析〞節(jié)點。生成的結(jié)果顯示剪枝程度高的模型正確率為93.8%。同樣的原理,測試“nocut〞。剪枝程度低的精度為94.7%。24.3利用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行欺詐探測

背景是關(guān)于農(nóng)業(yè)開展貸款的申請。使用虛構(gòu)的數(shù)據(jù)來說明如何使用神經(jīng)網(wǎng)絡(luò)來檢測偏離常態(tài)的行為,重點為標識那些異常和需要更深一步調(diào)查的記錄。要解決的問題是找出那些就農(nóng)場類型和大小來說申請貸款過多的農(nóng)場主。24.3.1定義數(shù)據(jù)源

使用一個“變項文件〞節(jié)點連接到數(shù)據(jù)集grantfraudN.db。在“變項文件〞節(jié)點之后增加一個“類型〞節(jié)點到數(shù)據(jù)流中。24.3.2理解數(shù)據(jù)

在建模之前,需要了解數(shù)據(jù)集中都有哪些字段,這些字段如何分布,它們之間是否隱含著某種相關(guān)性等信息。只有了解這些信息后才能決定使用哪些字段,應(yīng)用何種挖掘算法和算法參數(shù)。這個過程就是一個理解數(shù)據(jù)的過程。24.3.3準備數(shù)據(jù)

首先考慮數(shù)據(jù)集中可能存在的欺詐類型。在該數(shù)據(jù)流中連接一個“條形圖〞節(jié)點并選定字段名為“name〞的字段。選中“name〞字段之后,點擊“執(zhí)行〞。在數(shù)據(jù)流區(qū)域中添加一個“選擇〞節(jié)點,對該節(jié)點進行設(shè)置。以農(nóng)場大小、主要作物類型、土壤質(zhì)量等為自變量建立一個回歸模型來估計一個農(nóng)場的收入是多少。為了發(fā)現(xiàn)那些偏離估計值的農(nóng)場,先生成一個字段――diff,代表估計值與實際值偏離的百分數(shù)。在數(shù)據(jù)流中再增加一個“導出〞節(jié)點進行設(shè)置。在數(shù)據(jù)流中增加一個“直方圖〞節(jié)點。對“直方圖〞節(jié)點進行設(shè)置。。24.3.4建模將一個“類型〞節(jié)點添加到當前數(shù)據(jù)流中。對數(shù)據(jù)集中的數(shù)據(jù)進行設(shè)置。在數(shù)據(jù)流上添加一個“神經(jīng)網(wǎng)絡(luò)〞節(jié)點。執(zhí)行此數(shù)據(jù)流。神經(jīng)網(wǎng)絡(luò)經(jīng)過訓練后,會產(chǎn)生一個模型。將產(chǎn)生的模型參加到數(shù)據(jù)流流中。然后在數(shù)據(jù)流中再增加一個“散點圖〞節(jié)點,對“散點圖〞節(jié)點進行設(shè)置。設(shè)置完成之后,執(zhí)行。進行深一步的分析。在該數(shù)據(jù)流中增加一個“導出〞節(jié)點,對該節(jié)點進行設(shè)置。為了說明真實值和估計值之間的差距,可以參考claimdiff的直方圖。主要對那些由神經(jīng)網(wǎng)絡(luò)得出的申請超出預期的人感興趣。在數(shù)據(jù)流中再添加一個“直方圖〞節(jié)點。雙擊翻開該節(jié)點,在“字段〞下拉列表中選擇“claimdiff〞,單擊“執(zhí)行〔E〕〞。增加一個分割帶到直方圖中,右擊帶區(qū)生成一個選擇節(jié)點,進一步查看那些claimdiff值較大的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論