《數據挖掘技術與應用》實驗指導書(排)_第1頁
《數據挖掘技術與應用》實驗指導書(排)_第2頁
《數據挖掘技術與應用》實驗指導書(排)_第3頁
《數據挖掘技術與應用》實驗指導書(排)_第4頁
《數據挖掘技術與應用》實驗指導書(排)_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘技術與應用實驗指導書數據挖掘技術與應用實 驗 指 導 書鄧克文 編重慶大學經濟與工商管理學院2014 年 7 月數據挖掘技術與應用實驗指導書目 錄第一章第一章 數據挖掘及工具簡介數據挖掘及工具簡介.11.1 數據挖掘的基本概念 .11.2 數據挖掘的基本框架及流程 .11.3 數據挖掘軟件工具 .1第二章第二章 基礎實驗篇基礎實驗篇.22.1 實驗一 分 類.22.2 實驗二 預 測.182.3 實驗三 聚 類.292.4 實驗四 關聯分析 .402.5 實驗五 RFM 模型.462.6 基于遺傳算法的變量選擇.60參考文獻參考文獻.71附附 錄錄.72數據挖掘技術與應用實驗指導書1第

2、一章 數據挖掘及工具簡介1.1 數據挖掘的基本概念數據挖掘的基本概念1.2 數據挖掘的基本框架及流程數據挖掘的基本框架及流程1.3 數據挖掘軟件工具數據挖掘軟件工具數據挖掘技術與應用實驗指導書2第二章 基礎實驗篇2.1 實驗一實驗一 分分 類類一、實驗目的通過本次實驗,學會使 Clememtine 軟件及 R 軟件進行數據挖掘的分類實驗,撐握以下知識點:(1) Logistic 分類模型;(2) 決策樹 C5.0 分類模型及其 Cost 矩陣設置的重要作用;(3) 貝葉斯網絡分類模型;(5) 支持向量機模型;(6) 神經網絡模型;(7) 運用R 軟件進行連續函數離散化數據預處理,并對該數據用上

3、述 3 個模型進行挖掘,最后與連續性原始數據的挖掘結果進行對比,并得出相關結論;(8) 運用 Clememtine 軟件解決數據預處理中的缺失值填充問題。二、實驗安排1學時: 本實驗安排 8 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具PC 電腦 1 臺,Windows 7 系統,Clememtine 12.0 數據挖掘軟件,R 軟件,以及上市公司 ST 數據集和 Clememtine 自帶的 telco.sav 數據集。四、知識準備五、實驗背景六、實驗過程實驗實驗 1:基礎模型:基礎模型數據挖掘技術與應用實驗指導書31.按順序拖動并設置

4、以下節點。(1)設置數據來源(source 中的 excel 來源) 。(2)將 320.xls 指向 table,運行 table。結果如下。點擊此處選擇數據源。數據挖掘技術與應用實驗指導書4Table 節點運行后,我們可以看到數據源的具體內容,其包含 320 個上市公司的財務指標以及在該財務指標下第二年是否被 ST 的數據,ST1 表示次年被 ST,ST0則表示未被 ST,其中 X1 至 X18 表示凈利潤率、資產收益率等 18 邊續性的財務變量,最后一個變量為 Flag 類型 ST 變量。(3)將 320.xls 指向 type 節點,編輯 type,只有最后一項為輸出且類型為 flag

5、,其他項為輸入,類型為連續型變量(range) 。數據挖掘技術與應用實驗指導書5(4)將 type 指向 partiton,設置訓練集與測試集比例,對話框上部的 generate 處可分出訓練集與測試集,下部的 generate 實現隨機抽樣分區,在大樣本的情況下,這將使得每位同學的實驗得到的結果會有所不同。然后將 partition 指向 testing 和training。(5)選擇邏輯模型和決策樹模型,并將 partition 分別指向這兩個模型。1)編輯決策樹模型的 model,可選擇專家模型與普通模型。數據挖掘技術與應用實驗指導書62)編輯決策樹模型的 costs,可確定誤判的代價。

6、(6)運行邏輯模型,將新生成的數據拖到 training 與 testing 后并由它們指向數據。設置不同的決策樹模型,生成不同的數據,由邏輯模型數據指向不同的決策樹模型數據。數據挖掘技術與應用實驗指導書7在每條數據流末端增加 analysis,并指向它們。(7)不同決策樹設置下的數據及分析。數據挖掘技術與應用實驗指導書81)決策樹設置:1 誤判為 0 代價為 10,0 誤判為 1 代價為 1。非專家模型。該代價矩陣設置應該根據具體業務進行設置,其意指:誤將 ST 公司當成正常公司投資將會造成 10 單位的損失,而誤將正常公司判斷成為 ST 公司的非投資行為將造成 1 單位的經濟損失。這樣設置

7、的目的是讓決策樹模型盡可能的找出 ST 公司,其會導致模型的整體精確度下降,但在有預算的投資資金的情況下,投資者總能選擇出最佳的正常公司進行投資,現實意義顯著。這個設置也是決策樹與其它模型有所區別的地方。數據挖掘技術與應用實驗指導書92)決策樹設置:1 誤判為 0 代價為 100,0 誤判為 1 代價為 1。非專家模型。數據挖掘技術與應用實驗指導書103)決策樹設置:1 誤判為 0 代價為 10,0 誤判為 1 代價為 1。專家模型。實驗實驗 2:連續型變量與離散型變量的模型建立:連續型變量與離散型變量的模型建立1. 打開 320.xls,另存為 320.csv2.運用 R 軟件編程,對數據進

8、行離散化處理,刪除無效屬性(屬性為單一值) ,并保存。由于離散數據占用計算機空間小,運算速度快,因此在數據挖掘過程中把連續性的數據分區離散化可以使得在不損失有用信息的情況下提升模型的計算速度,簡化計算,并使得模型數據匹配各種模型(如:貝葉斯模型,對離散化的數據處理更為精確) 。在本例中,除目標變量,其余財務指標均為連續性變量,我們將用成熟的離散化算法將其轉化為離散化數據,并重復上述的各模型,并把結果進行對比。數據挖掘技術與應用實驗指導書11數據挖掘技術與應用實驗指導書12上述結果表明,離散化后 X10 只離散化為一個單一區間,這表明其與決策變量 ST沒有相關性,故在后續的分析中將其刪除。3.用

9、離散型與連續型兩個不同的數據來源建立兩個數據流,建立過程同上。4.離散型數據類型設置為 set,連續型數據類型設置為 range。數據挖掘技術與應用實驗指導書135.設置貝葉斯模型,在 Fields 中,目標設置為 ST,Inputs 只保留 x1 到 x18;分析比較不同數據類型的貝葉斯模型分析結果,離散型數據擁有較高準確率。數據挖掘技術與應用實驗指導書14數據挖掘技術與應用實驗指導書156. Clememtine 超節點的應用。所謂超節點,就是將數據預處理、模型建模等相同功能的多個數據流節點合并為一個功能單一的超節點,其目的是簡化數據流,使得模型結構清晰,易于理解。其方法是:選擇多個數據流

10、中具體相同目的節點,單擊右鍵選擇 create supernode,可將其整合為一星型超節點。7.右鍵單擊任意超節點,如:pre-date,選擇 zoom in,可查看詳細節點。數據挖掘技術與應用實驗指導書16實驗實驗 3:數據的預處理(篩選與填充)與建模:數據的預處理(篩選與填充)與建模1.選擇數據來源:telco.sav 數據集來自于 Clememtine 自帶的 example 數據集,該數據集收集了 1000 位移動用戶的信息,每位用戶有 38 個屬性(收入,年齡等) ,希望對客戶流失進行建模。2.編輯類型,自動讀取數據類型數據挖掘技術與應用實驗指導書173. 變量選擇:添加 chur

11、m 模型,將 type 指向 churm 并運行,自動從 38 個變量中選擇了 27 個重要屬性,生成數據;將數據添加到模型區并將 type 指向數據。4.添加 filter 處理數據,講非重要屬性過濾掉,運行該處理,操作含有缺失值的那個屬性,在 missing input 處選定為 specify。數據挖掘技術與應用實驗指導書185.在彈出的對話框中設置填充的原則,當值為空或者為空格時自動填充,算法為C&RT,其原理是把數據完整的客戶數據用于建立 C&RT 決策回歸樹模型,并用于預測相關的缺失值,單擊 ok。6單擊第 4 點圖 generate 中的 missing value supern

12、ode,生成 missing value imputation,后續的添加模型生成數據、進行分析的操作同上。數據挖掘技術與應用實驗指導書197.分析結果如下。七、實驗結果及分析七、實驗結果及分析數據挖掘技術與應用實驗指導書201.模型務必按順序建立,并依次連接依次設置運行。一般順序為:數據導入,數據篩選并生成數據包,確定模型并生成數據包,分析模型準確率等。2.預處理是數據挖掘中最重要的部分。在數據進入模型之前,我們可以使用 R 進行數據預處理,將數據離散化,也可以在 clementine 中篩選出重要屬性,對缺失值進行合理填充,以此得到可信度較高的模型。3.模型的設置對結果的得出也至關重要,要

13、防止過度擬合,也可以通過專家模型得出簡潔優秀的模型。4.各個節點名稱的設置有助于我們保持清晰的思路,防止數據、過程混亂,在模型對比時尤其重要。數據挖掘技術與應用實驗指導書212.2 實驗二實驗二 預預 測測一、實驗目的通過本次實驗,學會應用神經網絡模型處理預測問題,之所以本例使用神經網絡模型,是因為其在處理復雜輸入和輸出方面有天然的優勢,在電力載荷預測案例中,有多個輸入變量和 3 個輸出變量,其它模型建模稍顯復雜,幫而我們使用神經網絡模型。此外,我們還將對 Clememtine 自帶的數據集 Goods1n 進行促銷商品選擇的建模,學會 increase(增加屬性節點),sort(排序節點)以

14、及 select(選擇節點)的使用。二、實驗安排1學時: 本實驗安排 4 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具四、知識準備五、實驗背景六、實驗過程實驗實驗 1根據已給出數據流,建立相同數據流。按順序創建并設置節點。數據挖掘技術與應用實驗指導書221導入并查看數據。數據挖掘技術與應用實驗指導書232設置數據類型,最大負荷、最小負荷、平均負荷為輸出值(復雜輸出) ,其他為輸入值。點擊 read values 讀取數據類型。3.設置訓練集與測試集,比例如分別為 68%和 32%,將數據順序打亂,分出測試集與訓練集。數據挖掘技術與應用實驗

15、指導書244.因為輸出結果為多個,所以應使用神經網絡模型。使用神經網絡模型對訓練集進行處理,得出并查看數據包如下。可以看出最高溫度、最低溫度、小相對濕度與負荷的相關度最高。數據挖掘技術與應用實驗指導書25數據挖掘技術與應用實驗指導書265.分析結果如下數據挖掘技術與應用實驗指導書27實驗實驗 2根據已給出的數據流,按順序觀察各節點的設置,研究該數據流的原理及輸出結果。1.查看數據源,可以看到該表的各個屬性(商品類別,成本,促銷情況以及促銷前后的盈利數據)。數據挖掘技術與應用實驗指導書282.因為不同商品價格不同,銷售前后的變化難以直觀表示,故新增增長率這一屬性。設置 derive 增加屬性列,

16、屬性 increase 的值由 Formula 中的公式得出。數據挖掘技術與應用實驗指導書293.點擊上圖右邊圖標,可以更便捷地編輯公式。數據挖掘技術與應用實驗指導書304.設置 type,用 Increase 取代 After,并將 Increase 設置為輸出。5.使用神經網絡模型對已經過預處理的數據進行處理,得出數據包 increase。我們數據挖掘技術與應用實驗指導書31可以看到 class 和 promotion 是重要變量。6.使用 sort 對 increase 數據包進行排序,選擇對$N-Increase 屬性進行降序排序。7.為了篩選出提高較明顯的商品,使用 derive 增

17、加屬性列,將 Increase 預測值進行數據挖掘技術與應用實驗指導書32歸一化處理。8.使用 select 篩選數據,將數據按降序排序,篩選出歸一化的 increase 預測值大于0.9999 的商品。9.select 前后記錄結果數對比如下,記錄從 200 條變為 41 條。數據挖掘技術與應用實驗指導書33 10.使用 plot 作圖,查看圖例可以看出促銷對各商品對利潤率的提升程度,如下圖所示:促銷效果的好壞由高到依次為 Drink,Confection,Luxury,Meat。七、實驗結果及分析七、實驗結果及分析1.在 type 中,使用讀取數據可以快捷簡單的自動設置各個值的類型。2.查

18、看數據包可以看到各因素與結果的相關性,對結果的影響的重要程度。3.使用 derive 可以增加屬性列,并且可以自由編輯公式得出屬性列的值。4.select 可以對數據進行排序并篩選數據。5.可以使用作圖功能,更直觀地查看分析結果。數據挖掘技術與應用實驗指導書342.3 實驗三實驗三 聚類聚類一、實驗目的通過本次實驗,在理解聚類與分類的區別基礎上,學會三種聚類方法:K-means聚類,層次聚類以及 Two-step 聚類。在聚類分析中,通常我們將根據分類對象的不同分為 Q 型聚類分析和 R 型聚類分析兩大類。R 型聚類分析是對變量進行分類處理,Q 型聚類分析是對樣本進行分類處理。二、實驗安排1學

19、時: 本實驗安排 4 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具四、知識準備五、實驗背景六、實驗過程實驗實驗 1:K-Means 聚類(本例為聚類(本例為 Q 型聚類)型聚類)1.打開數據文件,在分析選項卡的聚類中選擇 K-Means 聚類分析。數據挖掘技術與應用實驗指導書352.選擇連續變量作為聚類的屬性,選擇類的數量3.更改最大迭代次數4.保留新變量:類的成員和中心距。數據挖掘技術與應用實驗指導書365.得到結果包括初值中心點、循環歷史、最終結果的中心點、每類包含的樣本個數,可以看到總體被分為三類,一共進行了三次循環。6.增加目標類

20、的數量,設為 5。數據挖掘技術與應用實驗指導書377.得到結果中類的數目增加為 5,每個類包含的樣本減少,循環次數不變。數據挖掘技術與應用實驗指導書38實驗實驗 2 :層次聚類(本例為層次聚類(本例為 R 型聚類)型聚類)1. 數據背景為不同國籍的裁判對選手的評分,目的是對不同國籍的裁判進行評分風格進行聚類。使用 SPSS 進行聚類分析。打開數據文件查看變量界面,如下圖。2. 在分析選項卡的聚類中選擇層次聚類(hierarchical cluster)分析。設置國籍為聚類變量。在 plots 中勾選 Dendrogram。 4.查看聚類結果。包括冰柱圖和樹圖。冰柱圖中,兩個國籍之間的“冰柱”的

21、長度表示兩個國籍裁判的相似程度, “冰柱”越長,表示相似程度越高,相似程度高的國籍的裁判可以聚為一類。下圖可以看出 China數據挖掘技術與應用實驗指導書39和 Romania 的相似程度非常高。樹圖中,兩個不同國籍間的聚類是按照層次劃分的。如下圖中,當聚類條件較嚴格時,可以分為 6 類,其中 3、5 為一類,2、4 為一類,其他各自為一類。當聚類條件非常寬松,只分為兩類時,8 自己成為一類,17 為一類。實驗實驗 3:二階聚類(本例為:二階聚類(本例為 Q 型聚類)型聚類)使用 clementine 建立如下數據流,進行二階聚類,并使用作圖工具。數據挖掘技術與應用實驗指導書401.設置 ty

22、pe 類型。因為本次挖掘任務是進行聚類,需要把所有變量都輸入模型,沒有輸出項,故在讀取數據過后,將所有變量的類型都設置為輸入。2. 設置 two step 模型。設置特定的聚類結果的類的數量,分別為 2、3、5。數據挖掘技術與應用實驗指導書413. 設置不同的目標類數量,分別運行得到三個數據包,查看數據包,結果如下。以聚成 3 類為例,可以看到不同類別中各個變量在該類別的分布比例。如變量 BP在不同類別中分布差異十分明顯,故該變量的性質為重要,重要程度為 1.00。數據挖掘技術與應用實驗指導書42數據挖掘技術與應用實驗指導書43 4.使用 distribution 作圖。設置作圖選項。選擇作圖

23、域為二階分類,將藥物作為覆蓋色的屬性,著重突出。數據挖掘技術與應用實驗指導書445.作圖結果如下,有且只有第一類使用藥物 Y,另外兩類的劃分界限也十分明顯,由此可以看出藥物變量對分類起著至關重要的作用。6,使用 kononen 神經網絡模型進行聚類,得到聚類結果如下,每一個(X,Y)坐標代表一類,總共被分為 16 類。數據挖掘技術與應用實驗指導書45三、實驗結果及分析三、實驗結果及分析1.在此次實驗過程中,我首次利用 SPSS 進行了數據挖掘任務,對 SPSS 軟件有了一定的了解。2.通過此次實驗,我對 K-均值聚類的基本原理有了初步的了解,其主要用于全為連續性數據的聚類。3.二階聚類是最為有

24、效的聚類方法,其不光適用于連續性數據,敢適用于離散性數據。4.為了對聚類結果有直觀的分析,我們可以使用圖表來展示結果。數據挖掘技術與應用實驗指導書462.4 實驗四實驗四 關聯分析關聯分析一、實驗目的通過本次實驗,學會使用 GRI、APRIORI、CARMA 模型進行關聯規則分析,充分了解三個模型的特點及適用范圍。二、實驗安排1學時: 本實驗安排 4 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具四、知識準備五、實驗背景六、實驗過程實驗實驗 1根據已給出的數據流,按順序觀察各節點的設置,研究該數據流的原理及輸出結果。數據挖掘技術與應用實驗指

25、導書471.設置數據各屬性的類型。因為是研究關聯規則模型中各項之間的關系,所以各項既是輸入值,又是輸出值,如下圖。暫且不考慮收入和年齡對該規則的影響,不作為輸入值。2.以 GRI 模型為例,首先設置 GRI 模型中最小前向支持度,最小規則置信度,前項的最大數量,規則的最大數量,并運行模型。數據挖掘技術與應用實驗指導書483.運行 GRI 模型得到數據集 GRI,雙擊查看數據,可以看到模型得出的各條規則及支持度、置信度、提升度等。查看全部數據還可得到預測準確率提升度等。以后項為啤酒的規則為例,選擇冷凍餐和罐頭蔬菜的客戶有較高的可能會選擇啤酒,置信度置信度都在 55%以上,即當客戶選擇冷凍餐和罐頭

26、蔬菜之后,判斷他會購買啤酒,則該判斷正確率將在 55%以上。支持度支持度是,在所有客戶中有 30.2%的人同時購買了啤酒和冷凍餐,有 30.3%的人同時購買了罐頭蔬菜和啤酒。而提升度提升度表示是否使用模型對判斷客戶是否會購買某商品的判斷的提升狀況。4.在該窗體中點擊 Generate 一項,選擇 Rule set,可以選擇設置數據中的部分規則。數據挖掘技術與應用實驗指導書495.在彈出對話框中選擇規則的目標域,通過設置最小支持度和最小置信度篩選出符合要求的規則,同時設置默認值為 F,對輸出加以區別。6.對前項相同的規則設置不同的最小支持度和最小置信度進行篩選比較。 (左圖對最小支持度和最小置信

27、度的設置較為嚴格。 )可以發現設置較嚴格時輸出的規則較少,該設置在數據量規模很大時有較大作用。數據挖掘技術與應用實驗指導書50 7. 選擇某條規則后,在該窗體中點擊 Generate 一項,選擇 Select Node,可以篩選出符合該規則的全部事務。例如選擇后項為 confectionery 的規則,將產生一個 Select 選項,條件為 confectionery=T。數據挖掘技術與應用實驗指導書518.查看經過 Select 操作的數據,可以看到原本的 1000 條數據減少為 276 條,且全部事務的 confectionery 一項的值皆為 T。9.運行 GRI、Carma、Aprio

28、ri 三個不同的模型,并對比生成的數據包,其生成的規則及置信度、支持度如下。通過對比可以發現,GRI 及 Apriori 中各規則的支持度與置信度水平都比較相近,而 Carma 中,一般來說支持度較低的規則會擁有較高置信度(前三條規則) ,其他規則的支持度、置信度水平與另外兩個模型的結果相當。數據挖掘技術與應用實驗指導書52三、實驗結果及分析三、實驗結果及分析通過本次試驗,我有以下收獲。1.理解了關聯分析中變量作為輸入項還是輸出項的原因,能夠對其他模型中變量輸入、輸出的控制做出判斷。2.明白關聯規則中支持度、置信度、提升度等各項指標的意義。3.學會對輸出的規則進行篩選,找到對自己有用的規則。2

29、.5 實驗五實驗五 RFM 模型模型一、實驗目的通過本次實驗,學會使用著名的市場營銷模型 RFM 建立數據挖掘流進行市場營銷客戶響應分析,掌握 Merge(數據整合節點)以及 Balance(樣本平衡節點)的應用,解釋提數據挖掘技術與應用實驗指導書53升圖、利潤圖、響應圖等一系列可視化圖型的內在含意。二、實驗安排1學時: 本實驗安排 4 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具四、知識準備五、實驗背景六、實驗過程研究給定的數據流模型,并進一步設置模型。1.第一個部分是利用 RFM 對數據中的每一個對象進行打分。其中要用 filler

30、將日期變量的屬性設置為“Date”。數據挖掘技術與應用實驗指導書54在 analysis 中可以查看 RFM 的評分方式,及對變量 recency 的評分詳情。數據挖掘技術與應用實驗指導書552.將處理過的三張數據表,通過 Merge 合為一張表,key 為 CardID。數據挖掘技術與應用實驗指導書563.設置輸變量與輸出變量。因為 recency score,frequency score,monetary score 已經包含在 RFM score 當中,故不重復輸入。4.設置訓練集與測試集的比重,并設置生成新的順序隨機的數據集。數據挖掘技術與應用實驗指導書575.調整平衡訓練集,使訓練

31、集中的結果 F 和 T 的比例盡量接近,避免由于現實中結果 F 比例過大,使模型為了提高準確率而偏袒 F,無法比較準確地找出結果為 T 的對象。在這種情況下即使模型準確率很高也沒有意義。經試驗,Factore 設置為 13 較為合理。數據挖掘技術與應用實驗指導書586.通過作圖對未經平衡的數據集(第一圖)和平衡后(Factore=13)的數據集(第二圖)進行直觀對比,訓練集中結果 T 和 F 的數量相當。7.使用決策樹算法分別建立不使用 REM 數據和使用 RFM 數據的模型,得到兩個數據包。下圖為不使用 RFM 數據的決策樹設置。為了避免過度擬合,決策樹過于龐大,不使用 RFM 數據的決策樹

32、設置為專家模型,每個節點的最少枝干數為 500。數據挖掘技術與應用實驗指導書59數據挖掘技術與應用實驗指導書608.使用 RFM 數據的輸入設置如下,且使用簡單模型(非專家模型) 。9.對兩種設置得到的不同數據報進行分析,可以看到使用 RFM 數據可以明顯提高預測的準確率。第一圖為不使用 RFM 數據的專家模型,第二圖為使用 RFM 數據的簡單模型。數據挖掘技術與應用實驗指導書6110.作五種類型的圖,從不同角度分析 RFM 算法的作用。數據挖掘技術與應用實驗指導書6211.Gains 分位累計命中數/總命中數理想的 Gains 圖應在前期快速達到較高的累計 Gains,很快趨于 100%并穩

33、定。在 Gains 圖中,$C-Responded 線與 RFM Score 線在橫坐標相同時,縱坐標間距離越大,表示獲利越多。在訓練集中,由于 T 和 F 的數量已經經過平衡,故在橫軸為 50處獲利達到最大值;在測試集中,數據未經平衡,可以看出橫軸在 0 到 10 之間 gains累積速度很快,結合數據背景,即表明只要對 RFM 評分較前 10%的對象進行投入,就能立刻得到較大的回報。數據挖掘技術與應用實驗指導書6312.Response 分位累計命中數/樣本數理想的 Reponse 圖應該在較高的數值上保持一段,然后迅速下降。在該圖中,縱軸數值越大,表示對象回應可能性越大。在訓練集中,橫軸

34、 50 之前其縱軸數值幾乎為 100%,橫軸 50 以后急劇下降。在測試集中,RFM 排名靠前的 10%回應概率較大,最高高達 100%,之后急劇下降到 20%以下,對排名 20%以后的對象投入可視為低效率投入。數據挖掘技術與應用實驗指導書6413.Lift (分位累計命中數/分位樣本數)/(總命中數/總樣本數)理想的 Lift 圖應在較高的累計 Lift 上保持較長一段,然后迅速下降到 1。該圖中,縱軸越大表明提升度越高,同樣可以看到訓練集中橫軸 50 以前的提升度為 2,橫軸 50 以后提升度急劇下降,而測試集中 RFM 排名前 10%的對象提升度都在4 以上,最高達到 10 以上,提升幅

35、度明顯比訓練集高。數據挖掘技術與應用實驗指導書6514.Profit 分位累計回報分位累積成本Profit 圖反映了當樣本不斷增加過程中的利潤變化情況,理想的 Profit 圖應在前期快速上升,在 50%分位點達到最大后快速下降。在下圖中,訓練集符合該變化。而測試集中因為有較大概率回應的人只有 RFM 排名靠前的百分之十,故 profit 線只有在 0 到 10%之間保持較高水平。數據挖掘技術與應用實驗指導書6615.ROI 分位累積利潤/分位累積成本理想的 ROI 圖應在較高的累計 ROI 上保持一段,然后迅速下降至一般水平。在該圖中,訓練集符合該變化,而測試集中因為有較大概率回應的人只有

36、RFM 排名靠前的少數人,故 ROI 線只約在 0 到 5%之間保持大于 0。三、實驗結果及分析三、實驗結果及分析通過此次試驗,我有以下收獲:1.理解了 RFM 模型的原理,學會了如何設置與使用 RFM 模型,能夠利用 RFM 數據來建立數據流2.學會了通過 key 合并數據表3.掌握了 balance 的用法,及使用 balance 的恰當時機。4.學會作各種圖表,如 lift、ROI 等,并能理解各圖表的含義。5.學會了數據類型的轉換,如將字符型轉換為日期型。數據挖掘技術與應用實驗指導書672.6 基于遺傳算法的變量選擇基于遺傳算法的變量選擇一、實驗目的本次實驗屬于數據挖掘建模實驗的選修內

37、容,其完全基于 R 語言環境下的編程建模,運用二進制的遺傳算法解決數據挖掘過程中變量的選擇問題,即從大量的自變量中找到跟目標變量最密切相關的變量子集,以便于約簡數據,提高運算速度,提升模型精度。要求掌握二進制遺傳算法的基本原理以及在 R 語言環境下的編程建模,最后還要基本了解熵、最小描述長度準則(MDL)等基本概念。二、實驗安排1學時: 本實驗安排 4 個學時,主要用于完成實驗及實驗報告。2時間: 由實驗室統一安排3地點: 由實驗室統一安排三、實驗工具四、知識準備五、實驗背景六、實驗過程實驗實驗 1求:函數極大值f(x)=x*sin(10*pi*x)+2 定義域 -1= x =2, 要求精確到小數點后兩位,于是根據公式:(2-(-1)*102=29,因此遺傳算法染色體長度為:9 位。1.精確到小數點后六位時,計算結果如下:2.更改代碼,使結果精確到小數點后兩位。此時染色體長度為 9,故將原代碼中所有的 22 改為 9。數據挖掘技術與應用實驗指導書683.精確到小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論