銀行客戶滿意度分析論文_第1頁
銀行客戶滿意度分析論文_第2頁
銀行客戶滿意度分析論文_第3頁
銀行客戶滿意度分析論文_第4頁
銀行客戶滿意度分析論文_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、浙江大學(xué)寧波理工學(xué)院銀行服務(wù)客戶滿意度分析綜合評定成績: 評委評語評委評語:評委簽名:評委簽名:浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 1 / 16銀行服務(wù)客戶滿意度分析銀行服務(wù)客戶滿意度分析摘要摘要:隨著全球銀行業(yè)市場競爭的日趨激烈,提升客戶的滿意度,培養(yǎng)忠誠客戶已成為各大商業(yè)銀行開拓市場,增加盈利的重要手段之一。通過數(shù)據(jù)挖掘技術(shù)對客戶滿意度進(jìn)行分析已成為研究熱點。 桑坦德銀行(Santander Bank)是歐洲第二大銀行,他們提供了一個數(shù)據(jù)集要求通過數(shù)據(jù)挖掘技術(shù)在早期就能識別對其服務(wù)不滿意的客戶,以便及時采取合適的改進(jìn)措施以提升客戶的體驗。關(guān)鍵詞:關(guān)鍵詞: 數(shù)據(jù)挖掘技術(shù) 顧客滿意度 P

2、CA 主成分分析法 決策樹 預(yù)測 浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 2 / 16The thesis titleAbstract: A brief description of the abstractKey words: The keyword extraction浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 3 / 16目 錄1.研究目標(biāo)研究目標(biāo) .62.分析方法與過程分析方法與過程.62.1. 總體流程.62.2. 具體步驟.62.3. 結(jié)果分析.73.結(jié)論結(jié)論.74.參考文獻(xiàn)參考文獻(xiàn) .7浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 4 / 161. 挖掘目標(biāo)挖掘目標(biāo)(1)背景:隨著全

3、球銀行業(yè)市場競爭的日趨激烈,提升客戶的滿意度,培養(yǎng)忠誠客戶已成為各大商業(yè)銀行開拓市場,增加盈利的重要手段之一。通過數(shù)據(jù)挖掘技術(shù)對客戶滿意度進(jìn)行分析已成為研究熱點。桑坦德銀行(Santander Bank)是歐洲第二大銀行,他們提供了一個數(shù)據(jù)集要求通過數(shù)據(jù)挖掘技術(shù)在早期就能識別對其服務(wù)不滿意的客戶,以便及時采取合適的改進(jìn)措施以提升客戶的體驗。在本次競賽中,參賽者需要通過分析匿名用戶的上百個特征來預(yù)測用戶對其銀行服務(wù)的滿意程度(滿意或不滿意) 。在數(shù)據(jù)集中 ID 表示客戶的匿名 ID,TARGET 是需要預(yù)測的變量,1 表示不滿意,0 表示滿意,剩余的列是已提取的跟客戶滿意度相關(guān)的觀測指標(biāo)(屬性)

4、 ;需求:需求:1、 分析哪些特征或特征組合能較好的對銀行服務(wù)滿意程度進(jìn)行分析;2、 建立合適的銀行服務(wù)客戶滿意度模型;3、 預(yù)測在測試集中每個客戶的滿意程度(屬于不滿意客戶的概率) ;4、 建立合適的評價指標(biāo),驗證你的預(yù)測結(jié)果。說明:說明:附件共分三個文件:Train.csv 中是訓(xùn)練數(shù)據(jù),其中包含預(yù)測量TARGET,Test.csv 是測試數(shù)據(jù),只包含屬性數(shù)據(jù)。Sample_submission.csv 是需要與源代碼一起上傳的最后結(jié)果樣式,要求輸出對 Test.csv 的測試結(jié)果。(2)目標(biāo):本次數(shù)據(jù)挖掘建模要達(dá)到的目標(biāo)是利用銀行關(guān)于客戶信息建立下來的數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),進(jìn)行已知數(shù)據(jù)

5、以及結(jié)果的相關(guān)分析測試找到規(guī)律建立模型,之后利用測試數(shù)據(jù)帶入模型進(jìn)行預(yù)測得到你結(jié)果。題目給出的大數(shù)據(jù)的屬性以及維度都比較大,所以會有一些冗余和無效數(shù)據(jù),首先要先將高維大數(shù)據(jù)進(jìn)行預(yù)處理,利用 weka 的元學(xué)習(xí)器,通過與NativeBayes 方法一起使用,測試軟件自帶的屬性選擇方法,選擇得到一些最浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 5 / 16具影響力的屬性進(jìn)行作為訓(xùn)練子集,并且運用進(jìn)算法里面。這個方法可以將數(shù)據(jù)進(jìn)行降維,保留相應(yīng)比較主要的影響因素屬性。隨后將數(shù)據(jù)和人屬性一起放入決策樹分類算法,建立合理的模型,可以找到不同屬性對目標(biāo)決定影響程度,建立完成比較合理的分類系統(tǒng)。隨后將題目給出

6、的測試數(shù)據(jù)放入模型,利用已知的模型進(jìn)行預(yù)測,可以推算出客戶滿意情況,銀行可以對于這個預(yù)測結(jié)果對相應(yīng)用戶可以提早對其采取相應(yīng)措施。2. 分析方法與過程分析方法與過程2.1. 總體流程總體流程2.1.12.1.1 問題問題 1 1 原始數(shù)據(jù) 算法分析 分析最大影響特征 2.1.22.1.2 問題問題 2 2、3 3、4 42.2. 具體步驟具體步驟原始數(shù)據(jù)數(shù)據(jù)預(yù)處理建模&預(yù)測0結(jié)果&評估數(shù)據(jù)篩選浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 6 / 162.2.12.2.1 解問題解問題 1 1將 excel 數(shù)據(jù)進(jìn)行轉(zhuǎn)化得 weka 可以識別的 csv 格式,利用 weka 的另存功能得到 arff

7、格式,這個過程得到的數(shù)據(jù)還是不能直接進(jìn)入決策樹運用的。需要打開 arff 格式的數(shù)據(jù),將數(shù)據(jù)類別的一欄修改為銀行需要的 0、1 滿意度類別,將數(shù)據(jù)加載計入決策樹可以得到一個枝節(jié)繁茂的樹,由此可以從這棵樹的模型之中得到影響因素中最大的特征或特征組合為根節(jié)點以及靠近根節(jié)點的幾個特征。使用 wake 通過決策樹 J48 算法 ,驗證訓(xùn)練集,結(jié)果如圖:圖 1浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 7 / 16圖 22.2.2 解問題解問題 2、3、4本用例主要包括如下步驟:步驟步驟 1 1:數(shù)據(jù)篩選:數(shù)據(jù)篩選& &數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理 從原始數(shù)據(jù)分析得到,題目給出的原始數(shù)據(jù)屬性太多,并且都是未知屬性

8、,此外表格的大部門數(shù)據(jù)值為 0,面對這個訓(xùn)練集,里面特征很多是和類標(biāo)簽有關(guān)的,但里面存在噪聲或者冗余。在這種情況下,需要一種特征降維的方法來減少特征數(shù),減少噪音和冗余,減少過度擬合的可能性。所以我們利用 weka 深入研究自動屬性選擇,它允許指定屬性選擇方法和學(xué)習(xí)算法,作為分類器的一部分。該分類器確保選擇屬性子集僅基于訓(xùn)練數(shù)據(jù)。 該算法的好處:提高數(shù)據(jù)準(zhǔn)確估計在選擇屬性過程中避免了因為有監(jiān)督的過濾器的使用而而導(dǎo)致減少后的一部分?jǐn)?shù)據(jù)用于模型測試的過程中,在選擇屬性中回導(dǎo)致已經(jīng)看到了測試浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 8 / 16數(shù)據(jù)中要使用的屬性,從而影響模型構(gòu)建有偏倚的準(zhǔn)確性估計。提

9、高屬性選擇效率該方法是利用算法,讓學(xué)習(xí)器對數(shù)據(jù)進(jìn)行自己學(xué)習(xí)選擇,提取重要影響因素,這種軟件自己學(xué)習(xí)選擇得到的數(shù)據(jù)結(jié)果比手工選擇相關(guān)屬性具有更加高的準(zhǔn)確率。我們想要利用上面的方法篩選得到需要的訓(xùn)練子集,這個訓(xùn)練子集對總體的影響程度相關(guān)性比較大。利用這些對模型訓(xùn)練起較大作用的數(shù)據(jù),從而建立一個更科學(xué)的決策樹模型,使得這個模型可以應(yīng)用于測試數(shù)據(jù),從而進(jìn)行相關(guān)的結(jié)果預(yù)測。最后我們得到的訓(xùn)練子集為如下 10 個:圖 3圖 4步驟步驟 2 2:建模:建模& &預(yù)測預(yù)測 1、建模將上面預(yù)處理得到的訓(xùn)練子集,打開分類面板,利用 weka 的分類算浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 9 / 16法決策樹(

10、J48) 。采取預(yù)剪枝的的優(yōu)化方法,設(shè)定枝節(jié)的閾值為 10,置信區(qū)間為 0.55 的決策樹預(yù)設(shè),進(jìn)行分類處理。該算法的原理是通過對屬性的信息熵的計算,以信息增益量為度量進(jìn)行劃分分裂結(jié)點,選取信息增益量最小的作為根節(jié)點,下面就重復(fù)上面的步驟依次將節(jié)點分裂完全,最終知道該節(jié)點只有一個分裂方向或者該節(jié)點的分裂枝節(jié)小于閾值,則停止分裂。建模過程中,我們一決策目標(biāo) TARGET 為樣本的類別,屬性值具體如下:attributeattribute TARGETTARGET 00 , , 11為了知道不同特征屬性的銀行客戶最終滿意程度,我們需要做的是建立一個合理的決策樹模型,篩選出需要的屬性特征作為決策節(jié)點

11、。其中決策樹的核心算法是 J48,他不是一個算法,而是一組算法,其中包括剪枝與非剪枝 J48。可是,一個元組本身有很多屬性,我們怎么知道首先要對哪個屬性進(jìn)行判斷,接下來要對哪個屬性進(jìn)行判斷?這個時候算法原理是利用了屬性選擇度量來解決這個問題的。屬性選擇度量又稱分裂規(guī)則,因為它們決定給定節(jié)點上的元組如何分裂。屬性選擇度量提供了每個屬性描述給定訓(xùn)練元組的秩評定,具有最好度量得分的屬性被選作給定元組的分裂屬性。目前比較流行的屬性選擇度量有-信息增益、增益率和 Gini 指標(biāo)。因為 J48 與 C4.5 相同,這里我們利用 C4.5 進(jìn)行數(shù)據(jù)挖掘分析,該算法主要包括有如下一個公式:(1)信息熵:pi

12、表示該節(jié)點上類別 i 的訓(xùn)練記錄所占的比例;(2)劃分信息熵:現(xiàn)在假定按照屬性 A 劃分 D 中的元組,且屬性 A 將D 劃分成 v 個不同的類。在該劃分之后,為了得到準(zhǔn)確的分類還需要的信息由下面的式子度量:浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 10 / 16(3)信息增益:信息增益定義為原來的信息需求(即僅基于類比例)與新需求(即對 A 劃分之后得到的)之間的差;(4)分裂信息: C4.5 引入屬性的分裂信息來調(diào)節(jié)信息增益一般說來,對于一個具有多個屬性的元組,用一個屬性就將它們完全分開幾乎不可能,否則的話,決策樹的深度就只能是 2 了。從這里可以看出,一旦選擇一個屬性 A,假設(shè)將元組分成

13、了兩個部分 A1 和 A2,由于 A1和 A2 還可以用其它屬性接著再分,所以又引出一個新的問題:接下來我們要選擇哪個屬性來分類?對 D 中元組分類所需的期望信息是 Info(D) ,那么同理,當(dāng)我們通過 A 將 D 劃分成 v 個子集 Dj(j=1,2,v)之后,我們要對 Dj 的元組進(jìn)行分類,需要的期望信息就是 Info(Dj),而一共有 v 個類,所以對 v 個集合再分類,需要的信息就是公式(2)了。但是,使用信息增益的話其實是有一個缺點,那就是它偏向于具有大量值的屬性。正是基于此,信息增益率這樣一個概念。信息增益率使用“分裂信息”值將信息增益規(guī)范化,分類信息類似于 Info(D)(5)

14、信息增益率:這里選擇具有最大增益率的屬性作為分裂屬性2、 預(yù)測將題目給出的測試集帶入訓(xùn)練得到的決策樹模型,可以根據(jù)屬性進(jìn)行進(jìn)行分類決策,最終在輸出的結(jié)果中看到在待預(yù)測的總的待分析實例中有 49 個為不滿意客戶。步驟步驟 3 3:結(jié)果:結(jié)果& &評估評估1、結(jié)果有訓(xùn)練子集得到的較大影響因素的訓(xùn)練子集,利用主要可替代全部變量屬性的 10 個替代屬性和一個決策屬性,在 J48 分類器下得到有 27 樹節(jié)浙江大學(xué)寧波理工學(xué)院數(shù)據(jù)挖掘競賽論文報告 11 / 16點,14 葉子節(jié)點的決策樹模型,其準(zhǔn)確率為 96.026 %,建立該模型的大部分?jǐn)?shù)據(jù)預(yù)測還是比較準(zhǔn)確的。具體參數(shù)如下:= Run informa

15、tion =Scheme: weka.classifiers.trees.J48 -C 0.5 -M 10Relation: train-weka.filters.unsupervised.attribute.Remove-R1-weka.filters.unsupervised.attribute.Remove-R1,3-88,90-138,140-147,149-164,166-182,184-190,192-280,282-328,330-331,333-369Instances: 76020Attributes: 11 var15 num_var4 num_var30 num_var3

16、5 saldo_var5 saldo_var30 saldo_var42 num_meses_var5_ult3 saldo_medio_var5_hace2 saldo_medio_var5_ult3 TARGETTest mode: 10-fold cross-validation= Classifier model (full training set) =J48 pruned tree-saldo_var30 = 2.94| var15 27| | saldo_var30 = -184.44| | | var15 36| | | | saldo_var5 -220.92: 0 (10.

17、0/4.0)| | saldo_var30 -184.44: 0 (10118.0/1601.0)saldo_var30 2.94| saldo_medio_var5_ult3 = 1.95| | saldo_var30 = 189.03| | | num_var4 1| | | | var15 36| | | | | num_meses_var5_ult3 = 0| | | | | | num_var4 2| | | | | | | saldo_var30 18.99: 0 (10.0/1.0)| | | | | num_meses_var5_ult3 0| | | | | | num_va

18、r4 2: 0 (153.0/31.0)| | saldo_var30 189.03: 0 (4350.0/79.0)| saldo_medio_var5_ult3 1.95: 0 (49736.0/957.0)Number of Leaves : 14Size of the tree : 27Time taken to build model: 1.54 seconds= Stratified cross-validation = Summary =Correctly Classified Instances 72999 96.026 %Incorrectly Classified Inst

19、ances 3021 3.974 %Kappa statistic 0.0039Mean absolute error 0.073 Root mean squared error 0.1911Relative absolute error 96.0326 %Root relative squared error 98.0271 %Coverage of cases (0.95 level) 98.1518 %Mean rel. region size (0.95 level) 59.3081 %Total Number of Instances 76020 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure MCC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論