基于交易數據的客戶流失預警模型獲獎科研報告_第1頁
基于交易數據的客戶流失預警模型獲獎科研報告_第2頁
基于交易數據的客戶流失預警模型獲獎科研報告_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于交易數據的客戶流失預警模型獲獎科研報告摘要:面對瞬息萬變的市場需求和日益激烈的市場競爭,客戶關系管理對于現代企業的重要性日益凸顯。客戶流失預警是利用數據挖掘技術發現即將流失的客戶名單,從而為企業有針對性地開展客戶維系與挽留工作提供科學依據。國內外學者已經圍繞客戶流失預測模型做了許多研究,目前使用最為廣泛的三種算法是Logistic回歸、決策樹和人工神經網絡。由于實驗數據的差異,這些研究所得到的結論也不盡相同。而且,現有研究大多基于模擬數據和用戶消費數據,包含直接可用的預測變量,而鮮少涉及第三方支付行業常見的商戶交易流水這一數據形式,如何從非結構化的交易流水中提取特征仍是一大難題。本文對某第三方支付公司提供的商戶交易流水數據進行了整理和分析,結合業務經驗構造了六個維度的特征用于預測客戶流失情況,精心準備建模數據。運用主成分分析方法,解決了這些變量間存在的共線性問題。然后,分別采用傳統的Logistic回歸方法和基于決策樹的LightGBM、基于神經網絡的多層感知器兩種不同的機器學習流行算法建模,得到定量分析結果,并對其進行定性分析。一方面,對模型進行解釋,尋找客戶流失關鍵因素;另一方面,對比不同算法在客戶流失預測場景下的預測性能,探討算法的適用性。實驗結果表明,簡單的Logistic回歸即可取得較好的效果,LightGBM和MLP進一步提升了預測的準確度,且兩種方法的預測性能沒有明顯的優劣之分,在解釋能力和泛化能力上各具優勢。對于變量重要性,近期內(1個月左右)商戶的交易金額和交易筆數的變化率對模型預測結果影響最大,是實際的客戶流失預測工作中需要重點關注的變量。

關鍵詞:流失預警;非結構化數據;主成分分析;LightGBM;多層感知器

一相關理論基礎

(一)客戶流失理論

客戶流失表現為客戶為企業帶來的價值的減少,不僅包括徹底終止與企業交易的行為,也包括減少與企業的交易次數、同時增加與競爭企業的交易頻率的行為。本文對客戶流失的定義是:若某個商戶連續3個月沒有產生交易流水記錄,則認為該商戶已經流失。

對于有流失傾向的客戶,針對性地采取挽留措施,重建良好客戶關系,保障企業利益不受損失,就是客戶流失管理。客戶流失管理可以劃分為四個階段——客戶流失預測階段、客戶流失分析階段、客戶挽留階段、方案評估階段。流失預測階段的主要工作就是借助客戶流失預警模型,找出流失概率大的客戶群體,列為重點關注對象。

(二)主成分分析

本文基于交易流水數據構造了六個維度的指標,同一維度內的指標相互之間相關性較強,直接用于建模會造成嚴重的共線性問題,使得模型不穩定,變量系數與實際方向甚至可能相反。因此,選擇主成分分析法對指標進行降維處理。在構建完第三方支付公司商戶流失風險預警指標體系后,對指標進行變量間相關性分析,通過主成分分析提取主成分,用于客戶流失預測建模,以此來消除可能存在的多重共線性問題。

(三)分類算法

客戶流失預測問題本質上是一個二分類問題,常用算法可以歸納為基于統計理論的預測和基于機器學習的預測兩類。統計型算法以概率論和統計學原理為基礎,常用的有回歸分析、聚類分析和判別分析等。機器學習屬于人工智能范疇,通過對大量樣本的訓練和學習尋找所需要的參數或模式,主要包括決策樹、貝葉斯、人工神經網絡、k近鄰、支持向量機等,以及組合多個基學習器的集成學習算法。

二客戶流失預警模型

(一)評估指標

文采用精確率P、召回率R、二者的綜合指標F1-score和AUC值來評價模型的預測性能。對于某個類別,精確率P衡量的是正確判定該類別的測試樣本占判定為該類別的測試樣本的比例,召回率R衡量的是正確判定該類別測試樣本占該類別所有測試樣本的比例。對于給定的混淆矩陣,前三個指標的計算公式分別為:

定義真正類率(TruePositiveRate,TPR)為預測為正且實際為正的樣本占所有正例樣本的比例,偽正類率(FalsePositiveRate,FPR)為預測為正但實際為負的樣本占所有負例樣本的比例。對于模型給出的每個實例為正類的概率,通過設定閾值可以將每個實例歸入正類或負類,進而計算得相應的一組TPR與FPR,每一組均對應ROC曲線上的一點。AUC值即定義為ROC曲線下方的面積,AUC值越大的分類器,正確率越高。

(二)模型結果

在建模準備階段,已經通過主成分分析方法得到了11個相互正交的新變量,直接進行Logistic回歸不會存在多重共線性問題。模型的參數估計見表5,可以看到,在0.05的顯著性水平下,除去RC6以外,全部變量均通過了顯著性檢驗。RC6主要與交易活躍維度下的近3個月活躍天數日均交易筆數、近3個月累計交易筆數、近6個月累計交易筆數、近9個月累計交易筆數四個指標相關。

對于LightGBM和MLP,通過5折交叉驗證確定最佳參數組合。選擇建立三層的MLP模型,隱藏層包含10個節點。比較三個模型在測試集上的精準率、召回率、F1值和auc值,可以得出結論,Logistic回歸已經能夠取得較好的分類結果,auc值在0.83左右;LightGBM和MLP在精準率和召回率上各占優勢,但從F1-score和auc值兩個綜合性指標來看,LightGBM略勝一籌。但這種優勢并不十分突出——LightGBM的auc值相對于MLP僅提高了不到0.004。

神經網絡方法類似于一個黑箱,與之不同的是,我們可以直接輸出Logistic回歸模型和LightGBM模型中各個解釋變量的重要程度,如下圖所示。可以看到,兩種方法中第7個主成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論