大型電商平臺消費貸產品風控模型的構建.docx_第1頁
大型電商平臺消費貸產品風控模型的構建.docx_第2頁
大型電商平臺消費貸產品風控模型的構建.docx_第3頁
大型電商平臺消費貸產品風控模型的構建.docx_第4頁
大型電商平臺消費貸產品風控模型的構建.docx_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第31卷第5期021年9月武漢理工大學學報創:會科學版)WUnIiTKO53tycllaHT:±5/ktiiSijgIfcftir?大型電商平臺消費貸產品風控模型的構建*汪曉曦。馬穎2<L無錫職業技術學院管理學院,江蘇無物214121;2.武漢理工大學管理學院,武漢43E)摘要:信用評分模型的構建及應用實施是學術界及工業界不斷研究創新的重要課題。從機器學習模型的構建出發從建模指標、模型構建、模型上線后預期表現兒個角度說明了模型應用策略。在建模指標處理方面,采用原始變蟲wje變換作為XGIiMX.等模型的輸入變埴,并驗證了模型效果提升;在模型構建上,創新采用多種算法單獨建模,用X

2、CFfcg.算法擬合各單模型輸出結果,證明復合模型效果有明顯提升在模型上線后預期表現方面提出了確定模型切分點的方法即從授信額度、風險級別以及群體分布三個維度預測即將進件群體的壞賬率。本研究最后結合模型表現及業務模式給出實施建議即對于部署難度高的復合模型可采用預授信的模式而LR評分卡模型部署可延用申清我信的模式。關鍵詞:信用評分;風控模型;XGIMm;機器學習;模型應用策略中圖分類號:文獻標識碼:/DOT:103交*j.ELl5n&177幺Zl.CB.CIM近6年來隨著電商平臺的迅猛發展消費金融產品層出不窮。這些產品依托電商平臺的天然流量優勢迅猛發展從商城內擴展到商城外不斷拓展使用場景搶

3、占市場。在版圖的不斷擴張中,信貸審批模型、模型在具體商業模式中的應用也隨著用戶流量的擴張、業務場景的拓展不斷更新迭代°。目前,在信貸審批模型中,算法稱旦秘依然是最為普及的,在-些特定的用戶群體和場景下依然有難以替代的地位依據該算法建立的評分模型規則簡單、邏輯清晰、解釋性強便于用戶理解。然而,LR模型并不能保證在各種場景、用戶群體中都有良好表現。比如從模型穩定性考慮,LR模型用到的變量維度一般不超過15個,在整體自變量與因變量相關性都不高的情況下,有限的變量數量難以達到較好的模型表現。模型表現不夠理想直接影響到通過率及日后壞賬風險會對商城信貸收益產生直接影響。在本研究項日中,商城平臺主

4、要信貸模型算法采用的就是LR模型,當前IR模型的應用在風控能力及通過率表現方面能基本達成一個平衡但客戶仍然希望嘗試新的模型算法通過提升模型效果達到保證壞賬率不增長的前提下提高模型通過率的目的此外客戶尤其強調好的模型需要應用于生產線產生實際效益若一個模型太過復雜導致部署周期長、出錯率高而難以實施也是沒有意義的。根據用戶的上述2個要求項目組從模型構建出發提出確定模型切分點預測壞賬率的方法,并針對平臺實際不同業務場景及業務要求確立模型應用的方法。首先在信貸風控模型構建上筆者參考了如下學者提出的方法并將該方法應用在商城平臺上再根據平臺數據特點以及模型表現作數據特征提取及模型算法的改善。近年來信貸風控領

5、域較受青睞的分類算法模型包括ITtimItsej以i策樹、SVMCc持向量機11、btrrbrnHzrcst睡機森林)、GROT哪度提升決策樹)、*»蔓京6及度梯度提升算法)、神經網絡算法地gQE等。R14年,簫超武等在實證分析中將隨機森林組合分類算法與KNN、SVM等單分類器模型以及組合模型_蟲號丁比較,發現前者具有更高的精確度及穩定性小。Z)17年將神經網絡極限學習算法收稿日期ilEFOKK作者簡介:汪曉曦(9,女,湖北武漢人.無錫職業技術學院管理學院助教,通信與信息系統/市場營銷雙碩L,主要從申互聯網金融、數字金融等研究.通訊作者:馬穎國女,山東煙臺人.武漢理T大學管理學院教授

6、.博I:生導師.博I:立要從事營銷管理、風險管理研究。玉基金項目:義衛1年度無錫職業技術學院校級社科類課題氐年無錫職業技術學院“宵藍藍工程”肖年教師培養項目0l±t|_<5A,l<M-«tiTiS.I>liciToItfxriIVt<Jifo-O«Jt7r11aniriiJJ1.1-t.S/FloiiswitiiArpliqi,心J17做心$.BJIroCLixi,WliIWljIALlrpIAnK»<J】fcr'Ooiit.SterigLtigQctitIULit.SAEmjl.RW-wiHAntkzliiTscl

7、'ArtifiiihitcUiT<dl7>G5PydTO.lifl陳秋華,楊慈榮,崔恒建.變量篩選后的個人信貸評分模型與統計學習CrtxJ.數理統計與管理,fckOHOJ.皿x13=tr/j.ola.?-it03黃志剛,劉志患,朱建林.多源數據信用評級普適模型棧框架的構建與應用Er.數鼠經濟技術經濟研究,多19,3603SrinSYHKJin11YnnHwitlT_yyyk>4sti_:rQ4O*i"JL/iTUcclSzft.Can-«4巴81643用>1皿M宋捷.商業銀行信用卡數字化轉型的路徑分析國.金融科技時代任k>bG)*14.

8、啟I?clcyA'TheiHEfcrtheaQxircAFieROCcLiAeEilhEuAtiiLrticncrnixJTiplQTritNetFzLrIJLUcrnKlV<r)0):1H541).16周蜿萍.基于機器學習方法的個人信用評價研究口.金融理論與實踐&DK3您)18.IffRRtJHLiriiVfeMirIhO.IXeiMr»>4will1Ll<fcii1Ltees-llwayatx_iAnJkttiTzuiLmGJcCSarfesjnNfcx-ciiitoltrctjliiiti<JAilifiiiirleUtecji?匕Lli

9、icii1WxkJStijXifi必IB18SzntnK.r*.,DivEko:>S.mJAjy>V.Ir>XMifiHTcerywrcHsctieIc3.F'fevIJUNT11FIean-gmK)CTmT.Cf7j<ziiJotrcW»>tijy4onM<4*ecTACMSIGKI1)iTtootxiiCooxo5KmvkmDwcxoyfiTlDtoMH'S*InnxitoKI、J.2DK5.0liinriiTxnJ11Kir«Vftmirj&ypKTKhrrXim7凈cfcrCko:qEnitkip才一/m*

10、cTSlr<i4if201,29白):lg42忍.,陳戰勇.珠聯璧合淫于機器學習的網絡借貸信用評分卡模型研究武漢金融goG)Hg.好鄧大松.我國jfij業銀行小微企業申請評分卡構建及駛證研究廳.投資研究>2576):pmw.就任編輯文格)LeanRodLcfconLapEcmrnataFklErnRWANGXmd1,MA¥4宣(,9991 oflVkrvynsXiVVurcifcKitLlscjfTaJiTii/»WciKi214121JiLfyj4_iOtbtx2 SciTsiofMLiTntWLiTi-iMIO'HUxiqmix)z->lizc

11、tmE?a:j-KtrcclintiTdjqjlkzJtin<17tFocrodlLterxinxr±±isoninxxxtonL.5iiEl_<£cfn-tin_ri_krcy«xcinexndinFCxtmtiiTdncLFiry.ffemthnctj-rfrcclxnitf=cItt-oIsFtrir皿rnorteljliTtrtideoDbir-FiliiE?nrrtelFppfcFtja-!stmtejrfronnriii±<xji5tixrtxiiixlojxelttlcnlirx?nntlinerfctiifci

12、to.IntcniscCinoctiig丘rdttlo«r2t<tcj5*3r目,tlr?(詞rtilvertUc?wjottn1isl«jl!<astfr?ir匚丈ertL5k?crXGI1jl>1_trrdclltf1rri±±s»triJiLvunfxjdtpE?iinixcxcinLrl.cirtkonrx±±cfficL;iriUtl?irri±±c£TKtrx_diTi>c2txxiclyciZizritlFTTwzroctAnr-jXC2FtwjsuEodl

13、ofiLtoo_ljiMLTO-suhufkiinsi、*?nrr±i>vdihwKprcxccliIthLli-ocfforLcf、Uinj頊c?mnrHxfjk海礦ifBndyinarKerLIbebpFtirrwitfcnislirt,it.prepeesei.methodlocfetermipliiE?clJbcfTpriTtcrthenrxH01JUiEtclclijt.rstocf'tJr?itKJiiirg陵ffdiitfr?tfiGDciiioticnscf'aoJtlirr>tri5j<loxitriJcfeb±i_4i1

14、1.Ir1tfiispkpomijUMJcrtkiitr<_1ctJcyrrtretc?irrrxtljaJyccjm-lrurlwithinrjc±ipEEtfcxirtrLicXidIzt-binxiiisuiyjk£ntrl£:ti:Ti54_yticr«:lExcrjryjkcKwact;ctctiLsszto»rfeKcnTtrcLiinii;XGBoeL.;ntchfrqJGEmir目;nrrbLe(LM)用于消費信貸風險管理,通過實驗發現該算法有計算量小、精準度高的特點°。為17年,LjlqCtixjL采用UJSV

15、M、深度信念網絡63N)算法進行信貸違約預測,發現O3N具有最好的預測效果心。羽9年,陳秋華等探討了不同連接函數下廣義線性模型的分類問題,將線性模型評價指標與只F、SVM、*33tm等模型進行分析比對,發現廣義線性模型中IR模型與SVM預測效果最佳山。R19年,黃志剛等人提出多源數據普適模型棧的概念,通過數據分類的自由選擇采用X由菱AL.算法生成子評分模型,再將子評分模型轉換為評分卡,通過實測證實有效兇。在參考上述學者選用的算法并結合商城平臺數據特點,本文最終選用了LR算法、決策樹算法、算法建立單模型。在LR模型變量交互方而,參比陳秋華5提出的變量相乘的交互方式,本文提出了用相關系數法尋找交互

16、變量的方法,并驗證了該方法的有效性。受黃志剛也】多源數據普適模型棧的想法啟發,借用不同數據特點采用不同模型算法最后用XGIE:模型整合的思路,本文采取首先用多種算法建立單模型,再用各單模型的結果輸出作為復合模型的輸入建立復合模型的方法經驗證復合模型效果較單模型有明顯提升。雖然學術界對風控模型算法的討論十分熱烈然而對于客戶提出的第二點要求模型在生產線上的實際應用方面卻略顯單薄。本文花了大量篇幅討論模型的應用問題。首先傳統LR模型、復雜機器學習模型在實際部署應用方面各有優劣1JR模型部署通常借用風控決策引擎來完成,優勢為部署門檻低、部署時間短、結果可靠性強但模型效果不及復雜機器學習模型而復雜機器學

17、習模型雖在模型效果上更有優勢但在部署方面由于受模型復雜程度、數據量級、部署場景、上線時間緊迫等因素制約不是都能滿足工程上的要求成功上線。所以,目前工業界在風控模型部署上,仍是主流復雜機器學習模型部署還在不斷嘗試發展中不同體量的電商平臺復雜機器學習模型實施的普及程度也不一樣。對于本項目商城平臺剛開始嘗試復雜機器學習模型的部署,文章給出了兩者并舉的保守方案。本文首先提出風控模型在應用實施中不同切分點對應的預測壞賬率然后比較并驗證了在相同風險前提下1R模型與XC壯Sr.復合模型實際通過率差異,并結合具體業務模式及業務需求給出模型選擇的依據及部署方式。一、模型效果指標評價模型評價指標是用來評估模型對數

18、據的擬合能力二元分類的模型算法有很多但無論是哪種模型算法都可以使用AUCtol和KS這兩個指標來衡量。AUC的取值為0.5LAUC值越高代表該算法對模型整體擬合能力越強,AUC等于05代表模型沒有區辨能力,但大于0.9則模型擬合過于完美考慮異常,AUC在0.70.9之間的模型被視為可用。AUC在0.7與08之間代表模型有較好的區辨能力ALJC大于08代表模型有非常好的擬合能力。AUC取值與模型區辨能力對應關系如表1所示。表1AIJC值對應的模型區辨能力AUC05O5P.7OT'O-BO.9l.O模型區辨能力無區辨能力區筑能力較差可接受的區辨能力非常好的區辨能力老慮模型異常KS是評價模型

19、優劣的另外一個常用指標同樣KS值越大代表模型對數據擬合能力越強通常KS取值在CX20/75之間。與AUC不同的是,AUC是反應模型整體對數據的擬合能力,而KS則指出在某一區段模型對目標變量的辨識度最高。KS取值與模型區辨能力對應關系如表2所示。表2KS值對應的模型區辨能力KS<OJ2CX20.40.405050.75>0.75模型區辨能力無區辨能力可接受的區辨能力較好的區辨能力非常好的區辨能力考慮模型異常本文分析比較的4個模型IR模型、決策樹模型、XGHE單模型及土復合模型的效果均采用AUC值及KS值這兩個指標來進行評價。二、建模實證分析建模數據構成及變量預處理目前該平臺信貸產品申

20、請用戶為在平臺商城近1年內有過歷史交易記錄的用戶該產品運營己超過I年有充足的壞用戶積累。建模用戶群體我們選擇授信前1年內在平臺商城內有較為活躍表現的用戶,授信后612個月內出賬次數大于等于6的用戶確立建模樣本。y定義方面通過分析逾期天數與回款率關系,以及通過逾期用戶壞賬滾動率分析后確定的跖。相同樣本,不同y定義,最終AUC和FS模型評價指標會有較大差異。通常y定義越嚴格,模型指標AUC及KS表現越好比如把進入M4的用戶定義為壞用戶比把進入M2的用戶定義為壞用戶有更好的模型表現。然而考慮到該評分卡是建立申請用戶審批模型,目的不是把最壞的用戶排除,而是把有可能進入M3或M4的用戶攔截在外。所以,y

21、用戶定義采用進入22或M3的用戶,但由于M3用戶數量有限所以把多次進入M2的用戶列為壞用戶。經過多次嘗試,得到y定義為至少有2次出賬且2次出賬的逾期天數均大于3D天曲入M2)的用戶為壞用戶,其余為好用戶。X變量共玨個,為用戶申請消費貸前平臺商城的歷史行為數據。從分類來看,可將X變量分為用戶基本信息、用戶申請渠道、用戶信用資質、平臺活躍度、平臺交易信息、收貨方式、收貨人她址澹息等類別。數據樣本共lUKT個觀測值,其中壞用戶為1±13個±七比9:1。采用分層抽樣的方式將數據切分為7:3兩部分,前者用作模型訓練及驗證,后者用于模型測試。在數據預處理環節對每個X變量作單變量分析進行

22、變量-致性、完整性、準確性檢驗剔除變量缺失率高于芻宓的變量;對變量進行w*轉換并計算其2值,預測每個自變量X與因變量y的相關程度。在作變量心轉換時,對自變量排序后切分為1。等分進行粗分箱,然后對變量分箱進行合并,合并時確保變量g值為單調趨勢,各分箱觀測值數量不低于空個,且相鄰分箱的g值有較大差異。最后計算變量iv值,結果如圖1所示。細分箱后ivffi0.40|0.350.300.25o2o.o2o.UJZrWMn盤pooSAqrq«C38!>&E2IS8U:*poovEa4J£spoowa.C38t>&d-sx'luoglvtl8EBCI

23、S£4ve*ISAI-wnooipMg£uo£#c-mncssvJPPCpu”csSISsAEcolunlM«CBVnpovEMO房I7Jwwlficoe7«c8vl>salwvl£COCA#”一s-SI5H8l£»coewl?2-C38l>sWWIXVW0S3IVJ198#點-Mr一MIEVUI«c38l*xxel>mAJEgvluWImuoE7rl|UDfurSIc8wl%s& UJCPIMdIrxdrsmuoEKItelEncDIPUMhtaddcIsqluoUJn-

24、9;sc-三SIM97V1MgwlPUMIS£uo房言冬-岳g房nX£eQEMfr>ls«304 sl?xff%wluoW91HJ§,pu&Rxdrstyuoutf器忐一UM!lpu>dzlsuluo房9J138pu§vs£luo£!ltJ*C981>&«C8VX1OEXWCOC3#tlZ«3ICM3OC38l£S£l£$CA-S8ISAIc38lcovial£«8c3l7cn8u0909ddr£luoutfM5

25、050I1oo.o.o.UUlUIlllllliiiiniLm圖1心轉換后變呈*值匯總仁)I單模型篩選出iv值大于0.1的經過心轉換的自變量作為模型輸入變量,采用逐步回歸法篩選變量,模型置信度設為95%,y變量共2個取值,代表好用戶,1”代表壞用戶,以。”為目標構建模型。在模型變量調整上通過計算自變量的相關性使相關性較大的變量組合盡可能避免同時出現在模型中。根據模型輸出結果刪除變量系數為正或者系數過小的變量以減小共線性對模型效果的影響。檢查進入模型的x變量分類確保模型盡可能覆蓋到每個分類。檢查模型評分確保評分均勻分布。當出現超過樣本量5%的觀測值對應同一個評分時找到是哪個變量造成的用別的變量加

26、以替換。最后確認模型,入模變量及模型參數如表3所示,模型變量分別為收貨人數量、近2個月的貨到付款次數、近3個月的貨到付款次數、近2個月拒收次數、近日個月每個月都有交易的月份數、近3個月交易金額、近3個月信用卡支付金額、近3個月借記卡支付次數、近3個月使用g登錄平臺次數、用戶婚姻狀況、用戶性別以及用戶進件渠道。表3LR模型參數及最大似然估計分析結果參數估計標準誤差卡方Ft、卡方bntoccpt0.0125715一fiR<0.0001-OJ320.161OJ38O.CD13LtCccjlI|圣;cxxjLrO.G50.192.05O.GUUF5LkLBrirTlFiccnLl-0.773zl

27、lO.GOVkH-coEh-0.91O.K8.13<o.cmiLt=Linr-08O.CD31K<O.OJD1fesLLirrrtl-KarnLj*-ON0.124.7550.0535ktl.)Wicc口yrnitu、-030.1559O.Q>14ct:pyO.&0.1033.71<O.(JUD1Lti.3rrtIHscci_ttLj-ORO.GB-O.RO.k323.在<o.onoitoco:'O.JC2S.41<O.OJD1ctiircJj-Uo.a?<O.CJUD11點變量交互。在不改變入模變量數量的前提下將入模變量與待選變量做交

28、互以達到提升模型整體效果的目的。通常待選變量W值過小難以進入模型,但待選變量與模型變量涵蓋信息不同,LL與之交互的模型變量相關性低。為尋找待選變量,采用對需要交互的兩變量計算相關系數的辦法,最后發現兩組可以通過變量交互提升模型的變量。第一組,授信渠道”、商城卡包提取標志”進行變量交互替代原模型中技信渠道”變量;第二組,'婚姻狀況”、'客單價”進行變量交互替代原模型中'客單價”變量交互后模型效果提升如下表所示,可以石出交互前后AUC沒有顯著提升但模型KS值約有6%。的提升。交互變量的加入可以小幅度提升模型效果,如表4所示。表4LR單模型變量交互結果數據集指標未做變量交互交

29、互組一交互組二訓練集_AlJCC.TiBO.77BO.77S)測試集TWOO.THDO.THDO.7HD訓練集KS0.4310.400.5測試牝KSOZH50.120.132決策樹單模型。在決策樹模型構建過程中使用了兩種葉節點分裂的算法,一個是埔分裂標準,另一個是gnwrEJnitEV食且CHAID)分裂標準,剪枝過程中均采用誤判率、最小葉子數作為剪枝標準心。兩模型輸入變量前者是原始變量,后者為經過g舊轉換后的變量。本模型采用SASHOCHI王JT完成,通過對laWte奸節點最小觀測數)、最小葉子數量、m水決QK嗷大樹深)、11日也0!±1很大分枝數)參數調整完成決策樹的構建。對每片

30、葉子目標變量預測概率排序,通過計算每個概率分箱中累計好壞用戶的占比,得到AUC及KS值。結果如表5所示。表5決策樹算法結果模型變雖輸入分裂標準訓練集測試集KSALJCKSAUC模型1原始變量炳0.714027O.7L2模型2WJE3變®IkLOIAJD0230.703O.C5J53 XGRt菱耳單模型。XCHjexL算法是由dm®基于FHcHrtnS'提出的*rfaithrEi飛?模型設計并對其優化。史的思想是不斷通過種樹去迭代以減少上一輪的誤差,最終達到分類的目的。每一次迭代就是增加一顆新的樹對上次殘差進行擬合。每顆樹的葉節點對應一個分數將每棵樹對應的分數相加得到

31、樣本的預測值。模型輸入變量為原始變量中定距TtcrvEil)變量,以及定類Nzmirol)、定序Ccfrul)變量經過g變換的變量。調參過程中,首先確定函哮習率)和rxnutctixte代次數)進行粗調,再確定ntjxC01H以及S33cl>最后采用網格搜索法對SLtKEIlplO'CCisaiplo進行調參,用CV交叉驗證M1osdjcxncfe尋找最好迭代次數,最后微調eta和mi確定最后參數。參數結果為:41a=0.1,rmxi_cb|jtK=1,SB3d=35,5<tHxr|zJeO.40.7>n_m_m_nzts一0.5,此參數下對應的訓練集、測試集AUG及

32、KS指標如表6所示。表6單模型結果數據集KSAUC訓練集OzSD0.793測試集4 *131式乩復合模型。將原變量、心轉換后的變量作為輸入Jxgst匕單模型、XGAjhaL單模型、決策樹模型的輸出結果作為復合模型*3ir«L的輸入,進行模型訓練,輸入指標如圖2所示。*33復合模型輸入指標包括5個單模型的輸出結果、原始變量以及經過心轉化后的變量,其中5個單模型的輸出結果包含2種算法的決策樹預測概率、邏輯回歸模型預測概率及評分、MB單模型的預刪概率。上述模型輸入用一個潤模型整合得到最后的輸出結果。復合模型調參步驟與單模型類似,參數為feiF=C).1rrElrir5='dti&#

33、39;,ntiT?r3,mi-icHkl1>nriKcklh=0.7>rijrn_i<jLrri513D>tiTtiii=1,5。模型重要性指標如圖3所小,.重要性最高的為單模型預測概率,其次為LR模型預測概率及轉換評分。模型結果如表7所示。xgb_pred_OtotalscorePuser.unitprice1ast_3months_appexpend_antlast_3months_applogon_countlast_6months_appexpend_anitlast_6months_applogon_countlast_6<nonth_cancel_co

34、untlast_12»onths_aj)pexpend_aatmeiBbcr_v_countlast_12month_cc_pay_amttree.ch.pOfurnigoods_amt_l12mlast_12months_expcnd_anit0510152025303540圖3XZB.Y夏合模型變量更要性表".工短合模型結果數據集KSGiriAUC訓練集0.473O.CEDO.H15測試集0.456O.CD0X05模型指標比較與評價。比較上述模型KS及指標發現所有模型區辨能力都在訶接受及之上在木數據中決策樹模型表現最差,在可接受區辨能力邊緣LR模型和331菱以單模型AU

35、C有較好的表現,其中XGH"E單模型比IR模型KS高出1.7%、AIJC高出1.5%,整體表現略優于IR模型榮現最好的是XGHzE:復合模型,AUC達到03),進入非常良好的區辨能力這一檔。模型在使用中需要確定切分分數線即該分數線以I、的用戶需要被排除。所以在模型評估中需要比較不同分數段壞賬率及累計壞賬率。將生產實際中運用最為廣泛的IR模型、效果最優的又由變丸復合模型進行比較,對比的數據集為訓練集+測試集。對預測概率進行從小到大排序,切分為1O等分,每一等分用戶數量大致相同。為便于比較均使用預測概率表明分段范圍。兩模型結果如表8、表9所示。從分段壞賬率來看土復合模型比LR模型第一分段

36、高4.2%,如果切分分數線劃在第一段,則XGI*t有明顯優勢;從累計壞賬率來看,假設壞賬率差異小于1%就認為模型效果無明顯差別,則模型切分點設在第三段時兩模型抓壞人”能力相同,LJR模型、gWt模型對應切分概率分別為和O.9CB。表XLR模型分段表現預測概率分段壞用戶好用戶KS分段壞賬率/%案計壞賬率/%分段概率范圍數量分段占累計占LL/%數量分段占tt/%累計占比/%1OlSlC.TtTB3537257J272.OJ3B13353壬322缶.78958.916.10395123.32783PH132«.O9H39.6窮.7OZTiB13323.04C.9RB1O193783101/

37、110.135»O.-3519319.65635.683.9KBl1050*375.66O.SE51O.G17575.1&.Oion10.735.95.070.619£514.6KTrl1OJ5G7.4035184.613.48353J2AY231127850.1心3.1112.0921l.SJ<JB.7K以310.7O.C1也1.910.91OC.raO1513KT)KTB1OJ=?1GDo.crm1.410.0總計1±1S1GD1G0E121GDQ.O表少復合模型分段表現預測概率.分段壞用戶好用戶分段壞累計壞分段概率范圍數量分段占世%累計占Lt/

38、%數底分段占粉累計占比/%KS賬率/%賬率/%1OSll0.72R5I3D56.76.7023D53DJ522312D.70X215J50.443520.73D.13OELHO.9CB213812372.5QO9.7玉30.4727以32124O.9Q32O.<jr>l958.681.11OZ2ION35.4O.d5JO8.62D35O.QD1f5.GKT551OJ5佑.9O.<H55.617.46企<1).5KJiB10.73B.6033)13«815.17354.9<55.410.6宓24.913.68232.1KW510.97B.12.11229O

39、.9735O.£HI>161.4£8.9LICE11.0國QO.CEE21.411.01OO.9HJD'O.<il21巴1.11GD.O11GB11.0KJD.OO.GOUD1.110.0總計U1SKIXOICUHKJD.OOz4Z)KXO三、模型選擇及部署實施探索L)風險評估評分模型在風控策略中有兩個重要作用:-個是確立拒絕分數線即小于某預測概率評分的用戶拒絕授信另一個是根據預測概率評分劃分風險等級、確定授信額度。評分模型設立的目的是為了讓壞賬率在可控范圍內那如何利用評分模型預測進件用戶的壞賬率便成了關鍵。電商平臺消費貸產品通常是分期的,根據消費貸產品

40、設計,若用戶在某一期還款截止日io天內未還清賬款,賬戶自動凍結。賬款催收方面,逾期9天以內的賬款由平臺內部催收部門催收,逾期超過90天槌入Ml)的賬戶因賬款難以回收故采用外包形式催問金額與外包公口J按比例分成。所以這里我們把進入Ml逾期天數9D天)的用戶記為環賬用戶,未還清金額包括已出賬、未出賬)記為壞賬余額,表現時長取1年。由于使用余額、壞賬余額是一個動態平衡的過程這里選取時點數據來定義以賬戶成功授信之日起1年為時間節點,壞賬率定義為壞賬余額與使用余額之比。在作風險評估方面,需要用到2個群體己授信群體和即將進件群體。已授信群體定義為成功授信且表現期滿1年的用戶:即將進件群體定義為近一個月內申

41、請授信的用戶。將UR模型、XCltoM復合模型分別運用到2個群體上得到每個用戶的預測概率。根據模型壞賬率劃分風險等級,并將風險等級、用戶授信額度等級繪制成交叉表,如表Q所示。單元格內壇、營甄分別是己授信群體的壞賬余額、使用余額以及用戶數量,其中腳標3代表授信額度等級8代表風險等級。表K)風險額度交叉表授信額度額虹等級不同預測概率/風險等級卜的壞賬余額、余額、用廣數6.91»1風險等級16用Q.9i風險等級2風險等級3風險等級4Jq.tzV風險等級5&ooD,Kiir)0ibii七11<4Hbig»<Ji31>11<-114<41!<

42、;J152CJzi1212111drs<K»bCfars3卜,是lai迅&EEuod»hdod>4b”H_l|iK_|nbizh3<-l>3Hl”bi1i1<115JibGar)<«r)5t>3iCJfu氐353t>311051CJT5BBR,將模型運用于進件用戶群體,進件用戶群體的用戶數量記為Q麻,這里云榮分別為額度等級、風險等級,等級劃分方式如表1O所示。風險等級1為最低,風險等級5為最高。壞賬率記為BRiii9有:Z晶冬")i-is-i6假設壞賬率最高不超過某一值,記為BR”、,計算BRmWB

43、Rg的最大m值,大于m的風險等級用戶即為需要拒絕的用戶。以此確定模型拒絕用戶的切分點,記為Peu白)通過率評估通過率評估是將評分模型應用到當前進件用戶模擬進件用戶通過率的方式。通常業務部門與風控部門為通過率博弈,業務部門要求更高的通過率,風控部門則通過模型優化在保證風險的前提下提高通過率但模型評價指標越好并不意味著使用該模型就一定有更高的通過率。本文采用傳統IR單模型、心«七復合模型進件通過率的模擬驗證以上觀點。設計思路為上述兩模型應用于1C史N名即將進件用戶群體,并計算其預測概率。分別對兩模型預測概率進行從小到大排序每一個預測概率對應與風控模型中累計壞用戶數對應而預測概率在該進件用

44、戶群體的分位數即為拒絕率進而計算得到進件群體的通過率。本文通過作圖的方法比較LR模型與XGISUlkL復合模型相同風控效果對應的通過率。以累計壞用戶數作為橫軸,進件用戶通過率拒絕率炸為縱軸分別對兩模型作散點圖結果如圖4所示。從圖4中可以看出兩模型頭尾幾乎是重合的只在中間段看出差異。通過計算得到在'抓壞人”能力相同條件下兩模型通過率最大差異為7.9%,對應的IR模型和XCBtK復合模型通過率分別為4KS%和渚業務部門要求715%以上的通過率敏設容差為2%),且風險在可以接受范國內,兩模型則在風險能力控制和通過率上幾乎沒有差別。如表11所示。模型部署實施評估與建議對于傳統LR模型部署一般是

45、線上實施審批采用風控決策引擎部署。主流的風控決策引擎包括FICO公司的13皿和麗gm公司的SMG3。風控決策引擎負責入參、出參的配置,以及結果調用。風控決策引擎使操作簡單易學,門檻低,上手快,例如LR模型1O15個變量的配置,1個小時就能完成。然而對于復雜的機器學習算法上百個模型變量上千次的學習迭代以及復雜的預測概率計算,圖4LR模型與復合模型通過率最大無異表11LR模型與合模型通過率對比累計壞用戶數LR模型通過率/%復合模型通過率/%通過率相差儀91R-1.077用2.0畢一717.918117.52.0-1.0若在決策引擎上部署就變得難以實施。當下對于復雜機囂學習模型部署方式還在探索中。目

46、前,-般采用預測模型標準語言NM1.),該語言可以在不同數據挖掘工具和不同應用系統之間交換挖掘模型,實現模型的部署。雖然,在機器學習模型應用方面的應用實施還在發展中,除了不同的數據挖掘廠商支持的模型類型有限外,FMMI,在執行過程中還出現數據廠商生成的PMMK與標準定義的Sthcnm有偏差導致最終結果的偏差等問題。然而,縱有這么多問題,模型效果的優勢是不容置疑的,而且機器學習的發展己成為趨勢。綜上所述,在模型應用選擇方面,無論是應用最為廣泛的模型還是上面提到的類似*33復合模型的機器學習模型都是有利有弊的。前者部署門檻低部署高效,模型本身有較好的解釋性但模型應用效果不及后者后者模型效果整體優于前者但對于部署人員來說門檻較高且部署過程中產生的各種問題還在不斷嘗試解決中。然而模型的應用、部署實施上線并不是一個二選一的問題。本文建議模型選取要結合具體業務指標、風控指標、模型效果還有具體商業模式來確定。在線實施審批的風控模型一定要上生產線但機器學習的模型應用不一定要上生產線可以采用離線方式部署其對應的商業模式為預授信。預授信模式是從待選的用戶池中篩選出優質用戶為其打上授信標簽,包括是否授信及授信額

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論