




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三講:信用評級模型主講:梁滿發工作目標信用評級就是對貸款申請者進行信用評估,目的是減少貸方(銀行、投資公司、信用卡公司)的金融風險。信用評級模型還可用于人才甄聘、績效考核、投資風險評估、犯罪識別等工作中。現在我們以某金融機構對客戶信用卡申請審批工作為背景,運用數據挖掘方法建立信用評分的模型,對申請者給以信用評分,產生一個自動決策系統幫助決定接受或拒絕信用申請。我們把信用合格者視為響應,不合格者視為非響應。我們要作信用評級就是尋找信用合格者與不合格者之間的行為模式或社會背景的差別,以此來判別某種特定的申請者信用。因此,我們必須要有足夠的高質量的客戶信用觀察數據,既要包括足夠的響應和非響應,以及
2、相應的客戶金融行為信息和社會背景信息,這些信息可是區別不同信用者因素。在此,我們有某德國銀行的客戶信用的歷史數據,數據文件名為SAMPSIO.DMAGECR。數據含有1000個申請者觀察,其中有21個變量, good_bad是表示信用的二值響應變量。它是從銀行內部一個更大的數據庫中抽樣出來的,原數據庫中僅有10的響應(信用不合格者),為了有足夠的響應數據供分析,才取了重抽樣方式,抽取的樣本中響應占樣本數的30。除good_bad變量外的其它20變量意義如下:社會人口變量Marital:性別與婚姻狀況Age:年齡Resident:在現住所的居住年數Telephon:電話號碼個人和金融變量Chec
3、king:銀行帳戶情況Savings:存款數量History:使用信用卡情況Property:財富、保險情況Coapp:擔保情況Job:職業類型Employed:工作年限Foreign:是否是外國職員債權人財產變量Housing:房產情況Depends:動產數Existcr:在本銀行是否有信用卡具體貸款變量Amount:信用卡保證金Purpose:貸款目的Duration:貸款期Installp:可支配收入情況Other:其它資產VariableModel RoleMeasurementDescriptionageinputintervalage in yearsamountinputinte
4、rvalcredit amountchecking inputnominal or ordinalstatus of existing checking account 1: . 0 DM2: 0 = . = 200 DM4: no checking accountcoapp inputnominalother debtors/guarantors 1: none2: co-applicant3: guarantordependsinputintervalnumber of dependentsdurationsinputintervalduration in monthsemployed i
5、nputordinalpresent employment since 1: unemployed2: . 1 year3: 1 = . 4 years4: 4 = . = 7 yearsexistcrinputintervalnumber of existing credits at this bankforeign inputbinaryforeign worker 1: yes2: nogood_badtargetbinarycredit ratinghistory inputordinalcredit history 0: no credits taken / all credits
6、paid back duly1: all credits at this bank paid back duly2: existing credits paid back duly till now3: delay in paying off in the past4: critical account / other credits existing (not at this bank)housing inputnominalhousing 1: rent2: own3: for freeinstallpinputintervalinstallment rate in percentage
7、of disposable incomejob inputordinaljob 1: unemployed / unskilled non-resident2: unskilled resident3: skilled employee / official4: management / self-employed / highly qualified employee / officermartial inputnominallpersonal status and sex 1: male - divorced / separated2: female - divorced / separa
8、ted / married3: male - single4: male - married / windowed5: female - singleother inputnominalother installment plans 1: bank2: stores3: noneproperty inputnominal or ordinalproperty 1: real estate2: if not 1, building society savings agreement / life insurance3: if not 1 or 2, car or others4: unknown
9、 / no propertypurpose inputnominalpurpose 0: new car1: used car2: furniture / equipment3: radio / television4: domestic appliances5: repairs6: education7: vacation8: retraining9: businessx: othersresidentinputintervalpresent residence sincesavings inputnominal or ordinalstatus of existing saving acc
10、ount or bonds 1: . 100 DM2: 100 = . 500 DM3: 500 = . = 1,000 DM5: unknown / no saving accounttelephon inputbinarytelephone 1: none2: yes, registered under the customers name具體工作目標:具體工作目標:()找出影響信用重要因素,決定信用評級考查的重要內容;()建立信用評分模型,找出信用高或信用低的人群特征;()編寫信用評分模型程序代碼;()計算申請者的信用得分,并完成準批還是拒絕工作。數據抽樣插入input data sou
11、rce節點,選取SAMPSIO庫中的DMAGECR 數據文件;因全部的數據文件僅為1000個觀察樣本,所以選擇全部的數據建模;數據集設為角色;在數據中,good_bad變量反映了客戶信用的響應變量,因此,預備選擇good_bad為建模模型的目標變量,修改good_bad變量為Target角色。Interval變量有三個(durations、 amount和age),其它均為分類變量。觀察good_bad變量直方圖:從圖中看出,不可信任的客戶有“bad”表示,即響應。而我們習慣把響應值定為“1”,因此,需要把doog_bad變量重編碼,即“bad”對應”“,“good”對應“0”。新變量命名為g
12、ood_badn。另外,從圖中知目標變量響應比例為30,這個比例不符合一般申請人群響應的比例。這是由于為了得到足夠的響應來分析響應行為,以重抽樣方式得到的樣本。雖然不影響建模,但建模時應加以注意。經調查,申請者總體中約為10人為有信用風險,90為沒有信用風險。數據變換插入Create Variable節點作數據變換;定義反映信用響應的新響應變量good_badn,作為建模的目標變量。我們觀察Duration變量的分布:從直方圖中知, Duration變量值從472,值太多,不利于信用模型的解釋。因此,為了簡化分析,即使丟失一點信息,我們還是應該將Duration變量化為二值變量。一方面,因Du
13、ration變量的平均值為20左右,分布偏左態;另一方面,金融行業習慣將貸款分為”長期貸款“和”短期貸款“的概念。因此,決定將“貸款期”超過18月的稱為“長期貸款”,變量值對應為“1”;將“貸款期”低于18月的稱為“短期貸款”,變量值對應為“0”。新變量命名為“deadline”。因為Checking變量有四個值,信息冗余,不利解釋響應變量,因此,我們將Checking拆分為兩個變量,即good_Checking表示”好帳戶“,即“余額大于200馬克”為1,其它為0; bad_Checking表示”壞帳戶“,即“負余額”為1,其它為0。因marital變量含有性別和婚姻的信息,這兩個信息都是個
14、人基本信息,如果將它們提出為獨立變量,可能對響應預測有利,因此,我們將marital分為兩個變量,即sex表示客戶性別maritals表示客戶婚姻狀況設置變量角色信用評級就是要用申請者個人信息預測響應,這里good_badN就是樣本的響應變量,即設置為target角色,其它設為input角色。但創建的新變量的信息代替了舊變量信息,所以在后面建模中要去掉舊變量,即把good_bad、checking、duration、marital設置為rejected角色。 good_badN、good_checking、bad_checking、sex、martials五變量New Measurement設
15、為binary。數據探測首先,我們要初步了解目標變量和其它變量的分布,目的是:u數據是否存在大量的缺失值;u數據是否可能存在嚴重影響建模穩定性的奇異數據;u變量服從的分布是否適合模型條件。其次,我們要作一般變量與目標變量的交叉分析,以了解其它變量與目標變量的相關性和優勢率。目的是:u選擇建模重要變量,減少參與建模的變量,提高計算效力;u檢查變量間的共線性性,提高模型精度;u為模型解釋作好準備。因數據文件僅有三個區間變量,沒有缺失值,DURATION和AGE沒有明顯奇異值,僅需觀察AMOUNT變量的分布。偏態數據作對數變換后(即LOG(AMOUNT)),數據表現出正態分布,奇異值也僅為最小值。變
16、量變換將AMOUNT變量作對數變換,變換后的變量命名為LAMOUNT,并把它角色設置為input,而AMOUNT變量角色設置為rejected。下面我們探索其它變量與目標變量的關聯強度,這是尋找變量在識別響應中的效果的工作。雖然,一元分析不能完全提示變量間的關系,但它是建立多元分析模型的重要基本步驟。為了了解調查響應變量和22個探索性變量中每個變量的關聯,我們插入variableselection節點,選擇TargetAssociations欄作優勢率分析。選擇卡方Pearson統計量作為判別量,其它參數默認。變量篩選運行結果:變量篩選樹狀結構圖從圖中可看出:前面部分變量是與目標變量有顯著相關
17、性,后面沒有。設置目標函數信息在實際中,如果我們正確地識別出不可信顧客,減少的損失將遠遠大于正確識別出可信顧客帶來的收益,因此,我們要定義一個適合實際需要的決策損失矩陣,以損失最小化為決策目標,決定顧客信用級別等級的判別閥值。本例分析假設:n接受一個有信譽的申請者將獲得1美元贏利,但拒絕他將平均損失1美元;n接受一個沒有信譽的申請者將平均損失5美元,拒絕就沒有損失;n目標函數選擇以損失最小化;n申請者的總體中響應比例是10,即響應的先念概率為0.1。操作參數選擇如下:目標選擇:最小損失;“接受”一個“不可信者”則損失5元;“接受”一個“可信者”則損失-1元。響應先驗概率為0.1,非響應先驗概率
18、為0.9。數據過濾操作參數如下(默認選擇)數據過濾是發現和處理數據中的奇異值,以免奇異值影響建模。插入Filter Outliers節點來完成這項工作。建模數據集劃分由于樣本數據較少,我們將以隨機抽樣的方式,把原數據的60樣本劃分為訓練集,40分為效驗集。大多數定性變量響應模型的基本元素是logistic回歸模型。設niYPii, 2 , 11一個logistic回歸模型說明事件擬合概率的一個合適函數是現有解釋變量觀測值的線性函數:ikkiiiixbxbxba22111log左邊定義擬合概率的logit函數,即 iiiit1loglog回歸預測模型1 , 0exp1exp22112211ikk
19、iiikkiiixbxbxbaxbxbxbau選擇Logstic回歸模型u選擇逐步回歸法u不選擇交互項u其它用默認選項影響因子得分(Effect T-scores )是參數的估計值除以估計量的標準差。參數估計值從結果中可看出:history=1( 這家銀行的所有信用卡都超時還貸), history=0( 沒有信用卡或所有的信用卡都超時還貸), savings=1(存款小于100馬克)是響應最大正相關的前三個因素。savings=4(存款大于1000馬克),BAD_CHECKING=0(支票帳戶余額大于0), history=2( 到現在為止,這家銀行的所有信用卡都未超時還貸)是響應最大負相關的
20、前三個因素。神經網絡預測模型神經網絡模型適合處理描述性和預測性數據挖掘。盡管還在爭議神經網絡的真實智能,但是現在它已毫無疑問地成為了有用的統計模型,而且神經網絡顯示了顯著的擬合觀察數據的能力,尤其是對于帶有不完整信息,錯誤和不準確信息的高維數據庫和數據集。1x2x神經元模型:nx12w1jw2jwnj1電位2激活的函數神經元j的電位:nijijijwxP1第j人神經元的輸出: jjPfy 階梯激活函數(還有線性和Sigmoid激活函數): jjjjjPPPf神經網絡以層次方式組織,它有三種類型的層:輸入、輸出或隱層。神經網絡有多層加權神經元,稱為多層感知器。一個兩層的網絡有一個隱層,輸入層有n
21、個神經元,隱層有h個神經元,輸出層有p個神經元。權重wik(i=1,n;k=1,h)連接輸入層節點和隱層節點;權重zkj(k=1,h;j=1,p)連接隱層節點和輸出節點。kiikikjkkjkjwxfzgzhgy有監督學習的網絡:有監督學習的網絡:假定每一個觀測數據(xi,ti)描述,神經網絡輸出yi=f(xi),使距離d(yi,ti)的各最小。無監督學習的網絡:無監督學習的網絡:假定每一個觀測數據xi描述,將數據集分成子集,使得屬于同一子集的xi比較接近,它是一個分類問題。模型迭代停止,使模型過度似合可能性最小。決策樹預測模型mnllmmiyny11樹模型是先將觀測數據分到不同組中,再獲得每
22、組的得分。樹模型分成回歸樹和分類樹,回歸樹的響應變量是連續的;分類樹的響應變量是離散型定量變量或定性變量。回歸樹生成的擬合值:分類樹生成的擬合概率:mnllmmiyn11劃分規則:選擇劃分規則意味著從現有的方法中選擇了一個分類器,選擇最好的劃分。錯分不純性kmnlklmmMnyyIIm1,1)(Gini不純性 mkiimGI12)(1熵不純性 mkiiimEI1)(log剪枝:當沒有停機準則時,根據因變量的數值和級別值、樹模型可以一直增長直到每一個節點都包含相同的觀測數據,這顯然不是一個簡約的劃分。因此,當樹達到一定規模時,很有必要停止樹的增長,最終得到的理想樹模型應既簡約又準確。CART剪枝方法:首先樹構成最大尺寸,這可能使樹的葉子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業互聯網平臺網絡切片技術在教育行業的應用案例報告
- 2025至2030電子郵件交付軟件行業產業運行態勢及投資規劃深度研究報告
- 2025至2030濃縮雞精行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030床褥行業產業運行態勢及投資規劃深度研究報告
- 2025至2030大豆保健食品行業發展趨勢分析與未來投資戰略咨詢研究報告
- 數字孿生在城市智慧環保監測中的應用模式及2025年創新案例報告
- 物聯網設備安全漏洞與防護策略2025年行業深度分析與洞察報告
- 門面房租房合同
- 2025年海洋風電技術創新與深遠海風電發展規劃報告
- 跨境貿易公司審計細則
- 淺談小班幼兒進餐問題及良好用餐習慣的養成
- 牛津自然拼讀
- 單位政審證明
- 陜西省榆林市2022-2023學年高一下學期期末考試化學試題(含答案)
- 冶金企業重大事故隱患判定檢查表
- 2023年藥學考試-中藥學(副高)考試高頻試題(歷年真題)帶答案
- 西北農林科技大學自主招生考試綜合素質測試面試試題答題技巧匯總
- 《導彈制導原理》
- 《綠色建筑概論》整套教學課件
- 2021年中國美術學院輔導員招聘考試題庫及答案解析
- 年產3萬噸硫酸鉀,1.8萬噸副產工業鹽項目建設可行性研究報告
評論
0/150
提交評論