




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、騰 訊 大 講 堂第五十九期研發(fā)管理部數(shù)據(jù)蘊(yùn)含商機(jī),發(fā)掘決勝千里Agenda數(shù)據(jù)發(fā)掘是什么?1模型+算法2數(shù)據(jù)發(fā)掘?qū)嶋H分享3心得與總結(jié)4從運(yùn)籌帷幄到?jīng)Q勝千里舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷古 蘇軾羽扇綸巾談笑間檣櫓灰飛煙滅.觀日月之行,察天地之變風(fēng)雷電雨云云多會(huì)下雨刮風(fēng)會(huì)下雨下雨會(huì)閃電閃電會(huì)打雷換成它呢?數(shù)據(jù)爆炸的時(shí)代Data Mining, circa 1963 IBM 7090 600 cases“Machine storage limitationsrestricted the total number ofvariables which could beconsidered at
2、 one time to 25.數(shù)據(jù)發(fā)掘是DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse
3、、Data + contextInformation + rulesKnowledge + experience多學(xué)科的交融DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingData MiningAgenda數(shù)據(jù)發(fā)掘是什么?1模型+算法2數(shù)據(jù)發(fā)掘?qū)嶋H分享3心得與總結(jié)4幾個(gè)根本概念幾個(gè)根本概念n 模型Model vs 方式Patternn 數(shù)據(jù)發(fā)掘的根本目的就是把樣本數(shù)據(jù)中隱含的構(gòu)造泛化Generalize到總體Population上去n 模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描畫(huà)或概括,適用于數(shù)據(jù)空間中
4、的一切點(diǎn),例如聚類(lèi)分析n 方式:對(duì)數(shù)據(jù)集的一種部分性的有限特征的描畫(huà)或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析n 算法Algorithm:一個(gè)定義完備well-defined的過(guò)程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或方式方式的輸出n 描畫(huà)型發(fā)掘Descriptive vs 預(yù)測(cè)型發(fā)掘Predictiven 描畫(huà)型發(fā)掘:對(duì)數(shù)據(jù)進(jìn)展概括,以方便的方式呈現(xiàn)數(shù)據(jù)的重要特征n 預(yù)測(cè)型發(fā)掘:根據(jù)察看到的對(duì)象特征值來(lái)預(yù)測(cè)它的其他特征值n 描畫(huà)型發(fā)掘可以是目的,也可以是手段數(shù)據(jù)發(fā)掘是一個(gè)過(guò)程- “from data mining to knowledge discovery in database. U. fa
5、yyad, G.P.Shapiro and P.Smyth (1996)數(shù)據(jù)發(fā)掘方法論CRISP_DM Cross Industry Standard Process for DM1998年,由NCR、Clementine、OHRA和Daimler-Benz的結(jié)合工程組提出SEMMASAS公司提出的方法Sample, Explore, Modify, Model, Assess在戰(zhàn)略上運(yùn)用Crisp_DM方法論,在戰(zhàn)術(shù)上運(yùn)用SEMMA方法論工欲善其事必先利其器n 數(shù)據(jù)清洗n 填充缺失值, 修均噪聲數(shù)據(jù), 識(shí)別或刪除孤立點(diǎn), 并處理數(shù)據(jù)不一致問(wèn)題n 主要分析方法:分箱Binning、聚類(lèi)、回歸n
6、 數(shù)據(jù)集成n 多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成n 數(shù)據(jù)變換n 規(guī)范化與匯總n 數(shù)據(jù)簡(jiǎn)化n 減少數(shù)據(jù)量的同時(shí), 還可以得到一樣或相近的分析結(jié)果n 主要分析方法:抽樣、主成分分析n 數(shù)據(jù)離散化n 數(shù)據(jù)簡(jiǎn)化的一部分, 但非常重要 (尤其對(duì)于數(shù)值型數(shù)據(jù)來(lái)說(shuō))先來(lái)玩玩數(shù)據(jù)EDAn 探求性數(shù)據(jù)分析Exploratory Data Analysis, EDAn 探求性地查看數(shù)據(jù),概括數(shù)據(jù)集的構(gòu)造和關(guān)系n 對(duì)數(shù)據(jù)集沒(méi)有各種嚴(yán)厲假定n 主要義務(wù)n 數(shù)據(jù)可視化a picture is worth a thousand wordsn 殘差分析數(shù)據(jù)擬合 + 殘差n 數(shù)據(jù)的重新表達(dá)什么樣的尺度對(duì)數(shù)抑或平方根會(huì)簡(jiǎn)化分析n
7、方法的耐抗性對(duì)數(shù)據(jù)部分不良的不敏感性,如中位數(shù)耐抗甚于均值n 常見(jiàn)方法n 統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等n 統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等n 模型,如聚類(lèi)數(shù)據(jù)發(fā)掘 = 模型 + 算法他運(yùn)用過(guò)信譽(yù)卡嗎? 卡應(yīng)該發(fā)給誰(shuí)? 哪些持卡人會(huì)拖欠? 哪些拖欠的客戶會(huì)還款?影響 資產(chǎn)組合Portfolio1、根據(jù)歷史,預(yù)測(cè)未來(lái)2、目的是一個(gè)分類(lèi)變量3、預(yù)測(cè)結(jié)果是一個(gè)統(tǒng)計(jì)意義下的概率1、哪些人可以發(fā)卡,額度是多少。2、持卡人拖欠的概率是多少3、該對(duì)誰(shuí)催收分類(lèi)過(guò)程訓(xùn)練集訓(xùn)練集分類(lèi)學(xué)習(xí)分類(lèi)學(xué)習(xí)訓(xùn)練集訓(xùn)練集IF rank = professorOR years 6THEN t
8、enured = yesJef is YES!分類(lèi)器分類(lèi)器物以類(lèi)聚,人以群分人為地選取細(xì)分維度人為地選取細(xì)分維度 客戶價(jià)值 地域 活潑程度 維度災(zāi)難的發(fā)生維度災(zāi)難的發(fā)生 維度增長(zhǎng) 細(xì)分?jǐn)?shù)目指數(shù)增長(zhǎng) 人腦僅能處置有限的維度市場(chǎng)市場(chǎng)聚類(lèi)表示n 基于歐氏間隔的三維空間中的聚類(lèi)n 基于質(zhì)心的聚類(lèi)算法n(K-Means)|(|),(222jzizjyiyjxixjidA1A2B1xyz發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)那么buy(x,diapers) buy(x,beers)關(guān)聯(lián)規(guī)那么的量度n 支持度:Support(A=B)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率n 期望可信度:Support(A)=#A/#N,表示
9、A出現(xiàn)的概率n 置信度:Confidence(A=B)=Support(A=B)/Support(B)n 改善度:Lift(A=B)=Confidence(A=B)/Support(B)名稱描述公式支持度X、Y同時(shí)出現(xiàn)的頻率 P(XY) 期望可信度 Y出現(xiàn)的頻率 P(Y) 置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X) 改善度 置信度對(duì)期望可信度的比值 P(Y|X)/P(Y) 關(guān)聯(lián)規(guī)那么的度量n 發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)那么 X Y Z n 支持度(support), s, 事務(wù)中包含X & Y & Z的概率n 置信度(confidence), c, 事務(wù)中包含X &
10、amp; Y的條件下, 包含Z的條件概率n 令最小支持度為50%, 最小置信度為50%, 那么有n A C (50%, 66.6%)n C A (50%, 100%)顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)啤酒顧客購(gòu)買(mǎi)啤酒從算法到運(yùn)用數(shù)據(jù)發(fā)掘廠商發(fā)掘和統(tǒng)計(jì)分析平臺(tái)發(fā)掘和統(tǒng)計(jì)分析平臺(tái)SAS EMSPSS ClementineS+MinerStatistic Data Miner與數(shù)據(jù)庫(kù)集成發(fā)掘平臺(tái)與數(shù)據(jù)庫(kù)集成發(fā)掘平臺(tái)IBM IMOracleNCR Teradata MinerSQL 2005 DM 行業(yè)運(yùn)用及處理方案行業(yè)運(yùn)用及處理方案UnicaKXENHNCAgenda數(shù)據(jù)發(fā)掘是
11、什么?1模型+算法2數(shù)據(jù)發(fā)掘?qū)嶋H分享3心得與總結(jié)4看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月2007年5月2007年6月當(dāng)月活躍總帳戶數(shù)253,668,411255,749,736264,006,894269,060,000當(dāng)月流失老帳戶數(shù)6,572,0876,006,5825,466,8078,217,569當(dāng)月老帳戶流失率2.59%2.35%2.07%3.05%每個(gè)月每個(gè)月50010005001000萬(wàn)的老用戶流失,萬(wàn)的老用戶流失,一年老用戶流失接近一年老用戶流失接近1 1億億, ,實(shí)踐自然實(shí)踐自然人流失情況雖然沒(méi)有這么嚴(yán)重,但人流失情況雖然沒(méi)有這么嚴(yán)重,但是依然是一個(gè)驚人的數(shù)據(jù)
12、。是依然是一個(gè)驚人的數(shù)據(jù)。客戶流失是每客戶流失是每個(gè)行業(yè)每天都個(gè)行業(yè)每天都在面對(duì)的問(wèn)題在面對(duì)的問(wèn)題1、建立流失預(yù)測(cè)模型,回答、建立流失預(yù)測(cè)模型,回答客戶能否要流失,何時(shí)流失的客戶能否要流失,何時(shí)流失的問(wèn)題問(wèn)題2、經(jīng)過(guò)預(yù)測(cè)模型建立客戶流、經(jīng)過(guò)預(yù)測(cè)模型建立客戶流失管理機(jī)制,更為有效地管理失管理機(jī)制,更為有效地管理流失,而不是去防止流失流失,而不是去防止流失一切從目的出發(fā)目的變量:即需求根據(jù)業(yè)務(wù)需求確定模型目的變量:即需求根據(jù)業(yè)務(wù)需求確定模型需求預(yù)測(cè)的對(duì)象,在需求預(yù)測(cè)的對(duì)象,在QQQQ客戶流失模型中即客戶流失模型中即是在業(yè)務(wù)上對(duì)是在業(yè)務(wù)上對(duì)“流失的定義。流失的定義。沉默客戶數(shù)在4月后區(qū)域穩(wěn)定模型選擇
13、延續(xù)沉默2個(gè)月作為流失的定義目的變量的定義:目的變量的定義:Good:在表現(xiàn)窗口延續(xù)兩個(gè)月有登陸的客戶:在表現(xiàn)窗口延續(xù)兩個(gè)月有登陸的客戶Bad: 在表現(xiàn)窗口延續(xù)兩個(gè)月都沒(méi)有登陸的客戶在表現(xiàn)窗口延續(xù)兩個(gè)月都沒(méi)有登陸的客戶Intermediate: 在表現(xiàn)窗口其中一個(gè)月有登陸的客戶在表現(xiàn)窗口其中一個(gè)月有登陸的客戶翻開(kāi)觀測(cè)用戶的窗口訓(xùn)練樣本 測(cè)試樣本察看窗口: 2007年1月2007年3月表現(xiàn)窗口: 2007年5月2007年6月Time Lag: 2007年4月交叉校驗(yàn)樣本察看窗口: 2007年2月2007年4月表現(xiàn)窗口: 2007年6月2007年7月Time Lag: 2007年5月察看窗口表現(xiàn)窗
14、口Time LagMM-1M-2M-3M-4M-5M+1M+2M+31察看窗口:構(gòu)成自變量的時(shí)間段。察看窗口:構(gòu)成自變量的時(shí)間段。表現(xiàn)窗口:構(gòu)成因變量的時(shí)間段。表現(xiàn)窗口:構(gòu)成因變量的時(shí)間段。23Time Lag:預(yù)留給業(yè)務(wù)部門(mén)進(jìn)展相應(yīng)操作的時(shí)間段。:預(yù)留給業(yè)務(wù)部門(mén)進(jìn)展相應(yīng)操作的時(shí)間段。123變化幅度特征變量 描畫(huà)用戶運(yùn)用量上的變化幅度勾勒出用戶行為的特征根本屬性變量 描畫(huà)用戶的根本屬性產(chǎn)品運(yùn)用行為特征 描畫(huà)用戶運(yùn)用產(chǎn)品的情況音訊業(yè)務(wù)運(yùn)用行為特征 描畫(huà)用戶運(yùn)用音訊業(yè)務(wù)的情況音頻業(yè)務(wù)運(yùn)用行為特征 描畫(huà)用戶運(yùn)用音頻業(yè)務(wù)的情況視頻業(yè)務(wù)運(yùn)用行為特征 描畫(huà)用戶運(yùn)用視頻業(yè)務(wù)的情況客戶在線的行為特征 從在線時(shí)
15、長(zhǎng),登陸次數(shù),登陸頻率等角度研討用戶的運(yùn)用行為歸屬地變化的行為特征 描畫(huà)用戶在某一時(shí)間周期內(nèi)登陸所在地的變化情況中間變量中間變量比例特征變量 描畫(huà)用戶業(yè)務(wù)運(yùn)用占比根底變量根底變量變量描畫(huà)變量描畫(huà)行為趨勢(shì)特征變量 描畫(huà)用戶的運(yùn)用行為變化趨勢(shì)變量描畫(huà)變量描畫(huà)黃沙吹盡始到金根底變量和中間變量數(shù)目約為224個(gè)經(jīng)過(guò)變量變換后的變量數(shù)目約為1700個(gè)變量挑選運(yùn)用Logistic回歸的Stepwise方法進(jìn)展下一步擬合卡方統(tǒng)計(jì)量卡方統(tǒng)計(jì)量 Chi Square信息價(jià)值信息價(jià)值 Information Value信息增益信息增益 Gain Index單變量回歸單變量回歸偏相關(guān)分析偏相關(guān)分析 Partial C
16、orrelationLift曲線十分位十分位樣本數(shù)量樣本數(shù)量LiftLift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲線50%75%建立閉環(huán)的業(yè)務(wù)流程流失客戶分析流失客戶分析數(shù)據(jù)發(fā)掘數(shù)據(jù)發(fā)掘數(shù)據(jù)分析數(shù)據(jù)分析數(shù)據(jù)采集數(shù)據(jù)采集/ETL現(xiàn)有流程評(píng)價(jià)現(xiàn)有流程評(píng)價(jià)方案和設(shè)計(jì)挽留行動(dòng)方案和設(shè)計(jì)挽留行動(dòng)執(zhí)行挽留行動(dòng)執(zhí)行挽留行動(dòng)評(píng)價(jià)挽留結(jié)果評(píng)價(jià)挽留結(jié)果調(diào)整運(yùn)用流程調(diào)整運(yùn)用流程Agenda數(shù)據(jù)發(fā)掘是什么?1模型+算法2數(shù)據(jù)發(fā)掘?qū)嶋H分享3心得與總結(jié)4幾點(diǎn)心得實(shí)施數(shù)據(jù)發(fā)掘是一個(gè)戰(zhàn)略性舉措Busines
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于語(yǔ)文核心素養(yǎng)的《儒林外史》整本書(shū)閱讀教學(xué)研究
- 我愛(ài)洗澡教案小班健康
- 起重機(jī)械安全專(zhuān)題培訓(xùn)
- 急性上呼吸道感染鑒別診斷
- 安全法律法規(guī)專(zhuān)項(xiàng)培訓(xùn)
- 婦幼健康教育宣傳內(nèi)容
- 2025年四川省瀘州市中考招生考試數(shù)學(xué)真題試卷(真題+答案)
- 教職員工食品安全培訓(xùn)
- 預(yù)防電信詐騙班會(huì)課件
- 預(yù)防兒童被侵害課件
- 教師安全培訓(xùn)內(nèi)容課件
- 2025年廣州市事業(yè)單位教師招聘考試生物學(xué)科專(zhuān)業(yè)知識(shí)試題
- 2025年宜賓市中考語(yǔ)文試題卷(含答案詳解)
- 幼兒小小運(yùn)動(dòng)會(huì)活動(dòng)方案
- C語(yǔ)言程序設(shè)計(jì)說(shuō)課課件
- 2023年對(duì)外漢語(yǔ)教育學(xué)引論知識(shí)點(diǎn)
- 對(duì)立違抗障礙行為矯正
- 風(fēng)力發(fā)電機(jī)組主傳動(dòng)鏈滾動(dòng)軸承運(yùn)行狀態(tài)評(píng)估結(jié)果和措施、定期維護(hù)項(xiàng)目及要求、基于評(píng)估結(jié)果備件計(jì)劃
- 易經(jīng)全文注音(修訂版)
- 庫(kù)板安裝工藝
- 重慶市地名命名更名報(bào)批意見(jiàn)表
評(píng)論
0/150
提交評(píng)論