




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘模型的構建、評估與應用模型構建模型評估模型應用模型構建——建模相關任務在這個階段,將選擇和應用多種不同的建模技術,并且校準它們的參數,使其達到最優值。(1)選擇建模技術(2)產生測試設計簡單驗證交叉驗證n-維交叉驗證(3)建立模型(4)評估模型模型構建——一般建模流程(1)模型構建和應用流程模型構建——設計建模策略(1)設計建模策略是設計將模型集分割為訓練集、測試集和評價集的分割策略,以及設計將訓練集中不同類別占比平衡的策略。(1)分割模型集分割模型集可以采用按不同時間段劃分的方式,也可以采用在同一時間段樣本中抽樣的方式。如果有足夠長時間跨度的數據,優先采用按不同時間段劃分的方式,此時得到的模型會更加穩定。如果沒有足夠長時間跨度的數據,采用在同一時間段樣本中抽樣的方式。如果同一時間段內的樣本量很小,但是有較長時間跨度的歷史數據,我們可以利用歷史數據通過重疊時間段來建立模型集模型構建——設計建模策略(2)(2)平衡訓練集平衡訓練集是通過抽樣方法使目標變量中不同類別的占比達到合適水平的過程。平衡訓練集是因為訓練集的密度會對模型的效果產生影響。抽樣:通過抽樣的方法控制訓練集中稀少類別(挖掘關注的類別,如流失用戶)的比例。所謂抽樣是指從原始數據中抽取一定量的記錄構成新數據集的過程。在建立預測模型的時候,抽取的樣本應該具有代表性。要獲取有代表性的樣本,最好方法是隨機抽取樣本記錄。檢驗樣本是否有代表性,一個很好的方法是,觀察關鍵變量的取值分布在抽樣樣本集和原始數據集中的分布是否大致相同。過抽樣:一種方式是多抽取正樣本(挖掘關注的類別,如流失用戶)的數量,實際過程中就是將正樣本復制多份,負樣本(挖掘不關注的類別,如非流失用戶)數量保持不變;另一種方式是少抽取負樣本數量,正樣本數量保持不變。正樣本的比例一般在10%~30%時會產生較好的效果。過抽樣可能會過頭,如果正樣本比例很低,并且負樣本的數量很大,那么就需要重復復制很多份正樣本,很容易產生對數據過度擬合問題。所謂過度擬合,指通過訓練集建立的模型在訓練集上效果較好,但是在測試集和評價集上的效果較差。模型構建——如何構建模型(1)構建模型指選擇不同的建模方法,設置不同的模型參數,利用數據挖掘工具構建模型并不斷調整優化模型的過程。(1)選擇建模方法(2)調整模型參數(3)樣本規模和濃度模型構建——如何構建模型(1)(1)選擇建模方法在數據挖掘問題類型的基礎上,進一步選擇具體的建模方法,如分類預測方法包括決策樹、Logistic回歸和神經網絡等,數值預測方法包括多元線性回歸、回歸樹和神經網絡等。以有目標變量的挖掘問題為例,在選擇建模方法時可以問如下幾方面的問題:1)目標變量類型?二分類或多分類型,用決策樹、Logistic回歸、神經網絡數值型:用回歸模型、回歸樹、神經網絡2)輸入變量類型?分類變量越多,決策樹、貝葉斯模型更合適數值變量居多,回歸、神經網絡能充分利用數據的信息3)是否考慮模型的構建難度?如神經網絡對數據要求較高,數據準備時間長,同時模型構建時間也長如決策樹對數據要求較低,數據準備和模型構建效率高4)是否考慮模型解釋的容易程度?準確性更重要時選擇準確率高的模型,如欺詐偵測,選神經網絡,不選決策樹解釋性要求高,可以選擇決策樹模型模型構建——如何構建模型(1)(2)調整模型參數不同模型參數會得到不同的建模結果,它在防止模型過度擬合方面比較重要。如決策樹模型中的最小葉節點數,如果設置過小,容易造成過度擬合問題,它一般要根據樣本集的大小進行設置。下面以決策樹模型為例,介紹它常用參數的主要作用。1)分支和剪枝方法決策樹模型基于不同的分支算法進行分支或剪枝,常用方法有信息增益率(GainRatio)和基尼指數(GiniIndex)。兩種方法各有優缺,信息增益率傾向于不均衡分裂,基尼指數傾向于選擇多值屬性。不均衡分裂指樣本經過某個變量劃分以后,兩部分樣本中的用戶數差別很大,如一部分用戶占比95%,另一部分用戶只占5%。不均衡分裂一般發生在數值變量上,雖然它使兩部分樣本中目標的占比差異最大化,但是不利于后續的繼續劃分,因此建議對數值變量進行離散化處理。多值屬性是指取值類別較多的分類變量,一個分類變量的取值類別越多,基尼指數越會有偏大的傾向,導致多值屬性的變量經常被選擇分支變量,建議將取值較多的分類變量的類別進行合并。2)最小葉節點數用于控制樹的生長,當樹的某個分支的樣本數低于最小葉節點數時,該分支停止生長。一般情況下,最小葉節點數越小,訓練集的數據就擬合的越好,但是可能產生過擬合的問題。反之,訓練模型的準確率會下降,但對測試集的適應性增強。最小葉節點記錄數一般不低于樣本的0.5%。3)樹的最大深度用于控制樹的生長,當樹的深度達到最大深度時將停止生長。最大深度設置越高,樹越能充分生長,模型準確率越高,但可能產生過度擬合問題,使得模型在測試集上的效果較差,因此最大深度要根據模型在測試集上錯誤率的變化來判斷。當模型在測試集上的錯誤率出現上升趨勢時,停止樹的生長模型構建——如何構建模型(2)(3)樣本規模和濃度不同的樣本規模和濃度對模型效果和穩定性影響較大。一般樣本規模越大,模型的效果和穩定性越好,有時因為正樣本濃度過低,過抽樣只抽取很少一部分的負樣本,造成樣本規模較小,使得模型穩定性很差。樣本濃度多少最優需要通過實際建模測試確定,一般在10%-30%之間選擇。模型評估——評價相關任務(1)評價挖掘結果這里的評估主要是對模型是否滿足業務目標、滿足的程度以及在哪些業務上存在不足等方面進行的。另外,這一步驟還要評估其他的數據挖掘結果。它包括與初始業務目標相關的模型,以及其他一些發現。這一步產生的輸出:根據業務成功標準的數據挖掘結果,來評價經核準的模型。(2)回顧過程回顧過程是指對數據挖掘實施過程進行一個徹底的回顧,用來確定是否有哪些重要的因素或任務被忽略掉了。這一回顧還包括質量保證問題。這一步產生的輸出:過程回顧。(3)確定下一步根據評價結果和過程回顧,決定項目下一步將如何進行。需要決定的是,是否準備結束這一項目,并且合適的話進入實施階段;或者開始進一步的反復;或者建立一個新的數據挖掘項目。這一步驟還需要分析剩下的資源和預算。這一步產生的輸出:可能的行動清單和決策。模型評估——模型性能評估(1)混淆矩陣(ConfusionMatrix):用于評估有目標變量挖掘問題的分類準確性的一個表格。對于一個是否流失的二分類預測模型,完美的情況是:如果一個用戶實際上(Actual)屬于流失類別,也被預測成(Predicted)流失的;屬于非流失類別,也被預測成非流失的。但在實際應用中,一些實際上是流失的用戶根據我們的模型卻被預測為非流失的,而一些原本非流失的用戶卻被預測為流失的。我們需要知道,這個模型到底預測對了多少,預測錯了多少,混淆矩陣可以把我們所需要的這些信息反映到一個矩陣里,這就是所謂的混淆矩陣模型評估——模型性能評估(2)a表示實際上非流失被預測為非流失的用戶數,b表示實際上非流失卻被預測為流失的用戶數,c表示實際上流失卻被預測為非流失的用戶數,d表示實際上流失被預測為流失的用戶數。
預測結果非流失流失實際結果非流失ab流失cd混淆矩陣模型評估——模型性能評估(3)混淆矩陣的總體評估指標包括:命中率:d/(b+d)覆蓋率:d/(c+d)混淆矩陣給出的模型評估指標有它的局限性,還需要按照不同用戶比例來評估模型的效果。此時需要運用增益圖(CumulativeGains)和提升度圖(LiftCharts)來評估模型效果。以流失預測模型為例說明指標的含義:前n%用戶模型命中率是指按照流失概率由大到小排序后,前n%用戶中實際流失的用戶占比,用來衡量模型預測的準確程度,也被稱為準確度或查準率。前n%用戶模型覆蓋率是指按照流失概率由大到小排序后,前n%用戶中實際流失的用戶數占所有流失用戶數的比例,表示模型覆蓋流失用戶能力的大小,也稱作查全率。一般用增益圖(CumulativeGains)進行評估。模型評估——業務合理性評估從業務角度理解,決策樹模型產生的是一組業務規則,例如在流失預警模型中,就是滿足什么規則的用戶會發生流失,流失的可能性多大。Logistic回歸模型的輸出結果是一個方程。對Logistic回歸模型的解釋主要在于方程的系數,主要關注以下幾個方面:系數的符號表示輸入變量對目標變量的影響方向,如果某變量系數為正,說明該變量對目標變量的影響是正向的如果從系數符號得出的輸入變量對目標變量的影響方向和數據探索的結果(或業務假設)不一致,應當分析原因。標準化系數消除了量綱的影響,可以用其絕對值大小來比較各個變量對目標變量的影響。模型評估——業務應用價值評估模型業務應用價值評估設計模型應用——實施階段任務(1)計劃實施為了在業務中實施數據挖掘結果,計劃實施的任務是接受評價結果,并制定實施戰略。具體包括:創建相關模型的一般步驟在這里被識別,并記錄成文檔供后續的實施使用;總結實施計劃,應分析包括哪些步驟以及如何完成這些步驟。這一步產生的輸出:實施計劃。(2)計劃監測、維護計劃監測、維護是指對數據挖掘結果實施計劃的監測和維護。一旦數據挖掘結果成為日常業務和環境的一部分,監測和維護工作就是一項重要的議題。一項精心準備的維護戰略有助于避免數據挖掘結果的不必要的、長期的錯誤應用。需要一份詳細的監測計劃,這份計劃將考慮特定類型的實施。這一步產生的輸出:監測和維護計劃。模型應用——實施階段任務(3)產生最終報告在項目結束時,項目經理和他的團隊將起草一份最終報告。根據實施計劃,這份報告可能僅僅是一份項目和經驗的總結(如果它們還沒有被記錄到文檔),或者可能是一份最終的和廣泛的數據挖掘結果的表述。這一步產生的輸出:最終報告、最終表述。(4)回顧項目評估成功和失敗,總結經驗和有待提高之處。這一步產生的輸出:經驗文檔。模型應用——模型部署與應用模型如何應用是需要重點考慮的問題,需要根據最初的業務目標確定。如流失預警模型的目的是為了維系挽留,一方面可以將每月的高危用戶數以報表的形式部署在前端應用系統中,用于監控和指導維系工作;一方面將高危預警清單以腳本的形式固化,周期性提供名單,并推送到維系挽留系統,設計營銷活動,對客戶進行維系挽留工作。模型應用最重要的是能夠讓模型結果持續發揮價值,因此可以將模型結果固化在客戶特征庫,形成客戶的特征標簽,根據不同的應用場景,通過組合客戶特征標簽的方式獲取有針對性的營銷名單。模型應用——數據挖掘不是萬能的(1)數據挖掘通過構建模型來發現特征模式和關系,而模型是事實的抽象表示,數據挖掘僅僅是個工具,不能替代業務人員或者經理們的角色,但是數據挖掘確實能為他們提供更有力的工具以改善工作。在數據挖掘過程中需要經驗與分析的結合,數據挖掘既是一門科學也是一門藝術。數據挖掘不是萬能的還體現在數據挖掘過程中很容易犯一些錯誤最終導致錯誤結果的輸出。模型應用——數據挖掘不是萬能的(2)常見的錯誤及其可能的解決方案有:太關注訓練(FocusonTraining)。解決這類問題的典型方法是重抽樣(Re-Sampling),重抽樣技術包括:bootstrap、cross-validation、jackknife、leave-one-out等。只依賴一項技術(RelyonOneTechnique)。解決方法是使用一系列好的工具和方法(每種工具或方法可能最多帶來5%~10%的改進)。提錯了問題(AsktheWrongQuestion)。只靠數據來說話(ListenonlytotheData)。
使用了未來的信息(AcceptLeaksfromtheFuture)。一般的解決方法是仔細查看讓結果表現得異常好的變量,可能不應該使用,或不該直接使用,同時給數據加上時間戳。拋棄了不該忽略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 呼和浩特市新城區公益性崗位招聘筆試真題2024
- 江蘇蘇州工業園區教育系統招聘教育人才筆試真題2024
- 歷史城市文化傳承規劃基礎知識點歸納
- 極地地區教學設計
- 綠色金融產融合作中面臨的主要問題及挑戰
- 高效行政工作總結
- 高中生物跨學科教學中探究式學習的實施策略
- 發心理學論文
- 2025至2030年中國濾波器用鐵氧體磁芯行業投資前景及策略咨詢報告
- 2025至2030年中國滌棉全線卡行業投資前景及策略咨詢報告
- 營維一體化SOP手冊(裝維、銷售、維系)
- FZ/T 93056-1999變形絲用筒管技術條件
- 第六章神經系統
- 醫療不良事件報告表
- SA8000-2014社會責任績效委員會SPT組織架構、職責和定期檢討及評審會議記錄
- 材料加工新技術與新工藝112課件
- 國開作業科研人員TRIZ技術創新方法應用培訓-單元測驗1(確定項目+描述項目)76參考(含答案)
- 企業安全生產網格化管理體系圖空白
- 焊接熱處理工藝卡
- 百日咳臨床研究進展PPT醫學課件
- 大型鋼網架整體提升施工工法
評論
0/150
提交評論