GBDT算法及其應用_第1頁
GBDT算法及其應用_第2頁
GBDT算法及其應用_第3頁
GBDT算法及其應用_第4頁
GBDT算法及其應用_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

GradientBoostingDecisionTree AndItsApplication班級:**學生:**學號:**報告大綱第一部分:引言(概念介紹)

決策樹

boosting方法

損失函數

GBDT定義

第二部分:GBDT算法原理

加法模型

前向分步算法

提升樹算法

梯度提升樹算法

Regularization第三部分:GBDT應用

應用范圍

實例:CTR預估

GBDT特征轉換

LR+GBDT第四部分:總結第一部分:概念介紹決策樹boost方法損失函數GBDT定義

第一部分:概念介紹決策樹:是將空間用超平面進行劃分的一種方法分類樹回歸樹單決策樹時間復雜度較低,模型容易展示,但容易over-fitting決策樹的boost方法:是一個迭代的過程,每一次新的訓練都是為了改進上一次的結果.傳統Boost:對正確、錯誤的樣本進行加權,每一步結束后,增加分錯的點的權重,減少分對的點的權重。GB:梯度迭代GradientBoosting,每一次建立模型是在之前建立的模型損失函數的梯度下降方向第一部分:概念介紹

損失函數(lossfunction):描述的是模型的不靠譜程度,損失函數越大,則說明模型越容易出錯。對于不同的Lossfunction,其梯度有不同的表達式:第一部分:概念介紹GBDT(GradientBoostingDecisionTree):是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來做最終結果。GBDT這個算法還有一些其他的名字,MART(MultipleAdditiveRegressionTree),GBRT(GradientBoostRegressionTree),TreeNet,Treelink等。第二部分:GBDT算法原理加法模型前向分步算法提升樹算法梯度提升樹算法Regularization

第二部分:GBDT算法原理提升樹利用加法模型與前向分布算法實現學習的優化過程。第二部分:GBDT算法原理前向分布算法第二部分:GBDT算法原理對于決策樹,可以表示為:其中參數表示樹的區域劃分和各區域上的常數回歸問題提升樹使用以下前向分步算法所以,對于回歸問題的提升樹算法,

只需簡單擬合當前模型的殘差。

第二部分:GBDT算法原理

第二部分:GBDT算法原理當損失函數是平方損失和指數損失函數時,每一步優化是簡單的,但對一般損失函數而言,并不簡單。Freidman提出了GradientBoosting算法,利用最速下降法的近似方法,其關鍵是利用損失函數的負梯度在當前模型的值

作為回歸問題提升樹算法中的殘差的近似值,擬合一個回歸樹。StochasticGradientBoosting

當N很大的時候,非常耗費時間,這時我們可以從中隨機選取一些數據來擬合。

第二部分:算法原理第二部分:GBDT算法原理RegularizationcrossvalidationShrinkage參數v(0<v<1)可以認為是boosting方法的學習速率。如果使用很小的v,要達到相當的訓練誤差,就需要使用較大的M。反之亦然。在通常情況下,較小的v在獨立測試集上的performance更加好,但是這時需要較大的M,比較耗時。Subsampling使用前面提到的stochasticgradientboosting不僅減少了訓練時間,同樣可以起到bagging的效果,因為每次隨機抽樣減小了overfitting的機會。第三部分:GBDT應用

應用范圍

實例:CTR預估

LR

GBDT特征轉換

LR+GBDT

第三部分:GBDT應用應用范圍GBDT幾乎可用于所有回歸問題(線性/非線性)亦可用于二分類問題(設定閾值,大于閾值為正例,反之為負例);不太適合做多分類問題;排序問題;常用于各大數據挖掘競賽(模型融合);廣告推薦第三部分:GBDT應用CTR預估:廣告點擊率(Click-ThroughRatePrediction)CTR預估中用的最多的模型是LR(LogisticRegression),LR是廣義線性模型,與傳統線性模型相比,LR使用了Logit變換將函數值映射到0~1區間,映射后的函數值就是CTR的預估值。LR,邏輯回歸模型,這種線性模型很容易并行化,處理上億條訓練樣本不是問題,但線性模型學習能力有限,需要大量特征工程預先分析出有效的特征、特征組合,從而去間接增強LR的非線性學習能力。第三部分:GBDT應用LR模型中的特征組合很關鍵,但又無法直接通過特征笛卡爾積解決,只能依靠人工經驗,耗時耗力同時并不一定會帶來效果提升。如何自動發現有效的特征、特征組合,彌補人工經驗不足,縮短LR特征實驗周期,是亟需解決的問題Facebook2014年的文章介紹了通過GBDT(GradientBoostDecisionTree)解決LR的特征組合問題,隨后Kaggle競賽也有實踐此思路GDBT+FM,GBDT與LR融合開始引起了業界關注第三部分:GBDT應用GBDT+LRGBDT的思想使其具有天然優勢,可以發現多種有區分性的特征以及特征組合,決策樹的路徑可以直接作為LR輸入特征使用,省去了人工尋找特征、特征組合的步驟。第三部分:GBDT應用由于樹的每條路徑,是通過最小化均方差等方法最終分割出來的有區分性路徑,根據該路徑得到的特征、特征組合都相對有區分性,效果理論上不會亞于人工經驗的處理方式。第三部分:GBDT應用實驗Kaggle比賽:DisplayAdvertisingChallenge詳細介紹:/c/criteo-display-ad-challenge實驗過程:(比賽第一名:GBDT+FM)參考:/guestwalk/kaggle-2014-criteo(Xgboost:/dmlc/xgboost)實驗結果:尚未完成,報告加上第四部分:總結總結展望

References《統計學習方法》FriedmanJH.Greedyfunctionapproximation:agradientboostingmachine[J].Annalsofstatistics,2001:1189-1232.FriedmanJH.Stochasticgradientboosting[J].ComputationalStatistics&DataAnalysis,2002,38(4):367-378.HeX,PanJ,JinO,etal.PracticalLessonsfromPredictingClicksonAdsatFacebook[C]//EighthInternationalWorkshoponDataMiningforOnlineAdvertising.ACM,2014:1-9.YuanTT,ChenZ,MathiesonM.PredictingeBaylistingconversion[C]//Proceedingsofthe34thinternationalACMSIGIRconferenceonResearchanddevelopmentinInformationRetrieval.ACM,2011:1335-1336.TyreeS,WeinbergerKQ,AgrawalK,etal.Parallelboostedregressiontreesforweb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論