《R語言數(shù)據(jù)挖掘》第五章 R的決策樹:數(shù)據(jù)預(yù)測_第1頁
《R語言數(shù)據(jù)挖掘》第五章 R的決策樹:數(shù)據(jù)預(yù)測_第2頁
《R語言數(shù)據(jù)挖掘》第五章 R的決策樹:數(shù)據(jù)預(yù)測_第3頁
《R語言數(shù)據(jù)挖掘》第五章 R的決策樹:數(shù)據(jù)預(yù)測_第4頁
《R語言數(shù)據(jù)挖掘》第五章 R的決策樹:數(shù)據(jù)預(yù)測_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章R的決策樹:數(shù)據(jù)預(yù)測學(xué)習(xí)目標(biāo)理論方面,理解決策樹分類預(yù)測的基本原理,適用性和方法特點(diǎn)。了解組合預(yù)測的必要性、袋裝策略、推進(jìn)策略以及隨機(jī)森林的核心思想原理實(shí)踐方面,掌握R的決策樹、組合預(yù)測建模的函數(shù)和應(yīng)用以及結(jié)果解讀,能夠正確運(yùn)用決策樹和組合預(yù)測方法實(shí)現(xiàn)數(shù)據(jù)的分類預(yù)測決策樹算法概述決策樹是一種直觀有效展示規(guī)則集的圖形方式,也是實(shí)現(xiàn)分類預(yù)測的經(jīng)典數(shù)據(jù)挖掘算法決策樹較好地規(guī)避了傳統(tǒng)統(tǒng)計(jì)中利用一般線性模型、廣義線性模型、判別分析對數(shù)據(jù)分布的要求,能夠在無分布限制的“寬松環(huán)境下”,找出數(shù)據(jù)中輸入變量和輸出變量取值間的邏輯對應(yīng)關(guān)系或規(guī)則,并實(shí)現(xiàn)對新數(shù)據(jù)輸出變量的預(yù)測決策樹的目標(biāo)建立分類預(yù)測模型建立回歸預(yù)測模型什么是決策樹什么是決策樹根節(jié)點(diǎn)葉節(jié)點(diǎn)中間節(jié)點(diǎn)2叉樹和多叉樹決策樹的特點(diǎn)決策樹體現(xiàn)了對樣本數(shù)據(jù)的不斷分組過程決策樹體現(xiàn)了輸入變量和輸出變量取值的邏輯關(guān)系決策樹的幾何意義決策樹的幾何意義可將樣本集中的每一個(gè)觀測看成是n維(n個(gè)輸入變量)特征空間上的一個(gè)點(diǎn),輸出變量取不同類別的點(diǎn)以不同形狀表示(如圓圈或三角形)從幾何意義上理解,是決策樹的每個(gè)分枝在一定規(guī)則下完成對n維特征空間的區(qū)域劃分。決策樹建立好后,n維特征空間被劃分成若干個(gè)小的矩形區(qū)域。矩形區(qū)域的邊界平行或垂直于坐標(biāo)軸決策樹的核心問題決策樹的核心問題第一,決策樹的生長,即利用訓(xùn)練樣本集完成決策樹的建立過程第二,決策樹的剪枝,即利用測試樣本集對所形成的決策樹進(jìn)行精簡分類回歸樹的生長過程分類回歸樹的生長過程本質(zhì)是對訓(xùn)練樣本集的反復(fù)分組,涉及兩個(gè)問題:如何從眾多輸入變量中選擇當(dāng)前最佳分組變量如何從分組變量的眾多取值中找到一個(gè)最佳分割點(diǎn)最佳分組變量和最佳分割點(diǎn)應(yīng)是使輸出變量異質(zhì)性下降最快的變量和分割點(diǎn)信息熵:是信息量的數(shù)學(xué)期望。先驗(yàn)熵和后驗(yàn)熵信息增益:加權(quán)的信息增益測度異質(zhì)性下降的程度分類樹的生長過程輸出變量異質(zhì)性及異質(zhì)性變化的測度Gini系數(shù):節(jié)點(diǎn)樣本的輸出變量均取同一類別值,輸出變量取值的差異性最小,Gini系數(shù)為0。各類別取值概率相等時(shí),輸出變量取值的差異性最大回歸樹的生長過程輸出變量異質(zhì)性及異質(zhì)性變化的測度方差異質(zhì)性下降的測度指標(biāo)為方差的減少量分類回歸樹的剪枝分類回歸樹采用預(yù)修剪和后修剪相結(jié)合的方式剪枝預(yù)修剪目標(biāo)是控制決策樹充分生長,可以事先指定一些控制參數(shù),例如:決策樹最大深度樹中父節(jié)點(diǎn)和子節(jié)點(diǎn)所包含的最少樣本量或比例樹節(jié)點(diǎn)中輸出變量的最小異質(zhì)性減少量后修剪策略是在決策樹生長到一定程度之后,根據(jù)一定規(guī)則,剪去決策樹中的那些不具有一般代表性的葉節(jié)點(diǎn)或子樹,是一個(gè)邊修剪邊檢驗(yàn)的過程分類回歸樹采用的后修剪技術(shù)稱為最小代價(jià)復(fù)雜度剪枝法(MinimalCostComplexityPruning,MCCP)最小代價(jià)復(fù)雜度的測度出發(fā)點(diǎn):決策樹修剪中復(fù)雜度和精度(或誤差)之間的權(quán)衡是必要的,既要盡量使決策子樹沒有很高的復(fù)雜度,又要保證修剪后的決策子樹,其預(yù)測誤差不明顯高于復(fù)雜的決策樹決策樹T的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝判斷能否剪掉一個(gè)中間節(jié)點(diǎn){t}下的子樹Tt時(shí),應(yīng)計(jì)算中間節(jié)點(diǎn){t}和其子樹Tt的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝分類回歸樹后剪枝過程,兩個(gè)階段:第一個(gè)階段:不斷調(diào)整CP參數(shù)并依據(jù)剪掉子樹,得到k個(gè)備選子樹最終將得到若干個(gè)具有嵌套(包含)關(guān)系的子樹序列(依次增大,包含的葉節(jié)點(diǎn)數(shù)依次減少)第二個(gè)階段:在k個(gè)備選子樹中選出最優(yōu)子樹分類回歸樹的交叉驗(yàn)證剪枝小樣本集下因測試樣本集的樣本量小,且訓(xùn)練樣本集和測試樣本集的劃分具有隨機(jī)性,會(huì)導(dǎo)致CP參數(shù)值的設(shè)定不恰當(dāng)。為此,可采用N折交叉驗(yàn)證剪枝N折交叉驗(yàn)證首先,將數(shù)據(jù)集隨機(jī)近似等分為不相交的N組,稱為N折然后,令其中的N-1組為訓(xùn)練樣本集,用于建立模型。剩余的一組為測試樣本集,計(jì)算預(yù)測誤差N折交叉驗(yàn)證一般應(yīng)用第一,模型預(yù)測誤差的估計(jì),即模型評價(jià)第二,確定合理的模型,即模型選擇分類回歸樹的交叉驗(yàn)證剪枝CP參數(shù)值的典型代表值分類回歸樹的R函數(shù)和應(yīng)用分類回歸樹的R函數(shù)rpart(輸出變量~輸入變量,data=數(shù)據(jù)框名,method=方法名,parms=list(split=異質(zhì)性測度指標(biāo)),control=參數(shù)對象名)printcp(決策樹結(jié)果對象名)plotcp(決策樹結(jié)果對象名)分類回歸樹的應(yīng)用提煉不同消費(fèi)行為顧客的主要特征組合預(yù)測:給出穩(wěn)健的預(yù)測組合預(yù)測模型是提高模型預(yù)測精度和穩(wěn)健性的有效途徑首先,基于樣本數(shù)據(jù)建立一組模型而非單一模型其次,預(yù)測時(shí)由這組模型同時(shí)提供各自的預(yù)測結(jié)果,通過類似“投票表決”的形式?jīng)Q定最終的預(yù)測結(jié)果組合預(yù)測中的單個(gè)模型稱為基礎(chǔ)學(xué)習(xí)器,它們通常有相同的模型形式。如何獲得多個(gè)樣本集合,如何將多個(gè)模型組合起來實(shí)現(xiàn)更合理的“投票表決”,是組合模型預(yù)測中的兩個(gè)重要方面。常見技術(shù):袋裝(Bagging)技術(shù)推進(jìn)(Boosting)技術(shù)袋裝技術(shù)袋裝技術(shù)的英文為Bagging,是BootstrapAggregating的縮寫。顧名思義,Bagging的核心是Bootstrap,也稱重抽樣自舉法對樣本量為n樣本集S,重抽樣自舉法(也稱0.632自舉法)的做法對S做k次有放回地重復(fù)抽樣,得到k個(gè)樣本容量仍為n的隨機(jī)樣本Si(i=1,2,…,k),稱自舉樣本袋裝技術(shù)基于k個(gè)自舉樣本建立組合預(yù)測模型第一,建模階段第二,預(yù)測階段第三,模型評估階段袋裝技術(shù)ipred包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,nbagg=k,coob=TRUE,control=參數(shù)對象名)adabag包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),control=參數(shù)對象名)袋裝技術(shù)的應(yīng)用穩(wěn)健定位目標(biāo)客戶推進(jìn)技術(shù)袋裝技術(shù)中,自舉樣本的生成完全是隨機(jī)的。多個(gè)模型在預(yù)測投票中的地位也都相同,并未考慮不同模型預(yù)測精度的差異性。推進(jìn)技術(shù)在這兩方面進(jìn)行了調(diào)整,其中的AdaBoost(AdaptiveBoosting)策略已有較為廣泛的應(yīng)用。包括兩個(gè)階段:第一,建模階段第二,預(yù)測階段推進(jìn)技術(shù)的R函數(shù)boosting(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),boos=TRUE,coeflearn=模型權(quán)重調(diào)整方法,control=參數(shù)對象名)隨機(jī)森林隨機(jī)森林是一種組合預(yù)測模型。用隨機(jī)方式建立一片森林,森林中包含眾多有較高預(yù)測精度且弱相關(guān)甚至不相關(guān)的決策樹,并形成組合預(yù)測模型。后續(xù),眾多預(yù)測模型將共同參與對新觀測輸出變量取值的預(yù)測隨機(jī)森林的隨機(jī)性表現(xiàn)在兩個(gè)方面:第一,訓(xùn)練樣本是對原始樣本的重抽樣自舉,訓(xùn)練樣本具有隨機(jī)性第二,在每棵決策樹建立過程中,成為當(dāng)前最佳分組變量的輸入變量,是輸入變量全體的一個(gè)隨機(jī)候選變量子集中的“競爭獲勝者”。分組變量具有隨機(jī)性。隨機(jī)森林構(gòu)建變量子集i的常見方式隨機(jī)選擇輸入變量:也稱Forest-RI(RandomInput)方式,即通過隨機(jī)方式選擇k個(gè)輸入變量進(jìn)入候選變量子集i

。依據(jù)變量子集i將建立一棵充分生長的決策樹,無需剪枝以減少預(yù)測偏差隨機(jī)組合輸入變量:也稱Forest-RC(RandomCombination)方式。通過隨機(jī)選擇L個(gè)輸入變量x并生成L個(gè)均服從均勻分布的隨機(jī)數(shù),做線性組合重復(fù)得到k個(gè)由新變量v組成的輸入變量子集i。依據(jù)變量子集i

建立一棵充分生長的決策樹,且無需剪枝隨機(jī)森林確定k的依據(jù)第一,決策樹對袋外觀測的預(yù)測精度,也稱決策樹的強(qiáng)度第二,各決策樹間的相互依賴程度,也稱決策樹的相關(guān)性k越大,每棵樹的預(yù)測偏差越小(也即強(qiáng)度越高),但因決策樹間的相關(guān)性較大導(dǎo)致預(yù)測方差越大。反之,k越小,每棵樹的預(yù)測偏差越大(也即強(qiáng)度越低),但因決策樹間的相關(guān)性較低導(dǎo)致預(yù)測方差較小。所以,在相關(guān)性與強(qiáng)度之比最小下的k是合理的隨機(jī)森林隨機(jī)森林的R函數(shù)randomForest(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mtr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論