C45算法生成決策樹的研究_第1頁
C45算法生成決策樹的研究_第2頁
C45算法生成決策樹的研究_第3頁
C45算法生成決策樹的研究_第4頁
C45算法生成決策樹的研究_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 10/10C4.5算法生成決策樹1、基礎(chǔ)知識當(dāng)我們需要要對一個(gè)個(gè)隨機(jī)事事件的概概率分布布進(jìn)行預(yù)預(yù)測時(shí),我我們的預(yù)預(yù)測應(yīng)當(dāng)當(dāng)滿足全全部已知知的條件件,而對對未知的的情況不不要做任任何主觀觀假設(shè)。在在這種情情況下,概概率分布布最均勻勻,預(yù)測測的風(fēng)險(xiǎn)險(xiǎn)最小。因因?yàn)檫@時(shí)時(shí)概率分分布的信信息熵最最大,所所以稱之之為“大熵法法”最大熵熵法在數(shù)數(shù)學(xué)形式式上很漂漂亮,但但是實(shí)現(xiàn)現(xiàn)起來比比較復(fù)雜雜,但把把它運(yùn)用用于金融融領(lǐng)域的的誘惑也也比較大大,比如如說決定定股票漲漲落的因因素可能能有幾十十甚至上上百種,而而最大熵熵方法恰恰恰能找找到一個(gè)個(gè)同時(shí)滿滿足成千千上萬種種不同條條件的模模型。目前,針對對分類問問題已有

2、有了若干干不同領(lǐng)領(lǐng)域方法法的算法法,例如如統(tǒng)計(jì)學(xué)學(xué)、機(jī)器器學(xué)習(xí)、神神經(jīng)網(wǎng)絡(luò)絡(luò)和粗糙糙集理論論等。其其中從機(jī)機(jī)器學(xué)習(xí)習(xí)中引出出的決策策樹方法法是一種種較為通通用并被被深入研研究的分分類方法法,由于于決策樹樹分類算算法是一一種直觀觀快速的的分類方方法,它它的分類類過程不不需要背背景知識識、并且且清晰、易易于理解解,因此此有很大大的實(shí)用用價(jià)值。目前已經(jīng)形成了多種決策樹算法。如CLS、ID3、CHAID、CART、FACT、C4.5、Gini、SEE5、SLIQ、SPRINT等。在決策樹分分類算法法中,最最常用的的、最經(jīng)經(jīng)典的是是C4.5算法法,它繼繼承了IID3算算法的優(yōu)優(yōu)點(diǎn)并對對ID33算法進(jìn)進(jìn)行

3、了改改進(jìn)和補(bǔ)補(bǔ)充。CC4.55算法采采用信息息增益率率作為選選擇分支支屬性的的標(biāo)準(zhǔn),克克服了IID3算算法中信信息增益益選擇屬屬性時(shí)偏偏向選擇擇取值多多的屬性性的不足足,并能能夠完成成對連續(xù)續(xù)屬性離離散化的的處理,還還能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)進(jìn)行處理理。根據(jù)據(jù)分割方方法的不不同,目目前決策策的算法法可以分分為兩類類:基于于信息論論(Innforrmattionn Thheorry)的的方法和和最小GGINII指標(biāo)(LLoweest GINNI iindeex)方方法。對對應(yīng)前者者的算法法有IDD3、CC4.55,后者者的有CCARTT、SLLIQ和和SPRRINTT。C4.5算算法是以以信息論論

4、為基礎(chǔ)礎(chǔ),以信信息熵和和信息增增益度為為衡量標(biāo)標(biāo)準(zhǔn),從從而實(shí)現(xiàn)現(xiàn)對數(shù)據(jù)據(jù)的歸納納分類。2、算法以下圖數(shù)據(jù)據(jù)為例,介紹用用C4.5建立立決策樹樹的算法法。表1室外溫度室內(nèi)溫度室外濕度風(fēng)力大小機(jī)房樓層機(jī)房朝向(00:陰,11:陽)機(jī)房開啟設(shè)設(shè)備總額額定功率率(千瓦瓦)2317654105002417622214502718603-103002419583203002518522114502618505-115003019452214502818433104502718483-10500291840410500ID3算法法最初假假定屬性性都是離離散值,但但在實(shí)際際應(yīng)用中中,很多多屬性值值都是連連續(xù)的

5、。CC4.55對IDD3不能能處理連連續(xù)型屬屬性的缺缺點(diǎn)進(jìn)行行了改進(jìn)進(jìn)。如果果存在連連續(xù)型的的描述性性屬性,首首先將連連續(xù)型屬屬性的值值分成不不同的區(qū)區(qū)間,即即“離散化化”。對上表中將將實(shí)際耗耗電量分分為100個(gè)區(qū)間間(09)(3003200,32203340,34003660,33603800,38804400,44004200,42204440,44004660,44604800,48805500)因?yàn)樽罱K是是要得到到實(shí)際的的耗電量量區(qū)間,因因此“實(shí)際耗耗電量”屬于“類別屬屬性”。“室外溫溫度”、“室內(nèi)溫溫度”、“室外濕濕度”、“風(fēng)力大大小”、“機(jī)房樓樓層”、“機(jī)房朝朝向”、“機(jī)房開開啟設(shè)

6、備備總額定定功率”屬于“非類別別屬性”。表2室外溫度室內(nèi)溫度室外濕度風(fēng)力大小機(jī)房樓層機(jī)房朝向(00:陰,11:陽)機(jī)房開啟設(shè)設(shè)備總額額定功率率(千瓦瓦)實(shí)際耗電量量(區(qū)間)231765410500524176222145072718603-103000241958320300025185221145052618505-115004301945221450928184331045062718483-1050052918404105007非類別屬性性類別屬性通過表2知知,實(shí)際際耗電量量區(qū)間的的個(gè)數(shù)為為:表3序號區(qū)間值個(gè)數(shù)102241353461572691總計(jì)10定義1:若若存在nn個(gè)相同同概率的

7、的消息(Masssagge),則則每個(gè)消消息的概概率p是是1/nn,一個(gè)個(gè)消息傳傳遞的信信息量為為。若有116個(gè)事事件,則則,則需需4個(gè)比比特來代代表一個(gè)個(gè)消息。例如:表33中,區(qū)區(qū)間為00的信息息量為:=3.3222 定義2:若若給定的的概率分分布,則則由該分分布傳遞遞的信息息量稱為為P的熵熵。即注意:概率率分布越越均勻,其其信息量量越大)。定義3:若若一個(gè)記記錄的集集合T根根據(jù)類別別屬性的的值被分分成互相相獨(dú)立的的類則識識別T的的一個(gè)元元素所屬屬哪個(gè)類類所需要要的信息息量是,其其中P是是的概率率分布,即即例如:表33中,得得到實(shí)際際耗電量量區(qū)間的的信息量量為(以以下單位位為比特特,下同同)

8、:=2.4446定義4:若若我們先先根據(jù)非非類別屬屬性X的的值將TT分成集集合,則則確定TT中一個(gè)個(gè)元素類類的信息息量可通通過確定定的加權(quán)權(quán)平均值值來得到到,即IInfoo()的的加權(quán)平平均值為為:例如:屬性性“室內(nèi)溫溫度”的值有有“17、118、119”,分類類見下表表:表4序號室內(nèi)溫度個(gè)數(shù)所屬的區(qū)間間(個(gè)數(shù)數(shù)11725(1)7(1)21860(1)4(1)5(2)6(1)7(1)31920(1)9(1)總計(jì)10P(17)=(1/2,11/2)P(18)=(1/6,11/6,22/6,11/6,11/6)P(19)=(1/2,11/2)則每個(gè)溫度度的信息息量為:=1.0000=2.2552=

9、1.0000=1.7551定義5:將將增益GGainn(X,TT)定義義為:。所謂增益益,就是是指在應(yīng)應(yīng)用了某某一測試試之后,其其對應(yīng)的的可能性性豐富程程度下降降,不確確定性減減小,這這個(gè)減小小的幅度度就是增增益,其其實(shí)質(zhì)上上對應(yīng)著著分類帶帶來的好好處)。 上式的增益益值為:=2.4466-1.7511=0.6955以上是IDD3計(jì)算算信息增增益的方方法,CC4.55算法對對此進(jìn)行行了改進(jìn)進(jìn)。C44.5算算法采用用信息增增益率作作為選擇擇分支屬屬性的標(biāo)標(biāo)準(zhǔn),克克服了IID3算算法中信信息增益益選擇屬屬性時(shí)偏偏向選擇擇取值多多的屬性性的不足足。若我我們一個(gè)個(gè)屬性DD,據(jù)其其取值將將T分成成集合T

10、T1、TT2Tn,當(dāng)當(dāng)每一個(gè)個(gè)集合中中所有記記錄得出出的結(jié)果果相同,即即同時(shí)取取值為“是”或“否”時(shí),IInfoo(D,TT) 為為0,此此時(shí)增益益Gaiin(DD,T)取取最大值值。因此此用增益益比值來來代替,即即:由于T是以以類型屬屬性D的的值為基基準(zhǔn)進(jìn)行行的分割割,故SSpliitInnfo(DD,T) 是信息息量。舉例:根據(jù)據(jù)表4,得到:=1.3771,則則0.6695/1.3371=0.5507可利用函數(shù)數(shù)Gaiin的定定義將屬屬性進(jìn)行行排列,并并可構(gòu)造造一棵決決策樹,其其中每一一個(gè)節(jié)點(diǎn)點(diǎn)都是屬屬性中具具有最大大增益的的屬性,從從而不必必考慮來來自于根根的路徑徑。3、選擇連連續(xù)變量量

11、的閾值值(測試試條件)到連續(xù)數(shù)據(jù)據(jù)的分支支的閾值值點(diǎn)如何何確定呢呢?很簡簡單,把把需要處處理的樣樣本(對對應(yīng)根節(jié)節(jié)點(diǎn))或或樣本子子集(對對應(yīng)子樹樹)按照照連續(xù)變變量的大大小從小小到大進(jìn)進(jìn)行排序序,假設(shè)設(shè)該屬性性對應(yīng)的的不同的的屬性值值一共有有N個(gè),那那么總共共有N-1個(gè)可可能的候候選分割割閾值點(diǎn)點(diǎn),每個(gè)個(gè)候選的的分割閾閾值點(diǎn)的的值為上上述排序序后的屬屬性值鏈鏈表中兩兩兩前后后連續(xù)元元素的中中點(diǎn),那那么我們們的任務(wù)務(wù)就是從從這個(gè)NN-1個(gè)個(gè)候選分分割閾值值點(diǎn)中選選出一個(gè)個(gè),使得得前面提提到的信信息論標(biāo)標(biāo)準(zhǔn)最大大。在EEXCEEL中,對對室外溫溫度(第第二步)詳詳細(xì)介紹紹了如何何分割閾閾值點(diǎn)并并進(jìn)

12、行計(jì)計(jì)算。4、樹的終終止樹的建立實(shí)實(shí)際上是是一個(gè)遞遞歸過程程,那么這這個(gè)遞歸歸什么時(shí)時(shí)候到達(dá)達(dá)終止條條件退出出遞歸呢呢?有兩種種方式,第一種種方式是是如果某某一節(jié)點(diǎn)點(diǎn)的分支支所覆蓋蓋的樣本本都屬于于同一類類的時(shí)候候,那么遞遞歸就可可以終止止,該分支支就會產(chǎn)產(chǎn)生一個(gè)個(gè)葉子節(jié)節(jié)點(diǎn)。還有一一種方式式就是,如如果某一一分支覆覆蓋的樣樣本的個(gè)個(gè)數(shù)如果果小于一一個(gè)閾值值,那么么也可產(chǎn)產(chǎn)生葉子子節(jié)點(diǎn),從從而終止止建立樹樹。我們只只考慮二二叉分割割的情況況,因?yàn)闉檫@樣生生成的樹樹的準(zhǔn)確確度更高高。5、樹的修修剪樹一旦生成成后,便便進(jìn)入第第二階段段修剪剪階段。決策樹為什么要剪枝?原因就是避免決策樹“過擬合”樣本

13、。前面的算法生成的決策樹非常的詳細(xì)而龐大,每個(gè)屬性都被詳細(xì)地加以考慮,決策樹的樹葉節(jié)點(diǎn)所覆蓋的訓(xùn)練樣本都是“純”的。因此用這個(gè)決策樹來對訓(xùn)練樣本進(jìn)行分類的話,你會發(fā)現(xiàn)對于訓(xùn)練樣本而言,這個(gè)樹表現(xiàn)堪稱完美,它可以100%完美正確得對訓(xùn)練樣本集中的樣本進(jìn)行分類(因?yàn)闆Q策樹本身就是100%完美擬合訓(xùn)練樣本的產(chǎn)物)。但是,這會帶來一個(gè)問題,如果訓(xùn)練樣本中包含了一些錯(cuò)誤,按照前面的算法,這些錯(cuò)誤也會100%一點(diǎn)不留得被決策樹學(xué)習(xí)了,這就是“過擬合”。C4.5的締造者昆蘭教授很早就發(fā)現(xiàn)了這個(gè)問題,他做過一個(gè)試驗(yàn),在某一個(gè)數(shù)據(jù)集中,過擬合的決策樹的錯(cuò)誤率比一個(gè)經(jīng)過簡化了的決策樹的錯(cuò)誤率要高。目前決策樹樹的修剪剪的策略略有三種種:基于于代價(jià)復(fù)復(fù)雜度的的修剪(CCostt-Coompllexiity Pruuninng)、悲悲觀修剪剪(Peessiimissticc Prruniing)和和MDLL(Miinimmum Desscriiptiion Lenngthh)修剪剪。基于于代價(jià)復(fù)復(fù)雜度的的修剪使使用了獨(dú)獨(dú)立的樣樣本集用用于修剪剪,即與與用于樹樹的構(gòu)建建過程中中使用的的樣本集集不同,稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論