




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
決策樹模型詳解演示文稿目前一頁\總數(shù)五十頁\編于十二點(diǎn)(優(yōu)選)決策樹模型目前二頁\總數(shù)五十頁\編于十二點(diǎn)分類的技術(shù)監(jiān)督式(supervisedlearning)的機(jī)器學(xué)習(xí)法------決策樹(DecisionTree)數(shù)據(jù)庫分類標(biāo)記性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚目前三頁\總數(shù)五十頁\編于十二點(diǎn)分類的過程1.模型建立(ModelBuilding)2.模型評估(ModelEvaluation)3.使用模型(UseModel)性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚分類規(guī)則IF性別=FemaleAND年齡<35THEN購買RV房車=否IF性別=FemaleAND年齡≧35THEN購買RV房車=是IF性別=MaleAND婚姻=未婚THEN購買RV房車=否IF性別=MaleAND婚姻=已婚THEN購買RV房車=是數(shù)據(jù)庫訓(xùn)練樣本(trainingsamples)建立模型測試樣本(testingsamples)評估模型目前四頁\總數(shù)五十頁\編于十二點(diǎn)資料Example訓(xùn)練樣本婚姻年齡家庭
所得否是否是未婚已婚<35≧35低高否小康1.建立模型測試樣本2.模型評估X錯誤率為66.67%修改模型3.使用模型目前五頁\總數(shù)五十頁\編于十二點(diǎn)
決策樹(DecisionTree)介紹根部節(jié)點(diǎn)(rootnode)中間節(jié)點(diǎn)(non-leafnode)(代表測試的條件)分支(branches)(代表測試的結(jié)果)葉節(jié)點(diǎn)(leafnode)(代表分類后所獲得的分類標(biāo)記)目前六頁\總數(shù)五十頁\編于十二點(diǎn)決策樹的形成根部節(jié)點(diǎn)中間節(jié)點(diǎn)停止分支?目前七頁\總數(shù)五十頁\編于十二點(diǎn)7.1信息論原理7.2決策樹方法目前八頁\總數(shù)五十頁\編于十二點(diǎn)7.1信息論原理信息論是為解決信息傳遞(通信)過程問題而建立的理論,也稱為統(tǒng)計(jì)通信理論。1.信道模型一個傳遞信息的系統(tǒng)是由發(fā)送端(信源)和接收端(信宿)以及連接兩者的通道(信道)三者組成。信道u1,u2….ur信源Uv1,v2….vrP(V|U)信宿V目前九頁\總數(shù)五十頁\編于十二點(diǎn)在進(jìn)行實(shí)際的通信之前,收信者(信宿)不可能確切了解信源究竟會發(fā)出什么樣的具體信息,不可能判斷信源會處于什么樣的狀態(tài)。這種情形就稱為信宿對于信源狀態(tài)具有不確定性。而且這種不確定性是存在于通信之前的。因而又叫做先驗(yàn)不確定性,表示成信息熵H(U)目前十頁\總數(shù)五十頁\編于十二點(diǎn)在進(jìn)行了通信之后,信宿收到了信源發(fā)來的信息,這種先驗(yàn)不確定性才會被消除或者被減少。如果干擾很小,不會對傳遞的信息產(chǎn)生任何可察覺的影響,信源發(fā)出的信息能夠被信宿全部收到,在這種情況下,信宿的先驗(yàn)不確定性就會被完全消除。目前十一頁\總數(shù)五十頁\編于十二點(diǎn)在一般情況下,干擾總會對信源發(fā)出的信息造成某種破壞,使信宿收到的信息不完全。先驗(yàn)不確定性不能全部被消除,只能部分地消除。通信結(jié)束之后,信宿仍然具有一定程度的不確定性。這就是后驗(yàn)不確定性,用條件熵表示H(U/V)。后驗(yàn)不確定性總要小于先驗(yàn)不確定性:H(U/V)<H(U)目前十二頁\總數(shù)五十頁\編于十二點(diǎn)如果后驗(yàn)不確定性的大小正好等于先驗(yàn)不確定性的大小,這就表示信宿根本沒有收到信息。如果后驗(yàn)不確定性的大小等于零,這就表示信宿收到了全部信息。可見,信息是用來消除(隨機(jī))不確定性的度量。信息量用互信息來表示,即:I(U,V)=H(U)-H(U/V)目前十三頁\總數(shù)五十頁\編于十二點(diǎn)互信息的計(jì)算1.定義(1)設(shè)S為訓(xùn)練集,有n個特征(屬性),表示為(A1,A2,...,,An)。|S|表示例子總數(shù)。(2)S中有U1,U2兩類。|Ui|表示Ui類例子數(shù)。(3)特征Ak處有m個取值,分別為(V1,V2,...,,Vm)。2.Ui類出現(xiàn)概率為:
P(Ui)=|Ui|/|S| (3.1)自然有
目前十四頁\總數(shù)五十頁\編于十二點(diǎn)3.Ui類中在特征Ak處取值Vj的例子集合Vij的條件概率為:
P(Vj|Ui)=|Vij|/|Ui| (3.2)自然有 4.在特征Ak處,取Vj值的例子集合的概率為:
P(Vj)=|Vj|/|S| (3.3)自然有 目前十五頁\總數(shù)五十頁\編于十二點(diǎn)5.在特征Ak處取Vj值的例子,屬于Ui類的例子集合Uij的條件概率為:
P(Ui|Vj)=|Uij|/|Vj| (3.4)
自然有
目前十六頁\總數(shù)五十頁\編于十二點(diǎn)6.信息熵(1)消息傳遞系統(tǒng)由消息的發(fā)送端(信源)和接收端(信宿)以及連接兩者的通道(信道)三者組成。(2)消息(符號)Ui(i=1,2,...,q)的發(fā)生概率P(Ui)組成信源數(shù)學(xué)模型(樣本空間或概率空間)
(3.5)目前十七頁\總數(shù)五十頁\編于十二點(diǎn)(3)自信息:消息Ui發(fā)生后所含有的信息量。它反映了消息Ui發(fā)生前的不確定性(隨機(jī)性)。定義為:以2為底,所得的信息量單位為bit。以e為底,所得的信息量單位為nat.(4)信息熵:自信息的數(shù)學(xué)期望。即信源輸出后,每個消息所提供的信息量,也反映了信源輸出前的平均確定性。定義為:(3.6)(3.7)目前十八頁\總數(shù)五十頁\編于十二點(diǎn)例如:兩個信源,其概率空間分別為:
則信息熵分別為:H(X)=-0.99log0.99-0.01log0.01=0.08bitH(Y)=-0.5log0.5-0.5log0.5=1bit
可見 H(Y)>H(X)故信源Y比信源X的平均不確定性要大。目前十九頁\總數(shù)五十頁\編于十二點(diǎn)
信息熵H(U)是信源輸出前的平均不確定性,也稱先驗(yàn)熵。
H(U)的性質(zhì):
(1)H(U)=0時,說明只存在著唯一的可能性,不存在不確定性。
(2)如果n種可能的發(fā)生都有相同的概率,即所有的Ui有P(Ui)=1/n,H(U)達(dá)到最大值logn,系統(tǒng)的不確定性最大。
P(Ui)互相接近,H(U)就大。P(Ui)相差大,則H(U)就小。
目前二十頁\總數(shù)五十頁\編于十二點(diǎn)7.互信息(1)后驗(yàn)熵和條件熵當(dāng)沒有接收到輸出符號V時,已知輸入符號U的概率分布為P(U),而當(dāng)接收到輸出符號V=Vj
后,輸入符號的概率分布發(fā)生了變化,變成后驗(yàn)概率分布P(U|Vj)。其后驗(yàn)熵為:那么接收到輸出符號V=Vj后,關(guān)于U的平均不確定性為:這是接收到輸出符號Vj后關(guān)于U的條件熵目前二十一頁\總數(shù)五十頁\編于十二點(diǎn)這個條件熵稱為信道疑義度。它表示在輸出端收到全部輸出符號V后,對于輸入端的符號集U尚存在的不確定性(存在疑義)。從上面分析可知:條件熵小于無條件熵,即H(U|V)<H(U)。說明接收到符號集V的所有符號后,關(guān)于輸入符號U的平均不確定性減少了。即總能消除一些關(guān)于輸入端X的不確定性,從而獲得了一些信息。目前二十二頁\總數(shù)五十頁\編于十二點(diǎn)(2)平均互信息定義:
I(U,V)=H(U)
H(U|V)(3.10)
I(U,V)稱為U和V之間的平均互信息.它代表接收到符號集V后獲得的關(guān)于U的信息量。可見,熵(H(U)、H(U|V))只是平均不確定性的描述。熵差(H(U)
H(U|V))是不確定性的消除,即互信息才是接收端所獲得的信息量。對輸入端U只有U1,U2兩類,互信息的計(jì)算公式為: 目前二十三頁\總數(shù)五十頁\編于十二點(diǎn)7.2決策樹方法決策樹概念決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。目前二十四頁\總數(shù)五十頁\編于十二點(diǎn)決策樹是一種知識表示形式,它是對所有樣本數(shù)據(jù)的高度概括。決策樹能準(zhǔn)確地識別所有樣本的類別,也能有效地識別新樣本的類別。目前二十五頁\總數(shù)五十頁\編于十二點(diǎn)7.2.2ID3方法基本思想當(dāng)前國際上最有影響的示例學(xué)習(xí)方法首推的ID3(InterativeDicmiserversions3).
原理:首先找出最有判別力的特征,把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的特征進(jìn)行劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹。的工作主要是引進(jìn)了信息論中的互信息,他將其稱為信息增益(informationgain),作為特征判別能力的度量,并且將建樹的方法嵌在一個迭代的外殼之中。目前二十六頁\總數(shù)五十頁\編于十二點(diǎn)一、ID3基本思想例如:關(guān)于氣候的類型,特征為:
天氣取值為:晴,多云,雨
氣溫取值為:冷,適中,熱
濕度取值為:高,正常
風(fēng)取值為:有風(fēng),無風(fēng)
目前二十七頁\總數(shù)五十頁\編于十二點(diǎn)每個實(shí)體在世界中屬于不同的類別,為簡單起見,假定僅有兩個類別,分別為P,N。在這種兩個類別的歸納任務(wù)中,P類和N類的實(shí)體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練集。表3.1給出一個訓(xùn)練集。由ID3算法得出一棵正確分類訓(xùn)練集中每個實(shí)體的決策樹,見下圖。目前二十八頁\總數(shù)五十頁\編于十二點(diǎn)NO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多云熱高無風(fēng)P4雨適中高無風(fēng)P5雨冷正常無風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無風(fēng)N9晴冷正常無風(fēng)P10雨適中正常無風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無風(fēng)P14雨適中高有風(fēng)N目前二十九頁\總數(shù)五十頁\編于十二點(diǎn)天
氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策樹目前三十頁\總數(shù)五十頁\編于十二點(diǎn)決策樹葉子為類別名,即P或者N。其它結(jié)點(diǎn)由實(shí)體的特征組成,每個特征的不同取值對應(yīng)一分枝。若要對一實(shí)體分類,從樹根開始進(jìn)行測試,按特征的取值分枝向下進(jìn)入下層結(jié)點(diǎn),對該結(jié)點(diǎn)進(jìn)行測試,過程一直進(jìn)行到葉結(jié)點(diǎn),實(shí)體被判為屬于該葉結(jié)點(diǎn)所標(biāo)記的類別。目前三十一頁\總數(shù)五十頁\編于十二點(diǎn)現(xiàn)用圖來判一個具體例子,某天早晨氣候描述為:
天氣:多云
氣溫:冷
濕度:正常
風(fēng):無風(fēng)它屬于哪類氣候呢?從圖中可判別該實(shí)體的類別為P類。目前三十二頁\總數(shù)五十頁\編于十二點(diǎn)ID3就是要從表的訓(xùn)練集構(gòu)造圖這樣的決策樹。實(shí)際上,能正確分類訓(xùn)練集的決策樹不止一棵。Quinlan的ID3算法能得出結(jié)點(diǎn)最少的決策樹。目前三十三頁\總數(shù)五十頁\編于十二點(diǎn)二、ID3算法(一)主算法⒈從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集(稱為"窗口");⒉用“建樹算法”對當(dāng)前窗口形成一棵決策樹;⒊對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯判的例子;⒋若存在錯判的例子,把它們插入窗口,轉(zhuǎn)2,否則結(jié)束。目前三十四頁\總數(shù)五十頁\編于十二點(diǎn)主算法流程用下圖表示。其中PE、NE分別表示正例集和反例集,它們共同組成訓(xùn)練集。PE‘,PE’‘和NE’,NE‘’分別表示正例集和反例集的子集。主算法中每迭代循環(huán)一次,生成的決策樹將會不相同。目前三十五頁\總數(shù)五十頁\編于十二點(diǎn)訓(xùn)練集PE、NE取子集建窗口窗口PE`、NE`生成決策樹測試PE、NE擴(kuò)展窗口PE`=PE`+PE``NE`=NE`+NE``此決策樹為最后結(jié)果存在錯判的PE``,NE``嗎是否ID3主算法流程目前三十六頁\總數(shù)五十頁\編于十二點(diǎn)(二)建樹算法⒈對當(dāng)前例子集合,計(jì)算各特征的互信息;⒉
選擇互信息最大的特征Ak;⒊把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;⒋對既含正例又含反例的子集,遞歸調(diào)用建樹算法;⒌若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。目前三十七頁\總數(shù)五十頁\編于十二點(diǎn)實(shí)例計(jì)算對于氣候分類問題進(jìn)行具體計(jì)算有:⒈信息熵的計(jì)算信息熵:類別出現(xiàn)概率:|S|表示例子集S的總數(shù),|ui|表示類別ui的例子數(shù)。對9個正例和5個反例有:P(u1)=9/14 P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit目前三十八頁\總數(shù)五十頁\編于十二點(diǎn)⒉條件熵計(jì)算條件熵:屬性A1取值vj時,類別ui的條件概率:A1=天氣取值v1=晴,v2=多云,v3=雨在A1處取值晴的例子5個,取值多云的例子4個,取值雨的例子5個,故:
P(v1)=5/14P(v2)=4/14P(v3)=5/14取值為晴的5個例子中有2個正例、3個反例,故:
P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0
P(u1/v3)=2/5,P(u2/v3)=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3))=0.694bit目前三十九頁\總數(shù)五十頁\編于十二點(diǎn)⒊互信息計(jì)算對A1=天氣處有:
I(天氣)=H(U)-H(U|V)=0.94-0.694=0.246bit
類似可得:
I(氣溫)=0.029bitI(濕度)=0.151bitI(風(fēng))=0.048bit⒋建決策樹的樹根和分枝
ID3算法將選擇互信息最大的特征天氣作為樹根,在14個例子中對天氣的3個取值進(jìn)行分枝,3個分枝對應(yīng)3個子集,分別是:
F1={1,2,8,9,11},F(xiàn)2={3,7,12,13},F(xiàn)3={4,5,6,10,14}
其中F2中的例子全屬于P類,因此對應(yīng)分枝標(biāo)記為P,其余兩個子集既含有正例又含有反例,將遞歸調(diào)用建樹算法。目前四十頁\總數(shù)五十頁\編于十二點(diǎn)⒌遞歸建樹分別對F1和F3子集利用ID3算法,在每個子集中對各特征(仍為四個特征)求互信息.
(1)F1中的天氣全取晴值,則H(U)=H(U|V),有I(U|V)=0,在余下三個特征中求出濕度互信息最大,以它為該分枝的根結(jié)點(diǎn),再向下分枝。濕度取高的例子全為N類,該分枝標(biāo)記N。取值正常的例子全為P類,該分枝標(biāo)記P。
(2)在F3中,對四個特征求互信息,得到風(fēng)特征互信息最大,則以它為該分枝根結(jié)點(diǎn)。再向下分枝,風(fēng)取有風(fēng)時全為N類,該分枝標(biāo)記N。取無風(fēng)時全為P類,該分枝標(biāo)記P。這樣就得到下圖的決策樹。目前四十一頁\總數(shù)五十頁\編于十二點(diǎn)天
氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策樹目前四十二頁\總數(shù)五十頁\編于十二點(diǎn)對ID3的討論⒈優(yōu)點(diǎn)
ID3在選擇重要特征時利用了互信息的概念,算法的基礎(chǔ)理論清晰,使得算法較簡單,是一個很有實(shí)用價值的示例學(xué)習(xí)算法。該算法的計(jì)算時間是例子個數(shù)、特征個數(shù)、結(jié)點(diǎn)個數(shù)之積的線性函數(shù)。用4761個關(guān)于苯的質(zhì)譜例子作了試驗(yàn)。其中正例2361個,反例2400個,每個例子由500個特征描述,每個特征取值數(shù)目為6,得到一棵1514個結(jié)點(diǎn)的決策樹。對正、反例各100個測試?yán)髁藴y試,正例判對82個,反例判對80個,總預(yù)測正確率81%,效果是令人滿意的。目前四十三頁\總數(shù)五十頁\編于十二點(diǎn)⒉缺點(diǎn)
(1)互信息的計(jì)算依賴于特征取值的數(shù)目較多的特征,這樣不太合理。一種簡單的辦法是對特征進(jìn)行分解,如上節(jié)例中,特征取值數(shù)目不一樣,可以把它們統(tǒng)統(tǒng)化為二值特征,如天氣取值晴,多云,雨,可以分解為三個特征;天氣—晴,天氣—多云,天氣—雨。取值都為“是”或“否”,對氣溫也可做類似的工作。這樣就不存在偏向問題了。目前四十四頁\總數(shù)五十頁\編于十二點(diǎn)
(2)用互信息作為特征選擇量存在一個假設(shè),即訓(xùn)練例子集中的正,反例的比例應(yīng)與實(shí)際問題領(lǐng)域里正、反例比例相同。一般情況不能保證相同,這樣計(jì)算訓(xùn)練集的互信息就有偏差。
(3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)庫的安全性與管理策略試題及答案
- 托兒所火災(zāi)應(yīng)急預(yù)案范文(3篇)
- 軟件設(shè)計(jì)師考試核心試題及答案解析
- 計(jì)算機(jī)軟件考試常見錯誤分析
- 行政管理社會服務(wù)試題及答案總結(jié)
- 便捷復(fù)習(xí)的試題及答案高效利用
- 企業(yè)財務(wù)健康狀況與戰(zhàn)略制定的關(guān)系試題及答案
- 高考數(shù)學(xué)難題攻略與答案
- 法學(xué)概論的重要概念歸納與試題及答案
- 2025年網(wǎng)絡(luò)安全架構(gòu)與運(yùn)營考察試題及答案
- 2025年能源行業(yè)能源需求預(yù)測與市場發(fā)展趨勢2025
- 2024年“藍(lán)橋杯”科學(xué)素養(yǎng)競賽考試題庫(含答案)
- 康復(fù)醫(yī)療復(fù)習(xí)題及參考答案
- 高血壓科普基礎(chǔ)知識培訓(xùn)-2025世界高血壓日
- 2025春季學(xué)期國開電大專科《理工英語1》一平臺在線形考(綜合測試)試題及答案
- 混凝土預(yù)制構(gòu)件項(xiàng)目可行性研究報告
- 無人機(jī)拍攝培訓(xùn)課件
- 電力調(diào)度自動化系統(tǒng)預(yù)案
- 透析患者高鉀血癥飲食護(hù)理
- 搜索三力測試題及答案
- 高分子化學(xué)材料結(jié)構(gòu)與性能試題及答案
評論
0/150
提交評論