12決策樹學習和ASMS3000決策分析平臺_第1頁
12決策樹學習和ASMS3000決策分析平臺_第2頁
12決策樹學習和ASMS3000決策分析平臺_第3頁
12決策樹學習和ASMS3000決策分析平臺_第4頁
12決策樹學習和ASMS3000決策分析平臺_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1.2節決策樹學習(DecisionTree)內容決策樹方法的原理決策樹中的過擬合問題決策樹的其他問題屬性的其他度量決策樹學習——決定是否打網球看看天氣看看濕度陽光明媚下雨看看風速高正常不去打球去打球大小不去打球去打球節點:每一個節點測試一個屬性,分支:屬性的可選數值,葉子節點:最終預測去打球陰天決策樹學習原理簡介—(ID3,C4.5算法)node=root循環{ 1.為當下一個節點選擇一個最好的屬性x2.將屬性x分配給節點node

3.對于x的所有可能數值,創建一個降序排列的節點node

4.將所有訓練樣本在葉子節點排序分類

5.如果分類結果達到了錯誤率要求,跳出循環,否則,在葉子節點開始新循環-〉遞歸}決策樹表示法決策樹通過把實例從根節點排列到某個葉子節點來分類實例。葉子節點即為實例所屬的分類樹上每個節點說明了對實例的某個屬性的測試節點的每個后繼分支對應于該屬性的一個可能值決策樹代表實例屬性值約束的合取的析取式。從樹葉到樹根的每一條路徑對應一組屬性測試的合取,樹本身對應這些合取的析取。決策樹學習的適用問題適用問題的特征實例由“屬性-值”對表示目標函數具有離散的輸出值可能需要析取的描述訓練數據可以包含錯誤訓練數據可以包含缺少屬性值的實例問題舉例根據天氣好壞確定是否去打球根據疾病分類患者根據起因分類設備故障根據拖欠支付的可能性分類貸款申請分類問題核心任務是把樣例分類到各可能的離散值對應的類別基本的決策樹學習算法大多數決策樹學習算法是一種核心算法的變體采用自頂向下的貪婪搜索遍歷可能的決策樹空間ID3是這種算法的代表基本的決策樹學習算法ID3的思想自頂向下構造決策樹從“哪一個屬性將在樹的根節點被測試”開始使用統計測試來確定每一個實例屬性單獨分類訓練樣例的能力ID3的過程分類能力最好的屬性被選作樹的根節點根節點的每個可能值產生一個分支訓練樣例排列到適當的分支重復上面的過程決策樹學習原理簡介—(ID3,C4.5算法)編號天氣溫度濕度風是否去打球1晴天炎熱高弱不去2晴天炎熱高強不去3陰天炎熱高弱去4下雨適中高弱去5下雨寒冷正常弱去6下雨寒冷正常強不去7陰天寒冷正常強去8晴天適中高弱不去9晴天寒冷正常弱去10下雨適中正常弱去11晴天適中正常強去12陰天適中高強去13陰天炎熱正常弱去14下雨適中高強不去表-1:是否去打球的數據統計—訓練數據決策樹學習原理簡介—(ID3,C4.5算法)濕度高正常(3+,4-)(6+,1-)S:(9+,5-)風

弱強(6+,2-)(3+,3-)S:(9+,5-)問題:哪一個屬性(特征)更好?決策樹學習原理簡介—(ID3,C4.5算法)熵:物理學概念宏觀上:熱力學定律—體系的熵變等于可逆過程吸收或耗散的熱量除以它的絕對溫度(克勞修斯,1865)微觀上:熵是大量微觀粒子的位置和速度的分布概率的函數,是描述系統中大量微觀粒子的無序性的宏觀參數(波爾茲曼,1872)結論:熵是描述事物無序性的參數,熵越大則無序性越強,在信息領域定義為“熵越大,不確定性越大”(香濃,1948年)決策樹學習原理簡介—(ID3,C4.5算法)隨機變量的熵熵比較多的用于信源編碼,數據壓縮,假設是最有效的編碼方式是使用位編碼于是對于隨即變量的最有效編碼位之和:決策樹學習原理簡介—(ID3,C4.5算法)表示訓練集合中的樣本表示訓練集合中反例樣本的比例表示訓練集合中正例樣本的比例表示訓練集合的熵決策樹學習原理簡介—(ID3,C4.5算法)信息增益:informationgain信息的增加意味著不確定性的減少,也就是熵的減小,信息增益在諸多系統中定義為:在某一個操作之前的系統熵與操作之后的系統熵的差值,也即是不確定性的減小量信息增益(InformationGain)原來的不確定性知道x之后的不確定性信息增益:原來-知道x之后的原來不確定性-經過屬性x劃分以后的不確定性信息增益(InformationGain)選擇屬性的標準:選擇具有最高信息增益(InformationGain)的屬性假設有兩個類,+

-假設集合S中含有p個類別為+的樣本,n個類別為-的樣本將S中已知樣本進行分類所需要的期望信息定義為:信息增益在決策樹中的使用假設屬性x將把集合S劃分成K份{S1,S2,…,SK}如果Si

中包含pi

個類別為“+”的樣本,

ni

個類別為“-”,的樣本。那么熵就是(entropy),在x上進行決策分枝所獲得的信息增益為:決策樹學習原理簡介—(ID3,C4.5算法)*決策樹學習原理簡介—(ID3,C4.5算法)問題:哪一個屬性(特征)更好?分析極端的情況溫度高正常(4+,4-)(4+,4-)S:(8+,8-)心情

好壞(8+,0-)(0+,8-)S:(8+,8-)E=1.0E=0.0E=0.0Gain(S,溫度)=1.0-(8/16)*1.0-(8/16)*1.0=0.0Gain(S,心情)=1.0-(8/16)*0.0-(8/16)*0.0=1.0E=1.0E=1.0決策樹學習原理簡介—(ID3,C4.5算法)濕度高正常(3+,4-)(6+,1-)S:(9+,5-)風

弱強(6+,2-)(3+,3-)S:(9+,5-)問題:哪一個屬性(特征)更好?I=0.985I=0.592I=0.811I=1.00Gain(S,濕度)=0.940-(7/14).985-7/14*0.592=0.151Gain(S,風)=0.940-(8/14).811-(6/14)1.0=0.048E=0.940E=0.940決策樹學習原理簡介—(ID3,C4.5算法)決策樹的構造過程示意x1x3x8x3x7+-+-+-決策樹學習將樹轉化為規則將樹轉化為規則集合測試規則是否相互矛盾將規則排序存儲Tree:If(陰天)-〉去打球If(晴天)If(風速低)-〉去打球Else-〉不去打球決策樹學習的常見問題決策樹學習的實際問題確定決策樹增長的深度處理連續值的屬性選擇一個適當的屬性篩選度量標準處理屬性值不完整的訓練數據處理不同代價的屬性提高計算效率針對這些問題,ID3被擴展成C4.5決策樹學習及over-fitting看看天氣看看濕度陽光明媚下雨看看風速高正常不去打球去打球大小不去打球去打球去打球陰天1晴天炎熱高強去打球增加一個錯誤樣本決策樹學習及over-fitting過度擬合對于一個假設,當存在其他的假設對訓練樣例的擬合比它差,但事實上在實例的整個分布上表現得卻更好時,我們說這個假設過度擬合訓練樣例定義:給定一個假設空間H,一個假設hH,如果存在其他的假設h’H,使得在訓練樣例上h的錯誤率比h’小,但在整個實例分布上h’的錯誤率比h小,那么就說假設h過度擬合訓練數據。決策樹學習及over-fitting導致過度擬合的原因一種可能原因是訓練樣例含有隨機錯誤或噪聲當訓練數據沒有噪聲時,過度擬合也有可能發生,特別是當少量的樣例被關聯到葉子節點時,很可能出現巧合的規律性,使得一些屬性恰巧可以很好地分割樣例,但卻與實際的目標函數并無關系。決策樹學習及over-fitting假設在訓練樣本集合上的錯誤率為樣本集合上的真實錯誤率為訓練結果在如下情況下即會產生過擬合決策樹學習及over-fitting決策樹學習及over-fitting避免過擬合的方法如果對數據劃分沒有明顯好處的屬性不選擇,同時不再將決策數細分構建完成整個樹以后進行剪枝”Prune”在訓練數據上測量性能在交叉驗證數據上測量性能MDLMinmize(Size(tree)+Size(misclassifications(tree))

決策樹學習及over-fitting避免過擬合的方法評估所生成的新節點對于Validation數據集合的性能生成一些節點很少但是性能很好的“Sub-tree”決策樹學習及over-fitting避免過度擬合的方法及早停止樹增長后修剪法兩種方法的特點第一種方法更直觀第一種方法中,精確地估計何時停止樹增長很困難第二種方法被證明在實踐中更成功決策樹學習及over-fitting避免過度擬合的關鍵使用什么樣的準則來確定最終正確樹的規模解決方法使用與訓練樣例截然不同的一套分離的樣例,來評估通過后修剪方法從樹上修建節點的效用。使用所有可用數據進行訓練,但進行統計測試來估計擴展(或修剪)一個特定的節點是否有可能改善在訓練集合外的實例上的性能。使用一個明確的標準來衡量訓練樣例和決策樹的復雜度,當這個編碼的長度最小時停止樹增長。決策樹學習及over-fitting方法評述第一種方法是最普通的,常被稱為訓練和驗證集法。可用數據分成兩個樣例集合:訓練集合,形成學習到的假設驗證集合,評估這個假設在后續數據上的精度方法的動機:即使學習器可能會被訓練集合誤導,但驗證集合不大可能表現出同樣的隨機波動驗證集合應該足夠大,以便它本身可提供具有統計意義的實例樣本。常見的做法是,樣例的三分之二作訓練集合,三分之一作驗證集合。訓練誤差升高修剪將樹上的每一個節點作為修剪候選對象修剪步驟刪除以此節點為根的子樹,使它成為葉結點把和該節點關聯的訓練樣例的最常見分類賦給它反復修剪節點,每次總是選取那些刪除后可以最大提高決策樹在驗證集合上的精度的節點繼續修剪,直到進一步的修剪是有害的為止數據分成3個子集訓練樣例,形成決策樹驗證樣例,修剪決策樹測試樣例,精度的無偏估計如果有大量的數據可供使用,那么使用分離的數據集合來引導修剪規則后修剪從訓練集合推導出決策樹,增長決策樹直到盡可能好地擬合訓練數據,允許過度擬合發生將決策樹轉化為等價的規則集合,方法是為從根節點到葉節點的每一條路徑創建一條規則通過“任何能導致估計精度提高的前提”來修剪每一條規則按照修剪過的規則的估計精度對它們進行排序,并按這樣的順序應用這些規則來分類后來的實例規則后修剪規則精度估計方法使用與訓練集不相交的驗證集基于訓練集合本身被C4.5使用,使用一種保守估計來彌補訓練數據有利于當前規則的估計偏置過程先計算規則在它應用的訓練樣例上的精度然后假定此估計精度為二項式分布,并計算它的標準差對于一個給定的置信區間,采用下界估計作為規則性能的度量評論對于大的數據集,保守預測非常接近觀察精度,隨著數據集合的減小,離觀察精度越來越遠不是統計有效,但是實踐中發現有效規則后修剪把決策樹轉化成規則集的好處可以區分決策節點使用的不同上下文消除了根節點附近的屬性測試和葉節點附近的屬性測試的區別提高了可讀性合并連續值屬性ID3被限制為取離散值的屬性學習到的決策樹要預測的目標屬性必須是離散的樹的決策節點的屬性也必須是離散的簡單刪除上面第2個限制的方法通過動態地定義新的離散值屬性來實現,即先把連續值屬性的值域分割為離散的區間集合合并連續值屬性例,Temperature應該定義什么樣的基于閾值的布爾屬性選擇產生最大信息增益的閾值按照連續屬性排列樣例,確定目標分類不同的相鄰實例產生一組候選閾值,它們的值是相應的A值之間的中間值可以證明產生最大信息增益的c值位于這樣的邊界中(Fayyad1991)通過計算與每個候選閾值關聯的信息增益評估這些候選值方法的擴展連續的屬性分割成多個區間,而不是單一閾值的兩個空間屬性選擇的其他度量標準信息增益度量存在一個內在偏置,偏向具有較多值的屬性避免方法,其他度量,比如增益比率增益比率通過加入一個被稱作分裂信息的項來懲罰多值屬性,分裂信息用來衡量屬性分裂數據的廣度和均勻性

SplitInformation(S,A)= GainRatio(S,A)=分裂信息項阻礙選擇值為均勻分布的屬性問題,當某個SiS。解決方法:采用一些啟發式規則,比如僅對增益高過平均值的屬性應用增益比率測試決策樹學習中的假設空間搜索—屬性分段觀察ID3的搜索空間和搜索策略,認識到這個算法的優勢假設空間包含所有的決策樹,它是關于現有屬性的有限離散值函數的一個完整空間維護單一的當前假設,不進行回溯,能收斂到局部最優每一步使用所有的訓練樣例,不同于基于單獨的訓練樣例遞增作出決定,容錯性增強決策樹學習的歸納偏置ID3的搜索策略優先選擇較短的樹選擇那些信息增益高的屬性離根節點較近的樹很難準確刻畫ID3的歸納偏置近似的ID3的歸納偏置較短的樹比較長的樹優先近似在于ID3得到局部最優,而不一定是全局最優一個精確具有這個歸納偏置的算法,BFS-ID3更貼切近似的歸納偏置較短的樹比較長的樹優先,信息增益高的屬性更靠近根節點的樹優先為什么短的假設優先ID3的歸納偏置的直觀基礎奧坎姆剃刀優先選擇擬合數據的最簡單的假設科學上的例子物理學家優先選擇行星運動的簡單假設簡單假設的數量遠比復雜假設的數量少簡單假設對訓練樣例的針對性更小,更像是泛化的規律,而不是訓練樣例的另一種描述屬性選擇的其他度量標準基于距離的度量定義了數據劃分間的一種距離尺度計算每個屬性產生的劃分與理想劃分間的距離LopezdeMantaras定義了這個距離度量,證明了它不偏向有大量值的屬性Mingers實驗,不同的屬性選擇度量對最終精度的影響小于后修剪的程度和方法的影響缺少屬性值的訓練樣例例子,醫學領域,很多待測屬性無法觀測經常需要根據此屬性值已知實例來估計這個缺少的屬性值一種策略,給它節點n的訓練樣例中該屬性的最常見值另一種策略是賦給它節點n的被分類為c(x)的訓練樣例中該屬性的最常見值更復雜的策略,為x的每個可能值賦予一個概率,而不是簡單地將最常見的值賦給x,決策樹與概率結合處理不同代價的屬性實例的屬性可能與代價相關優先選擇盡可能使用低代價屬性的決策樹,僅當需要產生可靠的分類時才依賴高代價屬性通過引入一個代價項到屬性選擇度量中,可以使ID3算法考慮屬性代價加權的方法小結決策樹學習為離散值輸入提供了一個實用的方法ID3算法從根向下推斷決策樹搜索完整的假設空間較小的樹C4.5算法過度擬合問題決策樹的其他問題本章作業本章作業:寫出“利用決策樹建立轉基因植物生物安全評價的讀書報告”格式為PPT或者Word,素材見課程網站ASMS3000決策分析平臺

1、決策分析平臺的重要性2、訂票、出票、送票統計3、銷售數據分析、坐席工作效率分析與航線銷售對比分析的查看與統計4、盈利分析5、員工業績統計分析6、問題考核?1.1決策分析平臺的重要性全方位的統計公司銷售上的各類數據,有利于代理人的領導層掌握公司運轉狀態,針對現有的情況作出進一步的決策。

準確把握員工的工作效率利用決策分析平臺的各類員工工作效率的分析,制定有效地獎懲措施,解決工作效率存在的問題。盈利分析

管理層通過具體的盈利數據,查看公司的一段時間內各個階段的盈利數據,通過對比分析原因,制訂下階段的策略。?2.1訂票、出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論