




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
決策支持系統的核心數據挖第一頁,共七十九頁,編輯于2023年,星期日0決策支持系統(DSS)數據模型推理知識決策人機交互第二頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘(DM)的產生背景隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,企業和組織積累的數據越來越多第三頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘(DM)的產生背景數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢,從而出現“數據爆炸但知識貧乏”的現象第四頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘(DM)的產生背景大量數據背后隱藏著許多重要的信息,企業和組織的管理決策者希望能夠對其進行更高層次的分析。第五頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘(DM)的產生背景GartnerGroup的一次高級技術調查結果將數據挖掘和人工智能列為“將對未來三到五年內工業產生深遠影響的五大關鍵技術”之首;世界500強企業中80%都涉足數據挖掘的前瞻性研究。第六頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的概念數據挖掘又稱為數據庫中的知識發現(KnowledgeDiscoveryfromDatabase,KDD),它是一個從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中抽取挖掘出隱含其中的、事先未知的、有價值的模式或規律等知識的復雜過程,該過程如下圖所示。第七頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據清洗與集成任務相關數據集選擇與轉換數據挖掘評估與表示數據倉庫數據庫知識第八頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的概念數據挖掘涉及多學科技術的集成:數據庫技術,統計學,機器學習,高性能計算,模式識別,神經網絡,數據可視化,信息檢索,圖象與信號處理和空間數據分析。第九頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的概念數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘任務一般分兩類:描述式數據挖掘:刻畫數據庫或數據倉庫中數據的一般特性。預測式數據挖掘:在當前數據上進行推斷,以進行預測。第十頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能概念描述(Conceptdescription):利用數據屬性中更廣義的(屬性)內容對其進行歸納和總結第十一頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能關聯分析(AssociationAnalysis):從給定的數據集中發現頻繁出現的項集模式知識第十二頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能分類(Classification):找出一組能夠描述數據集合典型特征的函數,以便能夠識別未知數據的歸屬或類別,即將未知事例映射到某個離散類別第十三頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能聚類分析(ClusteringAnalysis):根據“各聚集(cluster)之內數據對象的相似度最大化和各聚集之間數據對象相似度最小化”這一原則將數據對象劃分為若干組第十四頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能孤立點分析(OutlierAnalysis):尋找不符合大多數數據對象所構成的規律(模型)的數據對象第十五頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念數據挖掘的功能演化分析(EvolutionAnalysis):對隨時間變化的數據對象的變化規律和趨勢進行建模描述第十六頁,共七十九頁,編輯于2023年,星期日1數據挖掘的基本概念工具特點分析重點分析目的數據大小控制方式發展狀況傳統數據分析工具回顧型、驗證型已經發生了什么從最近的銷售文件中列出最大客戶數據量和數據維度均是少量的企業管理人員、系統分析員、管理顧問啟動與控制成熟數據挖掘工具發現型、預測型解釋發生的原因、預測未來的情況鎖定未來的可能客戶,以減少未來的銷售成本數據量和數據維度均是龐大的數據與系統啟動,少量的控制人員發展中數據挖掘工具與傳統數據分析工具的比較第十七頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則關聯規則的基本概念關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。從大量商業事務記錄中發現有趣的關聯關系,可以幫助許多商務決策的制定,如分類設計、交叉購物和促銷分析等。第十八頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則購物籃分析購物籃分析是關聯規則挖掘的最初形式假定作為某商店經理,你想更加了解你的顧客的購物習慣。例如:“什么商品組或集合顧客多半會在一次購物時同時購買?”。為解答這個問題,可以在商店顧客事務零售數據上運行購物籃分析。分析的結果可用于市場規劃、廣告策劃和分類設計。第十九頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則購物籃分析若設商店中所有銷售商品為一個集合,則每個商品均為一個布爾變量,表示該商品是否被(一個)顧客購買。因此每個購物籃就可以用一個布爾向量表示。第二十頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則購物籃分析分析相應布爾向量,得到反映商品頻繁關聯或同時購買的購買模式,并可用關聯規則的形式表示模式。例如,購買計算機也趨向于同時購買財務管理軟件可用以下關聯規則表示:第二十一頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則購物籃分析關聯規則的支持度(support)2%表示分析中的全部事務的2%同時購買計算機和財務管理軟件。關聯規則的置信度(confidence)60%表示:購買計算機的顧客60%也購買財務管理軟件。第二十二頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法Apriori算法是根據有關頻繁項集性質的先驗知識而命名。該算法使用一種逐層搜索的迭代方法,利用k-項集探索(k+1)-項集。具體做法:首先找出頻繁1-項集的集合,記為L1;再用L1找頻繁2-項集的集合L2;再用L2找L3…如此下去,直到不能找到頻繁k-項集為止。找每個Lk需要一次數據庫掃描。第二十三頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法Apriori算法的有效性,在于它利用了一個非常重要的原理,即Apriori性質:如果一個項集是頻繁的,則這個項集的任意一個非空子集都是頻繁的。Apriori性質基于如下觀察:如果項集I不滿足最小支持度閾值min_sup,則I不是頻繁的。如果增加項A到I,則結果項集不可能比I更頻繁出現。因此,也不是頻繁的。第二十四頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法該性質屬于一種特殊的分類,也稱作反單調性。意指如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。反單調性能迅速減值,提高搜索頻繁項集的處理效率。第二十五頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法整個過程由連接和剪枝兩步組成,即連接步:為找Lk,可通過Lk-1與自己連接,產生一個候選k-項集的集合,該候選項集的集合記作Ck
。剪枝步確定頻繁項集連接步產生候選項集第二十六頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法設l1和l2是Lk-1中的項集,記號li[j]表示li的第j項。為方便計,假定事務或項集中的項按字典次序排序。執行連接,其中Lk-1的元素是可連接的,如果它們前(k-2)個項相同。Lk-1Lk-1第二十七頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法即Lk-1的元素l1和l2是可連接的,如果(l1[1]=l2[1]∧l1[2]=l2[2]∧…∧l1[k-2]=l2[k-2]∧l1[k-1]<l2[k-1])。條件(l1[k-1]<l2[k-1])可確保不產生重復的項集。第二十八頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法剪枝步Ck是Lk的超集,即它的成員不一定都是頻繁項集,但所有的頻繁k-項集都包含在Ck中掃描數據庫,確定Ck中每個候選項集的計數,從而確定Lk。然而,Ck可能很大,這樣所涉及的計算量就很大。第二十九頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法剪枝步為了壓縮Ck
,可利用Apriori性質:任何非頻繁的(k-1)-項集都不可能是頻繁k-項集的子集。因此,若一個候選k-項集的(k-1)-項子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以從Ck
中刪除。第三十頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則【例】一個Apriori的具體例子,該例基于右圖某商店的事務DB。DB中有9個事務,Apriori假定事務中的項按字典次序存放。TID項ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3第三十一頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(1)在算法的第一次迭代,每個項都是候選1-項集的集合C1的成員。算法簡單地掃描所有的事務,對每個項的出現次數計數。掃描D,對每個候選計數項集支持度計數{I1}6{I2}7{I3}6{I4}2{I5}2C1第三十二頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(2)設最小支持計數為2,可以確定頻繁1-項集的集合Lk-1。它由具有最小支持度的候選1-項集組成。項集支持度計數{I1}6{I2}7{I3}6{I4}2{I5}2比較候選支持度計數與最小支持度計數L1第三十三頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(3)為發現頻繁2-項集的集合L2,算法使用產生候選2-項集集合C2。L1L1項集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}C2由L1產生候選C2第三十四頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(4)掃描D中事務,計算C2中每個候選項集的支持計數。項集支持度計數{I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0掃描D,對每個候選計數C2第三十五頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(5)確定頻繁2-項集的集合L2,它由具有最小支持度的C2中的候選2-項集組成。項集支持度計數{I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2比較候選支持度計數與最小支持度計數L2第三十六頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(6)候選3-項集的集合C3的產生如下:
①連接:
C3=
=
{{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}{{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},I2,I5}}=
{{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}L2L2第三十七頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(6)候選3-項集的集合C3的產生如下:
②利用Apriori性質剪枝:頻繁項集的所有子集必須是頻繁的。存在候選項集,判斷其子集是否頻繁。
{I1,I2,I3}的2-項子集是{I1,I2},{I1,I3}和{I2,I3},它們都是L2的元素。因此保留{I1,I2,I3}在C3中。{I1,I2,I5}的2-項子集是{I1,I2},{I1,I5}和{I2,I5},它們都是L2的元素。因此保留{I1,I2,I5}在C3中。第三十八頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(6)候選3-項集的集合C3的產生如下:
{I1,I3,I5}的2-項子集是{I1,I3},{I1,I5}和{I3,I5},{I3,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I1,I3,I5}。
{I2,I3,I4}的2-項子集是{I2,I3},{I2,I4}和{I3,I4},其中{I3,I4}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I3,I4}。第三十九頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(6)候選3-項集的集合C3的產生如下:
{I2,I3,I5}的2-項子集是{I2,I3},{I2,I5}和{I3,I5},其中{I3,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I3,I5}。{I2,I4,I5}的2-項子集是{I2,I4},{I2,I5}和{I4,I5},其中{I4,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I4,I5}。③這樣,剪枝后C3
=
{{I1,I2,I3},{I1,I2,I5}}。第四十頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(7)掃描D中事務,以確定L3,它由具有最小支持度的C3中的候選3-項集組成。項集{I1,I2,I3}{I1,I2,I5}由L2產生候選C3C3掃描D,對每個候選計數項集支持度計數{I1,I2,I3}2{I1,I2,I5}2C3第四十一頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則(8)算法使用產生候選4-項集的集合C4。盡管連接產生結果{{I1,I2,I3,I5}},這個項集將被剪去,因為它的子集{I2,I3,I5}不是頻繁的。則C4
=,因此算法終止,找出了所有的頻繁項集。項集支持度計數{I1,I2,I3}2{I1,I2,I5}2比較候選支持度計數與最小支持度計數L3L3L3ψ第四十二頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法基于上例結果,假定數據包含頻繁項集l={I1,I2,I5}。可以由l產生哪些關聯規則?l的非空子集有{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5},則結果關聯規則如下(每個都列出置信度)。第四十三頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法%%%%%第四十四頁,共七十九頁,編輯于2023年,星期日2數據挖掘功能——關聯規則Apriori算法如果最小置信度閾值為70%,那么只有第2、3、6個規則可以作為最終的輸出,因為只有這些是產生的強規則。第四十五頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識基于判定樹的分類簡單貝葉斯分類第四十六頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識分類和預測是數據分析的兩種形式,可以用來提取描述重要數據類的模型或預測未來的數據趨勢分類:預測離散或分類屬性預測:預測連續或有序值第四十七頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識數據分類(1)學習:建立一個描述已知數據集類別或概念的模型。該模型是通過對DB中元組屬性的分析而構造的。假定每個元組屬于一個預定義的類,由類標號屬性確定。為建立模型所使用的元組形成訓練數據集。其中的單個元組稱作訓練樣本,并隨機地從樣本群體中選取。由于提供了每個訓練樣本的類標號,該步也稱作有指導的學習第四十八頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識數據分類通常學習模型用分類規則、判定樹或數學公式的形式提供例如:給定一個顧客信用信息DB,通過學習獲得的分類規則,可用于識別顧客是否具有良好的信用等級或一般的信用等級第四十九頁,共七十九頁,編輯于2023年,星期日姓名年齡收入信用等級王明<=30低良張小麗<=30低優許永新31-40高優陳進>40中良方菲>40中良劉力音31-40高優…………訓練數據分類算法分類規則if年齡=“31-40”
and
收入=“高”
then信用等級=“優”(1)學習:用分類算法分析訓練數據類標號屬性是信用等級,學習模型以分類規則形式提供第五十頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識數據分類(2)分類:使用學習得到的模型進行分類。首先評估模型的預測準確率。有多種方法可以用來評估分類的準確率,保持(holdout)方法是一種利用類標號樣本測試集的簡單方法。這些樣本隨機選取,并獨立于訓練樣本。對于每個測試樣本,將已知的類標號與學習所獲模型的預測類別進行比較。模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比第五十一頁,共七十九頁,編輯于2023年,星期日姓名年齡收入信用等級蘇寺華>40高良汪洋<=30低良劉賓31-40高優…………(2)分類:測試數據用于評估分類規則的準確率(若準確率可以接受,則規則可用于新的數據元組分類)測試數據分類規則新數據(劉賓,31-40,高)信用等級?優第五十二頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測分類與預測的基本知識數據預測預測是構造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區間為了提高分類與預測過程的準確性、有效性和可伸縮性,可對數據進行預處理。一般使用:數據清理,相關性分析,數據變換(概念分層或規范化)第五十三頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類判定樹判定樹是一個類似流程圖的樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點代表類或類分布判定樹歸納是構造判定樹的基本算法。在判定樹構造時,許多分枝可能反映的是訓練數據中的噪聲或孤立點。可用樹剪枝方法檢測和剪去這類分枝,以提高在未知數據上分類的準確性第五十四頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(1)判定樹歸納:以自頂向下遞歸的分而治之方式構造判定樹。算法的基本策略如下:判定樹以代表訓練樣本的單個節點開始若一個節點的樣本均為同一類別,則該節點成為樹葉,并用該類進行標記第五十五頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(1)判定樹歸納:否則,算法使用信息增益度量作為啟發信息,選擇能夠最好地將樣本分類的屬性,作為該節點的“測試”屬性。在此算法中,所有的屬性都是分類的,即取離散值。對連續值的屬性必須離散化對測試屬性的每個已知的值,創建一個分枝,并具此劃分樣本第五十六頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(1)判定樹歸納:算法使用同樣的過程,遞歸地形成每個劃分上的樣本判定樹。一個屬性一旦出現在某個節點上,就不再考慮該節點的任何后代遞歸劃分操作僅當下列條件之一成立時停止:a)給定節點的所有樣本屬于同一類b)沒有剩余屬性可用來進一步劃分樣本c)測試屬性的一個分枝沒有樣本第五十七頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(2)屬性選擇方法:在判定樹的每個節點上使用信息增益度量選擇測試屬性。選擇具有最高信息增益的屬性作為當前節點的測試屬性,可以使結果劃分中的樣本分類需要的信息量最小,并反映劃分的最小隨機性。這種信息論方法使得對一個對象分類所需的期望測試數目達到最小,并確保找到一棵簡單的樹。第五十八頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類信息增益度量設S是訓練樣本的集合,其中每個樣本的類標號已知假定有m個類,設S包含si個Ci類樣本,i=1,2,…,m任意一個樣本屬于類Ci的可能性為si/s,其中s是集合S中樣本的總數。第五十九頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類信息增益度量一個決策樹可用于對數據對象進行分類,因此決策樹可以看成是Ci的一個信息源,為產生相應信息需要的信息熵(entropy)為:第六十頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類信息增益度量若屬性A的取值為{a1,a2,…,an},且該屬性用作決策樹的一個結點時,則可將S劃分為子集{S1,S2,…,Sn}。其中Sj包含屬性A取同一值aj的數據行。記sij為Sj包含類Ci的樣本個數。第六十一頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類信息增益度量根據屬性A的取值對當前數據集劃分所獲得的信息就稱為屬性A的熵。它的計算公式如下:第六十二頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類信息增益度量A上該劃分得到的信息增益定義為::第六十三頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(2)屬性選擇方法:判定樹歸納算法計算每個屬性的信息增益,并挑選具有最高信息增益的屬性作為給定集合的測試屬性。創建一個節點,并以該屬性標記。對屬性的每個值創建分枝,并據此劃分樣本。第六十四頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類【例】下表給出一個商場顧客DB數據元組訓練集,類標號屬性buys_compute有兩個不同值,即{yes,no},因此訓練集中有兩個不同的類(m=2)。設類C1對應于yes,而類C2對應no。類C1有9個樣本,類C2有5個樣本。我們用前面的一組公式計算每個屬性的信息增益。第六十五頁,共七十九頁,編輯于2023年,星期日RID年齡收入學生信用級購買電腦1<=30高No良No2<=30高No優No331–40高No良Yes4>40中No良Yes5>40低Yes良Yes6>40低Yes優No731–40低Yes優Yes8<=30中No良No9<=30低Yes良Yes10>40中Yes良Yes11<=30中Yes優Yes1231–40中No優Yes1331–40高Yes良Yes14>40中No優No第六十六頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類首先計算給定樣本分類所需的信息增益:接著計算每個屬性的熵,從屬性age開始:第六十七頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類若樣本按age劃分,對一個給定的樣本分類所需的期望信息為:這種劃分的信息增益是:第六十八頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類類似地,可計算:由于age在屬性中具有最高信息增益,它被選作測試屬性。創建一個節點,用age標記,并對每個屬性值引出一個分枝。樣本據此劃分,見下圖:第六十九頁,共七十九頁,編輯于2023年,星期日收入學生?信用級購買?高No良No高No優No中No良No低Yes良Yes中Yes優Yes收入學生?信用級購買?中No良Yes低Yes良Yes低Yes優No中Yes良Yes中No優No收入學生?信用級購買?高No良Yes低Yes優Yes中No優Yes高Yes良Yes年齡?<=30>3031-40第七十頁,共七十九頁,編輯于2023年,星期日年齡?學生?信用級?yesyesyesnono<=3031…40>40noyes良優算法返回的最終判定樹如下:第七十一頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類判定樹歸納算法被廣泛應用到許多進行分類識別的應用領域,這類算法無需相關領域知識。歸納的學習與分類識別的操作處理速度較快,相應的分類準確率較高。第七十二頁,共七十九頁,編輯于2023年,星期日3數據挖掘功能——分類與預測基于判定樹的分類(3)樹剪枝:在判定樹構造時,許多分枝可能反映的是訓練數據中的噪聲或孤立點。可用樹剪枝
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跳蚤市場策劃書二手電器與家用電子產品的交易平臺
- 廠房不租合同協議書
- 送貨沒合同協議書怎么寫
- 教育培訓員工合同協議書
- 牛羊奇生蟲病綜合防治分析
- 電熱毯企業以數化推進轉型升級策略制定與實施手冊
- 直播帶貨項目可行性研究報告-2025年新基建重點
- 傳統媒體從業者如何在融合中實現三個轉型1
- 中國凹凸棒項目商業計劃書
- 2025年線上線下融合市場營銷戰略合同
- 護理科研選題與論文寫作
- 珠寶首飾加工工藝介紹課件
- 淘寶網-信息披露申請表
- 小微型客車租賃經營備案表
- 教育培訓機構辦學許可證申請書(樣本)
- 瓷磚業務員提成方案
- 2022年一級注冊計量師案例分析真題
- “三級”安全安全教育記錄卡
- 愛蓮說-王崧舟
- 小微企業信用評級標準模板
- 車輛安全設施設備定期檢查臺賬
評論
0/150
提交評論