第2章知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)(new)_第1頁
第2章知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)(new)_第2頁
第2章知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)(new)_第3頁
第2章知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)(new)_第4頁
第2章知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)(new)_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、知識發(fā)現(xiàn)的基本過程 數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型知識發(fā)現(xiàn)軟件或工具的發(fā)展知識發(fā)現(xiàn)項目的過程化管理 第二章第二章 知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應用結(jié)構(gòu) 從源數(shù)據(jù)中發(fā)現(xiàn)有用知識是一個系統(tǒng)化的工作。首先必須從源數(shù)據(jù)中發(fā)現(xiàn)有用知識是一個系統(tǒng)化的工作。首先必須對可以利用的對可以利用的源數(shù)據(jù)進行分析,確定合適的挖掘目標源數(shù)據(jù)進行分析,確定合適的挖掘目標。然。然后才能著手系統(tǒng)的設(shè)計和開發(fā)。后才能著手系統(tǒng)的設(shè)計和開發(fā)。 完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價值知識的過程可以簡單地概完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價值知識的過程可以簡單地概括為:括為:首先首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成從數(shù)據(jù)源中抽取感興趣的

2、數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;適合挖掘的數(shù)據(jù)組織形式;其次其次,調(diào)用相應的算法生成所,調(diào)用相應的算法生成所需的知識;需的知識;最后最后對生成的知識模式進行評估,并把有價值對生成的知識模式進行評估,并把有價值的知識集成到企業(yè)的智能系統(tǒng)中。的知識集成到企業(yè)的智能系統(tǒng)中。 一般地說,一般地說,KDD是一個多步驟的處理過程,分為是一個多步驟的處理過程,分為問題定義問題定義、數(shù)據(jù)抽取數(shù)據(jù)抽取、數(shù)據(jù)預處理數(shù)據(jù)預處理、數(shù)據(jù)挖掘數(shù)據(jù)挖掘 和和模式評估模式評估等基本階等基本階段。段。 KDD是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此因此發(fā)現(xiàn)何種知

3、識發(fā)現(xiàn)何種知識就成為整個過程中第一個也是最重要就成為整個過程中第一個也是最重要的一個階段。的一個階段。 在問題定義過程中,數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<乙约霸趩栴}定義過程中,數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<乙约白罱K用戶緊密協(xié)作最終用戶緊密協(xié)作一方面了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識,弄一方面了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識,弄清用戶要求,確定挖掘的目標等要求;清用戶要求,確定挖掘的目標等要求;另一方面通過對各種學習算法的對比進而確定可用的另一方面通過對各種學習算法的對比進而確定可用的學習算法。后續(xù)的學習算法選擇和數(shù)據(jù)集準備都是在學習算法。后續(xù)的學習算法選擇和數(shù)據(jù)集準備都是在此基礎(chǔ)上進行的。此基礎(chǔ)上

4、進行的。 數(shù)據(jù)抽取與集成是知識發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽數(shù)據(jù)抽取與集成是知識發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來實現(xiàn)的,現(xiàn)在可以通過高效的抽取工取是依靠手工編程來實現(xiàn)的,現(xiàn)在可以通過高效的抽取工具來實現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和裝載仍然是具來實現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和裝載仍然是一件很艱苦的工作。一件很艱苦的工作。 源數(shù)據(jù)庫的選取以及從中源數(shù)據(jù)庫的選取以及從中抽取數(shù)據(jù)的原則抽取數(shù)據(jù)的原則和和具體規(guī)則具體規(guī)則必須必須依據(jù)系統(tǒng)的任務來界定。主要任務是依據(jù)系統(tǒng)的任務來界定。主要任務是設(shè)計存儲新數(shù)據(jù)的結(jié)設(shè)計存儲新數(shù)據(jù)的結(jié)構(gòu)和準確定義它與源數(shù)據(jù)的轉(zhuǎn)換和裝載機制構(gòu)和準確定義它

5、與源數(shù)據(jù)的轉(zhuǎn)換和裝載機制,以便正確地,以便正確地從每個數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應從每個數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應該作為該作為元數(shù)據(jù)元數(shù)據(jù)(Metadata)被存儲起來。)被存儲起來。 來自不同源的數(shù)據(jù)可能有模式定義上的差異,也可能存在來自不同源的數(shù)據(jù)可能有模式定義上的差異,也可能存在因數(shù)據(jù)冗余而無法確定有效數(shù)據(jù)的情形。此外,還要考慮因數(shù)據(jù)冗余而無法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫系統(tǒng)本身可能存在不兼容的情況數(shù)據(jù)庫系統(tǒng)本身可能存在不兼容的情況 在開始一個知識發(fā)現(xiàn)項目之前必須清晰地定義在開始一個知識發(fā)現(xiàn)項目之前必須清晰地定義挖掘目標。雖然挖掘的最后結(jié)果是

6、不可預測的,但挖掘目標。雖然挖掘的最后結(jié)果是不可預測的,但是要解決或探索的問題應該是可預見的。盲目性地是要解決或探索的問題應該是可預見的。盲目性地挖掘是沒有任何意義的。如果所集成的數(shù)據(jù)不正確,挖掘是沒有任何意義的。如果所集成的數(shù)據(jù)不正確,數(shù)據(jù)挖掘算法輸出的結(jié)果也必然不正確,形成的決數(shù)據(jù)挖掘算法輸出的結(jié)果也必然不正確,形成的決策支持是不可靠的。因此,要提高挖掘結(jié)果的準確策支持是不可靠的。因此,要提高挖掘結(jié)果的準確率,數(shù)據(jù)預處理是不可忽視的一步。率,數(shù)據(jù)預處理是不可忽視的一步。 對數(shù)據(jù)進行預處理,一般需要對源數(shù)據(jù)進行再加工,檢對數(shù)據(jù)進行預處理,一般需要對源數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一

7、致性,對其中的噪音數(shù)據(jù)進查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行平滑,對丟失的數(shù)據(jù)進行填補,消除行平滑,對丟失的數(shù)據(jù)進行填補,消除“臟臟”數(shù)據(jù),消數(shù)據(jù),消除重復記錄等。除重復記錄等。數(shù)據(jù)清洗是指去除或修補源數(shù)據(jù)中的不完整、不一致、數(shù)據(jù)清洗是指去除或修補源數(shù)據(jù)中的不完整、不一致、含噪音的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰、甚含噪音的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰、甚至為了保密使系統(tǒng)設(shè)計人員無法得到某些數(shù)據(jù)項的數(shù)據(jù)。至為了保密使系統(tǒng)設(shè)計人員無法得到某些數(shù)據(jù)項的數(shù)據(jù)。假如這個數(shù)據(jù)項正是知識發(fā)現(xiàn)系統(tǒng)所關(guān)心的,那么這類假如這個數(shù)據(jù)項正是知識發(fā)現(xiàn)系統(tǒng)所關(guān)心的,那么這類不完整的數(shù)據(jù)就需要修

8、補。不完整的數(shù)據(jù)就需要修補。 常見的不完整數(shù)據(jù)的修補辦法有:常見的不完整數(shù)據(jù)的修補辦法有:使用一個全局值來填充(如使用一個全局值來填充(如“unknown”、估計的最大、估計的最大數(shù)或最小數(shù))。數(shù)或最小數(shù))。統(tǒng)計該屬性的所有非空值,并用平均值來填充空缺項。統(tǒng)計該屬性的所有非空值,并用平均值來填充空缺項。只使用同類對象的屬性平均值填充。只使用同類對象的屬性平均值填充。利用回歸或工具預測最可能的值,并用它來填充。利用回歸或工具預測最可能的值,并用它來填充。 數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫中對同樣屬性所使用的數(shù)數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫中對同樣屬性所使用的數(shù)據(jù)類型、度量單位等不同而導致的。因此需要定

9、義它們的據(jù)類型、度量單位等不同而導致的。因此需要定義它們的轉(zhuǎn)換規(guī)則,并在挖掘前統(tǒng)一形式。噪音數(shù)據(jù)是指那些明顯轉(zhuǎn)換規(guī)則,并在挖掘前統(tǒng)一形式。噪音數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù)(如某雇員不符合邏輯的偏差數(shù)據(jù)(如某雇員200歲),這樣的數(shù)據(jù)往歲),這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。往影響挖掘結(jié)果的正確性。 沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果,沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果,為了得到一個高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方為了得到一個高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù);另一方面面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù);另一方面需要針對挖掘目標進行數(shù)據(jù)選

10、擇。需要針對挖掘目標進行數(shù)據(jù)選擇。 數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)選擇可以小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務相關(guān)的數(shù)使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務相關(guān)的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準確性。掘的準確性。 利用數(shù)據(jù)變換或規(guī)約等技術(shù)可以將數(shù)據(jù)整理成適合利用數(shù)據(jù)變換或規(guī)約等技術(shù)可以將數(shù)據(jù)整理成適合進一步挖掘的數(shù)據(jù)格式。進一步挖掘的數(shù)據(jù)格式。數(shù)據(jù)變換數(shù)據(jù)變換可以根據(jù)需要構(gòu)可以根據(jù)需要構(gòu)造出新的屬

11、性以幫助理解分析數(shù)據(jù)的特點,或者將造出新的屬性以幫助理解分析數(shù)據(jù)的特點,或者將數(shù)據(jù)規(guī)范化,使之落在一個特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)規(guī)范化,使之落在一個特定的數(shù)據(jù)區(qū)間中。數(shù)數(shù)據(jù)歸約據(jù)歸約則是在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,將則是在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,將數(shù)據(jù)以其他方式進行表示,以減少數(shù)據(jù)存儲空間,數(shù)據(jù)以其他方式進行表示,以減少數(shù)據(jù)存儲空間,使挖掘過程更有效。常用的歸約策略有:使挖掘過程更有效。常用的歸約策略有:數(shù)據(jù)立方數(shù)據(jù)立方體聚集體聚集、維歸約維歸約、數(shù)據(jù)壓縮數(shù)據(jù)壓縮、數(shù)值壓縮數(shù)值壓縮和和離散化離散化等。等。 運用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的運用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中

12、提取出用戶所需要的知識,這些知識可以用一種特定的方式表示。知識,這些知識可以用一種特定的方式表示。 選擇數(shù)據(jù)挖掘算法有兩個考慮因素:選擇數(shù)據(jù)挖掘算法有兩個考慮因素:一是不同的數(shù)據(jù)有不同的特點,因此需要用與之相關(guān)一是不同的數(shù)據(jù)有不同的特點,因此需要用與之相關(guān)的算法來挖掘;的算法來挖掘;二是用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可能希望二是用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(獲取描述型的(Descriptive)、容易理解的知識(采)、容易理解的知識(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶只是希望獲取預測準確度

13、盡可能高法),而有的用戶只是希望獲取預測準確度盡可能高的預測型(的預測型(Predictive)知識,并不在意獲取的知識是)知識,并不在意獲取的知識是否易于理解。否易于理解。 數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,這時需要將其剔除;也有可能模式不滿足或無關(guān)的模式,這時需要將其剔除;也有可能模式不滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回退到前續(xù)階段,如用戶要求,這時則需要整個發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等等。

14、甚至換一種算法等等。 KDDKDD由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進行式進行可視化可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。所以知識評估階段是所以知識評估階段是KDDKDD一個重要的必不可少的階段,它一個重要的必不可少的階段,它不僅擔負著將不僅擔負著將KDDKDD系統(tǒng)發(fā)現(xiàn)的知識以用戶能了解的方式呈系統(tǒng)發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),而且根據(jù)需要進行知識評價,如果和用戶的挖掘目標現(xiàn),而且根據(jù)需要進行知識評價,如果和用戶的挖掘目標不一致就需要返回前面相應的步驟進行螺旋式處理以最終不一致就需要

15、返回前面相應的步驟進行螺旋式處理以最終獲得可用的知識。獲得可用的知識。 實施這些需要有良好的技術(shù)和人員儲備。在整個的知識發(fā)實施這些需要有良好的技術(shù)和人員儲備。在整個的知識發(fā)現(xiàn)過程中,需要有不同專長的技術(shù)人員支持。現(xiàn)過程中,需要有不同專長的技術(shù)人員支持。業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。業(yè)務需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學有較數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務需求轉(zhuǎn)化為知識發(fā)現(xiàn)的各熟練的

16、掌握,有能力把業(yè)務需求轉(zhuǎn)化為知識發(fā)現(xiàn)的各步操作,并為每步操作選擇合適的模型或工具。步操作,并為每步操作選擇合適的模型或工具。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并負責從數(shù)據(jù)庫數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并負責從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。或數(shù)據(jù)倉庫中收集數(shù)據(jù)。 在階梯處理過程模型中,在階梯處理過程模型中,KDD處理過程分為九個階段,分處理過程分為九個階段,分別是別是數(shù)據(jù)準備數(shù)據(jù)準備、數(shù)據(jù)選擇數(shù)據(jù)選擇、數(shù)據(jù)預處理數(shù)據(jù)預處理、數(shù)據(jù)縮減數(shù)據(jù)縮減、KDD目標目標確定確定、挖掘算法確定挖掘算法確定、數(shù)據(jù)挖掘數(shù)據(jù)挖掘、模式解釋模式解釋和和知識評價知識評價。數(shù)據(jù)選擇數(shù)據(jù)選擇數(shù)據(jù)預處理數(shù)據(jù)預處理數(shù)據(jù)縮減數(shù)據(jù)縮

17、減數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)解釋與評估數(shù)據(jù)解釋與評估知識知識模式模式縮減后縮減后的數(shù)據(jù)的數(shù)據(jù)預處理后預處理后的數(shù)據(jù)的數(shù)據(jù)目標數(shù)據(jù)目標數(shù)據(jù)數(shù)據(jù)數(shù)據(jù) 它強調(diào)領(lǐng)域?qū)<覅⑴c的重要性,并以問題的定義為中心循它強調(diào)領(lǐng)域?qū)<覅⑴c的重要性,并以問題的定義為中心循環(huán)評測挖掘的結(jié)果。當結(jié)果不令人滿意時,就需要重新定環(huán)評測挖掘的結(jié)果。當結(jié)果不令人滿意時,就需要重新定義問題,開始新的處理循環(huán)。每次循環(huán)都使問題更清晰,義問題,開始新的處理循環(huán)。每次循環(huán)都使問題更清晰,結(jié)果更準確,因此是一個螺旋式上升過程。結(jié)果更準確,因此是一個螺旋式上升過程。 抽取數(shù)據(jù)抽取數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)數(shù)據(jù)工程數(shù)據(jù)工程算法工程算法工程運行數(shù)據(jù)運行數(shù)據(jù)挖

18、掘算法挖掘算法分析結(jié)果分析結(jié)果定義數(shù)據(jù)定義數(shù)據(jù)Brachman和和Anand從用戶的角度對從用戶的角度對KDD處理過程進行了分析。他們處理過程進行了分析。他們認為數(shù)據(jù)庫中的知識發(fā)現(xiàn)應該更著重于對用戶進行知識發(fā)現(xiàn)的整個過認為數(shù)據(jù)庫中的知識發(fā)現(xiàn)應該更著重于對用戶進行知識發(fā)現(xiàn)的整個過程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個階段上。該模型強調(diào)對程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個階段上。該模型強調(diào)對用戶與數(shù)據(jù)庫的交互的支持。用戶與數(shù)據(jù)庫的交互的支持。任務任務發(fā)現(xiàn)發(fā)現(xiàn)任務任務發(fā)現(xiàn)發(fā)現(xiàn)模型開發(fā)模型開發(fā)輸出結(jié)輸出結(jié)果生成果生成數(shù)據(jù)分析數(shù)據(jù)分析數(shù)據(jù)清洗數(shù)據(jù)清洗領(lǐng)域模型領(lǐng)域模型數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)字典數(shù)據(jù)字典查

19、詢查詢工具工具統(tǒng)計與人工統(tǒng)計與人工智能工具智能工具可視化可視化工具工具表示表示工具工具轉(zhuǎn)化轉(zhuǎn)化工具工具目標目標報告報告行為行為模式模式監(jiān)視監(jiān)視記錄記錄實現(xiàn)聯(lián)機交互式實現(xiàn)聯(lián)機交互式KDD需要可視化技術(shù)支撐,需要從數(shù)據(jù)挖需要可視化技術(shù)支撐,需要從數(shù)據(jù)挖掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視化等掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視化等方面來理解。方面來理解。An OLAM ArchitectureMDDB多維數(shù)據(jù)庫多維數(shù)據(jù)庫OLAM引擎引擎OLAP引擎引擎User GUI APIData Cube APIDatabase API數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)解釋數(shù)據(jù)解釋L2OLAP/OLAM

20、L1MDDBL0數(shù)據(jù)集數(shù)據(jù)集L3User Interface過濾和集成過濾和集成過濾過濾挖掘請求挖掘請求挖掘結(jié)果挖掘結(jié)果元元數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)數(shù)據(jù) 庫庫lOLAM:聯(lián):聯(lián)機分析挖掘機分析挖掘的概念是的概念是OLAP的發(fā)展。的發(fā)展。 數(shù)據(jù)與方法相對獨立。數(shù)據(jù)與方法相對獨立。數(shù)據(jù)不是針對某一特定知識數(shù)據(jù)不是針對某一特定知識模式,而是針對某一類問題模式,而是針對某一類問題來抽取。經(jīng)過預處理后,這來抽取。經(jīng)過預處理后,這些數(shù)據(jù)對于某些挖掘算法來些數(shù)據(jù)對于某些挖掘算法來說可能存在屬性冗余、與目說可能存在屬性冗余、與目標無關(guān)等問題,因此在后面標無關(guān)等問題,因此在后面的階段再進行相關(guān)的數(shù)據(jù)清的階段

21、再進行相關(guān)的數(shù)據(jù)清洗和選擇工作,這樣使得解洗和選擇工作,這樣使得解決同一類問題的不同算法可決同一類問題的不同算法可以在統(tǒng)一的以在統(tǒng)一的KDD平臺上完平臺上完成。成。 模式評估模式評估模式評估數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)選擇數(shù)據(jù)預處理數(shù)據(jù)預處理數(shù)據(jù)清洗模式選擇模式選擇數(shù)據(jù)集成數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)抽取問題定義問題定義Web/TEXTWeb/TEXTDBDBDWDWDB/DWDB/DW源數(shù)據(jù)備選數(shù)據(jù)數(shù)據(jù)立方體數(shù)據(jù)立方體目標數(shù)據(jù)DBDB知識庫用用戶戶知識模式庫 雖然市場上已經(jīng)有許多所謂的知識發(fā)現(xiàn)系統(tǒng)或工雖然市場上已經(jīng)有許多所謂的知識發(fā)現(xiàn)系統(tǒng)或工具,但是,這些工具只能用來輔助技術(shù)人員進行具,但是,這些工

22、具只能用來輔助技術(shù)人員進行設(shè)計和開發(fā),而且知識發(fā)現(xiàn)軟件本身也正處于發(fā)設(shè)計和開發(fā),而且知識發(fā)現(xiàn)軟件本身也正處于發(fā)展階段,仍然存在各種各樣需要解決的問題。展階段,仍然存在各種各樣需要解決的問題。 粗略地說,知識發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了粗略地說,知識發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨獨立的知識發(fā)現(xiàn)軟件立的知識發(fā)現(xiàn)軟件、橫向的知識發(fā)現(xiàn)工具集橫向的知識發(fā)現(xiàn)工具集和和縱縱向的知識發(fā)現(xiàn)解決方案向的知識發(fā)現(xiàn)解決方案三個主要階段,其中后面三個主要階段,其中后面兩種反映了目前知識發(fā)現(xiàn)軟件的兩個主要發(fā)展方兩種反映了目前知識發(fā)現(xiàn)軟件的兩個主要發(fā)展方向。向。獨立的知識發(fā)現(xiàn)軟件出現(xiàn)在數(shù)據(jù)挖掘和知識發(fā)獨立的知識發(fā)現(xiàn)軟件出現(xiàn)在數(shù)

23、據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)研究的早期。當研究人員開發(fā)出一種新現(xiàn)技術(shù)研究的早期。當研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法后,就在此基礎(chǔ)上形成軟件型的數(shù)據(jù)挖掘算法后,就在此基礎(chǔ)上形成軟件原型。這些原型系統(tǒng)經(jīng)過完善被嘗試使用。原型。這些原型系統(tǒng)經(jīng)過完善被嘗試使用。這類軟件要求用戶必須對具體的數(shù)據(jù)挖掘技術(shù)這類軟件要求用戶必須對具體的數(shù)據(jù)挖掘技術(shù)和算法有相當?shù)牧私猓€要手工負責大量的數(shù)和算法有相當?shù)牧私猓€要手工負責大量的數(shù)據(jù)預處理工作。據(jù)預處理工作。名稱名稱研究機構(gòu)或公司研究機構(gòu)或公司主要特點主要特點DBMiner1Simon Fraser以以O(shè)LAM引擎為核心的聯(lián)機挖掘原型系統(tǒng);引擎為核心的聯(lián)機挖掘原型系統(tǒng);包含多特征包含多特征/序列序列/關(guān)聯(lián)等多模式。關(guān)聯(lián)等多模式。Quest75IBM Almaden面向大數(shù)據(jù)集的多模式(關(guān)聯(lián)規(guī)則面向大數(shù)據(jù)集的多模式(關(guān)聯(lián)規(guī)則/分類等)分類等)挖掘工具。挖掘工具。IBM Intelligent Miner76IBM包含多種技術(shù)(神經(jīng)網(wǎng)絡(luò)包含多種技術(shù)(神經(jīng)網(wǎng)絡(luò)/統(tǒng)計分析統(tǒng)計分析/聚類等)聚類等)的輔助挖掘工具集。的輔助挖掘工具集。Darwin76Thinking Machines基于神經(jīng)網(wǎng)絡(luò)的輔助挖掘工具。基于神經(jīng)網(wǎng)絡(luò)的輔助挖掘工具。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論