




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、收稿日期:2003-09-281作者簡介:郭秀娟(1961 , 女, 吉林省德惠市人, 副教授, 在讀博士研究生.文章編號:100920185(2004 0120049205數(shù)據(jù)挖掘方法綜述郭秀娟(, 摘要:數(shù)據(jù)挖掘方法結(jié)合了數(shù)據(jù)庫技術(shù). 數(shù)據(jù)挖掘技術(shù)的常見方法, 、遺傳算法和統(tǒng)計分析方法被應(yīng)用到各個領(lǐng)域, .關(guān)鍵詞:; ; ; 挖掘理論中圖分類號:N 37文獻標(biāo)識碼:A數(shù)據(jù)挖掘(Data Mining 是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中, 提取隱含在其中的、人們事先不知道的, 但又是潛在有用的信息和知識的過程1-2. 人們把原始數(shù)據(jù)看作是形成知識的源泉, 就像從礦石中采礦一
2、樣, 原始數(shù)據(jù)可以是結(jié)構(gòu)化的, 如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù), 也可以是半結(jié)構(gòu)化的, 如文本、圖形、圖像數(shù)據(jù), 甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù). 發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的, 可以是非數(shù)學(xué)的, 也可以是演繹的或是歸納的. 發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等, 還可以用于數(shù)據(jù)自身的維護. 可以說數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科, 它匯聚了不同領(lǐng)域的研究者, 尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員2.數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域, 它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用, 而且, 要對數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推
3、理, 以指定實際問題的求解, 企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián), 甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測.1數(shù)據(jù)挖掘的方法研究的對象是大量的隱藏在數(shù)據(jù)內(nèi)部的有用信息, 如何獲取信息是我們所要解決的問題. 數(shù)據(jù)挖掘從一個新的角度把數(shù)據(jù)庫技術(shù)、人工智能、統(tǒng)計學(xué)等領(lǐng)域結(jié)合起來, 從更深層次發(fā)掘存在于數(shù)據(jù)內(nèi)部新穎、有效、具有潛在效用的乃至最終可理解的模式. 在數(shù)據(jù)挖掘中, 數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和應(yīng)用數(shù)據(jù)3部分. 數(shù)據(jù)挖掘的關(guān)鍵是在訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)事實, 以測試數(shù)據(jù)作為檢驗和修正理論的依據(jù), 把知識應(yīng)用到數(shù)據(jù)中. 數(shù)據(jù)挖掘利用了分類、關(guān)聯(lián)規(guī)則、序列分析、群體分析、機器學(xué)習(xí)、知識發(fā)現(xiàn)及其他統(tǒng)計方法, 能夠通過
4、數(shù)據(jù)的分析, 預(yù)測未來. 數(shù)據(jù)挖掘有以下幾種常用方法:111關(guān)聯(lián)規(guī)則挖掘1993年, R 1Agrawal 等人首先提出了關(guān)聯(lián)規(guī)則挖掘問題, 他描述的是數(shù)據(jù)庫中一組數(shù)據(jù)項之間某種潛在關(guān)聯(lián)關(guān)系的規(guī)則. 一個典型的例子是:在超市中, 90%的顧客在購買面包和黃油的同時, 也會購買牛奶. 直觀的意義是:顧客在購買某種商品時有多大的傾向會購買另外一些商品. 找出所有類似的關(guān)聯(lián)規(guī)則, 對于企業(yè)確定生產(chǎn)銷售、產(chǎn)品分類設(shè)計、市場分析等多方面是有價值的.關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一, 側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的關(guān)系, 找出滿足給定條件下的多個域間的依賴關(guān)系. 關(guān)聯(lián)規(guī)則挖掘?qū)ο笠话闶谴笮蛿?shù)據(jù)庫(Tr
5、ansactional Database , 該規(guī)則一般表示式為:A 1A 2A m =>B 1B 2B m , 其中, A k (k =1, 2, , m , B j (j =1, 2, , n 是數(shù)據(jù)庫中的數(shù)據(jù)項. 有Support (A =>B =P (A B , Confidence (A =>B =P (A|B 1數(shù)據(jù)項之間的第21卷第1期2004年3月吉林建筑工程學(xué)院學(xué)報Journal of Jilin Architectural and Civil Engineering Institute Vol. 21No. 1Mar 12004關(guān)聯(lián), 即根據(jù)一個事務(wù)中某些
6、數(shù)據(jù)項的出現(xiàn)可以導(dǎo)出另一些數(shù)據(jù)項在同一事務(wù)中的出現(xiàn)3-4.在關(guān)聯(lián)規(guī)則挖掘法的研究中, 算法的效率是核心問題, 如何提高算法的效率是所要解決的關(guān)鍵. 最有影響的是Apriori 算法, 它探查逐級挖掘, Apriori 的性質(zhì)是頻繁項集的所有非空子集都必須是頻繁的. 112決策樹方法決策樹(decision tree 根據(jù)不同的特征, 以樹型結(jié)構(gòu)表示分類或決策集合, . 利用信息論中的互信息(信息增益 , , 再根據(jù)字段的不同取值建立樹的分枝. 在每個分枝子集中, , 即可建立決策樹.決策樹起源于概念學(xué)習(xí)系統(tǒng)S , , , 然后對每一個子集遞歸調(diào)用分枝過程, . 最后得到的決策樹能對新的例子進行
7、分類. CL S 的不足是它處為此, Quinlan 提出了著名的ID3學(xué)習(xí)算法6, 通過選擇窗口來形成決策樹.從示例學(xué)習(xí)最優(yōu)化的角度分析, 理想的決策樹分為3種:葉子數(shù)最少; 葉子結(jié)點深度最小; 葉結(jié)點數(shù)最少且葉子結(jié)點深度最小. 尋優(yōu)最優(yōu)決策樹已被證明是N P 困難問題. ID3算法借用信息論中的互信息(信息增益 , 從單一屬性分辨能力的度量, 試圖減少樹的平均深度, 卻忽略了葉子數(shù)目的研究. 其啟發(fā)式函數(shù)并不是最優(yōu)的, 存在的主要問題有:(1 互信息的計算依賴于屬性取值的數(shù)目多少, 而屬性取值較多的屬性并不一定最優(yōu).(2 ID3是非遞增學(xué)習(xí)算法.(3 ID3決策樹是單變量決策樹(在分枝結(jié)點
8、上只考慮單個屬性 , 許多復(fù)雜概念表達困難, 屬性間的相互關(guān)系強調(diào)不夠, 容易導(dǎo)致決策樹中子樹的重復(fù)或有些屬性在決策樹的某一路徑上被檢驗多次.(4 抗噪聲性差, 訓(xùn)練例子中, 正例和反例的比例較難控制.針對上述問題, 出現(xiàn)許多較好的改進算法, 劉曉虎等在選擇一個新屬性時, 并不僅僅計算該屬性引起的信息增益, 而是同時考慮樹的兩層結(jié)點, 即選擇該屬性后繼續(xù)選擇屬性帶來的信息增益. Schlimmer 和Fisher 設(shè)計了ID4遞增式算法, 通過修改ID3算法, 在每個可能的決策樹結(jié)點創(chuàng)建一系列表, 每個表由未檢測屬性值及其示例組成, 當(dāng)處理新例時, 每個屬性值的正例和反例遞增計量. 在ID4的
9、基礎(chǔ)上, Utgoff 提出了ID5算法, 它拋棄了舊的檢測屬性下面的子樹, 從下面選擇屬性構(gòu)造樹. 此外, 還有許多算法使 用了多變量決策樹的形式, 著名的C415系統(tǒng)也是基于決策樹的.113神經(jīng)網(wǎng)絡(luò)方法模擬人腦神經(jīng)元方法, 以MP 模型和HEBB 學(xué)習(xí)規(guī)則為基礎(chǔ), 建立了3大類多種神經(jīng)網(wǎng)絡(luò)模型, 即前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò). 它是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型, 可以完成分類、聚類等多種數(shù)據(jù)挖掘任務(wù).神經(jīng)網(wǎng)絡(luò)(neural network 是由大量的簡單神經(jīng)元, 通過極其豐富和完善的連接而構(gòu)成的自適應(yīng)非線性動態(tài)系統(tǒng), 并具有分布存儲、聯(lián)想記憶、大規(guī)模并行處理、自組織、自學(xué)習(xí)、
10、自適應(yīng)等功能7. 網(wǎng)絡(luò)能夠模擬人類大腦的結(jié)構(gòu)和功能, 采用某種學(xué)習(xí)算法從訓(xùn)練樣本中學(xué)習(xí), 并將獲取的知識存儲于網(wǎng)絡(luò)各單元之間的連接權(quán)中, 神經(jīng)網(wǎng)絡(luò)和基于符號的傳統(tǒng)A I 技術(shù)相比, 具有直觀性、并行性和抗噪聲性. 目前, 已出現(xiàn)了許多網(wǎng)絡(luò)模型和學(xué)習(xí)算法, 主要用于分類、優(yōu)化、模式識別、預(yù)測和控制等領(lǐng)域. 在數(shù)據(jù)挖掘領(lǐng)域, 主要采用前向神經(jīng)網(wǎng)絡(luò)提取分類規(guī)則.神經(jīng)網(wǎng)絡(luò)模擬人的形象直覺思維, 其中, 最大的缺點是“黑箱”性, 人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程. 因此, 有必要建立“白化”機制, 用規(guī)則解釋網(wǎng)絡(luò)的權(quán)值矩陣, 為決策支持和數(shù)據(jù)挖掘提供說明, 使從網(wǎng)絡(luò)中提取知識成為自動獲取的手段. 通常有
11、兩種解決方案:建立一個基于規(guī)則的系統(tǒng)輔助. 神經(jīng)網(wǎng)絡(luò)運行的同時, 將其輸入和輸出模式給基于規(guī)則的系統(tǒng), 然后用反向關(guān)聯(lián)規(guī)則完成網(wǎng)絡(luò)的推理過程. 這種方法把網(wǎng)絡(luò)的運行過程和解釋過程用兩套系統(tǒng)實現(xiàn), 開銷大, 不夠靈活; 直接從訓(xùn)練好的網(wǎng)絡(luò)中提取(分類 規(guī)則. 這是當(dāng)前數(shù)據(jù)挖掘使用得比較多的方法.05吉林建筑工程學(xué)院學(xué)報第21卷從網(wǎng)絡(luò)中采掘規(guī)則, 主要有以下傾向:(1 網(wǎng)絡(luò)結(jié)構(gòu)分解的規(guī)則提取. 它以神經(jīng)網(wǎng)絡(luò)的隱層結(jié)點和輸出層結(jié)點為研究對象, 把整個網(wǎng)絡(luò)分解為許多單層子網(wǎng)的組合. 這樣研究較簡單的子網(wǎng), 便于從中挖掘知識. Fu 的KT 算法和Towell 的MofM 算法是有代表性的方法. KT
12、方法的缺點是通用性差, 且當(dāng)網(wǎng)絡(luò)比較復(fù)雜時, 要對網(wǎng)絡(luò)進行結(jié)構(gòu)的剪枝和刪除冗余結(jié)點等預(yù)處理工作.(2 神經(jīng)網(wǎng)絡(luò)的非線性映射關(guān)系提取規(guī)則. , 不考慮網(wǎng)絡(luò)的隱層結(jié)構(gòu), . 以及CSW 算法(將網(wǎng)絡(luò)輸入擴展到連續(xù)取值 , , 存在許多問題, , 研究提取, 以及及時修正神經(jīng)網(wǎng)絡(luò)并提高神經(jīng)網(wǎng)絡(luò)性能等, .114粗集方法粗集(rough set 理論的特點是不需要預(yù)先給定某些特征或?qū)傩缘臄?shù)量描述4,8, 如統(tǒng)計學(xué)中的概率分布, 模糊集理論中的隸屬度或隸屬函數(shù)等, 而是直接從給定問題出發(fā), 通過不可分辨關(guān)系和不可分辨類確定問題的近似域, 從而找出該問題中的內(nèi)在規(guī)律. 粗集理論同模糊集、神經(jīng)網(wǎng)絡(luò)、證據(jù)理論
13、等其它理論均成為不確定性計算的一個重要分支.粗集理論是根據(jù)目前已有的給定問題的知識, 將問題的論域進行劃分, 然后對劃分后的每一個組成部分確定其對某一概念的支持度, 即肯定支持此概念或不支持此概念. 在粗集理論中, 上述情況分別用3個近似集合來表示正域、負(fù)域和邊界.在數(shù)據(jù)挖掘中, 從實際系統(tǒng)采集到的數(shù)據(jù)可能包含各種噪聲, 存在許多不確定的因素和不完全信息有待處理. 傳統(tǒng)的不確定信息處理方法, 如模糊集理論、證據(jù)理論和概率統(tǒng)計理論等, 因需要數(shù)據(jù)的附加信息或先驗知識(難以得到 , 有時在處理大量數(shù)據(jù)的數(shù)據(jù)庫方面無能為力. 粗集作為一種軟計算方法, 可以克服傳統(tǒng)不確定處理方法的不足, 并且和它們有
14、機結(jié)合, 可望進一步增強對不確定、不完全信息的處理能力.粗集理論中, 知識被定義為對事物的分類能力. 這種能力由上近似集、下近似集、等價關(guān)系等概念體現(xiàn). 因為粗集處理的對象是類似二維關(guān)系表的信息表(決策表 . 目前, 成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng), 為粗集的數(shù)據(jù)挖掘奠定了堅實的基礎(chǔ).粗集從決策表挖掘規(guī)則, 輔助決策, 其關(guān)鍵步驟是求值約簡或數(shù)據(jù)濃縮, 包括屬性約簡Wong SK 和Ziarko W 已經(jīng)證明求最小約簡是一個N P hard 問題9. 最小約簡的求解需要屬性約簡和值約簡兩個過程, 決策表約簡涉及到核和差別矩陣兩個重要概念. 一般來講, 決策表的相對約簡有
15、許多, 最小約簡(含有最小屬性 是人們期望的. 另一方面, 決策表的核是唯一的, 它定義為所有約簡的交集, 所以, 核可以作為求解最小約簡的起點. 差別矩陣突出屬性的分辨能力, 從中可以求出決策表的核, 以及約簡規(guī)則. 借助啟發(fā)式搜索解決, 苗奪謙等人從信息論的角度對屬性的重要性作了定義, 并在此基礎(chǔ)上提出了一種新的知識約簡算法M IBAR K , 但其對最小約簡都是不完備的. 此外, 上述方法還只局限于完全決策表. Marzena K 應(yīng)用差別矩陣, 推廣了等價關(guān)系(相似關(guān)系 、集合近似等概念, 研究了不完全決策表(屬性的取值含有空值的情況 的規(guī)則的發(fā)展問題, 從而為粗集的實用化邁出了可喜的
16、一步. Marzena K 還比較了幾種不完全系統(tǒng)的分析方法, 得出如下結(jié)論:一個規(guī)則是確定的, 如果此規(guī)則在原不完全系統(tǒng)的每個完全拓展中是確定的; 刪除從不完全決策表包含空值的對象后, 采掘的知識可能成為偽規(guī)則.粗集的數(shù)學(xué)基礎(chǔ)是集合論, 難以直接處理連續(xù)的屬性. 而現(xiàn)實決策表中連續(xù)屬性是普遍存在的, 因此, 連續(xù)屬性的離散化是制約粗集理論實用化的難點之一, 這個問題一直是人工智能界關(guān)注的焦點. 連續(xù)屬性的離散化的根本出發(fā)點, 是在盡量減少決策表信息損失的前提下(保持決策表不同類對象的可分辨關(guān)系 , 得到簡化和濃縮的決策表, 以便用粗集理論分析, 獲得決策所需要的知識. 最優(yōu)離散化問題(離散的
17、切點數(shù)最少 已被證明是N P -hard 問題, 利用一些啟發(fā)式算法可以得到滿意的結(jié)果. 總體上講, 現(xiàn)有15第1期郭秀娟:數(shù)據(jù)挖掘方法綜述離散化方法主要分為非監(jiān)督離散化和監(jiān)督離散化. 前者包括等寬度(將連續(xù)值屬性的值域等份 和等頻率離散化(每個離散化區(qū)間所含的對象相同 . 非監(jiān)督離散化方法簡單, 它忽略了對象的類別信息, 只能用在屬性具有特殊分布的情況. 針對上述問題, 監(jiān)督離散化方法考慮了分類信息, 提高了離散效果. 目前, 比較有代表性的監(jiān)督離散化方法有以下幾種:Holte 提出了一種貪婪的單規(guī)則離散器(one rule dis 2cretizer 方法; 統(tǒng)計檢驗方法; 信息熵方法等.
18、 這些方法各有特點, , 即每個屬性的離散化過程是相互獨立的, 忽略了屬性之間的關(guān)聯(lián), 點. 針對這個問題, , 點和歸納規(guī)則數(shù), 而且提高了分類精度. , 即當(dāng)新的對象加入決策表時, . Mohua Banerjee 等利用集理論獲得初始規(guī)則集, 然后, (規(guī)則的置信度對應(yīng)網(wǎng)絡(luò)的連接權(quán) 10, 訓(xùn)練后可得到精化的知識. 目前, 基于粗集的數(shù)據(jù)挖掘在以下方面有待深化.(1粗集和其它軟計算方法的進一步結(jié)合問題; (2粗集知識采掘的遞增算法; (3 粗集基本運算的并行算法及硬件實現(xiàn), 將大幅度改善數(shù)據(jù)挖掘的效率. 已有的粗集軟件適用范圍還很有限. 決策表中的實例數(shù)量和屬性數(shù)量受限制. 面對大量的數(shù)
19、據(jù), 有必要設(shè)計高效的啟發(fā)式簡化算法或研究實時性較好的并行算法;(4 擴大處理屬性的類型范圍, 實際數(shù)據(jù)庫的屬性類型是多樣的, 既有離散屬性, 也有連續(xù)屬性; 既有字符屬性, 也有數(shù)值屬性. 粗集理論只能處理離散屬性, 因此, 需要設(shè)計連續(xù)值的離散算法. 115遺傳算法遺傳算法(G A :genetic algorithms 是模擬生物進化過程, 利用復(fù)制(選擇 、交叉(重組 和變異(突變 3個基本算子優(yōu)化求解的技術(shù). 遺傳算法類似統(tǒng)計學(xué), 模型的形式必須預(yù)先確定, 在算法實施的過程中, 首先對求解的問題進行編碼, 產(chǎn)生初始群體, 然后計算個體的適應(yīng)度, 再進行染色體的復(fù)制、交換、突變等操作,
20、 優(yōu)勝劣汰, 適者生存, 直到最佳方案出現(xiàn)為止.遺傳算法在執(zhí)行過程中, 每一代都有許多不同的種群個體同時存在, 這些染色體中個體的保留與否取決于它們對環(huán)境的適應(yīng)能力, 適應(yīng)性強的有更多的機會保留下來, 適應(yīng)性強弱是由計算適應(yīng)性函數(shù)f (x 的值決定的, 這個值稱為適應(yīng)值(fitness . 適應(yīng)函數(shù)f (x 的構(gòu)成與目標(biāo)函數(shù)有密切的關(guān)系, 這個函數(shù)基本上是目標(biāo)函數(shù)的變種.應(yīng)用遺傳算法解決實際問題, 存在以下幾方面的問題:(1 編碼. 把問題參數(shù)按某種形式進行編碼形成個體, 一組個體構(gòu)成一個種群, 編碼是一項有創(chuàng)造性的工作, 也是遺傳算法應(yīng)用的關(guān)鍵.(2 適應(yīng)值函數(shù). 適應(yīng)值是對種群中每個個體的
21、評價. 它涉及到的問題包括:問題的目標(biāo)函數(shù)的確定、目標(biāo)函數(shù)到適應(yīng)值函數(shù)的映射、適應(yīng)值函數(shù)調(diào)整等.(3 交叉. 以一定概率P c , 對兩個個體進行交叉. 好的交叉策略能夠使種群迅速收斂到最優(yōu)解. (4 變異. 以一定概率P c , 對個體上的某種基因(對應(yīng)于位串上的某位 進行改變. 變異是使當(dāng)前種群進化的必不可少的條件.遺傳算法的研究方向遺傳算法是多學(xué)科結(jié)合與滲透的產(chǎn)物, 它已發(fā)展成為一種自組織、自適應(yīng)的綜合技術(shù), 廣泛應(yīng)用在計算機科學(xué)、工程技術(shù)和社會科學(xué)等領(lǐng)域11. 它的研究工作主要集中在以下幾個方面:(1 基礎(chǔ)理論. 包括進一步發(fā)展遺傳算法理論的數(shù)學(xué)基礎(chǔ), 從理論和試驗方面研究它們的計算復(fù)
22、雜性. 怎樣阻止過早收斂也是人們正在研究的問題之一.(2 分布并行遺傳算法. 遺傳算法在操作上具有高度的并行性, 許多研究人員都在探索在并行機和分25吉林建筑工程學(xué)院學(xué)報第21卷布式系統(tǒng)上高效執(zhí)行遺傳算法的策略.(3 分類系統(tǒng). 分類系統(tǒng)是基于遺傳算法的機器學(xué)習(xí)中的一類, 它包括一個簡單的基于串規(guī)則的并行生成子系統(tǒng)、規(guī)則評價子系統(tǒng)和遺傳算法子系統(tǒng). 分類系統(tǒng)正在被人們越來越多地應(yīng)用于科學(xué)、工程和經(jīng)濟領(lǐng)域中, 是目前遺傳算法研究領(lǐng)域中一個非常活躍的領(lǐng)域12.(4 遺傳神經(jīng)網(wǎng)絡(luò). 它包括聯(lián)接權(quán)、網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)規(guī)則的進化. , 成功地從時間序列分析來進行財政預(yù)算. Muhienbein 絡(luò)將會是遺傳
23、神經(jīng)網(wǎng)絡(luò).(5 進化算法. .除上述方法外, 、統(tǒng)計分析方法、云模型方2結(jié)語數(shù)據(jù)挖掘算法是對上述挖掘方法的具體體現(xiàn). 數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景, 它既可應(yīng)用于決策支持, 也可應(yīng)用于數(shù)據(jù)庫管理系統(tǒng)(DBMS 中. 數(shù)據(jù)挖掘作為決策支持和分析的工具, 可以用于構(gòu)造知識庫, 在DBMS 中, 數(shù)據(jù)挖掘可以用于語義查詢優(yōu)化、完整性約束和不一致檢驗.參考文獻1Han J , K ambr M. Data Mining :Concepts and Techniques M . Beijing Higher Education Press , 2001.2張偉, 廖曉峰, 吳中福1一種基于遺傳算法的聚
24、類新方法J 1計算機科學(xué), 2002, 29(6 :114-11613Agrawal R , Mannila H , Srikant R , et al. Fast discovery of association rules :Advances in knowledge discovery and data mining M . California :MIT Press , 1996:307-328.4Sanjay Soni Unisys , Zhaohui Tang Microsoft Corporation , Jim Y ang Microsoft Corporation Perfo
25、rmance Study of Microsoft Data Mining Algorithms August , 2001.5唐華松, 姚耀文1數(shù)據(jù)挖掘中決策樹算法的探討J 1計算機應(yīng)用研究, 2001, (8 :18-2216李德仁, 王樹良, 李德毅, 王新洲1論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法J 1武漢大學(xué)學(xué)報信息科學(xué)版, 2002(6 :221-23317周志華, 陳世福1神經(jīng)網(wǎng)絡(luò)集成J 1計算機學(xué)報, 2002(6 :587-59018李永敏, 朱善君等1基于粗糙理論的數(shù)據(jù)挖掘模型J 1清華大學(xué)學(xué)報(自然科學(xué)版 , 1999, 39(1 :110-11319Pawlak Z. Rough Set Theory and its Applications to Data Analysi J . Cybernetics and syst , 1998, 29(7 :661-688.10Tsumoto S. Automated discovery of positive and negative knowledge in clinical database based on rough set model J . IEEE EMB Mag 2azine , 2000, 19(4 :415-422.11糜元根1數(shù)據(jù)挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國木工加工機械市場調(diào)查研究報告
- 2025-2030年中國中頻電源行業(yè)市場現(xiàn)狀分析規(guī)劃研究報告
- 2025年中國日本式電纜線接頭市場調(diào)查研究報告
- 2025年中國新型指針萬用表數(shù)據(jù)監(jiān)測報告
- 2025年中國數(shù)字氣象儀數(shù)據(jù)監(jiān)測報告
- 2025至2031年中國綜合保護裝置行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國緊湊型鏑燈行業(yè)投資前景及策略咨詢研究報告
- 肇慶市實驗中學(xué)高中歷史三:第課宋明理學(xué)高效課堂教學(xué)設(shè)計
- 2025-2030年中國GPS車輛監(jiān)控調(diào)度系統(tǒng)市場發(fā)展趨勢與投資戰(zhàn)略決策報告
- 2025年中國硝基清面漆數(shù)據(jù)監(jiān)測研究報告
- 編劇助理合同協(xié)議
- 血液透析常用藥物知識及管理
- 2025年普通高等學(xué)校招生“圓夢杯”高三統(tǒng)一模擬考試(七)數(shù)學(xué)試卷(含答案)
- (二模)咸陽市2025年高三高考模擬檢測(二)生物試卷(含答案)
- 2025就業(yè)指導(dǎo)課件
- 2025-2030中國菊粉行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 高校實驗室安全基礎(chǔ)
- 教師綜合考核獎勵方案
- 《紡織品跟單復(fù)習(xí)》課件
- 6.1歷久彌新的思想理念 課件 - 2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 第25課它們吃什么(教學(xué)設(shè)計)-教科版科學(xué)一年級下冊
評論
0/150
提交評論