


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù)及其應(yīng)用分析 摘要:數(shù)據(jù)挖掘是一門新興的數(shù)據(jù)處理技術(shù),是當(dāng)前一個(gè)熱門的研究領(lǐng)域。數(shù)據(jù)挖掘中應(yīng)用的技術(shù)包括經(jīng)典的統(tǒng)計(jì)、聚類,也包括最新發(fā)展起來的決策樹、神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則等一些較新的方法。簡(jiǎn)要介紹了數(shù)據(jù)挖掘的概念和過程·論述了數(shù)據(jù)挖掘的主要方法,最后對(duì)數(shù)據(jù)挖掘的應(yīng)用作了簡(jiǎn)要介紹。 關(guān)鍵詞:數(shù)據(jù)
2、挖掘;過程;應(yīng)用 1數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘(Data Mining,DM),是隨著數(shù)據(jù)庫和人工智能發(fā)展起來的新興的信息處理技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程,其主要特點(diǎn)是對(duì)數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。 2數(shù)據(jù)挖掘技術(shù) 2.1關(guān)聯(lián)規(guī)則方
3、法 關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,對(duì)這些關(guān)聯(lián)規(guī)則進(jìn)行有效的評(píng)價(jià)。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。 2.2分類和聚類方法 分類就是假定數(shù)據(jù)庫中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類。從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于
4、分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。 2.3數(shù)據(jù)統(tǒng)計(jì)方法 使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應(yīng)用中有力的工具之一。 2.4神經(jīng)網(wǎng)絡(luò)方法 神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問題。因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用
5、于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。 2.5決策樹方法 決策樹學(xué)習(xí)是一種通過逼近離散值日標(biāo)函數(shù)的方法,把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例。葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段。建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分枝子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。 2.6粗糙集 粗糙集(Rough Set)能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于
6、從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)備個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。 3數(shù)據(jù)挖掘過程
7、 按工作流程包括以下幾個(gè)步驟: (1)數(shù)據(jù)準(zhǔn)備:一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中的是長(zhǎng)期積累的大量的數(shù)據(jù),往往不適合利用這些進(jìn)行處理,需要做數(shù)據(jù)準(zhǔn)備工作,一般包括數(shù)據(jù)的選擇、凈化、推測(cè)、轉(zhuǎn)換、數(shù)據(jù)縮減,通過這些工作生成數(shù)據(jù)倉庫。數(shù)據(jù)準(zhǔn)備是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 (2)數(shù)據(jù)挖掘:在前面步驟所獲得的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,可以單獨(dú)利用也可以綜合利用各種數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行分析,根據(jù)數(shù)據(jù)挖掘的目的。選定數(shù)據(jù)挖掘算法,選擇某個(gè)特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。 (3)結(jié)果的分析和同化;上面得到的模式模型,有
8、可能是沒有實(shí)際意義或沒有使用價(jià)值的。因此需要評(píng)估,確定哪些是有效的、有用的模式。評(píng)估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。對(duì)數(shù)據(jù)挖掘出的結(jié)果進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。其具體的挖掘過程如圖1: 4數(shù)據(jù)挖掘的應(yīng)用 4.1在金融領(lǐng)域中的應(yīng)用 多數(shù)銀行和金融機(jī)構(gòu)都提供豐富多樣的儲(chǔ)蓄、信用、投資、保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,但是數(shù)據(jù)量是非常巨大的,數(shù)據(jù)挖掘技術(shù)可以將這些龐雜的信息充分利用:如采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場(chǎng)的變化趨勢(shì);使用數(shù)據(jù)可視化、分類、聚類分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為
9、;對(duì)于預(yù)防信用卡欺詐行為。可以利用數(shù)據(jù)挖掘?qū)蛻粜抛u(yù)進(jìn)行分析。 4.2在零售業(yè)中的應(yīng)用 在零售業(yè)中,數(shù)據(jù)挖掘的運(yùn)用是比較成功的。由于MIS系統(tǒng)在商業(yè)的普遍使用,特別是條碼技術(shù)的使用。零售業(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進(jìn)出、消費(fèi)與服務(wù)記錄等等。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用分類技術(shù)和聚類技術(shù)。可以更精確地挑選出潛在的顧客;識(shí)別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢(shì),進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);同時(shí)可以為經(jīng)營管理人員提供正確的決策手段,這樣對(duì)促進(jìn)銷售及提高競(jìng)爭(zhēng)力是大有幫助 4.3在科學(xué)研究中應(yīng)用 計(jì)算科學(xué)是現(xiàn)代科學(xué)發(fā)展的一個(gè)重要標(biāo)志。計(jì)算科學(xué)工作者主要和數(shù)據(jù)打交道,每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生安全責(zé)任規(guī)定
- 2025年武漢市事業(yè)單位招聘考試綜合類專業(yè)能力測(cè)試試卷(財(cái)務(wù)類)
- 物流運(yùn)輸行業(yè)工作表現(xiàn)證明書(6篇)
- 一個(gè)特別的節(jié)日記事作文(6篇)
- 2025年儲(chǔ)能技術(shù)多元化在電力系統(tǒng)中的應(yīng)用與市場(chǎng)前景分析報(bào)告
- ?學(xué)前教育信息化在幼兒園家長(zhǎng)工作中的應(yīng)用現(xiàn)狀與改進(jìn)策略
- 2025年裝配式建筑部品部件市場(chǎng)潛力與技術(shù)創(chuàng)新研究報(bào)告
- 面向2025年工業(yè)互聯(lián)網(wǎng)平臺(tái)入侵檢測(cè)系統(tǒng)的網(wǎng)絡(luò)安全防護(hù)與優(yōu)化創(chuàng)新001
- 財(cái)務(wù)管理財(cái)務(wù)報(bào)表分析題
- 如果我會(huì)飛-想象作文(4篇)
- 農(nóng)業(yè)企業(yè)資產(chǎn)重組方案
- 幼兒園食堂舉一反三自查報(bào)告
- 患者發(fā)生窒息的應(yīng)急
- 《環(huán)氧樹脂生產(chǎn)工藝》課件
- 冶金員工安全培訓(xùn)
- 合理雅思學(xué)習(xí)計(jì)劃
- 腹股溝疝護(hù)理新進(jìn)展
- 機(jī)修工2025年上半年工作總結(jié)范文
- 食品標(biāo)準(zhǔn)操作規(guī)程
- 《人民法院》課件
- 青海大學(xué)《普通化學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
評(píng)論
0/150
提交評(píng)論