




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
其次章數據挖掘常用技術
7
數據挖掘是涉及了機器學習,統計學,人工智能,數據倉庫等多門學科學問的
新興交叉學科。也正是由于這樣使得數據挖掘的討論滲透在多個學科,從而使得
數據挖掘的方法在不同的理論背景下消失了多種形式,多種討論途徑。數據挖掘
技術的進展是數據驅動的,針對不同的數據產生了很多數據挖掘的方法,同時也
要知道大多數的算法都不是特地為解決某個特定問題而設計的,不同算法彼此之
間也不相互排斥,在進行實際應當的過程中應依據數據自身的特點與業務的詳細
問題選擇合適的數據挖掘算法,進而得到較好的挖掘效果,在不能確定挖掘算法
之前也可以實行抽樣數據然后用各種算法嘗試的方法來選擇相對?較好的算法,算
法的好壞不是以其使用范圍和效果而言,而是針對不同的問題有不同的評判標準。
下面對常見的并且應用性很好的數據挖掘技術進行簡要介紹。
(1)決策樹
決策樹是一種方法簡潔而又應用廣泛的分類技術。它是一種分類函數靠近手段,
是從機器學習的方面改進而來的。決策樹算法的好處在于算法易于理解,但是其
缺點在于每個分支的判定條件過于嚴格毫不模糊,這樣在實際應用中可能會帶來
肯定的麻煩。近年來隨著討論的深化決策算法有了很多進步產生很高效的算法。
(2)神經網絡方法
神經網絡來源于神經生物學和生理學中有關神經細胞計算本質的討論工作。有
很多種不同的神經網絡,可以給不同的學習目的供應應用。前饋神經網絡是一種
常見的用于分類的算法。
神經網絡有很好的抗噪音的力量,并且針對未知數據也一樣有很好的猜測分類
力量,有很高的分類精準度。不過,訓練過程一般比較長是神經網絡的一大缺點。
此外,神經網絡算法所得到的結果可解釋性很差,差不多相當于黑盒。
(3)統計分析方法
經典統計學中的重點內容包括回歸分析,假設檢驗,方差分析等。而相關的統
計學的中的很多學問也都會在數據挖掘中被用到。在使用數據挖掘技術來解決相
關問題之前有時也會用統計方法嘗試著解決問題,甚至在數據預處理過程中也會
用到統計方法。
(4)遺傳算法
遺傳算法(geneticalgorithm,又稱GA),該算法試圖通過計算機仿照自然選擇
的過程,并將他們運用到解決商業和討論問題。遺傳算法是在遺傳和生物進化的
思想之下而開展的,所以他有很多傳統算法所以不具備的優點。
(5)關聯挖掘電子科技高校碩士學位論文
6
概括起來數據挖掘的一般步驟可以用如下圖示來表達
圖2-1數據挖掘基本步驟圖
從數據挖掘所使用的技術的方面來理解的話,數據挖掘的過程可以有如下幾步:
初始數據的獲得及分析,數據抽樣和數據清理,數據挖掘技術,樣本集,數據的
轉換,數據倉庫技術,學問。本步驟的要點是對數據的預處理的優化,省掉了實
際商業應用時所需要的很多步驟。圖2-2展現了如何從初始數據動身,從中得到有
用的模式,進而得到有用的學問。用于數據挖掘的工具越優秀,從一個步驟轉到
另一個步驟就越簡潔、越自動化。
圖2-2數據挖掘的技術過程圖
在詳細應用的過程之中,需要常常反復執行某一些數據挖掘的步驟。并且,以
上四步的分界線常常區分不明顯,例如,數據轉換及預處理同時又可以當作一種
線索關系的提取。因而指明數據挖掘常做的工作就是如此的劃分目的
[2]
O
2.1.3數據挖掘常用方法
原始數據
樣本集
數據倉庫
學問
抽樣、清理
轉換
挖掘
原始數據
業務理解
數據理解數據預處理
建模
評估
部署其次章數據挖掘常用技術
5
紹一下各個步驟
[4]
O
(1)業務理解
在進行數據挖掘之前要了解所挖掘的行業背景,了解行業學問,進而知道數據
挖掘的目標以及衡量挖掘勝利的標準,同時也要了解數據挖掘在相關行業下的資
源以及風險。在了解了上述相關行業學問之后,把挖掘的任務轉換成數據挖掘的
問題,同時定下挖掘目標和挖掘勝利的標準。最終得到初期的項目方案。
(2)數據理解
在完成了業務目標以后,接著的任務就應當是收集數據。收集數據之后要對數
據開展討論分析,以了解數據的結構以及數據的質量。若是此步驟數據的獲得有
困難或者得不到滿足的數據,就應當重新回到業務理解步驟,分析是否業務理解
出了問題。
(3)數據預處理
此步驟的目的是得到最終使用的數據集。數據預處理的過程一般開銷比較大,
無論從工作量還是時間方面來講。這一過程主要包括噪聲數據的清洗,數據的相
關選擇,以及數據屬性的合成和數據集的合并,還有數據的法律規范化等等。在實際
應當過程之中還包括很多數據預處理有關處理方法及過程。
(4)建模
在經過數據預處理得到使用數據之后,就要依據數據的特點及應用的性質建立
合適的模型算法以及給相關算法設置參數值。在實際的應用中,同一個數據挖掘
業務可能候選的挖掘算法不止一種,但是每一種算法都會所要進行挖掘的數據有
肯定特殊的要求,因此進行建模的時候要考慮上一步驟所得到的數據的特點來選
用適當的聚類分析算法。有時候也會回溯到上一步驟重新進行數據的預處理,進
而得到適合目標算法的數據。
(5)評估
在完成了建模之后就要對所得的模型結果進行評估。由于應用類型的不一樣使
得評估的詳細方法也有差別,通常可以針對小型市場進行調研,進而驗證明際數
據。假如此步驟的評價結果不符合要求,就要回到建模步驟,甚至重新開頭以上
的全部步驟。假如結果抱負就可以連續下一步了。
(6)部署
一般狀況下完成了模型的挖掘并不代表挖掘任務的完成,而是會進一步把結果
應用到實際的業務之中,然后依據實際反饋回來的應用結果,來驗證模型的質量
以及綻開進一步改進的工作。4
其次章據挖掘常用技術
2.1數據挖掘基礎學問
通過數據挖掘可得到多種學問,而這些學問最終可以應用到多個方面,包括給
相關組織和個人供應決策支持。在一般狀況下用戶并不了解大量的數據中隱藏了
哪些有意義有價值的信息,所以,對數據挖掘系統來說,應當同時能夠搜尋發覺
多種形式的信息學問,進而滿足用戶的實際要求和期望。
數據挖掘(DataMining,或稱DM)是將隱蔽在海量數據中的有意義有價值的
規律的發掘出來的過程。又稱為數據庫中的學問發覺(KnowledgeDiscoveryfrom
Database,簡稱KDD)
[2]
?其主要有三個特點.(1)海量數據。(2)未知的有價值
的規律。數據挖掘所發覺的規律,應當是有用的并且不應當是顯而易見的,應當
是對不同的任務來說有意義的、隱蔽的規律。(3)數據挖掘是一個過程。他需要
數據理解、業務理解、數據預備、評估、建模、部署等一系列步驟,數據挖掘人
員的業務力量和分析力量對勝利有重要的影響
[1]
2.1.1數據挖掘主要任務
數據挖掘的主要有任務有兩點:描述型和分類猜測型的任務
[3]
O
描述型的任務是指通過數據庫數據的自身內部聯系,從而得到數據庫中數據關
系或者數據庫的概要描述。
分類猜測型的任務是指通過現有的已經知道的分類的數據學習模型以及類的
標簽的區分,稱作為猜測型和分類型。
2.1.2數據挖掘的過程
數據挖掘不是一個公式也不是一個機器只需把數據輸入就會得到預期的結果。
數據挖掘是包含了很多步驟的一個簡單過程,其各個步驟之間需要不斷的重復已
達到精確的結果。通常來講,數據挖掘的主要過程分為業務理解,數據理解,數
據預處理,建立模型,結果評估,部署等多個步驟。這些步驟彼此之間先后關系
也沒有嚴格的定義,實際應當過程中很多步驟之間常常會不斷重復。下面詳細介電子科技高
校碩士學位論文
8
關聯挖掘就是在海量的數據中快速找出各個數據對象之間潛在的有價值有意
義聯系,也就是在大型的數據庫中,快速找到各種事物之前潛在的有價值有意義
的聯系,并且用肯定的規章表現出來,通過推理、積累形成學問之后,得出特別
重要的相關聯的結論,進而給當前的市場管理者供應決策依據。例如:沃爾瑪進
行的有關“牛奶與尿不濕”的關聯結果。由于在實際生活應用中有很多關聯挖掘
勝利的范例,以及關聯挖掘特別好的有用性,使得目前有關關聯挖掘的應用和研
究成為一個討論特別深化和特別活躍的討論領域,目前,已經討論出了很多關聯
挖掘的算法并且新的算法也在不斷的消失,并且實際應用的領域也在不斷擴大。
(6)聚類分析
聚類分析(clusteringanalysis)是一種將數據集依據某種指導思想劃分為相應
很多群組(class)或者簇(cluster)的過程。而這種劃分的思想原則就是要使得聚
類的結果滿足,相同簇內的數據對象差距盡量的小,不同簇中的處理對象差距盡
量的大。而這種數據對象之間的差距,是由數據自身的屬性所打算的。一般就是
采用(各對象之間)某種距離來進行定義的。聚類分析的目的在于依據數據的幾
種屬性把數據劃分成相像對象的幾個集合。在包括數據預處理等數據挖掘之中的
很多方法技術中都會用到聚類分析技術,針對不同數據的特點,對那些數據結構
簡潔或者與運量分析只有單一屬性或者較少屬性關聯的數據可以在數據清理等預
處理之后直接整合進入數據倉庫,而對于一些簡單結構的多維數據則可采用聚類
分析之方法將其數據聚集后構造出規律庫,把簡單結構的數據標準化,為一些數
據挖掘方法(例如關聯挖掘,粗糙集方法,分類等)供應預處理。目前在包括統
計學,數據挖掘,模糊數學以及計算機領域的很多方向等都有不少關于聚類分析
算法的討論和應用。
2.2聚類分析方法概述
最近幾年由于計算機相關技術的快速進展,使得數據挖掘以及相關的聚類分析
技術迅猛進展,并成為目前活躍的討論方向,吸引了越來越多的專家學者投入到
這一領域的討論行列之中。目前已經討論開發出來很多高效的聚類分析算法,并
且新的算法也在不斷消失。
聚類分析是一種討論怎么將討論的數據對象(指標或者樣品)依據多種特征采
取綜合分類的多元統計方法。聚類之后所得到的數據對象的分組就叫做簇。正如
人們常說的“物以類聚”的道理一樣,聚類就是一個盡可能將相像數據分到一組其次章數
據挖掘常用技術
9
的數據處理方法,并且通常不知道能分出幾類。
聚類是在沒有訓練集條件下把目標對象劃分為若干簇,采用預先設定的數據屬
性將數據按相像程度聚集起來。聚類的最終結果包括聚類簇的數目(不包括特殊
算法)事先是不知的。一般通過數據對象自身的屬性值來衡量數據對象之間的差
異性的,通常是依據數據對像之間的某種距離,而距離的計算方式依據數據變量
(即屬性)類型的不同所不同,通常的變量類型有離散的變量、連續的變量,或
者有這些類型屬性的共同組成的混合屬性。
在數據挖掘很多過程中都會用到聚類分析算法,由于該技術既可以作為相關挖
掘方法的預處理,同時聚類技術自身也是一種數據挖掘方法。例如在數據預處理
過程中,對那些數據結構簡單的多維數據可以采用聚類分析技術將數據聚集分簇
后構造出規律庫,使得簡單的數據標準化,同時可以采用聚類分析技術處理數據
中的噪音,為其他一些數據挖掘方法(如粗糙集方法、關聯挖掘)供應預處理。
有時為了滿足一些數據挖掘算法的需求,需要離散化一些連續的數據,使得決策
屬性值和條件屬性值法律規范化、簡約化,此時也需要對數據進行聚類處理。
2.2.1聚類分析對算法性能的要求
聚類分析算法的討論很具有挑戰性,但又以其自身廣泛的應用性得到很多人認
可,使得聚類分析技術的應用領域不斷向前拓寬以及討論不斷向前深化,隨著聚
類算法的討論和應用的深化,也總結出了聚類算法的很多一般要求,以下簡要敘
述一些典型的要求
[5]
O
(1)可伸縮性。很多聚類分析算法在小規模數據處理方面會得到很好的效果,
但是實際應當過程中所產生的數據庫中的數據對象往往是巨大的,這就要求聚類
分析算法擁有良好的伸縮性,進而可以應對大型的數據。需要指出的是當算法的
伸縮性不強或者僅適合小規模的數據處理時,采納抽樣方法來對大型數據進行處
理有時并不能得到較好的處理結果,由于通常會得到歪曲的結果。
(2)可以處理不同字段。算法要能夠處理多種字段,包括數值型,離散型,
二值型,挨次型以及符號性和多種類型數據的混合型。
(3)能夠處理任意外形的數據集合。很多算法的相像性都是用某種距離來定
義的。這一類算法的不足點在于針對那些大小相像并且密度接近球型或者圓形的
簇比較高效,而其他類型的數據時聚類效果就沒有達到令人滿足的地步。但是在
實際應用的數據庫之中,其數據類型是很簡單的,并且分布也可以是任意外形的。電子科技
高校碩士學位論文
12
在確定了數據集中聚類簇的預期數目k之后,該數字用來指定數據集中的k個
種子點。并將各個種子點用作聚類的質心。數目k的確定既可以是主觀的選擇也
可以是采用其它聚類技術得到的一個數。選好初始種子點之后,每個簇中沒有其
它的數據對象。下一步就是通過循環將剩余的點放到離種子點最近的簇之中去。
有很多衡量聚類的方法,在此歐氏距離是一種比較常見的衡量數據點之間的距離
的方法。然后就是簇心點重新計算,進而再一次對全部點進行所屬簇的計算與劃
分。由于簇的中心點的移動(每次重新計算簇的中心點都有可能會轉變中心點的
位置直至中心點不變或者目標函數達到收斂為止)使得一些原本不在該簇的數據
被劃分到簇中,那么此次聚類過程就可以視為上一次聚類結果的校正使得更接近
新的質心的點重新得以劃分到更合理的簇中。通過一些數據點的重新劃分使得質
心也可以進行更新升級。上述質心更新的過程始終迭代,直至質心沒有明顯變化
結束。下圖是k-means算法基本過程示意圖。在這一討論當中,分散的思想給了
我們一個推斷聚類數目的方法。除了使用分散的方法來確定適當聚類數目之外也
用統計調查的方法來衡量確定是否選擇了合適的聚類數目。
圖2-4k-means算法思想描述
初始聚類1初始聚類2
初始種子
1
初始種子
2
重新計算質心之后,確定新在質心點(紅色
標記)
最終聚類結
果
最終聚類1最終聚類2其次章數據挖掘常用技術
II
圖2-3clusteranalysis算法分類
(1)基于劃分的算法
劃分算法的思想是,將給定待挖掘數據集中的數據對象劃分成K組(kWN,N
代表數據集中對象數目),每一組表示一個聚類的簇。并且要滿足任何一個數據對
象僅可以屬于一個聚類,每個聚類中至少具有一個數據對象。此算法通常要求算
法開頭之前,給定參數K以打算聚類后的聚類的個數。算法依據參數k建立一個
初始的分組,以后算法反復運用迭代重定位技術將數據對象在各個簇中重新安排,
進而得到最終的相對滿足的聚類結果。簇內部數據對象之間差距盡量小,簇之間
數據對象差距盡量大才稱得上是一個好的聚類分析算法。K-medoids和K-means算
法是劃分算法中兩個比較經典的算法。其他很多劃分算法都是從這兩個算法演化
改進而來的。
K-means(K均值)算法接受一個參數K用以打算結果中簇的數目。算法開頭
時,要在數據集中隨機選擇K個數據對象用來當做k個簇的初始中心,而將剩下
的各個數據對象就依據他們和每個聚類簇心的距離選擇簇心最近的簇安排到其中。
然后重新計算各個聚類簇中的全部數據對象的平均值,并將得到的結果作為新的
簇心;逐步重復上述的過程直至目標函數收斂為止。通常都是使用均方差函數作
為目標函數,公式如下:
J=££|D-m
10
因此要求聚類算法也具備能夠發覺任意外形的簇的力量。
(4)盡量降低用戶輸入的參數的數目。有一些聚類分析算法,在實際應用過
程中需要使用者給出一些參數,例如,密度閥值等。由于這些參數直接打算了聚
類分析的結果,使得聚類分析與輸入的參數親密相關,而參數的確定又是一件非
常不簡潔的事情。特殊是涉及到一些高維數據時參數更加難以確定,這樣不僅對
用戶造成了肯定的負擔而且也使得結果難以預定。因此,一個好的聚類算法應當
盡量的削減由使用者打算的參數。
(5)抗噪聲的力量。現實數據庫中的數據幾乎都或多或少的含有肯定的量的
噪聲。一些算法對噪聲特別敏感,這就可能導致得不到預期的效果,甚至消失錯
誤的聚類結果。所以,要求聚類分析算法要具備反抗肯定的噪聲的力量。
(6)聚類的最終結果要對數據對象輸入的先后挨次不敏感。有些聚類算法對
數據紀錄的輸入挨次特別敏感,即對同一組紀錄采納不同的挨次輸入交給同一個
聚類算法進行處理,得出的結果可能相差特別大。因而,要求聚類分析算法要對
數據輸入的先后挨次不敏感。
(7)能處理高維數據的。目前,絕大部分的聚類算法在應對低維數據時會有
特別好的效果。但是現實中的數據庫由于數據對象具有很多屬性即數據對像多數
都是高維的,并且在數據處理階段也可能會合成一些高維數據,而高維數據的處
理與低維數據處理方法是有很的大不同,這就使得很多聚類算法難以得到滿足的
聚類結果。目前,在高維數據進行聚類的討論并沒有向低維空間討論的那么深化,
高維空間聚類其難度特別巨大的,要考慮多種因素。
(8)能滿足肯定的約束限制。實際應用中常常會對聚類的數據添
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年金融行業深度分析報告:金融科技在金融風險管理中的應用現狀與未來
- 人工智能賦能下的智慧交通流量預測技術應用2025年報告
- 2025年零售企業數字化供應鏈協同與供應鏈協同數據共享研究報告
- 2025年寵物消費市場細分需求分析:寵物美容護理行業產品創新策略研究報告
- 城市交通擁堵治理的2025年交通流量預測技術應用案例報告
- 2025年仿制藥一致性評價對藥品臨床用藥效果的監測體系研究報告
- 2025年國際教育交流項目中學生跨文化適應能力培養效果評價體系構建報告
- 探索2025年鄉村文化旅游特色小鎮建設與發展報告
- 2025年智能客服語音識別在虛擬現實領域的交互體驗報告
- 2025年實體書店新零售模式下的顧客需求預測與庫存管理策略報告
- 材料科學基礎chp1-原子結構與鍵合課件
- (完整word版)餐券模板
- 《滑炒技法-滑炒雞絲菜肴制作》說課課件
- 減速機設備維修技術標準
- GB/T 26480-2011閥門的檢驗和試驗
- 中文版自殺可能量表
- 裝飾藝術運動課件
- 【審計工作底稿模板】FH應付利息
- 工貿企業安全管理臺賬資料
- 三方協議書(消防)
- 預激綜合征臨床心電圖的當前觀點
評論
0/150
提交評論