數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 知識點總結(jié)_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 知識點總結(jié)_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 知識點總結(jié)_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 知識點總結(jié)_第4頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 知識點總結(jié)_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1、數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),它與組織機構(gòu)的操作數(shù)據(jù)庫分別維護,允許將各種應(yīng)用系統(tǒng)一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持.數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。設(shè)計和構(gòu)造步驟:1)選取待建模的商務(wù)處理;2)選取商務(wù)處理的粒變;3)選取用于每個事實表記錄的維;4)選取事實表中每條記錄的變量系統(tǒng)結(jié)構(gòu):(1)底層是倉庫數(shù)據(jù)服務(wù)器,總是關(guān)系數(shù)據(jù)庫系統(tǒng)。(2)中間層是OLAP服務(wù)器,有ROLAP和MOLAP,它將對多維數(shù)據(jù)的操作映射為標準的關(guān)系操作(3)頂層是前端客戶端,它包括查詢和報表工具、

2、分析工具和數(shù)據(jù)挖掘工具2、數(shù)據(jù)倉庫的多維數(shù)據(jù)模型:(1)星形模式:在此模型下,數(shù)據(jù)倉庫包括一個大的包含大批數(shù)據(jù)并且不含冗余的中心表,一組小的附屬表,維表圍繞中心事實表顯示的射線上。特征:星型模型四周的實體是維度實體,其作用是限制和過濾用戶的查詢結(jié)果,縮小訪問范圍.每個維表都有自己的屬性,維表和事實表通過關(guān)鍵字相關(guān)聯(lián)。【例子:sales數(shù)據(jù)倉庫的星形模式,此模式包含一個中心事實表sales,它包含四個維time, item, branch和location。(2)雪花型模式:它是星形模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中.特征:雪花模型通過最大限度地減少數(shù)據(jù)存儲量和

3、聯(lián)合較小的維表來改善查詢性能,增加了用戶必須處理的表數(shù)量和某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。【例子同上,只不過把其中的某些維給擴展了.(3)事實星座形:復(fù)雜的應(yīng)用可能需要多個事實表共享維表,這種模式可看作星形模式的匯集。特征:事實星座模型能對多個相關(guān)的主題建模。例子:有兩個事實表sales和shipping,它們可以共享維表time, item和location。3、OLAP:即聯(lián)機分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。特點:1。實時性要求不是很高。2。數(shù)據(jù)量

4、大。3.因為重點在于決策支持,所以查詢一般是動態(tài)的,也就是說允許用戶隨機提出查詢要求。OLAP操作:上卷:通過沿一個維的概念分層向上攀登,或者通過維歸約,對數(shù)據(jù)立方體進行類聚。下鉆:是上卷的逆操作,它由不太詳細的數(shù)據(jù)得到更詳細的數(shù)據(jù),下鉆可以通過沿維的概念分層向下或引入附加的維來實現(xiàn)。切片:對給定方體的一個維進行進行選擇,導(dǎo)致一個子立方體。切塊:通過對兩個或多個維執(zhí)行選擇,定義子立方體。轉(zhuǎn)軸:是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示.OLTP:即聯(lián)機事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務(wù)處理。OLTP的特點有:a。實

5、時性要求高;b.數(shù)據(jù)量不是很大。C。交易一般是確定的,是對確定性數(shù)據(jù)進行存取。d.并發(fā)性要求高且嚴格的要求事務(wù)的完整性,安全性。OLTP和OLAP的區(qū)別:1)用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場;2)數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);3)數(shù)據(jù)庫設(shè)計:OLTP系統(tǒng)采用實體聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計,而OLAP系統(tǒng)通常采用星形和雪花模型;4)視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而OLAP 系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);5)訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是

6、復(fù)雜的查詢.7、PageRank算法原理:1)在初始階段:構(gòu)建Web圖,每個頁面初始設(shè)置相同的PageRank值,通過迭代計算,會得到每個頁面所獲得的最終PageRank值。2)在一輪中更新頁面PageRank得分的計算方法:每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上。每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到新的PageRank得分。優(yōu)點: 是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應(yīng)時間。缺點:1)人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)

7、性和主題性降低。2)舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多上游鏈接,除非它是某個站點的子站點.5、分類:指把數(shù)據(jù)樣本映射到一個事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對應(yīng)的類.過程:在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。分類的方法有哪些,給出你所了解的評估分類器的方法和特點?分類方法:用基于歸納的學(xué)習(xí)算法,k最近鄰分類,人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。用判定樹歸納分類;貝葉斯分類;后向傳播分類;基于規(guī)則的分類;關(guān)聯(lián)分類,SVM支持向量機等.分類和預(yù)測的評估方法:預(yù)測的準確率、速

8、度、強壯性、可規(guī)模性、可解釋性。評估方法:(1)保持方法,給定數(shù)據(jù)隨機地劃分成兩個獨立的集合:訓(xùn)練集和測試集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到測試集.使用訓(xùn)練集導(dǎo)出分類法,其準確率用測試集評估。評估是保守的,因為只有一部分初始數(shù)據(jù)用于導(dǎo)出的分類法。(2)交叉確認:在k-折交叉確認中,初試數(shù)據(jù)被劃分成 k 個互不相交的子集或“折"S 1,S 2,。.。,S k,每個折的大小大致相等.訓(xùn)練和測試進行 k次。在第 i次迭代,S i用作測試集,其余的子集都用于訓(xùn)練分類法.其它方法包括解靴帶(bootstrapping)和留一。前者使用一致的、帶放回的選樣,選取給定的訓(xùn)練實

9、例;后者是 k折交叉確認,這里 k 為初始樣本數(shù) s。一般地,建議使用調(diào)整的 10折交叉確認,因為它具有相對低的偏置和方差。(3)袋裝:給定 s 個樣本的集合 S,對于迭代 t ( t = 1,2,.。.,T ),訓(xùn)練集 S t采用放回選樣,由原始樣本集 S 選取.由于使用放回選樣,S 的某些樣本可能不在 St中,而其它的可能出現(xiàn)多次.由每個訓(xùn)練集 S t學(xué)習(xí),得到一個分類法 C t.為對一個未知的樣本 X 分類,每個分類法 C t返回它的類預(yù)測,算作一票.裝袋的分類法 C*統(tǒng)計得票,并將得票最高的類賦予 X。通過取得票的平均值,而不是多數(shù),裝袋也可以用于連續(xù)值的預(yù)測.(4)推進:每個訓(xùn)練樣本

10、賦予一個權(quán)。學(xué)習(xí)得到一系列分類法.學(xué)習(xí)得到分類法 Ct后,更新權(quán),使得隨后的分類法 C t+1 “更關(guān)注” C t的分類錯誤.最終的推進分類法 C組合每個分類法的表決,這里每個分類法的表決是其準確率的函數(shù)。推進算法也可以擴充到連續(xù)值預(yù)測。應(yīng)用領(lǐng)域:是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用.例如在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進行分類,從而制定有效的垃圾郵件過濾機制,防止垃圾郵件干擾人們的正常生活.8、決策樹歸納算法及其

11、優(yōu)缺點決策樹定義:是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。歸納算法過程:創(chuàng)建節(jié)點N,若劃分D中所有元組屬于同一個類C,返回N,并用C標記若屬性表為空,返回N并以D中多數(shù)類標記 從屬性表中找到最優(yōu)屬性a,標記節(jié)點N 如果a是離散的且允許多路劃分,則從屬性表中刪除a 對屬性a在D上的每個劃分Dj,若Dj為空,則加一個樹葉到N并標記D中的多數(shù)類,否則遞歸調(diào)用本算法處理Dj,返回的節(jié)點加到N

12、 返回N優(yōu)點:更高的準確性可以生成可理解的規(guī)則計算量不是很大可以處理連續(xù)和種類字段可以清晰顯示哪些字段比較重要容易轉(zhuǎn)化成分類規(guī)則:只要沿著樹根向下一直走到葉子,沿途的分裂條件就能夠唯一的決定一條分類的謂詞缺點:缺乏伸縮性,由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處理大訓(xùn)練集為了處理大數(shù)據(jù)集的種種算法(離散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準確性。6.聚類分析的功能,主要的聚類方法及其特點。聚類:【不知道數(shù)據(jù)的分類,甚至連分成幾類也不知道】將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類.由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中

13、的對象彼此相似,與其他簇中的對象相異。是無指導(dǎo)的學(xué)習(xí)。聚類與分類的主要區(qū)別:和分類學(xué)習(xí)相比,聚類的樣本沒有標記,需要由聚類學(xué)習(xí)算法來自動確定。聚類分析是研究如何在沒有訓(xùn)練集的條件下把樣本劃分為若干類.在分類中,對于目標數(shù)據(jù)庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標記出來.主要的聚類方法:1)劃分方法:給定n個對象或數(shù)據(jù)元組的數(shù)據(jù)庫,劃分方法構(gòu)建數(shù)據(jù)的K個劃分,每個劃分表示一個簇,k=n.構(gòu)建不同劃分。如K均值、K中心點算法等。缺點是需要窮舉所有可能劃分,適用于中小規(guī)模數(shù)據(jù)庫2) 層次方法:對給定數(shù)據(jù)庫對象進行層次分解,如Diana,Agnes、BIRCH、ROCK、CAME

14、LEON等,缺點在于一旦一個步驟(合并或分裂)完成,就不能撤銷3) 基于密度的方法.基于連接和密度函數(shù),如DBSCAN和OPTICS4) 基于網(wǎng)格的方法,基于多層粒度函數(shù),如STING、WaveCluster、CLIQUE等,把對象空間量化為有限個單元,形成網(wǎng)格結(jié)構(gòu),聚類都在網(wǎng)格上進行。處理速度快,處理時間依賴于量化空間每一維的單元數(shù)目5) 基于模型的方法,為每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬合,如EM、SOM、COBWEB算法等6) 基于頻繁模式的聚類:從頻繁出現(xiàn)的維數(shù)自己中提取不同的頻繁模式。7) 基于約束的聚類:結(jié)合用戶指定或面向應(yīng)用的約束進行聚類.應(yīng)用領(lǐng)域:是數(shù)據(jù)挖掘應(yīng)用的

15、主要技術(shù)之一,它可以作為一個獨立的工具來使用,將未知類標號的數(shù)據(jù)集劃分為多個類別之后,觀察每個類別中數(shù)據(jù)樣本的特點,并且對某些特定的類別作進一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(shù)(例如分類學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等)的預(yù)處理工作。4、人工神經(jīng)網(wǎng)絡(luò):是一個函數(shù),主要在于這個函數(shù)的自學(xué)習(xí)過程,在學(xué)習(xí)過程中,它根據(jù)正確結(jié)果不停的校正自己的網(wǎng)絡(luò)結(jié)構(gòu)。分類方法:1。依學(xué)習(xí)策略分類主要有:監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)為主、無監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)、混合式學(xué)習(xí)網(wǎng)絡(luò)、聯(lián)想式學(xué)習(xí)網(wǎng)絡(luò)、最適化學(xué)習(xí)網(wǎng)絡(luò)2.依網(wǎng)絡(luò)架構(gòu)分類主要有:前向式架構(gòu)、回饋式架構(gòu)、強化式架構(gòu)優(yōu)點:預(yù)測準確性高、對噪聲數(shù)據(jù)的高承受力(訓(xùn)練樣本差錯時仍可工作)、

16、輸出離散值、快速評估目標 缺點:1、需要很長的訓(xùn)練時間 2、難以與域知識合作3、可解釋性差BP網(wǎng)絡(luò):是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程.BP算法由數(shù)據(jù)流的前向計算(正向傳播)和誤差信號的反向傳播兩個過程構(gòu)成。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程:神經(jīng)網(wǎng)絡(luò)在外界輸入樣本的刺激下不斷改變網(wǎng)絡(luò)連接的權(quán)值,閾值.以使網(wǎng)絡(luò)的輸出不斷地接近期望的輸出。學(xué)習(xí)的本質(zhì):對各連接權(quán)值、閾值的動態(tài)調(diào)整。學(xué)習(xí)規(guī)則:權(quán)值、閾值調(diào)整規(guī)則,即在學(xué)習(xí)過程中網(wǎng)絡(luò)中各神經(jīng)元的連接權(quán)變化所依據(jù)的一定的調(diào)整規(guī)則BP學(xué)習(xí)算法的步驟: 選定學(xué)習(xí)的數(shù)據(jù),p=

17、1,P, 隨機確定初始權(quán)矩陣W(0);用學(xué)習(xí)數(shù)據(jù)計算網(wǎng)絡(luò)輸出;反向修正,直到用完所有學(xué)習(xí)數(shù)據(jù)。BP神經(jīng)網(wǎng)絡(luò)算法步驟:1初始化,依據(jù)實際問題給出網(wǎng)絡(luò)連接結(jié)構(gòu),隨機設(shè)置所有連接權(quán)值。2提供訓(xùn)練樣本,如果輸入變量為n個,輸出變量為m個,則每個訓(xùn)練樣本形式為(x1,x2,,xn;t1,t2,tm)。這里t1,t2,tm是輸入為x1,x2,xn的期望輸出。3計算實際輸出,利用非純屬函數(shù)逐級計算各層節(jié)點的輸入值.4權(quán)值調(diào)整,用遞歸方法從輸出節(jié)點開始返回到隱層節(jié)點。5返回第二步,重復(fù)執(zhí)行,直到達到滿意誤差。BP網(wǎng)絡(luò)的缺點:易陷入局部最小點;收斂速度慢;學(xué)習(xí)過程容易出現(xiàn)震蕩;9、提升Adaboost:在提升方

18、法中,權(quán)重賦予每個訓(xùn)練元組。迭代地學(xué)習(xí)k個分類器序列。學(xué)習(xí)得到分類器Mi之后,更新權(quán)重,使得其后的分類器Mi+1“更關(guān)注”Mi誤分類的訓(xùn)練元組。最終提升的分類器M組合每個個體分類器,其中每個分類器投票的權(quán)重是其準確率的函數(shù)。過程:給定數(shù)據(jù)集D,包含d個類標記的元組(X1,y1),(X2,y2),(Xd,yd),其中,yi是元組Xi的類標號。Adaboost對每個訓(xùn)練元組賦予相等的權(quán)重1/d。在第i輪中:從D中元組抽樣,形成大小為d的訓(xùn)練集Di。每個元組被選中的機會由它的權(quán)重決定。從訓(xùn)練元組Di導(dǎo)出分類模型Mi。使用Di作為檢驗集計算Mi的誤差。調(diào)整訓(xùn)練元組D的權(quán)重:如果元組不正確地分類,則它的

19、權(quán)重增加.如果元組正確分類,則它的權(quán)重減少。元組的權(quán)重反應(yīng)對它們分類的困難程度權(quán)重越高,越可能錯誤地分類。分類器使用這些權(quán)重產(chǎn)生下一輪的訓(xùn)練樣本。如果分類器Mi的性能太差,誤差率超過0.5,則丟棄它.AdaBoost算法的優(yōu)點:一是訓(xùn)練的錯誤率上界,隨著迭代次數(shù)的增加,會逐漸下降;二是adaboost算法即使訓(xùn)練次數(shù)很多,也不會出現(xiàn)過擬合的問題.10、DBSCAN算法的特點和算法描述DBSCAN 原理:(具有噪聲的基于密度的聚類應(yīng)用),這類方法將簇卸任是數(shù)據(jù)空間中被低密度區(qū)域分割開的稠密數(shù)據(jù)對象區(qū)域。它將簇定義為密度相連的點的最大集合。可在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意開關(guān)的聚類。基于密度的簇

20、是基于密度可達性的密度相連的點的最大集合.算法描述:(1)任選一未處理過的點p為種子點;(2)如果p為核心對象,則查找點p直接密度可達的點,將其中未標記的點標記簇標號,并且將未處理的其它核心點加入種子列表;否則,轉(zhuǎn)到(1);(3) 將種子列表的點依次執(zhí)行操作(2)直到列表為空,一個簇形成;(4) 重復(fù)(1)(3),直到?jīng)]有點可以加到任何一個簇中,聚類完成,剩余的點為噪聲點。優(yōu)點:1如果用戶定義的參數(shù)設(shè)置的恰當,該算法可以有效地找出任意形狀的簇。同時,DBSCAN能夠識別出噪聲點.2DBSCAN對于數(shù)據(jù)庫中的樣本的順序不敏感。但是,對于處于簇類之間邊界樣本,可能會根據(jù)哪個簇類優(yōu)先被探測到而其歸屬

21、有所擺動.缺點:1聚類質(zhì)量對參數(shù)非常敏感;2需要較大的內(nèi)存和輸入輸出支持.3使用全局密度參數(shù),不能處理多密度數(shù)據(jù)集.4、支持向量機(SVM)思想:使用一種非線性映射,將原訓(xùn)練集映射到較高的維,在新的維上,它搜索最佳分離超平面,使用一個適合的對足夠高維的非線性映射,兩類數(shù)據(jù)總可以被超平面分開。優(yōu)點:(1)對復(fù)雜的非線性決策邊界的建模能力是高度準確的(2)不太容易過分擬合(3)提供了學(xué)習(xí)模型的緊湊表示。(4)可以用來預(yù)測和分類.缺點:訓(xùn)練時間長.特點:SVM是一種有堅實理論基礎(chǔ)的小樣本學(xué)習(xí)方法 ; SVM最終決策函數(shù)只由少數(shù)的支持向量所確定,計算復(fù)雜度和支持向量的數(shù)目有關(guān).算法具有較好的“魯棒”性

22、。SVM可以有效處理非線性分類和回歸問題; SVM可以確定所建模型的推廣能力的上界 ;核函數(shù)的選取和參數(shù)優(yōu)化仍需要解決5、EM:(定義)EM(期望最大化)算法是一種流行的迭代求精算法,可以用來求得參數(shù)的估計值,它可看作是k均值算法的一種擴展,基于簇的均值把對象指派到最相似的簇中.EM不是把每個對象指派到特定的簇,而是根據(jù)一個代表隸屬概率的權(quán)重將每個對象指派到簇.(步驟)(1)期望步:對每簇計算對象x的簇隸屬概率(2)最大化步:利用前面得到的概率估計重新估計模型參數(shù)(優(yōu)點)簡單和穩(wěn)定,收斂快(缺點)達不到局部最優(yōu)4、關(guān)聯(lián)規(guī)則:定義:最初由R。Agrawal 等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的

23、商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來,稱為關(guān)聯(lián)規(guī)則.應(yīng)用:關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域。關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型.挖掘步驟:1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進行取舍,產(chǎn)生強關(guān)聯(lián)規(guī)。3、樸素貝葉斯分

24、類:定義:貝葉斯分類法是統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性。樸素貝葉斯分類法假定一個屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾怠K硎緦傩宰蛹g的依賴主要思想:設(shè)為一個類別未知的數(shù)據(jù)樣本,H為某個假設(shè),若數(shù)據(jù)樣本X屬于一個特定的類別C,分類問題就是決定P(HX),即在獲得數(shù)據(jù)樣本X時假設(shè)成立的概率。優(yōu)點:(1)理論上,貝葉斯分類具有最小的錯誤率(2)可以用來為不直接使用貝葉斯定理的其他分類法提供理論判定(3)有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率(4)模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單(5)網(wǎng)格結(jié)構(gòu)一旦確定下來后,添加新變量容易(5)適合處理不完整的數(shù)據(jù)(6)對過分擬

25、合問題魯棒.缺點:(1)實際上,由于對其使用的假定的不正確性,以及缺乏可用的概率,此分類法并不具有最小的錯誤率(2)有可能遇到零概率值,需要修正(3)構(gòu)造網(wǎng)格費時、費力為什么樸素:樸素貝葉斯分類假定一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹怠T摷俣ǚQ作類條件獨立。做此假定是為了簡化所需計算,并在此意義下稱為“樸素的”2、簡述數(shù)值數(shù)據(jù)根據(jù)直觀劃分離散化的34-5規(guī)則(1)如果一個區(qū)間在最高有效位包括3, 6,7或 9 個不同的值,則將該區(qū)間劃分為3個區(qū)間(對于3,6和9 ,劃分為3個等寬的區(qū)間;對于7,按232劃分為3個區(qū)間)。(2)如果最高位包含2,4,8個不同值,則將區(qū)間劃分為4個等寬區(qū)間。

26、(3)如果最高位包含1 ,5或10個不同的值,則將區(qū)間劃分為5個等寬的區(qū)間.最高分層一般在第5個百分位到第95個百分位上進行。2、急切學(xué)習(xí)法是在接收待分類的新元組(如檢驗元組)之前,利用訓(xùn)練集,構(gòu)造泛化模型,即分類器。學(xué)習(xí)后的模型已經(jīng)就緒,并急于對先前未見過的元組進行分類.常見的急切學(xué)習(xí)法主要有支持向量機,決策樹歸納,貝葉斯分類,基于規(guī)則的分類等。3、惰性學(xué)習(xí)法是當給定一組訓(xùn)練元組時,簡單地存儲它,僅當給出檢驗元組時,才利用存儲的訓(xùn)練元組的相似性對該元組進行分類,不像急切學(xué)習(xí)法,惰性學(xué)習(xí)法在提供訓(xùn)練元組時只做少量工作,而在進行分類或預(yù)測時才做更多的工作。常見的惰性學(xué)習(xí)法有K最近鄰和基于案例的推

27、理分類法.急切學(xué)習(xí)法和惰性學(xué)習(xí)法的優(yōu)缺點:急切學(xué)習(xí)法訓(xùn)練分類器時需耗費大量時間,但對檢驗元組進行分類或預(yù)測時速度較快,且占用空間少;惰性學(xué)習(xí)法不需要建立模型,但是在對檢驗元組進行分類或預(yù)測時,需要將所有訓(xùn)練元組與檢驗元組進行運算,計算開銷可能相當大,耗費大量時間.1、后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確標號來學(xué)習(xí)。優(yōu)點:預(yù)測精度總的來說較高、健壯性好,訓(xùn)練樣本中包含錯誤時也可正常工作、輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值、對目標進行分類較快缺點:訓(xùn)練(學(xué)習(xí))時間長

28、、蘊涵在學(xué)習(xí)的權(quán)中的符號含義很難理解、很難根專業(yè)領(lǐng)域知識相整合34、KNN定義:即K最近鄰分類法,它是基于類比學(xué)習(xí),即通過給定的檢驗元組與和他相似的訓(xùn)練元組進行比較來學(xué)習(xí)。優(yōu)點1)算法簡單直觀,易于實現(xiàn);(2)不需要產(chǎn)生額外的數(shù)據(jù)來描述規(guī)則,并且可以存在噪音;(3)可以較好地避免樣本數(shù)量的不平衡問題;(4)減少了類別特征選擇不當對分類結(jié)果造成的不利影響,可以最大程度地減少分類過程中的誤差項(5)適合增量學(xué)習(xí)缺點:1)分類速度慢(2)樣本庫容量依賴性較強(3)必須指定K值,K值選擇不當則分類精度不能保證。k值的設(shè)定,k太小,分類結(jié)果易受噪聲點影響,k值太大,近鄰中又可能包含太多的其它類別的點(4

29、)計算開銷大(5)需要有效的存儲技術(shù)和并行硬件的支撐.1、數(shù)據(jù)預(yù)處理過程:數(shù)據(jù)清理:旨在消除或減少數(shù)據(jù)噪音和處理遺漏值的數(shù)據(jù)預(yù)處理。相關(guān)性分析:數(shù)據(jù)中許多屬性可能與分類和預(yù)測任務(wù)不相關(guān)。數(shù)據(jù)變換:數(shù)據(jù)可以泛化到較高層概念。3。數(shù)據(jù)倉庫的特點和操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別:數(shù)據(jù)倉庫的特點:(1)面向主題的:數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機構(gòu)的日常操作和事務(wù)處理.因此,數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。(2)集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務(wù)處理記錄,集成在一起

30、。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性。 (3)時變的:數(shù)據(jù)存儲從歷史的角度(例如,過去 510 年)提供信息.數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu),隱式或顯式地包含時間元素. (4)非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并行控制機制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。操作數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別: (1)用戶和系統(tǒng)的面向性:OLTP 是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。OLAP 是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析

31、.(2)數(shù)據(jù)內(nèi)容:OLTP 系統(tǒng)管理當前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策.OLAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息。這些特點使得數(shù)據(jù)容易用于見多識廣的決策。(3)數(shù)據(jù)庫設(shè)計:通常,OLTP 系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計。而 OLAP 系統(tǒng)通常采用星形或雪花模型(2。2。2小節(jié)討論)和面向主題的數(shù)據(jù)庫設(shè)計.(4)視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù).相比之下,由于組織的變化,OLAP 系統(tǒng)常常跨越數(shù)據(jù)庫模式的多個版本。OLAP 系統(tǒng)也處理來自不同組織的信息,由多

32、個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個存儲介質(zhì)上。(5)訪問模式:OLTP 系統(tǒng)的訪問主要由短的、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機制.然而,對 OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。1、 概念分層及作用,舉例說明。一個概念分層定義一個映射序列,將低層概念到更一般的高層概念.概念分層也可以通過將給定維或?qū)傩缘闹惦x散化或分組來定義,產(chǎn)生集合分組分層.可以在值組間定義全序或偏序.例子如圖關(guān)于維 price 的集合分組概念分層.其中,區(qū)間(X。.Y 表示由X(不包括)到$Y(包括).概念分層

33、可以由系統(tǒng)用戶、領(lǐng)域?qū)<摇⒅R工程師人工地提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動地產(chǎn)生。對于一個給定的屬性或維,根據(jù)不同的用戶視圖,可能有多個概念分層。例如,用戶可能愿意用 inepensive, moderately_priced和 expensive 來組織price。6.ID3算法基本思想和算法描述,C4。5算法增加了那些功能?基本思想:首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止.最后得到一棵決策樹,可以用它來對新的樣例進行分類。算法描述:從訓(xùn)練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);

34、用“建樹算法"對當前窗口形成一棵決策樹;對訓(xùn)練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束.優(yōu)點:1、理論清晰,算法簡單,很有實用價值的示例學(xué)習(xí)算法。2、計算時間是例子個數(shù)、特征屬性個數(shù)、節(jié)點個數(shù)之積的線性函數(shù),總預(yù)測準確率較令人滿意缺點:(1)ID3算法在選擇根結(jié)點和各內(nèi)部結(jié)點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹C4。5是機器學(xué)習(xí)算法中的另一個分類決策樹算法,基于ID3算法進行改進后的一種重要算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論