數據挖掘概念課后習題答案_第1頁
數據挖掘概念課后習題答案_第2頁
數據挖掘概念課后習題答案_第3頁
數據挖掘概念課后習題答案_第4頁
數據挖掘概念課后習題答案_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章

1.6定義下列數據挖掘功能:特征化、區分、關聯和相關分析、預測聚類和演變分析。

使用你熟悉的現實生活的數據庫,給出每種噓挖掘功能的例子。

。特征化是一個目標類數據的一般特性或特性的匯總。例如,學生的特征可被提出,形成所

有大學的計算機科學專業一年級學生的輪廓,這些特征包括作為一種高的年級平均成績

(GPA:Gradepointaversge)的信息,還有所修的課程的最大數量。

?區分是將目標類數據對象的一般特性與一個或多個對比類對象的一般特性進行比

較。例如,具有高GPA的學生的一般特性可被用來與具有低GPA的一般特性比較。最

終的描述可能是學生的一個一般可比較的輪廓,就像具有高GPA的學生的75%是四年級

計算機科學專業的學生,而具有低GPA的學生的65%不是。

。關聯是指發現關聯規則,這些規則表示一起頻繁發生在給定數據集的特征值的條件。

例如,一個數據挖掘系統可能發現的關聯規則為:

major(X,"computingscience")=owns(X,"personalcomputer")

[support=12%,confidence=98%]

其中,X是一個表示學生的變量。這個規則指出正在學習的學生,12%(支持度)主修計算機科學并且擁有一臺

個人計算機。這個組一個學生擁有一臺個人電腦的概率是98%(置信度,或確定度。)

。分類與預測不同,因為前者的作用是構造一系列能描述和區分數據類型或概念的模型(或

功能)而后者是建立一個模型去預測缺失的或無效的、并且通常是數字的數據值。它們的

相似性是他們都是預測的工具:分類被用作預測目標數據的類的標簽,而預測典型的應用是

預測缺失的數字型數據的值。

強類分析的數據對象不考慮已知的類標號。對象根據最大花蕾內部的相似性、最小化類之間的相似性的原則進

行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分層結

構,把類似的事件組織在一起。

。數據延邊分析描述和模型化隨時間變化的對象的規律或趨勢,盡管這可能包括時間相關數

據的特征化、區分、關聯和相關分析、分類、或預測,這種分析的明確特征包括時間序列數據

分析、序列或周期模式匹配、和基于相似性的數據分析

1.9列舉并描述說明物劇2掘任務的五種原語。

五種原語是:

◎任務相關數據:這種原語指明給定挖掘所處理的數據。它包括指明數據庫、數據庫表、或

數據倉庫,其中包括包含關系數據、選擇關系數據的條件、用于探索的關系數據的屬

性或維、關于修復的數據排序和分組。

。挖掘的數據類型:這種原語指明了所要執行的特定數據挖掘功能,如特征化、區分、關

聯、分類、聚類、或演化分析。同樣,用戶的要求可能更特殊,并可能提供所發現的模式必

須匹配的模版。這些模版或超模式(也被稱為超規則)能被用來指導發現過程。

?背景知識:這種原語允許用戶指定已有的關于挖掘領域的知識。這樣的知識能被用來指導

知識發現過程,并且評估發現的模式。關于數據中關系的概念分層和用戶信念是背景知識的

形式。

。模式興趣度度■:這種原語允許用戶指定功能,用于從知識中分割不感興趣的模式,并且

被用來指導挖掘過程,也可評估發現的模式。這樣就允許用戶限制在挖掘過程返回的不感

興趣的模式的數量,因為一種數據挖掘系統可能產生大量的模式以趣度測量能被指定為簡

易性確定性、適用性、和新穎性的特征。

。發現模式的可視化:這種原語述及發現的模式應該被顯示出來。為了使數據挖掘能有效地

將知識傳給用戶,數據挖掘系統應該能將發現的各種形式的模式展示出來,正如規則、表

格、餅或條形圖、決策樹、立方體或其它視覺的表示。

1.41.13描述以下數據挖掘系統與數據庫或數據倉庫集成方法的差別:不耦合、松散相合、半

緊精合和緊密糖合物認為財■方法最流行為什么?

解答:數據挖掘系統和數據庫或數據倉庫系統的集成的層次的差別如下

阡耦合:數據挖掘系統用像平面文件這樣的原始資料獲得被挖掘的原始數據集,

因為沒有數據庫系統或數據倉庫系統的任何功能被作為處理過程的一部分執行。

因此,這種構架是一種糟糕的設計。

。松散耦合:數據挖掘系統不與數據庫或數據倉庫集成,除了使用被挖掘的初始數據集的源

數據和存儲挖掘結果。這樣,這種構架能得到數據庫和數據倉庫提供的靈活、高效、和特征

的優點。但是,在大量的數據集中,由松散耦合得到高可測性和良好的性能是非常困難的,

因為許多這種系統是基于內存的。

。半緊密耦合:一些數據挖掘原語,如聚合、分類、或統計功能的預計算可在數據庫或數據倉

庫系統有效的執行以便數據挖掘系統在挖掘-查詢過程的應用。另外,一些經常用到的

中間挖掘結果能被預計算并存儲到數據庫或數據倉庫系統中,從而增強了數據挖掘系統的

性能。

。緊密耦合:數據庫或數據倉庫系統被完全整合成數據挖掘系統的一部份,并且因此提

供了優化的數據查詢處理。這樣的話,數據挖掘子系統被視為一個信息系統的功能組件。這

是一中高度期望的結構,因為它有利于數據挖掘功能、高系統性能和集成信息處理環境的

有效實現。

從以上提供的體系結構的描述看,緊密耦合是最優的,沒有值得顧慮的技術和執行問題。但緊密耦合系統所需的

大量技術基礎結構仍然在發展變化淇實現并非易事。因此,目前最流行的體系結構仍是半緊密相

合,因為它是松散糧合和緊密耦合的折中。

第2章數據預處理

2.2假設給定的數據集的值已經分組為區間。區間和對應的頻率如下。

年齡頻率

1~5200

5-15450

15-20300

20-501500

50-80700

80-11044

計算數據的近似中位數值。

先判定中位數區間:N=200+450+300+1500+700+44=3194;N/2=1597

,/200+450+300=950<1597<2450=950+1500;

:.20?50對應中位數區間。

我們有:Zi=20.Ai=3197,width=30,使用公

式(2.3):

,「汗/2-(2.后夕)八.”(3197/2—950、__

median=Z.4---------------width=20+-----------x30=32.97

Ifreq—JI1500J

media/r=32.97歲。

2.4假定用于分析的數據包含屬性ageo數據元組的age值(以遞增序)是:13,

,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,

15,35,36,40,45,46,52,70。

3/m5

\l該數據的均值是什么?中位數是什么?

/b

\該數據的眾數是什么?討論數據的峰(即雙峰、三峰等。)

/a

k

d數據的中列數是什么?

(/

X你能粗略地找出數據的第一個四分位數Qi和第三個四分位數Ch)嗎?

/動

\l給出數據的五數概括。

(f)畫出數據的盒圖。

(g)分位數一分位數圖與分位數圖的不同之處是什么?

(a)該數甥的均任[是什么?中位數是什么?

均值是:T=—5Zrz=809/27=29.96=30(公工12.1)。中位效成是笫14

個.UP.ri4=25=^2?

(b)該數甥的眾數是什么?討論數甥的穌(即雙山子、三崢等)?

這個數集的眾數有兩個:25和35,發:乍在同樣展高的頻率處.閑此足儀行

眾數。

(c)數據的中列數是什么?

數據的中列數忍圾大術和最小組的均值.HP:""如g=<70+13)/2=41.5。

(d)你循《忖I略地)找U1數據的笫一個四分位數(。)和笫三個四分僅數(0

叫?

數據桀的笫個四分位數成發生枕25%處,即在?Z+l)/4=7處。所以:<?i=2O

向第T個四分儀數應發生作75%處.即在3x(Z+l>/4=2l處“所以:Q=35

(c)令Hi數甥的五數概括?

?個數抹:朱的分布的5數做括由取小伍、笫?個四分位數、中位數、第三個

四分位數、和圾入伍構成。七給山廣分布形狀良好的匯總,并1L迂也數據足:13.

20、25、35、70。

(g)分位數一分位數圖與分位數圖的不同之處是什么?分位數圖是一種用來展示數據值低于或等

早在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展示所有數的分位數信息,而為獨立

變量測得的值(縱軸)相對于它們的分位數(橫軸)被描繪出來。但分位數一分位數圖用縱軸表示一

種單變量分布的分位數用橫軸表示另一單變重分布的分位數。兩個坐標軸顯示它們的測量值相應分布

的值域,且點按照兩種分布分位數值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該

線以上的點表示在y軸上顯示的值的分布比x軸的知應的等同分位數對應的值的分布高。反之,對

落在該線以下的點則低。

2.7使用習題2.4給出的age數據回答下列問題:

(a)使用分箱均值光滑對以上數據進行光滑,箱的深度為3。解釋你的步驟。評述

W于給定的數據,該技術的效果。

(b)如何確定數據中的離群點?

(c)對于數據光滑,還有哪些其他方法?

答:(a)使用分箱均值光滑對以上數據進行光

滑,箱的深度為3O解釋你的步驟:評述對于給

定的數據,該技術的效果。

用箱深度為3的分箱均值光滑對以上數據進行光滑需要以下步驟:

破驟1:對數據排序。(因為數據已被排序,所以此時不需要該步驟。)

?步驟2:將數據劃分到大小為3的等頻箱中。

箱1:13,15,16箱2:16,19,203:20,21,22

箱4:22,25,25箱5:25,25,306:33,33,35

箱7:35,35,35箱8:36,40,459:46,52,70

?步驟3:計算每個等頻箱的算數均值。

。步驟4:用各箱計算出的算數均值替換每箱中的每個值。

箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21

箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3

箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56

(b)如何確定數據中的離群點?聚類的方法可用來將相似的點分成組或“簇”,并

檢測離群點。落到簇的集外的值可以被視為離群點。作為選擇,一種人機結合的檢

測可被采用,而計算機用一種事先決定的數據分布來區分可能的寓群點這些可能

的離群點能被用人工輕松的檢驗,而不必檢查整個數據集。

(c)對于數據光滑,還有哪些其他方法?

其它可用來數據光滑的方法包括別的分箱光滑方法如中位數光滑和箱邊界光滑。作為選擇,等寬箱可

被用來執行任何分箱方式,其中每個箱中的數據范圍均是常量。除了分箱方法外,可以使用回歸技術

擬合成函數來光滑數據,如通過線性或多線性回歸。分類技術也能被用來對概念分層,這是通過將低

級概念上卷到高級概念來光滑數據。

2.12如下規范化方法的值域是什么?

(a)min-max規范化。

(b)z-score規范化。

(c)小數定標規范化。

答:

(a)min-max規范化。值域是

[new_min,new_max]o

(b)(b)z-score規化。

盾域是[(oldmin-mean)/a,(oldmax-mean)/a],總的來說,對于所有可能的

數據集的值鈦是「8,+切。-

(C)小數定標規范化

值域是(-1.0,1.0)。

2.12使用習題2.4給出的

age數據,回答以下問題:

(a)使用min-max規范化將age值35變換到[0.0,1.0]區間。

(b)使用z-score規范化變換age值35,箕中age的標準差為12.94歲。

(c)使用小數定標規范化變換age值35o

(d)對于給定的數據,你愿意使用哪種方法?陳述你的理由

(a)使用min-max規范化將age值35變換到[().(),1.0]區間。

*.*minA=13,maxA=70.new_ininA=0.0tnew_maxA=1.0?iftjv=35.

吁min4〔.、.

--------------------\newmax.-newmm.I+newmin”

max4-mm/

35-13

(1.0-0.0)+0.0=0.3860

70-13

(b)使z-score現粒化變換age值35.此中age的標次注為12.94歲.

—=13+15+2x16+19+2x20+21+2x22+4x24

27

30+2x33+4x35+36+40+45+46+52+70

27

翳=29.3

工(彳,一刁

b/士---------=161.2949.crJb:=12.7002

2(〃-0

破------------=167.4986?s=12.9421

v-35

±=35-29Q63=5X)37..=o3966=O.4OO

12.700212.7002

成2^=35—29963=5.037=。33=0.39

12.942112.9421

(c)使用小數定標規范化變換age值35。

由于最大的絕對值為70.所以尸2。J言=含=。35

2.14假設12個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,

204,215c使用如下每種方法將其劃分成三個箱。

(a)等頻(等深)劃分。(b)等寬劃分。⑹聚類。

攻口?.

(a>?事回<二至5%)切夕如

binI5.IO.11.13

bin11S.35.5O.55

binI72.91,2<M.215

(b)再,劃分.

4江4、[式的"魄J虬址:(215-5>/3=7O

bin15.10.11.13.15.35.50,55.72

bin191

binl2O4.N15

(c>蜜獎.

我J門川以<史目J仲向?¥'的轆光寸支木:J”2個垣人的r?J秘T與數和;分心3個希,

binl5.10.11.13.15

binl35.50.55.72.91

binl20-4.215

2.15使用習題2.4給出的age數據,

(a)畫出一個等寬為10的等寬直方圖;

(b)為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽

釋。使用大小為5的樣本和層“青年”,中年”和“老年’3

解答:

(a>ilHiHl-個■?電力1OCKJ飛空?蛇f*LZ/%1:

(b)為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層

抽樣。使用大小為5的樣本和層“青年”中年”和“老年、元組:

Ti13Tto22Tw35

Tn2535

r2IST2o

Ty16Tt225T2I35

丁416T|325T2236

Ts19Tl425T2340

Tc20TIS30T2445

T720Ts33T”46

T.21T|733Tze52

TQ22T.H35T2770

SRSWOR和SRSWR:不是I司次的段1HL抽怦結Mi“「以不IT.任〔I詢NIN無放IT

所以不值彳丁桶”J的元絢.

SRSWOR<n-5)SRSWR(n=5)

T416丁720

Tc20TT20

T.o22T2O35

Tn25T2135

Tae52T2546

維央劑I*丫:血&3鍬炎八/J6央.伯m央.

Sample1Sumplc2Sample3Suniplc^lSamplc5Suniplc<)

T,1320TM25Tic33T2I35下2。52

T17

Ta15TT20T.a2533Ts36T2770

Te16TM21TIS25TIM35T-40

T416TQ22Tx25TIV35T"45

Ts19TIO22T.s30Tao35T2S46

Sampie2Sample5

20Tai35

T720TNN36

TH21T”4c

Tv22T2445

T.o22T”46

分/illITs按JKt々出色分扣1fTlH?小I?寸的砒行L收的紓」UL4<l?d.

T”16

T1225

33micJdluH&U

TTa?46middle

丁*770Senior

Z.X55555S55S5555555SSS55555SS

第三章數據倉庫與OLAP技術概述

3.4假定BigUniversity的數據倉庫包含如下4個維student(student_name,area_id,major,status,

university),course(course_name,department),semester(semester,year)和instructor(dept,

rank);2個度■::count和avg_gradeo在最低概念層,度?avg_grade存放學生的實際

課程成績。在較高概念層,avg_grade存放給定組合的平均成績。

(a)為該數據倉庫畫出雪花形模式圖。

(b)(b)由基本方體[student,course,semester,instructor]開始,為歹!1出

BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OSP操作。

(c)如果每維有5層(包括all)$0ustudent<major<status<university<all該立方

標包含多少方體?

解答:

a)為該數據倉庫畫出雪花形模式圖。雪花模式如圖所示。

b)由基本方體[student,course,semester,instructor]開始,為列出BigUniversHy每個

學生的CS課程的平均箴績應當使用哪些特殊的OLAP操祚。這些特殊的聯機分析屈理(OLAP)

操作有:i.沿課程(course)維從courseJcT上卷'到departmento

ii.沿學生(student)維從studentjd“上卷”到universityo

iii.取department="CS”和university=uBigUniversity11,沿課程(course)維和學生(student)

維切片。

iv.沿學生(student)維從university下鉆到student_nameo

c)如果每維有5居包括all翅tudentvmajorvstatusvuniversityvall:該立方體包含

這.立方止將包含54=625個方體

courseunivstudent

脩々

兇3.4m33.4中數加的?,;化唯快」t

3.22222222

3.33333333

第四章數據立方體計算與數據泛化

4.3題4.12考慮下面的多特征立方體查詢:按{itemregion,month)的所有子

集分組,對每組找出2004年的最小貨架壽命,并對價落低于100美元、貨架

壽命在最小貨架壽命的1.25-1.5倍之間的元組找出總銷售額部分。

a)畫出該查詢的多特征立方體圖。

b)用擴充的SQL表示該查詢。

c)這是一個分布式多特征立方體嗎?為什么?

解答:

(a)畫出該查詢的多特征立方體圖。

R0->R1(>1.25*min(shelf)and<1.5*min(shelf))(b)用擴

充的SQL表示該著詢。

Selectitem,region,month,Min(shelf),SUM(R1)

FromPurchase

Whereyear=2004

cubebyitem,region,month:R1

suchthatR1.sheIf>1.25*MIN(Shelf)and(R1.Shelf^l.5*MIN(Shelf)and

R1.Price<100

(c)這是一個分布式多特征立方體嗎?為什么?

這不是一個分布多特征立方體,因為在“suchthat”語句中采用了“。條件。

第五章

5.3數據庫有5個事物。設min_sup=60%,min_conf=80o

TID購買的商品

T100{M,O.N,K.E,Y)

T200{D,O,N,K,E.Y)

T300{M,A,K,E)

T400{M,U,C,K,Y}

T500{C,O,O,K,I,E)

a)分別使用Apriori和FP增長算法找出所有的頻繁項集。比較兩種挖

掘過程的效率。

b)列舉所有與下面的的元規則匹配的強關聯規則(給出支持度s和置信

度c其中X是代表顧客的變量item是表示項的變量(如T'"B”等)

transaction,buys(X,itemi)Abuys(X,item2)=t)uys(X,items)[s,c]

解答:

(a)分別使用Apriori和FP增長算法找出所有的頻繁項集。比較兩種挖掘

過程的效率。

Apriori算法:由于只有5次購買事件,所以絕對支持度是5xmin_sup=3o

A/3-

MOr

O3

AfK3

N2

ME2

AT53~3-

A/r2

E-1O3OK3

3OKE3

Y3X,=AT5C\—OE3

OE3=KEY2

D1E4KE4

OY2

A1r3KY3

KE4

U1

KY3

Q2

EY2

/1

Z、=3]

FP-growth:數圳蚱的笫-次+I描1jApriori算法相同.得至UL?再按支持發

計數的遞減小打小?得到:L=UK:5),(E:4),(M:3),(0:3),(Y3)}.#|描沒彳、3

務.按以上L的拼方?從根心點開始.得到FP■樹.

頊條件模式枯條件FP樹產生的順繁悚式

YK:3

O\.{KE:2”K3?E:3(KO:3}?{E,O:3>.(KE.O:3}

M({KE:2},{KI}}1C3

E《{K4”K:4{KE:4}

效率比較:Aphori算法的計算過程必須對數據庫作多次掃描,而FP-增長算

法在構造過程中只需掃描一次數據庫,再加上初始時為確定支持度遞減排序的一次

掃描,共計只需兩次掃描。由于在Apriori算法中的自身連接過程產生候選項

集,候選項集產生的計算代價非常高,相FP-增長算法不需產生任何候選項。

髀列婁喇鵬孽裔規牌鬟警癮喝翻1第A饕蜃」和置信度c)

transaction,buys(X,uK,)Abuys(X,,O,)=5buys(X,UE][s=0.6,c=1]

Vketransaction,buys(X,"E')Abuys(X,"E)=t)uys(X,"K)[s=0.6,c=1]

或也可表示為

K,O-^E[s(support)=0.6或60%,c(confidence)=1或100%]

E,O—>K[s(support)=0.6或60%,c(confidence)=1或100%]

第六章

6.11下表由金員數據庫蚓l|練數據組成。數據已泛化。例如,296“31...35”表示年齡在童~35之間。

對于給定的行,count表示department,status,age和salary在該行具有給定值的元

departmentstatussalarycount

salessenior31---3546K…50K30

salesjunior26…3026K…30K40

salesjunior31…3531K…35K40

systcmsjunior21--2546K---5OK20

systemssenior31???3566K---7OK5

systemsjunior26---3046K…50K3

systemssenior41…4566K…70K3

marketingsenior36---4O46K---5OKIO

marketingjunior31…3541K---45K4

secretarysenior46---

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論