數(shù)據(jù)挖掘概念與技術(shù)習(xí)題答案匯總_第1頁
數(shù)據(jù)挖掘概念與技術(shù)習(xí)題答案匯總_第2頁
數(shù)據(jù)挖掘概念與技術(shù)習(xí)題答案匯總_第3頁
數(shù)據(jù)挖掘概念與技術(shù)習(xí)題答案匯總_第4頁
數(shù)據(jù)挖掘概念與技術(shù)習(xí)題答案匯總_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1.4 數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。翻譯結(jié)果重試抱歉,系統(tǒng)響應(yīng)超時(shí),請(qǐng)稍后再試· 支持中文、英文免費(fèi)在線翻譯 · 支持網(wǎng)頁翻譯,在輸入框輸入網(wǎng)頁地址即可 · 提供一鍵清空、復(fù)制功能、支持雙語對(duì)照查看,使您體驗(yàn)更加流暢1.3 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和

2、相關(guān)分析、預(yù)測聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。答:特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些特征包括作為一種高的年級(jí)平均成績(GPA:Grade point aversge)的信息,還有所修的課程的最大數(shù)量。􀁺 區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA 的學(xué)生的75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)

3、的學(xué)生,而具有低GPA 的學(xué)生的65%不是。􀁺 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98% 其中,X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度)。􀁺 分類與預(yù)測不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列

4、能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。􀁺 聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。􀁺 數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢,盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類

5、、或預(yù)測,這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析2.3 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。 年齡 頻率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 計(jì)算數(shù)據(jù)的近似中位數(shù)值。 解答: 先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=950<1597<2450=950+1500; 2050 對(duì)應(yīng)中位數(shù)區(qū)間。 median=32.97 歲。2.2 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組

6、的age 值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位數(shù)應(yīng)是第14個(gè),即x14=25=Q2。(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個(gè)數(shù)集的眾數(shù)有兩個(gè):25 和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)

7、。(c) 數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=(27+1)/4=7 處。所以:Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且這些數(shù)據(jù)是:13、20、25、35、70。(f)

8、畫出數(shù)據(jù)的盒圖。 (g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。2.4假設(shè)醫(yī)院檢測隨機(jī)選擇的1

9、8個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:(a)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差.年齡均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位數(shù)= (50+52)/2=51, 標(biāo)準(zhǔn)差=方差的平方根=開根號(hào)( 1/n(Xi)2-1/n(Xi)2)=開根號(hào) 1/182970.44=12.85.脂肪百分比均值=28.78, 中位數(shù)=30.7, 標(biāo)準(zhǔn)差= 8.99. (b)繪制年齡和脂肪百分比的盒圖(c)根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖 q-q圖 散布圖(d)根據(jù)z-score 規(guī)范

10、化來規(guī)范化這兩個(gè)屬性(P46)(e)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)). 這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)?ra,b=(ai-A)(bi-B)/NAB=((aibi)-NAB)/NAB=((aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相關(guān)系數(shù)是0.82。變量呈正相關(guān)。3.3 使用習(xí)題2.4 給出的age 數(shù)據(jù)回答下列問題: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。 評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 解答: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度

11、為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟: 步驟1:對(duì)數(shù)據(jù)排序。(因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。) 步驟2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。 步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/

12、3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? 聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并檢測離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。 (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中

13、位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層,這是通過將低級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。3.5 如下規(guī)范化方法的值域是什么?答:(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來說,對(duì)于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。3.7 使用習(xí)題 2.4 給出的 age 數(shù)

14、據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到0.0,1.0區(qū)間。(b) 使用 z-score 規(guī)范化變換 age 值 35,其中 age 的標(biāo)準(zhǔn)差為 12.94 歲。(c) 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35。(d) 對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:3.9 假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。(a) 等頻(等深)劃分。(b) 等寬劃分。 (c) 聚類。 解答:(a) 等頻(等深)劃分。bin15,10,11,13b

15、in115,35,50,55bin1 72,91,204,215(b) 等寬劃分。每個(gè)區(qū)間的寬度是:(215-5)/3=70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c) 聚類。我們可以使用一種簡單的聚類技術(shù):用 2 個(gè)最大的間隙將數(shù)據(jù)分成 3 個(gè)箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2153.11 使用習(xí)題 2.4 給出的 age 數(shù)據(jù),(a) 畫出一個(gè)等寬為 10 的等寬直方圖;(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和

16、層“青年”,“中年”和“老年”。解答:(a) 畫出一個(gè)等寬為 10 的等寬直方圖;87654321015 25 35 45 55 65(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。元組:T 113T 1022T 1935T 215T 1125T 2035T 316T 1225T 2135T 416T 1325T 2236T 519T 1425T 2340T 620T 1530T 2445T 720T 1633T 2546T 821T 1733T 2652T 922T 1835T 2770SRSWOR

17、 和 SRSWR:不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T 416T 720T 620T 720T 1022T 2035T1125T 2135T 2652T 2546聚類抽樣:設(shè)起始聚類共有 6 類,可抽其中的 m 類。Sample1Sample2Sample3Sample4Sample5Sample6T 113T620T 1125T 1633T 2135T 2652T 215T720T 1225T 1733T 2236T 2770T 316T821T 1325T 1835T 2340T 416T922T 1425T 19

18、35T 2445T 519T 1022T 1530T 2035T 2546Sample2 Sample5T 620T2135T 720T2236T 821T2340T 922T2445T 1022T2546T113youngT 1022youngT 1935middle ageT215youngT 1125youngT 2035middle ageT316youngT 1225youngT 2135middle ageT416youngT 1325youngT 2236middle ageT519youngT 1425youngT 2340middle ageT620youngT 1530mi

19、ddle ageT 2445middle ageT720youngT 1633middle ageT 2546middle ageT821youngT 1733middle ageT 2652middle ageT922youngT 1835middle ageT 2770seniorT416youngT 1225youngT 1733middle ageT 2546middle ageT 2770Senio r4.3 假定數(shù)據(jù)倉庫包含三維:time,doctor和patient;和兩個(gè)度量:count和charge;其中,charge是醫(yī)生對(duì)病人一次診治的收費(fèi)。(a)列舉三種流行的數(shù)據(jù)倉庫建

20、模模式答:三類模式一般用于建模數(shù)據(jù)倉庫架構(gòu)的星形模型,雪花模型和事實(shí)星座模型。(b)使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉庫的模式圖 數(shù)據(jù)倉庫的星形模型(C)由基本方體day,doctor,patient開始,為列出2004年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?沿課程(course)維從course_id“上卷”到department。l 沿時(shí)間(time)維從 day “上卷”到 year。l 取 time=2004,對(duì)維 time作“切片” 操作l 沿病人(patient)維從 個(gè)別病人 “上卷”到 全部病人。(d)為得到同樣結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中

21、,其模式為fee(day,month,year,doctor,hospital,patient,count,charge)。答:SQL查詢語句如下:select doctor, SUM(charge) from feewhere year=2004group by doctor4.4 假定 BigUniversity 的數(shù)據(jù)倉庫包含如下 4 個(gè)維:student(student_name,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 inst

22、ructor(dept, rank);2 個(gè)度量:count 和 avg_grade。 在最低概念層, 度量 avg_grade 存放學(xué)生的實(shí)際 課程成績。在較高概念層, avg_grade 存放給定組合的平均成績。(a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。(b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績,應(yīng)當(dāng)使用哪些特殊 的 OLAP 操作。(c) 如果每維有 5 層(包括 all),如“student<major<status<unive

23、rsity<all ”, 該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績,應(yīng)當(dāng)使用哪些特殊的 OLAP 操作。這些特殊的聯(lián)機(jī)分析處理(OLAP )操作有:i.沿課程(course)維從 course_id “上卷”到 department。ii.沿學(xué)生(student)維從 student_id “上卷”到 university 。iii. 取 department=

24、“CS ”和 university= “Big University ”,沿課程(course)維和學(xué)生(student)維切片。iv.沿學(xué)生(student)維從 university 下鉆到 student_name。c) 如果每維有 5 層(包括 all),如“student<major<status<university<all ”, 該立方體包含多少方體?這個(gè)立方體將包含 54=625 個(gè)方體。4.5 假定數(shù)據(jù)倉庫包含4維:date, spectator, location, 和game,和兩個(gè)度量:count和charge;其中,charge是觀眾在給定的日

25、期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老年人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a)畫出該數(shù)據(jù)倉庫的星形模式圖。答: 星形模式圖如下:b. 由基本方體date,spectator,location,game開始,為列出2004年學(xué)生觀眾在GM_Place的總付費(fèi),應(yīng)執(zhí)行的OLAP操作:l 沿時(shí)間(date)維從date_id “上卷”到 year。l 沿時(shí)間(game)維從 game_id “上卷”到全部。l 沿時(shí)間(location)維從location_id “上卷”到 location_name 。l 沿時(shí)間(spectator)維從spectator_id “上卷”到 status 。l

26、 以 status="students", location name="GM Place" and year=2004 作轉(zhuǎn)軸操作4.6 數(shù)據(jù)倉庫可以用星形模式或雪花模式建模。簡略討論這兩種模式的相似點(diǎn)和不同點(diǎn),然后分析它們的相對(duì)做優(yōu)、缺點(diǎn)。哪種模式更實(shí)用,給出你觀點(diǎn)并陳述你的理由。 答:星形模式或雪花模式的相似點(diǎn)是它們包含一個(gè)事實(shí)表和一些維表。它們主要的不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少了冗余,這種表易于維護(hù)并節(jié)省存儲(chǔ)空間。然而,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花形結(jié)構(gòu)可能降低瀏覽的

27、性能,這樣,系統(tǒng)的性能可能相對(duì)的受到影響。星型模式的優(yōu)點(diǎn)是簡單、這使得它更有效,但它需要更多的空間。因此,只要空間的要求不是太大時(shí),星形模式比雪花模式更好,因?yàn)橥ǔP时瓤臻g具有更高的優(yōu)先級(jí)。在工業(yè)上,有時(shí)可能將數(shù)據(jù)從一個(gè)雪花模式非規(guī)范化為星型模式以加快處理速度,另一種選擇是保持雪花模式的維表,然后相同數(shù)據(jù)的當(dāng)前用戶折疊為星形。4.9 4.115.1 5.25.4 假定基本方體有三維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成10部分。(a)假定每維只有一層,畫出完整的立方體的格。 答:完整的立方體的格如下圖(b)如果每個(gè)立方體單元存

28、放一個(gè)4字節(jié)的度量,若立方體是稠密的,所計(jì)算的立方體有多大?答:所計(jì)算的立方體大小如下:all:1 A: 1,000,000; B: 100; C: 1, 000; 小計(jì): 1,001,100AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000; AC: 1,000,000*1,000=1,000,000,000; 小計(jì): 1,100,100,000 ABC: 1,000,000*100*1,000=100,000,000,000總和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101

29、,101 * 4 = 404,404,404,404 字節(jié)(C)指出空間需求量最小的立方體中的塊計(jì)算次序,并計(jì)算2-D平面計(jì)算所需要的內(nèi)存空間總量。 答:順序計(jì)算,需要最少數(shù)量的空間B-C-A.如圖所示:計(jì)算二維平面需要的總主內(nèi)存空間是:總空間 = (100×1,000) + (1,000,000 × 10) + (100 × 10,000) = 20,100,000 單元* 4字節(jié)/單元= 80,400,000 字節(jié)6.3 Apriori算法使用子集支持性質(zhì)的先驗(yàn)知識(shí)。(a) 證明頻繁項(xiàng)集的所有非空的子集也必須是頻繁的。答:設(shè)s是一個(gè)頻繁項(xiàng)集,min_sup 是

30、最小支持度閥值,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D 有事務(wù)量,則有Support_count(s) = min_sup×|D|;再設(shè)s是s的非空子集,則任何包含項(xiàng)集s的事務(wù)將同樣包含項(xiàng)集s , 即:support_ count(s') support count(s) = min_sup ×|D|.所以,s也是一個(gè)頻繁項(xiàng)集。(b) 證明項(xiàng)集s的任意非空子集s的支持至少和s的支持度一樣大。 答:設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D 的事務(wù)量,由定義得:設(shè)s是s的非空子集,由定義得:由(a)可知:support(s) support(s)由此證明

31、,項(xiàng)集s的任意非空子集s的支持至少和s的支持度一樣大。(c)給定頻繁項(xiàng)集 l 和 l 的子集 s ,證明規(guī)則的置信度不可能大于 答:設(shè) s 是 l 的子集, 則 設(shè)s是s的非空子集,則 由(b)可知:support_count(s') support count(s), 此外,confidence(s) (l-s) confidence(s) (l- s)所以,規(guī)則的置信度不可能大于。6.6設(shè)數(shù)據(jù)庫有5個(gè)事務(wù)。設(shè)min_sup =60%, min_conf=80%(a)分別使用Apriori和FP增長算法找出所有頻繁項(xiàng)集。比較兩種挖掘過程的效率。效率比較:Apriori需多次掃描數(shù)據(jù)庫

32、而FP增長建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接),而FP增長不產(chǎn)生任何候選。 (b)列舉所有與下面的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度S和置信度C),其中,X是代表顧客的變量,itemi是表示項(xiàng)的變量(如:“A”、“B”等):答: k,o e 0.6,1e,o k 0.6,16.8.數(shù)據(jù)庫有4個(gè)事務(wù),設(shè)min_sup =60%, min_conf=80%(a)在item_category粒度(例如,itemi 可以是“Milk”),對(duì)于下面的規(guī)則模板對(duì)最大的k,列出頻繁k項(xiàng)集包含最大的k的頻繁k項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則(包括它們的支持度S和置信度c).(b)在 粒度(例如:itemi 可以是“Sunset-Milk”)對(duì)于下面的規(guī)則模板對(duì)最大的k,列出頻繁k項(xiàng)集(但不輸出任何規(guī)則)。6.14 下面的相依表匯總了超級(jí)市場的事務(wù)數(shù)據(jù)。其中,hot dogs表示包含熱狗的事務(wù),hot dogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示不包含漢堡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論