數(shù)據(jù)挖掘期末復習_第1頁
數(shù)據(jù)挖掘期末復習_第2頁
數(shù)據(jù)挖掘期末復習_第3頁
數(shù)據(jù)挖掘期末復習_第4頁
數(shù)據(jù)挖掘期末復習_第5頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)數(shù)據(jù)挖掘總復習題數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標準進行分類? 挖掘的數(shù)據(jù)庫類型分類、挖掘的知識類型分類、所用的技術分類、應用分類2知識發(fā)現(xiàn)過程包括哪些步驟? 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示3什么是概念分層?一個概念分層定義一個映射序列,將底層概念到更一般的高層概念。4多維數(shù)據(jù)模型上的OLAP操作包括哪些?上卷、下鉆、切片和切塊、轉(zhuǎn)軸、其它OLAP操作5OLAP服務器類型有哪幾種?關系OLAP(ROLAP)服務器、多維OLAP(MOLAP)

2、服務器、混合OLAP(HOLAP)服務器、特殊的SQL服務器 6數(shù)據(jù)預處理技術包括哪些? 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約7什么是數(shù)據(jù)清理? 數(shù)據(jù)清理例程可以用于填充遺漏的值,平滑數(shù)據(jù),找出局外者并糾正數(shù)據(jù)的不一致性8什么是數(shù)據(jù)集成?數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合成、存放在一個一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫中。這些源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)方或一般文件。 9什么是數(shù)據(jù)歸約?數(shù)據(jù)歸約技術,如數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約和離散化都可以用來得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失最小。10數(shù)據(jù)清理的內(nèi)容包括哪些? 遺漏值、噪音數(shù)據(jù)、不一致數(shù)據(jù)11.將下列縮略語復原OLAPon-line

3、 analytical processingDMdata miningKDDknowledge discovery in databasesOLTPon-line transaction processingDBMSdatabase management systemDWTdiscrete wavelet transform12什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的人們事先不知道的,但又有潛在有用的信息和知識的過程。13什么是關聯(lián)規(guī)則?什么是強關聯(lián)規(guī)則?強關聯(lián)規(guī)則都是有趣的嗎?關聯(lián)規(guī)則:關聯(lián)規(guī)則挖掘?qū)ふ医o定數(shù)據(jù)集中項之間的有趣

4、聯(lián)系。強關聯(lián)規(guī)則:同時滿足用戶定義的最小置信度閾值和最小支持度閾值的關聯(lián)規(guī)則稱為強關聯(lián)規(guī)則。都是有趣的14什么是可信度? 規(guī)則的蘊涵強度估計15什么是支持度? 出現(xiàn)規(guī)則模式的任務相關元祖所占的百分比16數(shù)據(jù)倉庫的主要特征是什么?面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合。 17什么是數(shù)據(jù)集市? 數(shù)據(jù)及時包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的。其范圍限于選定主題。18數(shù)據(jù)庫中的知識發(fā)現(xiàn)過程由哪幾個步驟組成? (1)數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達和解釋19典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個主要成分? 數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器;知識庫;數(shù)據(jù)挖掘引擎

5、;模式評估模塊;用戶界面20從軟件工程的觀點來看,數(shù)據(jù)倉庫的設計和構(gòu)造包含哪些步驟? 規(guī)劃、需求研究、問題分析、倉庫設計、數(shù)據(jù)集成和測試,最后,配置數(shù)據(jù)倉庫。21在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要? 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個極其困難的任務。22臟數(shù)據(jù)形成的原因有哪些?濫用縮寫詞、數(shù)據(jù)輸入錯誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的慣用語、重復記錄、丟失值、拼寫變化、不同的計量單位、過時的編碼。 23數(shù)據(jù)清理時,對空缺值有哪些處理方法? 忽略元祖、人工填寫遺漏值、使用一個全局常量填充遺漏值、使用屬性的平均值填充遺漏值、使用與給定元祖屬同一類的所有樣本的平均

6、值、使用最可能的值填充遺漏值24什么是數(shù)據(jù)變換?包括哪些內(nèi)容?數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。包括內(nèi)容有,平滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造25數(shù)據(jù)歸約的策略包括哪些?數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層26提高數(shù)據(jù)挖掘算法效率有哪幾種思路?減少對數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項集;改進對候選項集的支持度計算方法27假定屬性income的最小值與最大值分別為¥12000和¥98000,如映射income到區(qū)間0.0,1.0,根據(jù)min-max規(guī)范化,income值¥73600將變?yōu)?3631/551 。28假定屬性income的平均值和標準差分別為¥54000和¥

7、16000。使用Z-score規(guī)范化,值¥73600被轉(zhuǎn)換為 1.225 。29假定A的值由-986到917。A的最大絕對值為986,使用小數(shù)定標規(guī)范化,-986被規(guī)范化為 -0.986 。30從結(jié)構(gòu)角度來看,有三種數(shù)據(jù)倉庫模型_企業(yè)倉庫、數(shù)據(jù)集市、和虛擬倉庫_。31什么是聚類分析?它與分類有什么區(qū)別?將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程32.與數(shù)據(jù)挖掘類似的術語有:數(shù)據(jù)庫中挖掘知識、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33解釋下列術語34翻譯下列術語Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉庫Data Mart 數(shù)據(jù)集市dril

8、l-down 下鉆roll-up 上卷OLAP 聯(lián)機分析處理Data cube 數(shù)據(jù)立方體Association rule 關聯(lián)規(guī)則Data cleaning 數(shù)據(jù)清理Data integration 數(shù)據(jù)集成Data transformation 數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約35.可以對按季度匯總的銷售數(shù)據(jù)進行_B_,來觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D切塊36可以對按城市匯總的銷售數(shù)據(jù)進行_A_,來觀察按國家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D切塊37通過不太詳細的數(shù)據(jù)得到更詳細的數(shù)據(jù),稱為_B_。A 上卷 B 下鉆 C 細化 D維規(guī)約38三層數(shù)據(jù)

9、倉庫結(jié)構(gòu)中,從底層到尾層分別是_數(shù)據(jù)倉庫服務器、OLAP服務器、客戶_。*39已知事務數(shù)據(jù)庫D,假定最小支持度為2,求所有的頻繁項集和它們的支持度。第一步 由數(shù)據(jù)庫D求得候選數(shù)據(jù)項集C1,項A、B、C、D、E的次數(shù)分別為2、3、3、1、3。第二步:根據(jù)最小支持度為2,生成一維數(shù)據(jù)項集L1。第三步:為生成L2,通過L1與自己連接產(chǎn)生候選2-項集的集合,記為C2,再由最小支持度得到L2。第四步:從L2生成C3,首先兩個具有相同首項的數(shù)據(jù)項:BC和BE可以確定下來,在考察BC和BE的尾項生成的數(shù)據(jù)項集CE是否滿足最小支持度,結(jié)果成立。這樣BCE的所有二維子集都是頻繁數(shù)據(jù)項集,所以BCE是候選數(shù)據(jù)項集

10、。同時,從L2也得不到其他三維候選數(shù)據(jù)項。這樣C3就確定了,同理求出L3。 到此為止,得不到更高維的數(shù)據(jù)項集了,即整個頻繁數(shù)據(jù)項集就確定了。40. 類比較過程有哪幾個步驟?(1)數(shù)據(jù)收集通過查詢處理收集數(shù)據(jù)庫中相關的數(shù)據(jù),并將其劃分為一個目標類和一個或多個對比類。(2)維相關分析使用屬性相關分析方法,使我們的任務中僅包含強相關的維。(3)同步概化同步的在目標類和對比類上進行概化,得到主目標類 關系/方體 和 主對比類 關系/方體。(4)導出比較的表示用可視化技術表達類比較描述,通常會包含“對比”度量,反映目標類與對比類間的比較。41. 給出數(shù)據(jù)倉庫的某種概念模式圖,會用DMQL語句描述該概念模

11、式,包括事實與維。自頂向下、數(shù)據(jù)源、數(shù)據(jù)倉庫、商務查詢。42常用的四種興趣度的客觀度量。簡單性 確定性 實用性 新穎性43四種常用的概念分層類型。模式分層、集合分組分層、操作導出的分層、基于規(guī)則的分層44各種DMQL子句的表述。1. use database or use data warehouse/ use子句將數(shù)據(jù)挖掘任務指向說明的數(shù)據(jù)庫或數(shù)據(jù)倉庫. 2. fromwhere/from 和where子句分別指定所涉及的表或數(shù)據(jù)立方體和定義檢索數(shù)據(jù)的條件 3. in relevance to :該子句列出要探查的屬性和維 4. order by :order by 子句說明任務相關的數(shù)據(jù)排序的次序 5. group by: group by 子句說明數(shù)據(jù)分組的標準 6. having :having 子句說明相關數(shù)據(jù)分組條件45如何理解現(xiàn)實世界的數(shù)據(jù)是“骯臟的”?不完整的、含噪聲的、不一致的、重復的46多維數(shù)據(jù)倉庫有哪幾種概念模型?星形模型、雪花模型、或事實星座模式48. 在多路數(shù)組聚集方法中,為盡量少占內(nèi)存,各平面要按什么順序排列進行計算?將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計算一塊。49. 全自動的數(shù)據(jù)挖掘系統(tǒng)是可行嗎?50. 什么決定所使用的數(shù)據(jù)挖掘功能?挖掘什么類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論