數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘必考點(diǎn)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘必考點(diǎn)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘必考點(diǎn)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一章1、數(shù)據(jù)倉(cāng)庫(kù):是一個(gè) 面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù) 集合。組成:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù),數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問(wèn)工具,數(shù)據(jù)集市,數(shù) 據(jù)倉(cāng)庫(kù)管理,信息發(fā)布系統(tǒng);2、元數(shù)據(jù):技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)。3、數(shù)據(jù)處理:聯(lián)機(jī)事務(wù)處理OLTP聯(lián)機(jī)分析處理。(OLAP)4、多維分析采取:切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動(dòng)作。5、ROLAP關(guān)系數(shù)據(jù)庫(kù)MOLAP多維數(shù)據(jù)構(gòu)造組織的OLAP實(shí)現(xiàn)。HOLAP混合數(shù)據(jù)組織6數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程:數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)表現(xiàn);7、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系構(gòu)造 根據(jù)應(yīng)用需求的不同:兩層架構(gòu),獨(dú)立型數(shù)據(jù)集市,依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ),邏輯型數(shù)據(jù)集市和實(shí)時(shí)

2、數(shù)據(jù)倉(cāng)庫(kù)8、操作型數(shù)據(jù)存儲(chǔ):是一個(gè) 集成的、面向主題的、可更新的、當(dāng)前值的、企業(yè) 級(jí)的、詳細(xì)的數(shù)據(jù)庫(kù),也叫運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)。9、“實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù):接近 實(shí)時(shí)的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)那么。10、一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成? P12數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP效勞器、前端工具與應(yīng)用第二章1、調(diào)和數(shù)據(jù):是存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和操作型數(shù)據(jù)存儲(chǔ) 中的數(shù)據(jù)。2、抽取、轉(zhuǎn)換、加載ETL目的:是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù) 據(jù)源。因此,我們要求ETL過(guò)程產(chǎn)生的數(shù)據(jù)即調(diào)和數(shù)據(jù)層是 詳細(xì)的、歷史的、標(biāo)準(zhǔn) 的、可理解的、即時(shí)的和質(zhì)量可控制的。3、數(shù)據(jù)抽取:從源文件和源數(shù)據(jù)庫(kù)中獲取相關(guān)數(shù)據(jù)用于填充數(shù)據(jù)倉(cāng)庫(kù);兩個(gè)

3、常見(jiàn)類(lèi)型靜態(tài)抽取用于:最初填充數(shù)據(jù)倉(cāng)庫(kù);增量抽取用于:數(shù)據(jù)倉(cāng)庫(kù)的維護(hù);4、數(shù)據(jù)清洗:使用模式識(shí)別和其他技術(shù)將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉(cāng)庫(kù)之前升級(jí)數(shù)據(jù)質(zhì)量的技術(shù);5、數(shù)據(jù)轉(zhuǎn)換:把數(shù)據(jù)從源操作業(yè)務(wù)系統(tǒng)的格式 轉(zhuǎn)換到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)格式;6粒度越小,細(xì)節(jié)程度越高,綜合程度越低,答復(fù)查詢的種類(lèi)越多。7、多維數(shù)據(jù)建模:以維度為中心、多個(gè)角度分析有關(guān)數(shù)據(jù) 的建模。存在形式:星型、雪花型、事實(shí)星座模式8、星型模式可以從一定程度上 提高查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng) 經(jīng)過(guò)預(yù)處理,主要數(shù)據(jù)都在龐大的 事實(shí)表 中。9、維度表 一般由主鍵、 分類(lèi)層次和描述屬性組成。 對(duì)于主鍵可以選擇兩種方式: 一種是采用

4、自然鍵 ,另一種是采用 代理鍵 。10、雪花型模式是對(duì)星型模式維表的進(jìn)一步層次化和標(biāo)準(zhǔn)化來(lái)消除冗余的數(shù)據(jù)。11、數(shù)據(jù)倉(cāng)庫(kù)中存在不同綜合級(jí)別的數(shù)據(jù)。 一般把數(shù)據(jù)分成 4 個(gè)級(jí)別: 早期細(xì)節(jié) 級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí)。12、 簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30ETL軟件的主要功能: 數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載 對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、標(biāo)準(zhǔn)化的、可理解的、即時(shí)的、質(zhì)量可控制的13、 多維數(shù)據(jù)模型中的根本概念:維,維類(lèi)別,維屬性,度量,粒度,分割P37維:人們觀察數(shù)據(jù)的特定角度, 是考慮問(wèn)題的一類(lèi)屬性, 如時(shí)間維 或產(chǎn)品維維類(lèi)別:也稱(chēng)維分

5、層。 即同一維度還可以存在細(xì)節(jié)程度不同的各個(gè) 類(lèi)別屬性如時(shí)間維包括年、季度、月等 維屬性:是維的一個(gè)取值,是數(shù)據(jù)線在某維中位置的描述。粒度:DW中數(shù)據(jù)綜合程度上下的一個(gè)衡量。粒度低,細(xì)節(jié)程度高, 答復(fù)查詢的種類(lèi)多第四章 P931 、關(guān)聯(lián)規(guī)那么的經(jīng)典算法 包括 Apriori 算法和 FP-growth 算法 , 其中 FP-growth 算法的 效率更高。第五章1、分類(lèi):把數(shù)據(jù)樣本映射到一個(gè)事先定義的類(lèi)中的學(xué)習(xí)過(guò)程;過(guò)程:包括 獲取數(shù)據(jù)、預(yù)處理、分類(lèi)器設(shè)計(jì)和分類(lèi)決策 。 評(píng)價(jià)準(zhǔn)那么: 準(zhǔn)確度 查全率 查準(zhǔn)率 F-measure 幾何均值2、 分類(lèi)器設(shè)計(jì)階段包含三個(gè)過(guò)程:劃分?jǐn)?shù)據(jù)集、分類(lèi)器構(gòu)造、

6、分類(lèi)器測(cè)試 。3、支持向量機(jī):統(tǒng)計(jì)學(xué)習(xí)算法4、最優(yōu)超平面:分類(lèi)超平面 不但能將兩類(lèi)數(shù)據(jù)無(wú)錯(cuò)誤地分開(kāi) ,而且要使兩類(lèi)數(shù) 據(jù)樣本的分類(lèi)間隔最大 ;5、ID3 算法主要存在的缺點(diǎn)? P1161ID3 算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為 評(píng)價(jià)標(biāo)準(zhǔn)。 信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性, 在有些情況下這類(lèi)屬 性可能不會(huì)提供太多有價(jià)值的信息。2ID3 算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。6、近鄰分類(lèi)方法有幾種? :最近鄰分類(lèi)方法、 k- 近鄰分類(lèi)方法7、支持向量機(jī)中常用的核函數(shù) :多項(xiàng)式核函數(shù)、徑向基核函數(shù)和 S 型核函數(shù)。 P126第六章1、聚類(lèi)分析包括:連

7、續(xù)型、二值離散型、多值離散型、混合類(lèi)型。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離: 曼哈頓距離: 明考斯基距離:3、 K-means算法的根本操作步驟包括算法的輸入和輸出。P138輸 入:數(shù)據(jù)集x. 11, 2,-.total,其中的數(shù)據(jù)祥本只包含描述屬性,不包含類(lèi)別屬性;聚糞牛數(shù)ko P輸 出!使誤差平芳和準(zhǔn)則最小的k個(gè)聚糞.d(1)從魏據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣艱作溝聚黃的初始代恚點(diǎn),毎一個(gè)代表 點(diǎn)表示一個(gè)類(lèi)別."(2)對(duì)于X中的任一數(shù)據(jù)樣本x. (totals 計(jì)算它與k個(gè)初始代表點(diǎn)的距離井且搟它劃分到距離最近的初始代表點(diǎn)所表示的類(lèi)別中.43)完感數(shù)據(jù)樣本的劃分之后,對(duì)于

8、毋一個(gè)聚類(lèi),計(jì)算其中所有數(shù)據(jù)樣車(chē)的均值,并且將其作黃廢聚糞的新的代表點(diǎn),由此得到k個(gè)均值代喪點(diǎn)-p(4)對(duì)于X中的任一數(shù)據(jù)樣本乂( lWmW"畑1),計(jì)算它與k個(gè)均值代蔻點(diǎn)的距離,并且將它劃分到距禽最近的均值代未點(diǎn)所表示的糞別中° P(5)重夏歩驟心)和(4),直到各個(gè)聚糞不再發(fā)主變優(yōu)育止,即誤差平方和淮則函敵的值達(dá)到最優(yōu).屮4、劃分聚類(lèi)方法對(duì)數(shù)據(jù)集進(jìn)展聚類(lèi)時(shí)包含三要點(diǎn):a、選種某種距離作為數(shù)據(jù)樣本間的相似性度量;b、選擇評(píng)價(jià)聚類(lèi)性能的準(zhǔn)那么函數(shù)c、選擇某個(gè)初始分類(lèi),之后用迭代的方法得到聚類(lèi)結(jié)果,使得評(píng)價(jià)聚類(lèi) 的準(zhǔn)那么函數(shù)取得最優(yōu)值。5、 層次聚類(lèi)方法:包括(底->

9、上)凝聚型層次聚類(lèi)(頂-> 下)分解型J6數(shù)據(jù)挖掘技術(shù)對(duì)聚類(lèi)分析的要求有哪幾個(gè)方面?P131可伸縮性;處理不同類(lèi)型屬性的能力;發(fā)現(xiàn)任意形狀聚類(lèi)的能力;減小對(duì)先 驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性 7、常見(jiàn)的聚類(lèi)算法可以分為幾類(lèi)? P132基于劃分的聚類(lèi)算法基于層次的聚類(lèi)算法基于密度的聚類(lèi)算法基于網(wǎng)格的聚類(lèi)算法 基于模型的聚類(lèi)算法第8章1. 粗糙集:粗糙集理論是一種新型處理不完整性和不確定性問(wèn)題的數(shù)學(xué)工具, 它能對(duì)不完整資料數(shù)據(jù)進(jìn)展分析,推理,學(xué)習(xí)和發(fā)現(xiàn),具有很強(qiáng)的知識(shí)獲 取能力。其中x1,x2,xn是輸入y是輸出為內(nèi)部狀態(tài)的反響信息和B為閾值,F(xiàn)是表示神

10、經(jīng)元活動(dòng)的特性函數(shù)。特征函數(shù)又包括分段線性特性函數(shù)、 閾值特性函數(shù)、S型邏輯特性函數(shù) 第10章1、遺傳算法步驟:SGA的根本流程如下:1初始化,產(chǎn)生初始種群。2個(gè)體評(píng)價(jià),即計(jì)算種群中每個(gè)個(gè)體的適應(yīng)度。3按選擇概率Ps,執(zhí)行選擇算子,從當(dāng)前種群中選擇局部個(gè)體進(jìn)入下一 代種群。4按穿插概率Pc,執(zhí)行穿插算子。5按變異概率Pm,執(zhí)行變異算子。6假設(shè)滿足設(shè)定的終止條件,那么輸出種群中適應(yīng)度最優(yōu)的個(gè)體作為問(wèn) 題的最優(yōu)解或滿2、遺傳算法設(shè)計(jì)到的參數(shù):1確定編碼方式,以便對(duì)問(wèn)題的解進(jìn)展編碼,即用個(gè)體表示問(wèn)題的可能 解。2確定種群大小規(guī)模。3確定適應(yīng)度函數(shù),決定個(gè)體適應(yīng)度的評(píng)估標(biāo)準(zhǔn)。4確定選擇的方法及選擇率。5確

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論