




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、挖掘機簡答題1 .什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特點主要有哪些?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的組成?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結構,是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。數(shù)據(jù)倉庫的特點包含以下幾個方面:(1)面向主題。而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點領域,一個主題通常與多個操作型業(yè)務系統(tǒng)或外部檔案數(shù)據(jù)相關。(2)集成的。存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應使用一致的命名規(guī)則、格式、編碼結構和相關特性來定義。(3)相對穩(wěn)定的。針對數(shù)據(jù)倉庫,通常有大量的查詢操作及少量
2、定期的加載(或刷新)操作。(4)反映歷史變化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個單位從過去某一時點(如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時點)到目前的所有時期的信息,通過這些信息,可以對單位的發(fā)展歷程和未來趨勢做出定量分析和預測。為什么要建立數(shù)據(jù)倉庫?建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務數(shù)據(jù)庫更快的大規(guī)模決策分析的響應速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務員,需要使用專業(yè)的分析工具,對分析結果還要以商業(yè)智能的方式
3、進行表現(xiàn),這是事務數(shù)據(jù)庫不能提供的。數(shù)據(jù)倉庫的組成:數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2 .何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關聯(lián)分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。3 .數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?(1)可伸縮性(2)處理不同類型屬性的能力(3)發(fā)現(xiàn)任意形狀的聚類(4)使輸入?yún)?shù)的領域知識最小化(
4、5)處理噪聲數(shù)據(jù)的能力(6)對于輸入順序不敏感(7)高維性(8)基于約束的聚類(9)看解釋性和可利用性4何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:簡單堆積結構輪轉(zhuǎn)綜合結構簡單直接結構連續(xù)結構5 .簡述數(shù)據(jù)倉庫4種體系結構的異同點以其適用性。(1)兩層架構(2)獨立型數(shù)據(jù)集市(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫6 .簡述你對數(shù)據(jù)倉庫未來發(fā)展趨勢的看法。在數(shù)據(jù)抽取方面,未來的技
5、術發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復制、調(diào)度、監(jiān)控納入標準化的統(tǒng)一管理,使系統(tǒng)更便于管理和維護。在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫服務器產(chǎn)品與數(shù)據(jù)庫服務器并駕齊驅(qū)。在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產(chǎn)品中,并與Internet/Web技術緊密結合。7 .請列出3種數(shù)據(jù)倉庫產(chǎn)品,并說明其優(yōu)缺點。(1) IBM提供了基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0IBMDB2UDB,其中,VW是一個功能很強的集成環(huán)境,既可用于數(shù)據(jù)倉庫
6、建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。Essbase/DB2OLAPServer支持維”的定義和數(shù)據(jù)裝載。(2) Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個部分。OracleExpress由四個工具組成:OracleExpressServer是一個MOLAP侈維OLAP服務器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存,同時也能夠訪問多種關系數(shù)據(jù)庫(3) Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫中,其解決方案包括BI平臺、BI終端工具、BI門戶和BI應用四個部分BI平臺是BI解決方案的基礎,
7、包括ETL平臺SQLServer2005IntegrationService(SSIS)數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQLServer2005AnalysisService、報表管理弓I擎SQLServer2005ReportingService8 .什么是數(shù)據(jù)倉庫的3層數(shù)據(jù)結構?數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務處理系統(tǒng)(操彳型數(shù)據(jù))流向企業(yè)級數(shù)據(jù)倉庫(EDW)或操作型數(shù)據(jù)存儲區(qū)(ODS),在這個過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫對數(shù)據(jù)進行調(diào)和處理,形成一個中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調(diào)和數(shù)據(jù)層(EDW、ODS)將數(shù)據(jù)引入導出數(shù)據(jù)
8、層,如形成滿足各類分析需求的數(shù)據(jù)集市。9 .什么是數(shù)據(jù)倉庫的數(shù)據(jù)ETLM程?數(shù)據(jù)的ETL過程就是負責將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過程。數(shù)據(jù)調(diào)和是構建一個數(shù)據(jù)倉庫中最難的和最具技術挑戰(zhàn)性的部分。在為企業(yè)級數(shù)據(jù)倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個階段:一是企業(yè)級數(shù)據(jù)倉庫(EDW)首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW的當前有效性和擴展性。整個過程由四個步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實上,這些步驟可以進行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個過程,或者將清洗和轉(zhuǎn)換組合在一起。10 .什么是星型模式?它的特征是什么?在星模式中,事實表居中,多個維表呈輻射狀分布
9、于其四周,并與事實表連接。位于星形中心的實體是事實表,是用戶最關心的基本實體和查詢活動的中心,為數(shù)據(jù)倉庫的查詢活動提供定量數(shù)據(jù)。位于星模式四周的實體是維度實體,其作用是限制和過濾用戶的查詢結果,縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相關聯(lián)。11 .為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?因為數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時間維來區(qū)別。12 .什么是用戶信息需求表(信息包圖法)?它為什么適用于數(shù)據(jù)倉庫的概念模型的設計?信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一個維度用平面表格的一列表示,通常的維度如時間、地點、產(chǎn)品和顧客等;
10、而細化本列的對象就是類別,例如時間維度的類別可以細化到年、月、日,甚至小時;平面表格的最后一行(代表超立方體中的單元格)即為指標度量值,例如,某年在某銷售點的某類產(chǎn)品的實際銷售額。創(chuàng)建信息包圖時需要確定最高層和最低層的信息需求,以便最終設計出包含各個層次需要的數(shù)據(jù)倉庫。總之,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點開始設計(用戶的觀點是通過與用戶交流得到的),站在管理者的角度把焦點集中在企業(yè)的一個或幾個主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務活動的方式。13 .簡述數(shù)據(jù)倉庫系統(tǒng)設計過程?收集、分析和確認業(yè)務分析需求
11、,分析和理解主題和元數(shù)據(jù)、事實及其量度、粒度和維度的選擇與設計、數(shù)據(jù)倉庫的物理存儲方式的設計等。14 .一個數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟?(1)收集和分析業(yè)務需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計;(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉庫技術和平臺;(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫;(6)選擇訪問和報表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更新數(shù)據(jù)倉庫。15 .什么是關聯(lián)規(guī)則?關聯(lián)規(guī)則的應用有哪些?關聯(lián)規(guī)則挖掘是用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則(AssociationRule)關聯(lián)規(guī)則
12、的應用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等。16 .關聯(lián)規(guī)則的分類有哪些?關聯(lián)規(guī)則挖掘的步驟包括什么?關聯(lián)規(guī)則的分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關聯(lián)規(guī)則挖掘的步驟:(1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;(2)利用頻繁項集生成所需要的關聯(lián)規(guī)則,根據(jù)用戶設定的最小可信度進行取舍,產(chǎn)生強關聯(lián)規(guī)則。17 .什么是分類?分類的應用領域有哪些?分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的
13、學習過程,即給定一組輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類,從而及時制定救治方案,挽救病人的生命;18 .什么是聚類分析?聚類分析的應用領域有哪些?聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。聚類分析在科
14、學數(shù)據(jù)分析、商業(yè)、生物學、醫(yī)療診斷、文本挖掘、Web數(shù)據(jù)挖掘等域都有廣泛應用。在商業(yè)領域,聚類可以幫助市場分析人員對客戶的基本數(shù)據(jù)進行分析,發(fā)現(xiàn)購買模式不同的客戶群,從而協(xié)助市場調(diào)整銷售計劃;在文本才掘和Web數(shù)據(jù)挖掘領域中,聚類可以將網(wǎng)站數(shù)據(jù)按照讀者的興趣度進行劃分,有助于網(wǎng)站內(nèi)容的改進。19 .貝葉斯網(wǎng)絡的三個主要議題是什么?貝葉斯網(wǎng)絡的3個主要議題分別是:預測、診斷和歷史數(shù)據(jù)訓練。20 .怎樣從歷史數(shù)據(jù)中訓練出結點之間的條件概率或聯(lián)合條件概率?要訓練條件概率P(B|A),可以在歷史數(shù)據(jù)中統(tǒng)計A發(fā)生的次數(shù)T(A),然后統(tǒng)計在A發(fā)生的數(shù)據(jù)中B發(fā)生的次數(shù)T(A,B),條件概率P(B|A)=T(
15、B)/T(A)。要訓練聯(lián)合條件概率P(C|A,B),可以在歷史數(shù)據(jù)中統(tǒng)計A、B共同發(fā)生的次數(shù)T(A,B),然后在A、B共同發(fā)生的數(shù)據(jù)中統(tǒng)計C發(fā)生的次數(shù)T(A,B,C),聯(lián)合條件概率P(C|A,B)=T(A,B,C)/T(A,B以上白符號A、B、C可以表示某個事件,也可以表示該事件的相反事件。21 .如果葉貝斯網(wǎng)絡的各個結點都沒有任何證據(jù),從歷史數(shù)據(jù)中如何用兩種不同的方法得到各個結點的發(fā)生概率?可以用兩種方式從歷史數(shù)據(jù)中得到各個節(jié)點的發(fā)生概率:(1)用各節(jié)點的發(fā)生次數(shù)除以總的數(shù)據(jù)條數(shù),就是各個節(jié)點的發(fā)生概率。(2)首先,用第一種方法計算原因節(jié)點的發(fā)生概率,然后計算原因節(jié)點到中間節(jié)點或結果節(jié)點的條
16、件概率,最后根據(jù)原因節(jié)點的概率和這些條件概率計算結果節(jié)點的概率。22 .簡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術。但它們有著完全不同的輔助決策方式。在數(shù)據(jù)倉庫系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是其中重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉庫的數(shù)據(jù)中隱含的規(guī)律性。23 .比較統(tǒng)計學與數(shù)據(jù)挖掘的異同?統(tǒng)計學主要是對數(shù)量數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年齡、工資等),進行數(shù)值計算(如初等運算)的定量分析,得到數(shù)量信息。數(shù)據(jù)挖掘主要對離散數(shù)據(jù)(如職稱、病癥等)進行定性分析(覆蓋、歸納等),得到規(guī)則知識。統(tǒng)計學與數(shù)據(jù)挖掘是有區(qū)別的。但是,它們之間是相互補充的。24 .比較OLAP的
17、數(shù)據(jù)模型MOLAP與ROLAPMOLAP是事先生成多維立方體,供以后查詢分析用,而ROLAP是通過動態(tài)的生成Sql,去做查詢關系型數(shù)據(jù)庫,如果沒有做性能優(yōu)化,數(shù)據(jù)量很大的時候,性能問題就會顯得比較突出了OROLAPMOLAP沿用現(xiàn)有的關系數(shù)據(jù)庫的技術專為OLAP所設計響應速度比MOLAPg;現(xiàn)有關系型數(shù)據(jù)庫已經(jīng)對OLAP了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAPT展(cube,rollup)等,性能有所提高性能好、響應速度快數(shù)據(jù)裝載速度快數(shù)據(jù)裝載速度慢存儲空間耗費小,維數(shù)沒有限制需要進行預計算,可能導致數(shù)據(jù)爆炸,維數(shù)有限;無法支持維的動態(tài)變
18、化借用RDBM游儲數(shù)據(jù),沒有文件大小限制受操作系統(tǒng)平臺中文件大小的限制,難以達到TB級(只能1020G)可以通過SQL實現(xiàn)詳細數(shù)據(jù)與概要數(shù)據(jù)的存儲缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標準-不支持有美預計算的讀寫操作-SQL無法完成部分計算?無法完成多行的計算?無法完成維之間的計算-支持高性能的決策支持計算?復雜的跨維計算?多用戶的讀寫操作?行級的計算維護困難管理簡便25 .比較數(shù)據(jù)挖掘與OLAP的差異?OLAP的典型應用,通過商業(yè)活動變化的查詢發(fā)現(xiàn)的問題,經(jīng)過追蹤查詢找出問題出現(xiàn)的原因,達到輔助決策的作用。數(shù)據(jù)挖掘任務在于聚類(如神經(jīng)網(wǎng)絡聚類)、分類(如決策樹分類)、預測等。26 .什么是關于數(shù)據(jù)倉庫映射
19、的元數(shù)據(jù)?數(shù)據(jù)倉庫的元數(shù)據(jù)除對數(shù)據(jù)倉庫中數(shù)據(jù)的描述(數(shù)據(jù)倉庫字典)外,還有以下三類元數(shù)據(jù):(1)關于數(shù)據(jù)源的元數(shù)據(jù)(2)關于抽取和轉(zhuǎn)換的元數(shù)據(jù)(3)關于最終用戶的元數(shù)據(jù)27 .簡述聯(lián)機分析處理的四個特征?(1)快速性:用戶對OLAP的快速反應能力有很高的要求。(2)可分析性:OLAP系統(tǒng)應能處理任何邏輯分析和統(tǒng)計分析。(3)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析。(4)信息性:OLAP系統(tǒng)應能及時獲得信息,并且管理大容量的信息。28 .簡述數(shù)據(jù)倉庫設計的三級模型的基本內(nèi)容。(1)概念模型設計是在較高的抽象層次上的設計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。(2)邏輯模型設計的
20、主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關系模式、定義記錄系統(tǒng)。(3)物理數(shù)據(jù)模型設計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結構、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。29 .舉例說明聚類分析的典型應用。商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。生物學:推導植物或動物的分類,對基于進行分類,獲得對種群中固有結構的認識。WEBC檔分類其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定;各類保險投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數(shù)據(jù)挖掘算法的預處理:即先進行聚類,然后再進行分類等其
21、他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術,它把基于相似數(shù)據(jù)特征的變量或個案組合在一起。30 .簡述處理空缺值的方法。忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;31 .列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當前的、細節(jié)的歷史的、綜合的向向應用、事務驅(qū)動向向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求局對性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務操作支持管理決策需求32 .何謂OLT濟口OLAR它們的主要異同有哪些?OLTP即聯(lián)機事務處
22、理,是以傳統(tǒng)數(shù)據(jù)庫為基礎、面向操作人員和低層管理人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務處理。OLAP即聯(lián)機分析處理,是在OLTP基礎上發(fā)展起來的、以數(shù)據(jù)倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。OLT可口OLAP的主要區(qū)別如下表:OITPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應時間要求局響應時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少向向操作人員,支持日常操作面向決策人員,支持管理需要向向應用,事務驅(qū)動向向分析,分析驅(qū)動33 .在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預
23、處理?原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結構和規(guī)則可能是不同的,這將導致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結果,必須進行數(shù)據(jù)的預處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準確程度。34 .簡述數(shù)據(jù)預處理方法和內(nèi)容。 數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關數(shù)據(jù)。 數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。 數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為
24、適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集概化、規(guī)范化,還可能需要進行屬性的重構。 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結果。35 .簡述數(shù)據(jù)清理的基本內(nèi)容。 盡可能賦予屬性名和屬性值明確的含義;統(tǒng)一多數(shù)據(jù)源的屬性值編碼; 去除無用的惟一屬性或鍵值(如自動增長的id); 去除重復屬性(在某些分析中,年齡和出生日期可能就是重復的屬性,但在某些時候它們可能又是同時需要的)去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結果) 合理選擇關聯(lián)字段(對于多個關聯(lián)性較強的屬性,重復無益,只需選擇其中的部分用于
25、數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額) 去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。36 .常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?分箱的方法主要有:統(tǒng)一權重法(又稱等深分箱法)統(tǒng)一區(qū)間法(又稱等寬分箱法)最小嫡法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。37 .何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.01.0),稱為規(guī)范化。規(guī)范化的常用方法有:(1) 最大最小規(guī)范化:(2) 零均值規(guī)范化:max-min,x=(x0-min0)min(max0-min0)小數(shù)定標規(guī)范化:x=X0/1
26、0"X0-XX二-X38 .數(shù)據(jù)歸約的方法有哪些?為什么要進行維歸約?數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。39 .何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行;聚類是一種無指導學習,它不依賴預先定義的類和帶類標號的訓練實例,屬于觀察式學習,分類則屬于有指導的學習,是示例式學習。40 .舉例
27、說明聚類分析的典型應用。商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。生物學:推導植物或動物的分類,對基于進行分類,獲得對種群中固有結構的認識。WEB文檔分類41 .聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點?常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:0d(2,1)0d(3,1)d(3,2)0aia+d(n,1)d(n,2)0一42
28、 .分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。43 .什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結點,用屬性的取值作為分支的樹結構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結點是所有樣本中信息量最大的屬性。樹的中間結點是以該結點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結點是樣本的類別值。決策樹用于對新
29、樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結點,該葉結點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。44 .簡述ID3算法的基本思想及其主算法的及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。主算法包括如下幾步:從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);用“建樹算法”對當前窗口形成一棵決策樹;對訓練集(窗口除外)中例子用所
30、得決策樹進行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復步驟,否則結束。建樹算法的具體步驟如下:對當前例子集合,計算各特征的互信息;選擇互信息最大的特征Ak;把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;對既含正例又含反例的子集,遞歸調(diào)用建樹算法;若子集僅含正例或反例,對應分枝標上P或N,返回調(diào)用處。ID3算法主要存在的缺點?P116(l)ID3算法在選擇根結點和各內(nèi)部結點中的分枝屬性時,使用信息摺益作為評價標淮。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息7(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構
31、造決策樹。45 .設某事務項集構成如下表,填空完成其中支持度和置信度的計算。事務ID項集L2支持度規(guī)則置信度T11A,Dra,b33.3AfB50T2D,EA,C33.3gA60T3A,C,EA,D44.4AfD66.7T41A,B,D,Erb,d33.3BfDI75T5A,B,CC,D33.3C-D60T6一A,B,Drd,e33.3DfE43T7A,C,DT8C,D,ET9B,C,D46 .從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義。基本特征:多輸入、單輸出;突觸兼有興奮和抑制兩種性能;可時間加權和空間加權;可產(chǎn)生脈沖;脈沖可進行傳遞;非線性,有閾
32、值。M-P方程:Si=f(£WijSj-9j),Wij是神經(jīng)元之間的連接強度,3是閾值,f(x)是階梯函數(shù)。47 .遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;?遺傳算法采用高效有方向的隨機搜索,搜索效率高;?遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領域;?遺傳算法使用適應值信息評估個體,不需要導數(shù)或其他輔助信息,運算速度快,適應性好;?遺傳算法具有隱含并行性,具有更高的運行效率。48 .何謂文本挖掘?它與信息檢索有什么關系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下
33、幾方面的區(qū)別:方法論不同:信息檢索是目標驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結果獨立于用戶的信息需求,是用戶無法預知的。著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結構。目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。評價方法不同:信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。使用場合不同:文本挖掘是比信息檢索更高層次的技術,可用于信息檢索技術不能解決的許多場合。一方面,這兩種技術各有所長,有各自適用的
34、場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。49 .雪花模型雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設要求。50 .企業(yè)面對海量數(shù)據(jù),應如何具體實施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結果/模型?首先進行數(shù)據(jù)的預處理,主要進行數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù)的變換和數(shù)
35、據(jù)規(guī)約。51 .請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運用的理解。元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。52 .簡述Apriori算法的思想,談談該算法的應用領域并舉例。思想:其發(fā)現(xiàn)關聯(lián)規(guī)則分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項集,即支持度不低于
36、用戶設定的閥值的項即集,第二是利用第一步中檢索出的煩瑣項集構造出滿足用戶最小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項集是該算法的核心,也占整個算法工作量的大部分。在商務、金融、保險等領域皆有應用53 .什么是ETI?ETL用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL是構建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。3.簡述輪轉(zhuǎn)綜含班據(jù)仔儲的過程丫筒單逐日推積數(shù)據(jù)的一種變種.教據(jù)用與前面相
37、圖的處理方法從操作型開常輸入到數(shù)據(jù)徐軍環(huán)學巾.結構形式中.4.簡述數(shù)據(jù)庫數(shù)據(jù)與數(shù)據(jù)倉庫數(shù)據(jù)的異同?原始效據(jù)/操作型數(shù)據(jù) 面向住用 詳細的 在存取瞬間后準確的 為日常工作服務 可更新 處理需求/先可知 生命周期符合SDLC 對性能要求高 一個時刻存取一個單元 事務處理驅(qū)動 更新控制主要涉及所有權 高可用性 整體管理 非冗余檢 靜態(tài)結構;可變的內(nèi)容 一次處理數(shù)據(jù)量小 支持日常操作 訪問的高可能性.H提在輪蔣綜合文件中的數(shù)據(jù)才掂粉入翎不同笆導出數(shù)據(jù)e的數(shù)據(jù)面向主題 綜合的威提煉的 代派過去的數(shù)據(jù) 為管理者服務 不更新 啟發(fā)蛇行 處理需求率先不知道 完全不同的生命周期 對性能要求寬松 一個日情存取5集
38、 分析處理疤動 無更新控制同題 松弛的可用性 以子集管理 時帶有冗余 結構靈活 一次處理數(shù)據(jù)量大 支持管理求 訪問的低可冒犯盛固度可能性3、數(shù)據(jù)倉庫在存儲和管理方面的特點與關鍵技術?P7數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚交算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法等。5、一個典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器、前端工具與應用6、數(shù)據(jù)倉庫常見的存儲優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數(shù)據(jù)倉庫發(fā)展演變的5個階段?P20以報表為主以分析為主以預測模型為主以運行向?qū)橹饕詫崟r數(shù)據(jù)倉庫、自動決策應用為主15、什么是技術元數(shù)據(jù),主要包含的內(nèi)容?P29技術元數(shù)據(jù)是描述關于數(shù)據(jù)倉庫技術細節(jié)的數(shù)據(jù),應用于開發(fā)、管理和維護DW,包含: DH結構的描述,如D9的模式、視圖、維、層次結構和導出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等 業(yè)務系統(tǒng)、D用和數(shù)據(jù)集市的體系結構和模式 匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領域、聚合、匯息前預定義的查詢和報告。 由操作型業(yè)務環(huán)境到數(shù)據(jù)倉庫業(yè)務
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)固體廢棄物處置方法與成效評估
- 工業(yè)安全在智能制造中的重要性
- 工業(yè)機器人與自動化設備在注塑中的應用
- 工業(yè)機器人技術的現(xiàn)狀與展望
- 工業(yè)自動化中的新材料與傳感器技術
- 工業(yè)物聯(lián)網(wǎng)的網(wǎng)絡安全防護策略
- 工業(yè)級智能硬件產(chǎn)品設計與可靠性研究
- 工業(yè)節(jié)能減排技術與應用案例分析
- 工業(yè)節(jié)能減排的途徑與方法
- 工作中的自我管理與職業(yè)成長規(guī)劃
- 門診急救室管理制度
- 2025年福建省泉州五中中考數(shù)學適應性試卷(6月份)
- 2024年深圳市深汕特別合作區(qū)農(nóng)村工作者招聘真題
- 2024年貴州省糧食儲備集團有限公司招聘考試真題
- 2025年佛山市南海區(qū)圖書館招聘題庫帶答案分析
- 壓縮空氣儲能系統(tǒng)透平膨脹機流動特性與損失優(yōu)化研究
- 父親節(jié)主題班會晨會課件
- 鐵路筆試試題題庫及答案
- 包蟲病測試試題及答案
- CJ/T 352-2010微機控制變頻調(diào)速給水設備
- 2025年下半年湖南科鑫電力設計限公司招聘36人信息易考易錯模擬試題(共500題)試卷后附參考答案
評論
0/150
提交評論