


版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題答案第1章數(shù)據(jù)倉庫的概念與體系結構1。面向主題的,相對穩(wěn)定的。2。技術元數(shù)據(jù),業(yè)務元數(shù)據(jù)。3。聯(lián)機分析處理OLAP。4.切片Slic,鉆取Drildown和Rol—up等5。基于關系數(shù)據(jù)庫。6。數(shù)據(jù)抽取,數(shù)據(jù)存儲與管理。7.兩層架構,獨立型數(shù)據(jù)集市,依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲,邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫。8。可更新的,當前值的.9。接近實時。10.以報表為主,以分析為主,以預測模型為主,以營運導向為主.11。答:數(shù)據(jù)倉庫就是一個面向主題的(SubjectOriented、集成的(Integrate)(Non-Volatil、反映歷史變化TimeVarian).數(shù)據(jù)倉庫的特點包含以下幾個方面:(1);而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點領域部檔案數(shù)據(jù)相關。(2)集成的.面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互.一旦某個數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除操作,也就是說針對數(shù)據(jù)倉庫,通常有大量的查詢操作及少量定期的加載(或刷新)操作。反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內(nèi)的數(shù)據(jù),而(時點)到目前的所有時期的信息,通過這些信息,可以對單位的發(fā)展歷程和未來趨勢做出定.12.答:()兩層架構GenericTwo-LevelArchitectur。獨立型數(shù)據(jù)集市(IndependentDataMart).依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(DependentDataMartandOperationalStor。(4(LogicalDataMartandReal-TimeDataWarehous.13。答:標準化的統(tǒng)一管理,以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護。.在這一方面,帶有決策支持擴展的并行關系數(shù)據(jù)庫將最具發(fā)展?jié)摿ΑT跀?shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產(chǎn)品中,并與Internet/Web技術緊密結合。按行業(yè)應用特征細化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作為數(shù)14。答:WarehousVEssbase/DB2OLAPServer5.IBMDB2UDB以及來自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO和數(shù)據(jù)挖掘工具(如SAVW,Essbase/DB2OLAPServer維Essbase/DB2OLAPServer不是ROLARelational(ROLAPHOLAP,在Essbase完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2UDB數(shù)據(jù)庫中.它的前端數(shù)據(jù)展現(xiàn)工具可以選擇BusinessObjects的BOLotus的ApproachCognos的Impromptu或IBM的QueryManagementFacility;ArborSoftwareEssbaseIBM(Arbor聯(lián)合開發(fā))DB2OLAP服務器;統(tǒng)計分析工具采用SAS系統(tǒng)。(2)Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個部分。OracleExpressExpressServer是一個MOLAP(多維服務器,OracleExpressWebAgent通過CGIWeb插件支持基于Web;OracleExpressObjects(Windows平臺提供了圖形化建模和假設分析功能,支持可視化開發(fā)和事件驅(qū)動編程技術,提供了兼容VisualBasic語法的語言,支持OCX和OLE;OracleExpressAnalyzer(目前僅支Windows平臺OracleDiscoverer分為最終用戶.OracleExpress中,而將詳細數(shù)據(jù)存儲在OracleServer通過構SQL語句訪問關系數(shù)據(jù)庫。(3)Microsoft將OLAP功能集成到SQLServerBIBI終端工具、BI門戶和BI應用四個部分,如圖1.1。①BI平臺是BI解決方案的基礎,包括ETL平臺SQLServer2005IntegrationService(SSI、數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎Server2005AnalysisSQLServer2005ReportingService.②BI終端用戶工具,用戶通過終端用戶工具和AnalysisServiceOLAP據(jù)挖掘服務進行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通常可使用預定義報表、交互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。③BI門戶提供了各種不同用戶訪問BIBI選擇和自己相關性最強的數(shù)據(jù),提高信息訪問和使用的效率。④BI應用是建立在BIBI終端用戶工具和BI滿足某個特定業(yè)務需求的應用,例如零售業(yè)務分析、企業(yè)項目管理組合分析等。第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理1.企業(yè)級數(shù)據(jù)倉庫(EDW)。2。單一的,詳細的.3。最初填充數(shù)據(jù)倉庫。4.越高,越低,越多。5。提高,預處理,事實表。6。自然鍵NaturalKe,代理鍵SurrogateKe。.早期細節(jié)級,輕度綜合級。答:簡單地說,數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級數(shù)據(jù)倉庫(EDW)或操作型數(shù)據(jù)存儲區(qū)(ODS),在這個過程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模據(jù)層ODS).10。答:數(shù)據(jù)的ETL2.3.1小節(jié)所述,,首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW的當前有效性和擴展性。整個過程由四個步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實上,這些步驟可以進,通常,,然后將數(shù)據(jù)在源系統(tǒng),以便在以后重新抽取。答:在星模式中,事實表居中,多個維表呈輻射狀分布于其四周,并與事實表連接。位于星縮小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相關聯(lián)。答:因為數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時間維來區(qū)別。第3章數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)在線分析處理分析。信息包圖法,維度,類別,度量。3。邏輯模型。4.事務事實,快照事實,線性項目事實。5。聚合。6。時間,區(qū)域。退化維。緩慢變化,劇烈變化。索引。反向規(guī)范化,引入冗余。答:,其中的每行(代表超立方體中的單元格.創(chuàng)建信息包圖時需要確定最高層和最低層的信息需求,以便最終設計出包含各個層次需要的數(shù)據(jù)倉庫(觀點是通過與用戶交流得到的,.12。答:度的選擇與設計、數(shù)據(jù)倉庫的物理存儲方式的設計等。13。答:;(2)(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉庫技術和平臺;(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫;,;更新數(shù)據(jù)倉庫。14。答:參考3。3節(jié)的過程。第4章關聯(lián)規(guī)則1.apriori,fp—growth,fp-growth。2。{{ab}{abd{acd,{abc{ab}。3。{{a{b}{c}{ac。答:關聯(lián)規(guī)則挖掘最初由R。Agrawal等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則(AssociationRule)。關聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購物中隱含的關聯(lián)關系之外,還可以應用于其他很多領域.關聯(lián)規(guī)則的應用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等.答:關聯(lián)規(guī)則的分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關聯(lián)規(guī)則挖掘的步驟:找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻繁項集;生強關聯(lián)規(guī)則。答:規(guī)則:c=>a,a=>c。7。答:第5章數(shù)據(jù)分類1。獲取數(shù)據(jù),預處理,分類器設計,分類決策。,分類器測試。,,S型核函數(shù)。5。答:分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程量及其對應的類,用基于歸納的學習算法得出分類。分類問題是數(shù)據(jù)挖掘領域中研究和應用最為廣泛的技術之一生物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡工作人員將正常6。答:求解過程請參考例5.1。7.答:1 7 4 1 xx~x,xx4,x3x,x,x,x進行分類時x的類標號是kx進行分類時x的類標號是y=+11 7 4 1 第6章數(shù)據(jù)聚類1。連續(xù)型,二值離散型,多值離散型,混合類型。2.歐氏距離,曼哈頓距離,明考斯基距離。3初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數(shù)取得最優(yōu)值。.答:聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,而不同類別的數(shù)據(jù)樣本之間具有較低的相似度。,并且對某些特定的類別作進一步的分析。此外,聚類分析還可以作為其他數(shù)據(jù)挖掘技術(例如分類學習、關聯(lián)規(guī)則挖掘等)掘、Web比如對于衛(wèi)星遙感照片,聚類可,從而協(xié)助市場調(diào)整銷售計劃;在生物學方面,聚類可以幫助研究人員按照基因的相似度對動物和植物的種群進行劃分,從而獲得對種群中固有結構的認識;在醫(yī)療診斷中,聚類可以對細胞進行歸類;在文本挖掘和Web數(shù)據(jù)挖掘領域中,聚類可以將網(wǎng)站數(shù)據(jù)按照讀者的興趣度進行劃分,從而有助于網(wǎng)站內(nèi)容的改進。6。答:參考圖6.1。7.答:參考6.4.2節(jié)的步驟。8。答:根據(jù)給定的數(shù)據(jù)集,設定數(shù)據(jù)樣本之間的距離采用歐氏距離,聚類集合之間的相似性度量采用最小距離,聚類結果如下圖所示。第7章貝葉斯網(wǎng)絡1.答:SA/0.56566/0.43434;PX,BT發(fā)生/00891/0。910976HA/0.4533/0.5467,P(+BT|+HA)=P(+HA|+BT)/P(+HA)=0。9509×0。0891/0.4533=0.1869。2。答:,""的診斷概率。這是因為,概率大大降低。3個主要議題分別是:預測、診斷和歷史數(shù)據(jù)訓練。答:,可以在歷史數(shù)據(jù)中統(tǒng)計A,然后統(tǒng)計在A發(fā)生的數(shù)據(jù)中B發(fā)生的次數(shù)T(A,,條件概率P(B|A)=B)/T(。要訓練聯(lián)合條件概P(C|A,B),可以在歷史數(shù)據(jù)中統(tǒng)計AB共同發(fā)生的次數(shù)T(A,B),AB共同發(fā)生的數(shù)據(jù)中統(tǒng)計C發(fā)生的次數(shù),聯(lián)合條件概率/A,。以上的符號、C.答:可以用兩種方式從歷史數(shù)據(jù)中得到各個節(jié)點的發(fā)生概率1總的數(shù)據(jù)條數(shù),(2)首先,用第一種方法計算原因節(jié)點的發(fā)生概.第8章粗糙集1.答:粗糙集理論是一種新型處理不完整性和不確定性問題的數(shù)學工具,它能對不完整資料(數(shù)據(jù))進行分析,推理,學習和發(fā)現(xiàn),具有很強的知識獲取能力。2。答:X的下近似集合為x53。答:
。X的上近似集合為x1 2
,x,x,x,x4 5 6
,x。8根據(jù)上近似的定義,R—(X)是一個非粗糙集,也就是說,R—(X)是一些等價類的并。所以R-(X)取上近似后,仍然是它自身;R-(X)取下近似后,也仍然是它自身。4.答:1 2 3 6 4 5 (1由R1{x,xx,x}和x,x;由R1 2 3 6 4 5 分是{x1,x,x
,x}和{x,x
形成的等價類劃分是{x,x
、{x
}和{x,x6}。
2 3 6
4 5 3
1 2 3 5 41 2 3 4 5 (2)R{x,x{x},{x},{x},{x}(3)X1 2 3 4 5 的粗糙度為1/3.5。答:辨識矩陣為:0 R2 R2 R2 0 R2 R2 0 R2 。 0 R2 0 第9章神經(jīng)網(wǎng)絡1。答:前饋網(wǎng)絡和遞歸網(wǎng)絡的本質(zhì)區(qū)別是網(wǎng)絡的某些輸出是不是循環(huán)作為網(wǎng)絡的輸入.前饋網(wǎng)絡的所有輸出都不能作為輸入,而遞歸網(wǎng)絡的某些輸出可以循環(huán)作為網(wǎng)絡的輸入。2。答:多層前饋網(wǎng)絡中隱藏層神經(jīng)元的作用是增強網(wǎng)絡的適應能力。通過隱藏層,多層前饋網(wǎng)絡可以逼近系統(tǒng)中任意非線性的成分。3。答:在BP差與網(wǎng)絡輸出變量之間沒有中間變量4。答:2:4.8420.32.23.96192710章遺傳算法1。4。2.1000110101,0101001101。3.1001010101,0100101101。4。1101111101,0000000101。5。答:(1)函數(shù)優(yōu)化問題(2)組合優(yōu)化問題生產(chǎn)調(diào)度問題自動控制圖像處理人工生命遺傳編程(8)機器學習6.答:SGA的基本流程如下:(1).(2)(3)按選擇概率Ps,執(zhí)行選擇算子,從當前種群中選擇部分個體進入下一代種群。按交叉概率Pc,執(zhí)行交叉算子。按變異概率Pm.,則輸出種群中適應度最優(yōu)的個體作為問題的最優(yōu)解或滿。7。答:.確定種群大小規(guī)模。.確定選擇的方法及選擇率。(5)確定交叉的方法及交叉率.確定變異的方法及變異率。確定進化的終止條件。8。答:存在早成熟收斂,收斂速度慢等缺點。9.答:個體表10.6適應度習題9所用表格選擇概率累計概率13280.146037014603724460.198575034461335290。235530.58014249430。4198581第11章統(tǒng)計分析1。答:參考11.1.1節(jié)的推導過程。2.答Y例如因變量Y1,因變量Y0時表示沒有購買產(chǎn)品.量為二分變量時一般采用Logistic回歸模型(邏輯回歸模型)的形式,用極大似然估計法(maximumlikelihood3。答:一般來說,建立ARIMA模型需要以下幾個步驟:(1)根據(jù)時間序列的圖形或者其他方法對序列的平穩(wěn)性進行判斷.包含長期趨勢和周期性變化的時間序列一定是不平穩(wěn)的。階數(shù),即d的取值。,定模型中pq自相關函數(shù)描述了時間序列的當前序列和滯后的相關系數(shù)確定了模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Chitinovorin-A-生命科學試劑-MCE
- 自身免疫性關節(jié)炎治療新突破:2025年免疫治療應用案例分析
- 物聯(lián)網(wǎng)設備安全漏洞防護策略與智能交通安全報告2025
- 工業(yè)互聯(lián)網(wǎng)平臺邊緣計算硬件架構創(chuàng)新設計研究報告
- 2025年不良資產(chǎn)處置行業(yè)市場格局與創(chuàng)新模式發(fā)展策略研究
- 低碳城市規(guī)劃與城市交通擁堵治理案例解析
- 電商知識產(chǎn)權保護與電子商務平臺知識產(chǎn)權保護與知識產(chǎn)權保護法律法規(guī)實施報告
- 審計處突發(fā)事件應急預案突發(fā)事件應急預案【六篇】
- 華晨寶馬供應商管理制度
- 智慧食堂個人管理制度
- 2025年安全生產(chǎn)考試題庫(行業(yè)安全規(guī)范)-水上安全試題匯編
- 2025年05月四川阿壩州級事業(yè)單位公開選調(diào)工作人員78人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 2025-2030中國硫酸鈣晶須行業(yè)市場發(fā)展現(xiàn)狀及競爭格局與投資發(fā)展研究報告
- 2025屆中考地理全真模擬卷 【山東專用】(含答案)
- 沿街商鋪轉(zhuǎn)讓合同協(xié)議書
- 法律職業(yè)倫理歷年試題及答案
- 2025小升初人教版六年級英語下學期期末綜合測試模擬練習卷
- 保潔臺賬管理制度
- Seldinger穿刺技術課件
- 船體結構與制圖知到智慧樹期末考試答案題庫2025年華中科技大學
- 2025年水利工程專業(yè)考試試卷及答案
評論
0/150
提交評論