數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題_第5頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末試題廣西財經(jīng)學院20072008學年第一學期數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程期末考試試卷(a)一、名詞說明(每題4分,共20分)1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫data warehouse是一個面對主題的subject oriented、集成的integrate、相對穩(wěn)定的non-volatile、反映歷史改變time variant的數(shù)據(jù)集合,用于支持管理決策。2、數(shù)據(jù)挖掘數(shù)據(jù)挖掘(data mining),又稱為數(shù)據(jù)庫中的學問發(fā)覺(knowledge discovery in database, kdd),就是從大量數(shù)據(jù)中獵取有效的、新穎的、潛在有用的、最終可理解的形式的非平凡過程,簡潔的

2、說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘?qū)W問。3、雪花模型雪花形式中某些維表是標準化的,因此把數(shù)據(jù)進一步分解到附加的表中,形式圖形成了類似雪花的樣子。通過最大限度地削減數(shù)據(jù)存儲量以及結(jié)合較小的維表來改善查詢性能。雪花模型增加了用戶必需處理的表數(shù)量,增加了某些查詢的冗雜性,但同時進步了處理的敏捷性,可以答復更多的商業(yè)問題,特殊合適系統(tǒng)的逐步建立要求。4、olapolap是聯(lián)機分析處理,是使分析人員、管理人員或執(zhí)行人員可以從多角度對信息進展快速、全都、交互地存取,從而獲得對數(shù)據(jù)的更深化理解的一類軟件技術(shù)。它支持冗雜的分析操作,側(cè)重決策支持,并且供應直觀易懂的查詢結(jié)果。5、決策樹決策樹是將訓練集函數(shù)

3、表示成樹構(gòu)造,通過它來近似離散值的目的函數(shù)。這種樹構(gòu)造是一種有向樹,它以訓練集的一個屬性作節(jié)點,這個屬性所對應的一個值作邊。決策樹一般都是自上而下的來生成的。二、簡答題每題6分,共30分1、企業(yè)面對海量數(shù)據(jù),應如何詳細施行數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型?首先進展數(shù)據(jù)的預處理,主要進展數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù)的變換和數(shù)據(jù)規(guī)約。2、請列舉您用法過的各種數(shù)據(jù)倉庫工具軟件包括建模工具,etl工具,前端呈現(xiàn)工具,olap server、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具和熟識程度。etl工具:ascential datastage ,ibm warehouse manager、info

4、rmatica公司的powercenter、cognos 公司的decisionstream市場上的主流數(shù)據(jù)倉庫存儲層軟件有:sql server、sybase、oracle、db2、teradata 但是用法過的只有sql server和數(shù)據(jù)挖掘工具analysis services,而且不大熟識。3、請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運用的理解。元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問數(shù)據(jù)。詳細來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:描繪哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);記

5、錄依據(jù)業(yè)務大事發(fā)生而隨之進展的數(shù)據(jù)抽取工作時間支配;記錄并檢測系統(tǒng)數(shù)據(jù)全都性的要求和執(zhí)行狀況;衡量數(shù)據(jù)質(zhì)量。4、數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?1可伸縮性2處理不同類型屬性的力量3發(fā)覺任意樣子的聚類4使輸入?yún)?shù)的領(lǐng)域?qū)W問最小化5處理噪聲數(shù)據(jù)的力量6對于輸入挨次不敏感7高維性8基于約束的聚類9可說明性和可利用性5、簡述apriori算法的思想,談談該算法的應用領(lǐng)域并舉例。思想:其發(fā)覺關(guān)聯(lián)規(guī)章分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中全部煩瑣項集,即支持度不低于用戶設定的閥值的項即集,其次是利用第一步中檢索出的煩瑣項集構(gòu)造出滿足用戶最小信任度的規(guī)章,其中,第一步即挖掘出全部頻繁項集是該算法的核心,也占

6、整個算法工作量的大局部。在商務、金融、保險等領(lǐng)域皆有應用。在建筑陶瓷行業(yè)中的穿插銷售應用,主要采納了apriori 算法三、翻譯分析題30分1、附件有一名為“data mining in electronic commerce的電子文檔,請同學們翻譯其中的一段。每位同學翻譯的段號以大家學號的最終兩位為準,如10號同學只需翻譯正文的第10段,以此類推。分類那么是一個標準的問題,在數(shù)據(jù)挖掘和在電子商貿(mào)的應用-原那么下,適當?shù)姆椒S機森林,支持向量機支持向量機,后勤拉索等有賴于敏銳地在該網(wǎng)站上,該類型的廣告都是可以搜集到的資料。在亞馬遜商務網(wǎng)站中,該推舉系統(tǒng)已進入從前購置和書籍進展視察。這是一個更豐

7、富的信息來源,通過http:/.doczj/doc/4d1a7ec72cc58bd63186bd73.html 可以接入他們只知道這個詞,有人期盼在這次會議上,除非他們有庫克-網(wǎng)頁。一些企業(yè)獲得更多的信息,從數(shù)據(jù)倉庫中,如作為choicepoint公司,這使得他們的專家來建立高度獨特化的分類規(guī)章。2、通過閱讀該文擋,請同學們分析一下數(shù)據(jù)挖掘在電子商務領(lǐng)域的應用狀況請深化分析并給出實例,切忌泛泛而談。隨著網(wǎng)絡技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,全球傳統(tǒng)商務正經(jīng)受一次重大變革,向電子商務全速挺進。這種商業(yè)電子化的趨勢不僅為客戶供應了便利的交易方式和廣泛的選擇,同時也為商家供應了更加深化地理解客戶需求信息和購物

8、行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務的重要應用技術(shù)之一,將為正確的商業(yè)決策供應強有力的支持和牢靠的保證,是電子商務不行缺少的重要工具。電子商務的進展促使公司內(nèi)部搜集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和學問,為公司制造更多潛在的利潤,數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開發(fā)出來的。由于數(shù)據(jù)挖掘能帶來顯著的效益,它在電子商務中特殊是業(yè)、零售業(yè)和電信業(yè)應用也越來越廣泛。在金融領(lǐng)域,管理者可以通過對客戶歸還力量以及信譽的分析,進展分類,評出等級。從而可削減放貸的麻木性,進步資金的用法效率。同時還可發(fā)覺在歸還中起打算作用的主導因素,從而制定相應的金融政策。更值得一提的是通過對數(shù)據(jù)的分析還可發(fā)覺洗黑錢以及其它的犯罪活動。在零售業(yè),數(shù)據(jù)挖掘可有助于識別顧客購置行為,發(fā)覺顧客購置形式和趨勢,改良效勞質(zhì)量,獲得更好的顧客保持力和滿足程度,進步貨品銷量比率,設計更好的貨品運輸與分銷策略,削減商業(yè)本錢。電信業(yè)已經(jīng)快速地從單純的供應市話和長話效勞演化為綜合電信效勞,如語音、傳真、尋呼、挪動電話、圖像、電子郵件、機和web數(shù)據(jù)傳輸以及其它的數(shù)據(jù)通信效勞。電信、計算機網(wǎng)絡、因特網(wǎng)和各種其它方式的通信和計算的融合是的大勢所趨。而且隨著很多國家對電信業(yè)的開放和新型計算與通信技術(shù)的進展,電信市場正在快速擴張并更加競爭劇烈。因此,利用數(shù)據(jù)挖掘技術(shù)來關(guān)心理解商業(yè)行為、確定電信形式、捕捉盜用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論