2017-2018學期數據挖掘作業_第1頁
2017-2018學期數據挖掘作業_第2頁
2017-2018學期數據挖掘作業_第3頁
2017-2018學期數據挖掘作業_第4頁
2017-2018學期數據挖掘作業_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2017 - 2018期數據分析與挖掘課程試題1,請簡要介紹數據挖掘技術的產生背景。(5)答:隨著通信、計算機和網絡技術的快速發展,數據正以空前的速度產生和被收集。在各 行各業許多公司已經開始認識到客戶對業務非常重要,客戶信息是他們的寶貴財富。大量信息 在給人們帶來方便的同時也帶來了一大堆問題:信息冗余、信息真假難以辨識、信息安全難以保證、信息形式不一,難以統一處理等,人們淹沒在數據中而難以快速制定合適的決策。在強 大的商業需求驅動下,商家開始注意到有效的解決大容量數據的利用問題具有巨大商機,學者 們開始思考如何從大容量數據集中獲取有用信息和知識。面對這一挑戰,數據挖掘技術應運而 生,并顯示出

2、強大的生命力。利用數據挖掘工具進行數據分析可以發現重要的數據模式,這對 商務策略、知識庫、科學有重大貢獻。2.請介紹數據挖掘包括哪些任務,并簡要描述具體任務的工作內容。(5)答:數據挖掘任務可以分為預測性和描述性任務。預測性任務如回歸、分類、離群點檢測, 描述性任務如聚類分析、關聯分析、序列模式挖掘。(1)聚類(Clustering)分析:“物以類聚,人以群分”。聚類分析技術試圖找出數據集中的共性和 差異,并將具有共性的對象聚合在相應的類中。聚類可以幫助決定哪些組合更有意義,廣 泛應用于客戶細分、定向營銷、信息檢索等等。(2)分類(Classfication)分析:通過分析示例數據庫中的數據為

3、每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用此分類規則對其它數據庫中的記錄進行分類。分類 分析廣泛應用于用戶行為分析、風險分析、生物科學等。(3)關聯(Association)分析:關聯分析,發現特征之間的相互依賴關系,通常是從給定的數據 集中發現頻繁出現的模式知識 (又稱為關聯規則)。關聯分析廣泛用于市場營銷、事務分析 等領域。(4)離群點(Outlier)檢測:離群點檢測就是發現與眾不同的數據。可應用于商業欺詐行為的自 動檢測,網絡入侵檢測,金融欺詐檢測,反洗錢,犯罪嫌疑人調查,海關、稅務稽查等。(5)回歸(Regression )分析:回歸分析是確定兩種或兩種以上變數間相

4、互依賴的定量關系的一種分析方法。其可應用于風險分析、作文自動評分等領域。(6)序列模式(Sequential Pattern)挖掘:序列模式挖掘是指分析數據間的前后序列關系,包括相似模式發現、周期模式發現等。其應用領域包括客戶購買行為模式預測、Web訪問模式預測、疾病診斷、網絡入侵檢測等3.請簡要介紹 C4.5決策樹算法。(5)答:C4.5是一系列用在機器學習和數據挖掘分類問題中的算法。它的目標是監督學習,給定一個數據集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬于一個互斥的類別中的某一類。C4.5的目標是通過學習,找到一個從屬性值到類別的映射關系,并且這個映射能用 于對新的類別未知

5、的實體進行分類。C4.5決策樹的生長算法描述如下:(a)如果訓練集全部屬于同一個類別,那么創建一個葉節點;(b)否則計算訓練集中每個屬性的信息增益率,選擇增益率最大的屬性作為決策屬性, 并以該決策屬性創建結點;(c)對上一步中決策屬性結點的每個取值添加一個分支;(d)對每個分支的訓練集,轉至(a)。C4.5決策樹的剪枝處理算法描述如下:(a)計算待剪子枝中葉結點的加權估計誤差;(b)如果待剪子枝是一個葉結點,則結束;(c)否則,計算其子樹誤差和所有的分支誤差;(d)如果葉結點誤差小于子樹誤差和最大的分支誤差,則剪枝,設置待剪子枝的根節點 為葉結點;(e)如果最大的分支誤差小于子樹誤差,則剪枝,

6、以誤差最大的分支替換待剪子樹;(f)否則,不剪枝。4.請簡要介紹 K- Mean算法及其優缺點并闡述你對可能改進K- MeanS法的方法。答:簡介:K-Means其核心思想是找出 K個簇中心,使得每一個數據點到其最近的簇中心的平方距離和被 最小化。k-means聚類算法的形式化描述如下:從數據集 D中任意選擇k個對象作為初始簇中心;計算 對象P到k個簇中心的距離,將對象P指派到與其最近(距離最短)的簇;計算每個簇中對象的均 值,做為新的簇的中心; 一直重復操作,一直到 k個簇的簇中心不再發生變化 。優點:K-Means算法描述容易、實現簡單、快速缺點:(1)簇個數k需要預先指定,但實際上難以確

7、定;(2)算法對初始值的選取依賴性極大以及算法常陷入局部最優解;(3)由于將簇的質心作為簇中心進行新一輪聚類計算,遠離數據密集區的孤立點和噪聲 點會導致簇的質心偏離真正的數據密集區,所以K-Means算法對噪聲點和孤立點很敏感;(4)不能用于發現非凸形狀的簇,或具有各種不同大小或密度的簇,即很難檢測到 “自然的”簇;(5)只能用于處理數值屬性的數據集,不能處理包含分類屬性的數據集。改進K-Means算法方法:(a)將分類型數據轉換為數值型數據,再利用K-Means算法進行聚類分析;(b)適用于純分類屬性數據集的K-modes算法和適用于混合屬性數據集的K-prototypes算法;(c)適用于

8、混合屬性數據集的K-Summary算法,它使用簇的摘要信息表示簇的質心。.現有A、B、C、D、E五種商品的交易記錄表,試找出滿足最小支持度為50%,最小置信度為60%的關聯規則。(20分)交易 號商品代碼100A、C、D200B、D、E300A B、C、E400B、E答:首先列出所有頻繁項目及大于或等于最小支持度的項集A-50%,B-75%,C-50%,D-50%,E-75%,A,C-50%.B,E-75%項集支持度計數A,C2B,E3support(A,B)= support(A,D)= support(A,E)= support(B,C)= support(B,D)= support(C,

9、D)= support(C,E)= support(D,E)=25%C:支持度=support(A,C)=50%置信度=support(A,C)/support(A)=100%對于B-E:支持度=support(B,E)=75%置信度=support(B,E)/support(B)=100%所以A,C與B,E都滿足規則,可得到:A-C, C-A, B-E, E-B的強關聯規則. 一家著名高爾夫俱樂部在2周共計14天的時間內記錄了每天的天氣信息以及顧客是否光顧俱樂部的信息,如下表所示。請用樸素貝葉斯算法預測第15天X=sunny, mild, normal, false,?的“是否打球人多”的類

10、標號。(20分)3overcastHothighFALSEyes4rainyMildhighFALSEyes5rainyCoolnormalFALSEyes6rainyCoolnormalTRUEno7overcastCoolnormalTRUEyes8sunnymildhighFALSEno9sunnyCoolnormalFALSEyes10rainyMildnormalFALSEyes11sunnyMildnormalTRUEyes序號天氣狀況溫度濕度是否有風是否打球人多1sunnyHothighFALSEno2sunnyHothighTRUEno12overcastMildhighTRU

11、Eyes13overcasthotnormalFALSEyes14rainycoolhighTRUEno15sunnymildnormalFALSE?答:思路:我們可以求出在sunny,mild,normal,false發生的條件下,事件play=yes和事件play=no的概率,誰的概率大,最終答案就選誰解:根據貝葉斯公式,有 P(play=yes|X)=P(X|play=yes)*P(play=yes)/P(X)P(play=no|X)=P(X|play=no)*P(play=no)/P(X)我們要比較這兩個概率的大小,由于分母相同且大于0,所以我們只需比較分子P(X|play=yes)*

12、P(play=yes)=P(x1|play=yes)其中P(x1|play=yes)=P(天氣狀況=sunny|play=yes)=2/9P(x2|play=yes)=P(溫度=mild|play=yes)=4/9P(x3lplay= yes)=P(濕度=normallplay=yes)=6/9P(x4lplay=yes)=P(風=false|play=yes)=6/9P(play=yes)=9/14P(play=yes|X) 或/9*4/9*6/9*6/*9/14=16/567同理可得P(x1|play=no)=P(天氣狀況=sunny|play=no)=3/5P(x2|play=no)=P

13、(溫度=mild|play=no)=1/5P(x3lplay=no)=P(濕度=normallplay=no)=1/5P(x4lplay=no)=P(風=false|play=no)=2/5P(play=no)=5/14P(play=no|X)3/5*1/5*1/5*2/5*5/14=16/567=3/875根據結果 P(play=yes|XP(play=no|X)所以,樣本 X=sunny,mild,normal,false ? 的 play 類標號值為 yesC4.5算法預測第15天(20)7,請計算第7題中屬性“濕度”的信息增益和信息增益率。并請用X=sunny, mild, norma

14、l, false,?的“是否打球人多”的類標號。答:思路:假定S為訓練集, 在所有樣本中出現的概率,S的目標屬性C具有m個可能的類標號值,C=,(i=1,2,3, ,m),則該信息嫡 Entropy(S)為:Entropy(S)=Entropy(,=0.9403濕度()一 Entropy()一)+ 一一)=0.7885濕度()=0.1518信息增益:Gain(S濕度 尸Entropy(S)-SplitE (S,濕度)信息增益率:GainRation(S,濕度)=尚”=0.1518同理可得:Gain(S天氣犬況尸Entropy(S)-天氣狀況()=0.9403-0.6935=0.2468-=1.

15、5774SplitE (S天氣狀況)GainRati0n(S,天氣狀況尸-1S-=0.1565Gain(S溫度尸 Entropy(S)-溫度()=0.9403-0.5586=0.2468SplitE ( S天氣狀況) =1.5774GainRati0n(S,天氣狀況)=0.3817(4) 有風=Entropy(S)-天氣狀況()=0.9403- (-)+ =0.0481SplitE (S有風)=-一=0.9852有風GainRation(S,有風)=(有風)=0.0488判斷的優先級為:溫度 天氣狀況 濕度是否有風所以X=sunny,mild,normal,false,?的是否打球人多”的類標

16、號為 yes8,試舉一例數據挖掘技術可被應用的具體領域與場景,并簡要描述其所用到的數據挖掘算法與數據挖掘過程。(10)答:數據挖掘技術在生物信息學領域也被廣泛應用。廣義上講生物信息學是指利用先進的數據管理技術、數據分析模型、計算軟件對各種生物信息數據(特別是分子生物學數據)進行提取、加工、存儲、分類、檢索和分析等,以達到闡明和理解大量數據所蘊含的生物學意義的目的。但是生物信息學中的數據挖掘研究仍然處于起步階段,有很多問題需要解決。所涉及實際問題的復雜性,往往需要結合其他專業領域內的挖掘方法,配合本領域的挖掘算法進行具體操作。以下介紹生物信息學研究中可以借鑒的常用數據挖掘算法。決策樹算法應用:決

17、策樹算法是一種常用算法,它是一種貪心算法,采用自頂向下的遞歸方法構造決策樹。不同的算法在構造決策樹時采用的策略也不同。例如:CART采用深度優先策略,SLIQ采用廣度優先策略。在解決實際問題時,往往需要對各種算法進行改進以適應新 問題。或需要結合多種算法的優勢,從而確保得到更合理的分類效果。例如:GA-NN-C4 . 5算法它就是一種將基因算法、神經網絡算法和C4 . 5決策樹算法相結合的新的算法。如今數據挖掘技術已廣泛的應用于金融、醫藥、通信等各個領域。它既驗證了各行業內長期形成的經驗和規律,又發現了隱藏的新模型新規律。在生物信息學領域中,生物信息或基因的數據挖掘和通常的數據相比。無論是數據

18、的復雜性還是數據量,還是建立模型的算法都要復雜的多,這更需要一些新的更有效更準確的算法。雖然,在未來我們還面臨很多的挑戰。但我相信隨著各應用領域信息化的推進都會逐步得到解決,我們將迎來數據挖掘大發展的時 代。9.通過本門課程學習之后,試談談你對本門課程的體會。(10,)答:學習過數據挖掘這門課程已經有一個學期了,我對數據挖掘這門課程的一些技術也有 了一定的了解。數據挖掘就是從大量的數據中,抽取出潛在的、有價值的知識、模型或規則的 過程。作為一類深層次的數據分析方法,它利用了數據庫、人工智能和數理統計等多方面的技 術。首先要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步, 功能完善的數據庫系統就成了最好的收集數據的工具。數據挖掘的研究領域非常廣泛,主要包 括數據庫系統、基于知識的系統、人工智能、機器學習、知識獲取、統計學、空間數據庫和數 據可視化等領域。主要是可以做以下幾件事:分類、估計、預測、關聯分析、聚類分析、描述 和可視化、復雜數據類型挖掘。其次,在學習關聯規則的時候,提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論