第九章_數(shù)據(jù)挖掘_第1頁
第九章_數(shù)據(jù)挖掘_第2頁
第九章_數(shù)據(jù)挖掘_第3頁
第九章_數(shù)據(jù)挖掘_第4頁
第九章_數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩222頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主要內(nèi)容主要內(nèi)容1. 概述概述2. 數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與OLAP技術(shù)技術(shù)3. 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)4. 數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用5. 數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具6. 數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘?qū)嵗? 概述概述1.1 背景背景1.2 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘定義1.3 基本概念基本概念1.4 主要功能主要功能1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程1.7 數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用1.8 未來趨勢(shì)未來趨勢(shì)1.1 背景背景 二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)

2、的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。 1.1 背景背景 數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)這一術(shù)語。 隨后,在1991年

3、、1993年和1994年都舉行KDD專題討論會(huì),匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成KDD的同義詞。 1.1 背景背景 現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(Data Mining),實(shí)際兩者是有區(qū)別的。一般將KDD中進(jìn)行知識(shí)學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(Data Mining),數(shù)據(jù)挖掘是KDD中一個(gè)非常重要的處理步驟。 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(Customer Relationship Management, CRM)、商業(yè)智能

4、(Business Intelligence, BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。 1.2 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘定義 技術(shù)角度的定義技術(shù)角度的定義 數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。與數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。 這一定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、海量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。 1.2 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘定義 商業(yè)角度的定

5、義商業(yè)角度的定義 數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性信息。 簡(jiǎn)言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法。 數(shù)據(jù)挖掘的演化數(shù)據(jù)挖掘的演化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是

6、多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、

7、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系 數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。 此外,還與神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、空間數(shù)據(jù)分析、圖像處理、信號(hào)處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)

8、系密切。 數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系 近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計(jì)方法來完成的。甚至有些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的一個(gè)分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。 但是,統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別(1)數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變; 數(shù)據(jù)是海量的; 數(shù)據(jù)有噪聲; 數(shù)據(jù)可能是非結(jié)構(gòu)化的; (2)傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證,在一定意義上是假設(shè)

9、驅(qū)動(dòng)的;與之相反,數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動(dòng)的,模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來 。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。 在缺乏強(qiáng)有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下,歷史數(shù)據(jù)庫也就變成了“數(shù)據(jù)墳?zāi)埂崩锩娴臄?shù)據(jù)幾乎不再被訪問。也就是說,極有價(jià)值的信息被“淹沒”在海量數(shù)據(jù)堆中,領(lǐng)導(dǎo)者決策時(shí)還只能憑自己的經(jīng)驗(yàn)和直覺。因此改進(jìn)原有的數(shù)據(jù)分析方法,使之能夠智能地處理海量數(shù)據(jù),即演化為數(shù)據(jù)挖掘。 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別國外數(shù)據(jù)挖掘的現(xiàn)狀國外數(shù)據(jù)挖掘的現(xiàn)狀 I

10、EEE的Knowledge and Data Engineering會(huì)刊率先在1993年出版了KDD技術(shù)專刊。并行計(jì)算、計(jì)算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會(huì)、學(xué)刊也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為專題和專刊討論。數(shù)據(jù)挖掘已經(jīng)成了國際學(xué)術(shù)研究的重要熱點(diǎn)之一。 此外,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discovery Nuggets最為權(quán)威(http:/ subscribe.html)。在網(wǎng)上還有許多自由論壇,如DM Email Club等。 國外數(shù)據(jù)挖掘的現(xiàn)狀國外數(shù)據(jù)挖掘的現(xiàn)狀 自1989年KDD術(shù)語出現(xiàn)以來,由美國人工智能協(xié)會(huì)主辦的KDD國際研討會(huì)已經(jīng)

11、召開了10次以上,規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì)。而亞太地區(qū)也從1997開始舉行PAKDD年會(huì)。 國內(nèi)數(shù)據(jù)挖掘研究現(xiàn)狀國內(nèi)數(shù)據(jù)挖掘研究現(xiàn)狀 與國外相比,國內(nèi)對(duì)數(shù)據(jù)挖掘的研究起步稍晚,但發(fā)展勢(shì)頭強(qiáng)勁。 1993年,國家自然科學(xué)基金首次資助復(fù)旦大學(xué)對(duì)該領(lǐng)域的研究項(xiàng)目。 目前,國內(nèi)的許多科研單位和高等院校競(jìng)相開展知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。數(shù)據(jù)挖掘的發(fā)展趨勢(shì)數(shù)據(jù)挖掘的發(fā)展趨勢(shì) 近年來,數(shù)據(jù)挖掘的研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多學(xué)科之間的相互滲透。 例如,1998年在美國紐約舉行的第四屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論,并且有30多

12、家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國得到應(yīng)用。 數(shù)據(jù)挖掘的本質(zhì)數(shù)據(jù)挖掘的本質(zhì) 一種深層次的數(shù)據(jù)分析方法。 數(shù)據(jù)分析本身已有多年的歷史,只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究;另外,由于當(dāng)時(shí)計(jì)算能力的限制,很難實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)雜分析。 現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)并不是為了分析的目的而收集的,而是在商業(yè)運(yùn)作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的。實(shí)施數(shù)據(jù)挖掘的目的實(shí)施數(shù)據(jù)挖掘的目的 不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。 所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有

13、價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。1.3 基本概念基本概念 信息信息 是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的方式。 數(shù)據(jù)數(shù)據(jù) 指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。 數(shù)據(jù)可能存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息資料庫中。1.3 基本概念基本概念 知識(shí)知識(shí) 人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律;是對(duì)信息加工提煉所獲得的抽象化產(chǎn)物。 知識(shí)的形式可能是模式、關(guān)聯(lián)、變化、異常以及其

14、他有意義的結(jié)構(gòu)。1.3 基本概念基本概念 模式模式 對(duì)于集合F中的數(shù)據(jù),我們可以用語言L來描述其中數(shù)據(jù)的特性,得出一個(gè)表達(dá)式E,E所描述的數(shù)據(jù)是集合F的一個(gè)子集FE。只有當(dāng)表達(dá)式E比列舉所有FE中元素的描述方法更為簡(jiǎn)單時(shí),我們才可稱之為模式。如:“如果成績?cè)?1-90之間,則成績優(yōu)良”可稱為一個(gè)模式,而“如果成績?yōu)?1、82、83、84、85、86、87、88、89或90,則成績優(yōu)良”則不能不能稱之為一個(gè)模式。 1.4 主要功能主要功能1. 概念概念/類別描述類別描述(Concept/Class Description) 概念/類別描述是指對(duì)數(shù)據(jù)集做一個(gè)簡(jiǎn)潔的總體性描述并/或描述它與某一對(duì)照數(shù)

15、據(jù)集的差別。 例1:我們收集移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進(jìn)行分析,獲得這類客戶的總體性描述:3550歲,有工作,月收入5000元以上,擁有良好的信用度; 1.4 主要功能主要功能 例2:對(duì)比移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶群與移動(dòng)電話費(fèi)月消費(fèi)額低于100元的客戶群。 利用數(shù)據(jù)挖掘可作出如下描述:移動(dòng)電話月消費(fèi)額超出1000元的客戶80以上年齡在3550歲之間,且月收入5000元以上;而移動(dòng)電話月消費(fèi)額低于100元的客戶60以上要么年齡過大要么年齡過小,且月收入2000元以下。1.4 主要功能主要功能2. 關(guān)聯(lián)分析關(guān)聯(lián)分析(Association Analy

16、sis) 從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性值條件元組。 例如:關(guān)聯(lián)規(guī)則X=Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。 1.4 主要功能主要功能3. 分類與估值分類與估值(Classification and Estimation) 分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。 估值與分類類似,只不過它要預(yù)測(cè)的不是類別,而是一

17、個(gè)連續(xù)的數(shù)值。 1.4 主要功能主要功能4. 聚類分析聚類分析(Clustering Analysis) 聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。 好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。 1.4 主要功能主要功能5. 時(shí)間序列分析時(shí)間序列分析(Time-Series Analysis) 時(shí)間序列分析即預(yù)測(cè)(Prediction),是指通過對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序

18、列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來的情況作出估計(jì)。 1.4 主要功能主要功能6. 其它功能其它功能 包括:偏差分析(Deviation Analysis)、孤立點(diǎn)分析(Outlier Analysis)等。 隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型 為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐洲委員會(huì)聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開發(fā)了CRISP-DM(Cross Industry Standard Process for Data Mining)模型,目的是把數(shù)據(jù)挖掘的過程標(biāo)準(zhǔn)化, 使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更

19、容易管理。 CRISP-DM模型最先在1996年被提出,當(dāng)前的白皮書版本是1.0。CRISP-DM(Cross Industry Standard Process for Data Mining)模型 業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估系統(tǒng)部署數(shù)據(jù)1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型 CRISP-DM模型中,數(shù)據(jù)挖掘包括六個(gè)步驟: 1.1.業(yè)務(wù)理解(業(yè)務(wù)理解(Business UnderstandingBusiness Understanding)階段)階段 具體地,包括:I. 確定業(yè)務(wù)目標(biāo)II. 項(xiàng)目可行性分析III.確定數(shù)據(jù)挖掘目標(biāo)IV. 提出初步的項(xiàng)目計(jì)劃1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模

20、型 確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析項(xiàng)目的目標(biāo)和需求,確定業(yè)務(wù)角度的成功標(biāo)準(zhǔn); 項(xiàng)目可行性分析:分析擁有的資源,條件和限制,風(fēng)險(xiǎn)估計(jì),成本和效益估計(jì); 確定數(shù)據(jù)挖掘目標(biāo):明確確定數(shù)據(jù)挖掘的目標(biāo)和成功標(biāo)準(zhǔn),數(shù)據(jù)挖掘的目標(biāo)和業(yè)務(wù)目標(biāo)是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等; 提出項(xiàng)目計(jì)劃:對(duì)整個(gè)項(xiàng)目做一個(gè)計(jì)劃,初步估計(jì)用到的工具和技術(shù)。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型 2 2數(shù)據(jù)理解(數(shù)據(jù)理解(Data UnderstandingData Understanding)階段)階段 具體地,包括: 收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些

21、初步的數(shù)據(jù)集成的工作,生成相應(yīng)報(bào)告; 描述數(shù)據(jù):對(duì)數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報(bào)告; 探索數(shù)據(jù):對(duì)數(shù)據(jù)做簡(jiǎn)單的統(tǒng)計(jì)分析,例如關(guān)鍵屬性的分布等; 檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯(cuò)、是否有缺失值等問題。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型3 3數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)準(zhǔn)備(Data PreparationData Preparation)階段)階段 具體地,包括: 數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇; 數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計(jì)缺失值等; 數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;1.5 數(shù)

22、據(jù)挖掘模型數(shù)據(jù)挖掘模型 數(shù)據(jù)合并:利用表連接等方式將幾個(gè)數(shù)據(jù)集合并在一起; 數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型4 4建立模型(建立模型(ModelingModeling)階段)階段 具體地,包括: 選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會(huì)利用多個(gè)算法; 測(cè)試方案設(shè)計(jì):設(shè)計(jì)某種測(cè)試模型的質(zhì)量和有效性的機(jī)制; 模型訓(xùn)練:在準(zhǔn)備好的數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘算法,得出一個(gè)或者多個(gè)模型; 模型測(cè)試評(píng)估:根據(jù)測(cè)試方案進(jìn)行測(cè)試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標(biāo)是否成功。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型5模型評(píng)估(模型評(píng)估(EvaluationEvaluat

23、ion)階段)階段 具體地,包括: 結(jié)果評(píng)估:從商業(yè)角度評(píng)估得到的模型,甚至實(shí)際試用該模型測(cè)試其效果; 過程回顧:回顧項(xiàng)目的所有流程,確定每一個(gè)階段都沒有失誤; 確定下一步工作:根據(jù)結(jié)果評(píng)估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個(gè)階段開始重新開始。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型6 6部署(部署(DeploymentDeployment)階段)階段 具體地,包括: 部署計(jì)劃:對(duì)在業(yè)務(wù)運(yùn)作中部署模型作出計(jì)劃; 監(jiān)控和維護(hù)計(jì)劃:如何監(jiān)控模型在實(shí)際業(yè)務(wù)中的使用情況,如何維護(hù)該模型; 作出最終報(bào)告:項(xiàng)目總結(jié),項(xiàng)目經(jīng)驗(yàn)和項(xiàng)目結(jié)果; 項(xiàng)目回顧:回顧項(xiàng)目的實(shí)施過程,總結(jié)經(jīng)驗(yàn)教訓(xùn);對(duì)數(shù)據(jù)挖掘的運(yùn)

24、行效果做一個(gè)預(yù)測(cè)。 1.5 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型 為保證項(xiàng)目的可靠性和可管理性,CRISP-DM規(guī)定一個(gè)數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個(gè)報(bào)告: 業(yè)務(wù)理解報(bào)告業(yè)務(wù)理解報(bào)告 原始數(shù)據(jù)收集報(bào)告原始數(shù)據(jù)收集報(bào)告 數(shù)據(jù)描述報(bào)告數(shù)據(jù)描述報(bào)告 數(shù)據(jù)探索報(bào)告數(shù)據(jù)探索報(bào)告 數(shù)據(jù)質(zhì)量報(bào)告數(shù)據(jù)質(zhì)量報(bào)告 數(shù)據(jù)集描述報(bào)告數(shù)據(jù)集描述報(bào)告 模型訓(xùn)練報(bào)告模型訓(xùn)練報(bào)告 模型評(píng)估報(bào)告模型評(píng)估報(bào)告 部署計(jì)劃部署計(jì)劃 監(jiān)控和維護(hù)計(jì)劃監(jiān)控和維護(hù)計(jì)劃 總結(jié)報(bào)告總結(jié)報(bào)告 通過這些報(bào)告,可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程,減少開發(fā)風(fēng)險(xiǎn)。 1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程原始數(shù)據(jù)數(shù)據(jù)模式知識(shí)應(yīng)用準(zhǔn)備挖掘解釋運(yùn)用 各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式

25、上升過程。1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程 數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備 KDD的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,需要做一些準(zhǔn)備工作,也就數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(cè)(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。 數(shù)據(jù)準(zhǔn)備是KDD的第一個(gè)步驟,也是比較重要的一個(gè)步驟。數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程 數(shù)據(jù)挖掘數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算

26、法的參數(shù),分析數(shù)據(jù),得到可能形成知識(shí)的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。 1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程 模式的評(píng)估、解釋模式的評(píng)估、解釋 通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評(píng)估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。 1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程 知識(shí)運(yùn)用知識(shí)運(yùn)用 發(fā)現(xiàn)知識(shí)是為了運(yùn)用,如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;另一種是要求對(duì)新的數(shù)

27、據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問題,而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化。 KDD過程可能需要多次的循環(huán)反復(fù),每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程 數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:1)業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。2)數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。3)數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。1.6 實(shí)現(xiàn)流程實(shí)現(xiàn)流程

28、 從上可見,數(shù)據(jù)挖掘是一個(gè)多領(lǐng)域?qū)<液献鞯倪^程,也是一個(gè)在資金上和技術(shù)上高投入的過程。這一過程要反復(fù)進(jìn)行,在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。 1.7 數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生本身就有其強(qiáng)烈的應(yīng)用需求背景,它從一開始就是面向應(yīng)用的。數(shù)據(jù)挖掘技術(shù)在市場(chǎng)分析、業(yè)務(wù)管理、決策支持等方面有廣泛的應(yīng)用,是實(shí)現(xiàn)CRM和BI的重要技術(shù)手段之一。具體涉及數(shù)據(jù)挖掘的商業(yè)問題有數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analy

29、sis)、交叉銷售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失分析(Churn Analysis)、客戶信用評(píng)分(Credit Scoring)、欺詐甄別(Fraud Detection)等 。 當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信(客戶分析),零售(銷售預(yù)測(cè)),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測(cè)),網(wǎng)絡(luò)日志(網(wǎng)頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。當(dāng)前它能解決的問題典 型在于:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、 背景分析(P

30、rofile Analysis)、交叉銷售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等, 在許多領(lǐng)域得到了成功的應(yīng)用。如果你訪問著名的亞馬遜網(wǎng)上書店(),會(huì)發(fā)現(xiàn)當(dāng)你選中一本書后,會(huì)出現(xiàn)相關(guān)的推薦數(shù)目“Customers who bought this book also bought”,這背后就是數(shù)據(jù)挖掘技術(shù)在發(fā)揮作用。 1.7 數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用1.7 數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用 最近Gartner Group的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖

31、掘和人工智能列為“未來三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點(diǎn)。 1.8 就業(yè)領(lǐng)域 數(shù)據(jù)挖掘的對(duì)象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過程是一個(gè)人機(jī)交互、多次反 復(fù)的過程;挖掘的結(jié)果要應(yīng)用于該專業(yè)。因此數(shù)據(jù)挖掘的整個(gè)過程都離不開應(yīng)用領(lǐng)域的專業(yè)知識(shí)。“Business First, technique second”是數(shù)據(jù)挖掘的特點(diǎn)。因此

32、學(xué)習(xí)數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識(shí)和經(jīng)驗(yàn)。相反,有其它行業(yè)背景是從事數(shù) 據(jù)挖掘的一大優(yōu)勢(shì)。如有銷售,財(cái)務(wù),機(jī)械,制造,call center等工作經(jīng)驗(yàn)的,通過學(xué)習(xí)數(shù)據(jù)挖掘,可以提升個(gè)人職業(yè)層次,在不改變?cè)瓕I(yè)的情況下,從原來的事務(wù)型角色向分析型角色 轉(zhuǎn)變。從80年代 末的初露頭角到90年 代末的廣泛應(yīng)用,以數(shù)據(jù)挖掘?yàn)楹诵牡纳虡I(yè)智能(BI)已經(jīng)成為IT及其它行業(yè)中的一個(gè)新寵。數(shù)據(jù)挖掘就業(yè)的途徑:A:做科研(在高校、科研單位以及大型企業(yè),主要研究 算法、應(yīng)用等) B:做程序開發(fā)設(shè)計(jì)(在企業(yè)做數(shù)據(jù)挖掘及其相關(guān)程序算法的實(shí)現(xiàn)等)C:數(shù)據(jù)分析師(在存在海 量數(shù)據(jù)的企事業(yè)單位做咨詢、分析等)2.數(shù)據(jù)挖掘

33、從業(yè)人員切入點(diǎn):C,數(shù)據(jù)分析師:需要有深 厚的數(shù)理統(tǒng)計(jì)基礎(chǔ),可以不知道人工智能和計(jì)算機(jī)編程等相關(guān)技術(shù),但是需要熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計(jì)分析)工具 。從這個(gè)方面切入數(shù)據(jù)挖掘領(lǐng)域需要學(xué)習(xí)數(shù)理統(tǒng)計(jì)、概率論、統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、 推理與預(yù)測(cè) 、金融數(shù)據(jù)挖掘,業(yè)務(wù)建模與數(shù)據(jù)挖掘、數(shù)據(jù)挖掘?qū)嵺` 等,當(dāng)然也少不了使用的工具的對(duì)應(yīng)說明書了,如SPSS、SAS等廠商的SAS數(shù)據(jù)挖掘與分析、數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù) 、EXCEL 2007數(shù)據(jù)挖掘完全手冊(cè)等。B,程序設(shè)計(jì)開發(fā):主要是實(shí)現(xiàn)數(shù)據(jù)挖掘現(xiàn)有的算法和研發(fā) 新的算法以及根據(jù)實(shí)際需要結(jié)合核心算法做一些程序開發(fā)實(shí)現(xiàn)工作。要想扮演好這個(gè)角色,你

34、不但需要熟悉至少一門編程語言如(C,C+,Java,Delphi等)和數(shù)據(jù)庫原理和操作,對(duì)數(shù)據(jù)挖掘基礎(chǔ)課程有所了 解,讀過數(shù)據(jù)挖掘概念與技術(shù)(韓家煒著)、人工智能及其應(yīng)用。可以尋找一些開源的數(shù)據(jù)挖掘 軟件研究分析,也可以參考如數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)及Java實(shí)現(xiàn)等一些教程。A.做科研:這里的科研相 對(duì)來說比較概括,屬于技術(shù)型的相對(duì)高級(jí)級(jí)別,也是B,C的歸宿,那么相應(yīng)的也就需要對(duì)B、C的必備基礎(chǔ)知識(shí)了。數(shù)據(jù)采集分析專員職位介紹:數(shù)據(jù)采集分析專員的主要職責(zé)是把公司運(yùn)營的數(shù)據(jù)收集起來,再從中挖 掘出規(guī)律性的信息來指導(dǎo)公司的戰(zhàn)略方向。這個(gè)職位常被忽略,但相當(dāng)重要。由于數(shù)據(jù)庫技術(shù)最先出現(xiàn)于計(jì)算機(jī)領(lǐng)域

35、,同時(shí)計(jì)算機(jī)數(shù)據(jù)庫具有海量存儲(chǔ)、查找迅速、 分析半自動(dòng)化等特點(diǎn),數(shù)據(jù)采集分析專員最先出現(xiàn)于計(jì)算機(jī)行業(yè),后來隨著計(jì)算機(jī)應(yīng)用的普及擴(kuò)展到了各個(gè)行業(yè)。該職位一般提供給懂?dāng)?shù)據(jù)庫應(yīng)用和具有一定統(tǒng)計(jì)分 析能力的人。有計(jì)算機(jī)特長的統(tǒng)計(jì)專業(yè)人員,或?qū)W過數(shù)據(jù)挖掘的計(jì)算機(jī)專業(yè)人員都可以勝任此工作,不過最好能夠?qū)λ谛袠I(yè)的市場(chǎng)情況具有一定的了解。求職建議:由于很多公司追求短期利益而不注重長期戰(zhàn)略的現(xiàn)狀,目前國內(nèi)很多企 業(yè)對(duì)此職位的重視程度不夠。但大型公司、外企對(duì)此職位的重視程度較高,隨著時(shí)間的推移該職位會(huì)有升溫的趨勢(shì)。另外,數(shù)據(jù)采集分析專員很容易獲得行業(yè)經(jīng)驗(yàn), 他們?cè)诜治鲞^程中能夠很輕易地把握該行業(yè)的市場(chǎng)情況、客戶

36、習(xí)慣、渠道分布等關(guān)鍵情況,因此如果想在某行創(chuàng)業(yè),從數(shù)據(jù)采集分析專員干起是一個(gè)不錯(cuò)的選擇。市場(chǎng)/數(shù)據(jù)分析師1. 市場(chǎng)數(shù)據(jù)分析是現(xiàn)代市場(chǎng)營銷科學(xué)必不可少的關(guān)鍵環(huán)節(jié): Marketing/Data Analyst從業(yè)最多的行業(yè): Direct Marketing (直接面向客戶的市場(chǎng)營銷) 吧,自90年代以來, Direct Marketing越來越成為公司推銷其產(chǎn)品的主要手段。為什么Direct Marketing需要這么多Analyst呢? 舉個(gè)例子, 隨著商業(yè)競(jìng)爭(zhēng)日益加劇,公司希望能最大限 度的從廣告中得到銷售回報(bào), 他們希望能有更多的用戶來響應(yīng)他們的廣告。所以他們就必需要在投放廣告之前做大量

37、的市場(chǎng)分析工作。例如,根據(jù)自己的產(chǎn)品結(jié)合目標(biāo)市場(chǎng)顧客的家 庭收入,教育背景和消費(fèi)趨向分析出哪些地區(qū)的住戶或居民最有可能響應(yīng)公司的銷售廣告,購買自己的產(chǎn)品或成為客戶,從而廣告只針對(duì)這些特定的客戶群。這樣有 的放矢的篩選廣告的投放市場(chǎng)既節(jié)省開銷又提高了銷售回報(bào)率。但是所有的這些分析都是基于數(shù)據(jù)庫,通過數(shù)據(jù)處理,挖掘,建模得出的,其間,市場(chǎng)分析師的工作 是必不可少的。2. 行業(yè)適應(yīng)性強(qiáng): 幾乎所有的行業(yè)都會(huì)應(yīng)用到數(shù)據(jù), 所以作為一名數(shù)據(jù)/市場(chǎng)分析師可以在政府,銀行,零售,醫(yī)藥業(yè),制造業(yè)和交通傳輸?shù)阮I(lǐng)域服務(wù)。1.8 未來趨勢(shì)未來趨勢(shì) 未來的熱點(diǎn)應(yīng)用領(lǐng)域未來的熱點(diǎn)應(yīng)用領(lǐng)域 網(wǎng)站的數(shù)據(jù)挖掘(網(wǎng)站的數(shù)據(jù)挖掘

38、(Web site data miningWeb site data mining) 生物信息或基因的數(shù)據(jù)挖掘生物信息或基因的數(shù)據(jù)挖掘 文本挖掘(文本挖掘(Textual miningTextual mining) 多媒體挖掘多媒體挖掘 1.8 未來趨勢(shì)未來趨勢(shì) 網(wǎng)站的數(shù)據(jù)挖掘(網(wǎng)站的數(shù)據(jù)挖掘(Web site data miningWeb site data mining) 當(dāng)前Internet上各類電子商務(wù)網(wǎng)站風(fēng)起云涌,電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈。客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可,電子商務(wù)環(huán)境下客戶保持比傳統(tǒng)商業(yè)更加困難。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲

39、勝,您必須比競(jìng)爭(zhēng)對(duì)手更了解客戶。電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Log files)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,及時(shí)地了解客戶的喜好、購買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。1.8 未來趨勢(shì)未來趨勢(shì) 網(wǎng)站的數(shù)據(jù)挖掘(網(wǎng)站的數(shù)據(jù)挖掘(Web site data miningWeb site data mining) 就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)

40、據(jù)庫格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。 1.8 未來趨勢(shì)未來趨勢(shì) 生物信息或基因的挖掘生物信息或基因的挖掘 生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。 對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法方面,都要復(fù)雜得多。從分析算法上講,

41、更需要一些新的和高效的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒有達(dá)到成熟的地步。 1.8 未來趨勢(shì)未來趨勢(shì) 文本挖掘(文本挖掘(Textual miningTextual mining) 文本挖掘是人們關(guān)心的另外一個(gè)話題。例如,在客戶服務(wù)中心,把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù),再對(duì)這些數(shù)據(jù)進(jìn)行挖掘,進(jìn)而了解客戶對(duì)服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息。 無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面,文本數(shù)據(jù)挖掘和數(shù)據(jù)挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場(chǎng)上有一些類似的軟件,但大部分方法只是把文本移來移

42、去,或簡(jiǎn)單地計(jì)算一下某些詞匯的出現(xiàn)頻率,并沒有真正實(shí)現(xiàn)語義上的分析功能。 1.8 未來趨勢(shì)未來趨勢(shì) 多媒體挖掘(多媒體挖掘(Multimeadia MiningMultimeadia Mining) 基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實(shí)現(xiàn)對(duì)象檢索,如關(guān)鍵字、標(biāo)題、尺寸和創(chuàng)建時(shí)間等; 人工實(shí)現(xiàn)則極為費(fèi)時(shí)、費(fèi)力 ; 自動(dòng)實(shí)現(xiàn)則往往結(jié)果不理想。 基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索,例如顏色、質(zhì)地、形狀、對(duì)象及小波變換 主要內(nèi)容主要內(nèi)容1. 概述概述2. 數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與OLAP技術(shù)技術(shù)3. 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)4. 數(shù)據(jù)挖掘在電信領(lǐng)域的應(yīng)用數(shù)據(jù)挖掘在電信領(lǐng)域的應(yīng)用5. 數(shù)據(jù)挖掘

43、工具數(shù)據(jù)挖掘工具6. 數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘?qū)嵗? 數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與OLAP技術(shù)技術(shù)2.1 數(shù)據(jù)倉庫數(shù)據(jù)倉庫2.2 ETL過程過程2.3 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)2.4 數(shù)據(jù)倉庫的應(yīng)用數(shù)據(jù)倉庫的應(yīng)用OLAP2.1 數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系 到目前為止,數(shù)據(jù)倉庫在國外已經(jīng)發(fā)展了十幾年的時(shí)間。在國內(nèi),雖然起步較晚,但發(fā)展較為迅速。 目前有很多的大公司或企業(yè)正在建或計(jì)劃建設(shè)不同規(guī)模的數(shù)據(jù)倉庫和數(shù)據(jù)集市。 2.1 數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系 數(shù)據(jù)倉庫建立在傳統(tǒng)事務(wù)型數(shù)據(jù)庫的基礎(chǔ)之上,為企業(yè)決策支持系統(tǒng)、OLAP及數(shù)據(jù)挖掘系統(tǒng)提供數(shù)

44、據(jù)源。2.1 數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系 數(shù)據(jù)庫的應(yīng)用包括:事務(wù)型應(yīng)用和分析型應(yīng)用 物理數(shù)據(jù)庫實(shí)際存儲(chǔ)的數(shù)據(jù)包括: 事務(wù)型數(shù)據(jù)(或稱操作數(shù)據(jù))和分析型數(shù)據(jù)(也可稱為匯總數(shù)據(jù)、信息數(shù)據(jù))。 起初,兩類數(shù)據(jù)放到一起,即分散存儲(chǔ)在各底層的業(yè)務(wù)數(shù)據(jù)庫中。 后來,隨著企業(yè)規(guī)模的擴(kuò)展、數(shù)據(jù)量的增加、以及希望在決策分析時(shí)得到更多支持需求的日益迫切,并且考慮保證原有事務(wù)數(shù)據(jù)庫的高效性與安全性。因此將分析型數(shù)據(jù)與事務(wù)型數(shù)據(jù)相分離,單獨(dú)存放,即形成了所謂的數(shù)據(jù)倉庫。 2.1 數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系 數(shù)據(jù)倉庫只不過是因?yàn)橛脩粜枨笤黾佣鴮?duì)某一類數(shù)據(jù)庫應(yīng)用的一個(gè)范圍的界定。單就其

45、是數(shù)據(jù)的存儲(chǔ)容器這一點(diǎn)而言,數(shù)據(jù)倉庫與數(shù)據(jù)庫并沒有本質(zhì)的區(qū)別。 而且在更多的時(shí)候,我們是將數(shù)據(jù)倉庫作為一個(gè)數(shù)據(jù)庫應(yīng)用系統(tǒng)來看待的。 因此,不應(yīng)該說數(shù)據(jù)庫到數(shù)據(jù)倉庫是技術(shù)的進(jìn)步。 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的。可以說,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。 數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。 數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲(chǔ)的一般是歷史數(shù)據(jù)。 數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。 數(shù)據(jù)庫是為捕獲數(shù)據(jù)

46、而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別 業(yè)務(wù)數(shù)據(jù)庫數(shù)據(jù)倉庫內(nèi)容與業(yè)務(wù)相關(guān)的數(shù)據(jù)與決策相關(guān)的信息數(shù)據(jù)模型關(guān)系、層次結(jié)構(gòu)的關(guān)系的/多維的訪問經(jīng)常是隨機(jī)的讀寫操作經(jīng)常是只讀操作負(fù)載事務(wù)處理量大、但每個(gè)事務(wù)涉及的記錄數(shù)較少查詢量少,但每次要查詢大量的記錄事務(wù)輸出量一般很少可能非常大停機(jī)時(shí)間可能意味著災(zāi)難性錯(cuò)誤可能意味著延遲決策演變過程演變過程 60年代數(shù)據(jù)收集、數(shù)據(jù)庫創(chuàng)建、信息管理系統(tǒng)( IMS )和網(wǎng)絡(luò)數(shù)據(jù)庫管理系統(tǒng)(Network DBMS) 70年代 關(guān)系數(shù)據(jù)模型以及關(guān)系型DBMS演變過程演變過程 80年代至今高級(jí)數(shù)據(jù)模

47、型 (具有擴(kuò)充關(guān)系的, 面向?qū)ο蟮? 演繹的等等) 和 面向應(yīng)用的 DBMS (空間的, 科學(xué)的, 工程的等等) 90年代至今數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和Web數(shù)據(jù)庫。數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建(20世紀(jì)60年代和更早)-原始文件處理數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(70年代)層次和網(wǎng)狀數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)建模工具:實(shí)體-關(guān)系模型索引和數(shù)據(jù)組織技術(shù):B樹,散列等查詢語言:SQL等用戶界面:表單、報(bào)告等查詢處理和優(yōu)化事務(wù)管理:恢復(fù)和并發(fā)控制等聯(lián)機(jī)事務(wù)處理(OLTP)高級(jí)數(shù)據(jù)庫系統(tǒng)高級(jí)數(shù)據(jù)庫系統(tǒng)(80年代中期現(xiàn)在)高級(jí)數(shù)據(jù)模型: 擴(kuò)充關(guān)系、面向?qū)ο蟆?對(duì)象關(guān)系、演繹面向應(yīng)用:

48、空間的、時(shí)間的、多媒體 的、主動(dòng)的、科學(xué)的、 知識(shí)庫基于WEB的數(shù)據(jù)庫系統(tǒng)基于WEB的數(shù)據(jù)庫系統(tǒng)(90年代現(xiàn)在)基于XML的數(shù)據(jù)庫系統(tǒng)Web挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘(80年代后期現(xiàn)在)數(shù)據(jù)倉庫和OLAP技術(shù)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)新一代綜合信息系統(tǒng)新一代綜合信息系統(tǒng)(2000年)演變過程演變過程 在20世紀(jì)70年代之前,數(shù)據(jù)一般存儲(chǔ)在文件中,由應(yīng)用程序直接管理;之后有了簡(jiǎn)單的數(shù)據(jù)收集和數(shù)據(jù)庫的構(gòu)造;后來發(fā)展到對(duì)數(shù)據(jù)的管理,包括數(shù)據(jù)存儲(chǔ)、檢索以及數(shù)據(jù)庫事務(wù)處理;再后來發(fā)展到對(duì)數(shù)據(jù)的分析和理解,這時(shí)候出現(xiàn)了數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,它不僅能對(duì)

49、過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,并且能夠預(yù)測(cè)未來的數(shù)據(jù)。 數(shù)據(jù)庫的局限性數(shù)據(jù)庫的局限性 傳統(tǒng)數(shù)據(jù)庫所能做到的只是對(duì)已有的數(shù)據(jù)進(jìn)行存取以及簡(jiǎn)單的查詢統(tǒng)計(jì),即使是一些流行的OLAP工具,也無非是另一種數(shù)據(jù)展示方式而已。人們?nèi)匀粺o法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。這也直接導(dǎo)致了目前“數(shù)據(jù)爆炸但知識(shí)匱乏”的現(xiàn)狀。 2.2 ETL過程過程2.2.1 ETL的概念2.2.2 ETL的功能2.2.3 ETL的目標(biāo)2.2.4 ETL的流程2.2.5 ETL的框架2.2.6 ETL的組成2.2.7 ETL的相關(guān)技術(shù)2.2.8 ETL的實(shí)現(xiàn)方法2.2

50、.9 ETL的工具2.2.10 ETL的應(yīng)用2.2.1 ETL的概念的概念 將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫所在的中心存儲(chǔ)庫的過程稱為ETL (Extraction, Transformation and Loading)過程,制定這個(gè)過程的策略稱之為ETL策略,而完成ETL過程的工具則是ETL工具。相對(duì)于數(shù)據(jù)倉庫中的表而言,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表稱為源表,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫稱為源數(shù)據(jù)庫,數(shù)據(jù)倉庫中所有的數(shù)據(jù)都來自于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫。在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對(duì)決策者來說無疑是個(gè)

51、噩耗。 ETL過程是搭建“數(shù)據(jù)倉庫”時(shí)最重要的最重要的和最最易誤解的易誤解的步驟之一。2.2.1 ETL的概念的概念 ETL過程不僅僅是數(shù)據(jù)的遷移遷移(Migration)或凈化凈化(Cleansing),也應(yīng)該是企業(yè)數(shù)據(jù)管理策略企業(yè)數(shù)據(jù)管理策略中不可缺少的一部分。 ETL過程的功能是:發(fā)現(xiàn)發(fā)現(xiàn)數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中抽取抽取出來,并進(jìn)行一定的處理處理,然后裝載裝載到數(shù)據(jù)倉庫中去。 2.2.2 ETL的功能的功能 提高數(shù)據(jù)質(zhì)量 搭建數(shù)據(jù)倉庫 (Warehousing Processes)操作型活動(dòng) (Operational Activities)數(shù)據(jù)獲取 (Data Acquisit

52、ion)倉庫存儲(chǔ) (Warehouse Storage) EAI的數(shù)據(jù)集成ETL功能提高數(shù)據(jù)質(zhì)量功能提高數(shù)據(jù)質(zhì)量 數(shù)據(jù)清潔補(bǔ)充缺失值,平滑噪聲數(shù)據(jù),識(shí)別與刪除異常數(shù)據(jù)以及有效解決數(shù)據(jù)的一致性問題 數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件的數(shù)據(jù)整合 數(shù)據(jù)轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)的歸一化 數(shù)據(jù)簡(jiǎn)化在不影響分析結(jié)果的前提下,縮減數(shù)據(jù)量 數(shù)據(jù)離散化對(duì)于數(shù)值型數(shù)據(jù)可通過取樣實(shí)現(xiàn)離散化以降低數(shù)據(jù)量2.2.3 ETL的目標(biāo)的目標(biāo) 提高數(shù)據(jù)質(zhì)量 提供一種統(tǒng)一的、跨平臺(tái)的存取數(shù)據(jù)方法 將數(shù)據(jù)“信息化”,為企業(yè)決策者的經(jīng)營分析提供信息來源2.2.4 ETL的流程的流程 抽取 轉(zhuǎn)換/清潔 裝載數(shù)據(jù)倉庫數(shù)據(jù)倉庫臨時(shí)存儲(chǔ)區(qū) 數(shù)據(jù)源數(shù)據(jù)

53、源抽取抽取轉(zhuǎn)換轉(zhuǎn)換/清潔清潔裝載裝載 All driven by metadata2.3 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn)2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)2.3.2 電信領(lǐng)域數(shù)據(jù)倉庫的實(shí)現(xiàn)電信領(lǐng)域數(shù)據(jù)倉庫的實(shí)現(xiàn)2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)(1 1)確定數(shù)據(jù)倉庫的主題)確定數(shù)據(jù)倉庫的主題 根據(jù)電信業(yè)務(wù)和電信運(yùn)營的需求,電信公司涉及的最主要的三個(gè)主題是: 客戶發(fā)展 收益分析 呼叫特性分析 2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì) 客戶發(fā)展客戶發(fā)展 主要是對(duì)客戶群體進(jìn)行分類后,從不同的角度展現(xiàn)電信公司提供服務(wù)

54、的客戶數(shù)量情況。劃分的角度可以按照客戶本身的自然屬性,例如客戶本身的自然屬性,例如客戶性別、年齡、客戶入網(wǎng)的時(shí)間、客戶的類型(公費(fèi)、私人等)、客戶受教育的程度等。2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì) 收益分析收益分析 收益分析主要是通過不同的角度對(duì)電信企業(yè)的收益情況進(jìn)行分析。收益分析的角度可以按照客戶的自然屬性和擴(kuò)展屬性劃分;也可以按照電信公司的業(yè)務(wù)運(yùn)(品牌、交費(fèi)方式)進(jìn)行劃分;還可以按照機(jī)構(gòu)設(shè)置、地理角度對(duì)收益進(jìn)行劃分。 2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì) 呼叫特性分析呼叫特性分析 呼叫特性分析即分析不同類型客戶在呼叫上所具有的特性,特性可能包括下列

55、衡量指標(biāo):2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)按照呼叫時(shí)間劃分為:成長呼叫、中呼叫和短呼叫按照呼叫類型可劃分為:本地通話、長途通話、漫游通話。(其中長途又可以劃分成國際長途、國內(nèi)長途;漫游通話可劃分成省內(nèi)、省際、國內(nèi)漫游等等)按照呼叫金額可以劃分為:高額呼叫和非高額呼叫按照呼叫所在地區(qū)域考察呼叫的熱點(diǎn)區(qū)域2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)(2 2)數(shù)據(jù)倉庫模型的設(shè)計(jì))數(shù)據(jù)倉庫模型的設(shè)計(jì)可用的數(shù)據(jù)可用的數(shù)據(jù) 例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個(gè)主題,下列三部分信息是必要的,即: 客戶的基本信息表 客戶的賬單信息表 客戶的呼叫信息表 客戶基本信

56、息表的常見字段客戶基本信息表的常見字段客戶基本信息表字段客戶識(shí)別碼客戶號(hào)碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號(hào)客戶聯(lián)系電話客戶郵編客戶歸屬局通信費(fèi)支付方式開戶日期客戶帳單信息表的常見字段客戶帳單信息表的常見字段客戶賬單字段 客戶號(hào)碼月租費(fèi)附加功能費(fèi)本地話費(fèi)省內(nèi)漫游費(fèi)省際漫游費(fèi)國際漫游費(fèi)賬單金額短信費(fèi)滯納金金額總話費(fèi)付款方式呼叫信息表的常見字段呼叫信息表的常見字段客戶呼叫信息表字段呼叫類型IMSI號(hào)主叫號(hào)碼被叫號(hào)碼通話開始時(shí)間通話時(shí)長基本通話費(fèi)基本通話附加費(fèi)長途費(fèi)長度附加費(fèi)通話位置漫游類型2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)(2 2)數(shù)據(jù)倉庫模型的設(shè)計(jì))數(shù)據(jù)倉庫

57、模型的設(shè)計(jì)粒度的確定粒度的確定 在數(shù)據(jù)倉庫設(shè)計(jì)中,最重要的步驟是確定數(shù)據(jù)的粒度。 單一粒度單一粒度 對(duì)于客戶基本信息表,由于它屬于增長較為緩慢的信息(隨著客戶數(shù)量的增長,客戶業(yè)務(wù)信息的變更表會(huì)增長),可以使用單一的數(shù)據(jù)粒度。 數(shù)據(jù)倉庫模型的設(shè)計(jì)數(shù)據(jù)倉庫模型的設(shè)計(jì)粒度的確定粒度的確定 如果客戶數(shù)量很大,每個(gè)月生成一張客戶信息表將浪費(fèi)大量的空間,因?yàn)橹挥锌蛻粜畔⒆兓嘶蛘咝略黾恿丝蛻簦判枰薷脑鹊目蛻粜畔⒈怼T黾右粋€(gè)“當(dāng)前標(biāo)志”字段,用于表示客戶的當(dāng)前信息,并選擇“數(shù)據(jù)變更日期”作為時(shí)間字段。 客戶識(shí)別碼客戶號(hào)碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號(hào)客戶聯(lián)系電話客戶郵編客戶歸屬局通

58、信費(fèi)支付方式開戶日期客戶識(shí)別碼客戶識(shí)別碼數(shù)據(jù)變更日期數(shù)據(jù)變更日期當(dāng)前標(biāo)志當(dāng)前標(biāo)志客戶號(hào)碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號(hào)客戶聯(lián)系電話客戶郵編客戶歸屬局通信費(fèi)支付方式開戶日期使用單一粒度的客戶基本信息表使用單一粒度的客戶基本信息表 數(shù)據(jù)倉庫模型的設(shè)計(jì)數(shù)據(jù)倉庫模型的設(shè)計(jì)粒度的確定粒度的確定 對(duì)于客戶的賬務(wù)信息表,每個(gè)月一個(gè)客戶號(hào)碼只在賬務(wù)信息中對(duì)應(yīng)一條記錄,因此數(shù)據(jù)本身就帶有一定的綜合性,可以采用單一的數(shù)據(jù)粒度。 客戶賬單字段月份客戶號(hào)碼月租費(fèi)附加功能費(fèi)本地話費(fèi)省內(nèi)漫游費(fèi)省際漫游費(fèi)國際漫游費(fèi)賬單金額短信費(fèi)滯納金金額總話費(fèi)付款方式客戶賬單字段月份月份客戶號(hào)碼月租費(fèi)附加功能費(fèi)本地話費(fèi)

59、省內(nèi)漫游費(fèi)省際漫游費(fèi)國際漫游費(fèi)賬單金額短信費(fèi)滯納金金額總話費(fèi)付款方式使用單一粒度的客戶帳務(wù)信息表使用單一粒度的客戶帳務(wù)信息表 數(shù)據(jù)倉庫模型的設(shè)計(jì)數(shù)據(jù)倉庫模型的設(shè)計(jì)粒度的確定粒度的確定 雙重粒度雙重粒度 呼叫計(jì)費(fèi)數(shù)據(jù)是電信公司中數(shù)據(jù)量最大的部分,對(duì)于一個(gè)客戶的一次通話(無論是主叫還是被叫,因?yàn)橐淮瓮ㄔ拰?shí)際上將生成主叫、被叫兩條記錄),在呼叫表中都將出現(xiàn)一個(gè)通話記錄,因此對(duì)于一個(gè)大型電信公司,其呼叫計(jì)費(fèi)數(shù)據(jù)的數(shù)據(jù)量非常大,所以采用雙重粒度來記載呼叫計(jì)費(fèi)數(shù)據(jù)。 對(duì)于近34個(gè)月的細(xì)節(jié)呼叫計(jì)費(fèi)數(shù)據(jù),保留在數(shù)據(jù)倉庫中,并定期聚合成按月綜合的數(shù)據(jù),然后將細(xì)節(jié)數(shù)據(jù)導(dǎo)出,另外保存,為新的細(xì)節(jié)數(shù)據(jù)騰出足夠的空間。

60、 呼叫類型IMSI號(hào)主叫號(hào)碼被叫號(hào)碼通話開始時(shí)間通話時(shí)長基本通話費(fèi)基本通話附加費(fèi)長途費(fèi)長度附加費(fèi)通話位置漫游類型IMSI號(hào)主叫號(hào)碼被叫號(hào)碼通話開始時(shí)間通話時(shí)長基本通話費(fèi)基本通話附加費(fèi)長途費(fèi)長度附加費(fèi)通話位置漫游類型客戶呼叫信息表字段呼叫類型IMSI號(hào)主叫號(hào)碼被叫號(hào)碼通話開始時(shí)間通話時(shí)長基本通話費(fèi)基本通話附加費(fèi)長途費(fèi)長度附加費(fèi)通話位置漫游類型按月綜合的數(shù)據(jù)按月綜合的數(shù)據(jù) 最近最近3個(gè)月的細(xì)節(jié)數(shù)據(jù)個(gè)月的細(xì)節(jié)數(shù)據(jù) 3個(gè)月之前的細(xì)節(jié)數(shù)據(jù)個(gè)月之前的細(xì)節(jié)數(shù)據(jù) 其它空間其它空間 使用雙重粒度的呼叫信息使用雙重粒度的呼叫信息 2.3.1 電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)電信領(lǐng)域數(shù)據(jù)倉庫的設(shè)計(jì)(2 2)數(shù)據(jù)倉庫模型的設(shè)計(jì))數(shù)據(jù)倉庫模型的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論