數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、194計算機應用研究2005年數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用王曙燕1,23,耿國華,周明全11(1.西北大學計算機科學系,陜西西安710069;2.西安郵電學院計算機系,陜西西安710061)摘要:討論了數(shù)據(jù)倉庫的構(gòu)建方法和數(shù)據(jù)挖掘技術的應用,介紹了使用分析服務器構(gòu)建數(shù)據(jù)倉庫及進行聯(lián)機分析的方法,實現(xiàn)了一個利用決策樹算法建立模型對顧客的信譽度進行分類的實例。關鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;聯(lián)機分析處理;決策樹中圖法分類號:TP182文獻標識碼:A文章編號:100123695(2005)0920194202ResearchandApplicationofDataWarehouseandDataM

2、iningWANGShu2yancations,XianShanxi710061,China)1,2,GENGGuo2hua,ZHOUMing2quan11(1.Dept1ofComputer,NorthwestUniversity,XianShanxi710069,China;2.Dept.ofComputer,XianofPosts&Telecommuni2Abstract:Thispaperdiscussedthemethodofbuildingdatamining.Introducedthemethodofusinganalysismanagertobuilddatawareh

3、ouseandwithOLAP.Realizedanexampleofclassifierbasedondecisiontreealgorithmto.Keywords:DataWarehouse;DataMining;,它,將數(shù)。數(shù)據(jù)倉庫是一個整合式的、面向主題的、歷史性的以及只讀性的數(shù)據(jù)集合,其主要目的是提供給企業(yè)管理者作為管理決策的參考依據(jù)。數(shù)據(jù)挖掘技術作為基于機器學習、模式識別、統(tǒng)計學等領域而發(fā)展起來的從數(shù)據(jù)中獲取知識的技術也越來越得到人們的青睞。數(shù)據(jù)倉庫使得人們只花很短的時間就能夠從大量的歷史數(shù)據(jù)中查詢出所需的數(shù)據(jù),而數(shù)據(jù)挖掘則可以從這些數(shù)據(jù)中發(fā)現(xiàn)和預測出有價值的信息,數(shù)據(jù)倉庫技術使

4、我們從全新的視角認識了數(shù)據(jù)的價值1。然而,從目前的情況看,在中國數(shù)據(jù)倉庫推廣還處于起步階段,其應用所取得的成績遠不如商家們“炒作”得那么輝煌,仍然存在許多不成熟因素,如計算機應用水平較低、數(shù)據(jù)保存和管理不完善、人才缺乏、沒有真正適合行業(yè)特點的應用技術等2。但不管怎么說,數(shù)據(jù)倉庫的應用對于中國企業(yè)未來加入國際競爭有著不可替代的作用。大量業(yè)務數(shù)據(jù)的積累為基礎。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們作出改善其業(yè)務經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理、歸納和重組,并及時提供給相應的管理決策人員是數(shù)據(jù)倉庫的根本任務。數(shù)據(jù)挖掘就是從大量的、不完全的、

5、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程3。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關系型數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學者和工程技術人員。特別要指出的是,數(shù)據(jù)挖掘技術從一開始就是面向應用的。例如加拿大BC省電

6、話公司要求加拿大SimonFraser大學KDD研究組,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié)、分析并提1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non2Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解:數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;數(shù)據(jù)倉庫是對多個異構(gòu)數(shù)據(jù)源的有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。企業(yè)數(shù)據(jù)倉庫的建設是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和收稿

7、日期:2004209205;修返日期:2004211211基金項目:國家自然科學基金資助項目(60372072)出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來,就把人們對數(shù)據(jù)的應用從低層次的末端查詢操作提高到為各級經(jīng)營決策者提供決策支持。2構(gòu)建數(shù)據(jù)倉庫的基本方法211數(shù)據(jù)倉庫的體系結(jié)構(gòu)數(shù)據(jù)倉庫從多個信息源中獲取原始數(shù)據(jù),經(jīng)過整理加工后存儲在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫。通過數(shù)據(jù)倉庫訪問工具,向數(shù)據(jù)倉庫的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,支持企業(yè)全局決策過程和對企業(yè)經(jīng)營管理的深入綜合分析。整個數(shù)據(jù)倉第9期王曙燕等:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的研究與應用195庫系統(tǒng)是一個包含四個

8、層次的體系結(jié)構(gòu),如圖1所示。以以星型模式(StarSchema)、雪花模式(SnowflakeSchema)或事實星座模式形式存在5。星型模式是目前普遍使用的實現(xiàn)數(shù)據(jù)倉庫的設計結(jié)構(gòu)。它通過使用一個包含主題的事實表和多個包含事實的非正規(guī)化描述的維度表來執(zhí)行典型的決策支持查詢。星型模式是一種關系型數(shù)據(jù)庫結(jié)構(gòu),模式的中間是事實表,周圍是維度表,數(shù)據(jù)在事實表中維護,維度數(shù)據(jù)在維度表中維護。每個維度表通過一個關鍵字(在某些情況下是主鍵)與事實表關聯(lián)。雪花模式是星型模式的一種擴展模式。從圖2可以看出,它與星型模式的不同在于維度表。在雪花模式中,維度表被分解成與事實表直接關聯(lián)的主維度表和與主維度表關聯(lián)的次維

9、度表,次維度表與事實表間接關聯(lián)。這種模式用大量的冗余維度數(shù)據(jù)進行設計,通過減少讀磁盤的數(shù)量來提高查詢性能。(1)數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉,通常包括企業(yè)內(nèi)部信息和外部信息。(2)數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。(3)OLAP(On2LineAnalyticalProcessing)服務器對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。(4)前端工具主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市

10、的應用開發(fā)工具。212構(gòu)建數(shù)據(jù)倉庫的方法目前有兩種構(gòu)建數(shù)據(jù)倉庫的方法:規(guī)模、粒度的級別和元數(shù)據(jù)管理,夠最大限度地減少集成問題,發(fā),并且缺乏靈活性,是很困難的。自底向上設計、開發(fā)、部署獨立的數(shù)據(jù)集市提供了靈活性,花費低,并能夠得到快速的投資回報。但存在的問題是將分散的數(shù)據(jù)集市集成,形成一個一致的企業(yè)數(shù)據(jù)倉庫并不容易。構(gòu)建數(shù)據(jù)倉庫的流程如下:(1)啟動工程。建立開發(fā)數(shù)據(jù)倉庫工程的目標及制定工程計劃,建立技術環(huán)境,選擇實現(xiàn)數(shù)據(jù)倉庫的軟硬件資源,包括開發(fā)平臺、DBMS、開發(fā)工具、終端訪問工具。(2)設計主題進行數(shù)據(jù)建模。根據(jù)決策需要確定主題,選擇數(shù)據(jù)源,對數(shù)據(jù)倉庫的數(shù)據(jù)進行邏輯結(jié)構(gòu)設計。(3)設計數(shù)據(jù)

11、倉庫中的數(shù)據(jù)庫。基于用戶的需求,著重于某個主題,開發(fā)數(shù)據(jù)倉庫中的數(shù)據(jù)的物理存儲結(jié)構(gòu),即設計多維數(shù)據(jù)結(jié)構(gòu)的事實表和維表。(4)轉(zhuǎn)換程序。實現(xiàn)從源系統(tǒng)中抽取數(shù)據(jù)、清理數(shù)據(jù)、一致性格式化數(shù)據(jù)、綜合數(shù)據(jù)、裝載數(shù)據(jù)等過程的設計和編碼。(5)管理元數(shù)據(jù)。定義元數(shù)據(jù),即表示、定義數(shù)據(jù)的意義及系統(tǒng)各組成部分之間的關系。元數(shù)據(jù)包括關鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結(jié)構(gòu)、源數(shù)據(jù)結(jié)構(gòu)、映射及轉(zhuǎn)換機制、綜合算法、代碼、安全要求等。(6)開發(fā)用戶決策的數(shù)據(jù)分析工具。建立結(jié)構(gòu)化的決策支持查詢,實現(xiàn)和使用數(shù)據(jù)倉庫的數(shù)據(jù)分析工具,包括優(yōu)化查詢工具、C/S工具、OLAP工具及數(shù)據(jù)挖掘工具等,通過分析工具實現(xiàn)決策支持要求。(7)管

12、理數(shù)據(jù)倉庫環(huán)境。數(shù)據(jù)倉庫必須像其他系統(tǒng)一樣進行管理,包括質(zhì)量檢測,管理決策支持工具及應用程序,定期進行數(shù)據(jù)更新,使數(shù)據(jù)倉庫能正常運行。213數(shù)據(jù)模式4VisualBasic6.0,后臺數(shù)據(jù)庫是MSSQLServer,利用SQLServer中的AnalysisServices進行數(shù)據(jù)挖掘6。本實例根據(jù)電信手機銷售記錄中的顧客信息,利用決策樹算法建立模型對顧客的信譽度進行分類,這樣可以對新顧客的信譽度進行預測,在以后的繳費等服務中就可以根據(jù)顧客的信譽度提供相關的支持。實例使用了銷售表、顧客表、手機信息表、時間表、員工信息表、服務信息表等,數(shù)據(jù)模式為星型模式。建立多維數(shù)據(jù)集Sales,選擇銷售表為事

13、實表,建立時間、產(chǎn)品、顧客維度,并為顧客維度設置成員屬性,如圖3所示。系統(tǒng)實現(xiàn)過程如下:首先從包含數(shù)據(jù)源的業(yè)務數(shù)據(jù)中進行數(shù)據(jù)抽取,對數(shù)據(jù)進行數(shù)據(jù)一致性的協(xié)調(diào)、格式化處理及必要的轉(zhuǎn)換,然后將數(shù)據(jù)加載進數(shù)據(jù)倉庫。在ODBC數(shù)據(jù)源管理器中設置和源數(shù)據(jù)的連接,連接數(shù)據(jù)源命名為phone。在AnalysisManager中新建數(shù)據(jù)庫,取名為手機,右擊“手機數(shù)據(jù)庫”選擇新數(shù)據(jù)源為其建立連接,選擇“phone”。在OLAP挖掘模型編輯器中,可以使用編輯器編輯模型屬性或者瀏覽其結(jié)果。決策樹顯示于右窗格中,其中包括四個窗格。中間的“內(nèi)容詳情”窗格顯示焦點所在的(下轉(zhuǎn)第205頁)最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)

14、模型,這種模型可第9期鐘明等:基于B/S結(jié)構(gòu)的物流管理系統(tǒng)與應用205現(xiàn)了對軌道衡電子秤的數(shù)據(jù)信息的實時收集。同樣該方案也適合其他實時數(shù)據(jù)源(如實時數(shù)據(jù)庫),這樣使得信息管理系統(tǒng)具備迅捷的數(shù)據(jù)收集功能,為企業(yè)信息分析提供良好的數(shù)據(jù)支持。314引入公文流轉(zhuǎn)設計(2)由于審批流程在網(wǎng)絡上進行,大大節(jié)省了審批花費的時間,提高了物流的流通效率,縮短了物流周期,為企業(yè)帶來了效益。(3)提供網(wǎng)絡打印功能,對于原來需要手工進行統(tǒng)計的煩瑣報表,目前只需要在系統(tǒng)中選擇時間和相應條件即可在任意一個網(wǎng)絡終端進行報表的打印,這就大大節(jié)省了企業(yè)進行數(shù)據(jù)統(tǒng)計和分析的時間。基于供應鏈理論設計的物流管理系統(tǒng)中,幾乎每個業(yè)務都

15、包括流程審批和業(yè)務單據(jù)的查看。按照傳統(tǒng)的方式,這需要在OA系統(tǒng)和單據(jù)系統(tǒng)中分別記錄數(shù)據(jù),而這樣顯然不適合本系統(tǒng)。該系統(tǒng)參考工作流(Workflow)設計,實現(xiàn)了簡單審批流程與業(yè)務單據(jù)的融合。例如,當庫存人員批示入庫單據(jù)時,既可以看到入庫單據(jù)進行修改,也可以執(zhí)行打回、通過等流程操作,同時庫存人員可以查看庫存審核流程中的各個審批環(huán)節(jié)的意見,包括打回原因等。315系統(tǒng)安全設計5結(jié)束語本文闡述了基于供應鏈理論開發(fā)的B/S結(jié)構(gòu)的物流管理系統(tǒng)(ESP2Mas物資供應系統(tǒng))。雖然該系統(tǒng)是針對某個特定企業(yè)進行設計的,但由于該系統(tǒng)采用多層Web開發(fā)并且兼容了實時數(shù)據(jù)收集方案,因而具有極強的擴展性和通用性。相信隨

16、著該系統(tǒng)在某化工集團發(fā)揮越來越重要的作用,它也將會被更多的企業(yè)所應用。參考文獻:1馬士華,林勇,.M.北京:機械工業(yè)出版社,2JPerral.構(gòu)建企業(yè)系統(tǒng)M.北京:清華大,3Rway.精通ServletsM.北京:清華大學出版社,2002.4李曉黎.Velocity網(wǎng)頁程序設計M.北京:人民郵電出版社,2001.5美WilliamGJr.Oracle8/8i開發(fā)使用手冊M.北京:機械工業(yè)出版社,2000.6何哲軍,劉杰,孟楊.基于B/S結(jié)構(gòu)的物資流通企業(yè)信息系統(tǒng)設計J.計算機應用研究,2003,20(6):72274,91.本系統(tǒng)的安全設計采用的是目前Windows的三級安全管理,即領域、角色

17、、用戶,并且可以自由進行用戶、領域、權(quán)限和角色的定制和組態(tài),這些操作都是在友好的管理員使用界面中進行。本系統(tǒng)還可以根據(jù)訪問用戶的IP,用戶所處的部門等條件進行訪問級別的限制,同時對于用戶的目前使用狀態(tài),以及歷史情況均由日志系統(tǒng)進行記錄,管理員可以隨時查詢。4系統(tǒng)實施,。(1)實現(xiàn)分布式物流信息管理,為領導進行決策提供信息保證。該企業(yè)計劃部門人員由于可以隨時查看庫存信息,使得制定的采購計劃更加符合企業(yè)的需要,庫存積壓大大降低。而采購人員可以對供應商最新價格信息進行查看,因此進行采購的時候可以貨比三家,大大降低了采購的費用。(上接第195頁)決策樹部分;“內(nèi)容選擇區(qū)”窗格顯示樹的完整作者簡介:鐘明

18、(19782),男,江西南昌人,碩士研究生,主要研究方向為基于J2EE的物流管理軟件的設計和實現(xiàn);蘇宏業(yè)(19692),男,江蘇常州人,教授,博士生導師,主要研究方向為流程工業(yè)企業(yè)綜合自動化技術與應用、時滯、非線性系統(tǒng)控制理論與應用、魯棒及變結(jié)構(gòu)控制理論與應用等。領域需要的有效數(shù)據(jù)挖掘工具之間還存在不小的距離,給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題,如生物、醫(yī)學等特定應用領域的探索;Web挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個最為重要和繁榮的子領域;可伸縮的數(shù)據(jù)挖掘方法;數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成;數(shù)據(jù)挖掘語言的標準化;可視化數(shù)據(jù)挖掘;數(shù)據(jù)挖掘中的隱私保護與信息安全等,都是值得我們進一步研究的課題。參考

19、文獻:1EdWilson.TheKnowledgeDiscoveryProcess,AProblemSolvingMethodologyM.NewYork:ComputerAssociatesInternational,Inc,1998.35250.解敏.數(shù)據(jù)倉庫初探EB/OL.JiaweiHan.數(shù)據(jù)挖掘:概念與技術M.北京:機械工業(yè)出版社,2001.1852195.InmonWH.BuildingDataWarehouseM.NewYork:JohnWiley,1996.202150.陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術M.北京:電子工業(yè)出版社,2002.52199.MikeGunderloy,等.SQLServer

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論