商業分析第5章商業信息的管理課件_第1頁
商業分析第5章商業信息的管理課件_第2頁
商業分析第5章商業信息的管理課件_第3頁
商業分析第5章商業信息的管理課件_第4頁
商業分析第5章商業信息的管理課件_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、商 業 分 析-商業數據的分析、挖掘和應用華東師范大學出版社第5章 商業信息的管理本章主要內容數據庫和數據倉庫數據倉庫設計數據集市商業信息倉儲設計商業智能數據庫和數據倉庫數據庫概念:數據庫(Database)是依照某種數據模型組織起來并存放二級存儲器中的數據集合。這種數據集合具有如下特點:盡可能不重復;以最優方式為某個特定組織的多種應用服務;其數據結構獨立于使用它的應用程序;對數據的增、刪、改和檢索由統一軟件進行管理和控制。從發展的歷史看,數據庫由文件管理系統發展起來的,它是數據管理的高級階段。數據庫和數據倉庫數據庫和數據倉庫數據庫建設的必要性:1.劣質信息要付出成本 2.難以辨別企業最有價值

2、的客戶 3.由于不準確的單據,難以對收入進行追蹤 4.優質信息將帶來明顯的好處數據庫管理系統數據庫管理系統之于數據庫,就如同文字處理軟件之于文件,或電子表格軟件之于電子表格。一個是信息,而另一個是人們用來操作這些信息的軟件。數據庫和數據倉庫數據庫管理系統層次數據庫模型網狀數據庫模型關系數據庫模型優勢數據庫和數據倉庫更高的靈活性和性能更少的數據冗余和錯誤更高的安全性數據庫和數據倉庫數據倉庫概念: 1990年比爾恩門(Bill Inmon)提出了數據倉庫(Data Warehouse)的概念。數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(N

3、on-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。面向主題(Subject Oriented)集成(Integrate)相對穩定(Non-Volatile)反映歷史變化(Time Variant)數據庫和數據倉庫傳統數據庫到數據倉庫決策處理中的系統響應問題決策數據需求的問題決策數據操作的問題數據庫和數據倉庫數據庫與數據倉庫的區別數據庫面向事務設計存儲實時數據采用符合范式的規則來設計(盡量避免冗余)數據倉庫面向主題設計存儲歷史數據采用反范式的方式來設計(有意引入冗余)從數據量來說,數據倉庫要比數據庫更龐大得多在為應用服務的過程中,數據庫與數據倉庫往往

4、要結合使用。5.2.1 相關概念三層結構 三層體系結構,是在客戶端與數據庫之間加入了一個中間層。三層體系結構的應用程序將業務規則、數據訪問、合法性校驗等工作放到了中間層進行處理。通常情況下,客戶端不直接與數據庫進行交互,而是通過與中間層通訊建立連接,再經由中間層與數據庫進行交互。5.2 數據倉庫設計)5.2.1 相關概念表示層(Browser)中間層(WebServer)數據層 (DBServer) 表示層位于客戶端,一般沒有應用程序,借助于Javaapplet、Actives、Javascript、vbscript等技術可以處理一些簡單的客戶端處理邏輯。 中間層是用戶服務和數據服務的邏輯橋梁

5、。它負責接受遠程或異地的用戶請求,對用戶身份和數據庫存取權限進行驗證,運用服務器腳本,借助于中間件把請求發送到數據庫服務器(即數據層),把數據庫服務器返回的數據經過邏輯處理并轉換成HTML及各種腳本傳回客戶端。 數據層位于最底層,它負責管理數據庫,接受Web服務器對數據庫操縱的請求,實現對數據庫查詢、修改、更新等功能及相關服務,并把結果數據提交給Web服務器。三級模型和二層映射數據庫的設計有一個嚴謹的體系結構,即:三級模式,它包括外模式、概念模式、內模式。三級模式有效地組織、管理數據,提高了數據庫的邏輯獨立性和物理獨立性。數據庫管理系統在這三級模式之間提供那個了兩層映像:外模式/模式映像,模式

6、/內模式映像。5.2.1 相關概念5.2.2 設計步驟數據倉庫的生成05數據字典和元數據06物理模型設計04總體分析設計01邏輯模型設計03概念模型設計02總體分析設計確定研究內容 這一環節主要是明確要研究的內容,即要研究的問題,圍繞該問題所需要的數據和信息及如何獲得這些信息等方面問題進行研究。確定主題 這一步中,需要根據所研究的內容確定相應的主題,并盡可能明確主題之間的關系。5.2.2 設計步驟以企業為例,當企業在選擇促銷商品的時候,它可能考慮的主題包括:商品、顧客、供應商。其中商品主題包含商品編號、商品名稱、價格、庫存、產品、顏色、大小等;顧客主題包含顧客編號、年齡、姓名、性別、職業等;供

7、應商主題包含供應商編號、供應商所在地、供應商品編號、供應商品名稱等。在這三個主題中,一個供應商可以供應多種商品,一種商品可以由多個供應商供應,供應商主題和商品主題之間的聯系就是商品供應關系;一位顧客可以買多種商品,一種商品可以被多個顧客購買,商品主題和顧客主題之間的聯系是購買關系;顧客主題和供應商主題之間沒有直接關系,它們之間的關系是通過商品來實現的。5.2.2 設計步驟技術環境準備在這一階段,一般包括兩個步驟:要根據要處理的問題來確定數據倉庫的各項性能指標。一般情況下,需要在這一步里確定的性能指標包括: 管理大數據量的能力; 進行靈活數據存取的能力; 根據數據模型重組數據的能力; 數據發送和

8、接收的能力; 周期性成批裝載數據的能力; 可設定完成時間的作業管理能力。要根據上面的各項性能指標來確定相應的軟硬件配置。5.2.2 設計步驟2.概念模型設計將總體分析設計中得到的用戶需求抽象為計算機表示的信息結構,即概念模型。它是從客觀世界(用戶)到計算機世界的一個中間層次,即用戶需求的數據模型。概念模型常用的表示方法是實體-關系法(E-R圖法),這種方法用E-R圖作為描述工具。5.2.2 設計步驟3.邏輯模型設計邏輯模型設計描述了數據的形式,是數據倉庫需求部分的重要文檔,是數據倉庫細化的準備工作。主要包括以下幾方面內容:分析主題域主題域是對某個主題進行分析后確定的主題集合的邊界。選擇第一個主

9、題域所要考慮的是它要足夠大,以便使得該主題域能建設成為一個可應用的系統;它還要足夠小,以便于開發和較快的實施。如果所選擇的主題域很大并且很復雜,可以針對它某個有意義的子集來進行開發。在每一次的反饋過程中,都要進行主題域分析。5.2.2 設計步驟粒度層次劃分數據粒度是指數據倉庫的數據中保存數據的細化程度或綜合程度的級別。細化程度越高,粒度級別就越小;相反,細化程度越低,粒度級別就越高。數據倉庫邏輯設計中要解決的一個重要問題是決定數據倉庫的粒度劃分層次,粒度層次劃分適當與否直接影響到數據倉庫中的數據量和所適合的查詢類型。通過估算數據行數和所需的直接存取存儲設備數,來確定是采用單一粒度還是多重粒度,

10、以及粒度劃分的層次。5.2.2 設計步驟確定數據分割策略在選擇數據分割的標準時,一般要考慮以下幾個方面因素:數據量、數據分析處理的實際情況、簡單易行以及粒度劃分策略等。數據量的大小是決定是否進行數據分割和如何分割的主要因素。數據分析處理的要求是選擇數據分割標準的一個主要依據,因為數據分割是跟數據分析處理的對象緊密聯系的。5.2.2 設計步驟關系模式定義數據倉庫的每個主題都是由多個表來實現的,這些表之間依靠主題的公共碼鍵聯系在一起,形成一個完整的主題。在概念模型設計時,已經確定了數據倉庫的基本主題,并對每個主題的公共碼鍵、基本內容等做了描述,接下來就要對選定的當前實施的主題進行模式劃分,形成多個

11、表,最終確定各個表的關系模式。與概念模型設計中的E-R圖相對,邏輯模型設計中需要將其轉化為邏輯模型,主要包括星形模型、雪花型模型。5.2.2 設計步驟星形模型 用星形模型來表示邏輯模型,設計簡單,容易被用戶理解。星形模型主要包含兩部分:指標實體和維度實體。指標實體是位于星形模型中間的實體,它是用戶最關心的實體,為用戶的商務活動提供定量的數據,指標實體用矩形表示。維度實體是位于星形模型角星上的實體,其作用是限制用戶的查詢結果,用菱形表示。雪花型模型 雪花型模型是星形模型的進一步細化。與星形模型相比,雪花模型增加了一個詳細類別實體,詳細類別實體代表維度內的一個單獨層次,用結束符號表示。5.2.2

12、設計步驟4.物理模型設計物理模型設計主要是確定數據的存儲結構,確定索引策略,確定數據存放位置,確定存儲分配。要實現數據倉庫的物理模型,設計人員必須做到以下幾點:全面了解所選用的數據庫管理系統,特別是存儲結構和存取方法。了解數據環境、數據的使用頻度、使用方式、數據規模以及響應時間要求等,這些事對空間和時間效率進行平衡和優化的重要依據。5.2.2 設計步驟了解外部存儲設備的特性,如分塊原則、塊大小的規定、設備的I/O特性等。根據這些要求,所做的工作包括以下四點: 確定數據的物理存儲結構 確定索引策略 確定存儲分配5.2.2 設計步驟5.數據倉庫的生成這一環節主要是把數據放入數據倉庫中,并進行接口的

13、設計,一旦完成,就可以在其上建立數據倉庫的應用。設計接口將操作型環境下的數據裝載進數據倉庫環境,需要在兩個不同環境的記錄系統之間建立一個接口。在這一過程中,還要考慮到物理設計的一些因素和技術條件限制,根據這些內容,嚴格地制定規格說明。5.2.2 設計步驟數據裝入在這一步里所要進行的就是運行接口程序,將數據裝入到數據倉庫中。主要的工作是:確定數據裝入的次序。清除無效或錯誤數據。數據粒度管理。數據刷新等。數據倉庫生成完后數據是穩定的,但并不是一成不變的,而是要根據需求在使用過程中不斷地維護和更新。5.2.2 設計步驟6.數據字典和元數據嚴格來說,這并不是建立數據倉庫的一個步驟,而是建立數據倉庫過程

14、中所要涉及的特殊數據。數據字典是數據庫中各類數據描述的集合,通常包括數據項、數據結構、數據流、數據存儲和處理過程五個部分,其中數據項是數據的最小組成單位,若干個數據項可以組成一個數據結構,數據字典通過對數據項和數據結構的定義來描述數據流、數據存儲的邏輯內容。5.2.2 設計步驟數據項數據項是不可再分的數據單位。對數據項的描述通常包括數據項名、數據項含義說明、數據類型、長度、取值范圍、取值含義等。數據結構數據結構反映了數據之間的組合關系。一個數據結構可以由若干個數據項組成,也可以由若干個數據結構組成。數據結構的描述通常包括數據結構名、含義說明、數據項等。5.2.2 設計步驟數據流數據流是數據結構

15、在系統內傳輸的路徑,對數據流的描述通常包括數據流名、說明、數據流來源、數據流去向、平均流量等。其中“數據流來源”用于說明該數據流來自哪個過程。“數據流去向”用于說明該數據流將到哪個過程去。“平均流量”是指單位時間(如每天)里的傳輸次數。5.2.2 設計步驟數據存儲 數據存儲是數據結構保存數據的地方,數據存儲的描述通常包括數據存儲名、說明、編號、輸入的數據流、輸出的數據流、數據量、存取頻度、存取方式。其中“存取頻度”指每小時或每天或每周存取幾次、每次存取多少數據等信息。“存取方式”包括是批處理還是聯機處理、是檢索還是更新、是順序檢索還是隨機檢索等。另外,“輸入的數據流”要指出其來源,“輸出的數據

16、流”要指出其去向。“輸出的數據流”要指出其去向。5.2.2 設計步驟處理過程處理過程一般用判定表或判定樹來描述。數據字典中只需要描述處理過程的說明性信息,通常包括處理過程名、說明、輸入、輸出、處理。其中“處理”主要說明該處理過程的功能及處理要求。可見,數據字典是關于數據庫中數據的描述,而不是數據本身。數據字典是數據庫的元數據。5.2.2 設計步驟元數據(MetaData)被定義為關于數據的數據(Data about Data)。目前,元數據這一術語實際用于各種類型信息資源的描述記錄。元數據在數據倉庫中是描述數據倉庫中數據及其環境的數據。元數據在數據倉庫中不僅定義了數據倉庫有什么,還指明了數據倉

17、庫中信息的內容和位置,刻畫了數據的抽取和轉換規則的說明,存儲了與數據倉庫主題有關的各種商業信息,而且整個數據倉庫的運行都是基于元數據的,如數據的修改、跟蹤、抽取、裝入、綜合以及使用等。由于元數據遍及數據倉庫的所有方面,因此它已成為整個數據倉庫的核心。5.2.2 設計步驟數據倉庫的元數據共包含有四類元數據,除對數據倉庫中數據的描述(數據字典)外,還有以下三類元數據:關于數據源的元數據 關于抽取和轉換的元數據 關于最終用戶使用數據倉庫的元數據5.2.2 設計步驟5.3 數據集市數據庫的誕生是一次變革,讓數據的存儲變得便捷而有序,發展出的數據倉庫技術又是一次變革,讓數據的價值通過整理和分析更加得以發

18、揮。數據集市是由數據倉庫發展而來,某種層面上講,它是屬于企業某個部門的小型數據倉庫,強化了一部分功能,擁有更專業的目的。雖然數據集市比企業的數據倉庫應用范圍更小,包含數據更少,但是進一步支撐了所屬部門的數據處理和信息獲取能力,是一次體系結構上的巨大進步,是對“大而全”目標反向思考的成功結果。對于部門而言,了解和應用數據集市,并將其與企業數據倉庫整合,可能比單純的使用數據倉庫更有效。概述:數據集市(DataMarts),作為一種更小、更集中的數據倉庫,為公司提供了一條分析商業數據的廉價途徑,主要針對某個具有戰略意義的應用或者具體部門級的應用,支持用戶利用已有的數據獲得重要的競爭優勢或者找到進入新

19、市場的具體解決方案。是滿足部分特殊用戶群體用來收集、管理他們本部門、本專業信息的數據倉庫。獨立數據集市從屬數據集市數據集市數據集市的幾個特征:面向部門,由部門定義、設計和開發,也由部門來管理和維護。數據集市面向部門的,這就要求它的整個實施過程需要由部門來主導,才能達到更貼近部門需求,提高部門實力的效果。規模小,便于實施,購買較便宜,投資快速回收。數據集市相對數據倉庫的規模較小,能夠快捷的設立,發揮作用,產生的效益能夠較快的覆蓋為設立數據集市付出的投資。提供更詳細的、預先存在的、數據倉庫的摘要子集,可升級到完整的數據倉庫。無論如何,數據集市的數據和功能都是數據倉庫的一個子集,并不擁有數據倉庫的全

20、部,一些公司通過先行建立數據集市再完善成數據倉庫,這絕對是可以做到的,盡管一些專家認為這可能導致后生成的數據倉庫整體性不夠而產生問題。5.3.2數據集市與數據倉庫的區別數據倉庫是面對企業整體事務,數據集市面對部門級業務數據倉庫是一個集成的、面向主題的數據集合,設計的目的是支持決策支持系統(Decision Support System,DSS)功能。數據集市就是企業級數據倉庫的一個子集,它主要面向部門級業務,并且只面向某個特定的主題。為了解決靈活性和性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據倉庫具有統一性,數據集市各有不同無論企業的數據倉庫是

21、直接建立還是由小型的數據系統逐漸擴充,它都要保證數據對于整個企業內部的協調和統一,這由數據倉庫的作用范圍所決定。數據集市作為部門級和主題向的相對小型的數據應用,針對他所服務的對象,必將進行特別的實用性優化,對數據的選取和組合方式也就各有不同,這些數據集市之間設計的不同,并不會對企業的運行產生不良影響,相反可以為服務對象提供更優質的信息服務。5.3.3關于商業集市的誤區數據集市是一個數據分支子集,它可以從一個數據倉庫中找到,或者是為一個單獨業務單元提供決策支持而建立的。甚至企業的大部分戰略都可以由數據集市來完成,在這個過程中制定行動方針。但是,在建立一個數據集市之前,企業應該知道幾個關于數據集市

22、的不切實際的看法。單純用數據量大小來區分數據集市和數據倉庫 用大小來判斷一個企業是在實施數據倉庫還是數據集市的做法是很片面的。尺寸大小不是數據集市的本質特征,真正的問題在于,數據集市(它可能是一個數據倉庫的子集)的數據模型一定是滿足應用的特定需求的。簡單地理解數據集市容易建立數據集市的確比數據倉庫的復雜程度低一些,因為它只針對某一需要解決的特定的商業問題,但是圍繞數據獲取的很多復雜問題并沒有減少。數據集市要從多個數據源中提取數據,這個過程很耗時,因為這個過程與建立一個數據倉庫一樣,需要相同的計劃和管理,并且需要把數據模型化。 數據集市很容易升級成數據倉庫事實上,數據集市針對特殊的業務需要,不可

23、能很容易地伸縮。如果沒有事先擴展數據模型,追加數據是非常困難的。例如,一個數據集市可以很快找到最暢銷款式的鞋的銷售數字,為了增加關于這種鞋的信息,比如新顧客的百分比,就需要新的數據模型,這種數據集市的擴充是困難的。5.3.4 建設數據集市的意義一個組織為何要構建數據集市呢?雖然OLTP和遺留系統擁有寶貴的信息,但是可能難以從這些系統中提取有意義的信息并且速度也較慢。而且這些系統雖然一般可支持預先定義操作的報表,但卻經常無法支持一個組織對于歷史的、聯合的、“智能的”或易于訪問的信息需求。因為數據分布在許多跨系統和平臺的表中,而且通常是“臟的”,包含了不一致的和無效的值,使得難于分析。數據集市將合

24、并不同系統的數據源來滿足業務信息需求。若能有效地得以實現,數據集市將可以快速且方便地訪問簡單信息以及系統的和歷史的視圖。一個設計良好的數據集市將會:發布特定用戶群體所需的信息,且無需受制于數據來源系統(如業務數據庫)的大量需求和操作性危機。支持訪問非易變的業務信息(非易變的信息是以預定的時間間隔進行更新的,并且不受OLTP系統進行中的更新的影響)。調和來自于組織里多個運行系統的信息,比如賬目、銷售、庫存和客戶管理以及組織外部的行業數據。通過默認有效值、使各系統的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的數據。通過提供對于遺留系統和OLTP應用程序的選擇來減少對這些應用程序的要求,

25、以獲得更多所需信息。5.3.5 建模一般數據集市模型的建設是在數據倉庫的基礎上基于需求分析得到的結果,數據集市的建模主要針對事實表和維表的設計。例如,部門員工關系表,如果事實表包含部門編碼,則數據可以分析到部門;如果事實表又包含員工編碼,則數據既可以分析到部門,又可以分析到員工。一張事實表除了包含所要分析的維度編碼外,還包括需要分析的度量值。例如,用戶用電分析事實表,它的主題描述就是按地區、時間、電壓等級統計用戶的耗電量、應收電費,并進行同期對比;它的維度就是地區、時間、電壓等級,度量值包括耗電量、應收電費等;指標來源就是數據倉庫中的計費結果表、用戶基本信息表。維表一般采用增量的方式進行抽取。5.3.6 案例中國移動(吉林分公司)2006年,中國移動決定將數據集市作為移動地市級公司的建設重點之一。電信行業對于數據倉庫并不陌生,為了實現從產品導向往

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論