商務智能課件2_第1頁
商務智能課件2_第2頁
商務智能課件2_第3頁
商務智能課件2_第4頁
商務智能課件2_第5頁
已閱讀5頁,還剩57頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

北京科技大學3.1什么是數據倉庫?3.2數據倉庫的數據組織3數據觀察和數據分析的基礎-數據倉庫北京科技大學3.2數據倉庫的數據組織數據組織數據的來源數據的結構北京科技大學(1)數據源數據源是數據倉庫的原始數據來源,是數據倉庫系統開發與應用的數據基礎。數據倉庫系統的數據源非常廣泛。從總體內容上講,可以分為企業內部數據源和企業外部數據源兩大類。

3.2數據倉庫的數據組織北京科技大學1)企業內部數據源

企業內部數據指的是企業多年來的數據沉淀(主要是業務數據)。由于各企業的歷史背景與應用環境不同,企業內部數據源有很大的差異,表現在數據內容、結構和存儲類型等許多方面。在數據倉庫系統的建設中,應該針對商務需求對內部數據源進行充分的分析,適當的對比,為正確高效地獲取基礎數據做準備。3.2數據倉庫的數據組織北京科技大學2)企業外部數據源

企業外部數據源的內容更為廣泛,數據的存儲類型也更為多樣化,比較常見的為目標市場信息、競爭對手信息、行業統計信息等。外部數據源的獲取往往存在著一定的難度,可能采用的幾種主要方式為:從行業相關部門獲取資料;向信息咨詢公司購買數據;企業內部組建相應機構進行專門的調查研究;從行業期刊或網絡中分析摘錄相關信息等。3.2數據倉庫的數據組織北京科技大學(2)數據倉庫中的數據結構

數據倉庫的總線主題粒度維度數據立方體數據集市星形模式相關基本概念一致性保障機制數據組織方式3.2數據倉庫的數據組織北京科技大學(3)數據倉庫中數據結構相關概念1)主題主題是一個在較高層次上將數據歸類的標準,每一個主題基本對應一個宏觀的分析領域。面向主題的數據組織方式是根據分析要求將數據組織成一個個完備的分析領域,稱為主題域。主題域應該具有獨立性和完備性。3.2數據倉庫的數據組織北京科技大學業務(應用)與主題例如對一個保險公司來說,應用問題可能是汽車保險、健康保險和意外傷亡保險等;而公司的主要主題域卻可能是顧客、保險單、索賠等。操作型環境數據倉庫應用主題顧客保險單索賠3.2數據倉庫的數據組織北京科技大學2)粒度粒度是指數據倉庫中數據單元的詳細程度和級別。數據越詳細,粒度越小級別就越低;數據綜合度越高,粒度越大級別就越高。在傳統的操作型數據庫系統中,對數據處理和操作都是在最低級的粒度上進行的。但是在數據倉庫環境中應用的主要是分析型處理,一般需要將數據劃分為:詳細數據、輕度總結、高度總結三級或更多級粒度。3.2數據倉庫的數據組織北京科技大學數據粒度與對象信息的詳細程度高細節——低粒度級例如:一個顧客一個月內所有電話的通話細節。低細節——高粒度級例如:一個顧客一個月內通話總額。3.2數據倉庫的數據組織北京科技大學粒度與數據量低粒度級能回答細節問題數據量大高粒度級能進行綜合性查詢數據量小權衡選擇粒度的高低是非常重要的,它關系到能否滿足企業決策信息支持的需要,以及能否滿足查詢速度的要求。3.2數據倉庫的數據組織北京科技大學3)維度維度是指人們觀察事物的特定的角度,例如:時間維、地區維。人們從某個維的角度觀察數據,還可以根據細節程度的不同形成多個描述層次,該多個描述層次就稱為維層次。3.2數據倉庫的數據組織北京科技大學中國西北地區東北地區華北地區簡單層次關系的維層次3.2數據倉庫的數據組織北京科技大學中國西北地區東北地區華北地區黑龍江省遼寧省吉林省沈陽市鞍山市…………復雜層次關系的維層次3.2數據倉庫的數據組織北京科技大學(4)數據倉庫中數據的組織方式1)數據立方體數據立方體是指由兩個或更多個維來描述或分類的數據。在三維的情況下以圖形來表示,該類數據具有立方體結構,一般稱為數據立方體。雖然通常從幾何意義的角度將立方體理解為三維,但是在數據倉庫中數據立方體是一個n維的概念。3.2數據倉庫的數據組織北京科技大學數據立方體(圖示)與分析問題問題:“某產品在某個月份在某個地區的銷售收入是多少?”銷售收入地區維時間維產品維產品維時間維地區維銷售收入3.2數據倉庫的數據組織北京科技大學數據立方體(數據)例:某錄像機生產商某年的部分銷售數據半年季度月份地區大類具體地區碼CAMCVCRTR-75UX-11TR-78EC-1XVG上半年1季度一月北部5316059001290450809上半年1季度一月北部539899788564780655上半年1季度一月南部652900680602780680上半年1季度一月南部6835901020608800407上半年1季度一月南部8671300780398745576上半年1季度二月北部5311098980479576879上半年1季度二月北部5391350680609889809……………………………………………………3.2數據倉庫的數據組織北京科技大學從前數據立方體數據中可以獲得銷售分析維度的信息。產品維層次錄像機產品CAMCVCRTR-78TR-75UX-11XVGEC-1全部地區北部地區南部地區652531539867683地區維層次3.2數據倉庫的數據組織北京科技大學時間維層次上半年全年下半年一季度二季度4月2月3月6月5月1月三季度四季度10月8月9月12月11月7月3.2數據倉庫的數據組織北京科技大學“銷售分析”數據立方體-便于觀察數據!注:紅色部分代表了1月份531地區所有產品的銷售收入

TR-75UX-11TR-78EC-1XVG5315396526838675月4月3月2月1月全部南方北方第1季第2季1年產品地區27時間錄像機CACMVCR3.2數據倉庫的數據組織北京科技大學2)數據集市

數據集市是完整的數據倉庫的一個邏輯子集,而數據倉庫正是由其所有的數據集市有機組合而成的。數據集市一般在某一個業務部門建設,滿足其分析決策的需要,可以將其理解為“部門級數據倉庫”。各數據集市都應該是數據倉庫的有機組成部分,且各數據集市間應協調一致,滿足整個企業分析決策的需要。3.2數據倉庫的數據組織北京科技大學數據集市(DataMart)

部門級數據倉庫

銷售子系統數據抽取與集成數據抽取銷售子系統銷售子系統數據抽取數據抽取.........數據集市數據倉庫業務系統數據庫北京科技大學3)星形模式為了數據分析方便,在數據倉庫中,由兩種類型的表(事實表和維表)保存數據。事實表和維表間通過星形方式連接而成,故稱為星形模式。時間碼產品碼地區碼銷售量銷售額銷售成本產品碼產品大類產品細類產品名稱地區碼國家地區城市時間碼日期月份季度年度時間維表事實表產品維表地區維表北京科技大學事實表與維表

事實表包含的是業務數據信息,數據取值通常是可度量的、連續型的,且具有可加性,數據量可達到幾百萬甚至上億條記錄。

維表包含的是相應維度的描述型信息,這些信息用作查詢的約束條件,一般是離散的、描述性的,不具有可加性。3.2數據倉庫的數據組織北京科技大學(5)數據倉庫中數據的一致性保障機制:數據總線

一個數據倉庫內所有的數據集市必須具有統一一致的維定義和統一一致的業務事實。統一的維和統一的事實就是數據倉庫的“總線”。總線型結構的目的在于避免各數據集市不能有機地組合在一起,不能從全企業的角度查看數據信息。3.2數據倉庫的數據組織北京科技大學數據倉庫的總線型結構應收帳款事實銷售量事實銷售額事實…分銷渠道維時間維…客戶維產品維統一的事實統一的維財務數據集市銷售數據集市3.2數據倉庫的數據組織北京科技大學1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能北京科技大學基于數據倉庫進行數據分析的兩種方式在線分析處理數據挖掘在線分析處理是基于數據倉庫進行數據分析的兩種方式之一北京科技大學4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)北京科技大學(1)OLAP的產生60年代末,E.F.Codd提出了關系數據模型,其促進了關系數據庫及聯機事物處理(OLTP)的發展。后來,聯機事務處理已不能滿足終端用戶對數據庫查詢分析越來越復雜的需要,SQL對大數據庫進行的簡單查詢不能滿足用戶分析的需求。聯機分析處理(OnlineAnalysisProcessing)就是針對用戶決策分析需要對關系數據庫進行大量計算才能得到所需要的結果的數據分析需求發展而來的技術。4.1什么是在線分析處理(OLAP)?北京科技大學(2)OLAP的本質OLAP是數據處理的一種技術概念,其基本目的是使企業的決策者應能靈活地操縱企業的數據,以多維的形式從多方面和多角度來觀察企業的狀態、了解企業的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數據中存在的規律,實現對數據的歸納、分析和處理,幫助組織完成相關的決策。4.1什么是在線分析處理(OLAP)?北京科技大學(3)OLAP的特征

快速性可分析性多維性信息性用戶對OLAP的快速反應能力有很高的要求

OLAP系統能處理與應用有關的任何邏輯分析和統計分析

OLAP系統必須提供對數據的多維視圖和分析OLAP系統應能及時獲得信息并且管理大容量信息

4.1什么是在線分析處理(OLAP)?北京科技大學(4)OLAP多維數據視圖

觀察在某一時間點或時間段上各個產品在各個地區的銷售情況產品地區時間觀察某地區各個產品在各個時期的銷售情況產品地區時間觀察某種產品在各個時期和各個地區中的銷售情況產品地區時間觀察某種產品在某時間點或時間段上在某地區的銷售情況產品地區時間4.1什么是在線分析處理(OLAP)?北京科技大學4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)北京科技大學4.2OLAP的基本操作對于訂貨分析的訂貨立方體,選定訂貨立方體中的客戶維與產品維,在時間維中選取一個屬性成員(如“2008年1月”),就得到了訂貨立方體在產品和客戶兩維上的一個切片。該切片表示2008年1月各客戶、各產品的訂購情況。

(1)切片

切片就是在某個或某些維上選定一個屬性成員,而在某兩個維上取一定區間的屬性成員或全部屬性成員。北京科技大學切片操作例產品維客戶維產品維客戶維時間維產品訂購情況2008年1月產品訂購情況選定時間維的維成員“2008年1月”選定兩個維,產品維和客戶維數據切片4.2OLAP的基本操作北京科技大學接前例,若將時間維上的取值設定為一個區間(例如取“2008年1月至2008年10月”),而非單一的屬性成員時,就得到一個數據切塊,它可以看成由2008年1月至2008年10月10個切片疊合而成。(2)切塊

切塊是在立方體中的三個維上取一定區間的屬性成員或全部屬性成員。從另一個角度講,切塊可以看成是由多個切片疊合起來。

4.2OLAP的基本操作北京科技大學切塊操作例產品維客戶維時間維數據切塊產品維客戶維時間維4.2OLAP的基本操作北京科技大學實現所有客戶對某產品季度訂購額與月份訂購額之間的鉆取。比如2008年第一季度。(3)上鉆和下鉆

鉆取包括上鉆和下鉆兩種操作。從高級別數據到明細數據視圖稱為下鉆;從明細級向上到高級來觀察數據,稱為上鉆。數據庫的設計以及數據的粒度級別將決定下鉆或上鉆的能力。

4.2OLAP的基本操作北京科技大學銷售額(單位:萬元)第一季度1月2月3月產品125515產品2201518……(3)上鉆和下鉆

銷售額(單位:萬元)第一季度產品145產品253……上鉆下鉆4.2OLAP的基本操作北京科技大學將一個橫向為時間、縱向為產品的報表,變成一個橫向仍為時間和縱向旋轉為客戶的報表。

(4)旋轉旋轉即是改變一個報告或頁面顯示的維方向。通過旋轉可以得到不同視角的數據。

4.2OLAP的基本操作北京科技大學(4)旋轉

旋轉以改變頁面顯示時間維客戶維產品維時間維產品維客戶維4.2OLAP的基本操作北京科技大學3.1什么是在線分析處理(OLAP)?3.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)北京科技大學4.3OLAP應用實例(1)問題背景描述以某鋼鐵集團銷售公司為背景,給出數據倉庫的星型建模方案及OLAP分析例。該鋼鐵集團銷售公司是一個較早應用MIS的企業,經過多年的發展,公司積累的數據越來越多,大量的數據背后隱藏著許多重要的信息。為了充分利用這些數據,發現數據中所隱含的知識,公司迫切要求建立數據倉庫,實現OLAP分析。使用工具為SQLServer。北京科技大學(2)確定分析主題

建立數據倉庫的第一步是確定商業需求,根據需求確定分析主題。本例主要討論該鋼鐵集團銷售公司的訂貨分析主題。訂貨主題主要從時間、客戶、產品等維度來分析產品訂購情況。

發現優勢產品,判別產品潛在的銷售能力,選擇合適的分銷渠道識別客戶群,預測客戶的訂貨趨勢,采取靈活的促銷策略降低庫存量,減少交貨失誤,改善訂貨業務通過訂貨分析實現4.3OLAP應用實例北京科技大學(3)分析數據源

在確定主題之后,需要分析數據源,并進行相關數據的抽取。本例的數據源來自該鋼鐵集團銷售公司。我們需要的數據有:時間信息(包括年、月)、客戶信息(包括客戶編號、客戶名稱、客戶分部)、產品信息(包括品種編號、品種名稱、產品長度、厚度、寬度),以及事實表中的事實度量值訂貨量。4.3OLAP應用實例北京科技大學分析數據源

4.3OLAP應用實例北京科技大學(4)建立訂貨分析的星形模式

時間碼產品碼客戶碼訂貨量產品碼品種編號品種名稱產品厚度產品寬度產品長度客戶碼客戶編號客戶名稱客戶分部時間碼月份年度時間維表訂貨事實表產品維表客戶維表4.3OLAP應用實例北京科技大學時間維的結構

4.3OLAP應用實例北京科技大學產品維的結構

4.3OLAP應用實例北京科技大學客戶維的結構

4.3OLAP應用實例北京科技大學訂貨事實的結構

4.3OLAP應用實例北京科技大學建立訂貨事實表與各維表的關系

4.3OLAP應用實例北京科技大學(5)訂貨分析的DTS包SQLServer中的數據轉換服務DTS(DataTransformationServices)主要作用是把不同的數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論