




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1. 數據倉庫概述經過多年IT的建設,信息對于XXX的日常管理已經日益重要,并逐漸成為重要的 信息資產,信息資產的管理已經成為日常管理中一個非常重要的環節。如何管理和利 用好XXX內部紛繁的數據也越來越成為信息管理的一項重要工作。在過去相當一段時間內,XXX業務系統的構建主要圍繞著業務的數據展開,應用 的構建多是自下而上構建,主要以滿足某個部門的業務功能為主,我們稱之為業務處 理的時代。這樣的構建方式造成了一個個分立的應用,分立的應用導致了一個個的靜 態豎井。由于數據從屬于應用,缺乏 XXX全局的單一視圖,形成了一個個信息孤島, 分立的系統之間缺乏溝通,同樣數據的孤島導致只能獲得片面的信息,而
2、不是全局的 單一視圖。存儲這些信息的載體可能是各種異構或同構的關系型數據庫,也有可能是 XML、EXCEL等文件。因此,構建新一代的一體化平臺提上了日程并最終促成全域數 據的管理方式,目的是覆蓋 XXX各個環節的關鍵業務數據,完善元數據管理,形成全 局的數據字典、業務數據規范和統一的業務指標含義,能夠靈活的獲取XXX業務數據的單一視圖(需要保證數據的一致性、完整性、準確性和及時性)。數據的交換和共 享主要發生在上下級組織機構之間或同級的不同部門之間。最終,這些數據可以為部 隊分析、決策支持(多維分析、即席查詢、數據挖掘)等應用提供更及時、準確、有 效的支持。數據倉庫的目標是實現跨系統數據共享,
3、解決信息孤島,提升數據質量,輔助決策 分析,提供統一的數據服務。同時,數據倉庫的構建也面臨著各種挑戰,比如信息整 合在技術上的復雜度、信息整合的管理成本、數據資源的獲取、信息整合的實施周期 以及整合項目的風險等。Page 7 of 72. 全域數據庫總體架構展示層門戶手機平板電腦PC統一授權服務單點登錄 T =多 維 分 析分析型管理流數空程據間整整數合合據基礎服務層應用服務器服務總線工作流引擎消息中間件OLAP引擎數據挖掘引擎事 件 驅 動規 則 引 擎協同工作主數據管理引擎大數據分析引擎知識 內容 管理 引擎空間 地理 數據 引擎數據存儲區OSDIT 安 全 運 維 管 理IT預測數據地理
4、數據特征庫 模型庫流媒體數據數據倉庫 數據集市MDMHUB數據層(ISB)應用層傳感器/監控數據源非關系型數據源攝像頭虛擬傳感器智能傳感器XML數據 轉換信息 服務數據 復制數據 清洗消息 服務交互 服務流程 服務大數 據流交換 服務 體系消息 隊列Excel Web服務 消息隊列文本數據關系型數據源數據 聯邦核心業務 邊防一體化其他基礎設施層(網絡、存儲、硬件、系統軟件)全域數據庫總體架構全域數據庫總體的層次,最下面是基礎架構層,主要包括支撐這一架構運行的主機 系統、存儲備份系統、網絡系統等內容。從下往上看,再上面是數據源層,既包括各 個業務的關系型數據源、內容管理數據源也包括半結構化數據源
5、比如XML、EXCEL等,也包括各個總隊、支隊的業務數據源。數據源層之上是“交換服務體系”,主要包括信息服務總線和服務總線兩部分。信 息服務總線主要實現數據層的信息整合和數據轉換,而服務總線主要實現應用層的信 息交換和整合。信息服務總線主要依托聯邦、復制、清洗、轉換等技術實現,其主要 包括信息整合服務和清洗轉換加載服務兩部分。通過信息服務總線的信息整合服務(數據聯邦、復制),可以透明、實時的訪問分布在總隊和支隊的各個業務系統中的 各種同構、異構數據(前提是擁有足夠的權限)。信息整合服務在整個XXX層面保證了數據的完整性和及時性。信息服務主要使用兩種技術來完成這一功能:聯邦和復 制。通過聯邦功能
6、可以把關系數據、半結構化數據(如 Excel文件、XML文件、Web 搜索引擎、MQ查詢和內容源)組成一個邏輯數據庫,對這些數據源中的表可以像操 作本地數據庫表一樣進行操作,而不必關心我們操作的這些數據底層是什么數據源, 物理在什么位置。而針對大數據量的數據訪問或高并發的訪問,通常將源數據增量實 時復制到本地,復制的實現是基于對源數據庫的日志進行捕獲,獲取增量數據,并基 于消息的機制將其復制到目的數據庫,復制的過程中可以實現數據的合并、拆分、轉 換等操作。信息服務總線主要完成數據的分析、清洗(標準化)、轉換、加載等工作。數據清 洗,主要是去除冗余數據,將零散字段合并成全局記錄,并解決重疊和矛盾
7、的數據, 然后通過添加關系和層次結構完善豐富信息。首先面臨的挑戰就是如何更有效的識別 現有的業務系統,包括業務系統使用的分類方法、層次結構、數據分布、數據字典 等。如果數據字典不完整或缺失,就要通過方法找出其數據的存儲結構以及各個表之 間的主外鍵關聯、各表之間的轉換關系等,同樣,數據的分布情況同樣可以使用分析 功能來完成。在對現有數據足夠了解的基礎上(完成了數據的分析),接下來就要制 定數據的清洗規則以及轉換規則,其中,清洗規則又分為兩種情況,一種清洗規則是 明確的,另一種清洗規則是模糊的,比如不同系統中存儲的地址信息,“南京市定淮 門大街9號”和“江蘇省南京市下關區定淮門大街 9號”實際上是
8、一個地址,但計算 機會當成兩個地址來處理。概率匹配功能和動態權重策略可以匹配創建高質量、準確 的數據,并在整個數據域中一致地識別核心業務信息,如人名、位置、和時間。數據清洗、轉換、加載服務對保障數據的準確性和一致性非常重要。在不同的系統 中,對同一業務會使用不同的分類方法,同樣,數據的類別和層次結構也會不同。需 要通過數據清洗、轉換、加載層實現對這些信息格式的轉換,匹配成通用的信息格式 和分類方法,以便提供整個 XXX業務層面聚合的業務視圖。實際證明一體化平臺(一 期)的全域數據梳理中,手工統計可以完成這項工作但不夠好,不夠直觀和沒有擴展 延續能力。數據清洗、轉換、加載工作對未來數據的使用非常
9、重要,即使有工具幫 助,工作量依然很大。雖然,開始的時候,這項工作看起來費時費力,但從長遠來 看,它使得基于這些數據的業務流程和統一數據視圖實現自動化,并減少了人為干預 不準確或不一致數據的努力,從而節省了大量成本。XXX層面的單一視圖一經建立,其維護必將是一個持續進行的過程。數據的管理通常需要一個管理組織來對沖突或缺失的數據進行決策,組織會通常需 要各個業務部門的人參與,而不僅僅局限于通技處或信息中心的人。XXX單一數據視圖的維護,很多業務部門都做的不夠好,時間一久,很多業務部門就變得厭倦,數據 清洗轉換的工作沒有堅持下去。一旦數據的準確性出現問題,業務系統的全局共享就 無法再從中獲益。交換
10、服務體系中的服務總線主要基于流程服務、傳輸服務、交換服務等實現。通過 使用總線,可以支持各種協議以及數據格式的數據交互。通過搭建一個基于標準的、 開發的、易于集成的、總線方式的服務總線,通過今后對現有系統的逐步升級改造, 系統之間以一種成為“服務”的接口方式統一通過總線方式進行交互,通過對服務的 管理,系統之間交互的信息格式的差異、傳輸協議的差異、采用技術的差異、物理位 置的不同等等這些問題都由這個總線來進行屏蔽。進一步通過流程管理,將模塊和系 統之間的服務按照業務流程的需要進行編排,做到了“隨需而變”。數據存儲區包括ODS、數據倉庫/數據集市、共享數據庫、特征庫、模型庫等,主 要提供各種數據
11、的存儲服務。其中,邏輯視圖中 ODS部分存放了整個XXX單位全局 級的明細數據,而數據倉庫數據集市中存儲了不同級別的匯總數據。特征庫主要存放 各種數據分群特征、業務分類特征等業務信息,模型庫存放構建的各種業務模型信息 等。基礎服務層主要包括“應用服務器”,“服務總線”,“工作流引擎”,“消息中 間件”,“ OLAP引擎”,“數據挖掘引擎”,“事件驅動”,“規則引擎”,“協 同工作”和“空間地理數據引擎”。應用層包括各種應用,其中多維分析、即席查詢、報表統計、圖形展現等。右邊的信息治理層主要是為了保證數據的完整性、一致性、準確性、及時性,保證 歷史數據正確歸檔并在需要的時候可以和現有數據一起被聯
12、合訪問,提供數據庫安 全、審計、監控和合規服務,從而防止內部人員偷竊,防范欺詐作假,保護數據隱 私,強制執行安全規范,強制滿足合規的要求,防止外部攻擊對數據的破壞。而元數據管理會貫穿數據業務層面、業務系統、信息整合服務總線、ETL層、數據存儲區、信息服務層、展現層等各個層面,當數據口徑出現問題時,能夠提供數據在 各個層面的正向/逆向追蹤功能。元數據的管理涉及業務元數據和技術元數據兩種。3. 數據倉庫架構數據清洗、轉換、加載信 息 治 理元 數 據 管 理數據交換相關業務單位數據倉庫總體架構1)多維分析從數據的全方位了解現狀,管理人員往往希望從不同的角度來審視業務數值,比如 從時間、地域、類別、
13、功能來看同一類數據的總和。每一個分析的角度可以叫做一個 維,因此,把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張 報表。由此產生了在線多維分析功能,根據用戶常用的多種分析角度,事先計算好一 些輔助結構,以便在查詢時能盡快抽取到所要的記錄,并快速地從一維轉變到另一 維,將不同角度的信息以數字、直方圖、餅圖、曲線等等方式展現在您面前。2)即席查詢可以將數據進行查詢分組,進行資源的管理,可以設置查詢優先級,可以自動控 制,調度復雜查詢和進行跟蹤分析查詢。可以按照以下重要方法進行使用,主動和動 態地控制數據庫的查詢流程,為不同大小的查詢定義不同的查詢類別,從而改善查詢 之間的系統資源共享,避免較小的查詢被較大的查詢阻塞等。3)數據挖掘數據挖掘正如在礦井中可以開采出珍貴的礦石,在數據倉庫的數據里也常??梢蚤_ 采出業務人員意想不到的信息。它比多維分析更進一步。例如,如果管理人員要求比 較各個區域某類出入境特征數量在過去一年的情況,可以從多維分析中找答案。但 是,如果管理人員要問為何一個地區的出入境特征情況突然變得特別好或是不好,或 者問該出入境特征在另一地區將會怎么樣,這時數據挖掘知識可以作出解答。4)數據倉庫層數據倉庫用于抽取、整合、分布、存儲有用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論