DI數據集成解決方案_第1頁
DI數據集成解決方案_第2頁
DI數據集成解決方案_第3頁
DI數據集成解決方案_第4頁
DI數據集成解決方案_第5頁
已閱讀5頁,還剩8頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DATE\@"M/d/yyyy"4/25/2017NewH3CGroupPage13/數據集成系統解決方案

目錄1. 數據集成系統現狀 1-41.1 基礎數據多頭管理,系統間數據一致性差 1-41.2 接口沒有實現統一的接口平臺 1-41.3 XXX內部信息難以完整統一和共享 1-42. 數據集成需求分析 2-42.1 系統需求 2-42.1.1 實現數據統一 2-42.1.2 實現數據共享 2-52.1.3 實現數據應用 2-52.1.4 實現數據質量管控 2-53. 數據集成目標 3-53.1 建立規范統一的指標體系 3-63.2 統一的數據采集接口 3-63.3 統一的數據存儲中心 3-63.4 建立數據應用接口 3-64. 數據集成方案 4-74.1 ODS系統設計 4-74.1.1 現階段ODS系統設計 4-74.1.2 未來ODS系統設計 4-84.2 ODS系統架構 4-84.3 ODS數據模型 4-94.4 數據管理 4-104.5 系統技術特點 4-124.5.1 先進性 4-124.5.2 開放性和標準化 4-124.5.3 高效性 4-124.5.4 靈活性與擴展性 4-124.5.5 較高的性價比,降低總成本 4-13

數據集成系統現狀XXX有不少的應用系統,比如**系統、**系統、**系統、**系統和XXX信息門戶。這些系統一般都有不同供應商提供,他們之間的信息有重疊和不一致顯現存在。因此很容易產生下列的問題:基礎數據多頭管理,系統間數據一致性差對于同樣的問題,每個不同的系統都維護有自身的數據結構,例如在工程管理系統中存在供應商數據,而在物資系統中也存在供應商數據,這兩個系統對同一個供應商可能存在不同的編號、不同的命名等等。這就導致了兩個系統間沒有數據標準,在工程管理系統中更新了供應商數據后,物資系統無法依據指定的規則進行同步更新,造成了XXX主數據的混亂局面,難以滿足快速支撐精確管理的需要,使得XXX的運營效率和管理水平難以進一步提升。接口沒有實現統一的接口平臺由于沒有統一的XXX主數據,目前系統接口均采用點對點方式,技術實現方式多種多樣,例如最多的方式是數據庫直接存取,接口雙方需要明確知道對方的底層數據結構,這導致了完成和維護這些接口是一項非常艱巨的任務,并且在不同的供應商之間難于明確自身的責任,出現問題之后相互推諉。XXX內部信息難以完整統一和共享由于現在的應用系統是由不同的供應商提供,基礎數據難以同步更新,各自產生的數據信息,都成了一個個的信息孤島,彼此之間的數據難以共享。XXX不容易獲取匯總信息。數據集成需求分析系統需求實現數據統一數據集成中心在對XXX數據的整合過程中能夠實現以下三個統一:統一數據模型由數據集成中心承載XXX數據模型(EDM),促進XXX各域數據邏輯模型的統一。在XXX內新建或改造的系統,其數據模型應向數據集成中心所承載的XXX數據模型靠攏。數據模型是各個系統及應用間交互的基礎,通過數據模型的統一,減少系統及應用間復雜的轉換,提高系統、應用、接口的效率。統一數據標準數據集成中心中建立標準的數據編碼目錄,源系統數據依據標準的數據編碼目錄,經過整合后進入數據集成中心存儲,實現XXX數據的標準化與統一存儲。統一數據視圖基于數據集成中心所存儲的數據,支撐實現統一數據視圖,使XXX在用戶、資源等視角獲取到的信息是一致的,提升用戶、以及XXX內部的管理人員與分析人員對系統的感知。實現數據共享數據集成中心為XXX各業務系統提供統一共享數據接口,減少系統間相互接口的重復性,降低接口的復雜程度,提高系統間接口效率與質量;為跨系統數據應用提供數據支撐。數據集成中心作為XXX運營數據共享平臺,是各業務部門和XXX管理層獲取統計數據的唯一來源。數據集成中心可將某個生產系統的數據以準實時地方式存儲轉發至其它對數據實時性要求不高的生產系統,以減少生產系統間的網狀接口。數據集成中心以實時的查詢服務或準實時批量的數據提供的方式將數據集成中心內整合或計算好的數據向外部系統提供,以配合外部系統支撐統一用戶視圖查詢、用戶服務流程等功能。實現數據應用數據集成中心利用自身系統的數據提供以下幾類功能:查詢應用 實現查詢條件不固定的按需查詢功能。用戶可以根據關心的維度查詢數據集成中心內整合好的360度業務全貌數據,如,為渠道經理提供完整用戶視圖信息的查詢,為用戶提供完整用戶視圖查詢、用戶賬單查詢等。固定報表應用固定報表是維度和指標固定的統計結果的展示,在數據集成中心內對于實時性要求高的報表采用即時生成的模式,而對于實時性要求不高的報表,基于性能影響和資源開銷兩方面的考慮,應采用后臺通過作業的方式先自動生成,在需要時可以立即展現結果。報表展現應支持多種圖表方式,如餅圖、柱圖、線圖等;支持報表數據導出為其他文件類型,如EXCEL、CSV、XML、PDF、WEB存檔文件等;支持報表精確打印控制。動態報表應用基于數據集成中心整合好的數據,可以利用報表工具,按關心的維度和指標對數據進行主題性的統計,動態報表應用中,維度和指標不固定,可在數據模型支持的范圍內變換。在數據集成中心上可實現多種動態報表。計算應用數據集成中心可基于整合好的數據按照設定好的業務規則進行部分屬性數據計算,計算結果并不在數據集成中心內直接更新,而是由數據集成中心返回到該屬性數據的屬主生產系統,由屬主生產系統完成該屬性數據的更新后,再通過數據抽取、加載過程進入數據集成中心之后更新。實現數據質量管控數據集成中心在數據收斂的過程中,能完成以下數據質量管控工作:1.數據質量校驗根據規則對數據集成中心所存儲的數據進行一致性、完整性、正確性的校驗,形成數據校驗結果并交付源業務系統進行修正。2.數據質量管控通過建立XXX數據的質量標準、數據管控的組織、數據管控的流程,對數據質量進行統一管控,達到數據質量逐步完善。數據集成目標通過數據集成,數據集成中心應該能達到以下幾個目標:建立規范統一的指標體系根據XXX的業務實際情況,建立面向XXX指標體系的數據接口,用于收集XXX各系統間的指標數據,同時為XXX各系統提供所需的指標數據,成為溝通XXX現有系統和未來系統之間各種關鍵業務指標數據的信息橋梁。統一的數據采集接口建立統一的數據采集接口,根據XXX實際業務需要,定義符合XXX需要的數據采集指標,通過XXX數據業務平臺統一的進行數據采集,改變原有層層下達參數,再層層匯總、層層過濾,時效性和準確性亦難以保證的問題。統一的數據存儲中心通過XXX規范的指標體系,收集和整合相應指標數據,存儲到數據集成中心。按照統一指標、統一統計口徑和統一數據概念的要求,存儲指標數據和建立數據存儲中心,滿足不同系統之間相互獲取數據的要求,同時為數據的綜合分析和歷史回溯奠定數據基礎。建立數據應用接口XXX在生產經營決策過程中,通常迫切需要了解XXX外部的實際情況,所以需要打通XXX與外部的數據壁壘,實現彼此之間數據共享。這種需求通過建立XXX與外部之間特定的數據應用接口,一方面,從外部抽取XXX需要的特定商業指標數據,另一方面,提供外部所需的XXX指標數據。通過二者數據之間的充分對比分析,實現數據之間的數據共享,提高現有系統的數據使用率和有效地提高數據支撐能力,為管理層的經營決策提供堅實可靠的依據。數據集成方案ODS系統設計現階段ODS系統設計如上圖所示,我們設計的ODS系統中,主要有DI模塊和ODS模塊2部分組成,ODS系統根據通過Trigger、應用、批處理、Queue等手段從各MSS應用系統中獲得數據,并通過DI應用對數據進行抽取、轉換、清洗、并裝載到ODS數據庫中。而一般通過TriggerUpdates的方式來將一些ODS數據返回更新各MSS應用的數據庫。DI模塊這里的DI模塊主要是數據抽取、轉換和加載,這是數據由數據源系統向ODS加載的主要方法數據抽取從數據源系統抽取數據倉庫系統所需的數據,數據抽取采用統一的接口,可以從數據庫抽取數據,也可以從文件抽取。對于不同數據平臺、源數據形式、性能要求的業務系統,以及不同數據量的源數據,可能采用的接口方式不同,為保證抽取效率,減少對生產運營的影響,對于大數據量的抽取,采取數據分割、縮短抽取周期的原則,對于直接的數據庫抽取,采取協商接口表的方式,保障生產系統數據庫的安全。數據轉換數據轉換是指對抽取的源數據根據數據倉庫系統模型的要求,進行數據的轉換、清洗、拆分、匯總等,保證來自不同系統、不同格式的數據和信息模型具有一致性和完整性,并按要求裝入數據倉庫。數據加載數據加載是將轉換后的數據加載到數據倉庫中,可以采用數據加載工具,也可以采用API編程進行數據加載。ODS數據庫模塊操作數據存儲ODS(OperationDataStorage)是一個集成了來自不同數據庫數據的環境。其目的是為終端用戶提供一致的XXX數據集成視圖。它可以幫助用戶輕松應對跨多個商業功能的操作挑戰,是面向主題的、集成的、近實時的數據存儲。設計ODS層的目的在于改善了對關鍵操作數據庫的存取,獲得收益、用戶等主題的XXX級完整視圖,有利于更好地通觀全局。近實時的數據存儲提供了查詢與服務能力,并以更高的性能生成操作報告。設計ODS的核心是實現焦點主題全局試圖應用,如XXX的用戶管理系統,可以建立以用戶為中心的ODS用戶主題視圖,向上層提供高效的服務。未來ODS系統設計對于未來的ODS系統設計,我們認為可以引入MDM的設計,但通過ODS來自動修改的數據庫結構也應該僅針對新開發的應用,即根據新開發應用的需來對數據庫的結構進行修改。而不應對一個正常運行的應用系統進行任何的改變。ODS系統架構ODS系統是介于DW和OLTP系統之間的系統。歷史事實證明,只有將各個系統的數據綜合在一起才能真正反映出XXX管理需要的數據或者報表,而對這些數據的要求是近乎實時的。通過整合現有系統的數據和流程。使ODS系統作為所有應用系統交互的平臺,通過DI和ESB兩種技術對現有數據進行整合:各個應用竹編,如人力資源、財務管理等將通過XXX服務總線平臺(ESB)進行交互,ESB也作為其它可能與應用系統交互的統一接口;另一方面,數據抽取傳送平臺(DI)負責將各個子系統的數據抽取出來(拆分、合并、映射)裝入到ODS系統中,那么ODS系統在具備了各個子系統的近實時數據之后,就可以作為獨立數據源對外提供數據服務,它可以作為數據報表和分析的數據源,也可以作為其它子系統相互同步的數據源。這樣做有兩個好處:轉移了本屬于各系統的信息查詢負載到ODS系統,使各系統的壓力降低,提高了整體性能。OMS由于擁有了完整的主數據,它為面向主題的分析提供了必須的數據基礎。ODS數據模型ODS終極目標是為了提供非戰略性的中層決策支持,我們認為ODS的數據模型可以參考數據倉庫(DW,DataWarehouse)的基礎模型,即將數據分為事實數據和緯度數據。事實數據一般代表的是業務變動記錄,在MSS中我們稱為業務數據,而緯度數據則存放事實數據中業務發生的對象主體信息,緯度數據稱為主數據。事實數據和緯度數據的關系是通過關鍵字來關聯的,在數據庫中它們都體現為數據表的形式。以下為ODS的數據模型圖:圖表SEQ圖表\*ARABIC13ODS數據模型在上圖中緯度是維持各系統數據的一致性描述,而事實表則是提供分析使用的基礎數據。在確立了基本的數據模型之后,如何確定數據的采集的范圍呢?首先從構建XXX全局視圖出發(即面向主題的分析),查出每個主題需要哪些數據,這些數據分別分布在哪些系統中,當這一切確定之后,那么整個ODS數據模型牽涉到的數據范圍就基本確定了。接著需要通過DI工具將各系統中的業務數據轉換后裝入到ODS數據庫中,轉換方式大致分為四種:遷移:一般性的數據拷貝方式,源和目標的數據屬性和值完全相同。組合:例如將供應商所處的省份、市、街道組合為ODS中的地址字段。拆分:例如將員工姓名拆分為單獨的姓和名字段。映射:例如將合同的“完成”狀態映射為“OK”態。當數據從MSS子系統轉換到ODS系統時,數據質量依賴于DI平臺,DI平臺提供完整的事務、容錯、補償、容錯和日志功能用于控制數據轉換的質量。數據管理由于用戶的需求和場景是經常變化的,因此滿足個性化的定制將變的非常重要。目前數據應用在個性戶定制方面主要表現在:雖然定義了模型,但模型不完整,效果不好。這樣用戶在使用時,不能根據其需求動態的調整后端的業務規則和運行環境,不利于用戶的使用。所以需要提供一個靈活的數據模型管理,以及業務規則管理,來應對系統的變化。數據模型管理提供可視化的數據模型編輯工具,支持以下幾種數據模型抽取模式。主擴展模式通常用來將幾個相似的對象的共有屬性抽取出來,形成一個“公共屬性表”。例如:一個員工的基本信息由角色信息、組織信息、崗位信息等部分組成。主從模式描述兩個表之間的主從關系,從而形成的“一對多”關系。例如:一個項目對應多個計劃階段。多對多模式描述對象相互不分主次、地位,互為一對多的關系。例如:一種器材可以對應多個領料單,一個領料單也可以對應多種器材。流程、規則管理提供可視化的流程編輯工具、流程定義和流程監控功能。提供函數集提供常用規則方法,以及規則定義語言描述規則。提供基本規則:直接映射原來是什么就是什么,原封不動照搬過來,對這樣的規則,如果數據源字段和目標字段長度或精度不符,需要特別注意看是否真的可以直接映射還是需要做一些簡單運算。數學運算數據源的一個或多個字段進行數學運算得到的目標字段,比如:合同里的支付計劃由多個時間段和支付比例組成,由此得出其總的合同支付時間和支付金額,這種規則一般對數值型字段而言。參照轉換在轉換中通常要用數據源的一個或多個字段作為Key,去一個關聯數組中去搜索特定值,而且應該只能得到唯一值。這個關聯數組使用Hash算法實現是比較合適也是最常見的,在整個DI開始之前,它就裝入內存,對性能提高的幫助非常大。字符串處理從數據源某個字符串字段中經常可以獲取特定信息,例如身份證號。而且,經常會有數值型值,以字符串形式體現。對字符串的操作通常有類型轉換、字符串截取等。但是由于字符類型字段的隨意性也造成了臟數據的隱患,所以在處理這種規則的時候,一定要加上異常處理??罩蹬袛鄬τ诳罩档奶幚硎菙祿}庫中一個常見問題,是將它作為臟數據還是作為特定一種維成員?這恐怕還要看應用的情況,也是需要進一步探求的。但是無論怎樣,對于可能有NULL值的字段,不要采用“直接映射”的規則類型,必須對空值進行判斷,目前我們的建議是將它轉換成特定的值。日期轉換在數據倉庫中日期值一般都會有特定的,不同于日期類型值的表示方法,例如使用8位整型20040801表示日期。而在數據源中,這種字段基本都是日期類型的,所以對于這樣的規則,需要一些共通函數來處理將日期轉換為8位日期值、6位月份值等。日期運算基于日期,我們通常會計算日差、月差、時長等。一般數據庫提供的日期運算函數都是基于日期型的,而在數據倉庫中采用特定類型來表示日期的話,必須有一套自己的日期運算函數集。聚集運算對于事實表中的度量字段,他們通常是通過數據源一個或多個字段運用聚集函數得來的,這些聚集函數為SQL標準中,包括sum,count,avg,min,max。既定取值這種規則和以上各種類型規則的差別就在于它不依賴于數據源字段,對目標字段取一個固定的或是依賴系統的值系統技術特點為實現XXXODS系統管理系統的業務處理、資源共享、信息交流,采用了面向對象、消息協作、動態工作流和組件等先進技術,架構層次清晰,緊密結合行業特點,注重易用性、個性化,與同類產品相比,本系統在先進性、安全性、開放性、高效性、擴展性、靈活性、易用性、規范性、實用性等方面均達到較高的水準,具有以下突出優勢:先進性.NET平臺支持業內各種高級應用、接口技術和標準,使系統平臺具有良好的開放性和互集成性。同時,作為主流應用平臺之一,.NET也是業內的事實工業標準,是其他技術、系統、應用支持的主要對象之一,可以確保系統在未來相當長的時間內完全適應審計信息化的發展。.NET平臺支持業內各種高級應用、接口技術和標準,使系統平臺具有良好的開放性和互集成性。同時,作為主

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論