


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據共享與交換平臺解決方案 、方案概述 隨著信息社會的到來,計算機網絡環境和分布處理技術的深入發展。信息系統中的數據源所呈現的形式也日益繁多,在這 些數據中有模式固定的結構化數據,也有無模式的無序數據。這種無論是已知確定來自數據庫的數據或是來自網絡上的各 式各樣結構不固定、不完全或不規則的數據,都給信息系統在向國民經濟信息化發展的過程中產生了很大的障礙。因此, 完成不同數據的共享與交換成為各個企業與部門進行信息交換時所必須要解決的重要問題。主要原理如下圖: 1. 工具簡介 數據集成的目的就是要運用一定的技術手段將系統中的數據按一定的規則組織成為一個整體, 使得用戶能有效地對其 進行操作。數據處
2、理的對象是系統中的各種異構數據庫中的數據或者無格式數據, 而數據集成的主要過程則是建立完 善的數據倉庫,以及采用數據挖掘技術獲取更多數據信息。ETL作為數據庫級的數據集成工具,擅長大量數據的遷移, 能從多個數據源中抽取數據, 然后進行數據轉換和加載,最終得到統一的、完備的主題數據庫或數據倉庫,原來分散 的應用仍獨立運作。ETL中三個字母分別代表的是 Extract Transform、Load,即抽取、轉換、加載。 數據抽取:從源數據源系統抽取目的數據源系統需要的數據; 數據轉換:將從源數據源獲取的數據按照業務需求, 轉換成目的數據源要求的形式, 并對錯誤、不一致的數據進行清 洗和加工。 數據
3、加載:將轉換后的數據裝載到目的數據源。 ETL原本是作為構建數據倉庫的一個環節, 負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到 臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。一 個簡單的ETL體系結構如圖1.1所示。 k _ A _ 2. ETL關鍵技術 數據抽取 數據抽取是從數據源中抽取數據的過程。實際應用中,數據源較多采用的是關系數據庫。從數據庫中抽取數據一 般有以下幾種方式: 全量抽取:全量抽取類似于數據遷移或數據復制,它將數據源中的表或視圖的數據原封不動的從數據庫中抽 取出來,并轉換成自己的 ETL工具可以識別的
4、格式。 增量抽取:增量抽取只抽取自上次抽取以來數據庫中要抽取的表中新增或修改的數據。在 ETL使用過程中。 增量抽取較全量抽取應用更廣。目前增量數據抽取中常用的捕獲變化數據的方法有:觸發器、時間戳、全表比 對、日志對比。 數據轉換和加工 從數據源中抽取的數據不一定完全滿足目的庫的要求,例如數據格式的不一致、數據輸入錯誤、數據不完整 等等,因此有必要對抽取出的數據進行數據轉換和加工。 數據的轉換和加工可以在 ETL引擎中進行,也可以在數據 抽取過程中利用關系數據庫的特性同時進行。相比在 ETL引擎中進行數據轉換和加工,直接在 SQL語句中進行轉 換和加工更加簡單清晰,性能更高。對于 SQL語句無
5、法處理的可以交由 ETL引擎處理。 數據裝載 將轉換和加工后的數據裝載到目的庫中通常是 ETLETL 過程的最后步驟。裝載數據的最佳方法 取決于所執行操作的類型以及需要裝入多少數據。當目的庫是關系數據庫時,一般來說有兩種 裝載方式:1 1)直接 SQLSQL 語句進行 insertinsert、update deleteupdate delete 操作;2 2)采用批量裝載方法,如 bcpbcp、 bulkbulk、關系數據庫特有的批量裝載工具或 api oapi o 3. 主流ETL工具 ETL工具從廠商來看分為兩種 ,一種是數據庫廠商自帶的 ETL工具,如Oracle warehouse
6、builder 、Oracle Data Integrator。另外一種是第三方工具提供商,如 Kettle。 Oracle Data Integrator (ODI ): ODI主要定位于在ETL和數據集成的場景里使用, ODI能夠檢測事件,一個事 件可以觸發ODI的一個接口流程,從而完成近乎實時的數據集成。 ODI的主要功能特點有:使用 CDC作為變更數 據捕獲的捕獲方式、代理支持并行處理和負載均衡、完善的權限控制、版本管理功能、支持數據質量檢查,清洗和回 收臟數據、支持與JMS消息中間件集成、支持 Web Service。 KETTLE :說到ETL開源項目,Kettle當屬翹首,項目名稱很有意思,水壺。按項目負責人 Matt的說法:把各種數 據放到一個壺里,然后呢,以一種你希望的格式流出。Kettle分為四大塊:Chef工作(job)設計工具(GUI方式)、 Kitchen 工作(job)執行器(命令行方式)、Spoon 轉換(transform)設計工具 (GUI方式)、Span 轉換 (trasform)執行器(命令行方式) 三、數據集成工具選擇 1. 對平臺的支
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京交通職業技術學院《醫療健康商務溝通》2023-2024學年第一學期期末試卷
- 西安科技大學高新學院《運輸運營管理實務》2023-2024學年第一學期期末試卷
- 云南林業職業技術學院《給排水工程制圖與CAD》2023-2024學年第一學期期末試卷
- 農業新質生產力的內涵及發展趨勢分析
- 房屋抵押協議書
- 業主三八活動方案
- 業主開發日活動方案
- 業務競技活動方案
- 城市慈善活動策劃方案
- 夜游夜經濟活動方案
- 腦干損傷護理常規
- 機動車安全技術檢驗操作規范標準
- MOOC 數值天氣預報-南京信息工程大學 中國大學慕課答案
- 跨座式單軌交通工程接觸網系統技術標準
- 教師口語智慧樹知到期末考試答案2024年
- 從乙醇的結構看其發生化學反應時鍵的斷裂位置和方式
- 2024年江西贛州旅游投資集團限公司招聘13人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 小學信息技術所有知識點大匯總(最全)
- 好老師是民族的希望
- 項目建設審批流程課件
- 2024高海拔地區模塊化增壓式建筑技術標準
評論
0/150
提交評論