




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三講數據抽取、轉換和裝載數據抽取、轉換和裝載目標:ETL的功能檢查數據抽取功能(挑戰、技術、評估和應用)數據轉換功能的任務和類型理解數據整合和合并的意義認識數據裝載功能的重要性,了解將數據應用到數據倉庫的主要方法理解為何說ETL非常重要、耗時和艱巨的任務ContentsETL概覽數據抽取數據轉換數據裝載ETL總結ETL概覽Contents最重要和最具有挑戰性耗時而且費勁ETL的需求和步驟關鍵因素1.最重要和最具有挑戰性ETL功能具有挑戰性,是因為源系統的性質源系統彼此懸殊,種類多樣,通常需要應付多個平臺上的不同操作系統很多源數據都是陳舊的應用系統采用的是過時的技術舊系統中的數據質量各不相同,
2、需要花很多時間進行處理歷史數據通常不會被保存在操作型系統中,但對于DW至關重要。源系統之間普遍缺乏一致性。在不同的源系統中,相同的數據可能會用不同的形式來代表,且缺乏解決方法,導致不一致問題更加嚴重源系統的結構隨著時間會發生變化,因為新的商業條件不斷出現。ETL功能也必須相應的調整大多數源系統的數據格式和類型對用戶沒有實際的含義,而且很多展現方式模糊而晦澀的。2.耗時而且費勁5070的時間花費在ETL上抽取: what? where? when?轉換:How?定義結構、缺失值補充、格式轉換裝載:Long Time(測試)抽取和應用變化著的數據有困難事實表的ETL維度表的ETL為所有的數據裝載編
3、寫規程組織數據緩存區域和檢測工具為聚集表制定計劃決定數據轉換和清洗規則建立全面的數據抽取規則準備從源到目標數據元素的的數據映像關系決定所有的數據源,包括內部和外部決定數據倉庫中需要的所有的目標數據ETL處理過程的主要步驟3.ETL的需求和步驟ETL過程涉及的各個方面將幾個數據源結構組合成數據倉庫目標數據庫中的行將一個源數據結構分成若干個結構放入目標數據庫中的若干行從源系統數據字典和目錄中讀取數據從多種文件結構中讀取數據,包括平面文件、索引文件、舊系統數據庫裝載大量原子事實表的細節為大量聚集表或事實表做聚集將數據從源系統平臺上的一種格式轉換成目標平臺上的另一個格式將晦澀的數值改變成對用戶有意義的
4、值4.關鍵因素數據抽取、轉換復雜性源于源系統巨大的差異性硬件平臺 OS DBMS Protocol 遺留的舊系統與數據裝載相關最初裝載和定期裝載本身都需要大量時間(必須找和合適的時間)增量轉載中的特殊問題如何捕獲源系統的變化,且不影響源系統工作不影響DW用戶使用情況下裝載ContentsETL概覽數據抽取數據轉換數據裝載ETL總結二、數據抽取兩個因素增加了抽取工作的復雜度(相比操作型系統的ET)1. 更多不同的系統中抽取 2. 增量裝載數據抽取的一些要點:數據源確認:確認數據的源系統和結構抽取方法:針對每個數據源,定義抽取過程是人工抽取還是基于工具的抽取(工具自己編寫的還是購買的)抽取頻率:對
5、于每個數據源,確定數據抽取的頻率,每天、每星期、每季度等等時間窗口:對于每個數據源,表示出抽取過程進行的時間窗口工作順序:決定抽取任務中某項工作是否必須等到前面工作成功完成,才能開始異常處理:決定如何處理無法完成抽取的輸入記錄數據抽取:1.數據源確認關鍵因素 :是否可以提供數據倉庫需要的值?大量的時間和復雜徹底的分析例子:利用訂單數據提供戰略信息訂單:訂單數量、折扣、傭金、希望運輸時間、實際運輸時間、不同處理階段時間等維度表:產品、訂單部署、運輸渠道、客戶數據源確認過程數據源目標訂單處理客戶產品運輸合同出貨跟蹤存貨管理產品數據客戶運輸渠道數據部署數據時間數據訂單量度 列出對事實表進行分析所需要
6、的每一個數據項或事實 從所有維度中列出每一個維度屬性 對于每個目標數據項,找出源系統和源數據項 如果一個數據元素有多個來源,選擇最好的來源 確認一個目標字段的多個源字段,建立合并規則確認多個目標字段的一個源字段,建立分離規則確認默認值檢查缺失值的源數據數據抽取:2.數據抽取技術源系統中的數據是依賴時間變化的在數據倉庫中不能忽略歷史信息如何從源系統中捕獲歷史數據? 數據如何存儲在源系統中的。源系統中的數據如何保存?當前值存儲的值是代表當前屬性的值,可能會改變,但何時改變則無法預知。為保存歷史變化的DW在這類系統中抽取數據很棘手。周期性的狀態例如隨時間變化的政策(利率等)變化的數據存儲在源系統中,
7、為DW而進行的抽取相對容易例子數據抽取從源操作系統中捕獲數據1.靜態數據一般用于在數據倉庫初始裝載的時候進行是相關數據源在某個時刻的快照靜態數據的抽取包括當前值的抽取周期性數據的抽取:每個時間點的值的獲取2.修正數據2.修正數據:追加的數據捕獲是最后一次捕獲數據后的修正追加的數據捕獲可能是立刻進行的或者延緩進行的立即型數據捕獲: 數據抽取發生在源系統中發生交易的時候,數據抽取是即時的或者實時的。三種不同的方法延緩型數據捕獲:非即時的或實時的數據抽取兩種不同的方法源操作型系統數據庫管理系統源數據庫源數據選擇1:通過交易日志捕獲交易日志文件從源系統中抽取文件輸出觸發程序文件數據緩存區域選擇3:在源
8、應用程序中捕獲選擇2:在數據庫觸發器中捕獲立即型數據抽取:可選方法觸發程序數據抽取立即型通過交易日志捕獲數據:日志本來就是DBMS所應該存儲的為應付突發情況的備份。沒有額外開銷。需要保證日志刷新之前,已抽取了所有記錄。缺點:如果源數據不是基于DB的則無法進行此方式的數據捕獲使用數據庫復制技術從數據庫觸發器中捕獲數據缺點1:只能捕獲基于DB的數據缺點2:建立和維護觸發器以及觸發器的執行增加了開銷從源應用程序中捕獲數據優點:適用于所有的系統(基于DB的或者文件系統的)缺點: 1 程序的開銷 2可能會降低應用程序的性能數據抽取延緩型基于日期和時間標記的捕獲通過日期比較來選擇應該抽取的數據:前提是源系
9、統中有時間戳記錄刪除了如何抽取?刪除先做標記(邏輯刪除),待抽取后物理刪除。但增加了開銷。通過文件的比較來捕獲保存副本,然后比較昨天的副本和今天的副本以決定抽取那些數據。缺點:如果數據文件很大,則比較費時間優點:對于沒有交易日志或者時間標記的而言,唯一可行的方法數據抽取技術的評估靜態數據捕獲:初次數據裝載時使用修正數據捕獲通過交易日志捕獲:DB通過數據庫觸發器捕獲:DB、書寫觸發器在源系統中捕獲:程序書寫開銷基于日期和時間標記的捕獲:有時間戳、刪除的問題(邏輯刪除、物理刪除)通過文件的比較來捕獲:比較會很費勁、但實用主要考察:靈活性?對源系統性能的影響對已有應用程序的影響與舊系統的兼容性能用在
10、文件系統中嗎?需要內部開發還是可用第三方軟件ContentsETL概覽數據抽取數據轉換數據裝載ETL總結數據轉換根據標準對數據進行轉換,因為他們來自不同的系統,必須保證所有數據放在一起后,數據的組合不能違反任何商業規則。Contents基本任務主要轉換類型數據整合和合并維度屬性的轉換如何實施轉換數據轉換1。基本任務選擇:從源系統得到的整個記錄或部分記錄。通常構成抽取功能本身的一部分。分離或合并:包括數據處理類型。轉化:多種對單獨字段的基本轉化:標準化和可理解化匯總:最細事務粒度上的前期匯總豐富:從多個源字段構成一個目標字段時,創建一個更好的數據視圖。數據轉換2。主要轉化類型格式修正:數據類型與
11、字段長度字段的解碼:使得晦澀的值變得用戶易于理解和有意義計算值和導出值單個字段的分離:姓和名; 和地址信息合并:從不同源系統中得到某個新的實體的過程。特征集合轉化:編碼的轉化:ASCII碼、BCD碼、Unicode、Big5、GB2312等等度量單位的轉化:日期、時間格式的轉化:匯總:鍵重構:數據轉換3.數據整合ETL功能的真正挑戰:從多個不同的分離的源系統中將所有數據有機的組織在一起供決策分析使用。數據整合就是將所有相關的數據組合成一致的數據結構,準備裝載到DW中。實體識別的困難訂單系統、客服系統、市場系統 客戶信息如何匹配這三個不同系統中同一個客戶的問題:算法或者手工識別多數據源多個數據源
12、可以得到同一個數據字段,但值不一樣?如何取舍?數據轉換4.維度屬性的轉換三種慢速變化的維度屬性的修改方法第一類第二類第三類數據轉換5.如何實施轉換數據轉換的復雜性決定了手工操作的困難性。使用轉換工具昂貴高效率高準確性元數據的產生即使是最先進的工具也可能需要手工的配合使用手工技術編寫程序適用于小的DW增加了后期的維護成本不能產生元數據,即使是產生元數據也因為后期的維護產生額外的工作維護負擔。ContentsETL概覽數據抽取數據轉換數據裝載ETL總結數據裝載數據裝載易出現問題且是很困難需要大量的時間,而且時間不好估計裝載的過程可能是不順利的:計劃制定(維度表與事實表的不匹配)數據準備區和數據倉庫
13、數據庫分別處在何處?裝載牽涉到維度表、事實表裝載需要專門的程序數據裝載幾個名詞初始裝載:第一次對所有數據倉庫的表進行遷移增量裝載:根據變化需要定期對DW中的表進行更新完全刷新:完全刪除DW中的一個表或多個表,然后重新裝載新的數據Chapter 12 數據抽取、轉換和裝載ContentsETL概覽數據抽取數據轉換數據裝載ETL總結ETL總結數據倉庫的ETL包括了很廣泛的概念而且是一個不斷重復的周期性的過程數據倉庫的ETL需要工具的支持商用的ETL工具支持ETL的各個過程;大多數ETL工具采用常見的語言編寫,因而我們容易對此進行必要的二次開發可選擇的ETL工具非常廣泛商用ETL工具的最大好處就是可以產生維護所產生的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業轉型升級與技術創新路徑
- 工業自動化技術進步與產業發展分析報告
- 工業自動化技術發展趨勢及實施方案
- 工業遺產改造為旅游景區的成功案例分析
- 工作場所衛生安全標準解讀與實施
- 工業領域新能源技術的推廣與應用
- 工業風辦公空間設計案例分享
- 工作場合的表達藝術
- 工程教育在學術研究與工作實戰的關聯分析
- 工廠環境中的空調系統配置
- 機柜維修維護方案(3篇)
- 靜脈治療指南解讀
- 江蘇省南通市海安市2025年七年級下學期期末英語試題及答案
- 有限空間作業通風時間專題
- 廣東省廣州市天河外國語學校2025年七年級英語第二學期期末綜合測試模擬試題含答案
- Java EE-形考任務一-國開(LN)-參考資料
- 西安無人機項目商業計劃書
- 2025年公務員綜合素質能力考試卷及答案
- 化工智能控制技術-形考任務4(預備知識:第十~十三章;分值100分;不需輔導老師評閱)測驗-國開-參考資料
- 儲能專業知識考試試題及答案
- 2025年新疆烏魯木齊市天山區新疆生產建設兵團第一中學中考模擬預測數學試題
評論
0/150
提交評論