H3C+DataEngine+DI用戶手冊完整_第1頁
H3C+DataEngine+DI用戶手冊完整_第2頁
H3C+DataEngine+DI用戶手冊完整_第3頁
H3C+DataEngine+DI用戶手冊完整_第4頁
H3C+DataEngine+DI用戶手冊完整_第5頁
已閱讀5頁,還剩63頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1概 1 簡 框 3 7 12 附 是英文DataIntegration的縮寫,即數據集成,數據集成是把不同來源、格式、特點Extract-Transform-LoadrpmRPM是RedHatPackageManager(RedHat軟件包管理工具)類似Windows里面的“添加/刪除程序”。rpm軟件安裝包分為二進制包(Binary)以及源代碼包Sqoop是一個用來將Haoop(Hie)與傳統的數據庫(msqlposgreql...)間進行數據的傳遞,可以將一個關系型數據庫(SL,racle,Potgrs等)中的數據導進到Hadoop的HF中,也可以將HFS表1-1H3CDataEngineDIH3CETL過程為核用戶借助該系統可以通過流程圖式的圖形化工具快速、靈活地設計ETL過程,并能方便的進行部H3CDataEngineDI的圖形化設計器是一個WebETL任務設計流程圖式ETL設計:可以通過拖拉拽,輕松構建ETLH3CDataEngineDI中與用戶交互最多的模塊。它是一個MVC架構的Web應用2路×8E5-2路×8E5-2×600GB10krpm6×1.2TB10krpm2×600GB10krpm6×1.2TB10krpmIP地址,機器能夠正常訪問。DI集群不需要節點在同一網段,節點之JDKCentOS6.5(64位Chrome圖2-1DigWebrpmDigExecutorrpm軟件安表2-1圖2-2rpmrpm共有兩個rpm軟件安裝包需要進行安裝配置,分別為DigWeb軟件包與DigExecutorDigWebunzippostgresql數據庫。如果安裝6.1安裝準備。rpm-ivhrpm-ivhDigWeb-0.4.0-圖2-3安裝DigWeb-0.4.0-1.noarch.rpmdig-webdig-web圖2-4webhtp::8181關閉防火墻命令:serviceiptablesdig-webdig-webrpmrpm-erpm-ivhrpm-ivhDigExecutor-0.4.0-圖2-5安裝DigExecutor-0.4.0-1.noarch.rpm圖2-6perties將紅框內的ip修改為DigWebip圖2-7executor.configCID26DigWeb下,dig-executordig-executordig-executorstartexc1dig-executorstopdig-executordig-executorstartexc1dig-executorstopdig-executorrpmrpm-e圖3-15,監控功能在作業管理列表中以時間軸的形式進行展示。圖3-2操作,同時元數據可以跨資源庫拷貝。未來不同的用戶將可以通過資源庫發布分享自己設計的ETL圖3-30.43ETL任務、sqoop任務及shell任務。圖3-4ETLETLMySqL、PostgreSQL、MPP、Oracle、SQLServer數據庫源中對數據進行MySqL、PostgreSQL、MPP、Oracle、SQLServer目標數據庫。FTP從遠端文件直接抽取及加載。普通ETLSqoop支持的數據庫有MySqL、PostgreSQL、MPP、Oracle、SQLServerShell圖3-5圖3-6圖3-7圖4-1圖4-2圖4-3圖4-4圖4-5圖4-6圖4-7圖4-8圖4-9圖4-10圖4-11點擊<初始化公共資源庫>postgresql6.1.4Postgresql數據庫安裝。圖4-12圖4-13圖4-14圖4-15圖4-16圖4-17針對每一個資源庫連接,都可以在標簽塊右側找到<轉換元數據瀏覽>4-17中紅框中按ETL轉換任務保存的元數據轉換瀏覽界面。圖4-18圖4-19ETLETL轉換任務元數據可以進行ETL轉換任務元數據的拷貝,ETL轉換任務元數據拷貝到當前或其他資源庫中。ETL轉換任務元數據的刪除功能:單選或多選ETL圖4-20針對每一個資源庫連接,都可以在標簽塊右側找到<數據庫連接管理>4-20中紅框中按圖4-21圖4-223種,分別為普通ETL任務,SqoopShell任務。圖4-23普通ETL圖4-24跳轉普通ETL圖4-25ETLETL任務設計器分為四部分ETL任務。ETL簡單ETL圖4-26簡單ETL圖4-27跳轉Sqoop圖4-28Sqoop圖4-29Sqoop圖4-30Sqoop圖4-31Sqoop圖4-32跳轉Shell點擊<跳轉任務設計>Shell任務。執行主機字段填入任意一臺能與本機網絡互通的可用ShellIP。圖4-33Shell圖4-34ShellSqoop任務的編輯。圖4-35圖4-36任務編輯Shell圖4-37圖4-38圖4-39圖4-40圖4-41圖4-42圖4-43Cron表達式(一種可以用來定義時間規則的字符串10,20,30分各執行一次。圖4-44配置Cron圖4-45圖4-46圖4-47圖4-48圖4-49圖4-50圖4-51圖4-52圖4-53圖4-54圖4-55圖4-56圖4-57圖4-58圖4-59本章主要介紹普通ETL圖5-1圖5-2圖5-3圖5-4圖5-5字段選擇組件"移除"圖5-6字段選擇組件"元數據"圖5-7JavaScriptJavaScriptjavascripjavascript圖5-8JavaScript圖5-9圖5-10圖5-11圖5-12加載至文本文件組件"內容"圖5-13chkconfigchkconfigiptablesyum利用iso鏡像做本地yum創建isomkdir/mnt/isomkdirmkdir/mnt/isomkdir/mnt/cdrommountmount-oloop/mnt/iso/CentOS-6.5-x86_64-bin-DVD1.isodfdf-cdmkdirmv*.repo/etc/yum.repos.d/bakvilocal.repo如果/etc/yum.repos/下面有其它的cdmkdirmv*.repo/etc/yum.repos.d/bakvilocal.repoyum-installyum-installyumlistall|grep在配置完本地yum源后,安裝yumlistall|grepyum-yinstallyum-yinstallpostgresql-postgresqlMPP一張同結構的表中。解決方案:創建普通ETL過程,通過作業定時調度實現增量的抽取。12出城圖7-1圖7-2ETLETLidid字段的最大數值,id比傳入參數大的數據傳給加載至數據庫步驟。1:數據表抽取kkk_1000000sqlkkk_1000000表中id作為參數傳輸至下一字段。圖7-3圖7-42postgreskk_1000的表。在“從步驟插入數據”字段選擇步驟一數據表抽取,sqlsqlsql腳本中的”?”。圖7-5將最終的增量數據加載至MPP庫中kkk_1000000圖7-6圖7-7圖7-8圖7-9對于Cron00分鐘,每小時執行,日,周,年,月都配置為默認的每天,每周,每月,每年即可將Cron表達式定義為每個小時執行。圖7-10Cron圖7-11Cron圖7-12Cron圖7-13Cron圖7-14Cron圖7-15Cron圖7-16Cron12出城1圖7-17圖7-18ETL圖7-19ETLETL任務設計方案:使用數據表抽取步驟進行數據抽取,通過過濾記錄步驟中使用正則表達式將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論