




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、廈門大學軟件學院畢業(yè)設(shè)計(論文)開題報告學生姓名班級學號校外指導教師姓名職稱所在單位北京福富軟件技術(shù)股份有 限公司福州分公司校內(nèi)指導教師姓名職稱所在單位廈門大學畢業(yè)設(shè)計(論文)題目ETL系統(tǒng)的倉庫任務(wù)調(diào)度模塊的實現(xiàn)畢業(yè)設(shè)計(論文)的目標:一、項目背景1:“數(shù)據(jù)倉庫” 一詞最早是在1900年,由Bill Inmon先生提出的。其描述 如下:“數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設(shè)計和建立的數(shù)據(jù)集合”。準確說來, 數(shù)據(jù)倉庫是一個環(huán)境,而不是一件產(chǎn)品,提供用戶用于決策支持的當前和歷史 數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為 了有效的把操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)
2、據(jù)訪問的各種技術(shù) 和模塊的總稱。打破數(shù)據(jù)來源的壁壘,對來源于全省多個業(yè)務(wù)系統(tǒng)的不同數(shù)據(jù)進行整合, 建立一個“大集中”的數(shù)據(jù)倉庫,構(gòu)造真正意義上的“客戶統(tǒng)一視圖”,讓領(lǐng) 導和分析人員能切實掌握電信客戶、用戶的全面信息,為決策提供完備的依據(jù)。具體目標:設(shè)計并實現(xiàn)一個ETL工具,完成數(shù)據(jù)的抽取、轉(zhuǎn)換與裝載,保 證數(shù)據(jù)源源不斷的從源系統(tǒng)進入數(shù)據(jù)倉庫。(1)可以進行數(shù)據(jù)模型的任務(wù)配置 (2)數(shù)據(jù)轉(zhuǎn)換規(guī)則能手動配置;(3)實現(xiàn)數(shù)據(jù)抽取一轉(zhuǎn)換一裝載任務(wù)流程 的自動調(diào)度;(4)能監(jiān)控任務(wù)執(zhí)行情況;(5)查詢?nèi)蝿?wù)執(zhí)行日志;(6)查看數(shù) 據(jù)之間的依賴關(guān)系(7)數(shù)據(jù)質(zhì)量的管控。二、項目概況1整個項目的系統(tǒng)架構(gòu)如圖1
3、所示。可以從圖中看出數(shù)據(jù)倉庫系統(tǒng)將為中 國電信各個分公司進行各種分析與決策提供最基礎(chǔ)的環(huán)境支持與數(shù)據(jù)支持。圖1系統(tǒng)部署圖為了能更好的服務(wù)于企業(yè)分析與決策,提供直觀的數(shù)據(jù)展示,保證數(shù)據(jù)獲取中 的數(shù)據(jù)質(zhì)量,以及方便整個系統(tǒng)的管理運行,系統(tǒng)功能組織考慮到了整個方面, 如圖2所示。圖2系統(tǒng)功能組織圖整個數(shù)據(jù)倉庫系統(tǒng)劃分為4個平臺,具體功能模塊如圖3所示,各個平臺 以及各個模塊的內(nèi)容如下:(1)應用管理平臺:主要用于對系統(tǒng)訪問層面和操作層面進行管理,如對 用戶、權(quán)限的設(shè)置;個性化界面等的定制;報表搜索、系統(tǒng)參數(shù)設(shè)置等功能; 通過這些功能,使用者能更方便、有效的使用數(shù)據(jù)倉庫系統(tǒng)。(2)目標客戶管理平臺:通
4、過對重點數(shù)據(jù)(如檔案、月帳單、用戶周話務(wù) 匯總情況等數(shù)據(jù))的支撐,使用者可自行通過簡單的條件設(shè)置來定義其關(guān)注的目 標客(用)戶,靈活的設(shè)置跟蹤周期。部分有明確條件設(shè)置的目標客戶更可以通 過平臺提供的專題功能更快速、方便的取得分析結(jié)果(如VPN專題)。(3)ETL平臺:在自行開發(fā)的ETL平臺上,使用者可以對邏輯模型進行物 理設(shè)計,使用類標準SQL腳本實現(xiàn)數(shù)據(jù)的ETL,并對操作日志、數(shù)據(jù)質(zhì)量等進 行管理;同時還支持對數(shù)據(jù)的導出功能(文本/EXCEL等格式),以滿足異構(gòu)數(shù) 據(jù)庫系統(tǒng)的數(shù)據(jù)需求(如集團接口、查詢結(jié)果導出等)。(4)分析展示平臺:通過集成的展示平臺,采用多維分析、圖表結(jié)合、即席 查詢、G
5、IS等多種展示方式,分析展示平臺提供使用者一個簡單、直觀、有效 的數(shù)據(jù)分析界面,使用者可以根據(jù)權(quán)限方便的實現(xiàn)數(shù)據(jù)訪問的穿透、鉆取以及 相關(guān)報表的訪問。目前除數(shù)據(jù)挖掘尚在設(shè)計開發(fā)階段外。圖3系統(tǒng)功能模塊1三、電信行業(yè)特點電信企業(yè)數(shù)據(jù)來源:1)支撐系統(tǒng),包括計費、營帳等;2)網(wǎng)管系統(tǒng);3) 企業(yè)辦公(OA)系統(tǒng);4)其他系統(tǒng)。電信企業(yè)的源數(shù)據(jù)特點:1 )數(shù)據(jù)量特別大;2)業(yè)務(wù)系統(tǒng)工作負荷重,7 X24小時的工作;3)業(yè)務(wù)系統(tǒng)性能、實時性的要求較高。實現(xiàn)方法:一、基本環(huán)境數(shù)據(jù)庫管理系統(tǒng):IBM DB2開發(fā)平臺:Windows, AIX語言:DB2存儲過程,Shell編程項目管理:SVN, IBM C
6、learQuery其它第三方軟件:Quest Central for DB2二、ETL 概念2 3數(shù)據(jù)抽取(Extract)數(shù)據(jù)抽取是數(shù)據(jù)源接口,從業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù),為數(shù)據(jù)倉庫輸入數(shù)據(jù)。典 型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和文件接口,對于不同數(shù)據(jù)平臺、不同源數(shù) 據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),采取不 同的數(shù)據(jù)抽取接口。數(shù)據(jù)的抽取必須能夠充分滿足決策支持系統(tǒng)的需要,又要 保證不影響業(yè)務(wù)系統(tǒng)的性能,所以,進行數(shù)據(jù)抽取時應制定相應的策略,包括 抽取方式、抽取時機、抽取周期等等。數(shù)據(jù)抽取策略有:1)同步實現(xiàn)抽取;2)異步實現(xiàn)抽取。數(shù)據(jù)清洗和轉(zhuǎn)換(Transformatio
7、n)數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換是指從業(yè)務(wù)系統(tǒng)中抽取的數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型 的要求,進行數(shù)據(jù)的清洗、轉(zhuǎn)換、拆分、匯總等處理,保證來自不同系統(tǒng)、不 同格式的數(shù)據(jù)具有一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。數(shù)據(jù)轉(zhuǎn)換工作進行的時機:1)在抽取過程中進行數(shù)據(jù)處理;2)使用異步 數(shù)據(jù)加載,以文件的方式處理;3)在數(shù)據(jù)加載過程中進行數(shù)據(jù)處理;4)進入 數(shù)據(jù)倉庫以后再進行數(shù)據(jù)處理。數(shù)據(jù)裝載(Load)數(shù)據(jù)裝載就是從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換、清洗后得數(shù)據(jù)裝載到數(shù)據(jù)倉庫 中。要求數(shù)據(jù)加載工具必須具有高效的加載性能。同時加載策略要考慮加載周 期及數(shù)據(jù)追加策略的內(nèi)容。主要加載技術(shù):1)使用數(shù)據(jù)倉庫引擎廠商提供的數(shù)據(jù)加載工具進
8、行數(shù)據(jù)加載;2)通過數(shù)據(jù)倉庫引擎廠商提供的API編程進行數(shù)據(jù)的加載。數(shù)據(jù)的追加策略類型:直接追加、全部覆蓋、更新追加。三、ETL總體設(shè)計根據(jù)電信行業(yè)特點,電信行業(yè)數(shù)據(jù)來源的多樣性與地域性。ETL平臺將 設(shè)計成如下圖(圖4所示)的架構(gòu),主要有前臺系統(tǒng)與后臺系統(tǒng)構(gòu)成。后臺系 統(tǒng)負責任務(wù)的自動調(diào)度,實現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載。前臺提供用戶界面, 方便數(shù)據(jù)倉庫開發(fā)人員使用。圖4 ETL架構(gòu)圖整個ETL過程將實現(xiàn)數(shù)據(jù)如下圖所示(圖5)的流動過程。數(shù)據(jù)將從數(shù)據(jù) 源開始生成接口文件,后通過ETL平臺裝載到數(shù)據(jù)倉庫接口區(qū)域,數(shù)據(jù)將在接口區(qū)域保存一定的時間,之后通過ETL配置數(shù)據(jù)轉(zhuǎn)換、清洗的規(guī)則,實現(xiàn)數(shù)據(jù) 從接
9、口區(qū)到目標數(shù)據(jù)倉庫的存儲,同時亦可以實現(xiàn)數(shù)據(jù)到數(shù)據(jù)集市的流動。用圖5 ETL總體設(shè)計一數(shù)據(jù)流程圖四、系統(tǒng)功能模塊系統(tǒng)主要分為兩大模塊:一、前臺展示模塊;二、后臺任務(wù)調(diào)度模塊一、前臺展示模塊中主要的功能模塊有:實體配置:開發(fā)人員進行數(shù)據(jù)倉庫開發(fā),根據(jù)業(yè)務(wù)邏輯在數(shù)據(jù)建模完成 后,進行相關(guān)模型的物理模型設(shè)計,實體配置完成對模型的主體配置。是生成 實體調(diào)度任務(wù)的主要依據(jù)。腳本配置:在實體配置完成之后,需要進行相關(guān)的腳本配置,完成具體 的數(shù)據(jù)如何轉(zhuǎn)換,如何清洗,如何裝載的問題。依賴配置:依賴配置,是配置實體與實體之間的依賴關(guān)系,大體分為弱 實體依賴與強實體依賴。是進行任務(wù)自動調(diào)度的重要環(huán)節(jié)。時間調(diào)度配置
10、:對于配置的實體無法滿足必要的依賴配置,可以直接進 行時間調(diào)度配置,亦可以到達自動調(diào)度的效果。任務(wù)查詢:對配置好的實體,可以進行相關(guān)任務(wù)的查詢,查詢是否生成 了當日的調(diào)度任務(wù)等。ETL監(jiān)控:實體調(diào)度過程是自動進行的。對于實體調(diào)度執(zhí)行的情況可 以通過該功能進行查詢,該查詢通過實體依賴關(guān)系,可以查看各個調(diào)度環(huán)節(jié)的 情況。調(diào)度日志查詢:實體調(diào)度過程中會記錄相關(guān)的執(zhí)行日志,該功能可以查 詢指定實體的執(zhí)行日志。接口上傳配置:該功能對接口文件上傳進行了規(guī)則設(shè)置:如在某日期前 接口文件必須上傳服務(wù)器等。可以監(jiān)控數(shù)據(jù)是否到達,以及查詢?yōu)榈竭_數(shù)據(jù)所 產(chǎn)生的影響。二、后臺任務(wù)調(diào)度模塊的重要功能模塊有:接口文件處理
11、:該功能模塊對到達服務(wù)器的接口文件進行掃描發(fā)現(xiàn)、剪 切移動、導入、校驗、備份刪除等操作。接口實體調(diào)度模塊:該功能模塊負責把接口文件數(shù)據(jù)導入數(shù)據(jù)倉庫的接 口層區(qū)域,并對數(shù)據(jù)導入進行初步的校驗。ETL過程維護:該功能模塊負責生成接口文件調(diào)度任務(wù),清除過期任務(wù)。倉庫集市實體調(diào)度:該功能模塊負責生成倉庫集市調(diào)度任務(wù),根據(jù)依賴 關(guān)系更新任務(wù)的資源可用性,執(zhí)行任務(wù),根據(jù)任務(wù)對應的腳本配置,解析執(zhí)行 腳本。5 .其它功能模塊:若接口文件太大而上傳為壓縮文件則負責接口文件的解 壓,以及定期的接口文件清理等。五、系統(tǒng)數(shù)據(jù)接口1目前系統(tǒng)數(shù)據(jù)接口主要采用文本文件方式,并在省中心的數(shù)據(jù)倉庫系統(tǒng)上 建立統(tǒng)一接口存儲區(qū)提
12、供給各業(yè)務(wù)系統(tǒng),由各業(yè)務(wù)系統(tǒng)按接口要求整理并通過 FTP方式上傳數(shù)據(jù)。對于需通過人工錄入的數(shù)據(jù),系統(tǒng)將提供相應的工具或接口,并支持通過 Excel、XML、TXT等格式文檔加載的形式進行數(shù)據(jù)的批量錄入功能。六、平臺的任務(wù)自動調(diào)度系統(tǒng)使用Shell進行編程,實現(xiàn)平臺在AIX操作系統(tǒng)上定時自動調(diào)度任務(wù)。百度文庫-讓每個人平等地提升自我 系統(tǒng)后臺進程主要有接口文件掃描導入進程、實體任務(wù)生成進程、實體任務(wù)調(diào) 度進程等。通過使用CRONTAB命令并發(fā)執(zhí)行這些進程。CRONTAB命令:提交、編輯、列出或除去cron作業(yè)。這個crontab命令提 交、編輯、列出或除去cron作業(yè)。一個cron作業(yè)是一個命令
13、,其運行是由cron 守護進程在規(guī)則的調(diào)度間隔執(zhí)行的。要提交一個cron作業(yè),指定crontab命 令用-e標志。crontab命令調(diào)用一個編輯會話,允許創(chuàng)建一個crontab文件。 在這個文件中,為每個cron創(chuàng)建條目。每個條目必須是一種cron守護進程 可接受的格式。當創(chuàng)建完條目和退出文件后,crontab命令將它拷貝到 /var/spool/cron/crontabs目錄,并把它放到一個文件中,此文件的名稱是當前的 用戶名。如果以用戶名命名的文件已存在于crontabs目錄中,crontab命令會 覆蓋它。同樣的,可以通過指定文件參數(shù)創(chuàng)建crontab文件。如果此文件已經(jīng) 存在,格式必須
14、是cron守護進程所需要的。如果文件不存在,crontab命令就 調(diào)用編輯器。如果EDITOR環(huán)境變量存在,此命令就調(diào)用它指定的編輯器。 否則,crontab命令調(diào)用vi編輯器。七、數(shù)據(jù)倉庫元數(shù)據(jù)元數(shù)據(jù),其最基本的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。但是整個及其抽象的定義 對于元數(shù)據(jù)的理解往往是不夠的。并且它是一種廣泛存在的現(xiàn)象,在許多領(lǐng) 域有其具體的定義和應用。對于在數(shù)據(jù)倉庫中的應用,有這么一種定義:元 數(shù)據(jù)是一種提取的形式,它是描述數(shù)據(jù)庫的結(jié)構(gòu)和內(nèi)容。對于元數(shù)據(jù)的理解, 在很多書中也進行了比較深入的探討,有題為“元數(shù)據(jù)與比喻”的文章,就是 從作者自己的角度與理解闡釋了元數(shù)據(jù)的概念。在數(shù)據(jù)倉庫領(lǐng)域中,
15、元數(shù)據(jù)被定義為:描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。一 般來說,它有兩方面的用途。首先,元數(shù)據(jù)能提供基于用戶的信息,如記錄 數(shù)據(jù)項的業(yè)務(wù)描述信息的元數(shù)據(jù)能幫助用戶使用數(shù)據(jù)。其次,元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng) 以最有效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要 支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義 要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;(4)記錄并檢測系統(tǒng)數(shù)據(jù) 一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。主要參考文獻.福建富士通信息軟件有限公司,
16、福建電信數(shù)據(jù)倉庫系統(tǒng)簡介Z.段云峰,吳唯寧,李劍威,韓潔著數(shù)據(jù)倉庫及其在電信領(lǐng)域中的應用M.北京: 電子工業(yè)出版社,何宇峰.基于CWM的ETLX具的設(shè)計與實現(xiàn)D.大連海事學院,MarkHumphries, Michael , Michelle著,陳光群譯.數(shù)據(jù)倉儲:結(jié)構(gòu)和實現(xiàn)M.北京:社會科學文獻出版社,Lou Agosta著,瀟湘工作室譯.數(shù)據(jù)倉庫技術(shù)指南.北京:人民郵電出版社,百度百科.元數(shù)據(jù).主流數(shù)據(jù)倉庫產(chǎn)品對比分析.張金銘,賴大進.數(shù)據(jù)倉庫系統(tǒng)在電 信行業(yè)的應用.時間進度安排:2008年11月17日一2009年2月10日:查閱相關(guān)書籍資料,理解數(shù)據(jù)倉庫各 種理論概念,重點熟悉ETL過程,掌握ETL重點,難點。并完成開題報告。2009年2月11日一2009年3月20日:分析項目需求,理解項目目標與內(nèi)容, 理解項目中相關(guān)的業(yè)務(wù)邏輯;熟悉項目實現(xiàn)環(huán)境,開始項目初期步驟(需求與設(shè) 計),搭建ETLX具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025企業(yè)租賃合同范本3
- 《通過面部特征洞察健康狀況》課件
- 2025家電維修服務(wù)合同書
- 2025個體經(jīng)營者租賃合同范文
- 2025物業(yè)房屋租賃合同范本
- 《船舶機械設(shè)備解析》課件
- (16)-專題16 小說閱讀
- 消防員摘除馬蜂窩的方法及處置程序
- 山東石油化工學院《制藥工程學科前沿講座》2023-2024學年第二學期期末試卷
- 上海工商職業(yè)技術(shù)學院《食品營養(yǎng)與安全》2023-2024學年第二學期期末試卷
- 2025年科技節(jié)活動小學科普知識競賽題庫及答案(共80題)
- 決勝新高考·四川名優(yōu)校聯(lián)盟2025屆高三4月聯(lián)考生物+答案
- 2025年元宇宙+游戲行業(yè)新興熱點、發(fā)展方向、市場空間調(diào)研報告
- 森林管護員面試題及答案
- 2025年高級考評員職業(yè)技能等級認定考試題(附答案)
- 培訓課件:混凝土結(jié)構(gòu)的施工技術(shù)(澆筑、養(yǎng)護)
- “中華傳統(tǒng)文化經(jīng)典研習”任務(wù)群下先秦諸子散文教學策略研究
- 2025年高考語文模擬作文導寫及點評:社會時鐘
- 《護理信息系統(tǒng)》課件
- 施工現(xiàn)場平面布置與臨時設(shè)施、臨時道路布置方案
- 建筑施工大型機械設(shè)備安全使用與管理培訓
評論
0/150
提交評論