




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
與傳統(tǒng)的DB開發(fā)一樣,DW的開發(fā)也經(jīng)歷需求分析、概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì);其不同之處——數(shù)據(jù)量以及數(shù)據(jù)操作不同,此外,前者在需求分階段就能確定系統(tǒng)的功能,后者則不能。
§1DW開發(fā)應(yīng)用的特點(diǎn)§2DW的規(guī)劃§3DW概念模型設(shè)計(jì)§4DW邏輯模型設(shè)計(jì)§5DW物理模型設(shè)計(jì)§6DW的實(shí)施§7DW的應(yīng)用、支持和增強(qiáng)第三章數(shù)據(jù)倉(cāng)庫(kù)開發(fā)應(yīng)用過程與傳統(tǒng)的DB開發(fā)一樣,DW的開發(fā)也經(jīng)歷需求分析、概念1§1DW開發(fā)應(yīng)用的特點(diǎn)DW的開發(fā)也具有其特有的、完整的生命周期——DW規(guī)劃分析階段、DW設(shè)計(jì)實(shí)施階段以及DW使用維護(hù)階段。該三個(gè)階段將循環(huán)往復(fù),直至一個(gè)完善的DW開發(fā)完畢。1.DW開發(fā)的階段性借鑒Nolan階段模型,可以將DW的開發(fā)階段劃分為:創(chuàng)始階段、成長(zhǎng)階段、控制階段和成熟階段等四個(gè)階段。[課后閱讀]CH3§1DW開發(fā)應(yīng)用的特點(diǎn)CH322.DW的螺旋式開發(fā)方法如前所述,DW的一個(gè)生命周期包含三個(gè)階段。然而,一個(gè)完善的DW需要經(jīng)歷若干個(gè)生命周期完成——每個(gè)DW生命周期積累的經(jīng)驗(yàn),一方面可以用于未來其他主題的開發(fā)應(yīng)用,另一方面,可以用于完善原DW。上述過程便構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)的螺旋式開發(fā)方法,該方法是目前DW開發(fā)的主要方法。CH32.DW的螺旋式開發(fā)方法CH33DW的螺旋式開發(fā)方法設(shè)計(jì)體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型DW與元數(shù)據(jù)的設(shè)計(jì)數(shù)據(jù)抽取轉(zhuǎn)換與加載開發(fā)或購(gòu)買中間件填充與測(cè)試數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)用戶培訓(xùn)改進(jìn)維護(hù)數(shù)據(jù)倉(cāng)庫(kù)評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃與確定需求規(guī)劃分析階段設(shè)計(jì)實(shí)施階段使用維護(hù)階段數(shù)據(jù)倉(cāng)庫(kù)開發(fā)過程CH3DW的螺旋式開發(fā)方法設(shè)計(jì)體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型DW43.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的特點(diǎn)數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì)方法①用業(yè)務(wù)系統(tǒng)的數(shù)據(jù)創(chuàng)建DWDB系統(tǒng)有什么→對(duì)DW有何影響;DB數(shù)據(jù)→主題領(lǐng)域[聯(lián)系];數(shù)據(jù)模型→DB與主題數(shù)據(jù)的共同性。②該方法不是面向應(yīng)用的,即,不是從應(yīng)用需求出發(fā)的。CH33.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的特點(diǎn)CH35開發(fā)初期使用需求的不確定性
DB系統(tǒng),面向應(yīng)用,其設(shè)計(jì)有一組確定的應(yīng)用需求做為參照;
DW無對(duì)應(yīng)的、固定的物流、信息流、數(shù)據(jù)流等,導(dǎo)致數(shù)據(jù)的分析處理沒有固定的模式,甚至用戶自己都不知道其將來的分析處理的過程,所以,難以在初期確定DW的使用需求。CH3開發(fā)初期使用需求的不確定性CH36不斷循環(huán)的啟發(fā)式過程DW的開發(fā)是一個(gè)動(dòng)態(tài)反饋的、啟發(fā)式的循環(huán)過程:一方面,DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、數(shù)據(jù)粒度、分割及其他物理模型及其設(shè)計(jì)需根據(jù)用戶的反饋信息不斷調(diào)整和完善,以提高系統(tǒng)的效率和性能;另一方面,通過不斷理解用戶的決策分析需求,來調(diào)整和完善DW,以提供更為準(zhǔn)確的決策信息。CH3不斷循環(huán)的啟發(fā)式過程CH37§2DW的規(guī)劃規(guī)劃是DW開發(fā)的首要任務(wù),它包括選擇DW實(shí)現(xiàn)策略、確定DW開發(fā)目標(biāo)和實(shí)現(xiàn)范圍、選擇DW體系結(jié)構(gòu)以及建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算四個(gè)方面。上述規(guī)劃工作完成后,要編制DW規(guī)劃說明書,內(nèi)容包括DW與企業(yè)戰(zhàn)略規(guī)劃之間的關(guān)系,DW重點(diǎn)支持的職能部門,對(duì)DW開發(fā)工作的建議,實(shí)際使用方案與開發(fā)預(yù)算等。CH3§2DW的規(guī)劃CH381.選擇DW實(shí)現(xiàn)策略主要有自上而下、自下而上以及混合策略三種。①自上而下策略
應(yīng)用于DW較難——需求難以定義;較為死板——需預(yù)先確定目標(biāo);需開發(fā)人員具有豐富的自上而下開發(fā)系統(tǒng)的經(jīng)驗(yàn),以及管理人員與決策者完全知曉DW的目標(biāo)及作用;適合采用結(jié)構(gòu)化或OO開發(fā)方法。CH31.選擇DW實(shí)現(xiàn)策略CH39②自下而上策略
較靈活——一般從某個(gè)原型開始,常用于開發(fā)數(shù)據(jù)集市;一般用于試點(diǎn)[對(duì)DW技術(shù)的評(píng)價(jià),運(yùn)行DW的各種費(fèi)用等];適合采用螺旋式的原型開發(fā)方法。③混合策略難以操作——需要精通方方面面的專家。CH3②自下而上策略CH3102.確定DW的開發(fā)目標(biāo)和實(shí)現(xiàn)范圍為此,需要對(duì)用戶說明DW應(yīng)用和發(fā)展趨勢(shì)以及對(duì)企業(yè)經(jīng)營(yíng)戰(zhàn)略的支持。開發(fā)目標(biāo):確定信息的范圍[主題域/指標(biāo)域];確定訪問和導(dǎo)航數(shù)據(jù)的方法和工具包括聚集及概括工具,訪問檢索圖表、預(yù)定義報(bào)表、統(tǒng)計(jì)分析器等的工具等等;CH32.確定DW的開發(fā)目標(biāo)和實(shí)現(xiàn)范圍CH311確定DW數(shù)據(jù)的規(guī)模。
其他目標(biāo)還有:根據(jù)需求確定數(shù)據(jù)的含義,確定DW的類型,確定DW的功能,確定元數(shù)據(jù)的數(shù)量,確定數(shù)據(jù)源的使用,……。可見,DW的目標(biāo)非常繁多復(fù)雜,需開發(fā)人員與用戶不斷交流來確定。CH3確定DW數(shù)據(jù)的規(guī)模。CH312實(shí)現(xiàn)范圍:基于用戶的角度誰[人員/部門]使用DW;DW有哪些查詢——它們確定了概括、聚集、集成、重構(gòu)等的技術(shù)要求以及報(bào)表的種類等。基于技術(shù)的角度確定DW的元數(shù)據(jù)庫(kù)的規(guī)模——間接地確定了DW要管理的數(shù)據(jù)量。CH3實(shí)現(xiàn)范圍:CH3133.選擇DW的體系結(jié)構(gòu)一般基于DW的應(yīng)用結(jié)構(gòu)和DW的技術(shù)平臺(tái)結(jié)構(gòu)兩個(gè)方面來考慮。①DW的應(yīng)用結(jié)構(gòu)基于業(yè)務(wù)處理系統(tǒng)的DW——虛擬DW;單純DW(所有應(yīng)用都在DW中進(jìn)行);單純數(shù)據(jù)集市(部門級(jí)DW);DW與數(shù)據(jù)集市(最佳體系結(jié)構(gòu))。CH33.選擇DW的體系結(jié)構(gòu)CH314②DW的技術(shù)平臺(tái)結(jié)構(gòu)
單層結(jié)構(gòu)——數(shù)據(jù)源與DW共享平臺(tái)或數(shù)據(jù)源、DW、數(shù)據(jù)集市、最終用戶工作站使用同一平臺(tái);C/S結(jié)構(gòu);三層C/S結(jié)構(gòu)——包括基于工作站的客戶層、基于服務(wù)器的中間層、基于主機(jī)的第三層;多層式結(jié)構(gòu)——在三層結(jié)構(gòu)基礎(chǔ)上發(fā)展起來的,可多達(dá)五層(存儲(chǔ)層、服務(wù)層、查詢層、應(yīng)用層、客戶層)。CH3②DW的技術(shù)平臺(tái)結(jié)構(gòu)CH3154.建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算
使用方案——實(shí)際上是DW需求的一個(gè)重要的原型,體現(xiàn)了用戶參與的原則。
規(guī)劃預(yù)算——估算項(xiàng)目投資額,可根據(jù)以往軟件開發(fā)確定,或根據(jù)參照結(jié)構(gòu)估算。最后,要撰寫規(guī)劃說明書。CH34.建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算CH316§3DW概念模型設(shè)計(jì)概念模型設(shè)計(jì)包括概念模型的需求調(diào)查、概念模型的定義、概念模型的分析以及概念模型的設(shè)計(jì)四個(gè)階段。1.概念模型的需求調(diào)查概念模型的需求調(diào)查,是以DW開發(fā)任務(wù)書(包括組織現(xiàn)狀、業(yè)務(wù)功能及范圍、組織發(fā)展的戰(zhàn)略、需決策支持的方面等)為基礎(chǔ)進(jìn)行的。CH3§3DW概念模型設(shè)計(jì)CH317調(diào)查對(duì)象包括組織中的DW項(xiàng)目負(fù)責(zé)人、知識(shí)用戶、信息用戶和信息管理人員。項(xiàng)目負(fù)責(zé)人——通過項(xiàng)目負(fù)責(zé)人在開發(fā)者和用戶之間進(jìn)行溝通,以確定用戶的信息需求、定義系統(tǒng)以及界定系統(tǒng)邊界。CH3調(diào)查對(duì)象CH318對(duì)項(xiàng)目負(fù)責(zé)人的調(diào)查內(nèi)容包括:①組織的管理人員對(duì)信息的需求,比如,與任務(wù)說明書中業(yè)務(wù)需求相關(guān)的業(yè)務(wù)或事務(wù),相關(guān)的數(shù)據(jù)在哪個(gè)系統(tǒng)中,所需數(shù)據(jù)的年限,現(xiàn)行業(yè)務(wù)處理系統(tǒng)能否提供所需數(shù)據(jù)等。②用戶的有關(guān)情況,比如,誰是用戶?用戶如何使用DW?用戶是否擁有自己的計(jì)算機(jī)系統(tǒng)?是否使用了分析工具?用戶喜好的報(bào)表形式?等等。③DW成功因素的建議、希望DW做什么?CH3對(duì)項(xiàng)目負(fù)責(zé)人的調(diào)查內(nèi)容包括:CH319知識(shí)用戶與信息用戶——主要調(diào)查信息的來源,包括:
①用戶承擔(dān)的工作及所需信息?信息的來源?信息處理方式?所在部門使用哪些信息系統(tǒng)?這些系統(tǒng)提供哪些分析信息?
②用戶使用什么樣的計(jì)算機(jī)系統(tǒng)?其中有哪些應(yīng)用程序?對(duì)這些程序的熟悉程度?③了解DW否?希望DW達(dá)到什么目的?如何衡量是否達(dá)到此目的?工作中尚未獲得哪些信息?④如何評(píng)價(jià)DW(同前)?CH3知識(shí)用戶與信息用戶CH320信息管理人員
——主要調(diào)查組織所用的系統(tǒng)環(huán)境,比如組織有否DSS?其用戶是誰?提供什么支持信息?等等。可見,需求調(diào)查過程中,開發(fā)人員應(yīng)該關(guān)注的是管理決策中關(guān)于信息的需求、用戶的基本情況、用戶使用信息的情況,而非像業(yè)務(wù)處理系統(tǒng)開發(fā)那樣,向被調(diào)查人員詢問系統(tǒng)應(yīng)該具有哪些功能!CH3信息管理人員CH3212.概念模型的定義概念模型的定義,就是要確定系統(tǒng)的范圍及所涉及的對(duì)象——從所選擇的主題域出發(fā),確定基本需求的方向以及基本的數(shù)據(jù)需求(有別于功能驅(qū)動(dòng)的業(yè)務(wù)處理系統(tǒng),數(shù)據(jù)驅(qū)動(dòng)的DW設(shè)計(jì)之初,不能馬上知道用戶詳細(xì)的需求),從而界定DW大致的系統(tǒng)邊界,并形式地表示出來。CH32.概念模型的定義CH322例——某超市的DW設(shè)計(jì)日趨激烈的競(jìng)爭(zhēng)環(huán)境,要求決策者能夠更準(zhǔn)確地了解超市的經(jīng)營(yíng)狀況,跟蹤市場(chǎng)趨勢(shì),制定合理的采購(gòu)與銷售策略。之前由于業(yè)務(wù)需求,已建立了若干業(yè)務(wù)處理系統(tǒng),如人事、庫(kù)存、銷售、采購(gòu)等。由于這些業(yè)務(wù)處理系統(tǒng)各自為政,缺乏全局性,因此,難以從中進(jìn)行全局性的分析工作并獲取相關(guān)報(bào)表。所以,決策者決定建立一個(gè)DW。[明確決策需求,進(jìn)一步確定所需信息]CH3例——某超市的DW設(shè)計(jì)CH323①DW用戶的決策分析基于開發(fā)DW的初衷,超市決策者迫切希望掌握超市的庫(kù)存情況和銷售情況。為制定一個(gè)營(yíng)銷策略,決策者要進(jìn)行以下分析:超市促銷效果,客戶購(gòu)買趨勢(shì),商品供應(yīng)市場(chǎng)變化趨勢(shì)以及供應(yīng)商和客戶的信用等級(jí)等。②支持決策的數(shù)據(jù)需求分析為完成上述分析,決策者需要促銷策略數(shù)據(jù)、采購(gòu)數(shù)據(jù)、庫(kù)存數(shù)據(jù)、客戶及供應(yīng)商數(shù)據(jù)等。CH3①DW用戶的決策分析CH324③數(shù)據(jù)需求分析工具常用的工具有:用戶信息需求表、CRUD矩陣、業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲(chǔ)表等。用于描述用戶的信息需求狀況以及信息的詳細(xì)程度。CH3③數(shù)據(jù)需求分析工具用于描述用戶的信息需求狀況以及信25用于描述高層模型中每個(gè)實(shí)體產(chǎn)生、引用、更新以及刪除的情況。CH3用于描述高層模型中每個(gè)實(shí)體產(chǎn)生、引用、更新以及刪除的26用于描述DW數(shù)據(jù)源的物理狀況。CH3用于描述DW數(shù)據(jù)源的物理狀況。CH3273.概念模型的分析概念模型主要在設(shè)計(jì)者與用戶之間交流對(duì)業(yè)務(wù)過程的認(rèn)識(shí),一般用ER圖表示,仍以超市為例——考慮決策者的分析需求,確定超市DW的三個(gè)基本主題域:銷售主題、商品主題和客戶主題,則其概念模型如下:CH33.概念模型的分析CH328給出每個(gè)主題的屬性后,便得到完整的概念模型了:CH3給出每個(gè)主題的屬性后,便得到完整的概念模型了:CH3294.概念模型的設(shè)計(jì)以概念模型的分析結(jié)果以及概念模型的定義中收集到的數(shù)據(jù)為基礎(chǔ),完成星形或雪花模型的設(shè)計(jì)。前面的ERD只適合于業(yè)務(wù)處理系統(tǒng)的設(shè)計(jì)而不能用于DW的設(shè)計(jì)。實(shí)際中,選取星形模型還是雪花模型取決于用戶的決策分析需求。CH34.概念模型的設(shè)計(jì)CH330CH3CH331CH3CH3325.概念模型文檔與評(píng)審概念模型設(shè)計(jì)文檔——主要包括DW開發(fā)需求分析報(bào)告、概念模型分析報(bào)告、概念模型以及概念模型評(píng)審報(bào)告。概念模型的評(píng)審——DW開發(fā)中經(jīng)常出現(xiàn)這類的階段性評(píng)審[好處?]。概念模型的評(píng)審主要用于確定概念模型是否準(zhǔn)確、完整地描述了用戶的決策分析環(huán)境。CH35.概念模型文檔與評(píng)審CH333概念模型的評(píng)審人員——DW項(xiàng)目負(fù)責(zé)人、DW分析人員、DW設(shè)計(jì)人員、DW用戶,一般限制在十人以下。概念模型的評(píng)審內(nèi)容——評(píng)審資料有:DW開發(fā)任務(wù)書,用戶信息需求表,DW主題說明書,ERD,概念模型設(shè)計(jì)成果(星形模型或雪花模型);——評(píng)審標(biāo)準(zhǔn):是否真實(shí)反映了開發(fā)DW的目的,信息需求表準(zhǔn)確否,DW的主題全面否,ERD、星形/雪花模型是否如實(shí)反映了用戶的決策分析環(huán)境等。CH3概念模型的評(píng)審人員CH334§4DW邏輯模型設(shè)計(jì)邏輯模型是物理模型和概念模型之間的橋梁,它與DW物理實(shí)現(xiàn)時(shí)所使用的數(shù)據(jù)庫(kù)相關(guān)——大多為RDBMS,故此,邏輯模型主要采用的是關(guān)系模型——利用關(guān)系模型不僅可以設(shè)計(jì)指標(biāo)實(shí)體,還可以設(shè)計(jì)維實(shí)體以及詳細(xì)類別實(shí)體。CH3§4DW邏輯模型設(shè)計(jì)CH335邏輯模型設(shè)計(jì)的內(nèi)容主要有:1.分析主題域5.定義DW的實(shí)體
2.確定粒度層6.定義DW的數(shù)據(jù)
次以及聚集
抽取模型3.確定數(shù)據(jù)7.DW元數(shù)據(jù)模型
分割策略
的建立與應(yīng)用
4.定義關(guān)系模型8.評(píng)審邏輯模型CH3邏輯模型設(shè)計(jì)的內(nèi)容主要有:CH3361.分析主題域數(shù)據(jù)倉(cāng)庫(kù)的建立是一個(gè)循環(huán)的過程——一般每次循環(huán)建立建立一個(gè)/幾個(gè)主題域。超市DW概念模型中,確立了三個(gè)基本主題域(商品、銷售、客戶)——經(jīng)分析可發(fā)現(xiàn),其中銷售是超市的基本業(yè)務(wù),也是進(jìn)行決策分析的主要領(lǐng)域,因此,決定首先建立并實(shí)施銷售主題域。CH31.分析主題域CH337
一旦定義了主題域,也就確定了DW的邏輯模型,進(jìn)一步要詳細(xì)描述該模型中主題的所有屬性,以便確定系統(tǒng)相關(guān)的行為和存儲(chǔ)結(jié)構(gòu)——如下圖所示。CH3一旦定義了主題域,也就確定了DW的邏輯模型,進(jìn)一步要382.確定粒度層次以及聚集粒度層次及聚集的確定,要參照第二章§6和§7中介紹的原則和方法——無非是確定單一還是多重粒度,及常用的聚集等。對(duì)于超市的銷售主題,采用多重粒度較為適宜,考慮到銷售記錄數(shù)量的龐大,以及對(duì)銷售的分析以銷售統(tǒng)計(jì)以及銷售趨勢(shì)分析為主,商品銷售數(shù)據(jù)的綜合層次可以分為每種商品的周、月、季統(tǒng)計(jì)銷售數(shù)據(jù),每小類商品的周、月、季統(tǒng)計(jì)銷售數(shù)據(jù)等。CH32.確定粒度層次以及聚集CH3393.確定數(shù)據(jù)分割策略數(shù)據(jù)分割——把邏輯上整體的數(shù)據(jù)分割成較小的、可獨(dú)立管理的物理單元進(jìn)行存儲(chǔ),以便于數(shù)據(jù)的重構(gòu)、重組和恢復(fù),并提高建立索引和順序掃描的效率。數(shù)據(jù)分割,必需在邏輯模型設(shè)計(jì)中完成(為什么?),它可以采用單一標(biāo)準(zhǔn)(比如季節(jié))或組合標(biāo)準(zhǔn)(如,按季節(jié)+業(yè)務(wù)類型)進(jìn)行分割。采用什么樣的分割標(biāo)準(zhǔn),一般考慮以下三個(gè)因素:CH33.確定數(shù)據(jù)分割策略CH340數(shù)據(jù)量——主要因素。數(shù)據(jù)量小,可不分割或用單一標(biāo)準(zhǔn)分割;數(shù)據(jù)量大,則要用組合標(biāo)準(zhǔn)細(xì)致地分割。數(shù)據(jù)處理對(duì)象——與主題域相關(guān),比如,商品主題可以用商品種類、商品小類、時(shí)間標(biāo)準(zhǔn)分割,而供應(yīng)商主題則更多地用地址和時(shí)間標(biāo)準(zhǔn)進(jìn)行分割。(思考:為什么?)CH3數(shù)據(jù)量CH341粒度分割的策略——數(shù)據(jù)分割標(biāo)準(zhǔn)必需要與粒度層次統(tǒng)一起來。比如,假如商品主題關(guān)于商品銷售數(shù)據(jù)的粒度是按日期和商品類別進(jìn)行劃分的,那么,在每一粒度層次上的數(shù)據(jù),就要按日期和商品類別的組合標(biāo)準(zhǔn)進(jìn)行分割,以便于將來在日期和類別方面綜合為更高層次粒度的數(shù)據(jù)。CH3粒度分割的策略CH342超市DW中,如果決策者經(jīng)常關(guān)心的問題是商品在某個(gè)季節(jié)的銷售情況,則,可以考慮按照季節(jié)(日期)進(jìn)行分割,因?yàn)椋孩俪蠨W是按日期順序獲取數(shù)據(jù)的;②DW中數(shù)據(jù)的綜合常常是在日期維上進(jìn)行的。當(dāng)然,也可以考慮用業(yè)務(wù)類型、地理位置等標(biāo)準(zhǔn)進(jìn)行分割。CH3超市DW中,如果決策者經(jīng)常關(guān)心的問題是商品在某個(gè)季節(jié)434.定義關(guān)系模型由于DW一般都是在RDBMS上實(shí)現(xiàn)的,因此不論概念模型是E-R模型、星形模型還是雪花模型,都要轉(zhuǎn)換為關(guān)系模型。
指標(biāo)實(shí)體轉(zhuǎn)換后,可能形成多個(gè)關(guān)系(事實(shí)表),這些關(guān)系,通過公共碼鍵聯(lián)系在一起;當(dāng)然,還要?jiǎng)?chuàng)建相應(yīng)的維表、詳細(xì)類別表。事實(shí)表通過外鍵與它們建立聯(lián)系。CH34.定義關(guān)系模型CH344例:超市客戶的邏輯模型轉(zhuǎn)換后包括以下各表:客戶基本情況表(賬號(hào)int9,……),客戶變動(dòng)情況表(賬號(hào)int9,……),商品交易情況表(賬號(hào)int9,……),服務(wù)交易情況表(賬號(hào)int9,……),客戶反饋記錄表(賬號(hào)int9,……),客戶信用狀況表(賬號(hào)int9,……)等。這些表,通過公共碼鍵——賬號(hào)關(guān)聯(lián)在一起。CH3例:超市客戶的邏輯模型轉(zhuǎn)換后包括以下各表:CH3455.定義DW的實(shí)體邏輯模型設(shè)計(jì)中,不僅要確定實(shí)體、實(shí)體間的關(guān)系和實(shí)體具有的列,還要進(jìn)一步確定主鍵列、候選鍵列以及外鍵列等,它們可以由一列或多列組成。此外,還要確定各個(gè)實(shí)體中的列是否可以為空值——一般,主鍵/候選鍵/外鍵不能為空。最后,還要給出每個(gè)實(shí)體所有列的具體特性以及實(shí)體的容量和數(shù)據(jù)更新頻率。CH35.定義DW的實(shí)體CH346CH3CH347CH3CH3486.定義DW的數(shù)據(jù)抽取模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)抽取模型由數(shù)據(jù)抽取流程圖和若干種表構(gòu)成。設(shè)計(jì)數(shù)據(jù)抽取模型的目的是建立DW的數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)和加載(Load)系統(tǒng),即ETL系統(tǒng)。數(shù)據(jù)抽取模型的建立,主要包括四個(gè)方面的工作:數(shù)據(jù)抽取處理流程圖,DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃,DW的清理數(shù)據(jù)轉(zhuǎn)換方法,DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型。CH36.定義DW的數(shù)據(jù)抽取模型CH349①數(shù)據(jù)抽取處理流程數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)抽取是傳統(tǒng)的數(shù)據(jù)處理流程,其輸入是各種業(yè)務(wù)處理系統(tǒng)DB,輸出是DW數(shù)據(jù)。
根據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式及相應(yīng)的規(guī)則進(jìn)行處理。CH3①數(shù)據(jù)抽取處理流程根據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)50②DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃該計(jì)劃,是關(guān)于DW從數(shù)據(jù)源中抽取、轉(zhuǎn)換和加載的工作計(jì)劃。制定該計(jì)劃時(shí),要考慮相關(guān)的影響因素并確定對(duì)應(yīng)的對(duì)策。A.影響因素?cái)?shù)據(jù)格式——多數(shù)據(jù)源,統(tǒng)一格式;壞數(shù)據(jù)——丟失、失效、改不正確的數(shù)據(jù);系統(tǒng)的兼容性——不同業(yè)務(wù)處理系統(tǒng)間的兼容;CH3②DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃CH351數(shù)據(jù)源的變化——數(shù)據(jù)源數(shù)據(jù)格式與結(jié)構(gòu)的變化;數(shù)據(jù)抽取的時(shí)間——避開業(yè)務(wù)處理系統(tǒng)的高峰期。B.對(duì)策面對(duì)上述影響因素,要明確抽取什么數(shù)據(jù)(抽取方式)?何時(shí)抽取?何處抽取?抽取方式
全庫(kù)比較——當(dāng)前瞬間的狀態(tài)與上次抽取時(shí)的狀態(tài)比較,找出增量文件;CH3數(shù)據(jù)源的變化CH352利用程序日志——在業(yè)務(wù)系統(tǒng)中,用程序把發(fā)生變化的數(shù)據(jù)記下來,形成增量文件;利用數(shù)據(jù)庫(kù)日志——檢查DB運(yùn)行日志以確定增量文件;利用時(shí)間戳——在記錄中增加時(shí)間戳(會(huì)增加業(yè)務(wù)處理系統(tǒng)的開銷);CH3利用程序日志CH353利用位圖索引——在數(shù)據(jù)源的記錄中增加一個(gè)位圖索引字段,其取值為:沒變化/修改過/修改中。抽取時(shí)間兩種方法——基于時(shí)間的抽取和基于事件的抽取。抽取地點(diǎn)即抽取過程的運(yùn)行之處——在數(shù)據(jù)源還是數(shù)據(jù)倉(cāng)庫(kù)中。CH3利用位圖索引CH354③DW的數(shù)據(jù)清理轉(zhuǎn)換方法數(shù)據(jù)清理與轉(zhuǎn)換用來解決數(shù)據(jù)源和DW的數(shù)據(jù)格式不一致性的問題,其方法有:類型轉(zhuǎn)換——將相同含義不同格式的數(shù)據(jù)轉(zhuǎn)換成相同格式的數(shù)據(jù);串操作——將兩個(gè)以上列的值裁剪、連接為一個(gè)新值;關(guān)鍵字翻譯——數(shù)據(jù)源關(guān)鍵字到DW關(guān)鍵字的映射;CH3③DW的數(shù)據(jù)清理轉(zhuǎn)換方法CH355
數(shù)學(xué)函數(shù)——用數(shù)學(xué)函數(shù)根據(jù)數(shù)據(jù)源計(jì)算出結(jié)果作為DW的數(shù)據(jù);參照完整性——數(shù)據(jù)加載到DW時(shí),要確定這些數(shù)據(jù)是否已經(jīng)在DW中了;
聚集運(yùn)算——在數(shù)據(jù)加載到DW過程中,計(jì)算之前確定了的大量的概括、聚集數(shù)據(jù),以減少數(shù)據(jù)I/O的開銷。CH3數(shù)學(xué)函數(shù)CH356④DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型包括以下四個(gè)方面的工作:數(shù)據(jù)源分析——數(shù)據(jù)倉(cāng)庫(kù)主題所需各個(gè)數(shù)據(jù)源的詳細(xì)情況,包括所在的計(jì)算機(jī)平臺(tái)、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用該數(shù)據(jù)源的處理過程、DW的更新計(jì)劃等;——分析DW中的每個(gè)列及其在數(shù)據(jù)源(業(yè)務(wù)處理系統(tǒng)或外部數(shù)據(jù)源)中的數(shù)據(jù)來源的情況;CH3④DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型CH357上述分析過程中,要利用數(shù)據(jù)抽取規(guī)則確定從哪些數(shù)據(jù)源抽取哪些數(shù)據(jù),這些數(shù)據(jù)基于哪些數(shù)據(jù)平臺(tái)等,并形成數(shù)據(jù)源抽取對(duì)象表:CH3上述分析過程中,要利用數(shù)據(jù)抽取規(guī)則確定從哪些數(shù)據(jù)源抽58數(shù)據(jù)抽取條件分析分析所抽取的數(shù)據(jù)應(yīng)滿足哪些條件——可能是來自于不同表的復(fù)合條件,并形成數(shù)據(jù)源抽取規(guī)則表:CH3數(shù)據(jù)抽取條件分析CH359
數(shù)據(jù)清理分析清理工作包括數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)類型統(tǒng)一或者匯總或聚集處理等,并形成目標(biāo)表列與數(shù)據(jù)源表列的對(duì)應(yīng)關(guān)系表:CH3數(shù)據(jù)清理分析CH360
數(shù)據(jù)的排序、概括和導(dǎo)出處理給出以下兩種表:CH3數(shù)據(jù)的排序、概括和導(dǎo)出處理CH361CH3CH3627.DW元數(shù)據(jù)模型的建立與應(yīng)用元數(shù)據(jù)模型的作用在于指導(dǎo)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的抽取、清理和加載過程以及引導(dǎo)用戶使用數(shù)據(jù)倉(cāng)庫(kù)。元數(shù)據(jù)模型的建立貫穿于DW的規(guī)劃到應(yīng)用的整個(gè)過程。元數(shù)據(jù)模型的建立需要在多個(gè)DW生命周期的循環(huán)——即螺旋式開發(fā)過程中完成,其建立與應(yīng)用過程如下圖所示。CH37.DW元數(shù)據(jù)模型的建立與應(yīng)用CH363CH3CH364其中,各個(gè)步驟的內(nèi)容如下:⑴利用某種建模工具創(chuàng)建DW模型的過程中,需要從業(yè)務(wù)處理系統(tǒng)中提取元數(shù)據(jù),并建立DW的邏輯模型和物理模型——包括DW的邏輯名稱、業(yè)務(wù)名稱、列名、物理列名、業(yè)務(wù)術(shù)語(yǔ)和描述、查詢的樣值及提示等,并把它們存放在元數(shù)據(jù)目錄中;⑵在DW中添加數(shù)據(jù)加載的元數(shù)據(jù)——關(guān)于DW數(shù)據(jù)源的描述,完成數(shù)據(jù)“來源定義”;CH3其中,各個(gè)步驟的內(nèi)容如下:CH365⑶利用數(shù)據(jù)加載工具提取DW中各種表的定義,并完成源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射的定義,捕捉所有轉(zhuǎn)換信息;⑷把上述源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射和轉(zhuǎn)換存儲(chǔ)到元數(shù)據(jù)目錄中;⑸把數(shù)據(jù)加載到DW時(shí),需從元數(shù)據(jù)目錄中找到有關(guān)源數(shù)據(jù)的類型和位置、目標(biāo)數(shù)據(jù)的類型和位置以及兩者間的映射;CH3⑶利用數(shù)據(jù)加載工具提CH366⑹數(shù)據(jù)加載前,要檢查DW中物理狀態(tài)的最新信息,如磁盤空間等;⑺利用元數(shù)據(jù)提取數(shù)據(jù)的同時(shí),根據(jù)提取的源數(shù)據(jù)狀況,提取元數(shù)據(jù),如數(shù)據(jù)提取時(shí)間、數(shù)據(jù)源的變化等;⑻將提取的源數(shù)據(jù)經(jīng)清理、轉(zhuǎn)換后加載到DW中;⑼加載中,將捕捉到的加載統(tǒng)計(jì)信息和審核信息保存到元數(shù)據(jù)目錄中;CH3⑹數(shù)據(jù)加載前,要檢查CH367⑽DW建模過程中的事實(shí)表信息,保存為元數(shù)據(jù)目錄中的業(yè)務(wù)分組元數(shù)據(jù)——使用DW的幫助信息;⑾用戶可以利用元數(shù)據(jù)通過前端數(shù)據(jù)展示工具形成查詢請(qǐng)求;⑿DW將查詢結(jié)果返回給用戶;⒀完成用戶查詢的統(tǒng)計(jì)后,結(jié)果保存在元數(shù)據(jù)目錄中——分析用戶使用DW的依據(jù)。CH3⑽DW建模過程中的事實(shí)表CH3688.評(píng)審邏輯模型完成邏輯模型的設(shè)計(jì)工作后,把設(shè)計(jì)方案整理成文檔,并組織有關(guān)人員進(jìn)行評(píng)審。文檔內(nèi)容包括——主題域分析報(bào)告,數(shù)據(jù)粒度劃分模型,數(shù)據(jù)分割策略,數(shù)據(jù)抽取模型,指標(biāo)實(shí)體、維實(shí)體與詳細(xì)類別實(shí)體的關(guān)系模型等。CH38.評(píng)審邏輯模型CH369評(píng)審內(nèi)容:主題域→滿足決策分析要求?概括數(shù)據(jù)使用需求→數(shù)據(jù)粒度及分割策略滿足決策分析要求?指標(biāo)實(shí)體、維實(shí)體、詳細(xì)類別實(shí)體→對(duì)應(yīng)的關(guān)系式滿足3NF?為提高DW效率→進(jìn)行反規(guī)范化處理?數(shù)據(jù)抽取模型→建立正確的對(duì)應(yīng)關(guān)系?CH3評(píng)審內(nèi)容:CH370§5DW物理模型設(shè)計(jì)物理模型設(shè)計(jì),就是邏輯模型在物理系統(tǒng)中的實(shí)現(xiàn)過程。實(shí)現(xiàn)物理設(shè)計(jì)的前提:全面了解所選用的DBMS,尤其是該DBMS的存儲(chǔ)結(jié)構(gòu)和存取方法;全面了解數(shù)據(jù)環(huán)境、數(shù)據(jù)使用頻率、使用方式、數(shù)據(jù)規(guī)模及響應(yīng)時(shí)間等;全面了解外部存儲(chǔ)設(shè)備的特性。CH3§5DW物理模型設(shè)計(jì)CH371物理模型設(shè)計(jì)的內(nèi)容包括:確定DW設(shè)計(jì)的規(guī)范;確定數(shù)據(jù)結(jié)構(gòu)的類型;創(chuàng)建DW的索引;確定數(shù)據(jù)存放的位置;確定存儲(chǔ)分配等。最后,要對(duì)物理模型進(jìn)行評(píng)審,內(nèi)容包括:表空間、分區(qū)、數(shù)據(jù)表、數(shù)據(jù)量、數(shù)據(jù)分布、索引等等。CH3物理模型設(shè)計(jì)的內(nèi)容包括:CH372§6DW的實(shí)施——以物理模型為基礎(chǔ),具體工作包括以下五個(gè)方面的內(nèi)容:1.DW與業(yè)務(wù)處理系統(tǒng)接口的設(shè)計(jì)
邏輯模型中,已經(jīng)建立了每個(gè)目標(biāo)列抽取的規(guī)則(與業(yè)務(wù)處理系統(tǒng)或外部數(shù)據(jù)源間的映射),為使DW中的數(shù)據(jù)抽取快速、準(zhǔn)確需要設(shè)計(jì)相應(yīng)的接口程序,以完成數(shù)據(jù)抽取的工作。CH3§6DW的實(shí)施CH373一般,接口程序的功能為:從面向應(yīng)用和操作的環(huán)境生成完整的數(shù)據(jù);生成數(shù)據(jù)的聚集;完成基于時(shí)間的數(shù)據(jù)轉(zhuǎn)換;掃描現(xiàn)有系統(tǒng)以便追加數(shù)據(jù)等。2.DW的創(chuàng)建顯然,DW中包含兩類數(shù)據(jù)——分析數(shù)據(jù)和元數(shù)據(jù)。分析數(shù)據(jù),大多采用RDBMS管理(少數(shù)情況下采用多維數(shù)據(jù)庫(kù)方式)。CH3一般,接口程序的功能為:從面向應(yīng)用和操作的環(huán)境生成完74元數(shù)據(jù)庫(kù)構(gòu)成會(huì)較為復(fù)雜——它不但為過程之間、工具之間和數(shù)據(jù)庫(kù)之間提供了管理連接的基礎(chǔ),還要存儲(chǔ)一些模型。根據(jù)邏輯模型設(shè)計(jì)以及物理模型設(shè)計(jì)的結(jié)果,一經(jīng)選定創(chuàng)建工具,就可以建成一個(gè)與設(shè)計(jì)方案一致的DW了。常用的創(chuàng)建DW的工具有Oracle10i,MSSQLServer2005,Sybase,Informix等。CH3元數(shù)據(jù)庫(kù)構(gòu)成會(huì)較為復(fù)雜——它不但為過程之間、工具之間753.DW的數(shù)據(jù)加載、復(fù)制與發(fā)行數(shù)據(jù)加載數(shù)據(jù)源→數(shù)據(jù)準(zhǔn)備區(qū)→DW事實(shí)表上述過程,一般通過標(biāo)準(zhǔn)方法或公共工具來實(shí)現(xiàn)(如RDBMS中的SQL,或?qū)iT管理DW的加載工具),或者自行設(shè)計(jì)一個(gè)加載程序。復(fù)制復(fù)制技術(shù),分布式數(shù)據(jù)環(huán)境中采用。發(fā)行[發(fā)布?]一經(jīng)發(fā)布,便被公認(rèn)。CH33.DW的數(shù)據(jù)加載、復(fù)制與發(fā)行CH3764.DW的中間件設(shè)計(jì)DW的中間件——能夠把DW各個(gè)部分以人們不易察覺的方式無縫地整合到一起的程序模塊。DW的中間件主要包括進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、復(fù)制的中間件(備份中間件),用于數(shù)據(jù)庫(kù)訪問的網(wǎng)關(guān)中間件,對(duì)DW進(jìn)行監(jiān)控的中間件等。CH34.DW的中間件設(shè)計(jì)CH3775.DW的測(cè)試DW測(cè)試工作包括兩類:?jiǎn)卧獪y(cè)試和系統(tǒng)集成測(cè)試。單元測(cè)試——每個(gè)單獨(dú)組件完成后進(jìn)行的測(cè)試,試圖找到與本單元相關(guān)的潛在錯(cuò)誤。集成測(cè)試——測(cè)試的目的是驗(yàn)證每個(gè)單元與DW或子系統(tǒng)間的接口是否能夠正常傳遞參數(shù)并執(zhí)行系統(tǒng)的整體功能。CH35.DW的測(cè)試CH378§7DW的應(yīng)用、支持和增強(qiáng)1.DW的用戶培訓(xùn)及支持用戶培訓(xùn)計(jì)算機(jī)技能、DW的概念、原理、使用過程、培訓(xùn)案例等不同時(shí)期,對(duì)用戶的支持不同比如,初期只是使用方法的支持,后期,用戶可能會(huì)針對(duì)結(jié)果提出質(zhì)疑等等。CH3§7DW的應(yīng)用、支持和增強(qiáng)CH3792.DW的使用方式通常分為驗(yàn)證方式和發(fā)現(xiàn)方式兩類。用于實(shí)現(xiàn)驗(yàn)證方式的工具有查詢系統(tǒng)、報(bào)表系統(tǒng)以及多維分析工具等;用于實(shí)現(xiàn)發(fā)現(xiàn)方式的工具有數(shù)據(jù)挖掘工具等。這兩種使用方式的應(yīng)用領(lǐng)域可以劃分為信息處理、分析處理和數(shù)據(jù)挖掘等三個(gè)方面。CH32.DW的使用方式CH3803.DW使用中的數(shù)據(jù)刷新隨著DW使用頻率的提高,對(duì)DW的要求會(huì)越來越高——從已有資源中得到更多的信息或獲取更多的尚未開發(fā)的數(shù)據(jù)源等。具體包括:從已有數(shù)據(jù)資源中獲得更多數(shù)據(jù);從內(nèi)部獲取新的數(shù)據(jù)源;獲取新的/更多的行業(yè)數(shù)據(jù)源。CH33.DW使用中的數(shù)據(jù)刷新CH3814.DW的增強(qiáng)一般從以下六個(gè)方面對(duì)DW增強(qiáng)或擴(kuò)充:元數(shù)據(jù)的局限性;缺乏外部數(shù)據(jù);數(shù)據(jù)加載性能差;DW應(yīng)用范圍擴(kuò)大;DW整體性能的調(diào)整;DW重新規(guī)劃等。CH34.DW的增強(qiáng)CH382與傳統(tǒng)的DB開發(fā)一樣,DW的開發(fā)也經(jīng)歷需求分析、概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì);其不同之處——數(shù)據(jù)量以及數(shù)據(jù)操作不同,此外,前者在需求分階段就能確定系統(tǒng)的功能,后者則不能。
§1DW開發(fā)應(yīng)用的特點(diǎn)§2DW的規(guī)劃§3DW概念模型設(shè)計(jì)§4DW邏輯模型設(shè)計(jì)§5DW物理模型設(shè)計(jì)§6DW的實(shí)施§7DW的應(yīng)用、支持和增強(qiáng)第三章數(shù)據(jù)倉(cāng)庫(kù)開發(fā)應(yīng)用過程與傳統(tǒng)的DB開發(fā)一樣,DW的開發(fā)也經(jīng)歷需求分析、概念83§1DW開發(fā)應(yīng)用的特點(diǎn)DW的開發(fā)也具有其特有的、完整的生命周期——DW規(guī)劃分析階段、DW設(shè)計(jì)實(shí)施階段以及DW使用維護(hù)階段。該三個(gè)階段將循環(huán)往復(fù),直至一個(gè)完善的DW開發(fā)完畢。1.DW開發(fā)的階段性借鑒Nolan階段模型,可以將DW的開發(fā)階段劃分為:創(chuàng)始階段、成長(zhǎng)階段、控制階段和成熟階段等四個(gè)階段。[課后閱讀]CH3§1DW開發(fā)應(yīng)用的特點(diǎn)CH3842.DW的螺旋式開發(fā)方法如前所述,DW的一個(gè)生命周期包含三個(gè)階段。然而,一個(gè)完善的DW需要經(jīng)歷若干個(gè)生命周期完成——每個(gè)DW生命周期積累的經(jīng)驗(yàn),一方面可以用于未來其他主題的開發(fā)應(yīng)用,另一方面,可以用于完善原DW。上述過程便構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)的螺旋式開發(fā)方法,該方法是目前DW開發(fā)的主要方法。CH32.DW的螺旋式開發(fā)方法CH385DW的螺旋式開發(fā)方法設(shè)計(jì)體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型DW與元數(shù)據(jù)的設(shè)計(jì)數(shù)據(jù)抽取轉(zhuǎn)換與加載開發(fā)或購(gòu)買中間件填充與測(cè)試數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)用戶培訓(xùn)改進(jìn)維護(hù)數(shù)據(jù)倉(cāng)庫(kù)評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃與確定需求規(guī)劃分析階段設(shè)計(jì)實(shí)施階段使用維護(hù)階段數(shù)據(jù)倉(cāng)庫(kù)開發(fā)過程CH3DW的螺旋式開發(fā)方法設(shè)計(jì)體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型DW863.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的特點(diǎn)數(shù)據(jù)驅(qū)動(dòng)的設(shè)計(jì)方法①用業(yè)務(wù)系統(tǒng)的數(shù)據(jù)創(chuàng)建DWDB系統(tǒng)有什么→對(duì)DW有何影響;DB數(shù)據(jù)→主題領(lǐng)域[聯(lián)系];數(shù)據(jù)模型→DB與主題數(shù)據(jù)的共同性。②該方法不是面向應(yīng)用的,即,不是從應(yīng)用需求出發(fā)的。CH33.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的特點(diǎn)CH387開發(fā)初期使用需求的不確定性
DB系統(tǒng),面向應(yīng)用,其設(shè)計(jì)有一組確定的應(yīng)用需求做為參照;
DW無對(duì)應(yīng)的、固定的物流、信息流、數(shù)據(jù)流等,導(dǎo)致數(shù)據(jù)的分析處理沒有固定的模式,甚至用戶自己都不知道其將來的分析處理的過程,所以,難以在初期確定DW的使用需求。CH3開發(fā)初期使用需求的不確定性CH388不斷循環(huán)的啟發(fā)式過程DW的開發(fā)是一個(gè)動(dòng)態(tài)反饋的、啟發(fā)式的循環(huán)過程:一方面,DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、數(shù)據(jù)粒度、分割及其他物理模型及其設(shè)計(jì)需根據(jù)用戶的反饋信息不斷調(diào)整和完善,以提高系統(tǒng)的效率和性能;另一方面,通過不斷理解用戶的決策分析需求,來調(diào)整和完善DW,以提供更為準(zhǔn)確的決策信息。CH3不斷循環(huán)的啟發(fā)式過程CH389§2DW的規(guī)劃規(guī)劃是DW開發(fā)的首要任務(wù),它包括選擇DW實(shí)現(xiàn)策略、確定DW開發(fā)目標(biāo)和實(shí)現(xiàn)范圍、選擇DW體系結(jié)構(gòu)以及建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算四個(gè)方面。上述規(guī)劃工作完成后,要編制DW規(guī)劃說明書,內(nèi)容包括DW與企業(yè)戰(zhàn)略規(guī)劃之間的關(guān)系,DW重點(diǎn)支持的職能部門,對(duì)DW開發(fā)工作的建議,實(shí)際使用方案與開發(fā)預(yù)算等。CH3§2DW的規(guī)劃CH3901.選擇DW實(shí)現(xiàn)策略主要有自上而下、自下而上以及混合策略三種。①自上而下策略
應(yīng)用于DW較難——需求難以定義;較為死板——需預(yù)先確定目標(biāo);需開發(fā)人員具有豐富的自上而下開發(fā)系統(tǒng)的經(jīng)驗(yàn),以及管理人員與決策者完全知曉DW的目標(biāo)及作用;適合采用結(jié)構(gòu)化或OO開發(fā)方法。CH31.選擇DW實(shí)現(xiàn)策略CH391②自下而上策略
較靈活——一般從某個(gè)原型開始,常用于開發(fā)數(shù)據(jù)集市;一般用于試點(diǎn)[對(duì)DW技術(shù)的評(píng)價(jià),運(yùn)行DW的各種費(fèi)用等];適合采用螺旋式的原型開發(fā)方法。③混合策略難以操作——需要精通方方面面的專家。CH3②自下而上策略CH3922.確定DW的開發(fā)目標(biāo)和實(shí)現(xiàn)范圍為此,需要對(duì)用戶說明DW應(yīng)用和發(fā)展趨勢(shì)以及對(duì)企業(yè)經(jīng)營(yíng)戰(zhàn)略的支持。開發(fā)目標(biāo):確定信息的范圍[主題域/指標(biāo)域];確定訪問和導(dǎo)航數(shù)據(jù)的方法和工具包括聚集及概括工具,訪問檢索圖表、預(yù)定義報(bào)表、統(tǒng)計(jì)分析器等的工具等等;CH32.確定DW的開發(fā)目標(biāo)和實(shí)現(xiàn)范圍CH393確定DW數(shù)據(jù)的規(guī)模。
其他目標(biāo)還有:根據(jù)需求確定數(shù)據(jù)的含義,確定DW的類型,確定DW的功能,確定元數(shù)據(jù)的數(shù)量,確定數(shù)據(jù)源的使用,……。可見,DW的目標(biāo)非常繁多復(fù)雜,需開發(fā)人員與用戶不斷交流來確定。CH3確定DW數(shù)據(jù)的規(guī)模。CH394實(shí)現(xiàn)范圍:基于用戶的角度誰[人員/部門]使用DW;DW有哪些查詢——它們確定了概括、聚集、集成、重構(gòu)等的技術(shù)要求以及報(bào)表的種類等。基于技術(shù)的角度確定DW的元數(shù)據(jù)庫(kù)的規(guī)模——間接地確定了DW要管理的數(shù)據(jù)量。CH3實(shí)現(xiàn)范圍:CH3953.選擇DW的體系結(jié)構(gòu)一般基于DW的應(yīng)用結(jié)構(gòu)和DW的技術(shù)平臺(tái)結(jié)構(gòu)兩個(gè)方面來考慮。①DW的應(yīng)用結(jié)構(gòu)基于業(yè)務(wù)處理系統(tǒng)的DW——虛擬DW;單純DW(所有應(yīng)用都在DW中進(jìn)行);單純數(shù)據(jù)集市(部門級(jí)DW);DW與數(shù)據(jù)集市(最佳體系結(jié)構(gòu))。CH33.選擇DW的體系結(jié)構(gòu)CH396②DW的技術(shù)平臺(tái)結(jié)構(gòu)
單層結(jié)構(gòu)——數(shù)據(jù)源與DW共享平臺(tái)或數(shù)據(jù)源、DW、數(shù)據(jù)集市、最終用戶工作站使用同一平臺(tái);C/S結(jié)構(gòu);三層C/S結(jié)構(gòu)——包括基于工作站的客戶層、基于服務(wù)器的中間層、基于主機(jī)的第三層;多層式結(jié)構(gòu)——在三層結(jié)構(gòu)基礎(chǔ)上發(fā)展起來的,可多達(dá)五層(存儲(chǔ)層、服務(wù)層、查詢層、應(yīng)用層、客戶層)。CH3②DW的技術(shù)平臺(tái)結(jié)構(gòu)CH3974.建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算
使用方案——實(shí)際上是DW需求的一個(gè)重要的原型,體現(xiàn)了用戶參與的原則。
規(guī)劃預(yù)算——估算項(xiàng)目投資額,可根據(jù)以往軟件開發(fā)確定,或根據(jù)參照結(jié)構(gòu)估算。最后,要撰寫規(guī)劃說明書。CH34.建立DW使用方案和項(xiàng)目規(guī)劃預(yù)算CH398§3DW概念模型設(shè)計(jì)概念模型設(shè)計(jì)包括概念模型的需求調(diào)查、概念模型的定義、概念模型的分析以及概念模型的設(shè)計(jì)四個(gè)階段。1.概念模型的需求調(diào)查概念模型的需求調(diào)查,是以DW開發(fā)任務(wù)書(包括組織現(xiàn)狀、業(yè)務(wù)功能及范圍、組織發(fā)展的戰(zhàn)略、需決策支持的方面等)為基礎(chǔ)進(jìn)行的。CH3§3DW概念模型設(shè)計(jì)CH399調(diào)查對(duì)象包括組織中的DW項(xiàng)目負(fù)責(zé)人、知識(shí)用戶、信息用戶和信息管理人員。項(xiàng)目負(fù)責(zé)人——通過項(xiàng)目負(fù)責(zé)人在開發(fā)者和用戶之間進(jìn)行溝通,以確定用戶的信息需求、定義系統(tǒng)以及界定系統(tǒng)邊界。CH3調(diào)查對(duì)象CH3100對(duì)項(xiàng)目負(fù)責(zé)人的調(diào)查內(nèi)容包括:①組織的管理人員對(duì)信息的需求,比如,與任務(wù)說明書中業(yè)務(wù)需求相關(guān)的業(yè)務(wù)或事務(wù),相關(guān)的數(shù)據(jù)在哪個(gè)系統(tǒng)中,所需數(shù)據(jù)的年限,現(xiàn)行業(yè)務(wù)處理系統(tǒng)能否提供所需數(shù)據(jù)等。②用戶的有關(guān)情況,比如,誰是用戶?用戶如何使用DW?用戶是否擁有自己的計(jì)算機(jī)系統(tǒng)?是否使用了分析工具?用戶喜好的報(bào)表形式?等等。③DW成功因素的建議、希望DW做什么?CH3對(duì)項(xiàng)目負(fù)責(zé)人的調(diào)查內(nèi)容包括:CH3101知識(shí)用戶與信息用戶——主要調(diào)查信息的來源,包括:
①用戶承擔(dān)的工作及所需信息?信息的來源?信息處理方式?所在部門使用哪些信息系統(tǒng)?這些系統(tǒng)提供哪些分析信息?
②用戶使用什么樣的計(jì)算機(jī)系統(tǒng)?其中有哪些應(yīng)用程序?對(duì)這些程序的熟悉程度?③了解DW否?希望DW達(dá)到什么目的?如何衡量是否達(dá)到此目的?工作中尚未獲得哪些信息?④如何評(píng)價(jià)DW(同前)?CH3知識(shí)用戶與信息用戶CH3102信息管理人員
——主要調(diào)查組織所用的系統(tǒng)環(huán)境,比如組織有否DSS?其用戶是誰?提供什么支持信息?等等。可見,需求調(diào)查過程中,開發(fā)人員應(yīng)該關(guān)注的是管理決策中關(guān)于信息的需求、用戶的基本情況、用戶使用信息的情況,而非像業(yè)務(wù)處理系統(tǒng)開發(fā)那樣,向被調(diào)查人員詢問系統(tǒng)應(yīng)該具有哪些功能!CH3信息管理人員CH31032.概念模型的定義概念模型的定義,就是要確定系統(tǒng)的范圍及所涉及的對(duì)象——從所選擇的主題域出發(fā),確定基本需求的方向以及基本的數(shù)據(jù)需求(有別于功能驅(qū)動(dòng)的業(yè)務(wù)處理系統(tǒng),數(shù)據(jù)驅(qū)動(dòng)的DW設(shè)計(jì)之初,不能馬上知道用戶詳細(xì)的需求),從而界定DW大致的系統(tǒng)邊界,并形式地表示出來。CH32.概念模型的定義CH3104例——某超市的DW設(shè)計(jì)日趨激烈的競(jìng)爭(zhēng)環(huán)境,要求決策者能夠更準(zhǔn)確地了解超市的經(jīng)營(yíng)狀況,跟蹤市場(chǎng)趨勢(shì),制定合理的采購(gòu)與銷售策略。之前由于業(yè)務(wù)需求,已建立了若干業(yè)務(wù)處理系統(tǒng),如人事、庫(kù)存、銷售、采購(gòu)等。由于這些業(yè)務(wù)處理系統(tǒng)各自為政,缺乏全局性,因此,難以從中進(jìn)行全局性的分析工作并獲取相關(guān)報(bào)表。所以,決策者決定建立一個(gè)DW。[明確決策需求,進(jìn)一步確定所需信息]CH3例——某超市的DW設(shè)計(jì)CH3105①DW用戶的決策分析基于開發(fā)DW的初衷,超市決策者迫切希望掌握超市的庫(kù)存情況和銷售情況。為制定一個(gè)營(yíng)銷策略,決策者要進(jìn)行以下分析:超市促銷效果,客戶購(gòu)買趨勢(shì),商品供應(yīng)市場(chǎng)變化趨勢(shì)以及供應(yīng)商和客戶的信用等級(jí)等。②支持決策的數(shù)據(jù)需求分析為完成上述分析,決策者需要促銷策略數(shù)據(jù)、采購(gòu)數(shù)據(jù)、庫(kù)存數(shù)據(jù)、客戶及供應(yīng)商數(shù)據(jù)等。CH3①DW用戶的決策分析CH3106③數(shù)據(jù)需求分析工具常用的工具有:用戶信息需求表、CRUD矩陣、業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲(chǔ)表等。用于描述用戶的信息需求狀況以及信息的詳細(xì)程度。CH3③數(shù)據(jù)需求分析工具用于描述用戶的信息需求狀況以及信107用于描述高層模型中每個(gè)實(shí)體產(chǎn)生、引用、更新以及刪除的情況。CH3用于描述高層模型中每個(gè)實(shí)體產(chǎn)生、引用、更新以及刪除的108用于描述DW數(shù)據(jù)源的物理狀況。CH3用于描述DW數(shù)據(jù)源的物理狀況。CH31093.概念模型的分析概念模型主要在設(shè)計(jì)者與用戶之間交流對(duì)業(yè)務(wù)過程的認(rèn)識(shí),一般用ER圖表示,仍以超市為例——考慮決策者的分析需求,確定超市DW的三個(gè)基本主題域:銷售主題、商品主題和客戶主題,則其概念模型如下:CH33.概念模型的分析CH3110給出每個(gè)主題的屬性后,便得到完整的概念模型了:CH3給出每個(gè)主題的屬性后,便得到完整的概念模型了:CH31114.概念模型的設(shè)計(jì)以概念模型的分析結(jié)果以及概念模型的定義中收集到的數(shù)據(jù)為基礎(chǔ),完成星形或雪花模型的設(shè)計(jì)。前面的ERD只適合于業(yè)務(wù)處理系統(tǒng)的設(shè)計(jì)而不能用于DW的設(shè)計(jì)。實(shí)際中,選取星形模型還是雪花模型取決于用戶的決策分析需求。CH34.概念模型的設(shè)計(jì)CH3112CH3CH3113CH3CH31145.概念模型文檔與評(píng)審概念模型設(shè)計(jì)文檔——主要包括DW開發(fā)需求分析報(bào)告、概念模型分析報(bào)告、概念模型以及概念模型評(píng)審報(bào)告。概念模型的評(píng)審——DW開發(fā)中經(jīng)常出現(xiàn)這類的階段性評(píng)審[好處?]。概念模型的評(píng)審主要用于確定概念模型是否準(zhǔn)確、完整地描述了用戶的決策分析環(huán)境。CH35.概念模型文檔與評(píng)審CH3115概念模型的評(píng)審人員——DW項(xiàng)目負(fù)責(zé)人、DW分析人員、DW設(shè)計(jì)人員、DW用戶,一般限制在十人以下。概念模型的評(píng)審內(nèi)容——評(píng)審資料有:DW開發(fā)任務(wù)書,用戶信息需求表,DW主題說明書,ERD,概念模型設(shè)計(jì)成果(星形模型或雪花模型);——評(píng)審標(biāo)準(zhǔn):是否真實(shí)反映了開發(fā)DW的目的,信息需求表準(zhǔn)確否,DW的主題全面否,ERD、星形/雪花模型是否如實(shí)反映了用戶的決策分析環(huán)境等。CH3概念模型的評(píng)審人員CH3116§4DW邏輯模型設(shè)計(jì)邏輯模型是物理模型和概念模型之間的橋梁,它與DW物理實(shí)現(xiàn)時(shí)所使用的數(shù)據(jù)庫(kù)相關(guān)——大多為RDBMS,故此,邏輯模型主要采用的是關(guān)系模型——利用關(guān)系模型不僅可以設(shè)計(jì)指標(biāo)實(shí)體,還可以設(shè)計(jì)維實(shí)體以及詳細(xì)類別實(shí)體。CH3§4DW邏輯模型設(shè)計(jì)CH3117邏輯模型設(shè)計(jì)的內(nèi)容主要有:1.分析主題域5.定義DW的實(shí)體
2.確定粒度層6.定義DW的數(shù)據(jù)
次以及聚集
抽取模型3.確定數(shù)據(jù)7.DW元數(shù)據(jù)模型
分割策略
的建立與應(yīng)用
4.定義關(guān)系模型8.評(píng)審邏輯模型CH3邏輯模型設(shè)計(jì)的內(nèi)容主要有:CH31181.分析主題域數(shù)據(jù)倉(cāng)庫(kù)的建立是一個(gè)循環(huán)的過程——一般每次循環(huán)建立建立一個(gè)/幾個(gè)主題域。超市DW概念模型中,確立了三個(gè)基本主題域(商品、銷售、客戶)——經(jīng)分析可發(fā)現(xiàn),其中銷售是超市的基本業(yè)務(wù),也是進(jìn)行決策分析的主要領(lǐng)域,因此,決定首先建立并實(shí)施銷售主題域。CH31.分析主題域CH3119
一旦定義了主題域,也就確定了DW的邏輯模型,進(jìn)一步要詳細(xì)描述該模型中主題的所有屬性,以便確定系統(tǒng)相關(guān)的行為和存儲(chǔ)結(jié)構(gòu)——如下圖所示。CH3一旦定義了主題域,也就確定了DW的邏輯模型,進(jìn)一步要1202.確定粒度層次以及聚集粒度層次及聚集的確定,要參照第二章§6和§7中介紹的原則和方法——無非是確定單一還是多重粒度,及常用的聚集等。對(duì)于超市的銷售主題,采用多重粒度較為適宜,考慮到銷售記錄數(shù)量的龐大,以及對(duì)銷售的分析以銷售統(tǒng)計(jì)以及銷售趨勢(shì)分析為主,商品銷售數(shù)據(jù)的綜合層次可以分為每種商品的周、月、季統(tǒng)計(jì)銷售數(shù)據(jù),每小類商品的周、月、季統(tǒng)計(jì)銷售數(shù)據(jù)等。CH32.確定粒度層次以及聚集CH31213.確定數(shù)據(jù)分割策略數(shù)據(jù)分割——把邏輯上整體的數(shù)據(jù)分割成較小的、可獨(dú)立管理的物理單元進(jìn)行存儲(chǔ),以便于數(shù)據(jù)的重構(gòu)、重組和恢復(fù),并提高建立索引和順序掃描的效率。數(shù)據(jù)分割,必需在邏輯模型設(shè)計(jì)中完成(為什么?),它可以采用單一標(biāo)準(zhǔn)(比如季節(jié))或組合標(biāo)準(zhǔn)(如,按季節(jié)+業(yè)務(wù)類型)進(jìn)行分割。采用什么樣的分割標(biāo)準(zhǔn),一般考慮以下三個(gè)因素:CH33.確定數(shù)據(jù)分割策略CH3122數(shù)據(jù)量——主要因素。數(shù)據(jù)量小,可不分割或用單一標(biāo)準(zhǔn)分割;數(shù)據(jù)量大,則要用組合標(biāo)準(zhǔn)細(xì)致地分割。數(shù)據(jù)處理對(duì)象——與主題域相關(guān),比如,商品主題可以用商品種類、商品小類、時(shí)間標(biāo)準(zhǔn)分割,而供應(yīng)商主題則更多地用地址和時(shí)間標(biāo)準(zhǔn)進(jìn)行分割。(思考:為什么?)CH3數(shù)據(jù)量CH3123粒度分割的策略——數(shù)據(jù)分割標(biāo)準(zhǔn)必需要與粒度層次統(tǒng)一起來。比如,假如商品主題關(guān)于商品銷售數(shù)據(jù)的粒度是按日期和商品類別進(jìn)行劃分的,那么,在每一粒度層次上的數(shù)據(jù),就要按日期和商品類別的組合標(biāo)準(zhǔn)進(jìn)行分割,以便于將來在日期和類別方面綜合為更高層次粒度的數(shù)據(jù)。CH3粒度分割的策略CH3124超市DW中,如果決策者經(jīng)常關(guān)心的問題是商品在某個(gè)季節(jié)的銷售情況,則,可以考慮按照季節(jié)(日期)進(jìn)行分割,因?yàn)椋孩俪蠨W是按日期順序獲取數(shù)據(jù)的;②DW中數(shù)據(jù)的綜合常常是在日期維上進(jìn)行的。當(dāng)然,也可以考慮用業(yè)務(wù)類型、地理位置等標(biāo)準(zhǔn)進(jìn)行分割。CH3超市DW中,如果決策者經(jīng)常關(guān)心的問題是商品在某個(gè)季節(jié)1254.定義關(guān)系模型由于DW一般都是在RDBMS上實(shí)現(xiàn)的,因此不論概念模型是E-R模型、星形模型還是雪花模型,都要轉(zhuǎn)換為關(guān)系模型。
指標(biāo)實(shí)體轉(zhuǎn)換后,可能形成多個(gè)關(guān)系(事實(shí)表),這些關(guān)系,通過公共碼鍵聯(lián)系在一起;當(dāng)然,還要?jiǎng)?chuàng)建相應(yīng)的維表、詳細(xì)類別表。事實(shí)表通過外鍵與它們建立聯(lián)系。CH34.定義關(guān)系模型CH3126例:超市客戶的邏輯模型轉(zhuǎn)換后包括以下各表:客戶基本情況表(賬號(hào)int9,……),客戶變動(dòng)情況表(賬號(hào)int9,……),商品交易情況表(賬號(hào)int9,……),服務(wù)交易情況表(賬號(hào)int9,……),客戶反饋記錄表(賬號(hào)int9,……),客戶信用狀況表(賬號(hào)int9,……)等。這些表,通過公共碼鍵——賬號(hào)關(guān)聯(lián)在一起。CH3例:超市客戶的邏輯模型轉(zhuǎn)換后包括以下各表:CH31275.定義DW的實(shí)體邏輯模型設(shè)計(jì)中,不僅要確定實(shí)體、實(shí)體間的關(guān)系和實(shí)體具有的列,還要進(jìn)一步確定主鍵列、候選鍵列以及外鍵列等,它們可以由一列或多列組成。此外,還要確定各個(gè)實(shí)體中的列是否可以為空值——一般,主鍵/候選鍵/外鍵不能為空。最后,還要給出每個(gè)實(shí)體所有列的具體特性以及實(shí)體的容量和數(shù)據(jù)更新頻率。CH35.定義DW的實(shí)體CH3128CH3CH3129CH3CH31306.定義DW的數(shù)據(jù)抽取模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)抽取模型由數(shù)據(jù)抽取流程圖和若干種表構(gòu)成。設(shè)計(jì)數(shù)據(jù)抽取模型的目的是建立DW的數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)和加載(Load)系統(tǒng),即ETL系統(tǒng)。數(shù)據(jù)抽取模型的建立,主要包括四個(gè)方面的工作:數(shù)據(jù)抽取處理流程圖,DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃,DW的清理數(shù)據(jù)轉(zhuǎn)換方法,DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型。CH36.定義DW的數(shù)據(jù)抽取模型CH3131①數(shù)據(jù)抽取處理流程數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)抽取是傳統(tǒng)的數(shù)據(jù)處理流程,其輸入是各種業(yè)務(wù)處理系統(tǒng)DB,輸出是DW數(shù)據(jù)。
根據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式及相應(yīng)的規(guī)則進(jìn)行處理。CH3①數(shù)據(jù)抽取處理流程根據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)132②DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃該計(jì)劃,是關(guān)于DW從數(shù)據(jù)源中抽取、轉(zhuǎn)換和加載的工作計(jì)劃。制定該計(jì)劃時(shí),要考慮相關(guān)的影響因素并確定對(duì)應(yīng)的對(duì)策。A.影響因素?cái)?shù)據(jù)格式——多數(shù)據(jù)源,統(tǒng)一格式;壞數(shù)據(jù)——丟失、失效、改不正確的數(shù)據(jù);系統(tǒng)的兼容性——不同業(yè)務(wù)處理系統(tǒng)間的兼容;CH3②DW的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計(jì)劃CH3133數(shù)據(jù)源的變化——數(shù)據(jù)源數(shù)據(jù)格式與結(jié)構(gòu)的變化;數(shù)據(jù)抽取的時(shí)間——避開業(yè)務(wù)處理系統(tǒng)的高峰期。B.對(duì)策面對(duì)上述影響因素,要明確抽取什么數(shù)據(jù)(抽取方式)?何時(shí)抽取?何處抽取?抽取方式
全庫(kù)比較——當(dāng)前瞬間的狀態(tài)與上次抽取時(shí)的狀態(tài)比較,找出增量文件;CH3數(shù)據(jù)源的變化CH3134利用程序日志——在業(yè)務(wù)系統(tǒng)中,用程序把發(fā)生變化的數(shù)據(jù)記下來,形成增量文件;利用數(shù)據(jù)庫(kù)日志——檢查DB運(yùn)行日志以確定增量文件;利用時(shí)間戳——在記錄中增加時(shí)間戳(會(huì)增加業(yè)務(wù)處理系統(tǒng)的開銷);CH3利用程序日志CH3135利用位圖索引——在數(shù)據(jù)源的記錄中增加一個(gè)位圖索引字段,其取值為:沒變化/修改過/修改中。抽取時(shí)間兩種方法——基于時(shí)間的抽取和基于事件的抽取。抽取地點(diǎn)即抽取過程的運(yùn)行之處——在數(shù)據(jù)源還是數(shù)據(jù)倉(cāng)庫(kù)中。CH3利用位圖索引CH3136③DW的數(shù)據(jù)清理轉(zhuǎn)換方法數(shù)據(jù)清理與轉(zhuǎn)換用來解決數(shù)據(jù)源和DW的數(shù)據(jù)格式不一致性的問題,其方法有:類型轉(zhuǎn)換——將相同含義不同格式的數(shù)據(jù)轉(zhuǎn)換成相同格式的數(shù)據(jù);串操作——將兩個(gè)以上列的值裁剪、連接為一個(gè)新值;關(guān)鍵字翻譯——數(shù)據(jù)源關(guān)鍵字到DW關(guān)鍵字的映射;CH3③DW的數(shù)據(jù)清理轉(zhuǎn)換方法CH3137
數(shù)學(xué)函數(shù)——用數(shù)學(xué)函數(shù)根據(jù)數(shù)據(jù)源計(jì)算出結(jié)果作為DW的數(shù)據(jù);參照完整性——數(shù)據(jù)加載到DW時(shí),要確定這些數(shù)據(jù)是否已經(jīng)在DW中了;
聚集運(yùn)算——在數(shù)據(jù)加載到DW過程中,計(jì)算之前確定了的大量的概括、聚集數(shù)據(jù),以減少數(shù)據(jù)I/O的開銷。CH3數(shù)學(xué)函數(shù)CH3138④DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型包括以下四個(gè)方面的工作:數(shù)據(jù)源分析——數(shù)據(jù)倉(cāng)庫(kù)主題所需各個(gè)數(shù)據(jù)源的詳細(xì)情況,包括所在的計(jì)算機(jī)平臺(tái)、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用該數(shù)據(jù)源的處理過程、DW的更新計(jì)劃等;——分析DW中的每個(gè)列及其在數(shù)據(jù)源(業(yè)務(wù)處理系統(tǒng)或外部數(shù)據(jù)源)中的數(shù)據(jù)來源的情況;CH3④DW的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型CH3139上述分析過程中,要利用數(shù)據(jù)抽取規(guī)則確定從哪些數(shù)據(jù)源抽取哪些數(shù)據(jù),這些數(shù)據(jù)基于哪些數(shù)據(jù)平臺(tái)等,并形成數(shù)據(jù)源抽取對(duì)象表:CH3上述分析過程中,要利用數(shù)據(jù)抽取規(guī)則確定從哪些數(shù)據(jù)源抽140數(shù)據(jù)抽取條件分析分析所抽取的數(shù)據(jù)應(yīng)滿足哪些條件——可能是來自于不同表的復(fù)合條件,并形成數(shù)據(jù)源抽取規(guī)則表:CH3數(shù)據(jù)抽取條件分析CH3141
數(shù)據(jù)清理分析清理工作包括數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)類型統(tǒng)一或者匯總或聚集處理等,并形成目標(biāo)表列與數(shù)據(jù)源表列的對(duì)應(yīng)關(guān)系表:CH3數(shù)據(jù)清理分析CH3142
數(shù)據(jù)的排序、概括和導(dǎo)出處理給出以下兩種表:CH3數(shù)據(jù)的排序、概括和導(dǎo)出處理CH3143CH3CH31447.DW元數(shù)據(jù)模型的建立與應(yīng)用元數(shù)據(jù)模型的作用在于指導(dǎo)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的抽取、清理和加載過程以及引導(dǎo)用戶使用數(shù)據(jù)倉(cāng)庫(kù)。元數(shù)據(jù)模型的建立貫穿于DW的規(guī)劃到應(yīng)用的整個(gè)過程。元數(shù)據(jù)模型的建立需要在多個(gè)DW生命周期的循環(huán)——即螺旋式開發(fā)過程中完成,其建立與應(yīng)用過程如下圖所示。CH37.DW元數(shù)據(jù)模型的建立與應(yīng)用CH3145CH3CH3146其中,各個(gè)步驟的內(nèi)容如下:⑴利用某種建模工具創(chuàng)建DW模型的過程中,需要從業(yè)務(wù)處理系統(tǒng)中提取元數(shù)據(jù),并建立DW的邏輯模型和物理模型——包括DW的邏輯名稱、業(yè)務(wù)名稱、列名、物理列名、業(yè)務(wù)術(shù)語(yǔ)和描述、查詢的樣值及提示等,并把它們存放在元數(shù)據(jù)目錄中;⑵在DW中添加數(shù)據(jù)加載的元數(shù)據(jù)——關(guān)于DW數(shù)據(jù)源的描述,完成數(shù)據(jù)“來源定義”;CH3其中,各個(gè)步驟的內(nèi)容如下:CH3147⑶利用數(shù)據(jù)加載工具提取DW中各種表的定義,并完成源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射的定義,捕捉所有轉(zhuǎn)換信息;⑷把上述源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的映射和轉(zhuǎn)換存儲(chǔ)到元數(shù)據(jù)目錄中;⑸把數(shù)據(jù)加載到DW時(shí),需從元數(shù)據(jù)目錄中找到有關(guān)源數(shù)據(jù)的類型和位置、目標(biāo)數(shù)據(jù)的類型和位置以及兩者間的映射;CH3⑶利用數(shù)據(jù)加載工具提CH3148⑹數(shù)據(jù)加載前,要檢查DW中物理狀態(tài)的最新信息,如磁盤空間等;⑺利用元數(shù)據(jù)提取數(shù)據(jù)的同時(shí),根據(jù)提取的源數(shù)據(jù)狀況,提取元數(shù)據(jù),如數(shù)據(jù)提取時(shí)間、數(shù)據(jù)源的變化等;⑻將提取的源數(shù)據(jù)經(jīng)清理、轉(zhuǎn)換后加載到DW中;⑼加載中,將捕捉到的加載統(tǒng)計(jì)信息和審核信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年?duì)I養(yǎng)師基礎(chǔ)知識(shí)考核試卷:營(yíng)養(yǎng)與免疫力試題
- 2025年西式面點(diǎn)師實(shí)操考核試卷題庫(kù)
- 2025年美發(fā)師實(shí)操技能考核試卷(中級(jí))
- 2025年勞動(dòng)保障協(xié)理員(初級(jí))考試試卷:勞動(dòng)保障法律法規(guī)與社會(huì)保障制度比較研究
- 2025年西式面點(diǎn)師實(shí)操考核試卷:西式面包烘焙時(shí)間管理
- 2025年攝影師職業(yè)技能鑒定試卷:攝影器材租賃市場(chǎng)分析報(bào)告撰寫試題
- 電商培訓(xùn)招生管理制度
- 知名公司企業(yè)管理制度
- 工廠行人員管理制度
- 事務(wù)所財(cái)務(wù)管理制度
- 2025海南中考:歷史必考知識(shí)點(diǎn)
- 道路工程平移合同協(xié)議
- 2025年二十大黨章試題庫(kù)
- 尺骨骨折護(hù)理課件
- 處世奇書《解厄鑒》全文譯解
- 導(dǎo)彈的介紹教學(xué)課件
- 續(xù)簽采購(gòu)合同范本(標(biāo)準(zhǔn)版)
- 肺癌介入治療進(jìn)展
- GB/T 3091-2025低壓流體輸送用焊接鋼管
- 2025年上半年江蘇常州大學(xué)一般管理崗和專技崗招聘37人重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解
- 2025春國(guó)開《金融基礎(chǔ)》形考任務(wù)1-5答案
評(píng)論
0/150
提交評(píng)論