數據處理教案_第1頁
數據處理教案_第2頁
數據處理教案_第3頁
數據處理教案_第4頁
數據處理教案_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據處理教案引言:根據高專中專部安排,由我帶10級綜合班的數據處理課和Office辦公自動化課,根據教學的要求,特寫此教案,該教案分為5部分,第一部分介紹數據處理定義,結構,常用軟件;第二部分計算機基礎;第三部分介紹Excel數據處理;第四部分介紹常用數據庫(access、sql語句),第四部分介紹簡單的關系數據庫、數據建模等;第五部分介紹簡單的數據處理、報表制作等。第一部分數據處理定義,結構數據處理定義教學目的:通過對數據處理的定義使學生明白,在當今的社會,數據是如何的重要,數據處理在現代社會中起到什么樣的作用。教學內容:重點是數據處理的定義,難點為如何看待數據和信息的關系,模糊數據和數字數據的區別教學方法:口述與上機教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數據處理常用軟件。1.1.1數據處理定義數據處理是對數據的采集、存儲、檢索、加工、變換和傳輸。數據是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數據的形式可以是數字、文字、圖形或聲音等。數據經過解釋并賦予一定的意義之后,便成為信息。數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取并推導出對于某些特定的人們來說是有價值、有意義的數據。數據處理是系統工程和自動控制的基本環節。數據處理貫穿于社會生產和社會生活的各個領域。數據處理技術的發展及其應用的廣度和深度,極大地影響著人類社會發展的進程1.1.2數據處理軟件數據處理離不開軟件的支持,數據處理軟件包括:用以書寫處理程序的各種程序設計語言及其編譯程序,管理數據的文件系統和數據庫系統,以及各種數據處理方法的應用軟件包。為了保證數據安全可靠,還有一整套數據安全保密的技術。1.1.3數據處理方式根據處理設備的結構方式、工作方式,以及數據的時間空間分布方式的不同,數據處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應當根據應用問題的實際環境選擇合適的處理方式。數據處理主要有四種分類方式①根據處理設備的結構方式區分,有聯機處理方式和脫機處理方式。②根據數據處理時間的分配方式區分,有批處理方式、分時處理方式和實時處理方式。③根據數據處理空間的分布方式區分,有集中式處理方式和分布處理方式。④根據計算機中央處理器的工作方式區分,有單道作業處理方式、多道作業處理方式和交互式處理方式。1.1.4數據處理加工數據處理對數據(包括數值的和非數值的)進行分析和加工的技術過程。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。比數據分析含義廣。隨著計算機的日益普及,在計算機應用領域中,數值計算所占比重很小,通過計算機數據處理進行信息管理已成為主要的應用。如側繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術情報管理、辦公室自動化等。在地理數據方面既有大量自然環境數據(土地、水、氣候、生物等各類資源數據),也有大量社會經濟數據(人口、交通、工農業等),常要求進行綜合性數據處理。故需建立地理數據庫,系統地整理和存儲地理數據減少冗余,發展數據處理軟件,充分利用數據庫技術進行數據管理和處理。1.1.5數據清洗有關商務網站的數據處理:由于網站的訪問量非常大,在進行一些專業的數據分析時,往往要有針對性的數據清洗,即把無關的數據、不重要的數據等處理掉。接著對數據進行相關分分類,進行分類劃分之后,就可以根據具體的分析需求選擇模式分析的技術,如路徑分析、興趣關聯規則、聚類等。通過模式分析,找到有用的信息,再通過聯機分析(OLAP)的驗證,結合客戶登記信息,找出有價值的市場信息,或發現潛在的市場。第二節數據處理結構教學目的:通過對數據處理結構的介紹使學生明白數據倉庫、數據集市與數據挖掘的關系。教學內容:重點是數據倉庫的圖像理解,難點也是數據倉庫整體結構的理解。教學方法:口述與上機教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數據倉庫案例。1.2.1商業智能在中國的發展機會(數據處理)商業智能就像幾年前的ERP(企業資源管理)一樣,正成為企業首席技術官們關注的焦點,呈現如火如荼的發展態勢。眾所周知,在ERP等基礎信息系統部署完之后,企業能夠對其業務數據進行更為有效的管理,于是如何利用這些數據創造價值成為企業下一步思考的問題。商業智能系統已經作為一種含金量極高的管理工具,融合在部分大型企業管理文化的血脈之中了。商業智能在幫助企業管理層發現市場機會、創造競爭新優勢的作用顯而易見,因此成為企業信息化的新寵也是必然的。

商業智能軟件市場穩步增長從全球范圍來看,商業智能領域并購不斷,商業智能市場已經超過ERP和CRM(客戶關系管理)成為最具增長潛力的領域。從中國市場來看,商業智能已經被電信、金融、零售、保險、制造等行業越來越廣泛地應用,操作型商業智能逐步在大企業普及,商業智能不局限于高層管理者的決策之用,也日益成為普通員工日常操作的工具。

不過,盡管這個市場潛力巨大,但仍有不少的現實情況導致這一市場的發育沒有大家預期中的那么好。首先一點,國內的成熟、專業的商業智能實施顧問較少,不但上游廠商的相關人才少,下游負責實施的渠道合作伙伴更是缺乏相關人才,很多時候用戶要啟用商業智能工具,但是不太明確自己的需求,負責實施的人很多時候也是一知半解,不能給用戶很好的解決方案;其次,目前多數商業智能廠商,尤其是國外廠商都是通過分公司或辦事處來銷售的,而未來國內制造業企業多數需要本地化服務,這種模式必將改變。同時,商業智能系統的銷售、服務要求代理商要有很強的能力,如何選擇、培養、發展這些代理商將是商業智能大發展面臨的一個很重要問題。

SaaS將成為重要交付模式同時,商業智能系統的核心不是平臺,而是模型。目前,由于國內應用商業智能的企業并不多,應用深入的更少,應用基礎也比較薄弱,即使拿來國外先進的商業模型也不一定能運轉起來,所以盡快建立各種適合國內企業特色的模型是各服務商未來要加大投入著力解決的。當然,對企業而言,商業智能的有效應用,離不開數據的支持。如果沒有準確的數據,那么所要分析產生的報表、決策都與事實存在差距,將會導致整個決策的錯誤,因此,必須要求前期的數據準確。

最后,隨著云計算的大規模普及,下一代商業智能的精細分析系統很可能會建設在動態的基礎架構上,而虛擬化、云計算等技術的發展也會帶動商業智能系統的建設和應用,這就是“云智能”。我國企業需要抓住“云智能”機遇,加快發展、迎頭趕上,才能從容應對下一階段的全球化競爭。1.2.2數據倉庫技術的發展及體系結構1數據倉庫技術的發展及概念

傳統的數據庫技術是以單一的數據資源,即數據庫為中心,進行事務處理工作的。然而,不同類型的數據有著不同的處理特點,以單一的數據組織方式進行組織的數據庫并不能反映這種差異,滿足不了現代商業企業數據處理多樣化的要求。總結起來,當前的商、世企業數據處理可以大致地劃分為2大類:操作型處理和分析型處理。操作型處理也叫事務型處理,主要是為企業的特定應用服務的(這是目前最為常用的),分析型處理則用于商業企業管理人員的決策分析,這種需求既要求聯機服務,又涉及大量用于決策的數據,傳統的數據庫系統已經無法滿足,具體體現在:

1)歷史數據量大;

2)輔助決策信息涉及許多部門的數據,而不同系統的數據難以集成;

3)由于訪問數據的能力不足,它對大量數據的訪問能力明顯下降。

數據倉庫技術的出現為解決上述問題提供了新的思路。數據倉庫的創始人Inmon指出:“數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持經營管理中的決策制定過程”。它從大量的事務型數據中抽取數據,并將其清理、轉換為新的存儲格式,即為決策目標把數據聚合在一種特殊的格式中,作為決策分析的數據基礎,從而在理論上解決了從不同系統的數據庫中提取數據的難題。同時,利用聯機分析處理(OLAP)技術可以對數據倉庫提供的數據進行深入加工。

2企業數據倉庫的體系結構

一個典型的企業數據倉庫系統通常包含數據源、數據存儲與管理、OLAP服務器以及前端工具與應用4個部分。

1)數據源。

數據源是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放于企業操作型數據庫中(通常存放在RD-BMS中)的各種業務數據,外部信息包括各類法律法規、市場信息、競爭對手的信息以及各類外部統計數據及各類文檔等。

2)數據的存儲與管理。

數據的存儲與管理是整個數據倉庫系統的核心。在現有各業務系統的基礎上,對數據進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數據倉庫的物理存儲結構,同時組織存儲數據倉庫元數據(具體包括數據倉庫的數據字典、記錄系統定義、數據轉換規則、數據加載頻率以及業務規則等信息)。按照數據的覆蓋范圍,數據倉庫存儲可以分為企業級數據倉庫和部門級數據倉庫(通常稱為“數據集市”,DataMart)。數據倉庫的管理包括數據的安全、歸檔、備份、維護、恢復等工作。這些功能與目前的DBMS基本一致。

3)OLAP服務器。

對分析需要的數據按照多維數據模型進行再次重組,以支持用戶多角度、多層次的分析,發現數據趨勢。

4)前端工具與應用。

前端工具主要包括各種數據分析工具、報表工具、查詢工具、數據挖掘工具以及各種基于數據倉庫或數據集市開發的應用。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具既針對數據倉庫,同時也針對OLAP服務器。1.2.3商業智能(BI)落地需要的三大工具商業智能(后面簡稱BI)的各類角色用戶必須借助和使用工具實現其需求。BI角色分為業務、業務融合技術、技術這三類,對于其相應的應用需求(含演繹型和歸納型)和管控開發需求,需要借演繹型需求支撐工具和歸納型需求支撐工具,及管控開發型工具來予以實現。本篇先講述演繹型需求支撐的7種工具,其可分為描述統計工具、經營技術與方法、經濟預測方法與模型、OLAP分析、知識發現工具、專家系統以及決策方法與模型。管控開發支持型工具一般包括系統管理工具、開發工具;

筆者認為BI以認識論和組織理論為基本原理,采取相適宜的“工具”,旨在幫助“相關角色”對職責范圍內的“有關內容”做出最佳決定的整體解決方案。它由“三維模式”和“三層漏斗”組成,是輔助整個企業集理念,組織,流程,技術為一體的整體決策支持方案三維模式由角色維、內容維和工具維構成,體現了BI的主體、客體和工具等一般性原理。根據BI的定義,只有清晰劃分相關角色并據以確定需求,并借助工具才能實現BI輔助主體對職責范圍的有關事項做出最佳決定的宗旨。

BI的業務類角色、技術類角色以及業務融合技術類角色對應存在著業務應用需求(指業務類的演繹型需求和業務融合技術類的歸納型需求)和技術應用需求,即管控開發型需求。這種需求能否得以有效實現和提升,必須借助工具。針對三大類角色的兩種需求,BI的工具分為應用型支撐型工具和管控開發支持型工具。鑒于文章的范圍,硬件支撐工具的內容請參見相關書籍。

應用支撐工具可以分為描述統計工具、經營技術與方法、經濟預測方法與模型、OLAP分析、知識發現工具、專家系統以及決策方法與模型。管控開發支持型工具一般包括系統管理工具、開發工具。一般來說,這些工具以軟件包的形式形成產品。鑒于BI對于業務應用的重要作用及業務應用成功對BI的重要意義,本文著重分析BI的應用型支撐工具,并對有關產品作簡單介紹。

一、實現演繹型需求的7種工具

BI的演繹型內容可以分為三個層次:報表查詢、綜合分析、決策選擇討。如下圖所示,BI的演繹型需求通過描述性統計工具、報表與展示工具、經濟預測方法與模型、經營技術與工具、OLAP分析及專家系統工具、決策方法與模型來實現。

上圖中,描述性統計工具幫助用戶在報表查詢層次實現對事實的充分了解;綜合分析以邏輯的方式幫助相關主體尋求原因或對簡單問題直接獲得建議,需要運用經濟預測方法與模型、經營技術與工具及OLAP分析來得以實現。專家系統和決策方法與模型是實現定量和部分定性決策的有力工具。通過該類工具,用戶在決策選擇時通過評價各個方案的優劣來輔助主體選擇最優,得出結論。BI演繹型應用的三層次結構合理、有步驟地解決了前提、邏輯規則和結論這一演繹型思維方法的遷移應用。(一)描述性統計工具

統計的基本意義在于利用統計指標,通過指標值的對比關系和發展變化來研究社會經濟現象的數量和數量關系,表明其變化發展的過程、結果及其規律。作為統計學兩大基本內容之一的描述性統計是整個統計學的基礎和統計研究工作的第一步,它包括數據的收集、整理、顯示,對數據中有用信息的提取和分析,而對變量的集中趨勢和離中趨勢的分析則是其主要內容。描述性統計工具指為實現相關主體對基本事實了解的需求而需利用基本指標。這些基本統計指標包括總量指標、相對指標、平均指標和變異指標。

總量指標:表明具體社會經濟現象總體的規模、水平或工作總量的數值,是計算各種派生指標的基礎。如某集團公司年銷量即是總量指標。它可分為總體單位總量、總體標志總量和時期總量(如某個事業部門的總銷量)、時點總量(如月末庫存)。總量指標可通過直接計算和間接計算求出。

相對指標:表明兩個互有聯系的社會、經濟現象之間數量對比關系的統計指標。如競爭企業之間庫存周轉率的對比,或行業內某企業銷量與行業總銷量的對比等等;常用的同比和環比也是相對指標的運用。相對指標反映了社會經濟現象的實質及其數量的對比關系,從現象間數量對比關系中清晰地認識事物。其次,可使原來無法直接比較的現象,找到共同的基礎進行科學地對比分析。相對指標又包括:計劃完成程度指標、結構相對指標(高中低檔產品利潤在全部利潤中的各自占比)、比例相對指標(產品A與產品B的對比)、比較相對指標(某企業銷量增長率與競爭企業銷量增長率的對比)、強度相對指標(如煙草行業銷售情況中條/人指標的對比)、動態相對指標(如歷年的銷售額的比較)。運用時,要正確選擇對比的基數、確定可比的對比指標、相對指標要與對比基數結合使用。

平均指標:反映同質總體內各單位某一數量標志的一般水平,可以對比總體的一般水平,如分公司年平均銷量與總公司平均銷量的對比,可以進行數量上的推算和預測。平均指標有算術平均數、調和平均數(較少用,主要用于已知標志總量而不知單位總量的情況)、幾何平均數(一般用于計算平均發展速度)、眾數(一組序列中出現次數最多的數)、中位數(按大小順序排列的數據中處于中間的數)五種。使用平均數時要與變異指標結合使用,有時需要用組平均數補充總體平均數。

標志變異指標:說明總體各單位某一標志數值差異程度,通過變異指標可以揭示被平均指標掩蓋了的差異情況,也可作為衡量平均指標代表性的尺度。可分為:全距、平均差、標準差、標志變異系數。全距是標志值最大值與最小值之差,如20XX年某產品在全國各省中最高銷量與最低銷量之差;平均差是各個標志值與總體算術平均數的離差的絕對值。標準差為各個標志值與總體算術平均數的離差的平方和的正平方根,其值越大表明差異越大,平均值不能很好代表一般水平;標準差與算術平均數的比值稱為標志變異系數,用以兩個平均數指標不相等時的對比。

描述性統計工具在當前BI的行業應用中非常普遍。值得關注的是,當前一般BI的報表查詢應用涉及更多是描述性統計的總量指標、平均指標和比較指標,而對于描述離中趨勢的標志變異指標運用得相當不夠。事實上,標志變異指標可以解決BI的應用主體很多實質性問題,比如在眾多品牌中找到銷量不穩定的品牌,在眾多客戶中找到交易額波動大的客戶,這些信息為BI的應用有關主體在研發、生產、采購、銷售、庫存方面起到較為關鍵的作用。

(二)報表與展示工具

以報表應用類別區分,BI系統能利用報表與展示工具來生成統計報表和查詢報表。查詢報表較為簡單,根據用戶的需求可以較容易地定制。由于中國式統計報表眾多的表頭項以及表頭中首格的一重甚至多種斜線的特征,甚至在表頭項中又切分子表頭的復雜情況,致使生成統計報表較為困難。國外的BI產品在生成統計報表方面和國內的某些產品相比,如水晶報表,操作過程較繁鎖。對于報表的展示,一是產生表格,二是產生與表格對應的圖形,如曲線圖、柱形圖、三維圖等。一般來說,要求報表與圖形連動。即當報表數據發生變動時,圖形跟著變動。或者相反,圖形的變動要帶來報表數據的變動。這是在鉆取時較容易產生的情況。如SAS的BusinessIntelligence和BO的圖形互動功能都能實現此種需求。

報表與展示工具注重實現報表的靈活性,更強調圖形展示的美觀、圖形色彩的模板化定,強調圖形種類的多樣。這是BI工具的基本功能。前兩年大家談到BI時,更容易評判到某個廠家的BI的界面制作的是否美觀等等,這是當時人們對BI應用認識不夠造成的。現在廠家在宣傳BI時,不僅注重更深層次的綜合分析功能和預測、決策功能,更擴大到數據集成與整合,數據存儲和元數據管理等全套BI平臺上。

(三)經濟預測方法與模型

經濟預測方法與模型是統計學中統計推斷部分的運用,復雜且靈活。它是BI在綜合分析層次上的應用。該方法滿足業務類用戶展望未來的需求。統計推斷一般包括參數估計、假設檢驗以及分類與選擇。經濟預測方法是參數估計的應用推廣,包含了點估計和參數估計,如某上時間段銷量的預測值,或者預測值所處的區間。經濟預測模型是在預測方法的指導下,根據行業的實際經過修正后建立的預測模型。

定量的預測方法實戰中可以建立很多模式,此處以時間序列預測為主簡要介紹經濟預測方法與模型的運用。

時間序列預測法是動態分析法的一種運用。動態分析法是在統計研究中,把經濟現象在不同時間上的數量進行對比,以了解現象變動的方向、速度、趨勢和規律,并據此預測未來的方法。動態趨勢分析與預測是動態分析法的重要用途。時間序列是動態分析研究的一個主要方面,其前提是編制時間序列,并形成時間序列預測法。當前時間序列有100種左右的預測方法,但其基本方法一般包括簡單平均、移動平均、指數平滑、最小二乘等,可以運用到直線趨勢預測和曲線趨勢預測方面。時間序列影響時間序列的值變化的四種因素:趨勢變動、季節變動、循環變動、不規則變動,循環變動在短期預測中通常不考慮。將這四個因素從時間序列值中分解出來的方法稱為分解分析法。如2月份在某地的某品牌白酒銷量為60箱,通過分解技術,可獲知趨勢變動(平均水平與增長勢頭)的影響值為40,中秋的季節變動影響值為15,但不規則變動影響值是5,所以即銷量為60。時間序列預測的基本方法結合上述四種因素并運用到直線預測和曲線預測中,就形成了近100種的具體預測方法,如加權平均,加權移動平均、溫特斯法等。溫特斯法是以指數平滑法為基本模型,結合季節因素并運用到直線趨勢中而形成的季節直線趨勢和季節變動指數平滑模型。下圖分別是直線趨勢和曲線趨勢預測的結果。1.2.4數據倉庫架構的建立

每一個數據倉庫有一個架構。這架構要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數據倉庫開發時并沒有一個明確的架構,這極大的限制了它的靈活性。在沒有架構的情況下,主題區域就無法契合在一起,它們之間的連接變得無目的,并且使整個數據倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數據倉庫的架構已成為選擇工具時的框架。

讓我們把開發一個數據倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術規范、和在多個層次細節上顯示這個房子將如何進行建造的標準。當然,針對房子的各種子系統要有不同版本的藍圖,如管道工程、電氣、暖通空調系統(HVAC)、通信、和空間。針對所有的家用的設備也有相應的標準,包括插頭、燈具、衛生潔具、門的尺寸等。

對于數據倉庫,架構是對數據倉庫的元素和服務的一種描述,用具體細節說明各種組件如何組合在一起,和隨著時間的推移系統將如何地發展。就像這房子的比喻,數據倉庫架構是一套文件、計劃、模型、圖紙和規范,針對每個關鍵的組件區域有獨立的分區,并且足夠詳細到讓專業技術人員可以實施它們。

這并是一個需求文件。需求文件說明架構需要做些什么。數據倉庫架構也不是一個項目計劃或任務清單;它說明數據倉庫是什么,而不是怎么去做或為什么去做。

一個數據倉庫的開發也并不容易,因為相對于房屋的5000年建筑史,我們發展數據倉庫系統只有20年的時間。因此,我們的標準還不多,工具和技術正在快速發展,關于我們已經擁有數據倉庫系統的檔案還很少,而且數據倉庫的術語還有很大的出入。

所以,雖然開發一個架構是困難的,但它也是可能的,并且又是至關重要的。首先,最主要的是,架構應該受業務的驅動。如果你的要求是每夜進行更新,這一要求就該包含在架構內,而你必須弄清實現你目標的技術需求。下面是一些業務需求的例子,和針對每種需求的綜合技術考量:

●每夜更新――充足的數據準備能力

●全球可用性—平行或分布式服務器

●顧客層次分析――大型服務器

●新數據源――帶有支持元數據的靈活工具

●可靠性――工作的控制功能關鍵組件區域

一個完整的數據倉庫架構包括數據和技術因素。架構可以被分為三個主要區域。首先,是基于業務流程的數據架構。其次是基礎設施,包括硬件、網絡、操作系統和電腦。最后,是技術區域,包含用戶所需的決策制定的技術以及它們的支持結構。對這些區域將在下文分小節進行詳述。●數據架構

如上所述,在整體數據倉庫架構中的數據架構部分是受業務流程所驅動的。例如,在一個制造環境里,數據模型可能包括訂單、裝運和帳單。每一個區域都依據一套不同的維度。但是在數據模型中對相交維度的定義必須相同。所以相同數據項應該有同樣的結構和內容,并有一個創建和維護的單一流程。

當你完成一個數據倉庫架構并呈現數據給你的用戶,就要做出對工具的選擇,但隨著需求的設定,選擇就會變窄。例如,產品的功能開始融合,就像多維聯機分析處理(MOLAP)和關系型聯機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內。它的缺點是規模(整體上和一個維度內)、設計的局限性(受立方體結構所限)、需要一個專有的數據庫。關系型聯機分析處理(ROLAP)是多維聯機分析處理(MOLAP)的一種替代方案,它克服了多維聯機分析處理(MOLAP)的這些缺點。通常,混合聯機處理(HOLAP)更受歡迎,它允許一部分數據存儲在維聯機分析處理(MOLAP)中,另一部分數據存儲在關系型聯機分析處理(ROLAP)中,折衷了各自的長處。●基礎設施架構

對硬件及數據庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數據倉庫項目中,這并不困難,大多數企業有足夠的力量來應對他們的需要。

在網絡、檢查數據來源、數據倉庫準備區、以及它們之間的任何設施方面,要確保有足夠的帶寬用于數據的移動。●技術架構

技術架構被元數據目錄所驅動。一切都應該受元數據所驅動。服務應該依從表格所需的參數,而不是它們的硬編碼。技術架構的一個重要組件是ETL(提取、轉換和加載)流程,它涵蓋了五個主要區域:

●提取-數據來自多種數據源并且種類繁多。在這個區域如果有數據的應用時必須考慮對它的壓縮和加密處理。

●轉換-數據轉換包括代理主鍵的管理、整合、去標準化、清洗、轉換、合并和審計。

●加載-加載通常是利用加載最優化和對整個加載周期的支持對多種目標進行加載。

●安全-管理員訪問和數據加密的策略。

●元件控制--它包括元件的定義、元件安排(時間和事件)、監控、登錄、異常處理、錯誤處理和通知。

數據準備區需要能夠從多種數據源提取數據,如MVS、ORACLE、VM和其它,所以當你選擇產品時要具體。它必須將數據進行壓縮和加密、轉化、加載(可能對多個目標)和安全處理。此外,數據準備區的活動要能夠自動化進行。不同的供應商的產品做不同的事情,所以大多數企業將需要使用多種產品。

一個監控數據倉庫使用的系統對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調整。性能優化包括通過“管理者”工具進行的成本估算,而且應包括即時查詢的時間表。有工具能夠提供查詢管理服務。可使用工具來針對這些和其它相關任務,如對前臺的基于服務器的查詢管理和來自于多種數據源的數據。也有工具可用于報表、連通性和基礎設施管理。最后,數據訪問塊應包括報表的服務(如發布和訂閱),還應包括報表庫,調度程序和分布管理員。關于元數據

在數據倉庫流程中數據的創建和管理要遵循以下的“步驟”:

●數據倉庫模型

●數據源的定義

●表的定義

●數據源到目標的映射

●映射和轉換信息

●物理信息(表格空間,等)

●提取數據

●轉移數據

●加載統計

●業務描述

●查詢請求

●數據本身

●查詢統計

為顯示元數據的重要性,上述的步驟列表中只有三步包括了“真正”的數據-7、8和12。其他的一切都是元數據,而且整個數據倉庫流程都依賴于它。元數據目錄的專業技術要素包括:●業務規則--包括定義、推導、相關項目、驗證、和層次結構信息(版本、日期等。)

●轉移/轉換信息--源/目的地的信息,以及DDL(數據類型、名稱等等。)

●操作信息--數據加載的工作時間表、依存性、通知和信息的可靠性(比如主機的重定向和加載平衡)。

●特定工具的信息--圖形顯示信息和特殊功能的支持。

●安全規則--認證和授權。建立架構

在開發技術架構模型前,要先起草一份架構需求的文件。然后將每一項業務需求計劃包含到它的架構中。根據架構的區域對這些內容進行分組(遠程訪問、數據準備、數據訪問工具等)。了解它如何于其它區域相適應。采集區域的定義及其內容。最后提煉和形成模型的文件。

我們認識到開發一個數據倉庫架構是困難的,因此要有一個周密細致的規劃。但ZACHMAN框架又超出了大多數企業對數據倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業務需求、技術架構、標準和工具。

業務需求本質上驅動著架構,所以要對業務經理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業務問題,以及企業戰略、發展方向、挫折、業務流程、時間、可用性、業績預期的指標。將它們一一妥善歸檔。

從IT的角度來看,跟現有的數據倉庫/決策支持系統(DSS)的支持人員、聯機分析處理(OLTP)應用組成員、數據庫管理員們(DBA);以及網絡、操作系統和桌面支持人員進行討論。也要與架構師和專業規劃人員進行探討。你應該從這些討論中得知他們從IT的觀點考慮數據倉庫的意見。從中了解是否有現存的構架文件、IT原則、標準文件、企業數據中心等。

關于數據倉庫并沒有太多現存的標準,但對于許多組件來說是有標準的。下面是一些需要牢記的標準:

●中間設備--開放數據庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數據庫(OLEDB)、數據通信設備(DCE)、對象請求代理(ORB)和數據庫編程(JDBC)

●數據庫連接--ODBC,JDBC,OLEDB,和其它。

●數據管理--ANSISQL和文件傳輸協議(FTP)

●網絡訪問--數據通信設備(DCE)、域名服務器(DNS)、和輕量目標訪問協議(LDAP)

無論它們支持的是哪種標準,主流的數據倉庫工具都受元數據所驅動。然而,它們通常并不互相共享元數據而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構師是你選擇適當工具的向導。

一個數據倉庫架構需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業務需求的數據倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發中來(即:它變成了“復雜的技術策略”)和生成的系統需要變得更復雜(即“復雜的功能”),架構的完成會呈指數倍的發展。

像數據倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了,而且業務不能等。同時,數據倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。總結:

綜上所述,建立一個數據倉庫架構的好處如下:

●提供了一個組織結構的框架--架構對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優先次序的問題劃出了界線。

●提高了靈活性和維護性--讓你能快速加入新的數據來源,接口標準允許即插即用,模型和元數據允許影響分析和單點的變化。

●更快的開發和再利用--數據倉庫開發者更能夠快速了解數據倉庫流程、數據庫內容和業務規則。

●管理和通信的工具--定義未來方向和項目范圍,確定職務和職責、對供應商傳達需求。

●協調多項任務同時進行——多種、相對獨立的工作有機會成功地集合。

我們建議公司對準業務需求而又要務實一些。時刻跟上數據倉庫產業的進步是很重要的。最后,請記住架構總是存在的:或隱性或具體的,或無計劃或計劃內的。經驗證明,有一個計劃內和具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論