數(shù)據(jù)處理教案_第1頁
數(shù)據(jù)處理教案_第2頁
數(shù)據(jù)處理教案_第3頁
數(shù)據(jù)處理教案_第4頁
數(shù)據(jù)處理教案_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)處理教案引言:根據(jù)高專中專部安排,由我?guī)?0級綜合班的數(shù)據(jù)處理課和Office辦公自動化課,根據(jù)教學的要求,特寫此教案,該教案分為5部分,第一部分介紹數(shù)據(jù)處理定義,結(jié)構(gòu),常用軟件;第二部分計算機基礎;第三部分介紹Excel數(shù)據(jù)處理;第四部分介紹常用數(shù)據(jù)庫(access、sql語句),第四部分介紹簡單的關系數(shù)據(jù)庫、數(shù)據(jù)建模等;第五部分介紹簡單的數(shù)據(jù)處理、報表制作等。第一部分數(shù)據(jù)處理定義,結(jié)構(gòu)數(shù)據(jù)處理定義教學目的:通過對數(shù)據(jù)處理的定義使學生明白,在當今的社會,數(shù)據(jù)是如何的重要,數(shù)據(jù)處理在現(xiàn)代社會中起到什么樣的作用。教學內(nèi)容:重點是數(shù)據(jù)處理的定義,難點為如何看待數(shù)據(jù)和信息的關系,模糊數(shù)據(jù)和數(shù)字數(shù)據(jù)的區(qū)別教學方法:口述與上機教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)處理常用軟件。1.1.1數(shù)據(jù)處理定義數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領域。數(shù)據(jù)處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程1.1.2數(shù)據(jù)處理軟件數(shù)據(jù)處理離不開軟件的支持,數(shù)據(jù)處理軟件包括:用以書寫處理程序的各種程序設計語言及其編譯程序,管理數(shù)據(jù)的文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng),以及各種數(shù)據(jù)處理方法的應用軟件包。為了保證數(shù)據(jù)安全可靠,還有一整套數(shù)據(jù)安全保密的技術。1.1.3數(shù)據(jù)處理方式根據(jù)處理設備的結(jié)構(gòu)方式、工作方式,以及數(shù)據(jù)的時間空間分布方式的不同,數(shù)據(jù)處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點,應當根據(jù)應用問題的實際環(huán)境選擇合適的處理方式。數(shù)據(jù)處理主要有四種分類方式①根據(jù)處理設備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機處理方式和脫機處理方式。②根據(jù)數(shù)據(jù)處理時間的分配方式區(qū)分,有批處理方式、分時處理方式和實時處理方式。③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據(jù)計算機中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。1.1.4數(shù)據(jù)處理加工數(shù)據(jù)處理對數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進行分析和加工的技術過程。包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理。比數(shù)據(jù)分析含義廣。隨著計算機的日益普及,在計算機應用領域中,數(shù)值計算所占比重很小,通過計算機數(shù)據(jù)處理進行信息管理已成為主要的應用。如側(cè)繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術情報管理、辦公室自動化等。在地理數(shù)據(jù)方面既有大量自然環(huán)境數(shù)據(jù)(土地、水、氣候、生物等各類資源數(shù)據(jù)),也有大量社會經(jīng)濟數(shù)據(jù)(人口、交通、工農(nóng)業(yè)等),常要求進行綜合性數(shù)據(jù)處理。故需建立地理數(shù)據(jù)庫,系統(tǒng)地整理和存儲地理數(shù)據(jù)減少冗余,發(fā)展數(shù)據(jù)處理軟件,充分利用數(shù)據(jù)庫技術進行數(shù)據(jù)管理和處理。1.1.5數(shù)據(jù)清洗有關商務網(wǎng)站的數(shù)據(jù)處理:由于網(wǎng)站的訪問量非常大,在進行一些專業(yè)的數(shù)據(jù)分析時,往往要有針對性的數(shù)據(jù)清洗,即把無關的數(shù)據(jù)、不重要的數(shù)據(jù)等處理掉。接著對數(shù)據(jù)進行相關分分類,進行分類劃分之后,就可以根據(jù)具體的分析需求選擇模式分析的技術,如路徑分析、興趣關聯(lián)規(guī)則、聚類等。通過模式分析,找到有用的信息,再通過聯(lián)機分析(OLAP)的驗證,結(jié)合客戶登記信息,找出有價值的市場信息,或發(fā)現(xiàn)潛在的市場。第二節(jié)數(shù)據(jù)處理結(jié)構(gòu)教學目的:通過對數(shù)據(jù)處理結(jié)構(gòu)的介紹使學生明白數(shù)據(jù)倉庫、數(shù)據(jù)集市與數(shù)據(jù)挖掘的關系。教學內(nèi)容:重點是數(shù)據(jù)倉庫的圖像理解,難點也是數(shù)據(jù)倉庫整體結(jié)構(gòu)的理解。教學方法:口述與上機教學進程:全面4個課時為理論口述講解,后面4個課時上機介紹數(shù)據(jù)倉庫案例。1.2.1商業(yè)智能在中國的發(fā)展機會(數(shù)據(jù)處理)商業(yè)智能就像幾年前的ERP(企業(yè)資源管理)一樣,正成為企業(yè)首席技術官們關注的焦點,呈現(xiàn)如火如荼的發(fā)展態(tài)勢。眾所周知,在ERP等基礎信息系統(tǒng)部署完之后,企業(yè)能夠?qū)ζ錁I(yè)務數(shù)據(jù)進行更為有效的管理,于是如何利用這些數(shù)據(jù)創(chuàng)造價值成為企業(yè)下一步思考的問題。商業(yè)智能系統(tǒng)已經(jīng)作為一種含金量極高的管理工具,融合在部分大型企業(yè)管理文化的血脈之中了。商業(yè)智能在幫助企業(yè)管理層發(fā)現(xiàn)市場機會、創(chuàng)造競爭新優(yōu)勢的作用顯而易見,因此成為企業(yè)信息化的新寵也是必然的。

商業(yè)智能軟件市場穩(wěn)步增長從全球范圍來看,商業(yè)智能領域并購不斷,商業(yè)智能市場已經(jīng)超過ERP和CRM(客戶關系管理)成為最具增長潛力的領域。從中國市場來看,商業(yè)智能已經(jīng)被電信、金融、零售、保險、制造等行業(yè)越來越廣泛地應用,操作型商業(yè)智能逐步在大企業(yè)普及,商業(yè)智能不局限于高層管理者的決策之用,也日益成為普通員工日常操作的工具。

不過,盡管這個市場潛力巨大,但仍有不少的現(xiàn)實情況導致這一市場的發(fā)育沒有大家預期中的那么好。首先一點,國內(nèi)的成熟、專業(yè)的商業(yè)智能實施顧問較少,不但上游廠商的相關人才少,下游負責實施的渠道合作伙伴更是缺乏相關人才,很多時候用戶要啟用商業(yè)智能工具,但是不太明確自己的需求,負責實施的人很多時候也是一知半解,不能給用戶很好的解決方案;其次,目前多數(shù)商業(yè)智能廠商,尤其是國外廠商都是通過分公司或辦事處來銷售的,而未來國內(nèi)制造業(yè)企業(yè)多數(shù)需要本地化服務,這種模式必將改變。同時,商業(yè)智能系統(tǒng)的銷售、服務要求代理商要有很強的能力,如何選擇、培養(yǎng)、發(fā)展這些代理商將是商業(yè)智能大發(fā)展面臨的一個很重要問題。

SaaS將成為重要交付模式同時,商業(yè)智能系統(tǒng)的核心不是平臺,而是模型。目前,由于國內(nèi)應用商業(yè)智能的企業(yè)并不多,應用深入的更少,應用基礎也比較薄弱,即使拿來國外先進的商業(yè)模型也不一定能運轉(zhuǎn)起來,所以盡快建立各種適合國內(nèi)企業(yè)特色的模型是各服務商未來要加大投入著力解決的。當然,對企業(yè)而言,商業(yè)智能的有效應用,離不開數(shù)據(jù)的支持。如果沒有準確的數(shù)據(jù),那么所要分析產(chǎn)生的報表、決策都與事實存在差距,將會導致整個決策的錯誤,因此,必須要求前期的數(shù)據(jù)準確。

最后,隨著云計算的大規(guī)模普及,下一代商業(yè)智能的精細分析系統(tǒng)很可能會建設在動態(tài)的基礎架構(gòu)上,而虛擬化、云計算等技術的發(fā)展也會帶動商業(yè)智能系統(tǒng)的建設和應用,這就是“云智能”。我國企業(yè)需要抓住“云智能”機遇,加快發(fā)展、迎頭趕上,才能從容應對下一階段的全球化競爭。1.2.2數(shù)據(jù)倉庫技術的發(fā)展及體系結(jié)構(gòu)1數(shù)據(jù)倉庫技術的發(fā)展及概念

傳統(tǒng)的數(shù)據(jù)庫技術是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務處理工作的。然而,不同類型的數(shù)據(jù)有著不同的處理特點,以單一的數(shù)據(jù)組織方式進行組織的數(shù)據(jù)庫并不能反映這種差異,滿足不了現(xiàn)代商業(yè)企業(yè)數(shù)據(jù)處理多樣化的要求。總結(jié)起來,當前的商、世企業(yè)數(shù)據(jù)處理可以大致地劃分為2大類:操作型處理和分析型處理。操作型處理也叫事務型處理,主要是為企業(yè)的特定應用服務的(這是目前最為常用的),分析型處理則用于商業(yè)企業(yè)管理人員的決策分析,這種需求既要求聯(lián)機服務,又涉及大量用于決策的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足,具體體現(xiàn)在:

1)歷史數(shù)據(jù)量大;

2)輔助決策信息涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成;

3)由于訪問數(shù)據(jù)的能力不足,它對大量數(shù)據(jù)的訪問能力明顯下降。

數(shù)據(jù)倉庫技術的出現(xiàn)為解決上述問題提供了新的思路。數(shù)據(jù)倉庫的創(chuàng)始人Inmon指出:“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程”。它從大量的事務型數(shù)據(jù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格式,即為決策目標把數(shù)據(jù)聚合在一種特殊的格式中,作為決策分析的數(shù)據(jù)基礎,從而在理論上解決了從不同系統(tǒng)的數(shù)據(jù)庫中提取數(shù)據(jù)的難題。同時,利用聯(lián)機分析處理(OLAP)技術可以對數(shù)據(jù)倉庫提供的數(shù)據(jù)進行深入加工。

2企業(yè)數(shù)據(jù)倉庫的體系結(jié)構(gòu)

一個典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng)通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器以及前端工具與應用4個部分。

1)數(shù)據(jù)源。

數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于企業(yè)操作型數(shù)據(jù)庫中(通常存放在RD-BMS中)的各種業(yè)務數(shù)據(jù),外部信息包括各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及各類文檔等。

2)數(shù)據(jù)的存儲與管理。

數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。在現(xiàn)有各業(yè)務系統(tǒng)的基礎上,對數(shù)據(jù)進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),同時組織存儲數(shù)據(jù)倉庫元數(shù)據(jù)(具體包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務規(guī)則等信息)。按照數(shù)據(jù)的覆蓋范圍,數(shù)據(jù)倉庫存儲可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為“數(shù)據(jù)集市”,DataMart)。數(shù)據(jù)倉庫的管理包括數(shù)據(jù)的安全、歸檔、備份、維護、恢復等工作。這些功能與目前的DBMS基本一致。

3)OLAP服務器。

對分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的分析,發(fā)現(xiàn)數(shù)據(jù)趨勢。

4)前端工具與應用。

前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應用。其中數(shù)據(jù)分析工具主要針對OLAP服務器,報表工具、數(shù)據(jù)挖掘工具既針對數(shù)據(jù)倉庫,同時也針對OLAP服務器。1.2.3商業(yè)智能(BI)落地需要的三大工具商業(yè)智能(后面簡稱BI)的各類角色用戶必須借助和使用工具實現(xiàn)其需求。BI角色分為業(yè)務、業(yè)務融合技術、技術這三類,對于其相應的應用需求(含演繹型和歸納型)和管控開發(fā)需求,需要借演繹型需求支撐工具和歸納型需求支撐工具,及管控開發(fā)型工具來予以實現(xiàn)。本篇先講述演繹型需求支撐的7種工具,其可分為描述統(tǒng)計工具、經(jīng)營技術與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具;

筆者認為BI以認識論和組織理論為基本原理,采取相適宜的“工具”,旨在幫助“相關角色”對職責范圍內(nèi)的“有關內(nèi)容”做出最佳決定的整體解決方案。它由“三維模式”和“三層漏斗”組成,是輔助整個企業(yè)集理念,組織,流程,技術為一體的整體決策支持方案三維模式由角色維、內(nèi)容維和工具維構(gòu)成,體現(xiàn)了BI的主體、客體和工具等一般性原理。根據(jù)BI的定義,只有清晰劃分相關角色并據(jù)以確定需求,并借助工具才能實現(xiàn)BI輔助主體對職責范圍的有關事項做出最佳決定的宗旨。

BI的業(yè)務類角色、技術類角色以及業(yè)務融合技術類角色對應存在著業(yè)務應用需求(指業(yè)務類的演繹型需求和業(yè)務融合技術類的歸納型需求)和技術應用需求,即管控開發(fā)型需求。這種需求能否得以有效實現(xiàn)和提升,必須借助工具。針對三大類角色的兩種需求,BI的工具分為應用型支撐型工具和管控開發(fā)支持型工具。鑒于文章的范圍,硬件支撐工具的內(nèi)容請參見相關書籍。

應用支撐工具可以分為描述統(tǒng)計工具、經(jīng)營技術與方法、經(jīng)濟預測方法與模型、OLAP分析、知識發(fā)現(xiàn)工具、專家系統(tǒng)以及決策方法與模型。管控開發(fā)支持型工具一般包括系統(tǒng)管理工具、開發(fā)工具。一般來說,這些工具以軟件包的形式形成產(chǎn)品。鑒于BI對于業(yè)務應用的重要作用及業(yè)務應用成功對BI的重要意義,本文著重分析BI的應用型支撐工具,并對有關產(chǎn)品作簡單介紹。

一、實現(xiàn)演繹型需求的7種工具

BI的演繹型內(nèi)容可以分為三個層次:報表查詢、綜合分析、決策選擇討。如下圖所示,BI的演繹型需求通過描述性統(tǒng)計工具、報表與展示工具、經(jīng)濟預測方法與模型、經(jīng)營技術與工具、OLAP分析及專家系統(tǒng)工具、決策方法與模型來實現(xiàn)。

上圖中,描述性統(tǒng)計工具幫助用戶在報表查詢層次實現(xiàn)對事實的充分了解;綜合分析以邏輯的方式幫助相關主體尋求原因或?qū)唵螁栴}直接獲得建議,需要運用經(jīng)濟預測方法與模型、經(jīng)營技術與工具及OLAP分析來得以實現(xiàn)。專家系統(tǒng)和決策方法與模型是實現(xiàn)定量和部分定性決策的有力工具。通過該類工具,用戶在決策選擇時通過評價各個方案的優(yōu)劣來輔助主體選擇最優(yōu),得出結(jié)論。BI演繹型應用的三層次結(jié)構(gòu)合理、有步驟地解決了前提、邏輯規(guī)則和結(jié)論這一演繹型思維方法的遷移應用。(一)描述性統(tǒng)計工具

統(tǒng)計的基本意義在于利用統(tǒng)計指標,通過指標值的對比關系和發(fā)展變化來研究社會經(jīng)濟現(xiàn)象的數(shù)量和數(shù)量關系,表明其變化發(fā)展的過程、結(jié)果及其規(guī)律。作為統(tǒng)計學兩大基本內(nèi)容之一的描述性統(tǒng)計是整個統(tǒng)計學的基礎和統(tǒng)計研究工作的第一步,它包括數(shù)據(jù)的收集、整理、顯示,對數(shù)據(jù)中有用信息的提取和分析,而對變量的集中趨勢和離中趨勢的分析則是其主要內(nèi)容。描述性統(tǒng)計工具指為實現(xiàn)相關主體對基本事實了解的需求而需利用基本指標。這些基本統(tǒng)計指標包括總量指標、相對指標、平均指標和變異指標。

總量指標:表明具體社會經(jīng)濟現(xiàn)象總體的規(guī)模、水平或工作總量的數(shù)值,是計算各種派生指標的基礎。如某集團公司年銷量即是總量指標。它可分為總體單位總量、總體標志總量和時期總量(如某個事業(yè)部門的總銷量)、時點總量(如月末庫存)。總量指標可通過直接計算和間接計算求出。

相對指標:表明兩個互有聯(lián)系的社會、經(jīng)濟現(xiàn)象之間數(shù)量對比關系的統(tǒng)計指標。如競爭企業(yè)之間庫存周轉(zhuǎn)率的對比,或行業(yè)內(nèi)某企業(yè)銷量與行業(yè)總銷量的對比等等;常用的同比和環(huán)比也是相對指標的運用。相對指標反映了社會經(jīng)濟現(xiàn)象的實質(zhì)及其數(shù)量的對比關系,從現(xiàn)象間數(shù)量對比關系中清晰地認識事物。其次,可使原來無法直接比較的現(xiàn)象,找到共同的基礎進行科學地對比分析。相對指標又包括:計劃完成程度指標、結(jié)構(gòu)相對指標(高中低檔產(chǎn)品利潤在全部利潤中的各自占比)、比例相對指標(產(chǎn)品A與產(chǎn)品B的對比)、比較相對指標(某企業(yè)銷量增長率與競爭企業(yè)銷量增長率的對比)、強度相對指標(如煙草行業(yè)銷售情況中條/人指標的對比)、動態(tài)相對指標(如歷年的銷售額的比較)。運用時,要正確選擇對比的基數(shù)、確定可比的對比指標、相對指標要與對比基數(shù)結(jié)合使用。

平均指標:反映同質(zhì)總體內(nèi)各單位某一數(shù)量標志的一般水平,可以對比總體的一般水平,如分公司年平均銷量與總公司平均銷量的對比,可以進行數(shù)量上的推算和預測。平均指標有算術平均數(shù)、調(diào)和平均數(shù)(較少用,主要用于已知標志總量而不知單位總量的情況)、幾何平均數(shù)(一般用于計算平均發(fā)展速度)、眾數(shù)(一組序列中出現(xiàn)次數(shù)最多的數(shù))、中位數(shù)(按大小順序排列的數(shù)據(jù)中處于中間的數(shù))五種。使用平均數(shù)時要與變異指標結(jié)合使用,有時需要用組平均數(shù)補充總體平均數(shù)。

標志變異指標:說明總體各單位某一標志數(shù)值差異程度,通過變異指標可以揭示被平均指標掩蓋了的差異情況,也可作為衡量平均指標代表性的尺度。可分為:全距、平均差、標準差、標志變異系數(shù)。全距是標志值最大值與最小值之差,如20XX年某產(chǎn)品在全國各省中最高銷量與最低銷量之差;平均差是各個標志值與總體算術平均數(shù)的離差的絕對值。標準差為各個標志值與總體算術平均數(shù)的離差的平方和的正平方根,其值越大表明差異越大,平均值不能很好代表一般水平;標準差與算術平均數(shù)的比值稱為標志變異系數(shù),用以兩個平均數(shù)指標不相等時的對比。

描述性統(tǒng)計工具在當前BI的行業(yè)應用中非常普遍。值得關注的是,當前一般BI的報表查詢應用涉及更多是描述性統(tǒng)計的總量指標、平均指標和比較指標,而對于描述離中趨勢的標志變異指標運用得相當不夠。事實上,標志變異指標可以解決BI的應用主體很多實質(zhì)性問題,比如在眾多品牌中找到銷量不穩(wěn)定的品牌,在眾多客戶中找到交易額波動大的客戶,這些信息為BI的應用有關主體在研發(fā)、生產(chǎn)、采購、銷售、庫存方面起到較為關鍵的作用。

(二)報表與展示工具

以報表應用類別區(qū)分,BI系統(tǒng)能利用報表與展示工具來生成統(tǒng)計報表和查詢報表。查詢報表較為簡單,根據(jù)用戶的需求可以較容易地定制。由于中國式統(tǒng)計報表眾多的表頭項以及表頭中首格的一重甚至多種斜線的特征,甚至在表頭項中又切分子表頭的復雜情況,致使生成統(tǒng)計報表較為困難。國外的BI產(chǎn)品在生成統(tǒng)計報表方面和國內(nèi)的某些產(chǎn)品相比,如水晶報表,操作過程較繁鎖。對于報表的展示,一是產(chǎn)生表格,二是產(chǎn)生與表格對應的圖形,如曲線圖、柱形圖、三維圖等。一般來說,要求報表與圖形連動。即當報表數(shù)據(jù)發(fā)生變動時,圖形跟著變動。或者相反,圖形的變動要帶來報表數(shù)據(jù)的變動。這是在鉆取時較容易產(chǎn)生的情況。如SAS的BusinessIntelligence和BO的圖形互動功能都能實現(xiàn)此種需求。

報表與展示工具注重實現(xiàn)報表的靈活性,更強調(diào)圖形展示的美觀、圖形色彩的模板化定,強調(diào)圖形種類的多樣。這是BI工具的基本功能。前兩年大家談到BI時,更容易評判到某個廠家的BI的界面制作的是否美觀等等,這是當時人們對BI應用認識不夠造成的。現(xiàn)在廠家在宣傳BI時,不僅注重更深層次的綜合分析功能和預測、決策功能,更擴大到數(shù)據(jù)集成與整合,數(shù)據(jù)存儲和元數(shù)據(jù)管理等全套BI平臺上。

(三)經(jīng)濟預測方法與模型

經(jīng)濟預測方法與模型是統(tǒng)計學中統(tǒng)計推斷部分的運用,復雜且靈活。它是BI在綜合分析層次上的應用。該方法滿足業(yè)務類用戶展望未來的需求。統(tǒng)計推斷一般包括參數(shù)估計、假設檢驗以及分類與選擇。經(jīng)濟預測方法是參數(shù)估計的應用推廣,包含了點估計和參數(shù)估計,如某上時間段銷量的預測值,或者預測值所處的區(qū)間。經(jīng)濟預測模型是在預測方法的指導下,根據(jù)行業(yè)的實際經(jīng)過修正后建立的預測模型。

定量的預測方法實戰(zhàn)中可以建立很多模式,此處以時間序列預測為主簡要介紹經(jīng)濟預測方法與模型的運用。

時間序列預測法是動態(tài)分析法的一種運用。動態(tài)分析法是在統(tǒng)計研究中,把經(jīng)濟現(xiàn)象在不同時間上的數(shù)量進行對比,以了解現(xiàn)象變動的方向、速度、趨勢和規(guī)律,并據(jù)此預測未來的方法。動態(tài)趨勢分析與預測是動態(tài)分析法的重要用途。時間序列是動態(tài)分析研究的一個主要方面,其前提是編制時間序列,并形成時間序列預測法。當前時間序列有100種左右的預測方法,但其基本方法一般包括簡單平均、移動平均、指數(shù)平滑、最小二乘等,可以運用到直線趨勢預測和曲線趨勢預測方面。時間序列影響時間序列的值變化的四種因素:趨勢變動、季節(jié)變動、循環(huán)變動、不規(guī)則變動,循環(huán)變動在短期預測中通常不考慮。將這四個因素從時間序列值中分解出來的方法稱為分解分析法。如2月份在某地的某品牌白酒銷量為60箱,通過分解技術,可獲知趨勢變動(平均水平與增長勢頭)的影響值為40,中秋的季節(jié)變動影響值為15,但不規(guī)則變動影響值是5,所以即銷量為60。時間序列預測的基本方法結(jié)合上述四種因素并運用到直線預測和曲線預測中,就形成了近100種的具體預測方法,如加權(quán)平均,加權(quán)移動平均、溫特斯法等。溫特斯法是以指數(shù)平滑法為基本模型,結(jié)合季節(jié)因素并運用到直線趨勢中而形成的季節(jié)直線趨勢和季節(jié)變動指數(shù)平滑模型。下圖分別是直線趨勢和曲線趨勢預測的結(jié)果。1.2.4數(shù)據(jù)倉庫架構(gòu)的建立

每一個數(shù)據(jù)倉庫有一個架構(gòu)。這架構(gòu)要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數(shù)據(jù)倉庫開發(fā)時并沒有一個明確的架構(gòu),這極大的限制了它的靈活性。在沒有架構(gòu)的情況下,主題區(qū)域就無法契合在一起,它們之間的連接變得無目的,并且使整個數(shù)據(jù)倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數(shù)據(jù)倉庫的架構(gòu)已成為選擇工具時的框架。

讓我們把開發(fā)一個數(shù)據(jù)倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術規(guī)范、和在多個層次細節(jié)上顯示這個房子將如何進行建造的標準。當然,針對房子的各種子系統(tǒng)要有不同版本的藍圖,如管道工程、電氣、暖通空調(diào)系統(tǒng)(HVAC)、通信、和空間。針對所有的家用的設備也有相應的標準,包括插頭、燈具、衛(wèi)生潔具、門的尺寸等。

對于數(shù)據(jù)倉庫,架構(gòu)是對數(shù)據(jù)倉庫的元素和服務的一種描述,用具體細節(jié)說明各種組件如何組合在一起,和隨著時間的推移系統(tǒng)將如何地發(fā)展。就像這房子的比喻,數(shù)據(jù)倉庫架構(gòu)是一套文件、計劃、模型、圖紙和規(guī)范,針對每個關鍵的組件區(qū)域有獨立的分區(qū),并且足夠詳細到讓專業(yè)技術人員可以實施它們。

這并是一個需求文件。需求文件說明架構(gòu)需要做些什么。數(shù)據(jù)倉庫架構(gòu)也不是一個項目計劃或任務清單;它說明數(shù)據(jù)倉庫是什么,而不是怎么去做或為什么去做。

一個數(shù)據(jù)倉庫的開發(fā)也并不容易,因為相對于房屋的5000年建筑史,我們發(fā)展數(shù)據(jù)倉庫系統(tǒng)只有20年的時間。因此,我們的標準還不多,工具和技術正在快速發(fā)展,關于我們已經(jīng)擁有數(shù)據(jù)倉庫系統(tǒng)的檔案還很少,而且數(shù)據(jù)倉庫的術語還有很大的出入。

所以,雖然開發(fā)一個架構(gòu)是困難的,但它也是可能的,并且又是至關重要的。首先,最主要的是,架構(gòu)應該受業(yè)務的驅(qū)動。如果你的要求是每夜進行更新,這一要求就該包含在架構(gòu)內(nèi),而你必須弄清實現(xiàn)你目標的技術需求。下面是一些業(yè)務需求的例子,和針對每種需求的綜合技術考量:

●每夜更新――充足的數(shù)據(jù)準備能力

●全球可用性—平行或分布式服務器

●顧客層次分析――大型服務器

●新數(shù)據(jù)源――帶有支持元數(shù)據(jù)的靈活工具

●可靠性――工作的控制功能關鍵組件區(qū)域

一個完整的數(shù)據(jù)倉庫架構(gòu)包括數(shù)據(jù)和技術因素。架構(gòu)可以被分為三個主要區(qū)域。首先,是基于業(yè)務流程的數(shù)據(jù)架構(gòu)。其次是基礎設施,包括硬件、網(wǎng)絡、操作系統(tǒng)和電腦。最后,是技術區(qū)域,包含用戶所需的決策制定的技術以及它們的支持結(jié)構(gòu)。對這些區(qū)域?qū)⒃谙挛姆中」?jié)進行詳述。●數(shù)據(jù)架構(gòu)

如上所述,在整體數(shù)據(jù)倉庫架構(gòu)中的數(shù)據(jù)架構(gòu)部分是受業(yè)務流程所驅(qū)動的。例如,在一個制造環(huán)境里,數(shù)據(jù)模型可能包括訂單、裝運和帳單。每一個區(qū)域都依據(jù)一套不同的維度。但是在數(shù)據(jù)模型中對相交維度的定義必須相同。所以相同數(shù)據(jù)項應該有同樣的結(jié)構(gòu)和內(nèi)容,并有一個創(chuàng)建和維護的單一流程。

當你完成一個數(shù)據(jù)倉庫架構(gòu)并呈現(xiàn)數(shù)據(jù)給你的用戶,就要做出對工具的選擇,但隨著需求的設定,選擇就會變窄。例如,產(chǎn)品的功能開始融合,就像多維聯(lián)機分析處理(MOLAP)和關系型聯(lián)機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯(lián)機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內(nèi)。它的缺點是規(guī)模(整體上和一個維度內(nèi))、設計的局限性(受立方體結(jié)構(gòu)所限)、需要一個專有的數(shù)據(jù)庫。關系型聯(lián)機分析處理(ROLAP)是多維聯(lián)機分析處理(MOLAP)的一種替代方案,它克服了多維聯(lián)機分析處理(MOLAP)的這些缺點。通常,混合聯(lián)機處理(HOLAP)更受歡迎,它允許一部分數(shù)據(jù)存儲在維聯(lián)機分析處理(MOLAP)中,另一部分數(shù)據(jù)存儲在關系型聯(lián)機分析處理(ROLAP)中,折衷了各自的長處。●基礎設施架構(gòu)

對硬件及數(shù)據(jù)庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數(shù)據(jù)倉庫項目中,這并不困難,大多數(shù)企業(yè)有足夠的力量來應對他們的需要。

在網(wǎng)絡、檢查數(shù)據(jù)來源、數(shù)據(jù)倉庫準備區(qū)、以及它們之間的任何設施方面,要確保有足夠的帶寬用于數(shù)據(jù)的移動。●技術架構(gòu)

技術架構(gòu)被元數(shù)據(jù)目錄所驅(qū)動。一切都應該受元數(shù)據(jù)所驅(qū)動。服務應該依從表格所需的參數(shù),而不是它們的硬編碼。技術架構(gòu)的一個重要組件是ETL(提取、轉(zhuǎn)換和加載)流程,它涵蓋了五個主要區(qū)域:

●提取-數(shù)據(jù)來自多種數(shù)據(jù)源并且種類繁多。在這個區(qū)域如果有數(shù)據(jù)的應用時必須考慮對它的壓縮和加密處理。

●轉(zhuǎn)換-數(shù)據(jù)轉(zhuǎn)換包括代理主鍵的管理、整合、去標準化、清洗、轉(zhuǎn)換、合并和審計。

●加載-加載通常是利用加載最優(yōu)化和對整個加載周期的支持對多種目標進行加載。

●安全-管理員訪問和數(shù)據(jù)加密的策略。

●元件控制--它包括元件的定義、元件安排(時間和事件)、監(jiān)控、登錄、異常處理、錯誤處理和通知。

數(shù)據(jù)準備區(qū)需要能夠從多種數(shù)據(jù)源提取數(shù)據(jù),如MVS、ORACLE、VM和其它,所以當你選擇產(chǎn)品時要具體。它必須將數(shù)據(jù)進行壓縮和加密、轉(zhuǎn)化、加載(可能對多個目標)和安全處理。此外,數(shù)據(jù)準備區(qū)的活動要能夠自動化進行。不同的供應商的產(chǎn)品做不同的事情,所以大多數(shù)企業(yè)將需要使用多種產(chǎn)品。

一個監(jiān)控數(shù)據(jù)倉庫使用的系統(tǒng)對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調(diào)整。性能優(yōu)化包括通過“管理者”工具進行的成本估算,而且應包括即時查詢的時間表。有工具能夠提供查詢管理服務。可使用工具來針對這些和其它相關任務,如對前臺的基于服務器的查詢管理和來自于多種數(shù)據(jù)源的數(shù)據(jù)。也有工具可用于報表、連通性和基礎設施管理。最后,數(shù)據(jù)訪問塊應包括報表的服務(如發(fā)布和訂閱),還應包括報表庫,調(diào)度程序和分布管理員。關于元數(shù)據(jù)

在數(shù)據(jù)倉庫流程中數(shù)據(jù)的創(chuàng)建和管理要遵循以下的“步驟”:

●數(shù)據(jù)倉庫模型

●數(shù)據(jù)源的定義

●表的定義

●數(shù)據(jù)源到目標的映射

●映射和轉(zhuǎn)換信息

●物理信息(表格空間,等)

●提取數(shù)據(jù)

●轉(zhuǎn)移數(shù)據(jù)

●加載統(tǒng)計

●業(yè)務描述

●查詢請求

●數(shù)據(jù)本身

●查詢統(tǒng)計

為顯示元數(shù)據(jù)的重要性,上述的步驟列表中只有三步包括了“真正”的數(shù)據(jù)-7、8和12。其他的一切都是元數(shù)據(jù),而且整個數(shù)據(jù)倉庫流程都依賴于它。元數(shù)據(jù)目錄的專業(yè)技術要素包括:●業(yè)務規(guī)則--包括定義、推導、相關項目、驗證、和層次結(jié)構(gòu)信息(版本、日期等。)

●轉(zhuǎn)移/轉(zhuǎn)換信息--源/目的地的信息,以及DDL(數(shù)據(jù)類型、名稱等等。)

●操作信息--數(shù)據(jù)加載的工作時間表、依存性、通知和信息的可靠性(比如主機的重定向和加載平衡)。

●特定工具的信息--圖形顯示信息和特殊功能的支持。

●安全規(guī)則--認證和授權(quán)。建立架構(gòu)

在開發(fā)技術架構(gòu)模型前,要先起草一份架構(gòu)需求的文件。然后將每一項業(yè)務需求計劃包含到它的架構(gòu)中。根據(jù)架構(gòu)的區(qū)域?qū)@些內(nèi)容進行分組(遠程訪問、數(shù)據(jù)準備、數(shù)據(jù)訪問工具等)。了解它如何于其它區(qū)域相適應。采集區(qū)域的定義及其內(nèi)容。最后提煉和形成模型的文件。

我們認識到開發(fā)一個數(shù)據(jù)倉庫架構(gòu)是困難的,因此要有一個周密細致的規(guī)劃。但ZACHMAN框架又超出了大多數(shù)企業(yè)對數(shù)據(jù)倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業(yè)務需求、技術架構(gòu)、標準和工具。

業(yè)務需求本質(zhì)上驅(qū)動著架構(gòu),所以要對業(yè)務經(jīng)理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業(yè)務問題,以及企業(yè)戰(zhàn)略、發(fā)展方向、挫折、業(yè)務流程、時間、可用性、業(yè)績預期的指標。將它們一一妥善歸檔。

從IT的角度來看,跟現(xiàn)有的數(shù)據(jù)倉庫/決策支持系統(tǒng)(DSS)的支持人員、聯(lián)機分析處理(OLTP)應用組成員、數(shù)據(jù)庫管理員們(DBA);以及網(wǎng)絡、操作系統(tǒng)和桌面支持人員進行討論。也要與架構(gòu)師和專業(yè)規(guī)劃人員進行探討。你應該從這些討論中得知他們從IT的觀點考慮數(shù)據(jù)倉庫的意見。從中了解是否有現(xiàn)存的構(gòu)架文件、IT原則、標準文件、企業(yè)數(shù)據(jù)中心等。

關于數(shù)據(jù)倉庫并沒有太多現(xiàn)存的標準,但對于許多組件來說是有標準的。下面是一些需要牢記的標準:

●中間設備--開放數(shù)據(jù)庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數(shù)據(jù)庫(OLEDB)、數(shù)據(jù)通信設備(DCE)、對象請求代理(ORB)和數(shù)據(jù)庫編程(JDBC)

●數(shù)據(jù)庫連接--ODBC,JDBC,OLEDB,和其它。

●數(shù)據(jù)管理--ANSISQL和文件傳輸協(xié)議(FTP)

●網(wǎng)絡訪問--數(shù)據(jù)通信設備(DCE)、域名服務器(DNS)、和輕量目標訪問協(xié)議(LDAP)

無論它們支持的是哪種標準,主流的數(shù)據(jù)倉庫工具都受元數(shù)據(jù)所驅(qū)動。然而,它們通常并不互相共享元數(shù)據(jù)而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構(gòu)師是你選擇適當工具的向?qū)А?/p>

一個數(shù)據(jù)倉庫架構(gòu)需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業(yè)務需求的數(shù)據(jù)倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發(fā)中來(即:它變成了“復雜的技術策略”)和生成的系統(tǒng)需要變得更復雜(即“復雜的功能”),架構(gòu)的完成會呈指數(shù)倍的發(fā)展。

像數(shù)據(jù)倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了,而且業(yè)務不能等。同時,數(shù)據(jù)倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。總結(jié):

綜上所述,建立一個數(shù)據(jù)倉庫架構(gòu)的好處如下:

●提供了一個組織結(jié)構(gòu)的框架--架構(gòu)對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優(yōu)先次序的問題劃出了界線。

●提高了靈活性和維護性--讓你能快速加入新的數(shù)據(jù)來源,接口標準允許即插即用,模型和元數(shù)據(jù)允許影響分析和單點的變化。

●更快的開發(fā)和再利用--數(shù)據(jù)倉庫開發(fā)者更能夠快速了解數(shù)據(jù)倉庫流程、數(shù)據(jù)庫內(nèi)容和業(yè)務規(guī)則。

●管理和通信的工具--定義未來方向和項目范圍,確定職務和職責、對供應商傳達需求。

●協(xié)調(diào)多項任務同時進行——多種、相對獨立的工作有機會成功地集合。

我們建議公司對準業(yè)務需求而又要務實一些。時刻跟上數(shù)據(jù)倉庫產(chǎn)業(yè)的進步是很重要的。最后,請記住架構(gòu)總是存在的:或隱性或具體的,或無計劃或計劃內(nèi)的。經(jīng)驗證明,有一個計劃內(nèi)和具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論