信息管理技術第六章_第1頁
信息管理技術第六章_第2頁
信息管理技術第六章_第3頁
信息管理技術第六章_第4頁
信息管理技術第六章_第5頁
已閱讀5頁,還剩258頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息管理技術第六章2第一節數據資源管理第二節數據通信與計算機網絡第五章信息管理技術3信息技術(InformationTechnology,IT)同信息一樣,是非常流行的術語。現代信息管理從一開始便與信息技術緊密相聯。從某種意義上說,現代信息管理必須以現代信息技術為依托。

信息技術是能夠擴展人類信息器官功能的,幫助完成信息的獲取(收集、識別和提取)、傳輸(變換、存儲和傳遞)、加工(處理和檢索)、再生(分析)和利用等的一類技術的總稱。前言4人的信息器官可以分為:感覺器官:視覺、聽覺、嗅覺和觸覺等;承擔對外界信息的獲取功能。神經系統:導入神經網絡、中間傳導神經網絡和導出神經網絡;承擔信息的傳遞功能。思維器官:人的大腦;承擔信息的認知和再生功能。效應與執行器官:操作器官(手)、行走器官(腳)、語言器官(嘴、喉、舌);承擔信息的執行或施用功能。5與人的信息器官對應,信息技術也可以分成四大類:①感測技術(Collection):用于信息獲取,其延長的是感覺器官采集信息的能力,可以將人類的感覺器官延伸到人力所不能及的微觀世界和宏觀世界中去提取信息。②通信技術(Communication):用于信息傳遞,其延長的是傳導神經系統傳遞信息的能力,包括信息的時間和空間的傳遞。6③計算機技術(Computer):用于信息認識和再生,其延長的是思維器官處理信息和決策的能力,包括計算機硬件和軟件技術、人工智能、專家系統和人工神經網絡等技術。④控制技術(Control):用于信息執行,其延長的是效應器官的應用信息的能力,包括服務調節技術和自動控制技術。7這四種技術結合起來,稱為“4C”技術。其中,計算機技術和通訊技術是整個信息技術的核心。如果說計算機技術是現代社會的“大腦”,那么通信技術就是現代社會的“中樞神經系統”。對于信息管理領域來說,信息處理技術和通信技術是最重要的兩種信息技術工具。本章主要從信息處理技術和通信技術兩個角度來講解信息管理領域用到的信息技術。8第一節數據資源管理

隨著信息社會的發展,數據成為一種重要的組織資源,數據資源管理是管理活動最基本的內容,也是信息系統最基本的功能。雖然數據處理一般不涉及非常復雜的數學計算,但因要求處理的數據量很大,所以需要專門的技術支持。9在信息系統中,數據資源管理指的是對數據的收集、加工、檢索、存儲、傳輸、利用和維護的過程。它的主要任務是實現對數據的合理組織、維護和存取,處理好應用程序和數據之間的關系。10(一)數據組織的基本概念數據只有經過組織才能成為有價值的信息數據的組織數據的邏輯組織數據的物理組織11(1)數據的邏輯組織任何信息系統都有一個數據組織的層次體系,在該層次體系中,每一后繼層次都是其前導層次數據組合的結果,最終所形成的是一個綜合的數據庫。12(1)數據的邏輯組織在信息系統中形成的數據的邏輯組織層次如下圖:圖1數據的邏輯組織層次13數據項:組成數據庫系統的有意義的最小單位,用于描述一個數據處理對象的某些屬性,處于最底層,具有不可分割性。如:若數據處理的對象是公司員工,公司員工的屬性包括員工姓名、工作證號、職位、月份和薪金,則在數據庫系統中,可通過設置數據項表示這些屬性。14記錄:是與數據處理的某一具體對象相關的數據項的集合,用于表示一個具體的數據處理對象。如:如果把每一個員工的所有數據項排列在一起就形成了這個員工的一條記錄,每一條記錄都有主關鍵字,即唯一標示一條記錄的屬性。如,在公司員工記錄中,工作證號可以作為員工記錄的主關鍵字。15文件:是與某個特定的主題相關的同類記錄的集合,用于表示一個數據處理的對象集。如,員工薪金文件包含有關員工薪金的記錄。文件按其各記錄的長度是否相同又可分為:①定長記錄文件:是指文件中所有記錄的長度都相同。②變長記錄文件:是指文件中各記錄的長度不相同。如,姓名、單位地址、文章的標題等,有長有短,并不完全相同。16數據庫:按一定方式組織起來的邏輯相關的文件集合。如,公司員工數據庫中可包含員工薪金文件、員工工作考核文件、員工個人資料文件這三個不同的文件。數據庫是數據組織的最高形式,也是應用最廣泛的數據組織的管理方法和技術。17(2)數據的物理組織數據的物理組織指的是數據在存儲設備上的物理存取方式,依賴于存取的介質。

在基于計算機的信息系統中,文件是數據庫組織的基礎,任何對數據庫的操作最終都要轉化為對文件中數據的操作。不同的數據物理組織形式對應著不同的數據處理方式,同時也將直接影響著整個系統的存取效率。

18如企業的人事系統存儲了大量的職工數據,這些數據一般不會經常改動,其主要目的是進行查詢,采用的組織形式應盡量使查詢響應的時間變短。而商店的銷售系統,存儲大量的銷售數據,每天結束后要進行相關的統計操作,其主要目的是對數據的相關處理,采用的組織形式應使數據處理的效率高。對于這兩種用途,數據的物理組織形式應是怎樣的呢?提出問題?19數據的存取方式有順序存取和直接存取。①順序存取:按照數據存儲的順序來訪問。

順序存取的文件的邏輯順序與物理順序一致,一個邏輯上連續的文件信息被存放在連續變化的物理塊或物理記錄中,數據在存儲設備上占有一段連續的存儲空間。如:磁帶順序存取存放的文件結構簡單,便于程序設計;但缺點是操作效率低,若文件較大,對記錄的查詢、插入操作所花費的時間較長。

數據的存取方式20②直接存取:不需要經過其他的數據而直接訪問所需要的數據的方式。

直接存取的文件只能存儲在磁盤等隨機存儲設備上,其邏輯順序與物理順序不一致。只要確定了某個記錄的存儲地址,就可直接對其進行存取操作,而不必考慮和其他記錄之間的關系。如磁盤、光盤、U盤等。21對商店的銷售數據,邏輯上需要銷售數據按時間先后排列,這樣便于對數據進行統計分析,因此,商店銷售系統采取的存取方式可以采用順序存取方式。對企業人事系統,要求數據的存取效率高,查詢速度快,插入、刪除簡單,因此,可以采取直接存取方式。答案是:銷售數據—順序存取;

人事數據—直接存取你想到了嗎?問題的答案22(二)數據組織的發展過程數據管理技術的發展,與計算機硬件和軟件技術發展有密切的關系,并隨著信息處理需求的發展而不斷發展。總起來講,數據組織的發展經歷了四個階段:人工管理階段(1946年-20世紀50年代中期之前)文件系統管理階段(20世紀50年代后期到60年代中期)數據庫階段(20世紀60年代后期-80年代中期之前)高級數據庫階段(20世紀80年代中期)23(1)人工管理階段(20世紀50年代中期前)

人工管理階段又稱為數據庫系統的簡單應用階段。在20世紀50年代中期以前,計算機主要用于科學計算。外部存儲器大多采用的是順序存取設備,如磁帶、卡片等,沒有磁盤等直接存取設備。軟件只有匯編語言,沒有操作系統軟件,更沒有數據管理方面的軟件,數據的管理者是人。

24特點

①數據和程序依賴性強,數據均由應用程序直接管理:數據是面向應用的,每一個應用程序都自帶數據,數據和程序緊密相連,成為程序的一個重要組成部分。②數據不能長期保存:主要原因是這個時候的計算機主要用于計算,將原始數據連同程序一起輸入內存,計算完畢后輸出結果,同時釋放數據空間。且沒有軟件系統對數據進行管理。③數據無法共享:數據完全分散,大量重復,數據存在的形式和時間長短完全依賴于所依附的應用程序,數據之間的相關性無法處理。25數據程序無獨立性數據不能長期保存數據無法共享人工管理階段人工管理階段

26(2)文件管理階段(20世紀50年代后期到60年代中期

計算機應用范圍逐漸擴大,不光用于計算,還用到了信息管理上。計算機硬件有了磁盤、磁鼓等直接存取的存儲設備,數據可長期存儲在這些外部存儲器的磁盤上。軟件領域有了高級語言和操作系統,操作系統中的文件系統作為專門的數據管理軟件,這使得數據不再屬于某個特定的程序,具備一定的獨立性,但是由于此時文件結構的設計仍然是基于某些特定的用途,程序也基于某些特定的物理結構和存取方法,因此數據和程序的依賴關系沒有從根本上改變。27特點

①數據、程序分開存儲:數據被組織成文件的形式保存在外存上,實現了以文件為單位的數據共享,文件可保存,可反復使用。②數據、程序仍相互依賴:程序和數據分離,但數據和應用程序獨立性不高,因為文件系統的邏輯結構是對應于某個具體的應用程序的,為某個應用所組織的數據與其它應用所組織的數據不兼容,若文件結構發生變化,則相應的應用程序也要進行修改。28③數據冗余和數據不一致:數據文件是面向應用的,多個文件間無相關性,同樣的數據可能存放在不同的文件中,造成數據冗余的現象。如,宿舍管理處,財務處,學生管理處都會保存學生文件,而像學生名、性別、聯系方式等數據項幾乎在每個文件中都重復出現。導致在更新時容易產生數據的不一致。④管理困難:各個數據文件相互獨立,分散保管,文件所有者很難對它們進行管理。文件之間的聯系只有通過程序才能實現。當用戶需要的信息來自不同文件時,就需要對多個不同文件的信息內容進行提取、比較、組合。29文件管理階段數據程序分開存儲數據程序相互依賴數據冗余度大數據不一致性文件管理階段30(3)數據庫階段(20世紀60年代后期到80年代早期

隨著組織管理規模的擴大,處理的數據量急劇增加,文件系統的數據冗余和數據不一致使得數據管理變得非常困難,數據庫系統和大容量外存設備的出現又使數據管理技術得到了進一步發展。數據庫技術是在文件系統上發展起來的一種理想的數據管理技術,是一個相關數據的集合,可實現數據被多個應用程序共享。如,它可以將一個單位或一個部門所需的數據綜合組織在一起,由數據庫管理系統軟件實現對數據庫的定義,操作和管理。31特點①采用復雜的數據模型表示數據結構:數據庫中數據模型不僅描述了數據自身的特征,還描述了數據間的關系,使數據結構化,這是數據庫和文件系統的本質區別。②數據冗余度小,能夠實現數據共享:數據庫系統允許多個用戶或多個應用程序同時訪問數據庫中的相同數據,數據不再面向特定的某個或多個應用,而是面向整個系統,相關數據集合可由多個應用程序共享,節省了存儲空間,避免了數據間的不一致現象。32③具有較高的數據獨立性:數據庫系統提供了三層數據抽象(視圖級抽象、概念級抽象、物理級抽象)能力和三種數據庫模式(外模式、模式和內模式),實現了數據的物理獨立性和邏輯獨立性。數據和程序相互獨立,數據的存取和交換均由數據庫管理系統統一管理,用戶以簡單的邏輯結構操作數據而無需考慮數據的物理存儲結構。④為用戶提供了方便的接口:用戶可以使用查詢語言如SQL或終端命令訪問數據庫,也可以用程序指令操作數據庫。

33⑤提供統一的數據控制功能:為了適應數據共享的環境,數據庫管理系還提供了以下四種數據控制功能:并發控制:控制多個事務的并發運行,避免并發程序間相互干擾,保證每個事務產生正確的結果。數據恢復:當數據庫由于意外故障被破壞時,系統有能力把數據庫回復到最近某已知的正確狀態。數據完整性:通過完整性約束保證數據的正確性、有效性和相容性,如將數據控制在有效的范圍內,如設定工資的范圍;數據安全性:為不同用戶設置不同權限,保證數據的安全。34數據程序完全獨立數據可以共享數據模型表示數據結構數據庫階段數據庫階段

35圖2銀行文件處理系統

示例:銀行事務處理客戶財務報表帳戶核對處理存款處理分期貸款處理貸款分析報告客戶票據存款文件帳戶核對文件帳戶核對程序存款程序客戶交易分期貸款程序分期貸款文件36客戶交易處理數據庫管理系統核對帳戶程序存款帳目程序分期貸款程序客戶數據庫..圖3銀行數據庫系統

37(4)高級數據庫階段(20世紀80年代中期至今

隨著管理環境的變化,企業中的數據和信息的類型發生了變化;而隨著多媒體技術和網絡技術的成熟,企業中的數據和信息的處理方式也發生了變化,從而導致數據庫技術出現了新的發展趨勢,這些新趨勢允許組織在不同的場所對數據進行處理,允許數據庫中存放聲音,圖像等,并允許在大量的,雜亂無章的數據中找出某些相關性。這使得數據庫技術發展到了高級數據庫階段。38①分布式數據庫

分布式數據庫是由一組物理位置分散的數據庫構成的,它們在邏輯上屬于同一個系統。

分布式數據庫系統可以簡單地被看成是“數據庫系統+計算機網絡”,但它又不是二者的簡單結合,而是兩種技術的互為滲透與融合。它要管理的不是單個數據庫系統,而是分布在許多不同地域上的多個數據庫系統。使用計算機網絡也不僅僅是為了簡單的傳輸文件,而是為了更能適應于一個特定組織高效地管理信息。39分布式數據庫系統具有分布性和邏輯協調性的特點。分布性:是指數據不是存放在單一場地為單個計算機配置的存儲設備上,而是按全局需要將數據劃分成一定結構的數據子集,分散的存儲在各個節點上,提高了數據的處理效率。邏輯協調性:是指各節點上的數據子集,相互間由嚴密的約束規則加以限定,它們既相互獨立又邏輯相關,在邏輯上形成一個整體。40需關注的問題:

分布式數據庫的性能取決于高質量的網絡通信線路,線路的脆弱會嚴重影響分布式數據庫的運行功效。同時由于遠程數據庫要不斷從中央數據庫取數據,這樣就牽涉到一個敏感的數據的安全性保護的問題,也需要建立有效的手段加以保證。41②多媒體數據庫

隨著信息數量和多媒體數據的引入,信息的管理和檢索變得越來越困難,給數據庫技術帶來了新的挑戰。20世紀80年代,由于計算機在處理聲音和圖像信息方面的發展,出現了聲音文件和圖像文件,于是就誕生了多媒體數據處理的新方法--多媒體數據庫。42

多媒體是指多種媒體,如數字,正文,圖形,圖像和聲音的有機集成。多媒體數據庫,是指在數據庫中不僅可以存儲文本和數據,而且還可以存儲圖像,音頻和視頻信息以及這些不同類型數據間的復雜關系。43③數據倉庫

隨著市場競爭的加劇和信息社會需求的發展,從大量數據中提取(檢索和查詢等)制定相應策略的信息就顯得越來越重要。

如,超市的經營者希望知道哪些商品經常被同時購買;保險公司想知道購買保險的客戶的一般特征;醫學研究人員希望從已有的成千上萬份病歷中找出患有某種疾病的病人的共同特征,從而為治愈這種疾病提供幫助等。1.為什么要建立數據倉庫?45從數據庫到數據倉庫管理信息的處理類型:(1)事務型處理:業務操作處理,用來協助企業對相應事件或事務的日常商務活動進行處理。是事件驅動、面向應用的,通常是對一個/組記錄的增、刪、改以及簡單查詢等,以滿足組織特定的日常管理需要;(2)分析型處理:用于管理人員的決策分析,例如DSS、EIS和多維數據分析等。幫助決策者分析數據以察看趨向、判斷問題。分析型處理經常要訪問大量的歷史數據,支持復雜的查詢分析。1)數據庫的局限數據庫作為數據資源,主要用于管理業務中的事務處理。如,電信部門的計費數據庫用于記錄客戶的通信消費情況;銀行的數據庫用于記錄客戶的賬號、密碼、存入和支出等一系列業務行為。數據庫中存放的數據基本上是保存當前數據,并隨業務的變化隨時更新數據庫中的數據。不同的管理業務需要建立不同的數據庫。例如,銀行中儲蓄業務、信用卡業務分別要建立儲蓄數據庫和信用卡數據庫。1)數據庫的局限當事務型處理環境和分析型處理環境在同一個數據庫系統中,事務型處理對數據的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續運行幾個小時,從而消耗大量的系統資源。決策型分析數據的數據量大,這些數據有來自企業內部的,也有來自企業外部的。來自企業外部的數據又可能來自不同的數據庫系統(異構),在分析時如果直接對這些數據操作會造成分析的混亂。對于外部數據中的一些非結構化數據,數據庫系統常常是無能為力的。482)操作型與分析型環境的分離要擺脫傳統數據庫面臨的困境,必須將用于事務處理的數據環境和用于數據分析的數據環境分離:(1)事務型處理:以傳統數據庫為中心進行企業的日常業務處理,其使用人員通常是企業的具體操作人員;處理企業業務的細節信息,以實現企業的業務運營;(2)分析型處理:分析數據背后的關聯和規律,為企業決策提供可靠依據,其使用人員通常是企業的中高層管理者,或從事數據分析的工程師;處理企業的宏觀信息,而非具體細節,以為企業的決策者提供支持信息。49分離示意圖502)操作型與分析型環境的分離

操作型處理和分析型處理的分離,劃清了數據處理的分析型環境與操作型環境之間的界限,從而由原來的以單一數據庫為中心的數據環境發展為以數據庫為中心的業務處理系統和以數據倉庫為基礎的分析系統。

企業的生產環境,也由以數據庫為中心的環境發展為以數據倉庫為中心的環境。5152轉換同時進行的集成2.什么是數據倉庫?數據倉庫(DataWarehouse)數據倉庫是為構建分析型數據處理環境而出現的一種數據存儲和組織技術。用來保存從多個數據庫或其它信息源選取的數據,并為上層應用提供統一用戶接口,完成數據查詢和分析。在數據倉庫的發展過程中,許多人作出重要貢獻:

Devlin&Murphy(1988):發表關于數據倉庫論述的最早文章;WilliamH.Inmon(1993):《BuildingtheDataWarehouse》,首次系統闡述數據倉庫的思想、理論,被尊為“數據倉庫之父”。數據倉庫(DataWarehouse)數據倉庫的定義很多,但卻很難有一種嚴格的定義:它是一個提供決策支持功能的數據庫,它與公司的操作數據庫分開維護。為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持。數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.---3.數據倉庫有哪些特點?數據倉庫的關鍵特征關鍵特征:

面向主題;

集成的;

隨時間而變化的(時變的);不容易丟失的(穩定的)。58面向主題面向主題,是數據倉庫顯著區別于關系數據庫系統的一個特征;給出數據倉庫中數據組織的基本原則,數據倉庫中所有數據都是圍繞某一主題組織、展開的;主題在邏輯上對應的是企業中某一宏觀分析領域所涉及的分析對象;要能刻畫分析對象所涉及的企業各項數據,以及數據間的聯系。如,一個生產企業的數據倉庫所組織的主題可能是產品訂貨分析和貨物發運分析,而按應用組織的話可能為財務子系統、供應子系統、銷售子系統、人力資源子系統和生產調度子系統等。典型的主題領域:客戶、產品、交易、賬目等。59面向主題關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理。60集成性一個數據倉庫是通過集成多個異種數據源來構造的;關系數據庫,一般文件,聯機事務處理記錄數據倉庫中的綜合數據不能從原有的數據庫系統直接得到,需使用數據清理和數據集成技術對數據進行處理:統一元數據中矛盾之處:確保命名約定、編碼結構、屬性度量等的一致性。當數據被移到數據倉庫時,它們要經過轉化:進行數據綜合和計算。61隨時間而變化的(時變的)數據倉庫從歷史的角度來提供信息:時間范圍比操作數據庫系統要長的多操作數據庫系統:主要保存當前數據;數據倉庫:從歷史的角度提供信息(比如過去5-10年)62數據不易丟失(穩定的)盡管數據倉庫中的數據來自于操作數據庫,但他們卻是在物理上分離保存的操作數據庫的更新操作不會出現在數據倉庫環境下。只進行兩種數據訪問:數據的初始裝載;

查詢操作。數據倉庫與傳統數據庫的區別比較項目傳統數據庫數據倉庫總體特征高效的事務處理提高決策支持存儲內容當前數據為主歷史的、存檔的、歸納的數據面向對象普通的業務處理人員高級的決策管理人員功能目標面向業務操作面向主題,注重分析主要任務聯機事務處理OLTP聯機分析處理OLAP匯總情況原始數據,不做匯總多層次匯總數據庫設計實體-聯系模型(ER)和面向應用的數據庫設計星型/雪花模型和面向主題的數據庫設計數據視圖當前的,企業內部的數據演化的、集成的數據訪問模式事務操作只讀查詢數據規模較小(100MB~1GB)較大(10GB以上)數據訪問量數十條記錄數百萬條記錄響應要求很高的實時性對實時性要求不高度量事務吞吐量查詢吞吐量、響應時間64數據集市(DataMart)的產生數據倉庫的局限:企業級應用,涉及的范圍和投入的成本非常巨大;而企業的部門/工作組常要求在企業內部獲得一種適合自身應用、容易使用,且自行定向、方便高效的開放式數據接口工具。這種需求使得“數據集市”應運而生。65數據集市的定義業界對數據集市的定義差別較大,但普遍認為:數據集市是一種更小、更集中的數據倉庫(子集);它為企業提供了一條部門/工作組級的分析商業數據的廉價途徑。與數據倉庫相比,數據集市的數據量要小得多。66數據集市與數據倉庫的區別

數據倉庫:企業級的,能為整個企業各個部門的運行提供決策支持手段;

數據集市:微型的數據倉庫,通常有更少的數據,更少的主題區域,更少的歷史數據,因此是部門級的,只能為某個局部范圍內的管理人員服務,因此被稱為“部門級數據倉庫”。67數據集市的分類數據集市有兩種類型:獨立型數據集市:為滿足企業內部各部門的分析需求而建立的微型數據倉庫。可實施集成,以構建完整的數據倉庫。從屬型數據集市:其內容不直接來源于外部數據源,而是從中央數據倉庫中得到。在數據倉庫內部,數據根據分析主題,被劃分為若干子集,而面向某一具體主題在邏輯上或物理上劃分形成的子集,就是從屬型數據集市。68獨立型數據集市從屬型數據集市69

數據倉庫是信息技術領域談論的一個熱門話題。數據倉庫概念是對數據庫概念的進一步深化。數據倉庫的建立并不是要取代數據庫,它建立在一個較全面和完善的信息應用基礎之上,用于支持高層決策的分析。注意:70

數據倉庫是現有的數據庫系統中的數據和其它一些外部數據的一次重組,重組時要以數據倉庫能更好地為決策分析應用提供數據支持為原則。簡單地說,數據倉庫就是一個為特定的決策分析而建立的數據倉儲。71(三)商務智能技術如何對數據進行快速和準確分析,從而為企業做出更好的商業決策,帶來競爭優勢,這是商務智能研究的問題。任何好的商務決策都需要事實和數字支持。一個決策的正確程度取決于所使用的事實和數字的正確程度。隨著競爭的加快,需要在較短的時間內做出決策。因此,在該時間段內,能夠盡可能多地獲得相關信息就變得越來越關鍵。72在這些實踐的需求下,人們發明了許多數據分析的技術。總起來講,數據分析技術的發展可分為三個階段:(1)報表查詢;(2)聯機分析處理(OLAP);(3)數據挖掘。73(1)

聯機分析處理OLAP

聯機分析處理(On-LineAnalysisProcessing),簡寫為OLAP。OLAP是關系數據庫的奠基人在1993年提出來的,主要用于對大量多維數據的動態綜合,分析和歸納。74①什么是多維分析

“多維分析”

是OLAP中的一個主要操作。維是人們觀察數據的特定角度。如,一個企業在考慮產品的銷售情況時,通常從時間、地區和產品的不同角度來深入觀察產品的銷售情況。這里的時間、地區和產品就是維。而這些維的不同組合和所考察的度量指標構成的多維數組則是報表分析的基礎,可形式化表示為(地區、時間、產品、銷售額)。75

多維分析是指對以多維形式組織起來的數據通過各種分析動作,剖析數據,使用戶能從多個角度、多側面地觀察數據庫中的數據,從而深入理解包含在數據中的信息。

76切片和切塊(sliceanddice)切片:在多維視圖中,如果某個維度上的取值選定了一個固定值,原視圖就降低了一個維度,可能就把原來的三維視圖變成了二維,四維變成了三維,即進行了切片操作。切塊:如果某個維度上的取值范圍縮小到一個區間,原視圖的維度沒有降低,但內容減少了,即進行了切塊操作。②多維分析的方法

77切片與切塊78

鉆取(drill)多維視圖中的每個維度的取值可以分層,如時間維的取值可以按年-季-月-日分層;地區可以按州-國家-地區-城市分層。鉆取就是按某個維度上的不同取值層次變換多維視圖,鉆取包括向上鉆取(roll

up)和向下鉆取(drill

down)。

roll

up:在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數;drill

down:從匯總數據深入到細節數據進行觀察或增加新維。如從月份到年為向上鉆取,反之為向下鉆取。79鉆取80旋轉(rotate)

變換維的方向,即在表格中重新安排維的放置(例如行列互換)。通過對多維視圖中各個坐標的旋轉變化可以得到不同視角的數據。如,從分析產品在不同月份的銷售情況,旋轉為某月份哪些產品的銷售情況較好。

81旋轉/轉軸82(2)

數據挖掘DM

數據挖掘(DataMining,DM)是從數據庫中抽取隱含的,以前未知的,具有潛在應用價值的信息的過程。數據挖掘建立在數據倉庫基礎之上,面向非專業用戶,支持即興的隨機查詢,能自動分析數據,對它們進行歸納性推理和聯想,尋找數據間內在的某些關聯,從中發掘出潛在的,對信息預測和決策行為起著十分重要作用的模式,從而建立新的業務模型,以幫助決策者制定市場策略,做出正確決策。83數據挖掘的主要方式:

①分類(classification)

分類是從大量數據中找出不同類別對象的特征,從而對新加入的對象能自動分類。

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對那些沒有分類的數據進行分類。因此,分類是一種“有監督”的學習。

例如銀行會根據各類客戶的數據特征,把客戶分為低、中、高信譽度三類,以后就能快速判斷一個新客戶的信用類別;還可用于預測可能流失投奔競爭對手的客戶等。84數據分類過程數據分類是一個兩步的過程:1)建立分類模型:機器學習過程,通過某種分類算法對訓練集進行訓練,得到分類模型;“有指導的學習”、“有監督的學習”假定每個元組屬于一個預定義的類,由一個稱為類標號屬性的屬性確定;訓練數據集:為建立分類模型而被分析的數據元組2)使用模型進行分類:測試數據集:用于評估模型的預測準確率。模型在測試集上的準確率是正確被模型分類的測試樣本所占的百分比。如認為模型的準確率可以接受,就可以用它來對類標號未知的數據元組或對象進行分類。85圖

分類示意圖86分類過程的第一步:學習建模87分類過程的第二步:分類測試88②

聚類(clustering)聚類是一個將數據集劃分為若干組(class)或類(cluster)的過程,并使得同一個組內的數據對象具有較高的相似度;而不同組中的數據對象是不相似的。

相似或不相似是基于數據描述屬性的取值來確定的,通常利用各數據對象間的距離來進行表示。例如通過聚類將超市的客戶劃分成互不相交的客戶群,以后超市可以為不同的客戶群推薦不同的目標商品;對租VCD影碟的客戶進行聚類,可能得到屬于不同的文化群的客戶。

聚類與分類的主要區別:聚類是一

種無(教師)監督的學習方法。與分類不同,其不依賴于事先確定的數據類別,以及標有數據類別的學習訓練樣本集合。

因此,聚類是觀察式學習,而不是示例式學習。聚類分類監督(指導)與否無指導學習(沒有預先定義的類)有指導學習(有預先定義的類)是否建立模型或訓練否,旨在發現空間實體的屬性間的函數關系。是,具有預測功能例:撲克牌的劃分(聚類)撲克牌的劃分屬于聚類問題。在不同的撲克游戲中基于不同相似性度量(花色、點數或顏色),對撲克牌進行劃分。

聚類與分類的主要區別:(b)(a)(c)(d)圖

十六張牌基于不同相似性度量的劃分結果例:垃圾郵件的識別(分類)垃圾郵件的識別屬于分類問題,所有訓練用郵件預先被定義好類標號信息,即訓練集中的每封郵件預先被標記為垃圾郵件或合法郵件信息,需要利用已有的訓練郵件建立預測模型,然后利用預測模型來對未來未知郵件進行預測。聚類與分類的主要區別:93③關聯規則發現(associationrulediscovery)

關聯規則發現是在大量數據中找出有關聯的數據,或者找出同時發生的事件。如:超市中客戶在購買A的同時,經常會購買B,即A=>B。典型應用:“啤酒與尿布”。超市貨架的組織——“啤酒與尿布”

貨架的組織會影響商品的銷售!超市商品按什么原則擺放?尿布與啤酒被擺在一起。為什么?原來,美國的婦女通常在家照顧孩子,所以她們經常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這種現象就是賣場中商品之間的關聯性,研究“啤酒與尿布”關聯的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助超市在銷售過程中找到具有關聯關系的商品,并以此獲得銷售收益的增長!關聯銷售!關聯規則挖掘典型例子:購物籃分析如,在同一次購物中,如果顧客購買牛奶,則他同時購買面包(和什么類型的面包)的可能性有多大?“啤酒與尿布”基本概念1)支持度(support):支持度是模式為真的任務相關的元組(或事務)所占的百分比。對于形如“”的關聯規則,支持度定義為:其中,A、B是項目的集合。示例:假定任務相關數據由AllElectronics的計算機部的事務數組成,一個支持度為30%的關聯規則:意味著在計算機部的所有顧客中,有30%同時購買了計算機(A)和軟件(B)。2)置信度(certainty):每個發現的模式都有一個表示其有效性或值得信賴性的度量。對于形如“”的關聯規則,其有效性度量為置信度,定義為:其中,A、B是項目的集合。示例:假定任務相關數據由AllElectronics的計算機部購買物品的事務數組成,一個置信度為85%的關聯規則:意味著買計算機(A)的顧客中,有85%也同時購買了軟件(B)。基本概念3)強關聯規則:

置信度表示規則的可信度;支持度表示模式在事務數據庫中的出現頻率;同時滿足用戶定義的最小置信度和最小支持度閾值的關聯規則,稱為強關聯規則(strongassociationrule),并被認為是有趣的。基本概念100④時序模式發現(sequentialpatterndiscovery)

時序模式發現主要尋找事件發生的時序關系,如通過對超市數據的跟蹤分析,可能會尋找出類似于如下的時序模式:客戶在購買A后,隔一段時間,會購買B。101背景:有一家叫做“體育”的體育用品公司,公司總部在悉尼,并在其他7個國家中設有銷售辦事處。且在不同的銷售地點都建立起管理本地域內銷售信息的信息系統。為了增加銷售,銷售副總裁決定通過獎勵的方式來進行促銷,銷售額最多的地區和銷售最多的產品將受到獎勵。這位副總裁要求首席信息官(CIO)寫出相關的調查報告。綜合案例:用商務智能技術提高你的商務決策水平

102分析:對CIO來說,這項任務看起來很簡單,但在生成這些報告之前有許多工作要做,并且特別需要在短時間內解決:數據的整合:銷售數據存儲在不同地區不同類型的數據庫中。數據的格式與單位:在不同的地區,數據的存儲格式不一致,且營業額數據的單位也不一致,采用的是所在國家的貨幣單位。

103(1)數據倉庫的應用

首先,所有的數據都必須集中到總部,形成存儲整個企業所有相關信息的數據倉庫。相對而言,公司中的單個部門用的信息庫可被稱作數據集市。借助于數據倉庫工具,如IBMVisualWarehouseV3.1,這些任務可以很快定時地自動完成。我們得到美國的西雅圖是銷售額最高的地區,而山地車是最暢銷的產品。負責銷售頭盔的副總裁看到上面的報告,他決定看看新建的數據倉庫能否給他提供更多的信息來幫助他提高銷售額。CIO建議采用在線分析處理OLAP的方法。104(2)OLAP的應用

CIO幫助副總裁用OLAP方法來進一步分析數據,下面的多維分析涉及五個維度,即產品、銷售、數量、地區和時間。副總裁想要知道的是:(1)1月份,頭盔在什么地區銷售最好?(2)1月份,哪個國家的頭盔銷售在該暢銷地區處于領先地位?(3)在領先的國家中,哪個城市的頭盔銷售收入最高? 105要回答這些問題,CIO必須要用到OLAP中鉆取和切片的方法。切片:固定1月份、頭盔和銷售,相當于去掉了三個維度(產品,銷售,時間),只在數量和地區兩個維度上進行分析。鉆取:確定了地區后,采取下鉆的方法,將該地區按國家展開,分析哪個國家的銷售最高?繼續下鉆,從城市維度進行分析。106按地區劃分的頭盔銷售數據數據分析:107數據分析:按地區和國家劃分的頭盔銷售數據108數據分析:按地區、國家和城市劃分的頭盔銷售數據109最終我們可以得到類似下面這樣的結論:(1)1月份,頭盔在歐洲地區銷售最好;(2)1月份,德國是歐洲頭盔最暢銷的國家;(3)德國漢諾威是頭盔最暢銷的城市。110這位副總裁同時發現,盡管山地車在西雅圖銷售最多,但頭盔的銷售卻不盡如人意。頭盔與山地車的比例大約是1:5。但他還注意到,在漢諾威該比例卻幾乎是1:1,這時他記起來,在西雅圖的商店里山地車和頭盔放置得不像在漢諾威那樣近。他決定在西雅圖的商店里把這2種產品擺放在一起,并每天查看頭盔和山地車的銷售狀況。111數據分析:山地車和頭盔銷售的比較112這說明在山地車和頭盔之間存在著關聯,通過多維分析的方法,我們可以發現這些關聯,但是如果想要發現更多的關聯,這樣做會非常浪費時間。而數據挖掘可以系統地幫助我們解決這些問題。113(3)數據挖掘的應用數據挖掘不僅能夠允許用戶確定假設,而且還幫助用戶發現新的信息,如上面提及的關聯。IBM的IntelligentMinerfordata和IntelligentMinerfortext是一種數據挖掘工具。前者用來對數據進行搜尋,如公司中的交易數據;后者則用于對文本數據的搜尋,如在圖書館中進行檢索。

IntelligentMiner中包含6種主要算法:關聯、順序模型、預測模型、分類、聚類和偏差識別。114前面提到,副總裁發現山地車和頭盔的銷售不是1:1,還存在其他類似的問題嗎?CEO可能想到的問題如下:(1)對購買山地車的客戶來說,什么是最可能會同時購買的商品?(2)購買氣瓶的顧客1年內回來充氣多少次?115IntelligentMinerfordata可以使用關聯算法來回答第一個問題。關聯算法用以發現產品之間的聯系。對第一個問題的回答是:頭盔,可能性為92%;手套,可能性為62%;新款鈴鐺,可能性為23%;速度計,可能性為13%。根據上面的答案,它會給銷售人員一個目錄,列出在銷售某一具體產品時所建議的前3名關聯產品。例如,如果銷售山地車,銷售人員可建議購買頭盔、手套和新款鈴鐺。116IntelligentMinerfordata對CEO的第二個問題會給出如下答案:在購買氣瓶的顧客中,有12%會回來充1次氣;8%的客戶會回來充2次氣;7%的客戶回來充氣的次數超過2次。根據上面的結果,公司可能做出兩個決定,一個是考慮到充氣業務不是很景氣,放棄充氣;另一種是對多于2次的充氣給于25%的折扣優惠來提高充氣業務。公司還可以采取其他行動,如依然堅持充氣業務,給現有和新的氣瓶擁有者提出刺激措施:如給購買氣瓶的顧客郵寄信函提醒他們要回來充氣;在客戶停車場建立更多的便利充氣站以及每一次充氣都發折扣優惠券。1173個月后,公司有了如下結果:季度的營業額上升了34%,收入上漲了34%;山地車與頭盔一起購買成了時尚;手套的銷售上升了15%;氣瓶充氣的銷售也開始上升。因此,用商務智能技術可以幫助組織提高商務決策水平,最終的結果是增加銷售額,提升利潤。118小結:數據倉庫、OLAP和DM是三種獨立的信息處理技術。

數據倉庫用于數據的存儲和組織;

OLAP集中于數據的分析;DM則致力于知識的自動發現。

119(四)數據模型(1)數據模型的定義

數據庫是企業、組織或部門所涉及的數據的綜合,它不僅反映數據本身的內容,而且還反映數據直接的聯系。在數據庫系統中用數據模型來抽象地表示這些具體數據。數據模型即表示數據和數據之間的聯系的方法。數據模型是為了便于DBMS的管理而構造的,是數據庫系統的基礎,任何數據庫系統都是基于某種數據模型的。120(2)數據模型的分類概念模型:它是從現實世界到機器世界的一個中間層次,抽象現實系統中有應用價值的元素及其關聯關系,反映現實系統中有應用價值的信息結構。如:實體--聯系(E-R)模型。組織模型:它是從機器世界到數據世界的過渡,從數據的組織方式的角度來描述信息。如:層次模型、網狀模型、關系模型和面向對象模型等。121現實世界機器世界數據世界人們頭腦之外的客觀世界,它包含客觀事物及其相互聯系信息世界,是現實世界在人們頭腦中的反映現實世界中的事物及其聯系,在數據世界中用數據模型描述概念模型組織模型122①層次模型

層次模型是用樹型結構表示不同數據之間的聯系,是以記錄類型為節點的有向樹。每條記錄類型對應某個實體類型,每個記錄類型可包含若干個字段,字段描述實體的屬性。在這種模型中數據之間是一對多的關系。其特點是:有且僅有一個節點沒有雙親節點,稱之為根節點;其他節點有且僅有一個父節點。123圖1層次數據模型結構

如圖,每個記錄只有一個雙親節點,即從一個節點到其雙親節點的映射是唯一的,所以對于每一個記錄(除根節點外)只需指出它的雙親記錄,就可以表示出層次模型的整體結構。

124示例:項目1研制情況的層次模型圖2從事項目1研制工作情況的層次模型125②網狀模型網狀數據模型是層次模型的擴展,是一種比層次模型更具普遍性的結構,描述的是一種多對多的關系。它取消了層次模型的一些限制,允許多個節點沒有雙親節點,允許節點有多個雙親節點,并允許兩個節點間有多種聯系。網狀模型的特點是:有一個以上的節點沒有雙親;至少有一個節點可以有多于一個的雙親。126圖3網狀數據模型結構如圖,每個記錄可以有多于一個的雙親節點,即從一個節點到其雙親節點的映射不是唯一的。

127示例:項目1研制情況的網狀模型圖4從事項目1研制工作情況的網狀模型128③關系模型關系模式是建立在數學概念基礎上,應用關系代數和關系演算等數學理論處理數據的方法。這類方法的應用最早是從1962年CODSYL發表的“信息代數”開始的,但系統而嚴格地提出關系模型的是美國IBM公司的,他從1970年起連續發表了多篇論文,奠定了關系數據庫的理論基礎。從用戶的觀點看,在關系模型下,數據的邏輯結構是一張二維表,每一個關系為一張二維表,相當于一個文件。數據之間的聯系均通過關系進行描述。129關系模型的結構:關系:一個關系對應于一張二維表。元組:表中一行稱為一個元組,相當于一條記錄。屬性:表中一列稱為一個屬性。給每列起一個名即為屬性名。主鍵(PrimaryKey):用于唯一的確定一個元組。域:屬性的取值范圍。如:性別的域{男,女}

。外鍵:表中的屬性或屬性組是其他表中的主鍵。130姓名工作證號*職位月份薪金陳艷南0009604工程師2008年10月5000謝永強0008435銷售員2008年10月3000劉英0009885秘書2008年10月2000示例:項目1研制人員的關系模型131關系模型的完整性約束:1)實體完整性:規定每個表都有自己的主鍵,主鍵的值唯一而且不能為空;2)參照完整性:對關聯關系的一種約束,一個表中某列的值要受另一個表中某列取值的限制,關系數據庫中一般是通過外鍵來實現;3)用戶定義的完整性:也叫域完整性或語義完整性,規定屬性值應是域中的值,以及屬性值能否為空。132(五)關系數據庫的設計數據庫是數據庫系統中的一個重要組成部分,數據庫設計是指在一個給定的應用環境下,構造最優的數據庫模式,使之能夠有效地存儲數據,滿足各種用戶的應用需求(信息需求和處理要求)的過程。數據庫設計的質量將直接影響到信息系統的運行效率和用戶對數據使用的滿意程度,在信息系統的開發中占有重要的地位。

1331.數據庫的設計過程

現實世界中所存在的各種各樣的客觀事物及它們間的聯系是信息的根源,反映了用戶的需求和信息系統的具體應用環境,是組織和信息管理的出發點。客觀事物具有特定的性質來反映事物的特征,事物之間存在著廣泛的聯系。客觀存在的事物及聯系經過充分任務和分析后,可變為信息世界中對應的實體及聯系,實體及其聯系可由ER模型來表示。ER模型按照一定的規則可以轉化為某種DBMS所支持的數據模型。

1342.實體聯系模型(E-R模型)實體-聯系模型是于1976年提出的,它是一種對現實世界進行抽象的方法,用于描述整個組織的概念模式。ER模型實際上是現實世界到數據世界的一個中間層次,是在構造一個DBMS所接受的數據庫前建立的一個過渡性的模型。它直接面向現實世界,不考慮DBMS的限制,能夠方便,準確的表述出信息世界中的常用概念。135

實體聯系模型反映的是現實世界中的事物及其相互聯系。圖書作者寫作出版社類別頁數ISBN*書名姓名出生地身份證號*定稿時間價格1361)實體:反映現實世界中存在的事物。如:人、學生、教師、書、工作過程等。

實體名稱表示方法:(1)ER模型的結構1372)屬性:指實體具有的某種特性。表示方法:屬性實體名稱屬性1屬性2屬性n1383)聯系:反映了實體之間的語義關系,可以有屬性。

聯系表示方法:實體1實體2聯系139實體間的聯系情況比較復雜,可分為三種:一對一聯系;一對多聯系;多對多聯系。

140①一對一聯系

如果對于A中的一個實體,B中至多有一個實體與其發生聯系,反之,B中的每一實體至多對應A中一個實體,則稱A與B是一對一聯系。

系系主任任職11病區科室主任任職11婚姻關系141②一對多聯系

如果對于A中的每一實體,實體B中有一個以上實體與之發生聯系,反之,B中的每一實體至多只能對應于A中的一個實體,則稱A與B是一對多聯系。

教研室教師聯系1n父子關系142③多對多聯系

如果A中至少有一實體對應于B中一個以上實體,反之,B中也至少有一個實體對應于A中一個以上實體,則稱A與B為多對多聯系。教師學生教學mn醫生病人治療mn選課關系143(2)E-R圖建模實體及其聯系概念模型E-R圖144E-R圖繪制出版社價格圖書作者寫作類別頁數ISBN*書名姓名出生地身份證號*定稿時間①利用分類、聚集、概括等方法抽象出實體,并一一命名;②描述實體之間的聯系;③實體屬性和聯系屬性的說明。145構造E-R圖應注意的問題:①

注意標識實體屬性中的關鍵字;②

如果所處理的對象是一個比較大的系統,則應該先畫出各個部門的子E-R圖,然后再合并同類實體,消除冗余。146(3)ER模型向關系數據模型的轉換E-R圖關系模型1471)實體

相應轉換為一個關系,實體名稱作為關系名稱,該關系包括對應實體的全部屬性,并確定出該關系的關鍵字。轉換方法和原則之一1482)聯系:

相應轉換為一個關系,聯系名稱作為關系名稱,該關系包括聯系的全部屬性,以及聯系所對應的兩個實體的主關鍵字,且兩個主關鍵字共同作為該關系的關鍵字。1491)實體

相應轉換為一個關系,實體名稱作為關系名稱,該關系包括對應實體的全部屬性,并確定出該關系的關鍵字。轉換方法和原則之二1502)聯系:根據聯系的不同而進行不同的處理:

a.若為1:1聯系:只需將一方的主關鍵字加入另一方即可。151轉換舉例廠長號*姓名年齡廠長廠號*廠名地點工廠管理11廠長(廠長號,姓名,年齡)工廠(廠號,廠名,地點,廠長號)152

b.若為1:n聯系:

則要將“1”方的關鍵字加入“n”方實體的屬性中,若聯系也有屬性,同時也必須將聯系的屬性加入“n”方實體的屬性中。153轉換舉例倉庫號*地點面積倉庫貨號*品名價格產品存放1n倉庫(倉庫號,地點,面積)產品(貨號,品名,價格,數量,倉庫號)數量154c.若為m:n聯系:則要增加一個關系來聯系雙方的實體,其屬性有雙方的主關鍵字及聯系的屬性組成。155轉換舉例學號*姓名年齡學生課程號*課程名學時數課程學習mn學生(學號,姓名,年齡)課程(課程號,課程名,學時數)成績學習(學號,課程號,成績)156綜合轉換舉例:影碟出租管理的關系型數據庫設計要求:①可以查到顧客、影碟和影碟經銷商的基本情況;②可以查到顧客租借影碟的情況;③可以查到被借或已借影碟的經銷商情況。參考信息:(顧客姓名、顧客、顧客地址、影碟名、類型、租價、經銷商名、經銷商、租借日期、歸還日期)157設計過程如下:①確定實體及相關屬性顧客:其屬性為顧客標識號、顧客名字、顧客、顧客地址影碟:其屬性為影碟編號、影碟名、類型、租價影碟經銷商:其屬性為經銷商代碼、經銷商名、經銷商158②設計ER模型

159③把ER模型根據規則轉換成關系:顧客(顧客標識號、顧客名字、顧客、顧客地址)影碟(影碟號、影碟名稱、影碟類型、影碟租價,經銷商代碼)租用(標識號、影碟號、租借日期、歸還日期)影碟經銷商(經銷商代碼、經銷商名、經銷商)

160(六)面向對象模型(1)類:

具有同一屬性集和方法集的所有對象構成一個對象類,簡稱類。一個對象是某一類的實例。(2)對象:

現實世界中的任一實體都可看作是一個對象,每個對象都有唯一的一個對象標示(objectidentifier,OID),把狀態和行為封裝在一起。狀態:該對象一系列屬性的集合;行為:在對象狀態上操作的集合;161

(七)數據庫系統的組織數據庫系統的組織由以下五部分組成:數據庫(DB)硬件支持系統軟件支持系統數據庫管理員用戶1621)數據庫(DB)數據庫是與一個特定組織各項應用有關的全部數據的匯集,以一定組織形式存在存儲介質上。

DB通常由兩部分組成:物理數據庫:是數據庫的主體,是應用所需要的數據的集合。描述數據庫:關于各級數據結構的描述,由數據字典管理。1632)硬件支持系統

CPU內存外存輸入輸出設備數據通道等1643)軟件支持系統數據庫管理系統(DBMS)操作系統宿主語言應用程序等數據庫管理系統是管理數據庫的軟件,運行在操作系統之上各種宿主語言用于開發應用程序,并要與DBMS有良好接口1654)數據庫管理員(DBA)

使用DBMS的一個主要原因是可以對數據和訪問者寫數據的程序進行集中控制。對數據庫系統進行集中控制的人員稱為數據庫管理員DBA,承擔創建、監控和維護整個數據庫結構的責任。166數據庫管理員的職責:①模式定義:根據需求創建最初的數據庫概念模式,并經過DDL(數據描述語言)編譯器翻譯后以表的形式存儲在數據字典中;②定義內模式:即定義存儲結構和存取方式;③

模式及物理組織的修改:根據需求修改數據庫的概念模式和內模式;④數據訪問授權:規定不同用戶的訪問權限;⑤

數據完整性約束定義:數據庫種所存儲的數據的值必須滿足一定的一致性約束。1675)用戶

DBMS的用戶除了DBA之外,還可分為如下三類:①專業用戶:數據庫設計中的上層人士,如:系統分析員,負責分析用戶的業務需求和設計計算機解決方案,是系統開發的核心人物;②應用程序設計人員:通過宿主語言和DML語言編寫應用程序;③初級用戶:使用應用程序的非計算機人員,通過激活已有的應用程序與系統進行交互。168(八)數據庫系統的結構從數據庫管理系統的角度看,數據庫系統是由外模式、模式和內模式構成的三級模式結構;從數據庫最終用戶的角度看,數據庫系統的體系結構分為:單用戶結構、主從式結構、分布式結構和客戶/服務器結構。169(1)數據庫系統的三級數據模式結構應用A應用B應用C應用D應用E外模式1外模式2外模式3模式內模式數據庫外模式/模式映象模式/內模式映象1701)內模式(存儲模式)對數據物理結構和存儲結構的描述,依賴于數據庫的全局邏輯結構,但獨立于用戶模式,也獨立于具體的存儲設備。將全局邏輯結構中的數據結構及其聯系按照一定的物理存儲策略進行組織,以實現較好的時間和空間效率。一個數據庫只有一個內模式。1712)模式(邏輯模式(Schema))數據庫中全體數據的邏輯結構的描述,是所有用戶的公共數據視圖。處于數據庫系統結構的中間層,既不涉及數據的物理存儲細節和硬件環境,也與具體的應用程序無關。一個數據庫只有一個模式。172(3)外模式(ExternalSchema)也稱子模式或用戶模式,是用戶和數據庫的接口,是不同數據庫用戶的數據視圖,是對數據庫局部數據的邏輯結構和特征的描述,是模式的子集。外模式面向應用程序,一個數據庫可有多個外模式。173

模式反映的是數據的全局觀;內模式反映的是數據的存儲觀;外模式反映的是數據的用戶觀;全局觀、存儲觀只有一個,而用戶觀可能有多個。小結:1741)外模式/模式的映象:定義并保證了外模式與數據模式之間的對應關系,保證數據的邏輯獨立性。

每一個外模式都對應一個外模式/模式映象;當模式改變時,數據庫管理員修改有關的外模式/模式映象,使外模式保持不變;應用程序是依據數據的外模式編寫的,從而應用程序不必修改,保證了數據與程序的邏輯獨立性,簡稱數據的邏輯獨立性。(2)數據庫系統的二級映像技術1752)模式/內模式的映象及作用:定義并保證了數據的邏輯模式與內模式之間的對應關系,保證數據的物理獨立性。模式/內模式映象定義了數據全局邏輯結構與存儲結構之間的對應關系。數據庫中模式/內模式映象是唯一的;當數據庫的存儲結構改變了(例如選用了另一種存儲結構),數據庫管理員修改模式/內模式映象,使模式保持不變;應用程序不受影響。保證了數據與程序的物理獨立性,簡稱數據的物理獨立性。176(3)數據庫系統的體系結構

數據庫系統運行在計算機系統之上,數據庫系統的體系結構與計算機系統的體系結構密切相關。計算機的體系結構,如網絡、并行、分布等,都反映到數據庫體系結構中。所以,從用戶的角度來看,數據庫系統的體系結構分為單用戶、主從式、分布式和客戶/服務器結構等。177整個數據庫系統(應用程序、DBMS、數據)裝在一臺計算機上,為一個用戶獨占,不同機器之間不能共享數據。早期的最簡單的數據庫系統P169圖5-7。1)單用戶系統178一個主機帶多個終端的多用戶結構。整個數據庫系統,包括應用程序、DBMS、數據,都集中存放在主機上,所有處理任務都由主機來完成。各個用戶通過主機的終端并發地存取數據庫,共享數據資源。P169

圖5-8。2)主從式系統179主機終端主從式結構180優點易于管理、控制與維護。缺點

當終端用戶數目增加到一定程度后,主機的任務會過分繁重,成為瓶頸,從而使系統性能下降。系統的可靠性依賴主機,當主機出現故障時,整個系統都不能使用。1813)分布式系統數據庫中的數據在邏輯上是一個整體,但物理地分布在計算機網絡的不同結點上。網絡中的每個結點都可以獨立處理本地數據庫中的數據,執行局部應用;同時也可以同時存取和處理多個異地數據庫中的數據,執行全局應用;如果一個結點發生故障,其他結點還能繼續工作,使系統的可用性大大增強。182優點

適應了地理上分散的公司、團體和組織對于數據庫應用的需求。缺點數據的分布存放給數據的處理、管理與維護帶來困難;當用戶需要經常訪問遠程數據時,系統效率會明顯地受到網絡傳輸的制約。1834)客戶/服務器系統

客戶/服務器結構的數據庫系統將數據庫管理功能和應用分開:

服務器:負責數據庫管理系統的功能;客戶機:通過安裝DBMS外圍的應用開發工具,支持客戶的應用。184服務器分類:事務服務器(查詢服務器):提供一個接口,使得用戶可以發出執行一個動作的請求,服務器響應客戶請求,執行該操作,并將結果返回用戶;數據服務器:使用戶可以向服務器發出請求,以文件或頁面等為單位對數據進行讀取或更新。185數據庫功能:前端:包括表格生成工具、報表書寫工具、圖形用戶界面工具等;后端:負責存取結構、查詢計算和優化、并發控制以及故障恢復;前端與后端之間通過SQL或應用程序接口連接。186優點:

客戶端的用戶請求被傳送到數據庫服務器,數據庫服務器進行處理后,只將結果返回給用戶,從而顯著減少了數據傳輸量。缺點系統安裝復雜,工作量大。應用維護困難,難于保密,造成安全性差。相同的應用程序要重復安裝在每一臺客戶機上,從系統總體來看,大大浪費了系統資源。187C/S架構

C/S架構是一種典型的兩層架構,其全稱是Client/Server,即客戶端/服務器端架構。C/S架構中,客戶端需要實現絕大多數的業務邏輯和界面展示,因此被稱為胖客戶端架構。188B/S架構B/S架構的全稱為Browser/Server,即瀏覽器/服務器結構。Browser指的是Web瀏覽器客戶端,Server包括WebApp服務器端和DB服務器端。B/S架構的系統無須特別安裝,只有Web瀏覽器即可。B/S架構中,顯示邏輯交給了Web瀏覽器,事務處理邏輯在放在了WebApp上,這樣就避免了龐大的胖客戶端,減少了客戶端的壓力,因此被稱為瘦客戶端。189第二節

數據通信與計算機網絡

數據通信基本概念數據傳輸形式數據交換方式

計算機網絡概述Internet/Intranet/Extranet190(一)數據通信基本概念

數據通信是網絡中最頻繁的操作,是計算機網絡的最基本的功能,是實現其他功能的基礎。

目前通訊技術總的趨勢是由模擬通信走向數字通信,計算機技術和通信技術緊密結合在一起,使信息處理與信息傳遞逐漸走向一體化。1911.數據通信定義數據通信是按照一定的協議,通過適當的傳輸線路將數據信息從一臺機器傳送到另一臺機器。這里的機器可以是計算機,終端設備或其他任何通信設備。如電子郵件,,遠程數據交換等。192數據通信實際上包含了數據處理和數據傳輸兩方面的內容:數據處理主要由計算機來完成;數據傳輸依靠數據通信系統實現。數據通信系統是計算機網絡的重要組成部分,是各種可以協調工作的軟件的集合,支持信息從一個地方到另一個地方的傳送。數據通信系統不僅可以傳播文本和聲音,還可以傳播圖片以及視頻信息。1932.數據通信系統示意圖一個典型的數據通信系統的簡化模型如下圖所示:

194

1)信源:產生數據的設備,如計算機等;

2)發送器:一種轉換或編碼設備,一般來講,由信源設備產生的數據不按其產生的原始形式直接傳輸,而是由發送器將其進行變換和編碼后再進入某種形式的傳輸系統進行傳輸,如譯碼器,調制解調器等;195

3)傳輸系統:連接信源和信宿的傳輸線路,可以是雙絞線,屏蔽電纜線,光導纖維或是無線電波等;

4)接收器:同發送器一樣,用于把從傳輸系統接收信號并將其轉換成信宿設備能夠處理的形式;

5)信宿:從接收器上取得傳入數據的設備,如計算機等。196

通信系統實例1973.數據通信系統的特點①數據通信是機-機通信或人-機通信,計算機直接參與通信是數據通信的重要特征;②數據傳輸的準確性和可靠性要求高,一般來說,數據通信要求誤碼率低于10-8;③傳輸速率高,要求傳輸響應時間快,如在一條數字信道以64kbit/s的速率傳輸數據;④數據通信具有靈活的接口能力,可以滿足各種計算機和終端之間相互通信。198(二)傳輸的信號類型信號是數據的電子或電磁編碼,可在兩個通信設備之間通過電線傳輸,或者直接在空中傳播。一般而言,有兩種信號類型:模擬信號、數字信號。

1991)模擬信號:用連續變化的電壓振幅和頻率表示的信號。振幅是指一個周期中,信號波的幅度值;頻率是指連續波在每秒內的振動次數。如聲音、溫度等連續變化的物理量經傳感器轉換成的電信號,是一個振幅、頻率及相位都連續變化的電波。(1)信號類型200模擬信號用于中速、遠距離的數據傳輸,自然界中的很多信號都表現為模擬信號。如:公共線上傳輸的就是模擬信號。模擬數據通信:在傳輸介質上傳輸模擬信號。201At00.51.01223456789101112模擬信號示意圖2022)數字信號:用一定頻率的離散的高低電壓0、1來表示的信號,是一系列離散的電脈沖。數字信號傳輸距離短,但速度快,誤碼率低,如計算機硬件設備之間的數據傳輸使用的信號就是數字信號。數字數據通信:直接在傳輸介質上傳送脈沖數字信號。它直接通過通信傳輸接口將兩臺計算機連接起來,就可以很容易的進行數字信息的傳送。數字通信是計算機技術發展的產物。203數字信號示意圖204調制解調器:可在模擬信號與數字信號間相互轉化205二者比較:模擬通信比數字通信的誤碼率高得多;數字通信可以將數字、字符、文本、聲音,甚至動態圖像等多媒體信息合成起來傳輸,更有效地利用設備,而模擬通信不行。隨著大規模集成電路和計算機性能價格比不斷提高,數字通信設備的可用性越來越強,這是模擬通信不可比擬的。206(2)

衡量數據通信的質量指標1)信息傳輸速率衡量信息傳輸的有效性;數字信號:每秒所傳送的二進制位信息量,用bit/s或bps表示;模擬信號:單位時間內模擬信號狀態變化的次數。2072)誤碼率衡量信息傳輸的可靠性;指二進制碼元在傳輸系統中被傳錯的概率;在計算機網絡中,傳輸1Mb至多允許錯1b。208(三)數據傳輸的形式不管是數字信號還是模擬信號,它們在信道上傳輸的方式有多種形式。分別根據組成字符的各位二進制位是否同時傳輸、信號的調制情況、信號傳輸的方向對數據傳輸的形式進行劃分。2091.按組成字符的二進制位的傳輸方式

根據組成字符的各個二進制位是否同時傳輸,字符編碼在信源/信宿之間的傳輸方式有兩種:并行傳輸;串行傳輸。2101)并行傳輸:字符編碼的各位(比特)同時傳輸,有時會附加一位數據校驗位。

特點:①

傳輸速度快:一位(比特)時間內可傳輸一個字符;②通信成本高:每位傳輸要求一個單獨的信道支持,則對一個字符,并行傳輸要求8個獨立的信道的支持;③

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論