




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分布式數據庫系統(全文)胡經國本文作者的話本文是根據有關文獻和資料編寫的《漫話云計算》系列文稿之一。以此作為云計算學習筆錄,供云計算業外讀者進一步學習和研究參考。希望能夠得到大家的指教和喜歡!下面是正文分布式數據庫系統概述分布式數據庫系統概述1、概述一分布式數據庫(DistributedDatabase,DDB)是指數據分散存儲在計算機網絡中的各臺計算機上的數據庫。分布式數據庫系統(DistributedDatabaseSystem,DDBS)通常使用較小的計算機系統,每臺計算機可單獨放在一個地方;每臺計算機中都可能有DBMS(數據庫管理系統)的一份完整拷貝副本,或者部分拷貝副本,并具有自己局部的數據庫;位于不同地點的許多計算機通過網絡互相連接,共同組成一個完整的、全局的、邏輯上集中、物理上分布的大型數據庫系統。2、概述二分布式數據庫,是指利用高速計算機網絡,將物理上分散的多個數據存儲單元連接起來組成一個邏輯上統一的數據庫。分布式數據庫的基本思想,是將原來集中式數據庫中的數據分散存儲到多個通過網絡連接的數據存儲節點上,以獲取更大的存儲容量和更高的并發訪問量。近年來,隨著數據量的高速增長,分布式數據庫技術也得到了快速的發展。傳統的關系型數據庫開始從集中式模型向分布式架構發展。基于關系型的分布式數據庫,在保留傳統數據庫的數據模型和基本特征前提下,從集中式存儲走向分布式存儲,從集中式計算走向分布式計算。另一方面,隨著數據量越來越大,關系型數據庫開始暴露出一些難以克服的缺點。以NoSQL為代表的、具有高可擴展性、高并發性等優勢的非關系型數據庫快速發展;一時間市場上出現了大量的key-value(鍵一值)存儲系統、文檔型數據庫等NoSQL數據庫產品。NoSQL類型數據庫正日漸成為大數據時代下分布式數據庫領域的主力。這種按分布式組織數據庫的方法克服了物理中心數據庫組織的弱點。首先,降低了數據傳送代價。因為,大多數對數據庫的訪問操作都是針對局部數據庫的,而不是針對其他位置的數據庫訪問。其次,系統的可靠性提高了很多。因為,當網絡出現故障時,仍然允許對局部數據庫的操作,而且一個位置的故障不影響其他位置的處理工作。只有當訪問出現故障位置的數據時,在某種程度上才受影響。第三,便于系統的擴充。增加一個新的局部數據庫,或在某個位置擴充一臺適當的小型計算機,都很容易實現。然而,有些功能要付出更高的代價。例如,為了調配在幾個位置上的活動,事務管理的性能比在中心數據庫時花費更高,而且甚至抵消許多其他的優點。二、分布式軟件系統分布式軟件系統(DistributedSoftwareSystems,DSS),是支持分布式處理的軟件系統,是在由通信網絡互聯的多處理機體系結構上執行任務的系統。它包括:分布式操作系統、分布式程序設計語言及其編譯(解釋)系統、分布式文件系統和分布式數據庫系統等。⑴、分布式操作系統分布式操作系統(DistributedOperatingSystem,DOS),負責管理分布式處理系統資源和控制分布式程序運行。它和集中式操作系統的區別,在于資源管理、進程通信和系統結構等方面。⑵、分布式程序設計語言分布式程序設計語言(DistributedProgrammingLanguage,DPL),用于編寫運行于分布式計算機系統上的分布式程序。一個分布式程序,由若干個可以獨立執行的程序模塊組成;它們分布于一個分布式處理系統的多臺計算機上被同時執行。它與集中式的程序設計語言相比,有以下三個特點:分布性、通信性和穩健性。⑶、分布式文件系統分布式文件系統(DistributedFileSystem,DFS),具有執行遠程文件存取的能力,并以透明方式對分布在網絡上的文件進行管理和存取。⑷、分布式數據庫系統分布式數據庫系統(DistributedDatabaseSystem,DDBS),由分布于多個計算機結點上的若干個數據庫組成。它提供有效的存取手段來操縱這些結點上的子數據庫。分布式數據庫在使用上可視為一個完整的數據庫,而實際上它是分布在地理上分散的各個結點上的。當然,分布在各個結點上的子數據庫在邏輯上是相關的。Hadoop的分布式文件系統HDFS,作為開源的分布式平臺,為目前流行的很多分布式數據庫提供了支持,譬如HBase等。Yonghong的分布式文件系統ZFS,為分布式數據集市Z-DataMart提供了底層平臺。鏈接:Hadoop與HDFS和MapReduceHadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解該分布式系統基礎架構的底層細節的情況下,開發分布式程序;充分利用集群的威力,進行高速運算和存儲。Hadoop實現了一個分布式文件系統(HadoopDistributedFileSystem,HDFS)。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess,流媒體訪問)文件系統中的數據。Hadoop的架構最核心的設計就是:HDFS和MapReduce。HDFS為海量數據提供了存儲,而MapReduce則為海量數據提供了計算。MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”,和它們的主要思想,都是從函數式編程語言里借來的;還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。當前的軟件實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發的Reduce(歸約)函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。三、 分布式數據庫系統主要特點在大數據時代,面對海量數據量的井噴式增長和不斷增長的用戶需求,分布式數據庫系統必須具有如下特征,才能應對不斷增長的海量數據。1、 高可擴展性分布式數據庫系統必須具有高可擴展性,能夠動態地增添存儲節點以實現存儲容量的線性擴展。2、 高并發性分布式數據庫系統必須及時響應大規模用戶的讀/寫請求,能對海量數據進行隨機讀/寫。3、 高可用性分布式數據庫系統必須提供容錯機制,能夠實現對數據的冗余備份,保證數據和服務的高度可靠性。四、 分布式數據庫系統優點在大數據時代,面對日益增長的海量數據,傳統的集中式數據庫系統的弊端日益顯現,分布式數據庫系統相對傳統的集中式數據庫系統具有如下優點:1、更高的數據訪問速度分布式數據庫系統為了保證數據的高可靠性,往往采用備份的策略實現容錯機制。所以,在讀取數據的時候,客戶端可以并發地從多個備份服務器同時讀取,從而提高了數據訪問速度。2、更強的可擴展性分布式數據庫系統可以通過增添存儲節點來實現存儲容量的線性擴展,而集中式數據庫系統的可擴展性十分有限。3、更高的并發訪問量分布式數據庫系統由于采用多臺主機組成存儲集群,所以相對集中式數據庫系統,它可以提供更高的用戶并發訪問量。五、分布式數據庫系統功能結構分布式數據庫管理系統(DBMS)軟件結構包括AP模塊、CM模塊和DP模塊。以下對各模塊功能進行簡要描述:1、 AP模塊功能包括用戶接口、查詢處理、全局事務管理及全局字典管理和全局恢復管理。⑴、用戶接口檢查用戶身份,接受用戶命令,如SQL命令。⑵、全局查詢處理將用戶命令翻譯成數據庫命令;生成全局查詢的分布執行計劃;收集局部執行結果并返回給用戶。⑶、全局事務管理調度、協調和監視AP模塊和DP模塊之間的分布執行;保證復制數據的一致性;保證全局事務的原子性。2、 DP模塊功能包括局部查詢處理、局部事務管理及局部字典管理和局部恢復管理。⑴、局部查詢處理實現全局命令到局部命令的轉換。⑵、局部事務管理執行局部數據操作;返回局部執行結果;保證子事務執行的正確性。六、分布式數據庫系統模式結構根據中國制定的《分布式數據庫系統標準》,分布式數據庫系統被抽象為四層的模式結構。這種模式結構得到了國內外同行的支持和認同。分布式數據庫系統4層模式結構劃分為:全局外層、全局概念層、局部概念層和局部內層;在各層間還有相應的層間映射,層與層(模式與模式)之間是映射關系。這種四層模式結構適用于同構型分布式數據庫系統,也適用于異構型分布式數據庫系統。1、 全局模式ES(全局外層)全局模式定義全局用戶試圖,是分布式數據庫的全局用戶對分布式數據庫最高層抽象。全局用戶使用視圖時,不必關心數據的分片和具體的物理分配細節。2、 全局概念模式GCS(全局概念層)全局概念模式定義全局概念視圖,是分布式數據庫的整體抽象,包含了全局數據特性和邏輯結構。像集中式數據庫中的概念模式一樣,是對數據庫全體的描述。全局概念模式再經過分片模式和分配模式,映射到局部模式。⑴、分片模式分片模式是描述全局數據的邏輯化分視圖,即全局數據邏輯結構根據某種條件的劃分,將全局數據邏輯結構劃分為局部數據邏輯結構,每個邏輯劃分為一個分片。在關系數據庫中,一個關系的一個子關系稱為該關系的一個分片。⑵、分配模式分配模式是描述局部數據邏輯的局部物理結構,即劃分后的分片的物理分配試圖。3、局部概念模式LCS(局部概念層)局部概念模式定義局部概念視圖,是全局概念模式的子集。全局概念模式經邏輯劃分后,被分配到各個局部場地上。局部概念模式用于描述局部場地上的局部數據邏輯結構。當全局數據模型與局部數據模型不同時,還涉及數據模型轉換等內容。4、局部內模式LIS(局部內層)局部內模式定義局部物理視圖,是對物理數據庫的描述。它類似于集中數據庫的內層。綜上所述,分布式數據庫的四層結構及模式,定義描述了分布式數據庫是一組用網絡連接的局部數據庫的邏輯集合。它將數據庫分為全局數據庫和局部數據庫。全局數據庫到局部數據庫,由映射(1:N)模式描述。全局數據庫是虛擬的,由全局概念層描述。局部數據庫是全局數據庫的內層,由局部概念層和局部內層描述。全局用戶只關心全局外層定義的數據庫用戶視圖,其內部數據模型的轉換、場地分配細節等由系統自動實現。分布式數據庫劃分為全局外層、全局概念層、局部概念層和局部內層。分布式數據庫可以描述為虛擬的全局數據庫和局部場地數據庫的邏輯集合。全局數據庫到局部數據庫,由分片模式和分配模式映射描述。分布式數據庫系統,借助通信網絡完成地理上分布存儲的數據的邏輯集中管理。該系統提供給用戶的是全局外層視圖,就好像集中式數據庫一樣。全局外層用戶的應用請求,分布成局部請求及局部操作,從完成到結果提交及整個全局事務提交,由該系統自動完成。七、數據分片類型與分片條件1、分片類型⑴、水平分片按一定的條件把全局關系的所有元組劃分成若干不相交的子集,每個子集為關系的一個片段。⑵、垂直分片把一個全局關系的屬性集分成若干子集,并在這些子集上作投影運算,每個投影稱為垂直分片。⑶、導出分片又稱為導出水平分片,即水平分片的條件不是本關系屬性的條件,而是其他關系屬性的條件。⑷、混合分片以上三種方法的混合。可以先水平分片再垂直分片,或先垂直分片再水平分片,或其他形式,但它們的結果是不相同的。2、分片條件⑴、完備性條件必須把全局關系的所有數據映射到片段中,決不允許有屬于全局關系的數據卻不屬于它的某一個片段。⑵、可重構條件必須保證能夠由同一個全局關系的各個片段來重建該全局關系。對于水平分片可用并操作重構全局關系;對于垂直分片可用聯接操作重構全局關系。⑶、不相交條件要求一個全局關系被分割后所得的各個數據片段互不重疊(對垂直分片的主鍵除外)。八、數據分配方式1、集中式所有數據片段都安排在同一個場地上。2、分割式所有數據只有一份,它被分割成若干邏輯片段,每個邏輯片段被指派在一個特定的場地上。3、全復制式數據在每個場地重復存儲。也就是每個場地上都有一個完整的數據副本。4、混合式這是一種介乎于分割式和全復制式之間的分配方式。目前,分布式數據庫分配的設計,越來越多地采用尋找最優解的算法,比如遺傳算法、退火機制等。九、分布式數據庫系統分類分布式數據庫系統的分類很多。為了全面系統地對分布式數據庫系統進行分類,采用分布式數據庫的三種特性(分布性、異構性、自治性)組成三維空間圖來描述分布式數據庫的類型。1、分布性分布性是指系統的各組成單元是否位于同一場地上。分布式數據庫系統是物理上分散、邏輯上統一的系統,即具有分布性。而集中式數據庫系統集中在一個場地上,則不具有分布性。2、異構性異構性是指系統的各組成單元是否相同,不同為異構,相同為同構。異構性主要有:⑴、數據異構性數據異構性是指數據在格式上、語法和語義上存在差異。⑵、數據庫系統異構性數據庫系統異構性是指各個場地上的局部數據庫系統是否相同。例如,均采用Oracle數據庫系統的同構數據庫系統。或某些場地采用Sybase數據庫系統,某些場地采用Informix數據庫系統的異構戲劇庫系統。⑶、平臺異構性平臺異構性是指計算機系統是否相同。例如,均為微機系統組成的平臺同構系統,或由VAX或ALPHA系統組成的平臺異構系統。3、自治性自治性是指每個場地的獨立自主能力。自治性通常由設計自治性、通信自治性和執行自治性三個方面來描述。根據自治性,數據庫系統可分為集中式系統、聯邦式系統(FederatedDB)和多庫系統(MultiDB)。⑴、集中式系統集中式系統即為傳統的數據庫系統。⑵、聯邦式系統實現需要交互的所有數據庫對之間的一對一連接。⑶、多庫系統多庫系統是指若干相關數據庫的集合。各個數據庫可以存在同一個場地,也可以分布于多個場地。對多數據庫系統進行管理的軟件稱為多數據庫管理系統。多數據庫管理系統是對一組自治的數據庫進行管理,并提供透明的訪問。十、數據字典信息的組織1、 數據字典簡介數據字典(Datadictionary)是一種用戶可以訪問的、記錄數據庫和應用程序元數據的目錄。主動數據字典,是指在對數據庫或應用程序結構進行修改時,其內容可以由DBMS自動更新的數據字典。被動數據字典,是指修改時必須手工更新其內容的數據字典。數據字典是指對數據的數據項、數據結構、數據流(數據流是數據結構在系統內傳輸的路徑)、數據存儲、處理邏輯、外部實體等進行定義和描述,其目的是對數據流程圖中的各個元素做出詳細的說明。數據字典組成:數據項、數據結構、數據流、數據存儲、處理過程。數據字典是數據庫的重要組成部分。它存放有數據庫所用的有關信息,對用戶來說是一組只讀的表。2、 數據字典信息的組織在數據庫系統中,采用數據字典存儲數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 30111-2025星敏感器通用規范
- 高頻開關直流電源柜項目投資可行性研究分析報告(2024-2030版)
- 電子產品制造技術專業教學標準(高等職業教育專科)2025修訂
- 2025年中國DLP光顯屏行業市場調查研究及發展趨勢預測報告
- 采掘知識培訓課件
- 2025年中國柑桔行業市場全景評估及發展戰略規劃報告
- 2024-2030年中國云VR行業發展運行現狀及投資潛力預測報告
- 2025年中國制糖行業發展運行現狀及投資潛力預測報告
- 2025年中國藍寶石長晶爐行業發展趨勢預測及投資戰略咨詢報告
- 2025年 云南省化工儀表操作證理論考試練習題附答案
- 2024年陜西省中考道德與法治真題(A卷)(含解析)
- EN71-1 2014 A1-2018 玩具安全 第1部份 物理和機械性能-中文版
- DLT 572-2021 電力變壓器運行規程
- 新疆維吾爾自治區石河子市五年級數學期末高分通關試卷詳細答案和解析
- DL∕ T 1166-2012 大型發電機勵磁系統現場試驗導則
- 濕熱滅菌工藝驗證方案1
- 2024年廣東省初中學業水平考試生物押題卷
- 網絡安全知識競賽考試題庫300題(含答案)
- 國開電大2023年春季期末考試《機械CAD、CAM》試題及答案(試卷代號1119)
- 審計 第7版 課件 第10章采購與付款循環審計
- (高清版)DZT 0145-2017 土壤地球化學測量規程
評論
0/150
提交評論