




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、對象存放系統Object-Based Storage System聶鐵錚1/66對象存放系統概念2/663/66分布式存放架構分布式存放分為:文件存放、塊存放和對象存放客戶端元數據服務器數據節點服務器12344/66分布式存放架構-塊存放塊存放主要是將裸磁盤空間整個映射給主機使用操作系統還需要對掛載裸硬盤進行分區、格式化后,才能使用經典設備:磁盤陣列,硬盤優點:提升容量并行寫入性能好使用SAN架構缺點:設備成本高主機之間無法共享數據5/66分布式存放架構-塊存放6/66分布式存放架構-塊存放7/66分布式存放架構-塊存放8/66分布式存放架構-塊存放9/66分布式存放架構-塊存放10/66分布
2、式存放架構-文件存放文件存放采取NFS或CIFS命令集訪問數據,以文件為傳輸協議,經過TCP/IP實現網絡化存放經典設備:FTP、NFS服務器,SamBa11/66分布式存放架構-文件存放12/66分布式文件系統分布式存放架構-文件存放13/66分布式存放架構-文件存放14/66分布式存放架構-文件存放15/66分布式存放架構-文件存放16/66分布式存放架構-對象存放對象存放:目標:為海量非結構化數據提供Key-Value這種經過鍵值查找數據文件存放模式,提供基于對象訪問接口。對象存放(Object-Based Storage, OBS)綜合了NAS和SAN優點,同時含有SAN高速直接訪問和
3、NAS分布式數據共享等優勢,提供了含有高性能、高可靠性、跨平臺以及安全數據共享存放體系結構。17/66分布式存放架構-對象存放技術特點訪問接口簡單,提供REST/SOAP接口協議開銷高、對應延遲較文件存放長引入對象元數據描述對象特征應用系統跟存放系統耦合程度渙散支持一次寫屢次讀18/66缺點:平臺穩定性技術復雜性能優越,讀寫快,利于共享擴展性好,處理非結構化增加成本低廉19/66對象存放組件對象對象存放設備元數據服務器文件系統網絡連接20/66對象存放組件-對象對象對象是介于文件和塊之間一個抽象,含有唯一ID標識符,提供類似文件訪問方法。對象是系統中數據存放基本單位,是一系列有序字節集合,一個
4、對象實際上就是文件數據和一組本身屬性信息(Meta Data)組合,這些屬性信息能夠定義基于文件RAID參數、數據分布和服務質量等對象維護自己屬性,簡化存放系統管理任務,增加靈活性對象大小能夠不一樣,分為:根對象、組對象和用戶對象。21/66對象存放組件-對象22/66對象存放組件-OSD對象存放設備OSD對象存放設備含有一定智能,它有自己CPU、內存、網絡和磁盤系統。OSD同塊設備不一樣不在于存放介質,而在于二者提供訪問接口。OSD主要功效包含數據存放和安全訪問。每個對象同傳統文件相同,使用同文件類似訪問接口,但二者并不相同,每個對象可能包含若干個文件,也可能是文件一部分,且是獨立于操作系統
5、。OSD統計了每個對象屬性信息,主要是物理視圖信息,從而減輕了元數據服務器負擔,增強了并行訪問性能和可擴展性23/66對象存放組件-OSD對象存放設備OSD數據存放OSD管理對象數據,并將它們放置在標準磁盤系統上,OSD不提供塊接口訪問方式,Client請求數據時用對象ID、偏移進行數據讀寫智能分布OSD用其本身CPU和內存優化數據分布,并支持數據預取。因為OSD能夠智能地支持對象預取,從而能夠優化磁盤性能對象元數據管理OSD管理存放在其上對象元數據,該元數據與傳統inode元數據相同,通常包含對象數據塊和對象長度24/66對象存放組件-OSD25/66對象存放組件-文件系統文件系統對用戶文件
6、操作進行解釋,并在元數據服務器和OSD間通信,完成所請求操作使用標準POSIX文件訪問接口使用Cache 功效和文件條帶功效提升性能維護不一樣客戶端上Cache一致性26/66對象存放組件-文件系統27/66對象存放組件-元數據服務器元數據服務器為客戶端提供元數據,主要是文件邏輯視圖,包含文件與目錄組織關系文件對應OSD每次操作僅有一次元數據訪問,詳細數據傳輸由OSD和客戶端直接進行。傳統文件系統每次對數據塊操作都要獲取元數據28/66對象存放組件-元數據服務器特點客戶端采取cache緩存數據當多個客戶端同時訪問一些數據時,MDS提供分布鎖機制來確保Cache一致性為客戶端提供認證為了增強安全
7、性,MDS為客戶端提供認證方式,OSD將依據MDS認證來決定是否為客戶端提供服務29/66對象存放模式優勢海量數據存放高性能數據存放:節點含有獨立數據通路和元數據訪問通路,支持OSD并行訪問跨平臺數據共享:在對象存放系統上布署基于對象分布式文件系統實現不一樣平臺下設備和數據共享可伸縮性:對象存放模式含有分布式結構特征。30/66對象存放適用場景31/66基于對象存放虛擬文件系統32/66對象存放系統-oNest系統33/66對象存放系統-Amazon S334/66對象存放系統-EMC Atoms35/66分布式存放關鍵技術元數據管理系統彈性擴展技術存放層級內優化技術針對應用和負載存放優化技術
8、36/66分布式存放關鍵技術元數據管理元數據管理能夠分為集中式和分布式元數據管理架構。集中式元數據管理架構采取單一元數據服務器,實現簡單不過存在單點故障等問題。分布式元數據管理架構則將元數據分散在多個結點上進而處理了元數據服務器性能瓶頸等問題并提升了元數據管理架構可擴展性,但實現較為復雜,并引入了元數據一致性問題。無元數據服務器分布式架構,經過在線算法組織數據,不需要專用元數據服務器。不過該架構對數據一致性保障很困難實現較為復雜。文件目錄遍歷操作效率低下,而且缺乏文件系統全局監控管理功效。37/66分布式存放關鍵技術系統彈性擴展技術實現存放系統高可擴展性首先要處理兩個方面主要問題,包含元數據分
9、配和數據透明遷移。元數據分配主要經過靜態子樹劃分技術實現,后者則側重數據遷移算法優化。另外,大數據存放體系規模龐大結點失效率高,所以還需要完成一定自適應管理功效。數據透明遷移:系統必須能夠依據數據量和計算工作量估算所需要結點個數,并動態地將數據在結點間遷移,以實現負載均衡;同時結點失效時,數據必須能夠經過副本等機制進行恢復,不能對上層應用產生影響。38/66分布式存放關鍵技術存放層級內優化技術構建存放系統時需要基于成本和性能來考慮,所以存放系統通常采取多層不一樣性價比存放器件組成存放層次結構。大數據規模大,所以構建高效合理存放層次結構,能夠在確保系統性能前提下,降低系統能耗和構建成本,利用數據
10、訪問局部性原理能夠從兩個方面對存放層次結構進行優化。從提升性能角度,能夠經過分析應用特征,識別熱點數據并對其進行緩存或預取,經過高效緩存預取算法和合理緩存容量配比,以提升訪問性能。從降低成本角度,采取信息生命周期管理方法,將訪問頻率低冷數據遷移到低速廉價存放設備上,能夠在小幅犧牲系統整體性能基礎上,大幅降低系統構建成本和能耗。39/66分布式存放關鍵技術針對應用和負載存放優化技術大數據存放系統對上層應用性能關注遠遠超出對通用性追求。針對應用和負載來優化存放,就是將數據存放與應用耦合。簡化或擴展分布式文件系統功效,依據特定應用、特定負載、特定計算模型對文件系統進行定制和深度優化,使應用到達最正確
11、性能。數據劃分和負載均衡數據劃分處理不一樣節點間存放均衡性負載均衡處理不一樣節點訪問均衡性40/66分布式數據存放系統對比41/66分布式數據存放系統對比42/66分布式對象存放系統產品43/66對象存放系統 CEPHCeph概述Ceph項目最早起源于Sage就讀博士期間工作(最早結果于發表),并隨即貢獻給開源小區。在經過了多年發展之后,當前已得到眾多云計算廠商支持并被廣泛應用。RedHat及OpenStack都可與Ceph整合以支持虛擬機鏡像后端存放。Ceph是一個可靠地、自動重均衡、自動恢復分布式存放系統,依據場景劃分能夠將Ceph分為三大塊,分別是對象存放、塊設備存放和文件系統服務44/
12、66對象存放系統 CEPHCEPH系統架構45/66對象存放系統 CEPH組件Meta Server Cluster元數據存放在一個存放汲取管理文件系統名稱空間管理數據位置,以及何處存放新數據更高層次Posix功效組件Object Storage Cluster存儲文件與客戶端發生文件IOPosix功效組件Cluster Monitors識別機器故障系統通知46/66對象存放系統 CEPHCEPH系統架構RADOS全稱Reliable Autonomic Distributed Object Store47/66對象存放系統 CEPHCEPH系統架構48/66對象存放系統 CEPH49/66C
13、EPH關鍵技術1-CRUSH基于可擴展哈希受控副本分布策略CRUSH動機:系統必須平衡分布數據和負載(提升資源利用率),最大化系統性能,并要處理系統擴展和硬件失效。簡單HASH分布不能有效處理設備數量改變,造成大量數據遷移CRUSH(Controoled Replication Under Scalable Hashing)能夠有效映射數據對象到存放設備上(不需要中心設備)參數是object id或object group id返回一組存放設備(用于保留object副本OSD)50/66CEPH關鍵技術1-CRUSHCRUSH優點:任何組件都能夠獨立計算出每個object所在位置(去中心化)。
14、只需要極少元數據(cluster map),只要當刪除添加設備時,這些元數據才需要改變。51/66CEPH關鍵技術1-CRUSH映射過程Ceph設置有Pool,屬性包含1.object副本數 2.Placement Groups數量 3.所使用CRUSH Ruleset(Pool,PG) OSD set映射方式有四個原因決定CRUSH算法OSD MAP:包含當前全部pool狀態和OSD狀態。CRUSH MAP:包含當前磁盤、服務器、機架層級結構。CRUSH Rules:數據映射策略。52/66CEPH關鍵技術1-CRUSHOSD Map邏輯樹形結構53/66CEPH關鍵技術1-CRUSH數據寫
15、入流程數據寫入時,文件被切分成object,object先映射到PG,再由PG映射到OSD set。每個pool有多個PG,每個object經過計算hash值并取模得到它所對應PG。PG再映射到一組OSD(OSD個數由pool副本數決定),第一個OSD是Primary,剩下都是Replicas。54/66CEPH關鍵技術1-CRUSH分布數據過程計算數據xHash值并將結果和PG數目取余,以得到數據x對應PG編號。經過CRUSH算法將PG映射到一組OSD中。最終把數據x存放到PG對應OSD中。這個過程中包含了兩次映射,第一次是數據x到PG映射。PG是抽象存放節點,它不會隨著物理節點加入或則離開
16、而增加或降低,所以數據到PG映射是穩定。55/66CEPH關鍵技術1-CRUSH56/66CEPH關鍵技術1-CRUSH1 經過哈希算法計算出存放 object PG ID客戶端輸入 pool ID 和 object ID (比如 pool = “liverpool” and object-id = “john”)ceph 對 object ID 做哈希ceph 對該 hash 值取 PG 總數模,得到 PG 編號 (比如 58)(第2和第3步基本保證了一個 pool 所有 PG 將會被均勻地使用)ceph 對 pool ID 取 hash (比如 “liverpool” = 4)ceph 將
17、 pool ID 和 PG ID 組合在一起(比如 4.58)得到 PG 完整ID。PG-id = hash(pool-id). hash(objet-id) % PG-number57/66CEPH關鍵技術1-CRUSH2.經過 CRUSH 算法計算出(或者說查找出) object 應該會被保留到 PG 中哪個 OSD 上Ceph client 從 MON 獲取最新 cluster map。Ceph client 依據上面第(2)步計算出該 object 將要在 PG ID。Ceph client 再依據 CRUSH 算法計算出 PG 中目標主和次 OSD ID。OSD-ids = CURS
18、H(PG-id, cluster-map, cursh-rules)。58/66CEPH關鍵技術1-CRUSHCRUSH算法CRUSH算法依據種每個設備權重盡可能概率平均地分配數據。分布算法是由集群可用存放資源以及其邏輯單元map控制。給定一個輸入x,CRUSH 算法將輸出一個確定有序儲存目標向量 R 。當輸入x,CRUSH利用多重整數hash函數依據集群map、定位規則、以及x計算出獨立完全確定可靠映射關系。59/66CEPH關鍵技術1-CRUSHBucket類型60/66CEPH關鍵技術1-CRUSHUniform映射函數依據hash函數c(r,x)=(hash(x) + rp) mod
19、m進行映射,映射時間復雜度是O(1)適用情況a.適合用于全部子節點權重相同情況,而且bucket極少添加刪除item,這種情況查找速度應該是最快。因為uniformbucket在選擇子節點時是不考慮權重問題,全部隨機選擇。b.適合用于子節點改變概率小情況。61/66CEPH關鍵技術1-CRUSHList結構是鏈表結構,所包含item能夠含有任意權重。CRUSH從表頭開始查找副本位置,它先得到表頭item權重Wh,然后和剩下全部節點權重之和Wr做比較,然后依據hash(x, r, item)得到一個01值v,假如v在0Wh/Wr,則副本在表頭item中,并返回itemid,不然繼續遍歷剩下鏈表。查找復雜度為O(n),所以只適合用于規
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 志愿管理站管理制度
- 快遞站安全管理制度
- 總公司采購管理制度
- 意大利環境管理制度
- 成品鋁型材管理制度
- 戰隊群規范管理制度
- 房地產直銷管理制度
- 攝影部器材管理制度
- 收據與發票管理制度
- 教師五認真管理制度
- 國家開放大學國開電大《統計與數據分析基礎》形考任務1-4 參考答案
- 2025年數字道閘項目市場調查研究報告
- 幼兒園中班科學《荷花》課件
- 陜西民間藝術審美與文化知到智慧樹期末考試答案題庫2025年西北工業大學
- GB/T 6148-2025精密電阻合金電阻溫度系數測試方法
- 風電居間合同協議書
- 浙江開放大學2025年《社會保障學》形考任務4答案
- 中國海洋工程行業市場發展分析及前景趨勢與投資前景研究報告
- 2025年大學輔導員招聘考試題庫時事政治專項試卷
- 醬料研發知識培訓課件
- 登革熱疫情應急處置桌面推演方案(2025年)
評論
0/150
提交評論