何雨:統一存儲Ceph之RADOS簡介_第1頁
何雨:統一存儲Ceph之RADOS簡介_第2頁
何雨:統一存儲Ceph之RADOS簡介_第3頁
何雨:統一存儲Ceph之RADOS簡介_第4頁
何雨:統一存儲Ceph之RADOS簡介_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Ceph RADOS簡介 (Reliable, Autonomic Distributed Object Store) 京東虛擬化總監 何雨 架構簡介 兩個部分組成: 由數目可變的大規模OSDs(Object Storage Devices)組成的集群,負責存儲所有的Objects數據 由少量Monitors組成的強耦合、小規模集群,負責管理Cluster Map,其中Cluster Map是整個RADOS系統的關鍵數據結構,管理集群中的所有成員、關系、屬性等信息以及數據的分發。Cluster Map 管理cluster的核心數據結構 指定了OSDs和數據分布信息 monitor上存有最新副本

2、 依靠epoch增加來維護及時更新 增量信息Cluster Map 1.The Monitor Mapcluster fsid, the position, name address and port of each monitor 2.The OSD Mapcluster fsid,a list of pools, replica sizes, PG numbers, a list of OSDs and their status 3.The PG Map:PG version, its time stamp, the last OSD map epoch, the full ratios,

3、 and details on each placement group such as the PG ID,the Up Set, the Acting Set, the state of the PG (e.g., active + clean), and data usage statistics for each pool. 4.The CRUSH Mapa list of storage devices, the failure domain hierarchy (e.g., device, host, rack, row, room, etc.), and rules for tr

4、aversing the hierarchy when storing data 5.The MDS MapMDS map epoch,the pool for storing metadata, a list of metadata servers, and which metadata servers are up and in數據存放1Object到PG的映射。PG (Placement Group)是Objects的邏輯集合。相同PG里的Object會被系統分發到相同的OSDs集合中。由Object的名稱通過Hash算法得到的結果結合其他一些修正參數可以得到Object所對應的PG。2

5、RADOS系統根據根據Cluster Map將PGs分配到相應的OSDs。這組OSDs正是PG中的Objects數據的存儲位置。RADOS采用CRUSH算法實現了一種穩定、偽隨機的hash算法。CRUSH實現了平衡的和與容量相關的數據分配策略。CRUSH得到的一組OSDs還不是最終的數據存儲目標,需要經過初步的filter,因為對于大規模的分布式機群,宕機等原因使得部分節點可能失效,filter就是為過濾這些節點,如果過濾后存儲目標不能滿足使用則阻塞當前操作。關于pools 是一個存儲對象的邏輯分區概念 所有權/訪問對象 對象副本的數目 PG數目 CRUSH規則集的使用 以上后三項決定ceph

6、最后如何存儲數據計算PG的ID 1.Client輸入pool ID和對象ID(如pool=liverpool,object-id=john) 2.CRUSH獲得對象ID并對其hash 3.CRUSH計算OSD個數hash取模獲得PG的ID(如0 x58) 4.CRUSH獲得已命名pool的ID(如liverpool=4) 5.CRUSH預先考慮到pool ID相同的PG ID(如4.0 x58)Device Stateinoutassigned PGsnot assigned PGsuponline activeonline & idle& reachabledownunrea

7、chableunreachablefailed& not remappedpeer和set peer 屬于同一個PG 彼此檢查心跳 數據同步 set Acting set PG內所有osd屬于Acting set Up set PG內up&in的osdmap傳播 所有消息傳播都有一個epoch client端: 首次進入去找monitor要最新副本 存取時找OSD對比epoch OSD端: peers之間保持心跳 只保證兩個OSD之間同步數據復制 讀文件通過一個OSD 主OSD 寫文件通過多個OSD復制 Client把對象寫進一個確定的PG組中的主OSD 主OSD利用CRUSH map用來確定二級OSDs,復制的對象放入其中。 對象存儲成功后進行響應client。數據復制錯誤檢測和恢復 錯誤檢測: 利用心跳 上報monitor 更新map 錯誤恢復 主osd主持恢復工作 若主osd掛掉,二級osd選擇一個頂上數據條帶化 由于存儲設備吞吐量的限制,影響性能和可伸縮性。 跨多個存儲設備的連續塊條帶化存儲信息,以提高吞吐量和性能 Ceph條帶化相似于RAID0 注意:ceph條帶化屬于client端,不在RADOS范疇注意:條帶化是獨立于對象副本的。由于CRUSH副本對象跨越OSDs,所以條帶自動的被復制。條帶化參數 Object Size: 足夠大可以容納條帶單元,必

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論