大規模分布式數據的管理講述_第1頁
大規模分布式數據的管理講述_第2頁
大規模分布式數據的管理講述_第3頁
大規模分布式數據的管理講述_第4頁
大規模分布式數據的管理講述_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大規模分布式數據的管理大規模分布式數據的管理2/22主要內容數據管理需求1分布式數據管理技術2網格環境下的數據管理3云計算存儲模式43/22數據快速增長v 數據量增長到底有多快?視頻、音頻、圖片v EMC&IDC報告“數字宇宙十年你是否準備好(2010.5.5)”稱2010年數據量相當于750億部16GB的iPad: 擺滿北京國家體育場(鳥巢)15.5次, 倫敦溫布利體育場 41次, 臺北101大樓23次, LHC隧道151次 全球每人平均擁有11臺iPad 福克斯電視臺熱門電視連續劇24小時連續播放1.25億年 數據量達到1.2ZB1MB=1024KB 1GB=1024MB1TB=1

2、024GB 1PB=1024TB1EB=1024PB 1ZB=1024EB4/22高能物理數據量v Hepix 2010 14個主要站點在線存儲空間達到87PB,而2007年才14PB,增加了5倍倍多v WLCG 在線存儲:62PB,近線存儲:58PBv 大型實驗 LHC: 15PB/year BES: 累積5PB5PB光盤5/22數據管理需求v數據量大 存的下v高速訪問 取得到v廣域分布 易分享v長期保存 存的妥6/22數據存儲技術v在IT界,存儲技術一直很火,為什么? 看似簡單的需求,實際上要求很高 數據存儲技術從軟件到硬件都在不斷發展,以滿足需求v存儲連接方式 單機存儲(DAS) 網絡存

3、儲(NAS, SAN)v存儲管理軟件 本地存儲系統 分布式網絡存儲系統7/22存儲連接方式v 直接連接存儲 DAS: Direct-Attached Storage 計算與存儲集中v 網絡存儲 FAS: Fabric-Attached Storage 存儲與計算分離存儲與計算分離(一場革命)(一場革命)存儲設備文件系統應用軟件存儲設備文件系統應用軟件存儲設備文件系統應用軟件網絡FC/GbEDASNASSAN8/22存儲管理軟件v存儲設備連接方式的變化,存儲管理軟件也隨之發展v本地文件系統 管理本地的存儲系統,為本地的應用服務 在DAS以及SAN服務器上比較常見v分布式網絡存儲管理系統 將分布在

4、網絡上的存儲設備統一管理,為多個連接在網絡上的應用服務 NAS服務器上的網絡文件系統(NFS,CIFS)以及分布式文件系統(AFS, Lustre)等v趨勢:數據量爆炸性的增長、計算模式的集群化發展、開放標準的存儲設備,導致存儲系統朝著集群化、分布式的方向發展9/22典型的高能物理存儲環境計算集群計算網絡存儲網絡存儲網絡磁盤服務器磁帶庫磁帶服務器存儲設備連接磁盤陣列存儲網絡與計算網絡分離;存儲設備與存儲服務器是網絡分布的;普遍采用基于磁盤-磁帶的分級存儲;采用分布式存儲管理軟件來管理存儲空間10/22分布式存儲系統典型結構用戶態內核態客戶端元數據服務器I/O服務器傳輸流與控制流的分離I/O服務

5、器集群化分布,易于實現性能和容量的雙向增長元數據服務器統一管理,提供統一存儲空間11/22存儲管理的功能組件磁盤磁帶數據分發POSIX I/O集群文件系統聚合訪問分級存儲管理傳輸流管理認證/授權磁帶調度邏輯連接名字空間介質遷移錯誤處理I/O調度數據遷移帶寬預留磁盤池磁帶庫管理12/22分布式存儲管理系統v共享Home目錄 AFS, NFSv大型實驗數據空間 GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSSv磁帶遷移 HPSS, TSM, ENSTORE, CASTOR/STAGER13/22困惑v有這么多的系統可以選擇,是否值得高興呢? 值得高興是肯定的,因

6、為有系統可以用,但是同樣也有不少困惑v困惑一:如何選擇? 可擴展性 客戶端訪問協議 軟件是否能夠長期維護?v困惑二: 眾多的存儲系統,在網格環境下如何管理? 網格強調:局部自治,全局統一 因此,對于這點,不再僅僅是困惑,而是一個必須要解決的問題!14/22SRMv 既然大家不能統一使用同一個存儲系統,就只能通過標準化來解決v CERN, FNAL, DESY, INFN等單位成立標準工作組,制定了SRM(Storage Resource Manager )接口標準 包括了空間管理、文件管理、數據傳輸、協議發現等多組函數dCache(FNAL)DPM(IHEP)CASTOR(CERN)SRM通過

7、統一的SRM接口同各種存儲系統交互;可以在目標系統預留空間;可以調用相應的協議傳輸文件LUSTRE(CNAF)15/22WLCG網格存儲管理VO 數據管理系統文件傳輸服務FTS (Tier 0)網格文件目錄文件傳輸服務FTS(Tier 1)Tier 0站點存儲(CASTOR)SRM接口Tier 1站點存儲(dCache)SRM接口Tier 2站點存儲(Lustre)SRM接口大規模數據傳輸通信與認證高速網絡(10Gb)高速網絡(1Gb)16/22其它領域v 以上的方案在高能物理領域應用非常廣泛v 高能物理只是大規模分布式數據應用的其中一個,還有更多的領域,比如搜索、社交網站、WEB2.0等等v

8、 每個領域的解決方案各有不同,但是核心都是采用分布式數據管理技術v 隨著數據量的快速增長以及計算模式的改變,Google、Yahoo等公司,推出了以GFS、HDFS等為代表云計算存儲v 試想這么一個例子:從一個1TB的文件中統計包含“IHEP”的行,如何來做?僅網絡傳輸數據就需要大量時間!17/22HadoopvHadoop文件系統HDFS將文件分成若干個數據塊,并將它們放置在服務器群的計算節點中MapReduce就可以在它們所在的節點上處理這些數據18/22MapReduce簡單過程v傳統的做法Cat input | grep IHEP | sort| uniq c |cat outputv

9、MapReduceInput | Map | shuffle&sort | Reduce | OutputInput0Input1Input2Map0Map0Map0Reduce0Reduce1Out1shuffle19/22計算與存儲的協同v以GFS、HDFS等為代表云計算存儲系統在設計時普遍遵守一個前提:“移動計算比移動數據劃算”v存儲系統在存儲數據時把數據切成小塊,任務調度器把計算任務正好調度到有數據的地方,直接在本地做計算,免去網絡傳輸v計算與存儲的協同統一,是一次新的變革。事物的發展總是波浪式前進、螺旋式的上升20/22其它特點v 可靠性設計 設計時認為:”硬件故障是常態”

10、存儲系統有成千上百個節點組成,壞掉任何一個對系統運行沒有任何影響 機架感知的復制策略 故障檢測:心跳包、塊報告、完整性檢測v 存儲空間自動平衡 存儲節點需要頻繁更換或增加 新增節點或更換節點,副本會自動增加,并保證各個節點間的水位平衡v 簡單一致性模型 以支持“一次寫入多次讀取”的訪問模型為主,大大簡化數據一致性問題,使得高吞吐量的數據訪問成為可能21/22小結v數據爆炸性增長對存儲系統提出了持續的需求,網絡存儲以及分布式數據管理技術已成為當前的趨勢v存在多種分布式存儲系統,具有不同的功能和特點,適用于不同的應用需求,比如大數據量處理、小文件訪問等v網格環境下,需制定統一數據訪問接口以屏蔽不同存儲系統異構性v在大規模、數據快速增長的云計算應用中,分布式存儲系統呈現出計算與存儲協同、存儲空間自動平衡等新的特點23/22人有了知識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論