Google改變時間的3大論文之一:GFS_第1頁
Google改變時間的3大論文之一:GFS_第2頁
Google改變時間的3大論文之一:GFS_第3頁
Google改變時間的3大論文之一:GFS_第4頁
Google改變時間的3大論文之一:GFS_第5頁
已閱讀5頁,還剩10頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、谷歌三篇論文之一-GFS                                                

2、                Google文件系統       GFS是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。它運行于廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。 1、設計概覽 (1)設計想定       

3、;GFS與過去的分布式文件系統有很多相同的目標,但GFS的設計受到了當前及預期的應用方面的工作量及技術環境的驅動,這反映了它與早期的文件系統明顯不同的設想。這就需要對傳統的選擇進行重新檢驗并進行完全不同的設計觀點的探索。      GFS與以往的文件系統的不同的觀點如下: 1、部件錯誤不再被當作異常,而是將其作為常見的情況加以處理。因為文件系統由成百上千個用于存儲的機器構成,而這些機器是由廉價的普通部件組成并被大量的客戶機訪問。部件的數量和質量使得一些機器隨時都有可能無法工作并且有一部分還可能無法恢復。所以實時地監控、錯誤檢

4、測、容錯、自動恢復對系統來說必不可少。 2、按照傳統的標準,文件都非常大。長度達幾個GB的文件是很平常的。每個文件通常包含很多應用對象。當經常要處理快速增長的、包含數以萬計的對象、長度達TB的數據集時,我們很難管理成千上萬的KB規模的文件塊,即使底層文件系統提供支持。因此,設計中操作的參數、塊的大小必須要重新考慮。對大型的文件的管理一定要能做到高效,對小型的文件也必須支持,但不必優化。 3、大部分文件的更新是通過添加新數據完成的,而不是改變已存在的數據。在一個文件中隨機的操作在實踐中幾乎不存在。一旦寫完,文件就只可讀,很多數據都有這些特性。一些數據可能組成一個大倉庫以供數據

5、分析程序掃描。有些是運行中的程序連續產生的數據流。有些是檔案性質的數據,有些是在某個機器上產生、在另外一個機器上處理的中間數據。由于這些對大型文件的訪問方式,添加操作成為性能優化和原子性保證的焦點。而在客戶機中緩存數據塊則失去了吸引力。 4、工作量主要由兩種讀操作構成:對大量數據的流方式的讀操作和對少量數據的隨機方式的讀操作。在前一種讀操作中,可能要讀幾百KB,通常達 1MB和更多。來自同一個客戶的連續操作通常會讀文件的一個連續的區域。隨機的讀操作通常在一個隨機的偏移處讀幾個KB。性能敏感的應用程序通常將對少量數據的讀操作進行分類并進行批處理以使得讀操作穩定地向前推進,而不要讓它來來

6、回回的讀。 5、工作量還包含許多對大量數據進行的、連續的、向文件添加數據的寫操作。所寫的數據的規模和讀相似。一旦寫完,文件很少改動。在隨機位置對少量數據的寫操作也支持,但不必非常高效。 6、系統必須高效地實現定義完好的大量客戶同時向同一個文件的添加操作的語義。 (2)系統接口      GFS提供了一個相似地文件系統界面,雖然它沒有向POSIX那樣實現標準的API。文件在目錄中按層次組織起來并由路徑名標識。 (3)體系結構:      

7、 一個GFS集群由一個master和大量的chunkserver構成,并被許多客戶(Client)訪問。如圖1所示。Master和 chunkserver通常是運行用戶層服務進程的Linux機器。只要資源和可靠性允許,chunkserver和client可以運行在同一個機器上。       文件被分成固定大小的塊。每個塊由一個不變的、全局唯一的64位的chunkhandle標識,chunkhandle是在塊創建時由 master分配的。ChunkServer將塊當作Linux文件存儲在本地磁盤并可以讀和寫由chun

8、khandle和位區間指定的數據。出于可靠性考慮,每一個塊被復制到多個chunkserver上。默認情況下,保存3個副本,但這可以由用戶指定。        Master維護文件系統所有的元數據(metadata),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當前位置。它也控制系統范圍的活動,如塊租約(lease)管理,孤兒塊的垃圾收集,chunkserver間的塊遷移。Master定期通過HeartBeat消息與每一個 chunkserver通信,給chunkserver傳遞指令并收集它的狀態。 

9、;      與每個應用相聯的GFS client代碼實現了文件系統的API并與master和chunkserver通信以代表應用程序讀和寫數據。client與master的交換只限于對元數據(metadata)的操作,所有數據方面的通信都直接和chunkserver聯系。        client和chunkserver都不緩存文件數據。因為client緩存的益處微乎其微,這是由于數據太多或工作集太大而無法緩存。不緩存數據簡化了client程序和整個系

10、統,因為不必考慮緩存的一致性問題。但client緩存元數據(metadata)。Chunkserver也不必緩存文件,因為塊是作為本地文件存儲的。 (4)單master。        只有一個master也極大的簡化了設計并使得master可以根據全局情況作出先進的塊放置和復制決定。但是我們必須要將master對讀和寫的參與減至最少,這樣它才不會成為系統的瓶頸。Client從來不會從master讀和寫文件數據。Client只是詢問master它應該和哪個 chunkserver聯系。Client在一段限

11、定的時間內將這些信息緩存,在后續的操作中Client直接和chunkserver交互。       以上圖2解釋一下一個簡單的讀操作的交互。 1、client使用固定的塊大小將應用程序指定的文件名和字節偏移轉換成文件的一個塊索引(chunk index)。 2、給master發送一個包含文件名和塊索引的請求。 3、master回應對應的chunk handle和副本的位置(多個副本)。 4、client以文件名和塊索引為鍵緩存這些信息。(handle和副本的位置)。 5、Cl

12、ient 向其中一個副本發送一個請求,很可能是最近的一個副本。請求指定了chunk handle(chunkserver以chunk handle標識chunk)和塊內的一個字節區間。 6、除非緩存的信息不再有效(cache for a limited time)或文件被重新打開,否則以后對同一個塊的讀操作不再需要client和master間的交互。 通常Client可以在一個請求中詢問多個chunk的地址,而master也可以很快回應這些請求。 (5)塊規模:       塊規模是設計中的一個

13、關鍵參數。我們選擇的是64MB,這比一般的文件系統的塊規模要大的多。每個塊的副本作為一個普通的Linux文件存儲,在需要的時候可以擴展。       塊規模較大的好處有: 1、減少client和master之間的交互。因為讀寫同一個塊只是要在開始時向master請求塊位置信息。對于讀寫大型文件這種減少尤為重要。即使對于訪問少量數據的隨機讀操作也可以很方便的為一個規模達幾個TB的工作集緩緩存塊位置信息。 2、Client在一個給定的塊上很可能執行多個操作,和一個chunkserver保持較長時間的TCP連接

14、可以減少網絡負載。 3、這減少了master上保存的元數據(metadata)的規模,從而使得可以將metadata放在內存中。這又會帶來一些別的好處。      不利的一面:      一個小文件可能只包含一個塊,如果很多Client訪問改文件的話,存儲這些塊的chunkserver將成為訪問的熱點。但在實際應用中,應用程序通常順序地讀包含多個塊的文件,所以這不是一個主要問題。 (6)元數據(metadata):   

15、60;    master存儲了三種類型的metadata:文件的名字空間和塊的名字空間,從文件到塊的映射,塊的副本的位置。所有的metadata都放在內存中。前兩種類型的metadata通過向操作日志登記修改而保持不變,操作日志存儲在master的本地磁盤并在幾個遠程機器上留有副本。使用日志使得我們可以很簡單地、可靠地更新master的狀態,即使在master崩潰的情況下也不會有不一致的問題。相反,master在每次啟動以及當有 chunkserver加入的時候詢問每個chunkserver的所擁有的塊的情況。 A、內存數據結構: 

16、      因為metadata存儲在內存中,所以master的操作很快。進一步,master可以輕易而且高效地定期在后臺掃描它的整個狀態。這種定期地掃描被用于實現塊垃圾收集、chunkserver出現故障時的副本復制、為平衡負載和磁盤空間而進行的塊遷移。        這種方法的一個潛在的問題就是塊的數量也即整個系統的容量是否受限與master的內存。實際上,這并不是一個嚴重的問題。Master為每個 64MB的塊維護的metadata不足64個字節。除

17、了最后一塊,文件所有的塊都是滿的。類似的,每個文件的名字空間數據也不足64個字節,因為文件名是以一種事先確定的壓縮方式存儲的.如果要支持更大的文件系統,那么增加一些內存的方法對于我們將元數據(metadata)保存在內存種所獲得的簡單性、可靠性、高性能和靈活性來說,這只是一個很小的代價。 B、塊位置:        master并不為chunkserver所擁有的塊的副本保存一個不變的記錄。它在啟動時通過簡單的查詢來獲得這些信息。Master可以保持這些信息的更新,因為它控制所有塊的放置并通過HeartB

18、eat消息來監控chunkserver的狀態。 這樣做的好處:因為chunkserver可能加入或離開集群、改變路徑名、崩潰、重啟等,一個集群中有成百個server,這些事件經常發生,這種方法就排除了master與chunkserver之間的同步問題。       另一個原因是:只有chunkserver才能確定它自己到底有哪些塊,由于錯誤,chunkserver中的一些塊可能會很自然的消失,這樣在master中就沒有必要為此保存一個不變的記錄。 C、操作日志:   

19、0;    操作日志包含了對metadata所作的修改的歷史記錄。它作為邏輯時間線定義了并發操作的執行順序。文件、塊以及它們的版本號都由它們被創建時的邏輯時間而唯一地、永久地被標識。        操作日志是如此的重要,我們必須要將它可靠地保存起來,并且只有在metadata的改變固定下來之后才將變化呈現給client。所以我們將操作日志復制到數個遠程的機器上,并且只有在將相應的日志記錄寫到本地和遠程的磁盤上之后才回答client的請求。   &

20、#160;     Master可以用操作日志來恢復它的文件系統的狀態。為了將啟動時間減至最小,日志就必須要比較小。每當日志的長度增長到超過一定的規模后,master就要檢查它的狀態,它可以從本地磁盤裝入最近的檢查點來恢復狀態。 創建一個檢查點比較費時,master的內部狀態是以一種在創建一個檢查點時并不耽誤即將到來的修改操作的方式來組織的。Master切換到一個新的日志文件并在一個單獨的線程中創建檢查點。這個新的檢查點記錄了切換前所有的修改。在一個有數十萬文件的集群中用一分鐘左右就能完成。創建完后,將它寫入本地和遠程的磁盤。

21、0;(7)數據完整性       文件命名空間的修改必須是原子性的,它們只能由master處理:命名空間鎖保證了操作的原子性和正確性,而master的操作日志在全局范圍內定義了這些操作的順序。       文件區間在修改之后的狀態依賴于修改的類型,不論操作成功還是失敗,也不論是不是并發操作。如果不論從哪個副本上讀,所有的client都看到同樣的數據,那么文件的這個區域就是一致的。如果文件的區域是一致的并且client可以看到修改操作所寫的數據,那么它就是已

22、定義的。如果修改是在沒有并發寫操作的影響下完成的,那么受影響的區域是已定義的,所有的client都能看到寫的內容。成功的并發寫操作導致區域未被定義但卻是一致的,所有client看到的是同樣的數據但是并無法反映出任何改變。失敗的修改將使區間處于不一致的狀態,不同的client看到不同的數據。        Write操作在應用程序指定的偏移處寫入數據,而record append操作使得數據(記錄)即使在有并發修改操作的情況下也會被加到GFS指定的偏移處,偏移地址被返回給client。  

23、0;    在一系列成功的修改操作后,最后的修改操作保證文件區域是已定義的。GFS通過對所有的副本執行同樣順序的修改操作并且使用塊版本號檢測過時的副本(由于chunkserver退出而導致丟失修改)來做到這一點。      因為client緩存了chunk位置信息,所以在更新緩存之前有可能從一個過時的副本中讀取數據。但這有緩存的截止時間和文件的重新打開而受到限制。       在修改操作成功后,部件故障仍可以使數據受到破壞。G

24、FS通過master和chunkserver間定期的handshake,借助校驗和來檢測對數據的破壞。一旦檢測到,就從一個有效的副本盡快重新存儲。只有在GFS檢測前,所有的副本都失效,這個塊才會丟失。  2、系統交互 (1)租約(lease)和修改順序: (2)數據流       我們的目標是充分利用每個機器的網絡帶寬,避免網絡瓶頸和延遲      為了有效的利用網絡,我們將數據流和控制流分離。數據是以流水線的方式在選定的ch

25、unkerserver鏈上線性的傳遞的。每個機器的整個對外帶寬都被用作傳遞數據。為避免瓶頸,每個機器在收到數據后,將它收到數據盡快傳遞給離它最近的機器。 (3)原子性的record Append:        GFS提供了一個原子性的添加操作:record append。在傳統的寫操作中,client指定被寫數據的偏移位置,向同一個區間的并發的寫操作是不連續的:區間有可能包含來自多個client的數據碎片。在record append中, client只是指定數據。GFS在其選定的偏移處將數據至少原子性

26、的加入文件一次,并將偏移返回給client。        在分布式的應用中,不同機器上的許多client可能會同時向一個文件執行添加操作,添加操作被頻繁使用。如果用傳統的write操作,可能需要額外的、復雜的、開銷較大的同步,例如通過分布式鎖管理。在我們的作業量中,這些文件通常以多個生產者單個消費者隊列的方式或合并從多個不同 client的綜合結果。        Record append和前面講的write操作的控制流差不多,只是

27、在primary上多了一些邏輯判斷。首先,client將數據發送到文件最后一塊的所有副本上。然后向primary發送請求。Primary檢查添加操作是否會導致該塊超過最大的規模(64M)。如果這樣,它將該塊擴充到最大規模,并告訴其它副本做同樣的事,同時通知client該操作需要在下一個塊上重新嘗試。如果記錄滿足最大規模的要求,primary就會將數據添加到它的副本上,并告訴其它的副本在在同樣的偏移處寫數據,最后primary向client報告寫操作成功。如果在任何一個副本上record append操作失敗,client將重新嘗試該操作。這時候,同一個塊的副本可能包含不同的數據,因為有的可能復

28、制了全部的數據,有的可能只復制了部分。GFS不能保證所有的副本每個字節都是一樣的。它只保證每個數據作為一個原子單元被寫過至少一次。這個是這樣得出的:操作要是成功,數據必須在所有的副本上的同樣的偏移處被寫過。進一步,從這以后,所有的副本至少和記錄一樣長,所有后續的記錄將被指定到更高的偏移處或者一個不同的塊上,即使另一個副本成了primary。根據一致性保證,成功的record append操作的區間是已定義的。而受到干擾的區間是不一致的。 (4)快照(snapshot)       快照操作幾乎在瞬間構造一個文件和目

29、錄樹的副本,同時將正在進行的其他修改操作對它的影響減至最小。 我們使用copy-on-write技術來實現snapshot。當master受到一個snapshot請求時,它首先撤銷要snapshot的文件上塊上的lease。這使得任何一個向這些塊寫數據的操作都必須和master交互以找到擁有lease的副本。這就給master一個創建這個塊的副本的機會。       副本被撤銷或終止后,master在磁盤上登記執行的操作,然后復制源文件或目錄樹的metadata以對它的內存狀態實施登記的操作。這個新創建的snaps

30、hot文件和源文件(其metadata)指向相同的塊(chunk)。       Snapshot之后,client第一次向chunk C寫的時候,它發一個請求給master以找到擁有lease的副本。Master注意到chunk C的引用記數比1大,它延遲對用戶的響應,選擇一個chunk handle C,然后要求每一有chunk C的副本的chunkserver創建一個塊C。每個chunkserver在本地創建chunk C避免了網絡開銷。從這以后和對別的塊的操作沒有什么區別。 3、MASTER操作 

31、       MASTER執行所有名字空間的操作,除此之外,它還在系統范圍管理數據塊的復制:決定數據塊的放置方案,產生新數據塊并將其備份,和其它系統范圍的操作協同來確保數據備份的完整性,在所有的數據塊服務器之間平衡負載并收回沒有使用的存儲空間。 3.1 名字空間管理和加鎖        與傳統文件系統不同的是,GFS沒有與每個目錄相關的能列出其所有文件的數據結構,它也不支持別名(unix中的硬連接或符號連接),不管是對文件或是目錄。GF

32、S的名字空間邏輯上是從文件元數據到路徑名映射的一個查用表。        MASTER在執行某個操作前都要獲得一系列鎖,例如,它要對/d1/d2/dn/leaf執行操作,則它必須獲得/d1,/d1/d2, /d1/d2/dn的讀鎖,/d1/d2/dn/leaf的讀鎖或寫鎖(其中leaf可以使文件也可以是目錄)。MASTER操作的并行性和數據的一致性就是通過這些鎖來實現的。 3.2 備份存儲放置策略       一個GFS集群文件系統可能

33、是多層分布的。一般情況下是成千上萬個文件塊服務器分布于不同的機架上,而這些文件塊服務器又被分布于不同機架上的client來訪問。因此,不同機架上的兩臺機器之間的通信可能通過一個或多個交換機。數據塊冗余配置策略要達到兩個目的:最大的數據可靠性和可用性,最大的網絡帶寬利用率。因此,如果僅僅把數據的拷貝置于不同的機器上很難滿足這兩個要求,必須在不同的機架上進行數據備份。這樣即使整個機架被毀或是掉線,也能確保數據的正常使用。這也使數據傳輸,尤其是讀數據,可以充分利用帶寬,訪問到多個機架,而寫操作,則不得不涉及到更多的機架。 3.3 產生、重復制、重平衡數據塊   

34、;     當MASTER產生新的數據塊時,如何放置新數據塊,要考慮如下幾個因素:(1)盡量放置在磁盤利用率低的數據塊服務器上,這樣,慢慢地各服務器的磁盤利用率就會達到平衡。(2)盡量控制在一個服務器上的“新創建”的次數。(3)由于上一小節討論的原因,我們需要把數據塊放置于不同的機架上。        MASTER在可用的數據塊備份低于用戶設定的數目時需要進行重復制。這種情況源于多種原因:服務器不可用,數據被破壞,磁盤被破壞,或者備份數目被修改。每個被需要重復制的數

35、據塊的優先級根據以下幾項確定:第一是現在的數目距目標的距離,對于能阻塞用戶程序的數據塊,我們也提高它的優先級。最后, MASTER按照產生數據塊的原則復制數據塊,并把它們放到不同的機架內的服務器上。         MASTER周期性的平衡各服務器上的負載:它檢查chunk分布和負載平衡,通過這種方式來填充一個新的服務器而不是把其它的內容統統放置到它上面帶來大量的寫數據。數據塊放置的原則與上面討論的相同,此外,MASTER還決定那些數據塊要被移除,原則上它會清除那些空閑空間低于平均值的那些服務器。

36、0;3.4 垃圾收集        在一個文件被刪除之后,GFS并不立即收回磁盤空間,而是等到垃圾收集程序在文件和數據塊級的的檢查中收回。       當一個文件被應用程序刪除之后,MASTER會立即記錄下這些變化,但文件所占用的資源卻不會被立即收回,而是重新給文件命了一個隱藏的名字,并附上了刪除的時間戳。在MASTER定期檢查名字空間時,它刪除超過三天(可以設定)的隱藏的文件。在此之前,可以以一個新的名字來讀文件,還可以以前的名字恢復。當隱藏的

37、文件在名字空間中被刪除以后,它在內存中的元數據即被擦除,這就有效地切斷了它和所有數據塊的聯系。       在一個相似的定期的名字空間檢查中,MASTER確認孤兒數據塊(不屬于任何文件)并擦除它的元數據,在和MASTER的心跳信息交換中,每個服務器報告它所擁有的數據塊,MASTER返回元數據不在內存的數據塊,服務器即可以刪除這些數據塊。 3.5 過時數據的探測        在數據更新時如果服務器停機了,那么它所保存的數據備份就會過時。

38、對每個數據塊,MASTER設置了一個版本號來區別更新過的數據塊和過時的數據塊。        當MASTER授權一個新的lease時,它會增加數據塊的版本號并會通知更新數據備份。MASTER和備份都會記錄下當前的版本號,如果一個備份當時不可用,那么它的版本號不可能提高,當ChunkServer重新啟動并向MASTER報告它的數據塊集時,MASTER就會發現過時的數據。         MASTER在定期的垃圾收集程序中清除過時

39、的備份,在此以前,出于效率考慮,在各client,它會認為根本不存在過時的數據。作為另一個安全措施, MASTER在給client及關于數據塊的應答或是另外一個讀取數據的服務器數據是都會帶上版本信息,在操作前client機和服務器會驗證版本信息以確保得到的是最新的數據。 4、容錯和診斷 4.1 高可靠性 4.1.1 快速恢復        不管如何終止服務,MASTER和數據塊服務器都會在幾秒鐘內恢復狀態和運行。實際上,我們不對正常終止和不正常終止進行區分,服務器進程都會被切斷而終止。

40、client機和其它的服務器會經歷一個小小的中斷,然后它們的特定請求超時,重新連接重啟的服務器,重新請求。 4.1.2 數據塊備份        如上文所討論的,每個數據塊都會被備份到放到不同機架上的不同服務器上。對不同的名字空間,用戶可以設置不同的備份級別。在數據塊服務器掉線或是數據被破壞時,MASTER會按照需要來復制數據塊。 4.1.3 MASTER備份         為確保可靠性,MASTER的狀態、操作記錄和檢查點都在多臺機器上進行了備份。一個操作只有在數據塊服務器硬盤上刷新并被記錄在MASTER和其備份的上之后才算是成功的。如果MASTER或是硬盤失敗,系統監視器會發現并通過改變域名啟動它的一個備份機,而client機則僅僅是使用規范的名稱來訪問,并不會發現MASTER的改變。&

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論