




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1) 云計算是對(并行計算,分布式計算和網格計算)技術的發展與應用。2) 云計算特點的包括(超大規模,虛擬化,高可靠性,通用性,高可伸縮性,按需服務,極其廉價)。3) 按照服務類型,云計算大致可分為(將基礎設施作為服務IaaS、將平臺作為服務PaaS和將軟件作為服務SaaS)4) IaaS計算實現機制中,系統管理模塊的核心功能是(負載均衡)5) 云計算體系結構包括(物理資源層、資源池、管理中間件和SOA構建層),最關鍵的兩層是(資源池和管理中間件),其中的(管理中間件)負責資源管理、任務管理、用戶管理和安全管理等工作。6) Google云計算平臺技術架構包括(Google文件系統GFS、分布式
2、計算編程模型MapReduce、分布式鎖服務Chubby、分布式結構化數據表Bigtable、分布式存儲系統Megastore以及分布式監控系統Dapper)7) Google文件系統GFS分塊默認的塊大小是(64M)8) Google文件系統(GFS)分成固定大小的塊,每個塊都用一個對應的(索引號(Index)。9) Google文件系統(GFS)提供給應用程序的訪問接口是(專用接口)10) GFS的假設和目標是(硬件出錯正常;主要負載時流數據讀寫,需要存儲大尺寸的文件)11) Google文件系統(GFS)通過(冗余)方式提高可靠性12) Google文件系統(GFS)中每個數據塊默認是在
3、(3)個數據塊服務器上冗余13) Google文件系統(GFS)中客戶端直接從(數據塊服務器)角色完成數據存取。14) 文件體統(GFS)中主服務器節點 任務是(存儲元數據、文件系統目錄管理和與數據塊服務器進行周期性通信)15) 在主服務器節點存儲中,采用日志進行容錯的是(命名空間、Chunk與文件名的映射)16) 在數據塊服務器容錯中,每個Block對應 32Bit的校驗碼17) GFS采用用中心服務器模式的原因包括(可以方便增加數據塊服務器;不存在元數據的一致性問題;方便進行負載均衡)18) Google不緩存數據的原因是(OFS的文件操作大部門是流式讀寫;維護緩存與實際數據之間的一致性太
4、復雜;不存在大量的重復讀寫;數據塊服務器上的數據存取使用本地文件系統;)19) GFS中主服務器節點存儲的元數據包括(命名空間;Chunk與文件名間的映射表、Chunk副本的位置信息)20) 單一主服務器(Master)解決性能瓶頸的方法是(減少其在數據存儲中的參與程度、不適用Master讀取數據、客戶端緩存元數據、采用大尺寸的數據塊)21) Google云計算技術和開源框架Hadoop如何對應的22)(MapReduce)是Google提出的用于處理海量數據的并行編程模式和大規模數據集的并行運算的軟件架構。簡答題云計算和網格計算的異同?MapReduce與傳統的分布式程序設計相比有何優點?另
5、外一個文檔上有答案 MapReduce執行流程圖(1) MapReduce函數首先把輸入文件分成M塊(2) 這些分派執行程序有一個程序比較特別,他是主程序Master。剩下的執行程序都是作為Master分派工作的Worker(工作機)。總共有M個Map任務和R個Reduce任務需要分派,Master選擇空閑的Worker來分配這些Map或Reduce任務。(3) 一被分配的Map任務的Worker讀取并處理相關的輸入塊。(4) 這些緩存到內存的中間結果將被定時寫到本地硬盤,這些數據通過分區函數分層R個區(5) 當Master通知Reduce的Worker關于<key,value>對
6、的位置時,它調用遠程控制過程,從Map Worker的本地硬盤上讀取緩沖的中間數據。(6) Reduce Worker根據每一個唯一的中間key來遍歷所有的排序后的中間數據,并且把key和相關的中間結果值集合傳遞給用戶定義的Reduce函數。(7) 當所有Map任務和Reduce任務都完成時,Master激活用戶程序。設計題試繪制GFS體系結構的示意圖,并對工作流程進行簡要說明另外一個文檔上面有答案GFS將整個系統的節點分為三類角色:Client(客戶端)、Master(主服務器)和Chunk Server(數據塊服務器)。Client提供給應用程序的訪問接口,它是一組專用接口。Master是
7、GFS的管理節點,在邏輯上有一個,它保存系統的元數據,負責整個文件系統的管理。Chunk Server負責具體的存儲工作。數據以文件的形式存儲在Chunk Server上,Chunk Server的個數可以有多個,它的數量直接決定了GFS的規模。客戶端在訪問GFS是,首先訪問Master節點,獲取與之進行交互的Chunk Server信息,然后直接訪問這些Chunk Server,完成數據的存取工作。Google Mapduce案例分析(字符串排序)(1) 對原始的數據進行分割(Split),得到N個不同的數據分塊(2) 對每一個數據塊都啟動一個Map進行處理,采用桶排序的方法,每個Map按照
8、首字母將字符串分配到不同的桶中(3) 對于Map之后得到的中間結果,啟動26個Reduce。按照字母將Map中不同桶中的字符串集合放置到相應的Reduce中進行處理。具體的說:就是將首字母a的字符串放到Reduce1中處理,首字母b的放到Reduce2中處理依此類推。每個Reduce對于其中字符串進行排序,結果直接輸出。由于Map過程中已經做到了首字母有序,Reduce輸出結果就是最終的排序結果。簡答題HDFS的五個守護進程HDFS體系結構圖HDFS集群是一個NameNode和很多個DataNode組成。NameNode主控服務器,管理文件系統的元數據,負責維護文件系統的命名空間并協調客戶端對
9、文件的訪問,記錄命名空間內的任何改動或命名空間本身的屬性改動。DataNode存儲實際的數據,負責他們所在物理節點上存儲管理,HDFS開放文件系統的命名空間以便讓用戶以文件的形式存儲數據。客戶端聯系NameNode以獲取文件的元數據,而真正的文件I/O操作是直接和DataNode進行交互的。SecondaryNameNode它不是 namenode 的冗余守護進程,而是提供周期檢查點和清理任務。JobTracker負責調度 DataNode上的工作。每個 DataNode有一個TaskTracker,它們執行實際工作。JobTracker和 TaskTracker
10、采用主-從形式,JobTracker跨DataNode分發工作,而 TaskTracker執行任務。JobTracker還檢查請求的工作,如果一個 DataNode由于某種原因失敗,JobTracker會重新調度以前的任務。這個是重點(五個函數)但是不確定怎么考?Hadoop MapReduce五種函數(實際是兩個函數,另外三個是階段),每種函數的含義輸入分片(input split)階段:在進行map計算之前,mapreduce會根據輸入文件計算輸入分片(input split),每個輸入分片(input split)針對一個map任務,輸入分片(input split)
11、存儲的并非數據本身,而是一個分片長度和一個記錄數據的位置的數組,輸入分片(input split)往往和hdfs的block(塊)關系很密切;map階段:就是程序員編寫好的map函數了,因此map函數效率相對好控制,而且一般map操作都是本地化操作也就是在數據存儲節點上進行;Combine(連接)函數:將Map任務輸出的中間結果集中有相同的key值的多個<key,vlaue>組合成一個<key,list<value>>對。Combine在執行完Map函數后緊接著執行,很多情況下直接使用Reduce函數,Combine能減少中間結果的數量,從而減少數據傳輸的網
12、絡流量。Partition(分區)函數:Combine之后,把產生的中間結果按key的范圍劃分成R(R是預先定義的Reduce任務的個數)份,劃分的時候通常使用Hash函數,如Hash(key) mod R,這樣可以保證某一范圍內的key,一定是一個Reduce任務來處理,可以簡化Reduce的過程。reduce階段:和map函數一樣也是程序員編寫的,最終結果是存儲在hdfs上的。SQL和NoSQL數據庫的對比(1) 數據模型,SQL數據庫對數據有嚴格的約束,包括數據之間的關系和數據的完整性。(2) 數據處理:傳統的SQL數據庫滿足CAP原則(一致性(Consistency)、可用性(Avai
13、lability)、分區容忍性(Partition Tolerance)的C和A,所以在P方面很弱,進而導致傳統數據庫在可擴展性方面,面臨很多問題。NoSQL數據庫滿足CAP原則的A和P,所以在C比較弱,進而使得斐關系型數據庫無法滿足ACID要求。(3) 接口層區別:SQL數據庫都是以SQL語言對數據庫進行訪問的,目前所有的SQL數據都支持SQL語言;NoSQL數據庫對數據的操作都是通過一些API實現的,支持的查詢功能很簡單,并且不同數據庫有不同的API。(4) 優勢和劣勢:SQL數據庫具有很高的一致性,在ACID方面能力非常強移植性很高,但在可用性方面能力較弱。NoSQL數據庫最大的優點是非
14、常高的可擴展性,具有很強的并發處理能力,但缺乏數據一致性保證。另外,由于分布在多個服務器行,所以跨表、跨服查詢很難。Google Reduce編程模型(簡單描述如何實現)一個Map函數就是對一部分原始數據進行制定的操作。每個Map函數都針對不同的原始數據,因此Map和Map之間是互相獨立的,這是的他們可以充分并發。一個Reduce操作就是對每個Map所產生的一部分中間結果進行合并操作,每個Reduce所處理的Map中間結果是互相不交叉的,所有Reduce產生的最終結果經過簡單的連接就形成了完整的結果集,因此Reduce也可以在并發環境下之下執行開發者需編寫兩個主要函數 Map: (in_key, in_value) à (keyj, valuej) | j = 1kReduce: (key, value1,valuem)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年焙烤食品項目申請報告
- 2025年發酵合成控制系統項目提案報告
- 飲酒十六教學課件
- 初中短跑教學課件
- 暖通可行性研究報告
- 醫療糾紛訴訟理論與實踐
- 踢拳教學課件
- 聲母寶寶教學課件
- 坐井觀天教學課件
- 【菏澤】2025年山東菏澤東明縣縣直事業單位引進高層次急需緊缺人才33人筆試歷年典型考題及考點剖析附帶答案詳解
- GB/T 28267.2-2015鋼絲繩芯輸送帶第2部分:優選帶型
- GB 7331-2003馬鈴薯種薯產地檢疫規程
- 關節軟骨、膠原組織及生物力學
- 2023年中國建設銀行(西藏自治區分行)校園招聘模擬筆試試題及答案解析
- Going-Positive教學講解課件
- 廣州大劇院建筑分析課件
- 公司扣款單據模板
- 文獻檢索與閱讀方法課件
- 髂內動脈解剖特點PPT
- 螺旋槳加工與安裝工藝
- 校長競聘試題
評論
0/150
提交評論