



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Hadoop 期中考試1 單選題(每個1.5 分,共 20 分)( 1 ) Mapreduce 擅長哪個領域的計算( A ) 。A. 離線批處理B. DAG計算C. 流式計算D. 實時計算( 2 )關于MapReduce 原理,下面說法錯誤的是( D ) 。A. 分為 Map 和 Reduce 兩個階段B. Map 階段由一系列 Map 任務組成C. Reduce階段由一系列 Reduce任務組成D. Map 階段與 Reduce 階段沒有任何依賴關系(3) HDFS默認副本數是( C )。A. 1B. 2C. 3D. 4(4)不屬于HDFS架構組成部分是( D )。A. NameNodeB.
2、 Secondary NameNodeC. DataNodeD. TaskTracke(r Hadoop MapReduce 1.0 的組件)( 5)關于Block 和 Split 兩個概念,下面說法錯誤的是( C ) 。A. Block是HDFS中最小的數據存儲單位B. Split 是 MapReduce 中最小的計算單元C. Block是Split是一一對應關系(默認是對應的)D. Block和Split之間對應關系是任意的,可由用戶控制( 6 )以下不屬于Hadoop 內核的組成部分的是( C ) 。A. HDFSB. MapReduceC. HBaseD. YARN( 7)不屬于HBa
3、se 中的術語的是( D ) 。A. ColumnB. Column FamilyC. Row KeyD. Meta(8)下面關于Hive,說法錯誤的是( A )。A. Hive支持所有標準 SQL語法B. Hive底層采用的計算引擎是MapReduce (目前支持Spark、Tez等)C. Hive提供的HQL語法,與傳統 SQL很類似D. Hive Server可采用MySQL存儲元數據信息(9)通常而言,一個標準的生產環境(考慮成本、效益等)中,Zookeeper實例個數不可能是(B )。A. 3B. 4C. 5D. 7(10) Flume的主要作用是( C )。A.數據處理和分析B.數
4、據存儲C.數據收集D.網絡爬蟲(11) HBase支持多語言(比如C+、Python等)訪問,為實現該功能,它采用的開源軟件是(C )。A. protobufB.自定義網絡協議C. thriftD. avro(12)關于HDFS和HBase,說法錯誤的是( D )。A. HDFS不能隨機讀寫,HBase可以B. HDFS適合存儲大文件,HBase可以存儲小文件C. HBase底層采用了 HDFSD. HDFS和HBase無直接關系(13) YARN和 MapReduce 的關系是( A )。A. MapReduce是一個計算框架,可運行在YARN之上B. YARN是一個計算框架,可運行在Map
5、Reduce之上C. MapReduce和YARN無直接關系D.以上回答均不正確 1 14)關于MapReduce中的數據本地性,下面方法正確的是( AB )。A. Map Task和Reduce Task都會考慮數據本地性B.只有Map Task會考慮數據本地性(Reduce階段是從Map階段拉取Shuffle數據的)C.只有Reduce Task會考慮數據本地性D. Map Task和Reduce Task都不考慮數據本地性(15)與Hive相比,Presto主要優勢是( C )。A.利用MapReduce進行分布式計算,更加高效B.完全分布式計算,可以充分利用集群資源C. MPP架構,全
6、內存計算D.有很強的容錯性(16)下面哪種存儲格式是 Hive中常用的列式存儲格式( D )。A. Text FileB. Sequence FileC. ParquetD. ORC (17)下面哪個信息不會存儲在HBase的一個cell ( EC )。A. row keyB. column family 名稱C.表名D.列名E.版本號F. cell 值數據存儲冗余,非常耗費空間(18)默認情況下,一個MapReduce作業(處理白數據 HDFS±的一個目錄)的map task個數是由(B ) 決定的。A.目錄中文件個數B.目錄對應的 block數目C.默認個數是1D.用戶自己指定H
7、DFS, Block 默認大小為 128MB。一個Block文件只能來自于一個文件。查看一個文件有多少個Block 的命令:hdfs fsck /input files -blocks -locations(19) Hive 和 Presto 支持標準 SQL嗎? ( BD )A.都支持B.都不支持C. Hive支持,Presto不支持D. Hive不支持,Presto支持(20)既然有了 Hive,還需要用 MapReduce編寫程序處理數據嗎? ( B )A.不需要B.需要2 .多選題(每個4分,共20分)(1) 關于HDFS說法正確的是( ABC )A.不存在NameNode單點故障問題
8、B. 一個集群可存在多個NameNode對外提供服務C. HDFS HA和Federation是它的兩大特色D.不能存儲小文件(2) 關于Kafka,說法正確的是( BCD )A.是一個分布式key/value存儲系統8. 由 producer> broker 和 consumer 等角色構成C.通過zookeeper進行服務協調D.消息可以存成多個副本以達到容錯的目標(3) 關于 MapReduce,說法正確的是( ACD )A. MapReduce具有容錯性,一臺節點掛掉不會導致整個應用程序運行失敗B.所有 MapReduce 程序公用一個 ApplicationMasterC. M
9、apReduce程序可以運行在 YARN之上(也可以運行在本地)D. MapReduce是Hive默認的計算引擎(4) 用戶可使用哪幾種語言開發MapReduce應用程序(ABCD )A. C+B. JavaC. PHPD. Go(5) 下面哪幾個屬于 YARN自帶的資源調度器( BCD )A. Deadline SchedulerB. FIFO (先進先出)C. Capacity Scheduler (容錯調度系統)D Fair Scheduler (公平調度系統)3 簡答題(每個5 分,共 10 分)(1) 描述MapReduce作業從提交到 YARN上,到運行結束的整個過程,請用步驟 1
10、,步驟2,, 描述。答:步驟 1 ,客戶端提交請求到 Yarn 的 ResourceManager步驟2 , RM 確定一個 AppMaster步驟3 , AppMaster 向 RM 申請 NodeManager步驟4, AppMaster將Task發送給 NodeManager僅限執行步驟 5 , AppMaster 負責收集 NodeManager 的運行結果步驟 6 , AppMaster 將結果返回給客戶端( 2 ) 試描述如何對Hadoop Streaming 程序進行調試?并舉出一個例子。答:?單機運行,本地測試: 1.txt : cat ,管道輸入Mapper , sort(
11、3 )試寫出以下操作的 shell 命令:1)在HDFS上創建目錄/home/test答:hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2 ) 將正在運行的 ID 為的應用程序殺死 答:3)查看HDFS上文件/home/test/1.txt 的大小答: hdfs dfs -ls /home/test/1.txt4 ) 在 Hive 中創建一個parquet 表,采用 gzip 壓縮格式,該表名為test ,包含兩列:int 類型名為 id 的列和 string 類型名為 namename
12、 的列。 如何在 Presto 中創建這個表, 有何不同?答:create table if not exists test( id int,namename string)gzipstored as parquet;4 編程題( 40 分)( 1 )有一批文件,格式如下:每行有 4 列,每一列均是一個整數,列之間采用“.”作為分隔符,將數據按照第二列和第三列分組,每組中第四列所有數之和。注:如果第二列相同,則按照第三列分組,比如上述結果為:12.1314.2511.41結果中,key 為“第二列和第三列” 值, value 是對應的第四列累加和, key 和 value 之間使用 t 分割。
13、要求:使用任意語言實現以上功能,寫出 Mapper 和 Reducer ,并給出相應的作業提交命令(或腳本)。答:(根據 WordCount 實例進行改造)Mapper:String values = value.toString().split(“. ” );Text outputKey = new Text(values1+ . +values2 );IntWritable outputValue = new IntWritable(Integer.parsetInt(values3);Context.write(outputKey, outputValue);Reducer:無需調整( 2 )編寫 MapReduc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡游戲平臺用戶數據安全保護與隱私權保護協議
- 爆炸性物品抗震防震泡沫供應合同
- 電子商務物流效率提升補充協議
- 游戲IP跨界合作:與知名品牌聯合舉辦活動協議
- 智能自習室會員體系共建與資源共享合作協議
- 海外醫療信息存儲與租賃管理協議
- 繼子女撫養權解除與監護權變更協議
- 《慢性病毒性心肌炎》課件
- 《OLED產業鏈概述》課件
- 《崗位分析的基礎技術與工具教學課件》
- GB/T 13871.1-2007密封元件為彈性體材料的旋轉軸唇形密封圈第1部分:基本尺寸和公差
- GB/T 10066.1-2004電熱設備的試驗方法第1部分:通用部分
- 被執行人財產申報表
- 吊裝安全確認表及技術交底
- 遙控器檢驗作業指導書
- DBJ41∕T 228-2019 河南省房屋建筑施工現場安全資料管理標準
- 三級安全教育考試試題(的)
- 生態環境執法大練兵練習(行政處罰法、新固廢法、大氣法)
- 芒針療法課件
- 小學二年級下冊科學課件1.《春夏秋冬》大象版(22張)ppt課件
- 鼻咽癌放療臨床路徑
評論
0/150
提交評論