單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第1頁(yè)
單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第2頁(yè)
單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第3頁(yè)
單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第4頁(yè)
單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、單元測(cè)試2:大數(shù)據(jù)處理與分析技術(shù)II基本信息:矩陣文本題 *姓名:_部門(mén):_員工編號(hào):_1. MapReduce設(shè)計(jì)的一個(gè)理念就是“計(jì)算向數(shù)據(jù)靠攏”。 判斷題 *對(duì)(正確答案)錯(cuò)2. 目前數(shù)據(jù)實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果表明:正向匹配的切分精度略高于逆向匹配。 判斷題 *對(duì)錯(cuò)(正確答案)答案解析:逆向匹配的切分精度略高于正向匹配3. 兩個(gè)鍵值對(duì)和,如果對(duì)其進(jìn)行歸并(merge),會(huì)得到,如果對(duì)其進(jìn)行合并(combine),會(huì)得到a, 判斷題 *對(duì)錯(cuò)(正確答案)答案解析:兩個(gè)鍵值對(duì)和,如果合并,會(huì)得到,如果歸并,會(huì)得到“a”,4. 所謂Shuffle過(guò)程,是指對(duì)Map輸出結(jié)果進(jìn)行分區(qū)、排序、合并等處理,并交給

2、Reduce的過(guò)程。 判斷題 *對(duì)(正確答案)錯(cuò)5. 第三次信息化浪潮的標(biāo)志是() 單選題 *個(gè)人電腦的普及云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)的普及(正確答案)虛擬現(xiàn)實(shí)技術(shù)的普及互聯(lián)網(wǎng)的普及6. 以下關(guān)于云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)之間的關(guān)系,論述錯(cuò)誤的是: 單選題 *云計(jì)算側(cè)重于數(shù)據(jù)分析(正確答案)物聯(lián)網(wǎng)可以借助于云計(jì)算實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)物聯(lián)網(wǎng)可以借助于大數(shù)據(jù)實(shí)現(xiàn)海量數(shù)據(jù)的分析云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)三者緊密相關(guān),相輔相成答案解析:大數(shù)據(jù)側(cè)重于海量數(shù)據(jù)的存儲(chǔ)、處理與分析,從海量數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,服務(wù)于生產(chǎn)和生活;云計(jì)算本質(zhì)上旨在整合和優(yōu)化各種IT資源,并通過(guò)網(wǎng)絡(luò)以服務(wù)的方式廉價(jià)提供給用戶;物聯(lián)網(wǎng)的發(fā)展目標(biāo)是實(shí)

3、現(xiàn)物物相連,應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心。7. 每種大數(shù)據(jù)產(chǎn)品都有特定的應(yīng)用場(chǎng)景,以下哪個(gè)產(chǎn)品是用于流計(jì)算的 單選題 *GraphXS4(正確答案)ImpalaHive答案解析:S4: Yahoo!的分布式流計(jì)算平臺(tái)8. 以下哪個(gè)不是Hadoop的特性: 單選題 *成本高(正確答案)支持多種編程語(yǔ)言高容錯(cuò)性高可靠性9. 以下哪個(gè)不是大數(shù)據(jù)時(shí)代新興的技術(shù): 單選題 *SparkHadoopHBaseMySQL(正確答案)10. 關(guān)于Hadoop技術(shù)描述錯(cuò)誤的是?() 單選題 *HDFS是一個(gè)分布式文件系統(tǒng)聯(lián)盟鏈HDFS適合存儲(chǔ)大量的小文件(正確答案)HDFS存儲(chǔ)空間由數(shù)據(jù)節(jié)點(diǎn)數(shù)決定答案解析:A選項(xiàng)

4、是定義.B選項(xiàng)說(shuō)的聯(lián)盟鏈指HDFS中的聯(lián)盟,Hdfs federation實(shí)際是把多個(gè)hdfs集群統(tǒng)一到一個(gè)命名空間下。Hdfs federation 作用擴(kuò)大NN容量,共享DN數(shù)據(jù),且方便客戶端訪問(wèn)。C選項(xiàng)是錯(cuò)誤的,HDFS小文件存儲(chǔ)問(wèn)題一直是一個(gè)令人頭疼的問(wèn)題,因?yàn)镠DFS是基于大數(shù)據(jù)存儲(chǔ)的,但是它還需要存儲(chǔ)元數(shù)據(jù)信息,無(wú)論數(shù)據(jù)量多大,元數(shù)據(jù)量是差不多的,所以最好是存儲(chǔ)大文件,而不是海量小文件,可以使用歸約和壓縮的方式進(jìn)行解決D選項(xiàng):存儲(chǔ)主要是由于DataNode決定,所以數(shù)據(jù)節(jié)點(diǎn)越多,存儲(chǔ)能力越強(qiáng)11. 采用多副本冗余存儲(chǔ)的優(yōu)勢(shì)不包含: 單選題 *保證數(shù)據(jù)可靠性容易檢查數(shù)據(jù)錯(cuò)誤加快數(shù)據(jù)傳

5、輸速度節(jié)約存儲(chǔ)空間(正確答案)12. Hadoop集群中的HDFS的默認(rèn)的副本塊的個(gè)數(shù)是? 單選題 *123(正確答案)4答案解析:HDFS集群采取分散存儲(chǔ) + 冗余存儲(chǔ)的策略,用戶上到HDFS集群的文件,HDFS集群會(huì)為它存儲(chǔ)多份。默認(rèn)是3份13. Spark 的四大組件下面哪個(gè)不是() 單選題 *SQL and DataFramesSpark StreamingMLlib (machine learning)GraphX (graph)是spark的四大組件Spark StreamingMlibGraphxSpark R(正確答案)14. Spark相比Hadoop的, 不是其優(yōu)勢(shì)的是()

6、 單選題 *DAG執(zhí)行引擎線程池模型增多task啟動(dòng)開(kāi)銷(正確答案)充分利用內(nèi)存,減少磁盤(pán)IO更適合迭代計(jì)算答案解析:spark 比Hadoop快的原因:數(shù)據(jù)本地性、調(diào)度優(yōu)化、傳輸優(yōu)化,最主要的是基于內(nèi)存計(jì)算和引入了DAG。Hadoop的計(jì)算結(jié)果在磁盤(pán)中,spark是在內(nèi)存中;數(shù)據(jù)計(jì)算任務(wù)需要多個(gè)步驟時(shí),Hadoop需要引入Oozie等工具,但是spark有DAGHadoop中,每一個(gè)job 的計(jì)算結(jié)果都會(huì)存儲(chǔ)在hdfs中,所以每一步計(jì)算都要進(jìn)行硬盤(pán)的IO,大大增加了系統(tǒng)的延遲15. HDFS的是基于流數(shù)據(jù)模式訪問(wèn)和處理超大文件的需求而開(kāi)發(fā)的,默認(rèn)的最基本的存儲(chǔ)單位是64M,具有高容錯(cuò)、高可靠

7、性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫(xiě)任務(wù)是? 單選題 *一次寫(xiě)入,少次讀出多次寫(xiě)入,少次讀出一次寫(xiě)入,多次讀出(正確答案)多次寫(xiě)入,多次讀出答案解析:HDFS的設(shè)計(jì)初衷就是為將來(lái)的海量數(shù)據(jù)的分布式計(jì)算做鋪墊的,所以HDFS是一次寫(xiě)入,多次讀出的場(chǎng)景16. MapReduce正確的流程順序是什么?() 單選題 *Map-Reduce-CombineReduce-Combine- MapMap-Combine- Reduce(正確答案)Combine- Reduce- Map答案解析:map函數(shù)操作所產(chǎn)生的鍵值對(duì)會(huì)作為combine函數(shù)的輸入,經(jīng)combine函數(shù)處理后再送到reduce函數(shù)

8、進(jìn)行處理,減少了寫(xiě)入磁盤(pán)的數(shù)據(jù)量,同時(shí)也減少了網(wǎng)絡(luò)中鍵值對(duì)的傳輸量。17. 下列說(shuō)法錯(cuò)誤的是() 單選題 *Hadoop框架是用Java實(shí)現(xiàn)的,MapReduce應(yīng)用程序則一定要用Java來(lái)寫(xiě)(正確答案)Map函數(shù)將輸入的元素轉(zhuǎn)換成形式的鍵值對(duì)MapReduce框架采用了Master/Slave架構(gòu),包括一個(gè)Master和若干個(gè)Slave不同的Map任務(wù)之間不能互相通信答案解析:hadoop 通過(guò)hadoop streaming 的方式也可以調(diào)用其他編程語(yǔ)言實(shí)現(xiàn)的MR,例如c+等18. 在使用MapReduce程序WordCount進(jìn)行詞頻統(tǒng)計(jì)時(shí),對(duì)于文本行“hello hadoop hell

9、o world”,經(jīng)過(guò)WordCount程序的Map函數(shù)處理后直接輸出的中間結(jié)果,應(yīng)該是下面哪種形式: 單選題 *hello,、和(正確答案)、和、和、和答案解析:Map過(guò)程:對(duì)讀取的單詞進(jìn)行map操作,每個(gè)詞都以形式生成19. 對(duì)于文本行“hello hadoop hello world”,經(jīng)過(guò)WordCount的Reduce函數(shù)處理后的結(jié)果是() 單選題 *(正確答案)hello,答案解析:reduce操作是對(duì)map的結(jié)果進(jìn)行排序,合并,最后得出詞頻。20. 大數(shù)據(jù)的特性包括: *價(jià)值密度低(正確答案)處理速度快(正確答案)數(shù)據(jù)類型繁多(正確答案)數(shù)據(jù)量大(正確答案)21. Hadoop的

10、兩大核心是?() *MapReduce(正確答案)HBaseHDFS(正確答案)GFS答案解析:Hadoop的兩大核心是HDFS和MapReduce,HDFS用來(lái)存儲(chǔ)數(shù)據(jù),MapReduce用來(lái)處理數(shù)據(jù)。22. 回顧Hadoop的工作流程,可以發(fā)現(xiàn)Hadoop存在如下哪些缺點(diǎn): *表達(dá)能力有限。計(jì)算都必須要轉(zhuǎn)化成Map和Reduce兩個(gè)操作,但這并不適合所有的情況,難以描述復(fù)雜的數(shù)據(jù)處理過(guò)程(正確答案)磁盤(pán)IO開(kāi)銷大。每次執(zhí)行時(shí)都需要從磁盤(pán)讀取數(shù)據(jù),并且在計(jì)算完成后需要將中間結(jié)果寫(xiě)入到磁盤(pán)中,IO開(kāi)銷較大(正確答案)沒(méi)有提供文件管理系統(tǒng),必須和其他的分布式文件系統(tǒng)進(jìn)行集成才能運(yùn)作延遲高。一次計(jì)

11、算可能需要分解成一系列按順序執(zhí)行的MapReduce任務(wù),任務(wù)之間的銜接由于涉及到IO開(kāi)銷,會(huì)產(chǎn)生較高延遲(正確答案)23. 關(guān)于NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù),下列說(shuō)法正確的是: *NoSQL數(shù)據(jù)庫(kù)可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),具有強(qiáng)大的橫向擴(kuò)展能力(正確答案)NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)各有優(yōu)缺點(diǎn),但隨著NoSQL的發(fā)展,終將取代關(guān)系數(shù)據(jù)庫(kù)大多數(shù)NoSQL數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)數(shù)據(jù)完整性(正確答案)關(guān)系數(shù)據(jù)庫(kù)有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一的理論基礎(chǔ)(正確答案)答案解析:如果源數(shù)據(jù)格式是 SQL 數(shù)據(jù),沒(méi)法控制;數(shù)據(jù)量小;數(shù)據(jù)間交叉引用關(guān)系復(fù)雜;查詢模式豐富;應(yīng)用又不需要高性能;不擔(dān)心機(jī)器故障等高可用性問(wèn)題,那么繼續(xù)沿用關(guān)系型數(shù)據(jù)庫(kù)也是一個(gè)務(wù)實(shí)的選擇。24. NoSQL數(shù)據(jù)庫(kù)的類型包括: *鍵值數(shù)據(jù)庫(kù)(正確答案)列族數(shù)據(jù)庫(kù)(正確答案)文檔數(shù)據(jù)庫(kù)(正確答案)圖數(shù)據(jù)庫(kù)(正確答案)25. 分詞任務(wù)中,主要的難點(diǎn)在于() *未登陸詞識(shí)別(正確答案)穩(wěn)定劃分歧義切分(正確答案)短文本長(zhǎng)文本26. 假設(shè),有以下4種標(biāo)簽:B

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論