單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案

上傳人：喝*** IP屬地：廣西上傳時(shí)間：2022-08-12 格式：DOCX 頁(yè)數(shù)：10 大小：21.54KB 積分：30 舉報(bào) 版權(quán)申訴

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第2頁(yè)

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第3頁(yè)

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第4頁(yè)

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案_第5頁(yè)

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II基本信息：矩陣文本題 *姓名：_部門(mén)：_員工編號(hào):_1. MapReduce設(shè)計(jì)的一個(gè)理念就是“計(jì)算向數(shù)據(jù)靠攏”。判斷題 *對(duì)(正確答案)錯(cuò)2. 目前數(shù)據(jù)實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果表明：正向匹配的切分精度略高于逆向匹配。判斷題 *對(duì)錯(cuò)(正確答案)答案解析：逆向匹配的切分精度略高于正向匹配3. 兩個(gè)鍵值對(duì)和，如果對(duì)其進(jìn)行歸并(merge)，會(huì)得到，如果對(duì)其進(jìn)行合并(combine)，會(huì)得到a, 判斷題 *對(duì)錯(cuò)(正確答案)答案解析：兩個(gè)鍵值對(duì)和，如果合并，會(huì)得到，如果歸并，會(huì)得到“a”,4. 所謂Shuffle過(guò)程，是指對(duì)Map輸出結(jié)果進(jìn)行分區(qū)、排序、合并等處理，并交給

2、Reduce的過(guò)程。判斷題 *對(duì)(正確答案)錯(cuò)5. 第三次信息化浪潮的標(biāo)志是（）單選題 *個(gè)人電腦的普及云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)的普及(正確答案)虛擬現(xiàn)實(shí)技術(shù)的普及互聯(lián)網(wǎng)的普及6. 以下關(guān)于云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)之間的關(guān)系，論述錯(cuò)誤的是：單選題 *云計(jì)算側(cè)重于數(shù)據(jù)分析(正確答案)物聯(lián)網(wǎng)可以借助于云計(jì)算實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)物聯(lián)網(wǎng)可以借助于大數(shù)據(jù)實(shí)現(xiàn)海量數(shù)據(jù)的分析云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)三者緊密相關(guān)，相輔相成答案解析：大數(shù)據(jù)側(cè)重于海量數(shù)據(jù)的存儲(chǔ)、處理與分析，從海量數(shù)據(jù)中發(fā)現(xiàn)價(jià)值，服務(wù)于生產(chǎn)和生活;云計(jì)算本質(zhì)上旨在整合和優(yōu)化各種IT資源，并通過(guò)網(wǎng)絡(luò)以服務(wù)的方式廉價(jià)提供給用戶;物聯(lián)網(wǎng)的發(fā)展目標(biāo)是實(shí)

3、現(xiàn)物物相連，應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心。7. 每種大數(shù)據(jù)產(chǎn)品都有特定的應(yīng)用場(chǎng)景，以下哪個(gè)產(chǎn)品是用于流計(jì)算的單選題 *GraphXS4(正確答案)ImpalaHive答案解析：S4: Yahoo!的分布式流計(jì)算平臺(tái)8. 以下哪個(gè)不是Hadoop的特性: 單選題 *成本高(正確答案)支持多種編程語(yǔ)言高容錯(cuò)性高可靠性9. 以下哪個(gè)不是大數(shù)據(jù)時(shí)代新興的技術(shù)：單選題 *SparkHadoopHBaseMySQL(正確答案)10. 關(guān)于Hadoop技術(shù)描述錯(cuò)誤的是？（）單選題 *HDFS是一個(gè)分布式文件系統(tǒng)聯(lián)盟鏈HDFS適合存儲(chǔ)大量的小文件(正確答案)HDFS存儲(chǔ)空間由數(shù)據(jù)節(jié)點(diǎn)數(shù)決定答案解析：A選項(xiàng)

4、是定義.B選項(xiàng)說(shuō)的聯(lián)盟鏈指HDFS中的聯(lián)盟,Hdfs federation實(shí)際是把多個(gè)hdfs集群統(tǒng)一到一個(gè)命名空間下。Hdfs federation 作用擴(kuò)大NN容量，共享DN數(shù)據(jù)，且方便客戶端訪問(wèn)。C選項(xiàng)是錯(cuò)誤的,HDFS小文件存儲(chǔ)問(wèn)題一直是一個(gè)令人頭疼的問(wèn)題,因?yàn)镠DFS是基于大數(shù)據(jù)存儲(chǔ)的,但是它還需要存儲(chǔ)元數(shù)據(jù)信息,無(wú)論數(shù)據(jù)量多大,元數(shù)據(jù)量是差不多的,所以最好是存儲(chǔ)大文件,而不是海量小文件,可以使用歸約和壓縮的方式進(jìn)行解決D選項(xiàng):存儲(chǔ)主要是由于DataNode決定,所以數(shù)據(jù)節(jié)點(diǎn)越多,存儲(chǔ)能力越強(qiáng)11. 采用多副本冗余存儲(chǔ)的優(yōu)勢(shì)不包含: 單選題 *保證數(shù)據(jù)可靠性容易檢查數(shù)據(jù)錯(cuò)誤加快數(shù)據(jù)傳

5、輸速度節(jié)約存儲(chǔ)空間(正確答案)12. Hadoop集群中的HDFS的默認(rèn)的副本塊的個(gè)數(shù)是？單選題 *123(正確答案)4答案解析：HDFS集群采取分散存儲(chǔ) + 冗余存儲(chǔ)的策略，用戶上到HDFS集群的文件，HDFS集群會(huì)為它存儲(chǔ)多份。默認(rèn)是3份13. Spark 的四大組件下面哪個(gè)不是() 單選題 *SQL and DataFramesSpark StreamingMLlib (machine learning)GraphX (graph)是spark的四大組件Spark StreamingMlibGraphxSpark R(正確答案)14. Spark相比Hadoop的, 不是其優(yōu)勢(shì)的是()

6、單選題 *DAG執(zhí)行引擎線程池模型增多task啟動(dòng)開(kāi)銷(正確答案)充分利用內(nèi)存，減少磁盤(pán)IO更適合迭代計(jì)算答案解析：spark 比Hadoop快的原因：數(shù)據(jù)本地性、調(diào)度優(yōu)化、傳輸優(yōu)化，最主要的是基于內(nèi)存計(jì)算和引入了DAG。Hadoop的計(jì)算結(jié)果在磁盤(pán)中，spark是在內(nèi)存中；數(shù)據(jù)計(jì)算任務(wù)需要多個(gè)步驟時(shí)，Hadoop需要引入Oozie等工具，但是spark有DAGHadoop中，每一個(gè)job 的計(jì)算結(jié)果都會(huì)存儲(chǔ)在hdfs中，所以每一步計(jì)算都要進(jìn)行硬盤(pán)的IO，大大增加了系統(tǒng)的延遲15. HDFS的是基于流數(shù)據(jù)模式訪問(wèn)和處理超大文件的需求而開(kāi)發(fā)的，默認(rèn)的最基本的存儲(chǔ)單位是64M，具有高容錯(cuò)、高可靠

7、性、高可擴(kuò)展性、高吞吐率等特征，適合的讀寫(xiě)任務(wù)是？單選題 *一次寫(xiě)入，少次讀出多次寫(xiě)入，少次讀出一次寫(xiě)入，多次讀出(正確答案)多次寫(xiě)入，多次讀出答案解析：HDFS的設(shè)計(jì)初衷就是為將來(lái)的海量數(shù)據(jù)的分布式計(jì)算做鋪墊的，所以HDFS是一次寫(xiě)入，多次讀出的場(chǎng)景16. MapReduce正確的流程順序是什么？（）單選題 *Map-Reduce-CombineReduce-Combine- MapMap-Combine- Reduce(正確答案)Combine- Reduce- Map答案解析：map函數(shù)操作所產(chǎn)生的鍵值對(duì)會(huì)作為combine函數(shù)的輸入，經(jīng)combine函數(shù)處理后再送到reduce函數(shù)

8、進(jìn)行處理，減少了寫(xiě)入磁盤(pán)的數(shù)據(jù)量，同時(shí)也減少了網(wǎng)絡(luò)中鍵值對(duì)的傳輸量。17. 下列說(shuō)法錯(cuò)誤的是（）單選題 *Hadoop框架是用Java實(shí)現(xiàn)的，MapReduce應(yīng)用程序則一定要用Java來(lái)寫(xiě)(正確答案)Map函數(shù)將輸入的元素轉(zhuǎn)換成形式的鍵值對(duì)MapReduce框架采用了Master/Slave架構(gòu)，包括一個(gè)Master和若干個(gè)Slave不同的Map任務(wù)之間不能互相通信答案解析：hadoop 通過(guò)hadoop streaming 的方式也可以調(diào)用其他編程語(yǔ)言實(shí)現(xiàn)的MR，例如c+等18. 在使用MapReduce程序WordCount進(jìn)行詞頻統(tǒng)計(jì)時(shí)，對(duì)于文本行“hello hadoop hell

9、o world”，經(jīng)過(guò)WordCount程序的Map函數(shù)處理后直接輸出的中間結(jié)果，應(yīng)該是下面哪種形式：單選題 *hello,、和(正確答案)、和、和、和答案解析：Map過(guò)程：對(duì)讀取的單詞進(jìn)行map操作，每個(gè)詞都以形式生成19. 對(duì)于文本行“hello hadoop hello world”，經(jīng)過(guò)WordCount的Reduce函數(shù)處理后的結(jié)果是（）單選題 *(正確答案)hello,答案解析：reduce操作是對(duì)map的結(jié)果進(jìn)行排序，合并，最后得出詞頻。20. 大數(shù)據(jù)的特性包括： *價(jià)值密度低(正確答案)處理速度快(正確答案)數(shù)據(jù)類型繁多(正確答案)數(shù)據(jù)量大(正確答案)21. Hadoop的

10、兩大核心是?() *MapReduce(正確答案)HBaseHDFS(正確答案)GFS答案解析：Hadoop的兩大核心是HDFS和MapReduce，HDFS用來(lái)存儲(chǔ)數(shù)據(jù)，MapReduce用來(lái)處理數(shù)據(jù)。22. 回顧Hadoop的工作流程，可以發(fā)現(xiàn)Hadoop存在如下哪些缺點(diǎn): *表達(dá)能力有限。計(jì)算都必須要轉(zhuǎn)化成Map和Reduce兩個(gè)操作，但這并不適合所有的情況，難以描述復(fù)雜的數(shù)據(jù)處理過(guò)程(正確答案)磁盤(pán)IO開(kāi)銷大。每次執(zhí)行時(shí)都需要從磁盤(pán)讀取數(shù)據(jù)，并且在計(jì)算完成后需要將中間結(jié)果寫(xiě)入到磁盤(pán)中，IO開(kāi)銷較大(正確答案)沒(méi)有提供文件管理系統(tǒng)，必須和其他的分布式文件系統(tǒng)進(jìn)行集成才能運(yùn)作延遲高。一次計(jì)

11、算可能需要分解成一系列按順序執(zhí)行的MapReduce任務(wù)，任務(wù)之間的銜接由于涉及到IO開(kāi)銷，會(huì)產(chǎn)生較高延遲(正確答案)23. 關(guān)于NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)，下列說(shuō)法正確的是： *NoSQL數(shù)據(jù)庫(kù)可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ)，具有強(qiáng)大的橫向擴(kuò)展能力(正確答案)NoSQL數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)各有優(yōu)缺點(diǎn)，但隨著NoSQL的發(fā)展，終將取代關(guān)系數(shù)據(jù)庫(kù)大多數(shù)NoSQL數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)數(shù)據(jù)完整性(正確答案)關(guān)系數(shù)據(jù)庫(kù)有關(guān)系代數(shù)理論作為基礎(chǔ)，NoSQL數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一的理論基礎(chǔ)(正確答案)答案解析：如果源數(shù)據(jù)格式是 SQL 數(shù)據(jù)，沒(méi)法控制；數(shù)據(jù)量小；數(shù)據(jù)間交叉引用關(guān)系復(fù)雜；查詢模式豐富；應(yīng)用又不需要高性能；不擔(dān)心機(jī)器故障等高可用性問(wèn)題，那么繼續(xù)沿用關(guān)系型數(shù)據(jù)庫(kù)也是一個(gè)務(wù)實(shí)的選擇。24. NoSQL數(shù)據(jù)庫(kù)的類型包括： *鍵值數(shù)據(jù)庫(kù)(正確答案)列族數(shù)據(jù)庫(kù)(正確答案)文檔數(shù)據(jù)庫(kù)(正確答案)圖數(shù)據(jù)庫(kù)(正確答案)25. 分詞任務(wù)中，主要的難點(diǎn)在于（） *未登陸詞識(shí)別(正確答案)穩(wěn)定劃分歧義切分(正確答案)短文本長(zhǎng)文本26. 假設(shè)，有以下4種標(biāo)簽：B

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

單元測(cè)試2：大數(shù)據(jù)處理與分析技術(shù)II試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔