大數據處理期末考試題庫_第1頁
大數據處理期末考試題庫_第2頁
大數據處理期末考試題庫_第3頁
大數據處理期末考試題庫_第4頁
大數據處理期末考試題庫_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第第頁大數據期末考試題庫Spark選擇題Spark的四大組件下面哪個不是(D)A.SparkStreamingBMlibCGraphxDSparkR下面哪個端口不是spark自帶服務的端口(C)A.8080B.4040C.8090D.18080spark1.4版本的最大變化(B)AsparksqlRelease版本B引入SparkRCDataFrameD支持動態資源分配SparkJob默認的調度模式(A)AFIFOBFAIRC無D運行時指定哪個不是本地模式運行的個條件(D)Aspark.localExecution.enabled=trueB顯式指定本地運行CfinalStage無父StageDpartition默認值下面哪個不是RDD的特點(C)A.可分區B可序列化C可修改D可持久化關于廣播變量,下面哪個是錯誤的(D)A任何函數調用B是只讀的C存儲在各個節點D存儲在磁盤或HDFS關于累加器,下面哪個是錯誤的(D)A支持加法B支持數值類型C可并行D不支持自定義類型Spark支持的分布式部署方式中哪個是錯誤的(D)AstandaloneBsparkonmesosCsparkonYARNDSparkonlocalStage的Task的數量由什么決定(A)APartitionBJobCStageDTaskScheduler下面哪個操作是窄依賴(B)AjoinBfilterCgroupDsort下面哪個操作肯定是寬依賴(C)AmapBflatMapCreduceByKeyDsamplespark的master和worker通過什么方式進行通信的?(D)AhttpBnioCnettyDAkka默認的存儲級別(A)AMEMORY_ONLYBMEMORY_ONLY_SERCMEMORY_AND_DISKDMEMORY_AND_DISK_SERspark.deploy.recoveryMode不支持那種(D)A.ZooKeeperB.FileSystemDNONEDHadoop下列哪個不是RDD的緩存方法(C)Apersist()BCache()CMemory()Task運行在下來哪里個選項中Executor上的工作單元(C)ADriverprogramB.sparkmasterC.workernodeDClustermanagerhive的元數據存儲在derby和MySQL中有什么區別(B)A.沒區別B.多會話C.支持網絡環境D數據庫的區別DataFrame和RDD最大的區別(B)A.科學統計支持B.多了schemaC.存儲方式不一樣D.外部數據源支持Master的ElectedLeader事件后做了哪些操作(D)A.通知driverB.通知workerC.注冊applicationD.直接ALIVE(Spark)Spark是什么()?正確答案:A,C,DA.Spark是基于內存計算的框架B.Spark是基于磁盤計算的框架C.Spark是一種基于RDD計算框架D.Spark是一種并行計算框架spark的數據,可以存儲在哪些地方?正確答案:A,B,C,DA.HDFSB.CassandraC.HbaseD.S3大數據處理主要的三種場景為()正確答案:A,B,CA.批處理B.交互處理C.流式計算D.事務處理以下對SparkCore描述正確的有?正確答案:A,B,C,DA.引入了RDDB.移動計算而非移動數據C.使用線程池來減少task啟動開銷D.使用akka作為通訊框架以下對SparkSQL的描述正確的有?正確答案:A,B,CA.SparkSQL運行開發人員之間處理RDDB.SparkSQL可以直接查詢hive中的數據C.SparkSQL運行開發人員之間使用SQL進行復制的數據分析D.SparkSQL的性能上,和Hive類似。以下哪些是Spark的組件?正確答案:A,B,CA.MLBase/MLlibB.GraphXC.SparkRD.MatlabSpark的運行模式有哪些?正確答案:A,B,C,DA.localB.StandaloneC.onYarnoronmesosD.onCloudspark運行模式中,onyarn這種模式,可以應用于生產環境中。正確答案:AA.正確B.錯誤spark運行模式中,local這種模式,可以應用于生產環境中。正確答案:BA.正確B.錯誤Spark使用的資源管理器有哪些?正確答案:A,B,C,DA.MesosB.standaloneC.yarnD.cloudspark都有哪些組件?正確答案:A,B,C,DA.SparkSQLB.SparkStreamingC.MLlibD.GraphXSpark是2009年誕生于伯克利大學AMPLab的基于內存計算框架正確答案:AA.正確B.錯誤下列對spark描述正確的有?正確答案:A,B,C,DA.spark是基于內存計算的B.spark處理大量數據的一個快速通用的引擎C.spark由AMPlab實驗室開發D.spark目前是apache的頂級項目spark是由java語言開發正確答案:BA.正確B.錯誤Spark的容錯機制是()。正確答案:A,DA.checkpointB.persistC.cacheD.lineageSpark與Hadoop的區別()。正確答案:A,CA.Spark是基于內存計算框架,而Hadoop基于硬盤計算框架B.Spark是基于硬盤計算框架,而Hadoop基于內存計算框架C.Spark是一站式計算框架,而Hadoop只適合離線處理計算框架D.Spark只適合離線處理計算框架,而Hadoop是一站式計算框架spark基本特點有哪些?正確答案:A,B,C,DA.EaseofuseB.GeneralityC.RunseverywhereD.Speed可以使用哪些語言來編寫spark應用程序?正確答案:A,B,C,DA.javaB.scalaC.pythonD.Rspark和hadoop對比,說法正確的是?正確答案:A,B,CA.Hadoop中間結果會存儲在磁盤上B.spark中間結果會存儲在內存中C.Spark相對于hadoop提供了更多的操作D.Spark已經完全取代hadoopSpark常見組件描述錯誤的是()。正確答案:BA.SparkCore:是以內存使用RDD的計算實現有向無環圖的分布式并行計算框架B.SparkStreaming:是一個對實時數據流進行低吞吐量、高容錯性處理的流式處理框架C.SparkSQL:是一個可以直接通過sql語句處理RDD,來進行查詢與計算D.SparkMLBase:是專注于機器學習方面E.SparkGraphX:是專注于圖計算方面F.SparkR:是一種使用R語言開發,且能實現并行處理的計算框架大數據期末題目匯總選擇題下面哪個程序負責HDFS數據存儲。(C)A.NameNodeB.JobtrackerC.DatanodeD.secondaryNameNodeHDFS中的block默認保存幾個備份。(A)A.3份B.2份C.1份D.不確定HDFS1.0默認BlockSize大小是多少。(B)A.32MBB.64MBC.128MBD.256MB下面哪個進程負責MapReduce任務調度。(B)A.NameNodeB.JobtrackerC.TaskTrackerD.secondaryNameNodeHadoop1.0默認的調度器策略是哪個。(A)A.先進先出調度器B.計算能力調度器C.公平調度器D.優先級調度器Client端上傳文件的時候下列哪項正確?(B)A.數據經過NameNode傳遞給DataNodeB.Client端將文件切分為Block,依次上傳C.Client只上傳數據到一臺DataNode,然后由NameNode負責Block復制工作D.以上都不正確在實驗集群的master節點使用jps命令查看進程時,終端出現以下哪項能說明Hadoop主節點啟動成功?(D)A.Namenode,Datanode,TaskTrackerB.Namenode,Datanode,secondaryNameNodeC.Namenode,Datanode,HMasterD.Namenode,JobTracker,secondaryNameNode若不針對MapReduce編程模型中的key和value值進行特別設置,下列哪一項是MapReduce不適宜的運算。(D)A.MaxB.MinC.CountD.AverageMapReduce編程模型,鍵值對<key,value>的key必須實現哪個接口?(A)A.WritableComparableB.ComparableC.WritableD.LongWritable以下哪一項屬于非結構化數據。(C)A.企業ERP數據B.財務系統數據C.視頻監控數據D.日志數據HBase數據庫的BlockCache緩存的數據塊中,哪一項不一定能提高效率。(D)A.–ROOT-表B..META.表C.HFileindexD.普通的數據塊HBase是分布式列式存儲系統,記錄按什么集中存放。(A)A.列族B.列C.行D.不確定HBase的Region組成中,必須要有以下哪一項。(B)A.StoreFileB.MemStoreC.HFileD.MetaStore客戶端首次查詢HBase數據庫時,首先需要從哪個表開始查找。(B)A..META.B.–ROOT-C.用戶表D.信息表15、設計分布式數據倉庫hive的數據表時,為取樣更高效,一般可以對表中的連續字段進行什么操作。(A)A.分桶B.分區C.索引D.分表填空題大數據的特點:Volume(數據容量)、Variety(數據類型)、Viscosity(價值密度)、Velocity(速度)、Veracity(真實性)大數據的性質:非結構性、不完備性、時效性、安全性、可靠性大數據處理的全過程:數據采集與記錄-->數據抽取、清洗、標記-->數據集成、轉換、簡約-->數據分析與建模-->數據解釋大數據的關鍵技術:流處理、并行化、摘要索引、可視化科學研究范式:第一范式(科學實驗)、第二范式(科學理論)、第三范式(系統模擬)、第四范式(數據密集型計算)CAP理論:Consistency(一致性)、Availability(可用性)、PartitionTolerance(分區容錯性)。一個分布式系統不可能同時滿足一致性、可用性、分區容錯性三個系統需求,最多只能同時滿足兩個。HDFS目標:兼容廉價的硬件設備、流數據讀寫、大數據集、簡單的文件模型、強大的跨平臺兼容性流式數據的特征:實時性、易失性、突發性、無序性、無限性、準確性Storm特征:編程簡單、支持多語言、作業級容錯、水平擴展、底層使用Zero消息隊列,快搜索引擎的工作過程:爬行->抓取存儲->預處理->排名搜索引擎的評價指標:查全率、查準率、響應時間、覆蓋范圍、用戶方便性數據分析的目的:對雜亂無章的數據進行集中、萃取、提煉,進而找出所研究對象的內在規律,發現其價值。Hadoop的三種安裝模式:單機偽分布式完全分布式yarn配置后的web監控的默認端口是8088HDFSweb界面的默認端口為50070目前得到廣泛應用的分布式文件系統主要包括GFS和HDFS。HDFS采用“一次寫入,多次讀取”的簡單文件模型。HDFS采用了主從結構模型。Hase3個主要功能組件:庫函數,Master主服務器,Region服務器MapReduce模型的核心是Map函數和Reduce函數。YARN的目標就是實現“一個集群,多個框架”。判斷題Hadoop支持數據的隨機讀寫。(hbase支持,hadoop不支持)(錯)NameNode負責管理元數據信息metadata,client端每次讀寫請求,它都會從磁盤中讀取或會寫入metadata信息并反饋給client端。(內存中讀取)(錯)MapReduce的inputsplit一定是一個block。(默認是)(錯)MapReduce適于PB級別以上的海量數據在線處理。(離線)(錯)鏈式MapReduce計算中,對任意一個MapReduce作業,Map和Reduce階段可以有無限個Mapper,但Reducer只能有一個。(對)MapReduce計算過程中,相同的key默認會被發送到同一個reducetask處理。(對)HBase對于空(NULL)的列,不需要占用存儲空間。(沒有則空不存儲)(對)HBase可以有列,可以沒有列族(columnfamily)。(有列族)(錯)簡答題簡述大數據技術的特點。Volume(大體量):即可從數百TB到數十數百PB、甚至EB規模。Variety(多樣性):即大數據包括各種格式和形態的數據。Velocity(時效性):即很多大數據需要在一定的時間限度下得到及時處理。Veracity(準確性):即處理的結果要保證一定的準確性。Value(大價值):即大數據包含很多深度的價值,大數據分析挖掘和利用帶來巨大的商業價值。啟動Hadoop系統,當使用bin/start-all.sh命令啟動時,請給出集群各進程啟動順序。答:啟動順序:namenode–>datanode->secondarynamenode->resourcemanager->nodemanager簡述HBase的主要技術特點。(1)列式存儲(2)表數據是稀疏的多維映射表(3)讀寫的嚴格一致性(4)提供很高的數據讀寫速度(5)良好的線性可擴展性(6)提供海量數據(7)數據會自動分片(8)對于數據故障,hbase是有自動的失效檢測和恢復能力。(9)提供了方便的與HDFS和MAPREDUCE集成的能力。科學研究第一范式、第二范式、第三范式、第四范式。第一范式(科學實驗)、第二范式(科學理論)、第三范式(系統模擬)、第四范式(數據密集型計算)第一范式:經驗范式,以觀察和實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論