




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數據開發基礎大數據開發基礎(習題卷37)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共57題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.數據管理成熟度模型--DMM將一個機構的數據管理工作抽象成6個關鍵過程域,即數據戰略、()、數據質量、平臺與架構、數據操作以及輔助性過程。A)數據管理B)數據治理C)數據策略D)數據安全答案:B解析:DMM模型將一個機構的數據管理工作抽象成6個關鍵過程域,即數據戰略、數據治理、數據質量、平臺與架構、數據操作以及輔助性過程。[單選題]2.StructuredStreaming不支持以下哪種計算時間?A)處理時間B)事件時間C)結束時間D)注入時間答案:C解析:[單選題]3.下列關于模塊的說法不正確的是()。A)Python模塊(Module)是一個Python文件,以.py結尾,包含了Python對象定義和Python語句B)使用模塊能夠有邏輯地組織Python代碼段C)把相關的代碼分配到一個模塊里能讓代碼更好用、更易懂D)模塊不能定義類答案:D解析:模塊中可以定義類。[單選題]4.關于Hive建表基本操作描述正確的是?A)創建外部表時需要指定external關鍵字B)一旦表創建好,不可再修改表名C)一旦表創建好,不可再修改列名D)一旦表創建好,不可再增加新列答案:A解析:[單選題]5.大數據的4V特征中的Variety是指()。A)價值密度低B)處理速度快C)數據類型繁多D)數據體量巨大答案:C解析:[單選題]6.numpy中計算矩陣的協方差矩陣使用什么函數?A)np.mean()B)np.std()C)np.cov()D)np.var()答案:C解析:[單選題]7.下列關于函數的說法中,描述錯誤的是()。A)函數可以減少重復的代碼,使得程序更加模塊化B)不同的函數中可以使用相同名字的變量C)調用函數時,實參的傳遞順序與形參的順序可以不同D)匿名函數與使用關鍵字def定義的函數沒有區別答案:C解析:[單選題]8.在Maxcompute表T中添加一個新的列col,類型為bigint,最簡單易行的辦法是:()。A)將表T刪掉重建B)altertabletaddcolumns(cbigint)C)新建一張表,將原有數據插入D)altertableaddcbigint答案:B解析:[單選題]9.下面有關NameNode和secondaryNameNode通信協議說法錯誤的是()A)secondaryNameNode使用NamenodeProtocol協議與NameNode進行通信B)如果文件系統處于安全模式,那么關閉當前日志并打開新的日志操作會失敗C)如果舊的編輯日志丟失了,那么滾動fsImage日志會失敗D)secondaryNameNode可以從NameNode中得到任何datanode的塊及其位置答案:D解析:SecondaryNameNode不同于NameNode,它不接受或者記錄任何實時的數據變化,但是,它會與NameNode進行通信,以便定期地保存HDFS元數據的快照[單選題]10.下列方法中,不可以使用類名訪問的是()。A)實例方法B)類方法C)靜態方法D)以上3項都不符合答案:A解析:[單選題]11.數據中臺建設工作中,以需求為導向,基于(),有針對性地按需開展數據接入與整合,逐步實現主數據共建共享,提升數據價值挖掘支撐能力。A)統一數據模型B)電網資源模型C)數據服務能力D)統一價值模型答案:A解析:[單選題]12.個人貸款風險評價應以分析借款人()為基礎,采取定量和定性分析方法,利用大數據技術,全面、動態地進行貸款審查和風險評估。A)學歷B)現金收入C)固定資產D)抵(質)押物答案:B解析:[單選題]13.下面代碼運行后,a、b、c、d四個變量的值,描述錯誤的是()。importcopya=[1,2,3,4,['a','b']]b=ac=copy.copy(a)d=copy.deepcopy(a)a.append(5)a[4].append('c')A)a==[1,2,3,4,['a','b','c'],5]B)b==[1,2,3,4,['a','b','c'],5]C)c==[1,2,3,4,['a','b','c']]D)d==[1,2,3,4,['a','b',?c?]]答案:D解析:[單選題]14.商業秘密數據脫離本單位(含網絡、信息系統及各種介質)環境須經()業務主管部門和保密部門審批。A)公司部門級及以上單位B)市級及以上單位C)省級及以上單位D)國家級單位答案:C解析:[單選題]15.在Numpy中,數組拼接的函數不包括()。A)append()B)insert()C)vstack()D)where()答案:D解析:append()函數可向數組橫縱坐標添加數組,insert()函數可向一維數組后添加數據,vstack()函數可以進行數組拼接,where()函數是對數據進行條件篩選。[單選題]16.DataX是阿里集團發起的開源項目,是一種離線數據同步的工具,支持多種異構數據源之間的高效數據同步。使用DataX將存儲在對象存儲OSS中的數據同步至阿里云端大數據計算服務(MaxCompute,原ODPS)時,以()為粒度進行切分實現并發處理。A)沒有任何切分B)OSS的objectC)OSS的endpointD)OSS的Bucket答案:B解析:[單選題]17.將字符串分隔使用什么函數()A)splitB)stripC)encodeD)print答案:A解析:[單選題]18.下面關于云計算數據中心的描述正確的是:A)數據中心是云計算的重要載體,為各種平臺和應用提供運行支撐環境B)數據中心就是放在企業內部的一臺中心服務器C)每個企業都需要建設一個云計算數據中心D)數據中心不需要網絡帶寬的支撐答案:A解析:[單選題]19.下面關于類和對象的說法中,錯誤的是()。A)調用函數會執行函數體代碼,返回的是函數體執行的結果B)類有兩大用途:對屬性的操作、實例化對象C)類有三種屬性:數據屬性、函數屬性、方法屬性D)調用類會產生對象,返回的是對象答案:C解析:[單選題]20.以下關于MaxCompute授權的說法,正確的是:()。A)當項目空間的owner授權給一個用戶時,MaxCompute會先檢驗該用戶是否實際存在,如果不存在,則無法授權B)當一個用戶被項目空間owner從項目中移除時,所有的授權信息都將被清除,該用戶無法再訪問當前項目空間中的任何對象C)當項目空間的Owner決定對另一個用戶授權時,需要先將該用戶添加到自己的項目空間中來。只有添加到項目空間中的用戶才能夠被授權D)MaxCompute中的角色是一組訪問權限的組合。項目創建成功后,自動生成兩個角色owner和admin,可以通過命令listroles看到答案:C解析:[單選題]21.以下關于NoSQL數據庫描述錯誤的是:()A)NoSQL是一種不同于關系數據庫的數據庫管理系統設計方式,是對非關系型數據庫的統稱B)NoSQL所采用的數據模型并非傳統關系數據庫的關系模型,而是類似鍵/值、列族、文檔等非關系模型C)NoSQL數據庫有固定的表結構,通常存在較多連接操作D)與關系數據庫相比,NoSQL具有靈活的水平可擴展性.可以支持海量數據存儲答案:C解析:[單選題]22.通常,()主要指的是關系數據庫中存儲、計算和管理的數據。A)結構化數據B)海量數據C)半結構化數據D)非結構化數據答案:A解析:[單選題]23.結構化程序設計中,下面對goto語句使用描述正確的是___________。A)禁止使用goto語句B)應避免濫用goto語句C)goto語句最好用,不容易造成結構體程序混亂D)使用goto語句程序效率高答案:B解析:[單選題]24.商品的()用于在搜索和瀏覽列表時更準確的找到該商品。--A)關鍵詞B)描述C)提示D)詳情答案:A解析:[單選題]25.()是目前數據庫系統中最常用的一種數據模型A)關系模型B)層次模型C)網狀模型D)面向對象模型答案:A解析:[單選題]26.下列不屬于數據科學開源工具的是()。A)MapReduceB)ERPC)HadoopD)Spark答案:B解析:ERP系統是企業資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術基礎上,集信息技術與先進管理思想于一身,以系統化的管理思想,為企業員工及決策層提供決策手段的管理平臺。[單選題]27.HDFS是Hadoop平臺上的分布式文件系統,那么它是由()構成的。A)由一個NameNode和多個DataNode組成B)由一個DataNode和多個NameNode組成C)由多個NameNode和多個DataNode組成D)由一個NameNode和一個DataNode組成答案:A解析:HDFS由一個NameNode、一個SecondaryNameNode和多個DataNode組成。[單選題]28.在面積圖中,面積是指()A)坐標系中不同的點圍成的最大圖形面積B)坐標系中不同的點所連成的折現投影于縱軸的面積C)坐標系中不同的點所連成的折現投影于橫軸的面積D)坐標系中不同的點圍成的最小圖形面積答案:C解析:[單選題]29.互聯網思維核心()A)用戶思維B)迭代思維C)流量思維D)平臺思維答案:A解析:[單選題]30.Redis中List列表是什么數據結構實現的?A)雙向鏈表B)平衡二叉樹C)紅黑樹D)循環鏈表答案:A解析:[單選題]31.下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處?A)簡化系統設計B)支持大規模文件存儲C)強大的跨平臺兼容性D)適合數據備份答案:C解析:[單選題]32.聚類算法已經默認所有的記錄都是()的實體A)相關聯B)有備份C)不獨立D)獨立答案:C解析:[單選題]33.以下哪項屬于Flume的基本數據單位?A)ObjectB)SubjectC)TopicD)Event答案:D解析:[單選題]34.為提高計算性能,Spark中Transformation操作采用的是()計算模式。A)活性B)惰性C)實時D)非實時答案:B解析:Spark的所有Transformation操作采取的都是"情性計算模式"。[單選題]35.基于大數據的谷歌廣告體現的大數據思維方式是()A)全樣而非抽樣B)效率而非精確C)相關而非因果D)以數據為中心答案:D解析:[單選題]36.()試圖學得一個屬性的線性組合來進行預測的函數A)決策樹B)貝葉斯分類器C)神經網絡D)線性模型答案:D解析:[單選題]37.當閔可夫斯基距離公式中的系數p值為2時,可得到(__)的公式。A)歐氏距離B)曼哈頓距離C)街區距離D)切比雪夫距離答案:A解析:[單選題]38.卷積神經網絡中池化層的作用是()。A)尋找圖像中的細節特征B)輸入圖片C)減少下一層的計算,防止過擬合D)輸出圖片答案:C解析:[單選題]39.以下是字符轉換成字節的方法是A)decode()B)encode()C)upper()D)rstrip()答案:B解析:[單選題]40.在連接互聯網的計算機上()處理、存儲涉及國家秘密和企業秘密信息。A)可以B)只要網絡環境是安全的,就可以C)不確定D)嚴禁答案:D解析:[單選題]41.x=123.4567,語句print("{:5.3e}".format(x))的輸出結果是()。A)123.457B)1.235e+02C)1.24e+02D)1.23e+02答案:B解析:[單選題]42.從事前風險管理角度看,大數據背景下的貸款損失準備金是與(),相對應的一個概念。A)非預期損失B)預期損失C)特定損失D)不確定答案:B解析:[單選題]43.若要對圖片進行檢索,-般選擇什么工具較好?A)MysQLB)HDFSC)ElasticSearchD)Hive答案:C解析:[單選題]44.對ElasticSearch檢索流程描述正確的是()。A)分片節點匯總結果發送給客戶端B)檢索節點匯總結果發送給客戶端C)檢索節點不需要匯總結果直接把結果發送給客戶端D)分片節點不需要匯總結果直接把結果發送給客戶端答案:B解析:[單選題]45.以下選項中Python用于異常處理結構中用來捕獲特定類型的異常的保留字是A)exceptB)doC)passD)while答案:A解析:[單選題]46.新興數據管理技術主要包括NoSQL技術、NewSQL技術和()。A)數據倉庫B)關系云C)數據庫系統D)文件系統答案:B解析:關系云是在云計算環境中部署和虛擬化的關系數據庫,進而使傳統關系數據庫具備云計算的彈性計算、虛擬化、按需服務和高經濟性等特征。關系云代表了數據管理的一個重要發展方向。[單選題]47.刪除用戶賬號命令是()A)DROPUSERB)DROPTABLEUSERC)DELETEUSERD)DELETEFROMUSER答案:A解析:[單選題]48.(__)是將低層次數據轉換為高層次數據的過程。A)數據化B)數據整理C)數據加工D)數據整齊化答案:C解析:[單選題]49.以下變量名中正確的是()。A)globalB)passC)exceptD)letter答案:D解析:[單選題]50.()一般采用圖表或數學方法描述數據的統計特征,如分布狀態、數值特征等。A)推斷統計B)預測分析C)描述統計D)診斷分析答案:C解析:[單選題]51.執行以下代碼段i=0whilei<3:print(i,end='')i+=1else:print(0)時,輸出為()。A)01230B)0120C)012D)Error答案:B解析:[單選題]52.點擊率的預測是一個數據比例不平衡問題(如訓練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果我們用這種數據建立模型并使得訓練集的準確率高達99%。我們可以得出結論是()。A)模型的準確率非常高,我們不需要進一步探索B)模型不好,我們應建一個更好的模型C)無法評價模型D)以上答案都不正確答案:C解析:對于失衡數據,模型的準確率不能作為衡量模型效果的標準。因為我們需要探索的是少數1%的數據,為更好地評估模型效果,可以用靈敏度、特異度、F-measure來判斷。[單選題]53.(__)是指對已有數據在盡量少的先驗假設條件下進行探索,并通過作圖,制表等手段探索數據結構和規律的一種方法。A)統計分析B)驗證性分析C)數據洞見D)探索性數據分析答案:D解析:[單選題]54.在一個線性回歸問題中,我們使用R平方(R-Squared)來判斷擬合度。此時、如果增加一個特征,模型不變,則下面說法正確的是()。A)如果R-Squared增加,則這個特征有意義B)如果R-Squared減小,則這個特征沒有意義C)僅看R-Squared單一變量,無法確定這個特征是否有意義D)以上說法都不對答案:C解析:單獨看R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個特征,R-Squared可能變大也可能保持不變,兩者不一定呈正相關。第2部分:多項選擇題,共23題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.為大數據提供基礎設施服務,有(__)和數據計算、數據管理與監控、集群服務、眾包等。A)數據存儲B)數據加工C)數據治理D)app開發答案:ABCD解析:[多選題]56.許多功能更為強大的非線性模型可在線性模型基礎上通過引入()而得。A)層級結構B)高維映射C)降維D)分類答案:AB解析:[多選題]57.定量變量就是通常所說的連續量,它們是由測量或計數、統計所得到的量,這些變量具有數值特征,以下屬于定量變量的有()A)性別B)長度C)產量D)職業答案:BC解析:[多選題]58.關于繼承,以下陳述錯誤的是()。A)一個類的受保護成員可以被繼承B)繼承類稱為子類C)一個類的私有成員可以被繼承和訪問D)繼承是OOP的功能之一答案:ABD解析:[多選題]59.為什么RNN網絡的激活函數要選用雙曲正切而不是sigmod呢?A)使用sigmod函數容易出現梯度消失B)sigmod的導數形式較為復雜C)雙曲正切更簡單D)sigmoid函數實現較為復雜答案:AB解析:[多選題]60.GraphBase能夠處理海量數據的原因是什么?A)圖機制特性B)基于HBase的分布式存儲機制C)基于Elasticsearch的索引機制D)基于Spark的分布式內存計算技術答案:BCD解析:[多選題]61.Zookeeper是一個很好的集群管理工具,被大量用于分布式計算,它主要提供什么服務?A)配置維護B)域名服務C)分布式同步D)負載均衡服務答案:ABC解析:[多選題]62.在Hive架構中支持對數據的操作有()。A)插入B)查詢C)刪除D)分析答案:BD解析:[多選題]63.以下哪兩個場景最適合使用ZooKeeper?A)配置推送B)主備選舉C)熱點訪問D)流式計算答案:AB解析:[多選題]64.Maxcomputetask類型包括:()。A)jointaskB)maptaskC)localworkD)reducetask答案:ABD解析:[多選題]65.Hive的優點包括()A)內置豐富的通用操作算子和計算函數B)使用類SQL描述的數據處理流程C)數據操作靈活D)提供實時的在線查詢和記錄級的更新答案:AB解析:[多選題]66.下列關于非頻繁模式的說法正確的有()。A)其支持度小于閾值B)都是不讓人感興趣的C)包含負模式和負相關模式D)對異常數據項敏感答案:AD解析:非頻繁模式是一個項集或規則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數據中的負相關時。非頻繁模式對異常數據項敏感。[多選題]67.關于Maxcompute中的admin角色,以下()說法是正確的。A)包含的權限只有owner可以調整B)可以修改項目空間的鑒權模型C)不能將admin權限指派給用戶D)不能設定項目空間的安全配置答案:CD解析:[多選題]68.NoSQL數據庫優勢主要體現在()。A)易于數據分散存儲與處理B)頻繁操作代價低C)適用于模型不斷變化場景D)具備關系型數據庫功能答案:ABCD解析:[多選題]69.Spark的特點主要包括:()A)運行速度快B)容易使用C)通用性D)運行模式單一答案:ABC解析:[多選題]70.如何培養適應泛在電力物聯網建設和發展需要的人才隊伍A)優化新興業務和產業公司管理模式B)優化市場化用工策略C)加大人才引進力度D)建立激勵措施答案:ABCD解析:[多選題]71.一個交叉驗證將數據集分成兩個互補的子集,分別是(__)和(__)。A)訓練集B)測試集C)子集D)補集答案:AB解析:[多選題]72.基于Hadoop開源大數據平臺主要提供了針對數據分布式計算和存儲能力,如下屬于分布式存儲組件的有()。A)MapReduceB)SparkC)HDFSD)HBase答案:CD解析:[多選題]73.建設泛在電力物聯網的原因包括():A)公司深入貫徹落實習近平新時代中國特色社會主義思想的政治擔當B)公司深入貫徹落實中央領導同志最新要求的實際行動C)公司加快新舊動能轉換、突破發展瓶頸的主動抉擇D)公司新一屆領導班子堅持守正創新、堅定不移做強做優做大公司的戰略選擇答案:ABCD解析:[多選題]74.以下關于FusionInsight中CarbonData說法正確的有?A)使用Carbon的目的是對大數據即席查詢提供超快速響應。B)Carbon使用輕量級壓縮和重量級壓縮的組合壓縮算法壓縮數據,可以減少60%-80%數據存儲空間,大大節省硬件存儲成本。C)Carbon是一種新型的ApacheHadoop本地文件格式,使用先進的列式存儲.索引.壓縮和編碼技術,以提高計算效率,有助于加速超過PB數量級的數據查詢,可用于更換的交互查詢D)Carbon也是一種將數據源與Spark集成的高性能分析引擎。答案:ABCD解析:[多選題]75.對HBaseBloomFilter描述不正確的是?A)用于優化隨機寫的場景B)用于優化Scan場景C)誤判率由哈希函數個數k位數組大小m數據量n共同確定D)判斷結果一定正確答案:ABD解析:[多選題]76.Feigenbaum等人在著名的《人工智能手冊》中將機器學習劃分為機械學習和(_)四種。A)深度學習B)示教學習C)類比學習D)歸納學習答案:BCD解析:[多選題]77.循環神經網絡的輸出模式包含()A)多輸出B)單輸出C)同步多輸出D)異步多輸出答案:ABD解析:第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.創建ElasticSearch索引前,要先判斷索引是否存在。A)正確B)錯誤答案:對解析:[判斷題]79.表達式(i**2foriinrange(100))的結果是個元組。A)正確B)錯誤答案:錯解析:[判斷題]80.已知列表x中包含超過5個以上的元素,那么語句x=x[:5]+x[5:]的作用是將列表x中的元素循環左移5位。A)正確B)錯誤答案:錯解析:[判斷題]81.本實驗的網站日志數據需要存放到HDFS。A)正確B)錯誤答案:對解析:[判斷題]82.大數據時代的數據分析方法要注重提高算法的精確性,其次才是提高算法效率。A)正確B)錯誤答案:錯解析:[判斷題]83.MySQL的默認字符集latin1是單字節編碼的字符集。--A)正確B)錯誤答案:對解析:[判斷題]84.定義類時實現了__pow__()方法,該類對象即可支持運算符**A)正確B)錯誤答案:對解析:[判斷題]85.ElastioSearch倒排索引是通過關鍵詞查詢對應的文檔編號,再通過文檔編號找文檔。A)正確B)錯誤答案:對解析:[判斷題]86.Hadoop的MapReduce與Spark都可以進行數據計算,而相比于MapReduce,Spark的速度更快并且提供的功能更加豐富。A)正確B)錯誤答案:對解析:[判斷題]87
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學美術教學中的審美教育對學生綜合素質的提升研究論文
- 校園周邊廣告對學生消費觀念的影響與學校心理健康教育實踐論文
- 基于創新教育的高中數學建模競賽輔導策略研究論文
- 藝考生班級管理制度
- 蘇美達集團管理制度
- 茶水間員工管理制度
- 藍天教育集團高二年級下冊期中考試語文試題(含答案)
- 財務規范計劃
- 財務管理案例 教學組織方式 案例1-20
- 國際經濟法專業本科生
- 2025年執業藥師繼續教育試題題庫和參考答案(完整版)
- 《中醫養生保健服務(非醫療)技術操作規范-砭術》-公示稿
- 《企業信息安全培訓課件》
- 職業學院學生轉專業申請表
- 2025年全國安全生產月安全知識競賽題庫及答案(共280題)
- 一例前交通動脈瘤破裂伴蛛網膜下腔出血的護理查房
- 心衰病人的護理查房
- 乳腺癌患者靜脈管理
- 制造企業生產記錄檔案管理制度
- 急診科臨床診療指南-技術操作規范更新版
- 《接觸網施工》課件 4.8.1 交叉線岔安裝
評論
0/150
提交評論