大數據開發基礎(習題卷85)_第1頁
大數據開發基礎(習題卷85)_第2頁
大數據開發基礎(習題卷85)_第3頁
大數據開發基礎(習題卷85)_第4頁
大數據開發基礎(習題卷85)_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷85)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共54題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.以下哪項用來排序()A)ORDEREDBYB)ORDERBYC)GROUPBYD)GROUPEDBY答案:B解析:[單選題]2.SparkSQL目前暫時不支持()語言.A)PythonB)JavaC)ScalaD)Lisp答案:D解析:[單選題]3.Hadoop平臺中,要查看YARN服務中一個application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application答案:D解析:[單選題]4.Flink中的DataStream數據流轉不包含以下哪項?A)DatasourceB)TransformationsC)DatasinkD)Actions答案:D解析:[單選題]5.以下關于spark錯誤的描述是A)利用內存保存job的中間輸出結果B)可用以替代流式數據處理引擎C)迭代作業的性能優于MapReduceD)本身不提供分布式文件系統答案:B解析:[單選題]6.輸入圖像為32×32,經過步長為1、不進行padding、卷積核為5×5的卷積層后,得到的特征圖尺寸是()。A)28×28B)27×27C)29×29D)32×32答案:A解析:(32+0-5)/1+1=28。[單選題]7.FuslonlnslghtHadoop集群中,在某節點上通過df-hT查詢,看到的分區包含以下幾個∶var/log/srv/BigData/srv/BigData/hadoopidata5/srv/BigData/solr/solrserver3/srv/BigData/dbdata_om這些分區所對應磁盤最佳Raid級別的規劃組合是A)Raid0Raid1Raid0Non-RaidRaid1B)Raid1Raid1Non-RaidNon-raidRaid1C)Raid0Raid0Raid0Raid0Raid0D)Non-RaidNon-RaidNon-RaidNon-RaidRaid1答案:B解析:[單選題]8.np.eye(2)函數的作用是()。A)輸出一個全都是0的數組B)輸出一個全都是1的數組C)輸出一個全都是2的數組D)輸出一個二維單位矩陣答案:D解析:np.eye()的作用是創建單位矩陣。[單選題]9.以下()odpscmd命令是查看自己所擁有的權限。A)whoamiB)listusersC)showresourcesD)showgrants答案:D解析:[單選題]10.運行下面代碼的輸出結果為()。a=np.array([[1,2],[3,4],[5,6]])print(np.insert(a,3,[11,12]))A)[[12][34][56]]B)[1231112456]C)[[12][1111][34][56]]D)[[1112][3114][5116]]答案:B解析:與append()相同,insert()在沒有指定axis時默認展平數組。[單選題]11.下列關于pandas數據處理的說法,不正確的是()A)用fillna()可以填補缺失值B)dropna(axis=1)表示丟棄某一行C)數據標準化可以使用sklearn.preprocessing模塊D)用pandas.groupby()可以對數據分組索引答案:B解析:[單選題]12.Maxcompute的屏顯行數可以通過管理控制臺實現,最大的顯示條數是:()。A)100條B)10000條C)1000條D)5000條答案:D解析:[單選題]13.學習率對機器學習模型結果會產生影響,通常希望學習率()。A)越小越好B)越大越好C)較小而迭代次數較多D)較大而迭代次數較小答案:C解析:[單選題]14.以下說法中正確的是有A)SVM對噪聲(如來自其他分布的噪聲樣本)魯棒B)在AdaBoost算法中,所有被分錯的樣本的權重不再更新C)Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重D)給定n個數據點,如果其中一半用于訓練,一般用于測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少答案:D解析:[單選題]15.下列選項中,不是Python語言特點的是()。A)簡潔B)開源C)面向過程D)可移植答案:C解析:[單選題]16.池化層的作用是A)對無效節點進行刪除B)對特征圖進行特征選擇和信息過濾C)對提取的特征進行非線性組合以得到輸出D)直接輸出每個像素的分類結果答案:B解析:[單選題]17.關于最大方差,描述準確的是()A)在信號處理中認為信號具有較大的方差,噪聲有較小的方差;B)方差越大,說明樣本數據質量越差;C)在信號處理中認為信號具有較小的方差,噪聲有較大的方差;D)方差越小,說明樣本數據質量越差;答案:A解析:[單選題]18.大數據參考架構的水平軸和垂直軸分別為()。A)信息(活動)價值鏈和信息技術價值鏈B)信息技術價值鏈和信息(活動)價值鏈C)信息交互價值鏈和信息技術價值鏈D)信息(活動)價值鏈和信息交互價值鏈答案:A解析:[單選題]19.以下()是對DMM(數據管理成熟度模型)中"已管理級"基本特點的正確表述。A)組織機構的數據管理關鍵活動能夠根據結構自身的反饋以及外部環境的變革進行不斷優化B)組織機構已用定量化的方式管理其關鍵過程的執行過程C)組織機構只有在項目管理過程中執行了D.M給出的關鍵過程,而缺乏機構層次的統籌與管理D)組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理其數據管理關鍵過程答案:D解析:DMM(數據管理成熟度模型)中"已管理級"的基本特點是組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理其數據管理關鍵過程。[單選題]20.下列關于Hive支持的文件存儲格式TEXTFILE描述錯誤的是()A)TEXTFILE為默認格式B)TEXTFILE文件格式數據會壓縮C)TEXTFILE文件格式磁盤開銷大D)TEXTFILE文件格式數據解析開銷大答案:B解析:[單選題]21.數據轉換器中算法類型的使用用途正確的是()A)InverseNormalizer對應用途是使用ModelSquid的Model給出輸入數據的預測值B)CsvAssemble對應用途是把多個字符串拼接成CSN格式的字符串C)Tokenization對應用途是把文本按照分詞規則轉化為CSND)Predict對應用途是逆標準化答案:C解析:Predict對應用途是使用ModelSquid的Model給出輸入數據的預測值[單選題]22.關于貝葉斯網絡,說法錯誤的是()A)、是由有向有環圖構成B)、每個節點代表一個?事件?或者?隨機變量?C)、貝葉斯網絡是基于概率推理的模型D)、表示起因的假設和表示結果的數據均用結點表示答案:A解析:[單選題]23.創建一個HDFS客戶端對象時,Configuration實例會自動加載HDFS的配置文件(),從中獲取Hadoop集群的配置信息。A)hadoop-default.xmlB)hadoop-env.shC)hadoop-site.xmlD)core-site.xml答案:D解析:[單選題]24.知識圖譜的基礎單元叫什么?A)實體組B)二元組C)三元組D)關系組答案:C解析:[單選題]25.修改資源的化導入excel的操作列應該填寫()。A)插入B)更新C)刪除D)追加答案:B解析:[單選題]26.以下選項中,不屬于大數據對人才能力的要求是()A)業務能力B)數學統計能力C)IT技術能力D)邏輯思維能力答案:C解析:[單選題]27.當特征值大致相等時。會發生的情況是()。A)PCA將表現出色B)PCA將表現不佳C)不知道D)以上都沒有答案:B解析:當所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。[單選題]28.HBase表設計為什么一般不超過兩個列簇?A)過多的列簇不適合讀寫分離B)過多的列I0開銷大C)過多的列簇StoreFile過多,Compaction壓力大D)過多的列簇會導致memstoreflush時10壓力過大答案:B解析:[單選題]29.以下對信息描述不正確的是()。A)信息與能源、材料屬于同一層次的概念B)信息是客觀的存在C)信息是人類社會賴以生存和發展的三大資源之一D)信息是對數據進行計量形成的記錄答案:D解析:[單選題]30.業務中臺方面,以業務為導向,優先建設()和客戶服務業務中臺,后期逐步視情況拓展賬務結算等業務共享服務A)電網服務業務中臺B)電網資源業務中臺C)電網優化業務中臺D)電網環境業務中臺答案:B解析:[單選題]31.TF-IDF與一個詞在文檔中的出現次數成(__)。A)正比B)反比C)無關D)冪次答案:A解析:[單選題]32.有研究發現"頁面的顯示速度每延遲1s,網站訪問量就會降低11%,從而導致營業額或者注冊量減少7%,顧客滿意度下降16%"。該項研究表明了()在數據產品開發中的重要性。A)查全率B)用戶體驗C)數據可視化D)查準率答案:B解析:在大數據時代,用戶體驗更加重要。[單選題]33.()的主要議題是如何實現和優化機器的自我學習。A)機器學習B)人工智能C)深度學習D)人機共生答案:A解析:[單選題]34.info='abc'Info[2]='d'的輸出結果是()。A)TypeError:'str'objectdoesnotsupportitemassignmentB)bC)cD)d答案:A解析:字符串不能被修改。[單選題]35.以下不屬于大數據系統端風險的是()A)數據系統的申請、查看流程B)數據查看權限C)系統平臺的穩定性D)數據庫管理、存儲答案:A解析:[單選題]36.有如下程序:y=6z=lambdax:x*yprint(z(8))程序的輸出結果是()。A)14B)24C)48D)64答案:C解析:[單選題]37.以下哪個數據轉換器常用于空值替換,作用為?如果v1為null,則輸出v2,否則輸出v1?。()A)ConstantB)ChoiceC)NvlD)NumericCast答案:C解析:[單選題]38.以下描述不正確的是(__)。A)互動資源結算屬于項目時間管理B)合同管理屬于項目采購管理C)效績報告屬于項目溝通管理D)項目團隊建設屬于項目整體管理答案:D解析:[單選題]39.BI工具采用哪種分析方式?()A)自助式探索B)圖表展示C)查詢搜索D)人工互助答案:A解析:[單選題]40.Scikit-Learn中StandardScaler是將特征數據的分布調整成(),也就是使得數據的均值為0,方差為1。A)正態分布B)泊松分布C)均勻分布D)二項分布316答案:A解析:StandardScaler是將以特征數據的分布調整成標準正態分布,即每列數據減去均值,再除以方差,使得數據的均值為0,方差為1。[單選題]41.在轉換操作中,可以實現從一個字符串中截取特定長度的子串的操作為()A)TermExtractB)SubstringC)TrimD)Concatenate答案:B解析:Trim去掉字符串左邊或右邊的空格。[單選題]42.Hive是建立在()之上的一個數據倉庫A)HDFSB)MapReduceC)HadoopD)HBase答案:C解析:[單選題]43.以下哪個屬于大數據在電信行業的數據商業化方面的應用()A)客服中心優化B)網絡優化C)網絡管理D)精準廣告答案:D解析:[單選題]44.以下()是對DMM(數據管理成熟度模型)中"已管理級"基本特點的正確表述。A)組織機構的數據管理關鍵活動能夠根據結構自身的反饋以及外部環境的變革進行不斷優化B)組織機構已用定量化的方式管理其關鍵過程的執行過程C)組織機構只有在項目管理過程中執行了D.M給出的關鍵過程,而缺乏機構層次的統籌與管理D)組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理其數據管理關鍵過程答案:D解析:[單選題]45.以下程序輸出的結果是()。(提示:ord(:?a?)==97)list_demo=[1,2,3,4,5,'a','b']print(list_demo[1],list_demo[5])A)1,5B)2,aC)1,97D)2,97答案:B解析:[單選題]46.關于Pandas數據讀寫的說法中,下列描述錯誤的是()。A)read_csv()能夠讀取所有文本數據B)read_sql()可以讀取數據庫中的數據C)to_csv()能夠將結構化數據寫入到csv文件中D)to_excel()能夠將結構化數據寫入到excel文件中答案:A解析:[單選題]47.用于刪除約束的命令是A)ALTERTABLEMODIFYCONSTRAINTB)DROPCONSTRAINTC)ALTERTABLEDROPCONSTRAINTD)ALTERCONSTRAINTDROP答案:C解析:[單選題]48.從復雜度及價值高低兩個維度,可以將數據分析分為()。A)描述性分析、診斷性分析、預測性分析、探索性分析B)探索性分析、診斷性分析、預測性分析、規范性分析C)探索性分析、描述性分析、預測性分析、規范性分析D)描述性分析、診斷性分析、預測性分析、規范性分析答案:D解析:大數據分析使得決策有了科學基礎,現在做決策可以基于實際的數據而不僅僅依賴于過去的經驗或者直覺。根據分析結果的不同,我們大致可以將數據分析分為描述性分析、診斷性分析、預測性分析、規范性分析4類,不同的分析類型將需要不同的技術和分析算法。[單選題]49.HBase架構的四大組件中,()HBase集群的主控服務器。A)ZookeeperB)MasterC)RegionServerD)Client答案:B解析:[單選題]50.如圖,以下關于Kafka消息消費者Consumer讀取消息的描述,錯誤的有?A)Consumer使用Offset來記錄讀取的位置B)圖片中的藍色框為Kafka的一個Topic,即可以理解為一個隊列,每個格子代表一條消息。C)生產者產生的消息逐條放到Topic的末尾D)消費者從右至左順序讀取消息答案:D解析:[單選題]51.下列選項中,不能創建一個Series對象的是()A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)答案:D解析:[單選題]52.()用于將關系型數據庫或者其他結構化的數據導入到Hadoop的生態系統中。A)OozieB)FlumeC)SqoopD)Hue答案:C解析:[單選題]53.在支持向量機中,軟間隔支持向量機的目標函數比硬間隔支持向量機多了一個()A)偏置項bB)系教C)松弛變量D)兩種情況的目標函數相同答案:C解析:[單選題]54.貝葉斯決策論是在(__)框架下實施決策的基本方法。A)模型B)條件C)概率D)分類器答案:C解析:第2部分:多項選擇題,共23題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.一個好的分類模型必須具有(___)。A)低訓練誤差B)低泛化誤差C)過擬合D)欠擬合答案:AB解析:[多選題]56.下面關于SparkStreaming的描述正確的是:()A)SparkB)SparkC)SparkD)Spark答案:ABCD解析:[多選題]57.低耗能存儲及高效率計算的要求,需要以下多種技術協同合作()A)分布式云存儲技術B)高性能并行計算技術C)多源數據清洗及數據整合技術D)分布式文件系統及分布式并行數據庫E。可視化高維度展示技術答案:ABCD解析:[多選題]58.以下關于機器學習的發展歷程描述正確的是(___)。A)機器學習是人工智能研究發展到一定階段的必然產物B)二十世紀五十年代到七十年代出,人工智能研究處于?推理期?C)圖靈在1950年關于圖靈測試的文章中,就曾提到了機器學習的可能D)人工智能在二十世紀五十到八十年代經歷了?推理期?和?知識期?答案:ABCD解析:[多選題]59.下面關于數字鴻溝問題的描述,正確的是:()A)數字鴻溝被認為是信息時代的?馬太效應?,即先進技術的成果不能為人公享,于是造成?富者越富、窮者越窮?的情況B)數字鴻溝因為大數據技術的誕生而趨向彌合C)數字鴻溝是一個涉及公平公正的問題D)在我國,東中西部地區、城鄉之間等都可以明顯感受到數字鴻溝的存在答案:ACD解析:[多選題]60.數據標準化包括()A)最小最大標準化B)絕對值最小最大標準化C)零均值標準化D)Log函數標準化答案:ABCD解析:[多選題]61.在決策樹基本算法中,有三種情形會導致遞歸返回,這三種情形分別是(__)。A)當前結點包含的樣本全屬于同一類別,無需劃分B)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分C)當前結點包含的樣本集合為空,不能劃分D)當前結點包含的樣本不屬于同一類別,不可劃分答案:ABC解析:[多選題]62.基于統計的分詞方法的優點有(__)。A)分速度快B)效率高C)結合上下文識別生詞D)消除歧義答案:ABCD解析:[多選題]63.以下關于L1和L2范數的描述,正確的是()。A)L1范數為x向量各個元素絕對值之和。B)L2范數為x向量各個元素平方和的1/2次方,L2范數又稱Euclidean范數或Frobenius范數C)L1范數可以使權值稀疏,方便特征提取D)L2范數可以防止過擬合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的個數,L1范數是指向量中各個元素絕對值之和,L2范數向量元素絕對值的平方和再開平方。L1范數可以使權值稀疏,方便特征提取。L2范數可以防止過擬合,提升模型的泛化能力。[多選題]64.在存儲過程中,ITERATE可以出現在()語句中。--A)IFB)CASEC)LOOPD)REPEAT答案:CD解析:[多選題]65.下列選項是關系型數據庫基本特征的是()A)與列的次序無關B)與行的次序無關C)不同的列應有不同的列名D)不同的列應有不同的數據類型答案:ABC解析:[多選題]66.RNN在NLP領域的應用包括()A)語言模型與文本生成B)機器翻譯C)語音識別D)圖像描述生成答案:ABCD解析:[多選題]67.噪聲數據的產生原因主要有()。A)采集設備有問題B)數據錄入過程中產生錯誤C)數據傳輸過程出現錯誤D)數據采集源不完備答案:ABC解析:[多選題]68.下列關于Dropout的說法正確的有()。A)Dropout背后的思想其實就是把DNN當作一個集成模型來訓練,之后取所有值的平均值,而不只是訓練單個DNN194B)DNN網絡將Dropout率設置為p,也就是說一個神經元被保留的概率是1-p。當一個神經元被丟棄時,無論輸入或者相關的參數是什么,它的輸出值就會被設置為0C)丟棄的神經元在訓練階段,對BP算法的前向和后向階段都沒有貢獻。由于這個原因,每一次訓練都像是在訓練一個新的網絡D)Dropout方法通常和L2正則化或其他參數約束技術(比如MaxNorm)一起使用,來防止神經網絡的過擬合答案:ABCD解析:Dropout是指在深度學習網絡的訓練過程中,對于神經網絡單元,按照一定的概率將其暫時從網絡中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機丟棄,故每一個mini-batch都在訓練不同的網絡。防止過擬合的方法:①提前終止(當驗證集上的效果變差的時候);②L1和L2正則化加權;③softweightsharingdropout。dropout率的選擇:經過交叉驗證,隱含節點dropout率等于0.5的時候效果最好,此時dropout隨機生成的網絡結構最多。Dropout也可以被用作一種添加噪聲的方法,直接對input進行操作。輸入層設為更接近1的數,使得輸入變化不會太大(0.8)。[多選題]69.數據能力的評價方法有哪些A)評價結果B)評價方法C)評價過程D)評價產品答案:AC解析:[多選題]70.有關數據倉庫的開發特點,正確的描述是:()A)數據倉庫開發要從數據出發B)數據倉庫使用的需求在開發出去就要明確C)數據倉庫的開發是一個不斷循環的過程,是啟發式的開發D)在數據倉庫環境中,并不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式答案:BCD解析:[多選題]71.當前,大數據產業發展的特點是()。A)規模大B)增速很快C)多產業交叉融合D)增速放緩答案:ABC解析:[多選題]72.SQL中SELECT語句的完整語法較復雜,但至少包含的有()A)SELECTB)FROMC)GROUPD)INTO答案:AB解析:[多選題]73.從IDC的大數據生態系統圖可看出,大數據生態系統是一種的復雜系統,主要涉及()。A)數據采集B)數據生產C)數據處理D)業務流程答案:ABCD解析:[多選題]74.根據泛在電力物聯網2019年建設方案,企業中臺包括()A)業務中臺B)能源中臺C)技術中臺D)數據中臺答案:AD解析:[多選題]75.FusionlnsightManager與外部管理平臺對接時,支持哪些接口A)SNMPB)VPNC)BGPD)Syslog答案:AD解析:[多選題]76.以下哪些是離線批處理的特點?A)處理數據格式多樣B)支持SQL類作業和自定義作業C)處理數據量巨大D)處理時間要求高答案:ABC解析:[多選題]77.下列關于L1正則化與L2正則化描述正確的是(__)。A)L1范數正則化有助于降低過擬合風險B)L2范數正則化有助于降低過擬合風險C)L1范數正則化比L2范數正則化更有易于獲得稀疏解D)L2范數正則化比L1范數正則化更有易于獲得稀疏解答案:ABC解析:第3部分:判斷題,共19題,請判斷題目是否正確。[判斷題]78.numpy使用savetxt函數將數據存儲到文件中,當然我們需要指定文件名以及要保存的數組。A)正確B)錯誤答案:對解析:[判斷題]79.Kafka可以同時解決在線應用消息和離線應用日志的數據處理問題。A)正確B)錯誤答案:對解析:[判斷題]80.儀表板可以隨數據變化是否正確()A)正確B)錯誤答案:對解析:[判斷題]81.同時新增多個字段時不能指定字段的位置。--A)正確B)錯誤答案:對解析:[判斷題]82.()LTRIM、RTRIM、TRIM函數既能去除半角空格,又能去除全角空格。A)正確B)錯誤答案:錯解析:[判斷題]83.在HDFS中,namenode用于決定數據存儲到哪一個datanode節點上。A)正確B)錯誤答案:對解析:[判斷題]84.HDFS系統支持數據的修改。A)正確B)錯誤答案:錯解析:[判斷題]85.默認情況下,MySQL5.7不支持SSL加密連接。--A)正確B)錯誤答案:對解析:[判斷題]86.選擇操作σ學號=1(R)表示在關系R中查找學號為1的學生。--A)正確B)錯誤答案:對解析:[判斷題]87.在整個數據傳輸的過程中,Flume將流動的數據封裝到一個event(事件)中,它是Flume內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論