




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGEPAGE1382023年大數據應用技能競賽考試題庫(精簡500題)一、單選題1.random庫中用于生成隨機小數的函數是()。A、random()B、randint()C、getrandbits()D、randrange()答案:A2.以下哪些方法不可以直接來對文本分類()A、KmeansB、決策樹C、支持向量機D、KNN答案:A3.下列哪些不是目前機器學習所面臨的問題是()。A、測試集的規模B、維度災難C、特征工程D、過擬合答案:A4.卷積神經網絡能通過卷積以及池化等操作將不同種類的鳥歸為一類。關于卷積神經網絡能達到該效果的原因,下列說法不正確的是()。A、同樣模式的內容(如鳥嘴)在圖像不同位置可能出現B、池化之后的圖像主體內容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似答案:D5.關于正態分布,下列說法錯誤的是()。A、正態分布具有集中性和對稱性B、正態分布的均值和方差能夠決定正態分布的位置和形態C、正態分布的偏度為0,峰度為1D、標準正態分布的均值為0,方差為1答案:C6.以下代碼的輸出結果為()。ImportnumpyasnpA=np.array(【-1.7,1.5,-0.2,0.6,10】)Print(np.ceil(a))A、【-1.71.5-0.20.610.】B、【-2.1.-1.0.10.】C、【-1.71.5-0.20.610.】D、【-1.2.-0.1.10.】答案:D7.下面說法錯誤的是()。A、可以利用統計量對缺失值進行填補B、可以利用K近鄰值對缺失值進行填補C、只要有缺失值就必須把對應記錄刪除D、對于缺失值較多的屬性可以考慮刪除答案:C8.以下()屬于NoSQL數據庫中Key-Value的缺點。A、數據無結構B、查詢性能不高,缺乏統一查詢語法C、功能相對有限D、功能相對有限,不易于做分布式集群答案:A9.以下關于新舊MapReduceAPI的描述錯誤的是()A、新API放在org.apache.hadoop.mapreduce包中,而舊API則是放在org.apache.hadoop.mapred中B、新API傾向于使用接口方式,而舊API傾向于使用抽象類C、新API使用Configuration,而舊API使用JobConf來傳遞配置信息D、新API可以使用Job對象來提交作業答案:B10.ordinalencoder將屬性轉化為()。A、獨熱編碼B、附帶特性的數字C、二進制編碼D、ASCII碼答案:B11.在linux下預裝了Python2,Python3且默認Python版本為Python3,下列描述可以正確啟動Python有()。A、在linux應用程序Terminal,打開一個終端窗口。輸入whichPythonB、在linux應用程序Terminal,打開一個終端窗口。輸入Python2或Python3C、在linux應用程序Terminal,打開一個終端窗口。輸入whichPython3D、在linux應用程序Terminal,打開一個終端窗口。輸入輸入whichPython2答案:B12.以下可以應用關鍵詞提取的是()。A、文獻檢索B、自動文摘C、文本聚類/分類D、以上答案都正確答案:D13.下面哪一項用決策樹法訓練大量數據集最節約時間()。A、增加樹的深度B、增加學習率C、減少數的深度D、減少樹的個數答案:C14.大數據環境下的隱私擔憂,主要表現為()A、人信息的被識別與暴露B、戶畫像的生成C、意廣告的推送D、毒入侵答案:A15.下列關于RNN說法正確的是(__)。A、RNN可以應用在NLP領域B、LSTM是RNN的一個變種C、在RNN中一個序列當前的輸出與前面的輸出也有關D、以上答案都正確答案:D16.np.linalg.svd()函數可以實現()功能。A、計算協方差矩陣B、實現奇異值分解C、計算方差D、計算均值;答案:B17.k-NN最近鄰方法在什么情況下效果較好()A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布答案:B18.當()時,可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執行容易失敗的操作之前C、RDD被重復利用D、實時性要求高答案:D19.數據探索是指針對目標可變、持續、多角度的搜索或分析任務,下列哪項不是其搜索過程的特點()。A、有選擇B、有策略C、有目標D、反復進行的答案:C20.下列關于數據科學流程與方法的描述中,錯誤的是()。A、數據科學的基本流程包括數據化、數據加工(DataWrangling或DataMunging)、數據規整化、探索性分析、數據分析與洞見、結果展現以及數據產品的提供B、對于數據形態不符合要求的亂數據,要通過清洗成為規整數據C、數據分析包括描述性分析、診斷性分析、預測性分析和規范性分析D、數據可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象答案:B21.彩色圖像增強時,()處理可以采用RGB。A、直方圖均衡化B、同態濾波C、加權均值濾波D、中值濾波答案:C22.以下關于pandas中groupby方法說法正確的是()。A、groupby能夠實現分組聚合B、groupby方法的結果能夠直接查看C、groupby是pandas提供的一個用來分組的方法D、groupby方法是pandas提供的一個用來聚合的方法答案:C23.MapReduce編程模型,鍵值對<key,value>的key必須實現哪個接口()A、Writableparable;B、parable;C、Writable;D、LongWritable;答案:A24.下列()不是神經網絡的代表。A、卷積神經網絡B、遞歸神經網絡C、殘差網絡D、xgboost算法答案:D25.某籃運動員在三分線投球的命中率是2(1),他投球10次,恰好投進3個球的概率()。A、128(15)B、16(3)C、8(5)D、16(7)答案:A26.標準正態分布的均數與標準差是()。A、0,1B、1,0C、0,0D、1,1答案:A27.為提高計算性能,Spark中Transformation操作采用的是()計算模式。A、活性B、惰性C、實時D、非實時答案:B28.matplotlib中的step函數繪制的是什么圖()。A、階梯圖B、直方圖C、間斷條形圖D、堆積折線圖答案:A29.下面()負責MapReduce任務調度。A、NameNodeB、JobtrackerC、TaskTrackerD、secondaryNameNode答案:B30.()計算框架源自一種分布式計算模型,其輸入和輸出值均為“鍵-值對”結構。A、MahoutB、MapReduceC、SparkD、Sqoop答案:B31.Hadoop中biner()函數的功能是()。A、數據排序B、數據標記C、數據分析D、數據合并答案:D32.假設函數中不包括global保留字,對于改變參數值的方法,以下選項中錯誤的是()。A、參數是列表類型時,改變原參數的值B、參數的值是否改變與函數中對變量的操作有關,與參數類型無關C、參數是整數類型時,不改變原參數的值D、參數是組合類型(可變對象)時,改變原參數的值答案:B33.下面哪個屬于映射數據到新的空間的方法()。A、傅立葉變換B、特征加權C、漸進抽樣D、維歸約答案:A34.下列關于運算符優先級的說法中,不正確的一個是()。A、運算符按照優先級順序表進行運算B、同一優先級的運算符在表達式中都是按照從左到右的順序進行運算的C、同一優先級的運算符在表達式中都是按照從右到左的順序進行運算的D、括號可以改變運算的優先次序答案:C35.matplotlib中的legend函數作用是什么()。A、設置標簽文本B、繪制網格線C、標示不同圖形的文本標簽圖例D、設置x軸的數值顯示范圍答案:C36.為了降低MapReduce兩個階段之間的數據傳遞量,一般采用()函數對map階段的輸出進行處理。A、sort()B、biner()C、join()D、gather()答案:B37.以下不屬于有監督的詞義消歧方法的是()。A、Flip-Flop算法B、貝葉斯分類器C、最大熵消歧D、基于詞典的消歧答案:D38.如果我們說線性回歸模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下面哪個說法是正確的()A、測試樣本誤差始終為零B、測試樣本誤差不可能為零C、以上答案都不對答案:C39.視覺通道表現力評價指標不包括()。A、精確性B、可辨認性C、可分離性D、可轉換性答案:D40.下列哪個不是RDD的緩存方法()A、persistB、cacheC、MemoryD、以上答案都正確答案:C41.下列算法中,不屬于外推法的是()。A、移動平均法B、回歸分析法C、指數平滑法D、季節指數法答案:B42.關于臟數據和亂數據的區分,以下哪種不屬于臟數據()。A、含有缺失數據B、冗余數據C、噪聲數據D、不規則形態數據答案:D43.數據集成的基本類型。A、內容集成結構集成B、內容集成規約集成C、規約集成結構集成D、模式集成結構集成參答案:A44.隨機森林與Bagging中基學習器多樣性的區別是()。A、都來自樣本擾動B、都來自屬性擾動C、來自樣本擾動和自屬性擾動D、多樣本集結合答案:C45.RDD默認的存儲級別是()A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_AND,DISKD、MEMORY_AND_DISK_SER答案:A46.下列哪種算法可以用神經網絡構建?(__)1.K-NN最近鄰算法2.線性回歸3.邏輯回歸A、1and2B、2and3C、1,2and3D、Noneoftheabove答案:B47.()的主要目標是提供可擴展的機器學習算法及其實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。A、MahoutB、FlumeC、SqoopD、HBase答案:A48.下列關于LSTM說法錯誤的是(__)。A、LSTM中存在sigmoid函數B、LSTM中存在tanh函數C、LSTM又稱長短時記憶網絡D、RNN是LSTM的變種答案:D49.在集成學習中,對于數據型輸出,最常見的結合策略是()。A、平均法B、投票法C、學習法D、以上答案都正確答案:A50.以下關于Hadoop中MapReduce說法正確的是()。A、可以沒有reduce任務B、Reducer輸入為隨機輸入C、shuffle主要實現數據可視化功能D、一個reducer只能從一個map復制所需要的partition答案:A51.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確的是()。A、需要將這些樣本全部強制轉換為支持向量B、需要將這些樣本中可以轉化的樣本轉換為支持向量,不能轉換的直接刪除C、移去或者減少這些樣本對分類結果沒有影響D、以上都不對答案:C52.以下哪個數據類型不可以作為索引對數組進行選取()。A、booleanB、tupleC、dictD、int答案:C53.如果我們現有一個安裝2.6.5版本的hadoop集群,在不修改默認配置的情況下存儲200個每個200M的文本文件,請問最終會在集群中產生多少個數據塊(包括副本)()A、200B、40000C、400D、1200答案:D54.數據科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是()。A、單個模型之間具有高相關性B、單個模型之間具有低相關性C、在集成學習中使用“平均權重”而不是“投票”會比較好D、單個模型都是用的一個算法答案:B55.(假設precision=TP/(TP+FP),recall=TP/(TP+FN))在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案哪個是相對不合理的()。A、Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積答案:A56.以下濾波器對圖像中的椒鹽噪聲濾波效果最好的是()。A、中值濾波B、均值濾波C、最大值濾波D、最小值濾波答案:A57.若建立一個5000個特征,100萬數據的機器學習模型,則應該怎么有效地應對這樣的大數據訓練()。A、隨機抽取一些樣本,在這些少量樣本之上訓練B、可以試用在線機器學習算法C、應用PCA算法降維,減少特征數D、以上答案都正確答案:D58.Python中定義私有屬性的方法是()。A、使用private關鍵字B、使用public關鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名答案:D59.模型構建完畢需要對模型進行評估量化,需要用到哪個模塊()。A、utilsB、mixtureC、metricsD、manifold答案:C60.以下哪種方法不屬于特征選擇的標準方法:()。A、嵌入B、過濾C、包裝D、抽樣答案:D61.有關數據倉庫的開發特點,不正確的描述是()。A、數據倉庫開發要從數據出發;B、數據倉庫使用的需求在開發出去就要明確;C、數據倉庫的開發是一個不斷循環的過程,是啟發式的開發;D、在數據倉庫環境中,并不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式答案:A62.以下哪一種分布是二維隨機變量的分布()。A、正態分布B、二項分布C、邊緣分布D、指數分布答案:C63.輸入圖像為32x32,經過步長為1,不進行padding,卷積核為5x5的卷積層后,得到的特征圖尺寸是多少()A、28x28B、27x27C、29x29D、32x32;答案:A64.讀代碼,請寫出程序正確的答案()。#!/usr/bin/envpython3N=100Sum=0Counter=1Whilecounter<=n:Sum+counterCounter+=1Print("1到%d之和為:%d"%(n,sum))A、結果:1到100之和為:5000B、結果:1到100之和為:0C、結果:1到100之和為:2050D、結果:1到100之和為:5020答案:B65.大數據平臺核心分布式存儲與計算組件采用Hadoop技術體系中分布式存儲、分布式計算框架,及Spark等開源產品和技術,實現對數據的安全控制和管理功能,其中分布式存儲不包括()。A、HDFSB、PostgresqlC、HiveD、HBase答案:B66.scikit-learn中的k-means類,哪個參數是用來調節k值的()。A、n_clustersB、max_iterC、n_initD、init答案:A67.任一隨機事件出現的概率為()A、在–1與1之間B、小于0C、不小于1D、在0與1之間答案:D68.對連續圖像的離散化采樣決定了圖像的()。A、空間分辨率B、時間分辨率C、地面分辨率D、灰度值答案:A69.Spark的劣勢()A、運算速度快B、業務實現需要較少代碼C、提供很多現成函數D、需要更多機器內存答案:D70.決策樹中的葉結點對應于()。A、屬性B、樣本C、決策結果D、標簽值答案:C71.MapReduce對map()函數的返回值進行處理后再返回給reduce()函數的目的是()。A、減少map()函數和reduce()函數之間的數據傳輸B、優化map()函數C、優化reduce()函數D、這一步驟并無必要答案:A72.關于表述數據可視化在數據科學中重要地位說法中,下列不正確的是()。A、視覺是人類獲得信息的最主要途徑B、數據可視化處理可以洞察統計分析無法發現的結構和細節C、數據可視化處理結果的解讀對用戶知識水平的要求較高D、可視化能夠幫助人們提高理解與處理數據的效率答案:C73.arr1=np.arange(0,20,1),arr2=arr1.reshape(4,5),arr2【1:3,1】的輸出結果為()。A、【【6】,【11】】B、【【5】,【10】】C、【6,11】D、【5,10】答案:C74.下列哪項方法不屬于圖像分割方法()。A、邊緣檢測法B、閾值分割法C、區域分割法D、特征提取法答案:D75.為了允許支持向量機在一些樣本上出錯,引入()的概念。A、軟間隔B、硬間隔C、間隔D、誤差答案:A76.以下不是開源工具特點的是()。A、免費B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權答案:C77.關于缺失值填補,不正確的說法是()。A、填補數據可以用中位數或者眾數等B、pandas.dropna可以用來填補缺失值C、用平均值填補會引入相關性D、啞變量填補是將缺失值當做一類新特征處理答案:B78.下列哪個函數可以計算字典元素個數()。A、cmpB、lenC、strD、type答案:B79.()是Spark中的抽象數據模型。A、RDDB、SchedulerC、StorageD、Shuffle答案:A80.Hadoop生態系統中,()主要解決的是日志類數據的收集和處理問題。A、MahoutB、FlumeC、SqoopD、HBase答案:B81.一般將原始業務數據分為多個部分,()用于模型的構建。A、訓練集B、測試集C、驗證集D、全部數據答案:A82.以下可以作為文本分類準則的是()。A、預測準確率B、魯棒性C、可擴展性D、以上答案都正確答案:D83.“數據的故事化描述”是指為了提升數據的()和(),將數據還原成關聯至特定的情景的過程。A、可理解性可記憶性可體驗性B、可接受性可記憶性可體驗性C、可接受性可記憶性可呈現性D、可理解性可記憶性可呈線性答案:A84.以下代碼的輸出結果為()。ImportnumpyasnpA=np.arange(12).reshape(3,4)Print(np.delete(a,5))A、【【0123】【4567】【891011】】B、【0123467891011】C、【【023】【467】【81011】】D、【246810】答案:B85.傅里葉變換得到的頻譜中,低頻系數對應于()。A、物體邊緣B、噪聲C、變化平緩部分D、變化劇烈部分答案:C86.下列程序打印結果為()。ImportreStr1="Python'sfeatures"Str2=re.match(r'(.*)on(.*?).*',str1,re.M|re.I)Print(str2.group(1))A、PythonB、PythC、thon’sD、Python‘sfeatures答案:B87.scipy.stats.isf函數的作用是()。A、隨機變量的生存函數B、scipy.stats.sf的逆C、計算隨機變量的期望和方差D、隨機變量的累積分布函數答案:B88.ApacheSqoop主要設計目的是()。A、數據清洗B、數據轉化C、數據ETLD、數據可視化答案:C89.如果需要訓練的特征維度成千上萬,在高維情形下出現的數據樣本稀疏、距離計算困難。我們通過什么方法可以緩解這個問題()。A、K均值算法B、支持向量機C、降維D、以上答案都不正確答案:C90.關于SOM神經網絡描述錯誤的是:(__)。A、一種競爭學習型的無監督神經網絡B、將高維輸入數據映射到低維空間,保持輸入數據在高維空間的拓撲結構C、SOM尋優目標為每個輸出神經元找到合適的權重D、輸出層神經元以矩陣方式排列在二維空間答案:C91.下列哪個不是專門用于可視化時間空間數據的技術(__)。A、等高線圖B、餅圖C、曲面圖D、矢量場圖答案:B92.在TF-IDF算法中,在計算完詞頻與逆文檔頻率后,將二者()后得到最終的結果。A、相加B、相減C、相乘D、相除答案:C93.jieba的哪一種模式會把文本精確切分,不存在冗余單詞()。A、匹配模式B、全模式C、精準模式D、搜索引擎模式答案:C94.關于Spark的說法中,()是錯誤的。A、采用內存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作答案:C95.()對應于決策樹結果,其他節點對應于()。A、葉節點,屬性測試B、根結點,學習測試C、內部節點,學習測試D、葉節點,分類測試答案:A96.對于分類類型的變量,()是個非常好的展示工具。A、柱狀圖B、折線圖C、餅狀圖D、直方圖答案:D97.線性判別分析(LDA)從貝葉斯決策理論闡釋,當兩類數據同先驗且滿足()時,LDA達到最優分類。A、滿足高斯分布B、協方差相等C、滿足高斯分布且協方差相等D、協方差不等答案:C98.以下哪個模塊不是Scipy庫中的()。A、clusterB、randomC、signalD、misc答案:B99.對于數據3,3,2,3,6,3,10,3,6,3,2.①這組數據的眾數是3;②這組數據的眾數與中位數的數值不相等;③這組數據的中位數與平均數的數值不相等;④這組數據的平均數與眾數的數值相等.其中正確結論的個數為()。A、1B、2C、3D、4答案:B100.給定一個長度為n的不完整單詞序列,我們希望預測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預測第十個字母是什么。下面哪種神經網絡結構適用于解決這個工作()A、循環神經網絡B、全連接神經網絡C、受限波爾茲曼機D、卷積神經網絡答案:A101.假設你在卷積神經網絡的第一層中有5個卷積核,每個卷積核尺寸為7×7,具有零填充且步幅為1。該層的輸入圖片的維度是224×224×3。那么該層輸出的維度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案:C102.以下使用其本身可以達成數據透視功能的函數是()。A、groupbyB、transformC、crosstabD、pivot_table答案:D103.在python3中以下安裝第三方模塊命令正確的是()。A、pip-installsklearnB、pipinstallsklearnC、pip–upgragesklearnD、pip-isklearn答案:B104.下列關于線性回歸分析中的殘差說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確答案:A105.stats.describe()函數的作用是()。A、計算變異系數B、計算數據集的樣本偏度C、計算所傳遞數組的幾個描述性統計信息D、計算關于樣本平均值的第n個矩答案:C106.()是人們從(多條)信息中發現的共性規律、模式、模型、理論和方法等。A、信息B、知識C、理解D、智慧答案:B107.數據銷毀環節的安全技術措施有通過軟件或物理方式保障磁盤中存儲數據的()、不可恢復,如數據銷毀軟件、硬盤消磁機、硬盤粉碎機等。A、暫時隔離B、暫時刪除C、永久刪除D、不作處理答案:C108.在Hadoop生態系統中,()可以將結構化的數據文件映射成一張數據庫表,并提供簡單的查詢語言。A、PigB、HbaseC、HiveD、MapReduce答案:C109.Python語句print(0xA+0xB)的輸出結果是()。。A、0xA+0xBB、A+BC、0xA0xBD、21答案:D110.有數組arr=Numpy.array(【1,2,3,4】),執行arr.dtype后輸出結果為()。A、int32B、int64C、float32D、float64答案:A111.以下選項中哪個不屬于數據預處理的方法()。A、數據清洗B、數據集成C、數據變換D、數據統計答案:D112.CNN神經網絡對圖像特征提取帶來了變革性的變化,使之前的人工特征提取升級到數據驅動的自動特征提取,在CNN中,起到特征提取作用的網絡層是:(__)。A、convolution層B、fullconnect層C、maxpooling層D、norm層答案:A113.下列關于文本分類的說法不正確的是()。A、文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類大致可分為基于知識工程的分類系統和基于機器學習的分類系統C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟答案:C114.聚類算法的性能度量可稱為()。A、密度估計B、異常檢測C、有效性指標D、分布結構答案:C115.數據整合和分組的說法,不正確的是()。A、數據連接可以用concat或merge函數B、axis=1表示軸向連接C、數據分組可以使用mean函數D、使用agg可以自定義多個聚合函數答案:C116.評估完模型之后,發現模型存在高偏差(highbias),應該如何解決()。A、減少模型的特征數量B、增加模型的特征數量C、增加樣本數量D、以上答案都正確答案:B117.Matplotlib的核心是面向()。A、過程B、對象C、結果D、服務答案:B118.scipy.stats模塊中隨機變量的殘存函數是()。A、cdfB、rvsC、pdfD、sf答案:D119.以下內容符合物體識別任務的是()。A、不能對圖像進行壓縮或剪裁B、遵守誤差最小準則和最佳近似準則C、可以不指定分類的類別數量D、事先給定樣本的分布特征答案:B120.以下關于圖像平滑的敘述中錯誤的是()。A、可以減少噪聲B、可以使圖像變得均勻C、圖像的細節部分可以不保持原有特征D、可以采用基于卷積的濾波方法答案:C121.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠。那么算法流程為()。1.從輸入的數據點集合中隨機選擇一個點作為第一個聚類中心2.對于數據集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數據點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直到k個聚類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means算法A、.1B、.3C、.5D、.5答案:C122.留出法直接將數據集劃分為()個互斥的集合。A、一B、二C、三D、四答案:B123.a=1,b=2,c=3,以下表達式值為True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c答案:D124.機器學習算法在學習過程中對某種類型假設的偏好,稱為()。A、訓練偏好B、歸納偏好C、分析偏好D、假設偏好答案:B125.下列關于L1正則化與L2正則化描述錯誤的是()。A、L1范數正則化有助于降低過擬合風險B、L2范數正則化有助于降低過擬合風險C、L1范數正則化比L2范數正則化更有易于獲得稀疏解D、L2范數正則化比L1范數正則化更有易于獲得稀疏解答案:C126.Scikit-Learn中()可以實現計算模型準確率。A、accuracy_scoreB、accuracyC、f1_scoreD、f2_score答案:A127.下面哪個操作是窄依賴()A、joinB、filterC、groupD、sort答案:B128.當相關系數r=0時,說明()。A、現象之間相關程度較小B、現象之間完全相關C、現象之間無直線相關D、現象之間完全無關答案:C129.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數據時代統計的思維變革的是()。A、不是隨機樣本,而是全體數據B、不是精確性,而是混雜性C、不是描述性分析,而是預測性分析D、不是因果關系,而是相關關系答案:C130.通過KMeans算法進行聚類分析后得出的聚類結果的特征是()。A、同一聚類中的對象間相似度高,不同聚類中的對象間相似度高B、同一聚類中的對象間相似度高,不同聚類中的對象間相似度低C、同一聚類中的對象間相似度低,不同聚類中的對象間相似度低D、同一聚類中的對象間相似度低,不同聚類中的對象間相似度高答案:B131.支持向量回歸與傳統回歸模型的差別()。A、模型輸出與真實值相同B、模型輸出與真實值存在ε偏差C、模型輸出大于真實值D、模型輸出小于真實值答案:B132.下列有關HDFS的容錯機制描述錯誤的是()。A、HDFS可以使用機架位感知的方法實現容錯機制;B、HDFS可以使用基于erasurecode的方法實現容錯機制;C、HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝一份到其他服務器;D、HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝一份到同機架機器的不同位置上;答案:D133.a=np.arange(10),a【2:4】截取到的數組為()。A、【1,2,3】B、【2,3,4】C、【2,3】D、【1,2】答案:C134.下列關于分詞的說法正確的是()A、中文句子字之間沒有空格,無法分詞B、一個句子的分詞結果是唯一的C、中文分詞是將一系列無空格間隔字符串分割成一系列單詞的過程D、分詞沒有實際應用價值答案:C135.()是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析答案:B136.假設已從標準庫functools導入reduce()函數,那么表達式reduce(lambdax,y:x+y,【1,2,3】)的值為()。A、NoneB、6C、3D、9答案:B137.如何交換二維Numpy數組中的兩列()。在數組arr中交換列1和2。arr=np.arange(9).reshape(3,3)A、arr【:,【1,0,2】】B、arr【:,【1,0,3】】C、arr【:,【1,0,1】】D、arr【:,【1,0】】答案:A138.Python語句list(range(1,10,3))執行結果為()。A、【1,10,30】B、【1,3,6,9】C、【1,4,7】D、【2,5,8】答案:C139.假設有列表a=【'name','age','sex'】和b=【'Dong',38,'Male'】,請使用一個語句將這兩個列表的內容轉換為字典,并且以列表a中的元素為“鍵”,以列表b中的元素為“值”,這個語句可以寫為()。A、c=dict(cross(a,b))B、c=dict(zip(a,b))C、c=map(zip(a,b))D、c=b答案:B140.如何從一個數組中移除那些存在于另一個數組中的項()。A=np.array(【1,2,3,4,5】)B=np.array(【5,6,7,8,9】)期望輸出:array(【1,2,3,4】)A、np.setdiff1d(a,b)B、setdiff1d(a)C、setdiff1d(b)D、以上答案都不正確答案:A141.在邏輯回歸輸出與目標對比的情況下,以下評估指標中哪一項不適用()。A、AUC-ROCB、準確度C、LoglossD、均方誤差答案:D142.Numpy中對數組進行轉置的函數是哪個()。A、transpose()B、rollaxis()C、swapaxes()D、tan()答案:A143.Seaborn要求原始數據的輸入類型不能是()A、DataframeB、SeriesC、Numpy答案:B144.數據可視化的本質是()。A、將數據轉換為知識B、將知識轉換為數據C、將數據轉換為信息D、將信息轉換為智慧答案:A145.大數據平臺技術架構不包含的是()A、數據整合B、數據存儲C、數據計算D、數據溯源答案:D146.機器學習中L1正則化和L2正則化的區別是()。A、使用L1可以得到稀疏的權值,使用L2可以得到平滑的權值B、使用L1可以得到平滑的權值,使用L2可以得到平滑的權值C、使用L1可以得到平滑的權值,使用L2可以得到稀疏的權值D、使用L1可以得到稀疏的權值,使用L2可以得到稀疏的權值答案:A147.下列關于關鍵詞提取的說法錯誤的是()A、關鍵詞提取是指借用自然語言處理方法提取文章關鍵詞B、TF-IDF模型是關鍵詞提取的經典方法C、文本中出現次數最多的詞最能代表文本的主題D、這個問題設計數據挖掘,文本處理,信息檢索等領域;答案:C148.考慮值集{12243324556826},其四分位數極差是:()A、21B、24C、55D、3答案:A149.在Hadoop中,下面哪個是默認的InputFormat類型,它將每行內容作為新值,而將字節偏移量作為key()。A、FileInputFormatB、TextInputFormatC、KeyValueTextInputFormatD、bineTextInputFormat答案:B150.pynlpir是一種常用的自然語言理解工具包,其中進行分詞處理的函數是()。A、open()B、segment()C、AddUserWord()D、generate()答案:B151.一元線性回歸方程y=0.7+0.82x,判定系數等于0.64,則x與y的相關系數為()。A、0.82B、0.64C、0.8D、0.7答案:C152.關于Python文件處理,以下選項中描述錯誤的是()。A、Python能處理JPG圖像文件B、Python不可以處理PDF文件CPython能處理C、SV文件D、Python能處理Excel文件答案:B153.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過將數據點集分為()個劃分,并使用重復的控制策略使某個準則最優化,以達到最終的結果A、DB、KC、ED、F答案:B154.關于Python語言的特點,以下選項中描述錯誤的是()。A、Python語言是非開源語言B、Python語言是跨平臺語言C、Python語言是多模型語言D、Python語言是腳本語言答案:A155.不屬于判別式模型的是()。A、決策樹B、BP神經網絡C、支持向量機D、貝葉斯答案:D156.聚類是一種典型的無監督學習任務,然而在現實聚類任務中我們往往能獲得一些額外的監督信息,于是可通過()來利用監督信息以獲得更好的聚類效果。A、監督聚類B、半監督聚類C、聚類D、直推聚類答案:B157.如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的()A、增加樹的深度B、增加學習率C、減小樹的深度D、減少樹的數量答案:C158.Python中的os模塊常見方法描述錯誤的是()。A、os.remove()刪除文件B、os.rename()重命名文件C、os.walk()讀取所有的目錄名D、os.chdir()改變目錄答案:C159.多分類圖像識別任務常采用()作為輸出的編碼方式。A、二進制編碼B、one-hot編碼C、霍夫曼編碼D、曼切斯特編碼答案:B160.表達式int('101',2)的值為()。A、5B、6C、10D、3答案:A161.以下關于模塊說法錯誤的是()。A、一個xx.py就是一個模塊;B、任何一個普通的xx.py文件可以作為模塊導入;C、模塊文件的擴展名不一定是.py;D、運行時會從制定的目錄搜索導入的模塊,如果沒有,會報錯異常答案:C162.當try子句中沒有任何錯誤時,一定不會執行()語句。A、tryB、slseC、exceptD、finally答案:C163.假設你需要調整參數來最小化代價函數(costfunction),會使用()技術。A、窮舉搜索B、隨機搜索C、Bayesian優化D、以上全是答案:D164.下面哪項不屬于循環神經網絡的輸出模式。(__)A、單輸出B、多輸出C、同步多輸出D、異步多輸出答案:C165.np.sort()函數返回的是()。A、已排序的原數組B、排好序的數組拷貝C、原數組D、原數組的拷貝答案:B166.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表答案:C167.大數據參考架構的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術價值鏈B、信息技術價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術價值鏈D、信息(活動)價值鏈和信息交互價值鏈答案:A168.情感信息歸納常見的存在形式是()。A、語料庫B、情感文摘C、情感評論D、情感傾向答案:B169.以下關于副本和視圖描述錯誤的是()。A、Numpy的切片操作返回原數據的視圖B、調用Ndarray的view()函數產生一個視圖C、Python序列的切片操作,調用deepCopy()函數D、調用Ndarray的copy()函數產生一個視圖答案:D170.屬于卷積神經網絡應用方向的是(__)。A、圖像分類B、目標檢測C、圖像語義分割D、以上答案都正確答案:D171.下列不屬于數據科學跨平臺基礎設施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop答案:D172.scipy庫中用于物理和數學常量計算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg答案:C173.執行如下代碼:ImporttimePrint(time.time())以下選項中描述錯誤的是()。A、time庫是Python的標準庫;B、可使用time.ctime(),顯示為更可讀的形式;C、time.sleep(5)推遲調用線程的運行,單位為毫秒;D、輸出自1970年1月1日00:00:00AM以來的秒數;答案:C174.Python語句:f=open(),以下選項中對f的描述錯誤的是()。A、*f是文件句柄,用來在程序中表達文件B、表達式print(f)執行將報錯C、*f是一個Python內部變量類型D、將f當作文件對象,fread()可以讀入文件全部信息答案:B175.常用的圖像去噪方法有()。A、高斯濾波B、中值濾波C、P-M方程去噪D、以上答案都正確答案:D176.運行下面的代碼后,變量n的類型是()。N={}A、setB、listC、未知類型D、dict答案:D177.有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓練誤差和測試誤差之間的差距會如何變化()。A、增大B、減小C、無法確定D、無明顯變化答案:B178.任何一個核函數都隱式地定義了一個()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間答案:C179.選擇哪一個解作為輸出,將由學習算法的歸納偏好決定,常見的做法是引入()。A、線性回歸B、線性判別分析C、正則化項D、偏置項答案:C180.Numpy庫的主要功能是()。A、科學計算B、繪圖C、爬取網站數據、提取結構性數據D、機器學習庫答案:A181.下列關于可視化方法體系說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B、常用的共性方法有統計圖表、圖論方法、視覺隱喻和圖形符號學等C、領域方法在所屬領域內其可視化的信度和效果往往低于基礎方法的直接應用D、視覺編碼為其他數據可視化方法提供了方法學基礎答案:C182.設計為8層的卷積神經網絡AlexNet網絡成功使用(__)函數,其效果遠遠地超過了Sigmoid函數。A、ReLU函數B、sigmoid函數C、tanh函數D、sin函數答案:A183.線性模型中的權重w值可以看做各個屬性x的()。A、正則化系數B、對最終決策結果的貢獻度C、高維映射D、取值答案:B184.最早被提出的循環神經網絡門控算法是什么()A、長短期記憶網絡B、門控循環單元網絡C、堆疊循環神經網絡D、雙向循環神經網絡答案:A185.如果只寫open(filename),那就是用()模式打開。A、rB、wC、aD、b答案:A186.依托(),結合應用推進數據歸集,形成統一的數據資源中心。A、全業務數據中心和數據中臺B、營銷基礎數據平臺和大數據平臺C、全業務中心和營銷基礎數據平臺D、全業務數據中心和大數據平臺答案:A187.MapReduce編程模型中以下組件哪個是最后執行的()A、MapperB、PartitionerC、ReducerD、RecordReader答案:C188.假如我們使用Lasso回歸來擬合數據集,該數據集輸入特征有100個(X1,X2,...,X100)。現在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相同的正則化參數對Lasso回歸進行修正。那么,下列說法正確的是()A、特征X1很可能被排除在模型之外B、特征X1很可能還包含在模型之中C、無法確定特征X1是否被舍D、以上答案都不正確答案:B189.data=Numpy.array(【【【1,2,3】,【4,5,6】】,【【7,8,9】,【10,11,12】】】),data的形狀(shape)為()。A、(2,2,3)B、(2,3,2)C、(3,2,3)D、(3,2,2)答案:A190.下列哪個不是專門用于可視化時間空間數據的技術()。A、等高線圖B、餅圖C、曲面圖D、矢量場圖答案:B191.一個MapReduce程序中的MapTask的個數由什么決定()A、輸入的總文件數B、客戶端程序設置的mapTask的個數C、FileInputFormat.getSplits(JobContextjob)計算出的邏輯切片的數量D、輸入的總文件大小/數據塊大小答案:C192.數據可視化的方法論基礎是()。A、統計圖表B、視覺編碼理論C、圖論D、圖形符號學答案:B193.當特征值大致相等時會發生什么()A、PCA將表現出色B、PCA將表現不佳C、不知道D、以上都沒有答案:B194.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續分類:()。A、正確B、錯誤答案:A195.可分解為偏差、方差與噪聲之和的是()。A、訓練誤差(trainingerror)B、經驗誤差(empiricalerror)C、均方誤差(meansquarederror)D、泛化誤差(generalizationerror)答案:D196.以下()是對DMM(數據管理成熟度模型)中“已管理級”基本特點的正確表述。A、組織機構的數據管理關鍵活動能夠根據結構自身的反饋以及外部環境的變革進行不斷優化。B、組織機構已用定量化的方式管理其關鍵過程的執行過程。C、組織機構只有在項目管理過程中執行了D.M給出的關鍵過程,而缺乏機構層次的統籌與管理D、組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理了其數據管理關鍵過程答案:D197.以下屬于圖像處理的常用方法有()。A、圖像變換B、圖像編碼壓縮C、圖像增強和復原D、以上答案都正確答案:D198.以下屬于深度學習框架的是(__)。A、TensorflowB、CaffeC、PyTorchD、以上答案都正確答案:D199.下列關于支持向量的說法正確的是()。A、到分類超平面的距離最近的且滿足一定條件的幾個訓練樣本點是支持向量B、訓練集中的所有樣本點都是支持向量C、每一類樣本集中都分別只有一個支持向量D、支持向量的個數越多越好答案:A200.變量的不確定性越大,相對應信息熵有什么變化()。A、熵變小B、熵變大C、不變D、以上答案都不正確答案:B201.LSTM中,(__)的作用是確定哪些新的信息留在細胞狀態中,并更新細胞狀態。A、輸入門B、遺忘門C、輸出門D、更新門答案:A202.數據管理成熟度模型中成熟度等級最高是哪一級()。A、已優化級B、已測量級C、已定義級D、已管理級答案:A203.下列不屬于聚類性能度量外部指標的是()。A、Jaccard系數B、FM系數C、Rand指數D、DB指數;答案:D204.執行以下代碼段Print(bool('False'))Print(bool())時,輸出為()。A、TrueTrueB、TrueFalseC、FalseTrueD、FalseFalse答案:B205.數據科學是一門以()為主要研究任務的獨立學科。A、“數據驅動”“數據業務化”“數據洞見”“數據產品研發”和(或)“數據生態系統的建設”B、數據研發C、數據處理D、數據洞見答案:A206.Hadoop中,Reducer的三個階段是__。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce答案:A207.下列場景中最有可能應用人工智能的是()。A、刷臉辦電B、輿情分析C、信通巡檢機器人D、以上答案都正確答案:D208.當使用不同類型的數組進行操作時,結果數組的類型會進行()。A、向下轉換B、向上轉換C、不進行轉換D、無法計算答案:B209.傳統目標檢測流程包括()。A、區域選擇B、特征提取C、分類器分類D、以上答案都正確答案:D210.關于文件的打開方式,以下選項中描述正確的是()。A、文件只能選擇二進制或文本方式打開B、文本文件只能以文本方式打開C、所有文件都可能以文本方式打開D、所有文件都可能以二進制方式打開答案:D211.以下選項中,輸出結果是False的是()。A、>>>5isnot4B、>>>5!=4C、>>>False!=0D、>>>5is5答案:C212.以下說法正確的是()。A、關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。B、尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式C、數據挖掘的主要任務是從數據中發現潛在的規律,從而能更好的完成描述數據、預測數據等任務。D、在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差。答案:C213.在IBMPASS中,聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和()四種。A、系統聚類B、兩步聚類C、模型聚類D、其它聚類答案:B214.下面哪行代碼最適合接受系統輸入的一個整數()。A、num=input()B、num=input(“6”)C、num=int(input())D、num=float(input())答案:C215.如何在pyplot中設置x軸、y軸的刻度位置()。A、xlabel()、ylabel()B、xlim()、ylim()C、xscale()、yscale()D、xticks()、yticks()答案:D216.導入模塊的方式錯誤的是()。A、importmoB、frommoimport*;C、importmoasmD、importmfrommo答案:D217.特征工程的目的是()。A、找到最合適的算法B、得到最好的輸入數據C、減低模型復雜度D、加快計算速度答案:B218.關于bagging下列說法錯誤的是:()。A、各基分類器之間有較強依賴,不可以進行并行訓練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當訓練樣本數量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓練集分為若干子集答案:A219.對于數據3,3,2,3,6,3,10,3,6,3,2.①這組數據的眾數是3;②這組數據的眾數與中位數的數值不相等;③這組數據的中位數與平均數的數值不相等;④這組數據的平均數與眾數的數值相等.其中正確結論的個數為()。A、1B、2C、3D、4答案:B220.卷積神經網絡中每層卷積層(Convolutionallayer)由若干卷積單元組成,每個卷積單元的參數都是通過反向傳播算法最佳化得到,其作用是(__)。A、增強圖像B、簡化圖像C、特征提取D、圖像處理答案:C221.關于層次聚類算法:(1)不斷重復直達達到預設的聚類簇數(2)不斷合并距離最近的聚類簇(3)對初始聚類簇和相應的距離矩陣初始化(4)對合并得到的聚類簇進行更新。正確的執行順序為()。A、1234B、1324C、3241D、3412答案:C222.能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質量的是()。A、圖像平滑B、圖像分類C、圖像識別D、圖像分割答案:A223.關于HDFS的特征,下列說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數據訪問D、低吞吐量答案:D224.數組分割使用以下哪個函數()。A、vstack()B、hstack()C、split()D、view()答案:C225.以下說法正確的是()。A、散點圖不能在子圖中繪制B、散點圖的x軸刻度必須為數值C、折線圖可以用作查看特征間的趨勢關系D、箱線圖可以用來查看特征間的相關關系答案:C226.()選擇成為支持向量機的最大變數。A、核函數B、樣本空間C、模型D、算法答案:A227.關系云的一個重要功能是提供()。A、數據庫即服務B、虛擬服務C、彈性計算D、按需服務答案:A228.Python的sys模塊常用方法描述錯誤的是()。A、sys.argv命令行參數List,第一個元素是程序本身路徑B、sys.modules.keys()返回所有字典中的keysC、sys.exc_info()獲取當前正在處理的異常類D、sys.exit(n)退出程序答案:B229.檢測一元正態分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統計方法B、鄰近度C、密度D、聚類技術答案:A230.數組允許批量計算而無須任何for循環,這種特性叫()。A、矩陣化;B、便捷化;C、批量化;D、失量化;答案:D231.Hadoop生態系統中,HBase是一種()。A、分布式文件系統B、數據倉庫C、實時分布式數據庫D、分布式計算系統答案:C232.scipy中模塊integrate的作用是()。A、程序輸入輸出B、差值計算C、計算積分D、向量計算;答案:C233.下面哪個操作肯定是寬依賴()A、mapB、flatMapC、reduceByKeyD、sample答案:C234.關于Python賦值語句,以下選項中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x答案:C235.關于混合模型聚類算法的優缺點,下面說法正確的是()。A、當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理B、混合模型很難發現不同大小和橢球形狀的簇C、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布D、混合模型在有噪聲和離群點時不會存在問題答案:C236.()主要提供內存計算框架A、Spark核心層B、資源計算層C、服務核心層D、Spark層答案:A237.下列核函數特性描述錯誤的是()。A、只要一個對稱函數所對應的核矩陣半正定,就能稱為核函數;B、核函數選擇作為支持向量機的最大變數;C、核函數將影響支持向量機的性能;D、核函數是一種降維模型;答案:D238.以下說法不正確的是()。A、卷積神經網絡主要用于目標識別、圖像分割等方面B、循環神經網絡主要用于處理序列數據C、長短時記憶神經網絡主要用于處理序列數據D、長短時記憶神經網絡是和循環神經網絡完全不同的一種新型神經網絡答案:D239.卷積神經網絡(convolutionalneuralnetwork,CNN),是一種專門用來處理具有類似(__)的數據的神經網絡。A、網格結構B、數組結構C、序列結構D、表格結構答案:A240.bootstrap數據是什么意思()。A、有放回地從總共M個特征中抽樣m個特征B、無放回地從總共M個特征中抽樣m個特征C、有放回地從總共N個樣本中抽樣n個樣本D、無放回地從總共N個樣本中抽樣n個樣本答案:C241.()采用概率模型來表達聚類原型。A、k均值算法B、學習向量量化C、高斯混合聚類D、密度聚類答案:C242.在Hadoop的分區階段,默認的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner答案:C243.決策樹的父節點和子節點的熵的大小關系是什么()。A、父節點的熵更小B、子節點的熵更小C、兩者相等D、根據具體情況而定答案:B244.以下選項中Python用于異常處理結構中用來捕獲特定類型的異常的保留字是()。A、exceptB、doC、passD、while答案:A245.Python中Statsmodels庫適用于()場景。A、統計分析B、機器學習C、圖像處理D、數據建模答案:A246.有關異常說法正確的是()。A、程序中拋出異常終止程序B、程序中拋出異常不一定終止程序C、拼寫錯誤會導致程序終止D、縮進錯誤會導致程序終止答案:B247.運行下面的代碼,輸出結果是()。D={-2,-1,0,1,2,3}N=d.pop()Print(n)A、-2B、2C、不確定D、3答案:C248.np.dot(【【1,2,3】,【1,2,3】,【1,2,3】】,【【2,1,1】,【2,1,1】,【2,1,1】】)的結果是()。A、【【1266】【1266】【1266】】B、【【223】【223】【223】】C、【【123】【123】【123】】D、【【211】【211】【211】】答案:A249.Python代碼中mpl.rcParams【'font.sans-serif'】=【'SimHei'】的作用是()。A、設置圖表中文顯示的字體B、設置圖表圖例的位置C、設置圖表標題的顏色D、設置圖表標題的位置答案:A250.關于Sqoop的說法,不正確的是()A、主要設計目的是在Hadoop與傳統數據庫之間進行數據的ETL操作B、數據導入導出通過MapReduce完成C、Sqoop具備MapReduce的并行化和容錯性D、Sqoop的Reduce操作速度更快答案:D251.Scikit-Learn中()可以更好幫助參數調優和選擇模型。A、均值算法B、均方根算法C、最小二乘法D、交叉驗證答案:D252.構造了一個詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示為()。A、【1101001】B、【1111111】C、【1111100】D、【1110100】答案:D253.下列哪個不屬于CRF模型對于HMM和MEMM模型的優勢(__)。A、特征靈活B、速度快C、可容納較多上下文信息D、全局最優答案:B254.A=np.array(【【1,1】,【0,1】】),B=np.array(【【2,0】,【3,4】】),A*B的結果是()。A、【【2,0】,【0,4】】B、【【5,4】,【3,4】】C、【【3,4】,【5,4】】D、無法計算答案:A255.以下關于連接數組不正確的是()。A、concatenate連接沿現有軸的數組序列B、stack沿著新的軸加入一系列數組。C、vstack水平堆疊序列中的數組(列方向)D、hstack3D堆疊序列中的數組(行方向)答案:D256.RNN不同于其它神經網絡的地方在于(__)。A、實現了記憶功能B、速度快C、精度高D、易于搭建答案:A257.要彌補缺失值,可以使用均值,中位數,眾數等等,preprocessing模塊中那個方法可以實現()。A、preprocessing.Imputer()B、preprocessing.PolynomialFeatures()C、preprocessing.FunctionTransformer()D、preprocessing.Binarizer()答案:A258.正態分布的兩個參數μ與σ,()對應的正態曲線愈趨扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小答案:C259.客戶端從HDFS上讀取數據時會()A、從namenode上獲取數據B、從datanode上獲取block位置C、從namenode上獲取block位置D、從namenode上獲取數據和block位置答案:C260.下列哪個程序通常與NameNode在一個節點啟動()A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案:D261.長短時記憶神經網絡通過什么來緩解梯度消失問題()A、增加網絡深度B、減少網絡神經元C、使用雙向的網絡結構D、增加一個用來保存長期狀態的單元答案:D262.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文章中的主觀類詞語,其中()不適用于情感分析。A、表達觀點的關鍵詞B、表達程度的關鍵詞C、表達情緒的關鍵詞D、表達客觀事實的關鍵詞答案:D263.機器學習訓練時,Mini-Batch的大小優選為2的冪,如256或512。它背后的原因是什么()。A、Mini-Batch為偶數的時候,梯度下降算法訓練的更快B、Mini-Batch設為2的冪,是為了符合CPU、GPU的內存要求,利于并行化處理C、不使用偶數時,損失函數是不穩定的D、以上答案都不正確答案:B264.一個分布式應用程序協調服務,分布式應用程序可以基于它實現同步服務,配置維護和命名服務等的工具是()。A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案:B265.運行下面的代碼,輸出結果是()。S="Thepythonispython."Print(s.find('python',10))A、10B、20C、14D、系統報錯答案:C266.基于統計的分詞方法為()。A、正向最大匹配法B、逆向最大匹配法C、最少切分D、條件隨機場答案:D267.下列極大似然估計描述錯誤的是(__)。A、極大似然估計先假定其具有某種確定的概率分布形式;B、極大似然估計沒有確定的概率分布形式;C、概率模型的訓練過程就是參數估計;D、貝葉斯學派認為參數本身也有分布,是未觀察的隨機變量;答案:B268.將一副圖像進行分割后,分割出的區域彼此之間(__)重疊。A、可以B、不可以C、根據任務需要確定是否可以D、根據分割方法確定是否可以答案:B269.圖像平滑會造成()。A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確答案:A270.以下代碼的輸出結果為()。ImportnumpyasnpA=np.array(【【3,7,5】,【8,4,3】,【2,4,9】】)Print(np.ptp(a))A、【【375】【843】【249】】B、7C、【457】D、【636】答案:B271.關于拋出異常的說法中,描述錯誤的是()。A、當raise指定異常的類名時,會隱式地創建異常類的實例B、顯式地創建異常類實例,可以使用raise直接引發C、不帶參數的raise語句,只能引發剛剛發生過的異常D、使用raise拋出異常時,無法指定描述信息答案:D272.關于循環神經網絡設計的敘述中,錯誤的是()。A、能處理可變長度的序列B、基于圖展開思想C、基于參數共享思想D、循環神經網絡不可應用于圖像數據答案:D273.圖像灰度方差說明了圖像的哪一個屬性()。A、平均灰度B、圖像對比度C、圖像整體亮度D、圖像細節答案:B274.一監獄人臉識別準入系統用來識別待進入人員的身份,此系統一共包括識別4種不同的人員:獄警,小偷,送餐員,其他人員。下面哪種學習方法最適合此種應用需求()A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題答案:C275.當需要在字符串中使用特殊字符時,python使用()作為轉義字符。A、\B、/C、#D、%答案:A276.以下()屬于數據可視化方法體系中的基礎方法。A、視覺編碼方法論B、視覺隱喻C、地理信息可視化D、時變數據可視化答案:B277.Spark那個組件用于支持實時計算需求()。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案:B278.下列哪種業務場景中,不能直接使用Reducer充當biner使用()A、sum求和B、max求最大值C、count求計數D、avg求平均答案:D279.scipy.stats模塊中隨機變量的概率密度函數是()。A、statsB、fitC、pdfD、ppf答案:C280.生成二項式離散隨機變量使用以下哪個函數()。A、stats.bernoulli()B、stats.binom()C、stats.geom()D、stats.randint()答案:B281.下面哪個是滿足期望輸出的代碼()。Arr=np.array(【0,1,2,3,4,5,6,7,8,9】)期望輸出:array(【1,3,5,7,9】)A、arr%2==1B、arr【arr%2==1】C、arr【arr/2==1】D、arr【arr//2==1】答案:B282.關于Python的lambda函數,以下選項中描述錯誤的是()。A、可以使用lambda函數定義列表的排序原則B、f=lambdax,y:x+y執行后,f的類型為數字類型C、lambda函數是匿名函數D、lambda用于定義簡單的能夠在一行內表示的函數答案:B283.以下代碼的輸出結果為()。ImportnumpyasnpA=np.array(【【10,7,4】,【3,2,1】】)Print(np.percentile(a,50))A、【【1074】【321】】B、3.5C、【】D、【7.2.】答案:B284.matplotlib中的barh函數可以繪制()圖。A、直方圖B、餅圖C、條形圖D、氣泡圖答案:C285.下面選項不正確的是()。ImportnumpyasnpX=np.array(【【1,2】,【3,4】】)Y=np.linalg.inv(x)Print(y)A、【【12】【34】】B、【【-2.1.】【1.5-0.5】】C、【【1.0.】【2.1.】】D、以上答案均不正確答案:B286.以下哪個不是HDFS的守護進程()A、secondarynamenodeB、datanodeC、mrappmaster/yarnchildD、namenode答案:C287.DNN常用的激活函數有(__)。A、sigmoidB、tanhC、ReLUD、以上答案都正確答案:D288.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發生的地點。這體現了大數據分析理念中的()。A、在數據基礎上傾向于全體數據而不是抽樣數據B、在分析方法上更注重相關分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數據規模上強調相對數據而不是絕對數據答案:B289.不屬于數據脫敏的要求的是()。A、雙向性B、單向性C、無殘留D、易于實現答案:A290.Scipy庫不包含以下哪種功能()。A、線性代數模塊B、傅里葉變換C、信號和圖像圖例D、提供機器學習等算法答案:D291.matplotlib中調用直方圖的函數是()。A、plot()B、scatter()C、bar()D、hist()答案:D292.KNN最近鄰分類算法的過程()1.計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);2.對上面所有的距離值進行排序;3.選前k個最小距離的樣本;4.根據這k個樣本的標簽進行投票,得到最后的分類類別。A、B、C、D、答案:C293.()是表現數據分布對稱性的指標。A、斜率B、偏斜度C、偏度D、偏離度答案:B294.random庫的seed(a)函數的作用是()。A、生成一個【0.0,1.0)之間的隨機小數B、生成一個k比特長度的隨機整數C、設置初始化隨機數種子aD、生成一個隨機整數答案:C295.Hadoop生態系統中,()的主要設計目的是在Hadoop與傳統數據庫之間進行數據的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop答案:D296.在MapReduce中,以下描述中錯誤的是()。A、經過map()函數的計算可以得出一個中間數據集B、map()函數是確定的,用戶不可自定義C、對map()函數的返回值,進行一定的處理后才進入下個階段D、map()函數的輸入輸出都是同一數據結構答案:B297.下面與HDFS類似的框架是()A、NTFSB、FAT32C、GFSD、EXT3答案:C298.Python對not、or、and求值的優先順序是()。A、andornotB、notandorC、orandnotD、ornotnad答案:B299.stats()函數不能求以下哪個值()。A、均值B、方差C、峰度D、眾數答案:D300.當構建一個神經網絡進行圖片的語義分割時,通常采用下面哪種順序()。A、先用卷積神經網絡處理輸入,再用反卷積神經網絡得到輸出B、先用反卷積神經網絡處理輸入,再用卷積神經網絡得到輸出C、不能確定答案:A多選題1.下面哪些是循環神經網絡的輸出模式(__)。A、多輸出B、單輸出C、同步多輸出D、異步多輸出答案:ABD2.從Hadoop實現角度看,HadoopMapReduce1.0主要由()組成。A、編程模型B、數據處理引擎C、運行時環境D、算法庫答案:ABC3.一個監督觀測值集合會被劃分為()。A、訓練集B、驗證集C、測試集D、預處理集答案:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 贈予車輛協議合同書模板
- 設備設施交接協議書范本
- 設計服務廣告合同協議
- 貴州營運車買賣合同協議
- 貨車微信上訂貨合同協議
- 購買防雨棚合同協議
- 資產處置協議合同協議
- 試用協議和勞動合同
- 2025年大學物理考試波動現象考察重點試題及答案
- 2025年酒店管理專業畢業考試試題及答案
- 2025遵義職業技術學院教師招聘考試試題及答案
- MH-T 5035-2017民用機場高填方工程技術規范
- MOOC 數據挖掘-國防科技大學 中國大學慕課答案
- 創業管理(上海財經大學)智慧樹知到期末考試答案2024年
- 2023年中國鐵路遼寧沈陽局集團有限公司招聘考試真題
- 失業登記申請表及失業金申領表
- 糖尿病胰島素治療專題患教用
- 般現在時和現在進行時練習題附答案
- LY/T 2482.1-2015東北、內蒙古林區森林撫育技術要求第1部分:大興安嶺林區
- FZ/T 91007-2004紡織機械產品涂裝工藝
- 工程結構試驗作業朱爾玉課后題答案
評論
0/150
提交評論