數據挖掘競賽復習試題有答案_第1頁
數據挖掘競賽復習試題有答案_第2頁
數據挖掘競賽復習試題有答案_第3頁
數據挖掘競賽復習試題有答案_第4頁
數據挖掘競賽復習試題有答案_第5頁
已閱讀5頁,還剩54頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第頁數據挖掘競賽復習試題有答案1.RDD中的數據被()在集群中,使得任務可以并行執行。A、順序存儲B、連續存儲C、分塊存儲D、分區存儲【正確答案】:D解析:

RDD為分區存儲。2.()的主要目標是提供可擴展的機器學習算法及其實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,如聚類、分類、推薦過濾、頻繁子項挖掘等。3.支持向量回歸與傳統回歸模型的差別是()。A、模型輸出與真實值相同B、模型輸出與真實值存在ε偏差C、模型輸出大于真實值D、模型輸出小于真實值【正確答案】:B解析:

以線性回歸為例,通過模型輸出的f(x)與真實輸出的y之間的差別來計算損失。而SVR假設模型輸出f(x)與真實的y之間可以容忍有eps大小的偏差,也就意味只要樣本的預測值落在f(x)兩側在y軸方向上絕對值之差小于eps的間隔帶就是預測正確的。4.增加卷積核的大小對于改進卷積神經網絡的效果是必要的嗎()A、是的,增加卷積核尺寸一定能提高性能B、不是,增加核函數的大小不一定會提高性能C、-D、-【正確答案】:B解析:

增加核函數的大小不一定會提高性能。這個問題在很大程度上取決于數據集。5.下列選項中,用于觸發異常的是()。A、tryB、catchC、raiseD、except【正確答案】:C解析:

--6.數據科學是一門以()為主要研究任務的獨立學科。A、“數據驅動”“數據業務化”“數據洞見”“數據產品研發”和(或)“數據生態系統的建設”B、數據研發C、數據處理D、數據洞見【正確答案】:A解析:

數據科學是一門以實現“從數據到信息”“從數據到知識”和(或)“從數據到智慧”的轉化為主要研究目的的,以“數據驅動”“數據業務化”“數據洞見”“數據產品研發”和(或)“數據生態系統的建設”為主要研究任務的獨立學科。7.以下敘述正確的是()。A、continue語句的作用是結束整個循環的執行B、只能在循環體內使用break語句C、在循環體內使用break語句或continue語句的作用相同D、從多層循環嵌套中退出時,只能使用goto語句【正確答案】:B解析:

continue語句可以跳過循環的當前一步,故AC錯;python沒有goto語句。8.矩陣相減使用以下哪種的函數是()。A、np.add)B、np.subtract)C、np.multiply)D、np.divide)【正確答案】:B解析:

ABCD選項分別對應矩陣計算的加減乘除法。9.以下描述中錯誤的是()。A、數據化與數字化是兩個不同概念B、數據與數值是一個概念C、大數據與海量數據是兩個不同的概念D、數據和信息是兩個不同的概念【正確答案】:B解析:

除了“數值”,數據科學中的“數據”還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型10.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C解析:

--11.對于PCA(主成分分析)轉化過的特征,樸素貝葉斯的不依賴假設總是成立,因為所有主要成分是正交的,這個說法是()。A、正確的B、錯誤的C、-D、-【正確答案】:B解析:

說法錯誤。首先,不依賴和不相關是兩回事;其次,轉化過的特征也可能是相關的。12.卷積神經網絡能通過卷積以及池化等操作將不同種類的鳥歸為一類。關于卷積神經網絡能達到該效果的原因,下列說法不正確的是()。A、同樣模式的內容(如鳥嘴)在圖像不同位置可能出現B、池化之后的圖像主體內容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似【正確答案】:D解析:

特征維數的減少并不會讓之前的特征丟失。13.下列關于神經網絡的說法中:①增加神經網絡層數,可能會增加測試數據集的分類錯誤率;②減少神經網絡層數,總是能減小測試數據集的分類錯誤率;③增加神經網絡層數,總是能減小訓練數據集的分類錯誤率,正確的是()。A、①B、①③C、①②D、②【正確答案】:A解析:

深度神經網絡的成功已經證明,增加神經網絡層數,可以增加模型范化能力,即訓練數據集和測試數據集都表現得更好。但更多的層數也不一定能保證有更好的表。所以,不能絕對地說層數多的好壞,只能選A。14.考慮值集{12243324556826},其四分位數極差是:()。A、21B、24C、55D、3【正確答案】:A解析:

四分位差,也稱為內距或四分間距,它是上四分位數(QU,即位于75%)與下四分位數(QL,即位于25%)的差。計算公式為:QD=QU-QL。將數據從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2115.能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質量的是()。A、圖像平滑B、圖像分類C、圖像識別D、圖像分割【正確答案】:A解析:

圖像平滑是指用于突出圖像的寬大區域、低頻成分、主干部分或抑制圖像噪聲和干擾高頻成分的圖像處理方法,目的是使圖像亮度平緩漸變,減小突變梯度,改善圖像質量。16.以下哪個模塊()不是Scipy庫中的()模塊。A、clusterB、randomC、signalD、misc【正確答案】:B解析:

cluster、signal、misc都是Scipy庫中的模塊,random是Numpy中的模塊,Python本身也帶有random庫。17.HTML的表格中,如果需要定義表格的單元格內文字和邊緣的空間,需要通過哪個屬性()來實現()。A、cellspacing屬性B、colspan屬性C、cellpadding屬性D、rowspan屬性【正確答案】:C解析:

cellspacing屬性用來指定表格各單元格之間的空隙;colspan屬性規定單元格可橫跨的列數;cellpadding屬性用來指定單元格內容與單元格邊界之間的空白距離的大小;rowspan屬性規定單元格可橫跨的行數。18.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正確答案】:B解析:

seek(0)指移動指針到0位置即開頭。19.matplotlib中設置x軸數值顯示范圍的函數是什么()。A、xrange)B、xspan)C、xlabel)D、xlim)【正確答案】:D解析:

xlim用于設置x軸的顯示范圍。20.在支持向量機中,核函數的主要作用是()。A、將低維空間中線性不可分的數據映射到高維空間,使其線性可分B、將高維空間中線性不可分的數據映射到低維空間,使其線性可分C、將高維空間中線性可分的數據映射到低維空間,使其線性不可分D、將低維空間中線性可分的數據映射到高維空間,使其線性不可分【正確答案】:A解析:

--21.關于HDFS的特征,下列說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數據訪問D、低吞吐量【正確答案】:D解析:

HDFS設計中重視“數據的高吞吐量”,因此其數據吞吐量高,但也造成了其數據延遲訪問的特征。22.下列關于模型能力(modelcapacity指神經網絡模型能擬合復雜函數的能力)的描述,正確的是()。A、隱藏層層數增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學習率增加,模型能力增加D、都不正確【正確答案】:A解析:

Dropout比例增加,可能會丟失過多參數影響模型能力;學習率過大,梯度下降可能會越過最低點,無法收斂。23.random庫的seed(a)函數的作用是()。A、生成一個[0.0,1.0)之間的隨機小數B、生成一個k比特長度的隨機整數C、設置初始化隨機數種子aD、生成一個隨機整數【正確答案】:C解析:

本題考查隨機種子數函數seed)。24.下列不屬于數據科學開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:

ERP系統是企業資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術基礎上,集信息技術與先進管理思想于一身,以系統化的管理思想,為企業員工及決策層提供決策手段的管理平臺。25.數據安全不只是技術問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領導問題【正確答案】:B解析:

數據安全不只是技術問題,還涉及管理問題。26.()是表現數據分布對稱性的指標。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】:B解析:

偏斜度是對統計數據分布偏斜方向及程度的度量。在偏態分布中,當偏斜度為正值時,分布正偏,即眾數位于算術平均數的左側;當偏斜度為負值時,分布負偏,即眾數位于算術平均數的右側。27.()對應于決策樹結果,其他節點對應于()。A、葉節點,屬性測試B、根結點,學習測試C、內部節點,學習測試D、葉節點,分類測試【正確答案】:A解析:

決策樹包含一個根節點、若干內部節點和若干葉節點。葉節點對應于決策結果,其他每個節點則對應于一個屬性測試。28.下列關于支持向量回歸說法,錯誤的是()。A、支持向量回歸是將支持向量的方法應用到回歸問題中B、支持向量回歸同樣可以應用核函數求解線性不可分的問題C、同分類算法不同的是,支持向量回歸要最小化一個凹函數D、支持向量回歸的解是稀疏的【正確答案】:C解析:

支持向量機最大間隔模型是一個凸二次規劃問題。29.以下不屬于Python內置模塊的是()。A、sysB、jsonC、osD、image【正確答案】:D解析:

image屬于第三方庫。30.以下屬于考慮詞語位置關系的模型有()。A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF【正確答案】:A解析:

詞向量模型考慮通過中間詞預測鄰近詞,需要考慮詞語順序位置。31.為了提高系統性能,Spark采取“惰性計算模式”,具體為()。A、執行Transformation操作時不會提交,只有執行Action操作時才會被提交到集群中開始被執行B、執行Action操作時不會提交,只有執行Transformation操作時才會被提交到集群中開始被執行C、只有執行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執行D、執行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:

Spark“惰性計算模式”定義。32.()是指理解挖掘項目的目標業務需求。A、業務理解B、數據理解C、數據準備D、數據建模【正確答案】:A解析:

根據CRISP-DM(cross-industrystandardprocessfordatamining,跨行業數據挖掘標準流程)模型,業務理解是指從業務的角度了解項目的要求和最終目的,并將這些目的與數據挖掘的定義以及結果結合起來。33.常用的灰度內插值法不包括有()。A、最近鄰內插法B、三次內插法C、雙線性內插值法D、三次樣條插值法【正確答案】:D解析:

常用的灰度內插值法有最近鄰內插法、三次內插法、雙線性內插值法。34.在Python中,調用open)時需要將內容附加到文件末尾,而不是覆蓋文件原來內容,則第二個實參應該使用()。A、’a'B、'g'C、'm'D、'w'【正確答案】:A解析:

'r'讀模式、'w'寫模式、'a'追加模式、'b'二進制模式、'+'讀/寫模式。35.k近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】:B解析:

k近鄰算法主要依靠的是周圍的點,因此如果樣本過多,則難以區分,典型性好的容易區分。樣本都是呈團狀分布,KNN就發揮不出其求近鄰的優勢了,整體樣本應該具有典型性好,樣本較少,比較適宜。36.Python語句print(0xA+0xB)的輸出結果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:

0x是16進制運算,0xA+0xB換為十進制為10+11=21。37.以下選項中,執行后可以查看Python的版本的是()。A、importsystemB、C、Print(sys.version)D、importsystem【正確答案】:B解析:

查看Python版本可以通過調用操作系統模塊sys,語句print(sys.version)實現。38.線性回歸算法主要在sklearn中的哪個()模塊中()。A、baseB、clusterC、linear_modelD、kernel_impute【正確答案】:C解析:

sklearn中linear_model是廣義線性模型模塊。39.下列關于支持向量機優化性問題的形式,說法正確的是()。A、它是一個凸二次規劃問題B、它是一個凸一次規劃問題C、它是一個凹二次規劃問題D、它是一個凹一次規劃問題【正確答案】:A解析:

支持向量機優化性問題的一個凸二次規劃問題。40.緩解過擬合的一個辦法是允許支持向量機在一些樣本上出錯,()形式適合這種方法。A、硬間隔支持向量機B、軟間隔支持向量機C、線性核函數支持向量機D、多項式核函數支持向量機【正確答案】:B解析:

軟間隔允許某些樣本不滿足約束,可緩解過擬合。41.以下哪種參數須以正確的順序傳入函數,調用時的數量必須和聲明時的一樣的參數是()。A、位置參數B、默認值參數C、可變參數D、關鍵字參數【正確答案】:A解析:

位置參數須以正確的順序傳入函數,調用時的數量必須和聲明時的一樣。42.下列哪個語句中,在Python中是非法的是()。A、x=y=z=1B、x=(y=z+1)C、x,y=y,xD、x+=y【正確答案】:B解析:

賦值語句不能用于賦值。43.下列數據類型中,Numpy不支持以下哪種數據類型的是()。A、float32B、uint64C、boolD、byte【正確答案】:D解析:

Numpy支持的數據類型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等類型,不支持byte、short等類型。44.關于PythonNumpy,、Scipy,、Pandas這些庫的區別,描述不對的是()。A、Numpy是以矩陣為基礎的數學計算模塊,純數學B、Scipy基于Numpy,科學計算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數據結構D、三個模塊分別獨立【正確答案】:D解析:

模塊之間不是相互獨立的,例如Pandas和Scipy都基于Numpy。45.數組允許批量計算而無須任何for循環,這種特性叫()。A、矩陣化B、便捷化C、批量化D、矢失量化【正確答案】:D解析:

矢量化指Numpy可以直接面向數組進行批量計算,不需要對每個元素進行循環計算。46.Numpy包中meshgrid函數實現的功能是()。A、數組拆分B、數組乘法C、數組除法D、數組融合【正確答案】:D解析:

np.meshgrid)用于數組融合,在畫等高線圖時常用。47.在留出法、交叉驗證法和自助法三種評估方法中,()更適用于數據集較小、難以劃分訓練集和測試集的情況。A、留出法B、交叉驗證法C、自助法D、留一法【正確答案】:C解析:

--48.關于數據創新,下列說法正確的是()。A、個數據集的總和價值等于單個數據集價值相加B、于數據的再利用,數據應該永久保存下去C、同數據多次用于相同或類似用途,其有效性會降低D、數據開放價值可以得到真正釋放【正確答案】:D解析:

略。49.scipy的stats包中提供了產生連續性分布的函數,其中用于均勻分布的函數是()。A、normB、uniformC、betaD、geom【正確答案】:B解析:

均勻分布是uniform。50.繪圖是如何通過()為項目設置matplotlib參數()。A、rc)B、sci)C、axes)D、sca)【正確答案】:A解析:

matplotlib.rc)設置當前的matplotlib參數。51.scipyScipy通常與下列哪個庫()同時使用()。A、pandasB、scikit-learnC、NumpyD、jieba【正確答案】:C解析:

SciPyScipy是另一種使用Numpy來做高等數學、信號處理、優化、統計和許多其他它科學任務的語言擴展,通常與Numpy搭配使用。52.階躍函數與sigmoid函數均為典型激活函數,該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:

--53.機器學習中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:

馬氏距離是基于樣本分布的一種距離。54.()不適合使用機器學習方法解決。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇【正確答案】:B解析:

判斷給定的圖中是否有環采用深度學習。55.np.linalg.svd)函數可以實現()功能。A、計算協方差矩陣B、實現奇異值分解C、計算方差D、計算均值;【正確答案】:B解析:

svd實現奇異值分解。56.matplotlib中的調用堆積折線圖的函數是什么()。A、step)B、stackplot)C、plusplot)D、hist)【正確答案】:B解析:

stackplot用于繪制堆疊折線圖。57.Numpy.linspace(0,3,3)的結果為()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正確答案】:C解析:

np.linspace)指定開始值、結束值和值的個數,默認包含結束值,注意與arange的區別。58.以下算法中不屬于基于深度學習的圖像分割算法是()。A、FCNB、DeeplabC、Mask-RCNND、KNN【正確答案】:D解析:

KNN為傳統機器學習方法并非深度學習方法。59.Hive的數據最終存儲在()。A、HDFSB、HBaseC、RDBMSD、MetaStore【正確答案】:A解析:

Hive是基于Hadoop分布式文件系統的,它的數據存儲在Hadoop分布式文件系統HDFS中。60.在matplotlib中,以下關于繪圖標準流程說法錯誤的是()。A、繪制最簡單的圖形可以不用創建畫布B、添加圖例可以在繪制圖形之前C、添加x軸、y軸的標簽可以在繪制圖形之前D、修改x軸標簽、y軸標簽和繪制圖形沒有先后【正確答案】:B解析:

繪制圖例需要在繪制圖形之后。61.假設有列表a=['name','age','sex']和b=['Dong',38,'Male'],請使用一個語句將這兩個列表的內容轉換為字典,并且以列表a中的元素為“鍵”,以列表b中的元素為“值”,這個語句可以寫為()。A、c=dict(cross(a,b)B、c=dict(zip(a,b)C、c=map(zip(a,b)D、c=b【正確答案】:B解析:

zip)將可迭代的對象作為參數,將對象中對應的元素打包成一個個元組,然后用dict生成器生成字典。62.下列關于Python函數調用的說法,錯誤的是()。A、函數的遞歸調用必須有一個明確的結束條件B、函數的遞歸調用每次進入更深一層遞歸時,問題規模相比上次遞歸都應有所減少C、函數的遞歸調用效率不高,遞歸層次過多會導致棧溢出([在計算機中,函數調用是通過棧(stack)這種數據結構實現的,每當進入一個函數調用,棧就會加一層棧幀,每當函數返回,棧就會減一層棧)]D、函數的遞歸調用由于棧的大小是無限的,所以,遞歸調用的次數過多,也不會導致棧溢出【正確答案】:D解析:

由于棧的大小不是無限的,所以,遞歸調用的次數過多,會導致棧溢出。63.以下關于異常處理的描述,正確的是()。A、try語句中有except子句就不能有finally子句B、Python中,可以用異常處理捕獲程序中的所有錯誤C、引發一個不存在索引的列表元素會引發NameError錯誤D、Python中允許利用raise語句由程序主動引發異常【正確答案】:D解析:

try語句中有except子句可以有finally子句,,不用異常處理捕獲程序中的所有錯誤,引發一個不存在索引的列表元素會引發lisindeoutError。64.基本元數據是指()。A、基本元數據是與數據源、數據倉庫、數據集市和應用程序等結構相關的信息B、基本元數據包括與企業相關的管理方面的數據和信息C、基本元數據包括日志文件和簡歷執行處理的時序調度信息D、基本元數據包括關于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:

基本元數據(Metadata)又稱中介數據、中繼數據,為描述數據的數據(dataaboutdata)。65.二值圖像中的分支點的連接數為()。A、0B、1C、2D、3【正確答案】:D解析:

二值圖像中連接數為0的像素為孤立點或內點。連接數為1的像素為端點或邊界點。連接數為2的像素為連接點。連接數為3的像素為分支點。66.以下代碼的輸出結果為()。A、TRUEB、FALSEC、[Ture,False,Ture]D、([Ture,Ture,Ture])【正確答案】:C解析:

數組進行邏輯運算生成邏輯數組。67.相對于HadoopMapReduce1.0,Spark的特點不包括()。A、速度快B、并發多C、通用性D、易用性【正確答案】:B解析:

相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。68.一組數據中出現最多的變量值叫作做()。A、最大值B、平均值C、中位數D、眾數【正確答案】:D解析:

眾數是樣本觀測值在頻數分布表中頻數最多的那一組的組中值。69.對文本數據處理,通常采用()核函數。A、多項式B、SigmoidC、線性D、拉普拉斯【正確答案】:C解析:

--70.Numpy數組輸出的原則是()。A、從左到右,從下到上B、從左到右,從上到下C、從右到左,從下到上D、從右到左,從上到下【正確答案】:B解析:

Numpy數組輸出時遵循以下原則:從左到右,從上到下,71.下列算法中:①K-NN最近鄰算法;②線性回歸;③邏輯回歸,可以用神經網絡構建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:

KNN是關于距離的學習算法,沒有任何參數,所以無法用神經網絡構建。72.()是數據庫管理系統運行的基本工作單位。A、事務B、數據倉庫C、數據單元D、數據分析【正確答案】:A解析:

在關系數據庫中,事務(Transaction)是保證數據一致性的重要手段,可以幫助用戶維護數據的一致性。事務是用戶定義的一個數據庫操作序列,這些操作要么全做,要么全不做,是一個不可分割的工作單位。73.“數據的故事化描述”是指為了提升數據的(),將數據還原成關聯至特定的情景的過程。A、可理解性、可記憶性、可體驗性B、可接受性、可記憶性、可體驗性C、可接受性、可記憶性、可呈現性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:

“數據的故事化描述(Storytelling)”是指為了提升數據的可理解性、可記憶性及可體驗性,將“數據”還原成關聯至特定的“情景”的過程。74.以下代碼的輸出結果為()。A、[0123][0123]B、[1934][1234]C、[0923][0923]D、[0923][0123]【正確答案】:C解析:

ndarrray的切片操作為深復制,a改變數值會影響到b。75.兩個變量相關,它們的相關系數r可能為0。這句話()。A、正確B、錯誤C、-D、-【正確答案】:A解析:

Pearson相關系數r=0,這表示兩個變量間不存在線性相關關系。76.數據的原始內容及其備份數據,是數據產品的研發的哪個階段()。A、零次數據B、一次數據C、二次數據D、采集數據【正確答案】:A解析:

零次數據是數據的原始內容及其備份數據,如各種感知儀器設備中直接生成的數據。零次數據中往往存在缺失值、噪聲、錯誤或虛假數據等質量問題。77.下列描述中不屬于情感分析的具體任務是()。A、情感分類B、觀點抽取C、觀點問答D、段落匹配【正確答案】:D解析:

情感分析又稱意見挖掘、傾向性分析等,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,包括情感分類、觀點抽取、觀點問答等,沒有段落匹配。78.由于不同類別的關鍵詞對排序的貢獻不同,檢索算法一般把查詢關鍵詞分為幾類,以下不屬于此關鍵詞類型的是()。A、引用詞B、普通關鍵詞C、高頻詞匯D、擴展關鍵詞【正確答案】:C解析:

高頻詞匯信息量較少不能充當關鍵詞,多數為無用詞。79.關于Spark的說法中,()是錯誤的。A、采用內存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作【正確答案】:C解析:

HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用一些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。80.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續分類。該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:

--81.以下關于圖像的平滑處理錯誤的說法是()。A、圖像的平滑處理是指在盡量保留原有信息的情況下,過濾掉圖像內部的噪音B、圖像平滑處理會對圖像中與周圍像素點的像素值差異較大的像素點進行處理,將其值調整為周圍像素點像素值的近似值C、經過平滑處理后圖像質量會下降D、以上答案都正確【正確答案】:C解析:

圖像的平滑處理不會損壞圖像的輪廓及邊緣等重要信息,使得圖像清晰視覺效果好。82.下列哪個函數中可以計算字典元素個數的是()。A、cmpB、lenC、strD、type【正確答案】:B解析:

cmp用于比較;len用于計算元素個數;str用于將對象轉換為字符串;type求對象類型。83.Spark中引入RDD概念的目的是()。A、數據存儲B、數據查重C、提升容錯能力D、增強數據一致性【正確答案】:C解析:

在Spark中引入RDD概念的目的是實現Spark的并行操作和靈活的容錯能力。84.關于bagging下列說法錯誤的是()。A、各基分類器之間有較強依賴,不可以進行并行訓練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當訓練樣本數量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓練集分為若干子集【正確答案】:A解析:

Bagging方法在訓練過程中,各基分類器之間無強依賴,可以進行并行訓練,隨機森林就是一種典型的例子。85.不屬于數據脫敏的要求的是()。A、雙向性B、單向性C、無殘留D、易于實現【正確答案】:A解析:

數據脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數據脫敏操作必須滿足以下3個要求:單向性、無殘留、易于實現。86.決策樹中,同一路徑上的所有屬性之間是()關系。A、因果B、相關C、邏輯或D、邏輯與【正確答案】:D解析:

--87.相對于HadoopMapReduce1.0,Spark的特點不包括()。A、速度快B、并發多C、通用性D、易用性【正確答案】:B解析:

相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。88.關于模塊下列說法不正確的是()。A、Python模塊(Module),是一個Python文件,以.py結尾,包含了Python對象定義和Python語句。B、模塊讓你能夠有邏輯地組織你的Python代碼段。C、把相關的代碼分配到一個模塊里能讓你的代碼更好用,更易懂。D、模塊不能定義類【正確答案】:D解析:

模塊中可以定義類。89.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。90.將Python中的.py文件轉換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機D、解釋器【正確答案】:B解析:

將Python中的.py文件轉換為.pyc文件的組件為編譯器。91.設置圖的標題的命令是()。A、plt.text('標題')B、plt.legend('標題')C、plt.xticks('標題')D、plt.title('標題')【正確答案】:D解析:

A選項是添加文字說明命令,B選項是添加標識命令,C選項是添加X軸坐標軸標識命令。92.SparkJob默認的調度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:

默認情況下Spark的調度模式是FIFO(先進先出)。93.HBase的一個典型應用是webtable,它是一個以網頁()為主鍵的表。A、標題B、URLC、內容D、類別【正確答案】:B解析:

webtable中,以網頁URL為主鍵。94.()的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。A、貝葉斯判定準則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】:D解析:

--95.建立在相關關系分析法基礎上的預測是大數據的()。A、基礎B、前提C、核心D、條件【正確答案】:C解析:

略。96.在神經網絡中引入了非線性的是()。A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數D、以上答案都不正確【正確答案】:B解析:

ReLU是目前最常用的激勵函數,增加了神經網絡模型的非線性。97.scipy.stats.cdf函數的作用是()。A、計算隨機變量的期望和方差B、隨機變量的生存函數C、隨機變量的累積分布函數D、隨機變量的概率密度函數【正確答案】:C解析:

cdf是隨機變量的累積分布函數,是概率密度函數的積分。98.已知一組數據的協方差矩陣,下面關于主分量說法錯誤的是()。A、主分量分析的最佳準則是對一組數據按一組正交基分解,在只取相同數量分量的條件下,以均方誤差計算截尾誤差最小B、在經主分量分解后,協方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協方差矩陣的特征值得到【正確答案】:C解析:

K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協方差矩陣、總類內離散度矩陣等。當K-L變換矩陣為協方差矩陣時,等同于PCA。99.txt=open(filename)返回的是()。A、變量B、常數C、文件內容D、文件對象【正確答案】:D解析:

txt=open(filename)返回的是文件對象。100.np.floor([-1.7,1.5,-0.2,0.6,10])的輸出結果是()。A、[-1,1,0,0,10]B、[-2.,1.,-1.,0.,10.]C、[-1.,1.,-1.,0.,10.]D、[-2.,1.,0.,0.,10.]【正確答案】:B解析:

floor函數定義取的是不超過這個數的最大整數。1.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:

--2.以下關于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程,將學習目標轉化為對距離度量計算的權重矩陣的學習【正確答案】:CD解析:

本質上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。3.“以數據為中心”是數據產品區別于其他類型產品的本質特征,表現在()方面。A、數據驅動B、數據密集型C、數據范式D、數據可視化【正確答案】:ABC解析:

“以數據為中心”是數據產品區別于其他類型產品的本質特征。數據產品的“以數據中心”的特征不僅體現在“以數據為核心生產要素”,而且還主要表現在數據驅動、數據密集和數據范式。4.圖像分割中常使用的領域有()。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:

圖像分割中常見的鄰域為4鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。5.K均值聚類和層次聚類在一些方面有重大差異。以下說法正確的是()。A、在K均值聚類中,必須在運行算法前選定想要的簇的個數B、在K均值聚類中,可以在運行算法后選定想要的簇的個數C、在層次聚類中,可以在運行算法后選定想要的簇的個數D、K均值聚類算法所需的計算量比層次聚類算法小得多【正確答案】:ACD解析:

在K均值聚類中,需要在運行算法前確定想要的簇的個數K。6.循環神經網絡的輸出模式包含()。A、多輸出B、單輸出C、同步多輸出D、異步多輸出【正確答案】:ABD解析:

循環神經網絡是遞歸的,不可能同步多輸出。7.下列屬于描述gensim庫的特性的是()。A、訓練語料的預處理B、主題向量的變換C、文檔相似度的計算D、文章切分詞語統計計算【正確答案】:ABC解析:

gensim不用于分詞。8.下面是Python注釋語句的是()。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】:BD解析:

python語句單行注釋使用單個#號,多行注釋使用三個單引號。9.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】:ABC解析:

聚類算法是無監督的學習算法,訓練樣本的標記信息是未知的。10.Spark容錯性的方式有哪些()。A、數據檢查點B、存儲原始數據C、記錄數據的更新D、自建數據版本【正確答案】:AC解析:

Spark容錯性有數據檢查點和記錄數據的更新兩種方式。11.以下關于HBase說法正確的是()。A、面向列的數據庫B、非結構化的數據庫C、支持大規模的隨機、實時讀寫D、采用松散數據模型【正確答案】:ABCD解析:

HBase是非結構化的、多版本的、面向列和開源的數據庫;HBase提供了對大規模數據的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數據模型。12.語音識別的方法包括()。A、聲道模型方法B、模板匹配的方法C、利用人工神經網絡的方法D、語音知識方法【正確答案】:ABCD解析:

一般來說,語音識別的方法有基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。13.在網絡爬蟲的爬行策略中,應用最為常見的是()。A、深度優先遍歷策略B、廣度優先遍歷策略C、高度優先遍歷策略D、反向鏈接策略【正確答案】:AB解析:

在網絡爬蟲的爬行策略中,應用最為常見的是深度優先遍歷策略、廣度優先遍歷策略。14.特征工程一般需要做哪些工作()。A、正則化B、標準化C、特征處理D、特征選擇【正確答案】:CD解析:

特征工程包括特征選擇、特征處理、特征變換、特征衍生等。15.Python的優點有()。A、變量不用預定義類型B、數據結構功能強大C、語言可解釋性強D、變量類型固定【正確答案】:ABC解析:

Python變量在使用前不必定義變量類型。16.下列關于EM算法描述正確的是()。A、EM算法是常用的估計參數隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學習高斯混合模型的參數D、EM算法是一種迭代式的方法【正確答案】:ABCD解析:

--17.在假設檢驗中,當原假設為“偽”,但數據分析人員沒有拒絕它時犯的錯誤叫()。A、α錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

α錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為“原假設是不成立的”,進而導致拒絕這個正確假設;β錯誤(取偽錯誤):當原假設為假時,但我們錯誤地認為“原假設是成立的”,進而導致接受此錯誤假設18.下列方法中,可以用于特征降維的方法包括()。A、主成分分析PCAB、線性判別分析LDAC、深度學習SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD解析:

--19.常見的原型聚類算法包括()。A、K均值算法B、學習向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC解析:

--20.下列哪些是RDBMS中事務遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關系數據庫中的事務需要具備一定的規則——ACID特征。ACID是指數據庫事務正確執行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。21.情感分析的應用場景有()。A、數據挖掘B、信息檢索C、文本分詞D、市場營銷【正確答案】:ABD解析:

情感分析常用于數據挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應用場景。22.類的特點有()。A、封裝B、繼承C、多態D、重復【正確答案】:ABC解析:

類的特點:封裝、繼承、多態。23.神經網絡的拓撲結構可以分為()和隨機型網絡等。A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD解析:

--24.決策樹的劃分選擇有()。A、增益系數B、信息增益C、增益率D、基尼系數【正確答案】:BCD解析:

--25.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:

RDD之間的依賴關系可以分為窄依賴和寬依賴兩種。26.ETL技術主要涉及()操作。A、抽取B、轉換C、加載D、分析【正確答案】:ABC解析:

ETL技術主要涉及抽取(extract)、轉換(transform)、加載(load)。27.Spark的技術架構可以分為哪幾層()。A、資源管理層B、Spark核心層C、應用層D、服務層【正確答案】:ABD解析:

Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。28.下列關于特征的稀疏性說法,正確的是()。A、稀疏性指的是矩陣中有許多列與當前學習任務無關B、稀疏樣本可減少學習任務的計算開銷C、學習任務難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:

在一個矩陣中,若非零元素的個數遠遠小于零元素的個數,且非零元素的分布沒有規律,則稱之為稀疏矩陣。為了節省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。29.以下關于數據維度的描述,正確的是()。A、采用列表表示一維數據,不同數據類型的元素是可以的B、JSON格式可以表示比二維數據還復雜的高維數據C、二維數據可以看成是一維數據的組合形式D、字典不可以表示二維以上的高維數據【正確答案】:ABC解析:

字典可以表示二維以上的高維數據。30.可作為決策樹選擇劃分屬性的參數是()。A、信息增益B、增益率C、基尼指數D、密度函數【正確答案】:ABC解析:

特征選擇的準則主要有信息增益,信息增益率,基尼指數三種。31.()是Spark比MapReduce計算快的原因。A、基于內存的計算B、基于DAG的調度框架C、基于Lineage的容錯機制D、基于分布式計算的框架【正確答案】:ABC解析:

Spark比MapReduce計算快的原因包括基于內存計算、使用基于Lineage的容錯機制和基于DAG的調度框架。32.下面關于單樣本t檢驗的說法,錯誤的是()。A、當單樣本t檢驗的自由度越來越大時,正態分布越來越趨向于t分布B、單樣本t檢驗適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態分布小,其原因是樣本數量比較小D、單樣本t檢驗通常也被叫作學生t檢驗【正確答案】:ABC解析:

t檢驗,亦稱studentt檢驗(Student'sttest),主要用于樣本含量較小(例如n<30),總體標準差σ未知的正態分布。t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。33.Pig說法正確的是()。A、彌補MapReduce編程復雜性B、封裝MapReduce處理過程C、PigLatin是一種數據分析語言D、適用于并行處理【正確答案】:ABCD解析:

Pig建立在MapReduce之上,主要目的是彌補MapReduce編程的復雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數據分析的描述語言;Pig程序的結構適合于并行處理。34.下列有關MapReduce計算框架的描述正確的是()。A、MapReduce可以計算任務的劃分和調度B、MapReduce可完成數據的分布存儲和劃分C、MapReduce可以實現處理系統節點出錯檢測和失效恢復D、MapReduce可實現處理數據與計算任務的同步【正確答案】:ABCD解析:

根據MapReduce定義可得,A、B、C、D都可以實現。35.以下說法正確的是()。A、負梯度方向是使函數值下降最快的方向B、當目標函數是凸函數時,梯度下降法的解是全局最優解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計算Hesse矩陣【正確答案】:ABD解析:

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。36.下面關于reduce函數功能描述正確的是()。A、合并value值,形成較小集合B、采用迭代器將中間值提供給reduce函數C、map)函數處理后結果才會傳輸給reduce)D、內存中不會存儲大量的value值【正確答案】:ABCD解析:

略。37.數據科學基本原則中,三世界原則指的是()A、精神世界B、數據世界C、物理世界D、數字世界【正確答案】:ABC解析:

大數據時代的到來,在我們的“精神世界”和“物理世界”之間出現了一種新的世界——“數據世界”。因此,在數據科學中,通常需要研究如何運用“數據世界”中已存在的“痕跡數據”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數據”。相對于“采訪數據”,“痕跡數據”更具有客觀性。圖靈獎獲得者JimGray提出的科學研究第四范式——數據密集型科學發現(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。38.在Hive架構中支持對數據的操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:

Hive提供簡單的HiveQL查詢功能,可以較好地滿足基于數據倉庫的統計分析需要。39.下列關于情感分析的說法正確的是()。A、簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B、情感分析的發展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語級、句子級、篇章級三個D、情感分析可以應用于文本挖掘【正確答案】:ABCD解析:

情感分析的定義即對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,它得益于社交媒體的興起,從而能收集大量信息進行分析。其分析力度包括詞語級、句子級和篇章級。情感分析可用于文本挖掘。40.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。41.以下圖像技術中屬于圖像處理技術的是()。A、圖像編碼B、圖像合成C、圖像增強D、圖像分類【正確答案】:AC解析:

圖像合成輸入是數據,圖像分類輸出是類別數據。42.以下屬于關鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:

關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。43.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:

Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalone模式運行。44.Python邏輯表達式中,()會導致邏輯短路,即不會繼續向下推算而直接返回結果。A、False開頭的and語句B、False開頭的or語句C、True開頭的and語句D、True開頭的or語句【正確答案】:AD解析:

兩種情況:False開頭的and語句,True開頭的or語句。45.下面導入模塊正確的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】:ABCD解析:

本題考查模塊導入方法。46.數據挖掘的挖掘方法包括()。A、聚類B、回歸分析C、神經網絡D、決策樹算法【正確答案】:ABCD解析:

利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等.47.下面選項是python標準庫的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:

numpy屬于第三方庫。48.以下屬于規則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機場【正確答案】:ABC解析:

條件隨機場是一種鑒別式機率模型,常用于標注或分析序列資料。49.數據科學項目主要涉及的活動包括()。A、模式/模型的應用及維護B、模式/模型的洞見C、結果的可視化與文檔化D、模式/模型的驗證和優化【正確答案】:ABCD解析:

數據科學項目是由從“項目目標的定義”到“模式/模型的應用及維護”的一系列雙向互聯的互動鏈條組成的循序漸進的過程,主要涉及的活動包括項目目標的定義、數據的獲得與管理、模式/模型的洞見、模式/模型的驗證和優化、模式/模型的應用及維護和結果的可視化與文檔化。50.統計模式分類問題中,當先驗概率未知時,可以使用()。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判決【正確答案】:AD解析:

--51.圖像數字化應該包括哪些過程()。A、采樣B、模糊C、量化D、統計【正確答案】:AC解析:

自然界的圖像轉化為數字圖像首先包括連續空間到離散空間的采樣,其次是色彩域的數值化處理。52.以下選項中,不是Python語言保留字的是()。A、doB、passC、exceptD、until【正確答案】:AD解析:

詳見Python關鍵字列表。53.我們想要減少數據集中的特征數即降維,以下方案合適的是()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓練一個模型,得到測試集上的表現。然后我們去掉一個特征,再去訓練,用交叉驗證看看測試集上的表現。如果表現比原來還要好,我們可以去除這個特征D、查看相關性表,去除相關性最高的一些特征【正確答案】:ABCD解析:

前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數據上不適用,可以用這里C中方法。用相關性的度量去刪除多余特征也是一個可行的方法。54.神經網絡模型(NeuralNetwork)因受人類大腦的啟發而得名。神經網絡由許多神經元(Neuron)組成,每個神經元接受一個輸入,對輸入進行處理后給出一個輸出。下列關于神經元的描述中,正確的是()。A、每個神經元有一個輸入和一個輸出B、每個神經元有多個輸入和一個輸出C、每個神經元有一個輸入和多個輸出D、每個神經元有多個輸入和多個輸出【正確答案】:ABCD解析:

每個神經元可以有一個或多個輸入,和一個或多個輸出。55.我們想要訓練一個ML模型,樣本數量有100萬個,特征維度是5000,面對如此大數據,有效地訓練模型可以采取的措施是()A、對訓練集隨機采樣,在隨機采樣的數據上建立模型B、嘗試使用在線機器學習算法C、使用PCA算法減少特征維度D、-【正確答案】:ABC解析:

大數據可以采用對訓練集隨機采樣,在隨機采樣的數據上建立模型,嘗試使用在線機器學習算法,使用PCA算法減少特征維度。56.DGI定義的數據治理任務包括()。A、數據質量的評估B、主動定義或序化規則C、為數據利益相關者提供持續跨職能的保護與服務D、應對并解決因不遵守規則而產生的問題【正確答案】:BCD解析:

DGI(TheDataGovermanceInstitute)認為數據治理是對數據相關的決策及數據使用權限控制的活動。它是一個信息處理過程中根據模型來執行的決策權和承擔責任的系統,規定了誰可以在什么情況下對哪些信息做怎樣的處理。57.以下描述中正確的是()。A、統計學是數據科學的理論基礎之一B、Python語言是統計學家發明的語言C、機器學習是數據科學的理論基礎之一D、數據科學是統計學的一個分支領域(子學科)【正確答案】:AC解析:

Python發明者是GuidoVanRossum,并非為統計學家;數據科學是一門獨立學科,已經超出了統計學一個學科的研究范疇,并非為統計學的一個分支。58.下列屬于CNN關鍵層的是()。A、輸入層B、卷積層C、激活層D、池化層【正確答案】:ABCD解析:

CNN關鍵層有:①輸入層,對數據去均值,做dataaugmentation等工作;②卷積層,局部關聯抽取feature;③激活層,非線性變化;④池化層,下采樣;⑤全連接層,增加模型非線性;⑥高速通道,快速連接;⑦BN層,緩解梯度彌散。59.在正則化公式中,λ為正則化參數,關于λ的描述正確的是()。A、若正則化參數λ過大,可能會導致出現欠擬合現象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:

正則化參數太小容易產生過擬合,太大容易產生欠擬合。60.Pandas中刪除列的方式是()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正確答案】:AB解析:

--61.HighBias(高偏差)的解決方案有()。A、BoostingB、復雜模型(非線性模型、增加神經網絡中的層)C、更多特征D、-【正確答案】:ABC解析:

偏差刻畫了學習算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復雜模型(非線性模型、增加神經網絡中的層)、更多特征等方式解決。62.常用的沖突消解策略包括()。A、投票法B、排序法C、元規則法D、調研法【正確答案】:ABC解析:

--63.在詞袋模型中使用單個的單詞來構建詞向量這樣的序列被稱為()。A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:

列表和字典一般包含多個單詞64.隨機森林在做數據處理方面的優勢是()。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數據集【正確答案】:ACD解析:

理論上隨機森林不會產生過擬合現象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數目不可能無限增加,沒有辦法完全消除過擬合。65.列式數據庫(如BigTable和HBase)以表的形式存儲數據,表結構包括()等元素。A、關鍵字B、時間戳C、列簇D、數據類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關鍵字、列簇和時間戳組成。66.下列場景適合使用Python的是()。A、可作為腳本語言,快速編寫小型程序、腳本等B、可應用在數據科學、交互式計算及可視化領域C、可作為膠水語言,整合如C++等語言代碼D、Python適用于低延時、高利用率的應用場景【正確答案】:ABC解析:

Python作為腳本語言,以解釋方式逐條執行語句,相比C++等語言運行速度較慢,不適用于低延時場景。67.下列關于PCA的說法,正確的是()。A、在使用PCA之前,我們必須標準化數據B、應該選擇具有最大方差的主成分C、應該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數據【正確答案】:ABD解析:

PCA對數據中變量的尺度非常敏感,因此需要對各個變量進行標準化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數據是非常有用,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數據。68.下面關于單樣本Z檢驗的說法,正確的是()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設要檢驗的統計量(近似)滿足正態分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量【正確答案】:BCD解析:

在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現。69.在Spark中,彈性分布式數據集的特點包括()。A、可分區B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。70.在選擇高斯函數作為核函數的支持向量機中,參數的選取會影響擬合的結果,如果出現過擬合的現象,則導致該結果的原因有可能是()。A、其他參數保持不變,C值過大B、其他參數保持不變,C值較小C、其他參數保持不變,σ較大D、其他參數保持不變,σ較小【正確答案】:AD解析:

SVM模型中,C值是懲罰系數,即對誤判的寬容度,若C值越高,說明越不能容忍出現誤差,容易擬合;σ是高斯函數自帶的一個參數,若σ無窮小,理論上,高斯核的SVM可以擬合任何非線性數據,但容易過擬合。71.NoSQL數據庫常用的數據模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:

NoSQL數據庫常用的數據模型包括Key-Value、Key-Document、Key-Column、圖存儲。72.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正確答案】:AB解析:

input是輸入,+是加法運算符。73.常用的數據審計方法可以分為()。A、預定義審計B、自定義審計C、可視化審計D、結構化審計【正確答案】:ABC解析:

常用的數據審計方法有預定義審計、自定義審計和可視化審計三種。74.針對維數災難,我們主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學習E、度量學習【正確答案】:ABCDE解析:

--75.LSTM應用場景有()。A、翻譯語言B、語音識別C、圖像識別D、股票預測【正確答案】:ABD解析:

CNN應用于圖像識別,因此C錯誤。76.下列對字符串函數或方法說法正確的有()。A、istitle)如果字符串是標題化的(見title)則返回True,否則返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把將字符串中的str1替換成str2,如果max指定,則替換不超過max次D、upper)轉換字符串中所有大寫字符為小寫【正確答案】:ABC解析:

upper)轉換字符串中所有小寫字符為大寫。77.Python變量命名規則包含()。A、變量名只能包含字母、數字和下劃線。變量名可以字母或下劃線開頭,但不能以數字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會引發錯誤。C、不要將Python關鍵字和函數名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。【正確答案】:ABCD解析:

Python變量名只能包含字母、數字和下劃線,但不能以數字開頭,避免使用關鍵字,變量名應既簡短又具有描述性。78.以下選項中是正確的字符串有()。A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】:BD解析:

需要兩端引號符號相同。79.以下關于MapReduce1.0版本說法正確的是()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:

MapReduce1.0存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架。80.常用的代價函數有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD解析:

--81.對于決策樹的優點描述,正確的是()。A、可讀性強B、分類速度快C、只用于回歸問題D、是無監督學習【正確答案】:AB解析:

決策樹也可用于回歸,屬于有監督的機器學習算法。82.下列關于AUC面積的描述,正確的是()。AUC被定義為ROC曲線下與坐標軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時,則真實性最低,無應用價值D、AUC越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:

AUC面積的值小于等于1。83.假設目標遍歷的類別非常不平衡,即主要類別占據了訓練數據的99%,現在你的模型在訓練集上表現為99%的準確度,那么下面說法正確的是()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。84.關于CAP理論說法正確的是()。A、一個分布式系統不能同時滿足一致性、可用性和分區容錯性等需求B、一致性主要指強一致性C、一致性、可用性和分區容錯性中的任何兩個特征的保證(爭取)可能導致另一個特征的損失(放棄)D、可用性指每個操作總是在“給定時間”之內得到返回“所需要的結果”【正確答案】:ABCD解析:

CAP理論認為,一個分布式系統不能同時滿足一致性(Consistency)、可用性(Availability)和分區容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數據管理不一定是理想的——一致性、可用性和分區容錯性中的任何兩個特征的保證(爭取)可能導致另一個特征的損失(放棄)。85.下列不屬于聚類性能度量內部指標的是()。A、DB指數B、Dunn指數C、Jaccard系數D、FM系數【正確答案】:CD解析:

聚類常用的外部指標包括Jaccard系數、FM系數、Rand指數;聚類常用的內部指標包括DB指數、Dunn指數。86.下列模型屬于機器學習生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網絡【正確答案】:ABD解析:

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網絡等。線性回歸屬于判別式模型。87.Python中jieba庫的基本實現原理是什么()。A、分析漢字與漢字之間的關聯幾率概率B、分析漢字詞組的關聯幾率概率C、根據用戶自定義的詞組進行分析D、還可以分析漢字與英文之間關聯幾率概率【正確答案】:ABC解析:

D選項,jieba用于中文分詞,無法分析漢字與英文之間的關聯幾率概率。88.以下算法中可以應用于圖像分割的是()。A、邊緣檢測技術B、閾值分割技術C、基于區域的分割技術D、區域生長方法【正確答案】:ABCD解析:

邊緣檢測技術、閾值分割技術、基于區域的分割技術、區域生長方法均是圖像分割技術。89.訓練CNN時,GPU顯存溢出,此時可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數【正確答案】:ABC解析:

增加激活函數反而會加重負擔,D選項錯誤。90.隨機森林的隨機性主要體現在()。A、決策樹選擇的隨機性B、數據集的隨機性C、待選特征的隨機性D、參數選擇的隨機性【正確答案】:BC解析:

隨機森林算法的隨機性主要體現在兩個方面:子模型的訓練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。91.下列關于深度學習的實質及其與淺層學習的說法,正確的是()。A、深度學習強調模型深度B、深度學習突出特征學習的重要性:特征變換+非人工C、沒有區別D、以上答案都不正確【正確答案】:AB解析:

深度模型是手段,特征學習是目的。92.使用極大似然估計的前提條件有()。A、數據服從某種已知的特定數據分布型B、已經得到了一部分數據集C、提前已知某先驗概率D、數據集各個屬性相對獨立【正確答案】:AB解析:

極大似然估計要求樣本獨立同分布,否則無法用概率密度函數乘積的形式。假設的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。93.關于卷積神經網絡的敘述中,正確的是()。A、可用于處理時間序列數據B、可用于處理圖像數據C、卷積網絡中使用的卷積運算就是數學中的卷積計算D、至少在網絡的一層中使用卷積【正確答案】:ABD解析:

--94.以下屬于數據挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數據挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數據分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。95.Python函數包括下述哪些內容()。A、函數名稱B、參數C、執行語句D、返回值【正確答案】:ABCD解析:

Python函數包括下述哪些內容函數名稱、參數、執行語句、返回值。96.許多功能更為強大的非線性模型可在線性模型基礎上通過引入()而得。A、層級結構B、高維映射C、降維D、分類【正確答案】:AB解析:

--97.關于Python分隔代碼塊,描述錯誤的是()。A、內嵌代碼的每一行,都比外面的if語句的縮進更多B、代碼以“begin”開頭,“end”結尾C、每行代碼的縮進都一致D、代碼塊被封裝在花括號中【正確答案】:BCD解析:

python代碼沒有開頭與結尾標識;不同級別的語句縮進不同;python代碼用縮進區分代碼塊,不用{}。98.屬于特征選擇的優點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨立的。99.HadoopMapReduce是MapReduce的具體實現之一。HadoopMapReduce數據處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:

可以將MapReduce的工作流程概括為4個獨立的實體。4個實體分別為:①客戶端,用來提交MapReduce的作業。編寫MapReduce程序,配置作業,提交作業,即需程序員完成的工作。②JobTracker,用來協調作業的運行。與TaskTracker通信,協調整個作業的執行。③TaskTracker,用來處理作業劃分后的任務。保持與JobTracker的通信,在分配的數據片段上執行Map或Reduce任務,TaskTracker和JobTracker的不同有個很重要方面,就是在執行任務的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業文件。保存作業的數據、配置信息等,最后的結果也是保存在HDFS上面。100.下列說法中正確的是()。A、云計算的主要特點是非常昂貴B、大數據是多源

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論