大數據應用習題庫-下(多選、判斷、填空題部分)_第1頁
大數據應用習題庫-下(多選、判斷、填空題部分)_第2頁
大數據應用習題庫-下(多選、判斷、填空題部分)_第3頁
大數據應用習題庫-下(多選、判斷、填空題部分)_第4頁
大數據應用習題庫-下(多選、判斷、填空題部分)_第5頁
已閱讀5頁,還剩205頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(新版)大數據應用習題庫匯總一下(多選、判斷、填空題部分)

多選題

1.關于Pig的說法正確的是()。

AxPig的主要目的是彌補MapReduce編程的復雜性

B、Pig的核心是一種數據分析語言

C、Pig程序的結構適合于串行處理

DxPig主要包含PigLatin和Pig執行環境兩部分

答案:ABD

解析:Pig程序的結構適合于并行處理。

2.下面是Numpy支持的統計函數有()。

A、min

B、max

Cvmedian

Dvmean

答案:ABCD

解析:這些都是Numpy支持的統計函數。

3.下列哪些是詞語情感分析的方法()。

A、基于網絡的分析方法

B、基于word-embedding的分析方法

C、基于詞典的分析方法

D、基于詞頻的分析方法

答案:AC

解析:其余兩種為分詞方法

4.K均值聚類和層次聚類在一些方面有重大差異。以下哪些說法是正確的()

A、在K均值聚類中,必須在運行算法前選定想要的簇的個數

B、在k均值聚類中,可以在運行算法后選定想要的簇的個數

C、在層次聚類中,可以在運行算法后選定想要的簇的個數

D、k均值聚類算法所需的計算量比層次聚類算法小得多

答案:ACD

解析:在k均值聚類中,需要在運行算法前確定想要的簇的個數ko

5.下面關于Python中的列表和字典說法正確的是0。

A、字典和列表都可以通過操作符訪問元素的值

B、列表的索引必須是整型數或者切片

C、字典不過是列表的另一個名字。二者沒有區別

D、字典的長度是動態的,而列表的長度是固定的

答案:AB

解析:字典與列表有區別,長度均為動態。

6.關于Dropout說法正確的是:(—)o

A、Dropout背后的思想其實就是把DNN當做一個集成模型來訓練,之后取所有值

的平均值,而不只是訓練單個DNN

B、DNN網絡將Dropout率設置為p,也就是說,一個神經元被保留的概率是1-po

當一個神經元被丟棄時,無論輸入或者相關的參數是什么,它的輸出值就會被設

置為0

C、丟棄的神經元在訓練階段,對BP算法的前向和后向階段都沒有貢獻。因為這

個原因,所以每一次訓練,它都像是在訓練一個新的網絡

D\Dropout方法通常和L2正則化或者其他參數約束技術(比如MaxNorm)一起使

用,來防止神經網絡的過擬合

答案:ABCD

解析:dropout是指在深度學習網絡的訓練過程中,對于神經網絡單元,按照一定

的概率將其暫時從網絡中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機

丟棄,故而每一個mini-batch都在訓練不同的網絡。防止過擬合的方法:提前終

止(當驗證集上的效果變差的時候);L1和L2正則化加權;softweightsharingdro

poutoropout率的選擇:經過交叉驗證,隱含節點dropout率等于0.5的時候效

果最好,原因是0.5的時候dropout隨機生成的網絡結構最多。dropout也可以

被用作一種添加噪聲的方法,直接對input進行操作。輸入層設為更接近1的數。

使得輸入變化不會太(0.8)。

7.下列哪些是情感分析的途徑0。

A、關鍵詞識別

B、數據增強

C、統計方法

D、概念級技術

答案:ABCD

解析:現有的文本情感分析的途徑大致可以集合成四類:關鍵詞識別、詞匯關聯'

統計方法和概念級技術。

8.以下有關特征數據歸一化的說法正確的是()。

A、特征數據歸一化加速梯度下降優化的速度

B、特征數據歸一化有可能提高模型的精度

C、線性歸一化適用于特征數值分化比較大的情況

D、概率模型不需要做歸一化處理

答案:ABD

解析:歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷,如果ma

x和min不穩定,很容易使得歸一化結果不穩定,使得后續使用效果也不穩定。實

際使用中可以用經驗常量值來替代max和mino非線性歸一化經常用在數據分化

比較大的場景,有些數值很大,有些很小。

9.我們想要訓練一個ML模型,樣本數量有100萬個,特征維度是5000,面對如此

大數據,如何有效地訓練模型()

A、對訓練集隨機采樣,在隨機采樣的數據上建立模型

B、嘗試使用在線機器學習算法

C、使用PCA算法減少特征維度

答案:ABC

解析:大數據可以采用對訓練集隨機采樣,在隨機采樣的數據上建立模型,嘗試使

用在線機器學習算法,使用PCA算法減少特征維度。

10.python中,字符串格式化的方式()。

A、%

B、format

C\in

D、input

答案:AB

解析:input輸入in判斷。

11.按照涉及自變量的多少,可以將回歸分析分為0。

A、線性回歸分析

B、非線性回歸分析

C、一元回歸分析

D、多元回歸分析

E、綜合回歸分析

答案:CD

解析:按照涉及自變量的多少,可以將回歸分析分為一元回歸分析和多元回歸分

析。

12.MapReduce中運行程序副本程序的機器為()。

AxMap服務器

BvMaster服務器

C\Worker服務器

D、Reduce服務器

答案:BC

解析:MapReduce中,運行程序副本程序的機器分為兩類:一^1^Master服務器和

若干個Worker服務器。

13.以下()是scipy中的模塊。

A、cIuster

B、constants

C、integrate

D、io

答案:ABCD

解析:四種都是scipy的模塊。

14.以下描述中屬于Analytics2.0的主要特點的是0。

A、側重嵌入式分析

B、重視非結構化數據的分析

C、以決策支持為主要目的

D、注重解釋性分析和預測性分析

答案:BCD

解析:著名管理學家Thomas

H,Davernport于2013年在《哈佛商業論壇(HarvardBusinessReview)》上發表

一篇題為《第三代分析學(Analytics3.0)》的論文,將數據分析的方法、技術和

工具——分析學(AnaIytics)分為三個不同時代一一商務智能時代、大數據時代

和數據富足供給時代,即AnaIytics1.0、AnaIytics2.0和AnaIytics3.0.其中,A

nalytics2.0的主要特點有:分析活動與數據的生成幾乎同步,強調數據分析的

實時性;重視非結構化數據的分析;以決策支持為主要目的;注重解釋性分析和預

測性分析。

15.Hadoop中map輸出結果說法正確的是0。

A、<key,vaIue>鍵值對

B\輸出中間臨時結果

C、輸出最終計算結果

D、輸出結果永久保留

答案:AB

解析:map輸出結果并非是最終結果且只是暫時保留

16.統計模式分類問題中,當先驗概率未知時,可以使用()。

A、最小最大損失準則

B、最小誤判概率準則

C、最小損失準則

D、N-P判決

答案:AD

解析:統計模式分類問題中,當先驗概率未知時,可以使用最小最大損失準則和最

小損失準則。

17.關于CAP理論說法正確的是()。

A、一個分布式系統不能同時滿足一致性、可用性和分區容錯性等需求

B、一致性主要指強一致性

C、一致性、可用性和分區容錯性中的任何兩個特征的保證(爭取)可能導致另一

個特征的損失(放棄)

D、可用性指每個操作總是在“給定時間”之內得到返回“所需要的結果”。

答案:ABCD

解析:CAP理論認為,一^"b分布式系統不能同時滿足一致性(Consistency)、可用

性(AvailabiIity)和分區容錯性(PartitionToIerance)等需求,而最多只能同時

滿足其中的兩個特征。CAP理論告訴我們,數據管理不一定是理想的致性

[[1]]、可用性和分區容錯性中的任何兩個特征的保證(爭取)可能導致另一個特

征的損失(放棄)。

18.下列關于密度聚類說法錯誤的是(_)。

A、DBSCAN是一種著名的密度聚類算法

B、密度聚類從樣本數量的角度來考察樣本之間的可連接性

C、密度聚類基于不可連接樣本不斷擴展聚類簇易獲得最終的聚類結果

D、密度直達關系通常滿足對稱性

答案:BCD

解析:密度聚類從樣本密度的角度出來,來考查樣本之間的可連接性;密度聚類基

于可連接樣本不斷擴展聚類簇,以獲得最終的聚類結果;密度直達關系通常不滿

足對稱性;密度可達關系滿足直遞性,但不滿足對稱性;密度相連關系滿足對稱性。

19.Python中jieba庫支持哪幾種模式()。

A、精準模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案:ACD

解析:jieba分詞的三種模式。

20.下列說法正確的是()。

A、cookielib庫提供可存儲cookie的對象,以便于與urIIirequest庫配合使用

來進行訪問

B、過于頻繁的爬蟲不會帶給網站額外的壓力

C、使用split。可以進行字符串的拆分

D、正則表達式可以實現對爬取信息的快速過濾

答案:ACD

解析:過于頻繁的爬蟲會帶給網站額外的壓力。

21.以下關于降維方法,敘述正確的是0。

A、主成分分析是一種常用的非線性降維方法

B、核化線性降維是一種常用的線性降維方法

C、流形學習是一種借鑒拓撲流形概念的降維方法

D、度量學習繞過降維的過程,將學習目標轉化為對距離度量計算的權重矩陣的學

答案:CD

解析:本質上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不

太理想。核化線性降維是一種非的線性降維方法。

22.一個監督觀測值集合會被劃分為()。

A、訓練集

B、驗證集

C、測試集

D、預處理集

答案:ABC

解析:一個監督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來

測試學習器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作

為泛化誤差的近似。

23.神經網絡的拓撲結構可以分為()和隨機型網絡等。

A、前向型

B、后向型

C、反饋型

D、自組織競爭型

答案:ACD

解析:神經網絡的拓撲結構有前向型、反饋型、自組織競爭型和隨機型網絡等。

24.Python函數包括下述哪些內容0。

A、函數名稱

B、參數

C、執行語句

D、返回值

答案:ABCD

解析:Python函數包括下述哪些內容函數名稱、參數、執行語句、返回值。

25.決策樹遞歸停止的條件為()。

A、訓練數據集使用完

B、所有的類標簽完全相同

C、特征用完

D、遇到丟失值

答案:BC

解析:決策樹的生成是一個遞歸過程.在決策樹基本算法中,有三種情形會導致遞

歸返回:(1)當前結點包含的樣本全屬于同一類別,無需劃分;(2)當前屬性集為空,

或是所有樣本在所有屬性上取值相同,無法劃分;⑶當前結點包含的樣本集合為

空,不能劃分.

26.在建立模型時,需要用到0。

A、訓練數據

B、測試數據

C、原始數據

D、驗證數據

答案:ABD

解析:在機器學習中,通常將數據分為訓練集、測試集和驗證集。

27.數據來源和目標用戶已定的情況下,不同視覺通道的表現力不同。視覺通道的

表現力的評價指標包括()。

A、精確性

B、可辨認性

G可分離性

D、視覺突出性

答案:ABCD

解析:在數據來源和目標用戶已定的情況下,不同視覺通道的表現力不同。視覺

通道的表現力的評價指標包括精確性、可辨認性、可分離性和視覺突出性。1)

精確性代表的是人類感知系統對于可視化編碼結果和原始數據之間的吻合程度。

斯坦福大學Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性2)

可辨認性是指視覺通道的可辨認度。3)可分離性是指同一個視覺圖形元素的不同

視覺通道的表現力之間應具備一定的獨立性。4)視覺突出性是指視覺編碼結果能

否在很短的時間內(如毫秒級)能夠迅速準確表達出可視化編碼的主要意圖。

28.決策樹的劃分選擇有()。

A、增益系數

B、信息增益

C、增益率

D、基尼系數

E、信息增益量

答案:BCD

解析:決策樹的劃分選擇有信息增益,增益率,基尼系數。

29.相關與線性關系,下列說法正確的是0

A、相關不一定是線性關系,可能是非線性關系

B、相關一定是線性關系,不可能是非線性關系

C、相關時若有相關系數r為0,說明兩個變量之間不存在線性關系,仍可能存在

非線性關系

D、相關系數為0是兩個變量獨立的必要不充分條件

答案:ACD

解析:相關不一定是線性關系,可能是非線性關系。

30.下列哪些是常用分詞方法()。

A、基于Binarytree的分詞方法

B、基于HMM的分詞方法

C、基于CRF的分詞方法

D\基于Kmeans的分詞方法

答案:BC

解析:k均值一般用于聚類,二叉樹也不用于分詞

31.HighBias(高偏差)解決方案:()。

A、Boosting

B、復雜模型(非線性模型、增加神經網絡中的層)

G更多特征

答案:ABC

解析:偏差刻畫了學習算法本身的擬合能力,高偏差意味著欠擬合,可通過Boost

ing、復雜模型(非線性模型、增加神經網絡中的層)、更多特征等方式解決。

32.Spark的部署模式包括0。

A、本地模式

B\standaIone模式

C、Sparkonyarn

D\mesos模式

答案:ABCD

解析:spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置sta

ndaIone模式運行。

33.下面關于機器學習的理解正確的是()。

A、非監督學習的樣本數據是要求帶標簽的

B、監督學習和非監督學習的區別在于是否要求樣本數據帶標簽

C、強化學習以輸入數據作為對模型的反饋

D、卷積神經網絡一般用于圖像處理等局部特征相關的數據

答案:BCD

解析:非監督學習的樣本數據是不要求帶標簽的,監督學習的樣本數據是要求帶

標簽的。

34.圖像壓縮是建立在圖像存在()幾種冗余之上。

A、編程冗余

B、像素間冗余

C、心理視覺冗余

D、計算資源冗余

答案:ABC

解析:圖像壓縮是通過算法的改進,對重復像素用壓縮算法減少儲存空間和并行

算法達到的。

35.下列哪種服務可以用于存儲數據()。

A、MapReduce

B、YARN

C、HBase

D、HDFS

答案:CD

解析:MapReduce是計算模型;YARN是通用資源管理系統;HBase是動態模式數據

庫;HDFS是Hadoop分布式文件系統,是數據存儲的基礎。

36.許多功能更為強大的非線性模型可在線性模型基礎上通過引入()和()而得。

A、層級結構

B、高維映射

C、降維

D、分類

答案:AB

解析:許多功能更為強大的非線性模型可在線性模型基礎上通過引入層級結構和

高維映射而得。

37.決策樹()情況下會導致遞歸返回。

A、當前節點包含的樣本全屬于同一類

B、當前屬性集為空

C、當前節點包含的樣本集合為空

D、所有樣本在所有屬性上取值相同

答案:ABCD

解析:決策樹的生成是一個遞歸過程.在決策樹基本算法中,有三種情形會導致遞

歸返回:(1)當前結點包含的樣本全屬于同一類別,無需劃分;(2)當前屬性集為空,

或是所有樣本在所有屬性上取值相同,無法劃分;⑶當前結點包含的樣本集合為

空,不能劃分.

38.常見的圖像分割算法有0。

A、基于區域的分割方法

B、基于人工勾畫的分割方法

C、基于邊緣的分割方法

D、基于閾值的分割方法

答案:ACD

解析:人工勾畫太過耗時,并不能作為常見的圖像分割方法。

39.文本分類過程包括0。

A、選擇訓練文本

B、選擇文本特征

C、建立文本表示模型

D、選擇分類方法

答案:ABCD

解析:文本分類過程包括:(1)選擇訓練文本;(2)選擇文本特征;⑶建立文本表示

模型;⑷選擇分類方法;(5)分類結果的評估。

40.下面定義函數正確的是0。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、defcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案:AB

解析:函數不定長參數*args和**kwargs只能放在形參的末尾,因此AB正確,CD

錯誤。

41.以下屬于關鍵詞提取算法的有()。

A、TF-IDF算法

B、TextRank算法

C、LSA(潛在語義分析)

D、LDA

答案:ABCD

解析:關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)。

rLSI(潛在語義索引)、LDA等。

42.線性模型的基本形式有0。

A、線性回歸

B、對數幾率回歸(二分類問題)

C、線性判別分析(Fisher判別分析)

D、多分類學習

答案:ABCD

解析:線性模型的經典模型有:線性回歸,對數幾率回歸(二分類問題),線性判別

分析(Fisher判別分析),多分類學習。

43.大數據偏見包括()

A、數據源的選擇偏見

B、算法與模型偏見

C、結果解讀方法的偏見

D、數據呈現方式的偏見

答案:ABCD

解析:大數據偏見是數據科學項目中必須關注和加以避免的問題,上述四個活動

中均可能出現偏見。

44.以下圖像技術中屬于圖像處理技術的是()。

A、圖像編碼

B、圖像合成

C、圖像增強

D、圖像分類

答案:AC

解析:圖像合成輸入是數據,圖像分類輸出是類別數據。

45.下列哪些是面向對象技術的特征()。

A、封裝

B、繼承

C、多態

D、分布性

答案:ABC

解析:面向對象技術的特征封裝、繼承、多態。

46.Web內容挖掘實現技術()。

A、文本總結

B、文本分類

C、文本機器學習

D、關聯規則

答案:ABCD

解析:Web內容挖掘實現技術包含文本總結,文本分類,文本機器學習和關聯規則

等。

47.完整性約束通常包括()

A、實體完整性

B、域完整性

C、參照完整性

D、用戶定義完整性

答案:ABCD

解析:在關系數據庫中,1)實體完整性:規定表的每一行在關系表中是惟一的實體。

2)域完整性:是指關系表中的列必須滿足某種特定的數據類型約束,其中約束又

包括取值范圍、精度等規定。3)參照完整性:是指兩個關系表的主關鍵字和外關

鍵字的數據應一致,保證了表之間的數據的一致性,防止了數據丟失或無意義的

數據在數據庫中擴散。4)用戶定義的完整性:不同的關系數據庫系統根據其應用

環境的不同,往往還需要一些特殊的約束條件。用戶定義的完整性即是針對某個

特定關系數據庫的約束條件,它反映某一具體應用必須滿足的語義要求。

48.Spark容錯性的方式有哪些()。

A、數據檢查點;

B、存儲原始數據;

C、記錄數據的更新;

D、自建數據版本;

答案:AC

解析:Spark容錯性有兩種方式數據檢查點和記錄數據的更新。

49.關于HadoopMapReduce,以下描述中正確的是0。

A、reduce。函數的輸入是value集

B\reduce()函數將最終結果寫到HDFS系統中

C、用戶可以自己定義reduce()函數

Dvreduce()函數的輸入數據是經過map()函數處理之后的數據

答案:BCD

解析:reduce。函數的輸入是key-value集。

50.Scikit-Learn中可以實現()算法。

A、分類

B、聚類

G回歸

D、降維

答案:ABCD

解析:這些均可在skIearn中實現。

51.直方圖修正法包括0。

A、直方圖統計

B、直方圖均衡

C、直方圖過濾

D、直方圖規定化;

答案:BD

解析:直方圖統計是對圖像特征值的統計;直方圖過濾屬于圖像處理技術。

52.Python中標識符的命名規則正確的是()。

A、只能以下劃線或者A-Z/a-z中的字母開頭

B、關鍵字不能作為標識符

C、Python標識符區分大小寫

D、關鍵字不能作為標識符

答案:ABCD

解析:變量名可以包含字母數字下劃線,但不能以數字開頭,避免使用關鍵字。

53.在網絡爬蟲的爬行策略中,應用最為常見的是0。

A、深度優先遍歷策略

B、廣度優先遍歷策略

C、高度優先遍歷策略

D、反向鏈接策略

E、大站優先策略

答案:AB

解析:在網絡爬蟲的爬行策略中,應用最為常見的是深度優先遍歷策略、廣度優

先遍歷策略。

54.Spark提交工作的方式0。

A、Iient

B\Iuster

C、tandaIone

D\arn

答案:AB

解析:spark提交作業的方式是client和cluster。

55.訓練CNN時,GPU顯存溢出,此時可以采取什么辦法()

A、減少mini_batch大小

B、移除一些卷積層

C、減少圖片輸入大小

D、增加激活函數

答案:ABC

解析:D:反而會加重負擔。

56.從Hadoop實現角度看,HadoopMapReducel.0主要由()組成。

A、編程模型

B、數據處理引擎

C、運行時環境

D、算法庫

答案:ABC

解析:HadoopMapReducel.0計算框架主要由編程模型、數據處理引擎和運行時

環境組成。

57.空間域濾波是直接以圖像中的像素操作為基礎的濾波,空間濾波器有時也可

稱為()。

A、空間掩模

B、核

C、模板

D、窗口

答案:ABCD

解析:空間濾波器也可稱為空間掩模,核,模板和窗口等。

58.下面對范數規則化描述正確的是()。

A、L0是指向量中0的元素的個數

B、L1范數是指向量中各個元素絕對值之和

C、L2范數向量元素絕對值的平方和再開平方

D、L0是指向量中非0的元素的個數

答案:BCD

解析:L0是指向量中非0的元素的個數,L1范數是指向量中各個元素絕對值之和,

L2范數向量元素絕對值的平方和再開平方。

59.數據科學基本原則中,三世界原則指的是0

A、我們的世界

B、數據世界

C、物理世界

D、數字世界

答案:ABC

解析:大數據時代的到來,在我們的“精神世界”和“物理世界”之間出現了一

種新的世界—“數據世界”。因此,在數據科學中,通常需要研究如何運用“數

據世界”中已存在的“痕跡數據”的方式解決“物理世界”中的具體問題,而不

是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數據”。相對于

“采訪數據”,“痕跡數據”更具有客觀性。圖靈獎獲得者JimGray提出的科學

研究第四范式數據密集型科學發現(Data-intensiveScientificDiscovery)

是“三世界原則”的代表性理論之一。

60.以下選項中,屬于MapReduce特征的有()。

A、以主從結構的形式運行

B、容錯機制的復雜性

C、任務備份機制的必要性

D、數據存儲位置固定

答案:ABC

解析:數據存儲位置具有多樣性,并非固定,所以D錯。

61.影響聚類算法效果的主要原因有:()

A、特征選取

B、模式相似性測度

C、分類準則

D、已知類別的樣本質量

答案:ABC

解析:聚類算法是無監督的學習算法,訓練樣本的標記信息是未知的。

62.已測量級(MeasuredLeveI)的主要特點包括()。

A、已構建了關鍵過程矩陣。

B、已定義了變革管理的正式流程。

C、已實現用定量化方式計算關鍵過程的質量和效率。

D、關鍵過程的質量和效率的管理涉及整個生命周期

答案:ABCD

解析:DMM的已測量級(MeasuredLeveI):組織機構已用“定量化”的方式管理其

關鍵過程的執行過程。主要特點如下:1)已構建了關鍵過程矩陣;2)已定義了變革

管理的正式流程⑶已實現用定量化方式計算關鍵過程的質量和效率;4)關鍵過

程的質量和效率的管理涉及其全生命周

63.以下說法正確的是()。

A、條件獨立性假設不成立時,樸素貝葉斯分類器仍有可能產生最優貝葉斯分類器

B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率

估值為零的問題

C、由于馬爾可夫鏈通常很快就能趨于平穩分布,因此吉布斯采樣算法的收斂速度

很快

D、二分類任務中兩類數據滿足高斯分布且方差相同時,線性判別分析產生貝葉斯

最優分類器

答案:ABD

解析:由于馬爾可夫鏈通常需要很長時間才能趨于平穩分布,因此吉布斯采樣算

法的收斂速度較慢。

64.以下關于Hbase說法正確的是0。

A、面向列的數據庫

B、非結構化的數據庫

C、支持大規模的隨機、實時讀寫

D、采用松散數據模型

答案:ABCD

解析:HBase是非結構化的、多版本的、面向列和開源的數據庫;HBase提供了對

大規模數據的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數據模型。

65.關于降維說法正確的是0。

A、PA是根據方差這一屬性降維的

B、降維可以防止模型過擬合

C、降維降低了數據集特征的維度

D、降維方法有PLA等

答案:ACD

解析:降維不能用于防止模型過擬合。

66.下面哪些是有效的類構造函數()。

A、def_lnit_(self):

B\def_init_(seIf,var=O):

C\definit_0:

D\def_init_(seIf,a,b,c):

答案:ABD

解析:C屬于自定義函數。

67.下面哪些是spark比Mapreduce計算快的原因()。

A、基于內存的計算;

B、基于DAG的調度框架;

C、基于Lineage的容錯機制;

D、基于分布式計算的框架;

答案:ABC

解析:Spark比Mapreduce計算快的原因包括基于內存計算;使用基于Lineage

的容錯機制和基于DAG的調度框架。

68.數據挖掘的主要功能包括概念描述,趨勢分析、孤立點分析及()等方面。

A、挖掘頻繁模式

B、分類和預測

C、機器學習分析

D、偏差分析

答案:ABCD

解析:數據挖掘的主要功能包括概念描述、關聯分析、分類與預測、聚類分析、

趨勢分析、孤立點分析以及偏差分析等。

69.在Python中,以下導入模塊方式正確的是()。

A、import模塊名

B、import模塊名as模塊的別名

C\from模塊名import函數名

D、from模塊名import函數名A,函數名B

答案:ABCD

解析:本題考查模塊導入方法。

70.0是通過對無標記訓練樣本的學習來進行分類的。

A、密度估計

B、異常檢測

G線性回歸

D、聚類分析

答案:ABD

解析:《數據挖掘導論》P403?(有疑問)

71.下列屬于字符串匹配的分詞方法的是0。

A、正向最大匹配法(由左到右的方向)

B、逆向最大匹配法(由右到左的方向)

C、最少切分(使每一句中切出的詞數最小)

D、雙向最大匹配法(進行由左到右、由右到左兩次掃描)

答案:ABCD

解析:正向最大匹配、逆向最大匹配、最少切分、雙向最大匹配都屬于字符串匹

配的常用方法。

72.如何在監督式學習中使用聚類算法()

A、首先,可以創建聚類,然后分別在不同的集群上應用監督式學習算法

B、在應用監督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的

特征

C、在應用監督式學習之前,不能創建聚類

D、在應用監督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的

特征

答案:AB

解析:我們可以為不同的集群構建獨立的機器學習模型,并且可以提高預測精度。

將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結果。

73.關于Hive的說法正確的是()o

A、Hive是基于Hadoop的數據倉庫工具

B、Hive可以將結構化的數據文件映射為一張數據庫表

C、最初,Hive由Google開源,用于解決海量結構化日志數據統計問題

D、Hive的主要應用場景是離線分析

答案:ABD

解析:Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術是GFS.BigTabl

e,MapReduceo

74.在假設檢驗中,當原假設為“偽”,但數據分析人員沒有拒絕它時犯的錯誤叫()。

A、ct錯誤

B、B錯誤

C、取偽錯誤

D、棄真錯誤

答案:BC

解析:a錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為“原假設是不成立

的”,進而導致拒絕這個正確假設邛錯誤(取偽錯誤):當原假設為假時,但我們錯

誤地認為“原假設是成立的”,進而導致接受此錯誤假設

75.以下()屬于數據統計分析工具。

A、Weka

B、SAS

C、SPSS

D、MatIab

答案:ABCD

解析:常用統計軟件的種類,包含Weka,SAS、SPSS、ExceKS-plus、Minitab,S

tatistica,Eviewso

76.某單位運用隨機森林算法思想建立搶修熱點模型。該模型主要預測下期臺區

工單數量,構建搶修熱點。以下模型算法構建步驟中合理的順序是:()o

A、將歷史數據進行隨機自助法重抽樣,生成N個訓練樣本集

B、將N個訓練樣本集分別做決策樹,生成N棵決策樹

C、將N棵決策樹隨機構成隨機森林

D、未來根據預測樣本氣候環境、設備屬性、設備工況進行隨機森林決策投票,

得出針對該預測樣本最優的決策樹進行運算,并計算出最終結果。

答案:ABCD

解析:模型算法構建步驟為:

1.將歷史數據進行隨機自助法重抽樣,生成N個訓練樣本集.

2.將N個訓練樣本集分別做決策樹,生成N棵決策樹;

3.將N棵決策樹隨機構成隨機森林

4.未來根據預測樣本氣候環境、設備屬性、設備工況進行隨機森林決策投票,

得出針對該預測樣本最優的決策樹進行運算,并計算出最終結果。

77.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案:AB

解析:input輸入,+加法運算符。

78.假設一個隨機變量服從正態分布,則隨機變量的概率分布跟其()和()有關。

A、眾數

B、頻數

C、平均值

D、方差

答案:CD

解析:正態分布一般用均值和方差來刻畫。

79.循環神經網絡主要被應用于哪些場景(_)。

A、語音識別

B、語音建模

C、機器翻譯

D、圖像識別

答案:ABC

解析:圖像識別用CNN。

80.以下()函數是累積函數。

A、cumsum

B、argmin

C、cumprod

D、argmax

答案:AC

解析:分別為累加和累乘函數。

81.以下哪層是卷積神經網絡的組成部分。

A、卷積層

B、中間層

C、池化層

D、全連接層

答案:ACD

解析:卷積神經網絡的組成部分不包括中間層。

82.下面對LDA判別分析的思想描述正確的是()。

A、同類樣例的投影點盡可能近

B、異類樣例的投影點盡可能遠

C、同類樣例的投影點盡可能遠

D、異類樣例的投影點盡可能近

答案:AB

解析:LDA的思想非常樸素:給定訓練樣例集,設法將樣例投影到一條直線上,使

得同類樣例的投影點盡可能接近,異類樣例的投影點盡可能遠離;在對新樣本進

行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的

類別。

83.可視分析學是一門以可視交互為基礎,綜合運用()等技術等多個學科領域的

知識,以實現人機協同完成可視化任務為主要目的分析推理學科。

A、物理學

B、圖形學

C、數據挖掘

D、人機交互

答案:BCD

解析:可視分析學(VisuaIAnaIytics):科學可視化和信息可視化理論的進一步演

變以及與其他學科相互交融發展之后的結果。在數據科學中,通常采用數據可視

化的廣義定義方法,并以可視分析學為主要理論基礎。

84.以下哪些選項可以用于實現爬蟲功能0。

A、BeautifuISoup庫

B、re模塊

C\Scrapy框架

D\urIIibrequest庫

答案:ACD

解析:re是正則模塊不含網絡功能,但可以用它將爬下來的數據進行處理。

85.Hadoop組件Flume三層架構包括()。

A、Agent

B、Gossip

C\ColIector

D\Storage

答案:ACD

解析:Flume采用了三層架構,分別為agent,collector和storage,每一層均可

以水平擴展。agent用于采集數據,agent是flume中存儲數據流的地方,同時ag

ent會將產生的數據傳輸到collector;Collector的作用是堅多個agent的數據

匯總后,加載到storage中,多個collector之間遵循負載均衡規則;Storage是

存儲系統,可以是一個普通fiIe,也可以是HDFS.HIVE,Hbase等。

86.下列關于極大似然估計(MaximumLikeIihoodEstimate,MLE),說法正確的是(—

Jo

A、MLE可能并不存在

B、MLE總是存在

C、如果MLE存在,那么它的解可能不是唯一的

D、如果MLE存在,那么它的解一定是唯一的

答案:AC

解析:極大似然估計方法(MaximumLikeIihoodEstimate,MLE)也稱最大概似估計

或最大似然估計:利用已知的樣本結果,反推最有可能(最大概率)導致這樣的結

果的參數值。極大似然估計,只是一種概率論在統計學的應用,它是參數估計的方

法之一。說的是已知某個隨機樣本滿足某種概率分布,但是其中具體的參數不清

楚,參數估計就是通過若干次試驗,觀察其結果,利用結果推出參數的大概值。極

大似然估計是建立在這樣的思想上:已知某個參數能使這個樣本出現的概率最大,

我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真

實值。

當然極大似然估計只是一種粗略的數學期望,要知道它的誤差大小還要做區間估

計。

87.pandas中刪除列的方式()。

A、df.drop(["列名,axis=1)

B、df.drop(coIumns=["列名"])

C\df.drop([0,1])

D、df.drop([0])

答案:AB

解析:A和B選項都是刪除列的方式,CD選項沒有指定axis,默認是刪除行。

88.Python的優點有()。

A、變量不用預定義類型

B、數據結構功能強大

C、語言可解釋性強

D、變量類型固定

答案:ABC

解析:Python變量在使用前不必定義變量類型。

89.基于Boosting的集成學習代表算法有()。

A、Adaboost

B、GBDT

C、XGBOOST

D、隨機森林

答案:ABC

解析:AdaboostxGBDT、XGBOOST是基于Boosting的集成學習算法。

90.以下關于API爬蟲哪些說法是錯誤的()。

A、基于API返回的結果通常會比較干凈

B、基于API的爬蟲任務中,速度一般較慢

C、基于API的爬蟲爬取的好處是沒有次數的限制

D、基于API的爬取能夠覆蓋網站所有信息

答案:BCD

解析:基于API返回的結果同樣需要解析。

91.Apriori算法的計算復雜度受()影響。

A、支持度閥值

B、項數(維度)

C、事務數

D、事務平均寬度

答案:ABCD

解析:Apriori算法的計算復雜度受A.支持度閥值、項數(維度)、事務數'事務

平均寬度影響。

92.下列關于RNN、LSTM、GRU說法正確的是(_)。

A、RNN引入了循環的概念

B、LSTM可以防止梯度消失或者爆炸

GGRU是LSTM的變體

D、RNN、LSTM、GRU是同一神經網絡的不同說法,沒有區別

答案:ABCD

解析:RNN:循環神經網絡,是非線性動態系統,將序列映射到序列;LSTM:LSTM通

過刻意的設計來避免長期依賴問題。記住長期的信息在實踐中是LSTM的默認行

為,而非需要付出很大代價才能獲得的能力;GRU:LSTM有很多變體,其中較大改

動的是GatedRecurrentllnit(GRU),它將忘記門和輸入門合成了一個單一的更新

門。同樣還混合了細胞狀態和隱藏狀態,和其他一些改動。最終的模型比標準的

LSTM模型要簡單。效果和LSTM差不多,但是參數少了1/3,不容易過擬合。

93.下面關于隨機變量及其概率分布的說法,正確的是()。

A、隨機變量可以分為離散型隨機變量和連續型隨機變量

B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性

C、扔5次硬幣,正面朝上次數的可能取值是0,1,2,3,4,5,其中正面朝上次數為0

與正面朝上次數為5的概率是一樣的

D、扔5次硬幣,正面朝上次數的可能取值是0,1,2,3,4,5,其中正面朝上次數為5

的概率是最大的

答案:ABC

解析:扔5次硬幣,正面朝上次數的可能取值是0,1,2,3,4,5,其中正面朝上次數

為5的概率不是最大的。

94.關于現階段大數據技術體系,說法正確的是()。

A、基礎設施提供數據計算'數據存儲'數據加工(DataWrangling或DataMungi

ng)等服務

B、流處理、統計工具、日志分析都屬于常用的開源工具

C、數據資源代表的是生成數據的機構

D、數據源與APP為數據科學和大數據產業生態系統提供數據內容

答案:ABCD

解析:Speechpad的聯合創始人DaveFeinleib于2012年發布大數據產業全景圖

(BigDataLandscape),首次較為全面地刻畫了當時快速發展中的大數據技術體系。

后來,該圖及其畫法成為大數據和數據科學的重要分析工具,得到廣泛的應用和

不斷的更新。MattTurck等組織繪制的2017大數據產業全景圖(BigDataLandsca

pe2017)。從2017大數據產業全景圖看,現階段的大數據技術體系主要類型包括:

數據資源、數據源與APP、開源工具、跨平臺基礎設施和分析工具、行業應用、

企業應用、基礎設施和分析工具。

95.我們希望減少數據集中的特征數量。你可以采取以下哪一個步驟來減少特征

0o

Ax使用正向選擇法(ForwardSeIection)

B\使用反向消除法(BackwardEIimination)

C\逐步選擇消除法(Stepwise)

D、計算不同特征之間的相關系數,刪去相關系數高的特征之一

答案:ABCD

解析:正向選擇(ForwardSelection)是首先選擇一^1^特征,每個特征都試一遍,

選擇對模型準確率提升最高的那個特征;然后再在這個特征基礎上添加另外一個

特征,方法類似,直到模型準確率不再提示為止。反向消除(BackwardEIiminatio

n)是首先包含了所有的特征,然后嘗試刪除每個特征,最終刪掉對模型準確率提

升最高的一個特征(因為刪除這個特征,模型準確率反而增加了,說明是無用特

征)。如此類推,直到刪除特征并不能提升模型為止。相對于ForwardSelection,

BackwardEIimination的優點在于其允許一些低貢獻值的特征能夠進到模型中

去(有時候低貢獻值的特征能在組合中有更大的貢獻值,而ForwardSelection忽

略了這種組合的可能性),因此BackwardEIimination能夠避免受一兩個占主導

地位的特征的干擾。

另外還有一種特征選擇方法是Stepwise,該方法結合上述兩者的方法,新加入一

個特征之后,再嘗試刪去一個特征,直至達到某個預設的標準。這種方法的缺點是,

預設的標準不好定,而且容易陷入到過擬合當中。除此之外,也可以使用基于相關

性的特征選擇,可以去除多重線性特征。

96.下面關于函數的遞歸調用描述正確的是()。

A、必須有一個明確的結束條件

B、每次進入更深一層遞歸時,問題規模相比上次遞歸都應有所減少

C、遞歸調用效率不高,遞歸層次過多會導致棧溢出(在計算機中,函數調用是通過

棧(stack)這種數據結構實現的,每當進入一個函數調用,棧就會加一層棧幀,每

當函數返回,棧就會減一層棧幀

D、由于棧的大小不是無限的,所以,遞歸調用的次數過多,會導致棧溢出)

答案:ABCD

解析:關于函數的遞歸調用要求必須有一個明確的結束條件,每次進入更深一層

遞歸時,問題規模相比上次遞歸都應有所減少,遞歸調用效率不高,遞歸層次過多

會導致棧溢出(在計算機中,函數調用是通過棧(stack)這種數據結構實現的,每

當進入一個函數調用,棧就會加一層棧幀,每當函數返回,棧就會減一層棧幀,由

于棧的大小不是無限的,所以,遞歸調用的次數過多,會導致棧溢出)o

97.下列關于spark中的RDD描述正確的有()。

A、RDD(ResiIientDistributedDataset)叫做彈性分布式數據集,是spark中最基

本的數據抽象;

B、ResiIient:表示彈性的;

C、Destributed:分布式,可以并行在集群計算;

D、Dataset:就是一個集合,用于存放數據的;

答案:ABCD

解析:關于spark中的RDD描述正確的有RDD(ResiIientDistributedDataset)

叫做彈性分布式數據集,是spark中最基本的數據抽象;ResiIient:表示彈性的;

Destributed:分布式,可以并行在集群計算;Dataset:就是一^集合,用于存放數

據的。

98.Hadoop框架的缺陷有()。

A、MR編程框架的限制;

B、過多的磁盤操作,缺乏對分布式內存的支持;

C、無法高效支持迭代式計算;

D、不支持多用戶寫入并任意修改文件;

答案:ABCD

解析:以上四項都為Hadoop的缺點。

判斷題(共38題)

99.以下關于HTML標簽嵌套規則的說法,正確的是0。

A、塊元素可以包含內聯元素或某些塊元素,但內聯元素也可以包含塊元素

B、HTML標簽包括塊級元素和內嵌元素

C、內嵌元素一般用在網站內容之中的某些細節或部位,用以“強調區分樣式上標

下標錨點”等,通常包括:aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIspans

ubttuvar等

D、其中塊級元素一般用來搭建網絡架構布局承載內容,通常包括的標簽有:addr

essdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI等

答案:BCD

解析:塊元素可以包含內聯元素或某些塊元素,但內聯元素卻不能包含塊元素,

它只能包含其他的內聯元素。

100.一個回歸模型存在多重共線問題。在不損失過多信息的情況下,可如何處理

0

A、剔除所有的共線性變量

B、剔除共線性變量中的一個

G通過計算方差膨脹因子(VarianceInfIationFactor,VIF)來檢查共線性程度,

并采取相應措施

D、刪除相關變量可能會有信息損失,我們可以不刪除相關變量,而使用一些正則

化方法來解決多重共線性問題,例如Ridge或Lasso回歸

答案:BCD

解析:為了檢查多重共線性,我們可以創建相關系數矩陣來辨別和移除相關系數

大于75%的變量(閾值根據情況設定),除此之外,可以使用VIF方法來檢查當前存

在的共線變量。VIFU4表明沒有多種共線,VIF>=10表明有著嚴重的多重共線性,

也可以使用公差(t。Ierance)作為評估指標。但是,移除相關變量可能導致信息的

丟失,為了保留這些變量,可以使用帶懲罰的回歸方法。可以在相關變量之間隨機

加入噪音,使得變量之間存在差異。但增加噪音可能影響準確度,因此這種方法應

該小心使用。

101.Spark中的ScheduIer模塊可以分為以下哪幾個部分()。

A、DAGScheduIer;

B、ResourceScheduIer;

C、TaskScheduIer;

DvJobScheduIer;

答案:AC

解析:ScheduIer模塊分為兩個部分DAGScheduIer和TaskScheduIer。

102.下列哪個是Hadoop運行的模式()。

A、單機版

B、偽分布式

C、分布式

D、全分布式

答案:ABC

解析:Hadoop運行模式包括單機版、偽分布式和分布式。

103.下列哪些是TF-IDF的缺點()o

A、字詞的重要性隨它在文件中出現的次數成正比

B、將一些生僻字誤當作文檔關鍵詞

C、只考慮特征詞和文本之間的關系,忽略了一個特征項在不同類別間的分布情況

D、沒有考慮特征詞的位置因素對文本的區分度

答案:BCD

解析:低頻詞匯的重要性和出現次數成正比。

104.以下哪些濾波器能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接

點的系數降至0附近0。

A、同態濾波

B、圖斯濾波

C、巴特沃斯濾波

D、中值濾波

答案:BC

解析:圖像處理基礎知識。

105.數據挖掘的挖掘方法包括0。

A、聚類分析

B、回歸分析

C、神經網絡

D、決策樹算法

答案:ABCD

解析:利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關

聯規則、特征、變化和偏差分析、Web頁挖掘等.

分類方法有決策樹'1(郵法(1<-岫2匹5七岫18世0。\SVM法、VSM法、Bayes法、

神經網絡等。

聚類算法分為:基于密度,基于層次,基于模型,基于網格等。

關聯規則算法有:Apriori算法,FP-Growth算法

106.卷積神經網絡中常用的池化函數包括()。

A、最大池化函數

B\L2范數

C、相鄰矩形區域內的平均值

D、基于據中心像素距離的加權平均函數

答案:ABCD

解析:最大池化函數;L2范數;相鄰矩形區域內的平均值;基于據中心像素距離的

加權平均函數;重疊池化;空金字塔池化。

107.下列哪些是特征選擇方法()。

A、AIC赤池信息準則

B、LARS嵌入式特征選擇方法

C、LVW包裹式特征選擇方法

D、Relief過濾式特征選擇方法

答案:BCD

解析:AIC赤池信息準則是常用的模型選擇方法。

108.常用的沖突消解策略有包括()。

A、投票法

B、排序法

G元規則法

D、調研法

答案:ABC

解析:常用的沖突消解策略有包括:投票法,排序法,元規則法。

109.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()。

A、同態濾波

B、頂帽變換

C、基于移動平均的局部閾值處理

D、拉普拉斯算子

答案:ABC

解析:拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。

110.MapReduce對map0函數的返回值處理后才傳給reduce0函數,其中涉及哪

些操作()。

A、合并

B、排序

C、分區

D、抽樣

答案:ABC

解析:分別涉及Shuffle(排序)、biner(合并)和partition(分區)操作。

111.我們想要減少數據集中的特征數,即降維.選擇以下適合的方案:()。

A、使用前向特征選擇方法

B、使用后向特征排除方法

C、我們先把所有特征都使用,去訓練一個模型,得到測試集上的表現.然后我們去

掉一個特征,再去訓練,用交叉驗證看看測試集上的表現.如果表現比原來還要好,

我們可以去除這個特征

D、查看相關性表,去除相關性最高的一些特征

答案:ABCD

解析:前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向

特征選擇方法和后向特征排除方法在大數據上不適用,可以用這里C中方法。用

相關性的度量去刪除多余特征,也是一個可行的方法。

112.以下哪種說法是正確的()。

A、網站服務器可以識別你使用的訪問軟件,因為在發送訪問請求中有特定位置的

字符串和軟件類型相關

B、低級別的代理服務器十分容易被識別

C、可以通過修改opener的proxy來模擬瀏覽器訪問

D、爬取圖片的流程被中斷時,之前所有爬取的信息都將被自動刪除

答案:AB

解析:可以通過修改報頭來模擬瀏覽器訪問;爬取圖片的流程被中斷時,之前所有

爬取的信息已被保存到本地。

113.Hadoop的HDFS是一種分布式文件系統,適合以下哪種場景的數據存儲和管

理0。

A、大量小文件存儲

B、局容錯'局吞吐量

C、低延遲讀取

D、流式數據訪問

答案:BD

解析:HDFS不適合小文件存儲,HDFS的讀取操作相比于傳統的數據庫延遲較高,

不適合低延遲讀取。

114.常見的圖像降噪方式包括()。

A、中值濾波

B、均值濾波

C、平均濾波

D、加權平均濾波

答案:ABCD

解析:常見的圖像降噪方式包括中值濾波,均值濾波,平均濾波和加權平均濾波等。

115.ETL技術主要涉及()操作。

A、抽取

B、轉換

C、加載

D、分析

答案:ABC

解析:抽取(extract)、轉換(transform)、加載(load)

116.神經網絡模型(NeuraINetwork)因受人類大腦的啟發而得名。神經網絡由許

多神經元(Neuron)組成,每個神經元接受一個輸入,對輸入進行處理后給出一個

輸出。請問下列關于神經元的描述中,哪一項是正確的(_)。

A、每個神經元有一個輸入和一個輸出

B、每個神經元有多個輸入和一個輸出

C、每個神經元有一個輸入和多個輸出

D、每個神經元有多個輸入和多個輸出

答案:ABCD

解析:每個神經元可以有一個或多個輸入,和一個或多個輸出。

117.HIS表色系的三屬性包含:Oo

A、色調

B、色飽和度

C、亮度

D、色度

答案:ABC

解析:HIS表色系包含色調,色飽和度和亮度。

118.關于數據組織的維度,以下選項中描述正確的是0。

A、數據組織存在維度,字典類型用于表示一維和二維數據

B、高維數據有鍵值對類型的數據構成,采用對象方式組織

C、二維數據采用表格方式組織,對應于數學中的矩陣

D、一維數據采用線性方式組織,對應于數學中的數組和集合等概念

答案:BCD

解析:字典類型用于表示一維數據。

119.MapReduce與HBase的關系,哪些描述是正確的()。

A、兩者不可或缺,MapReduce是HBse可以正常運行的保證

B、兩者不是強關聯關系,沒有MapReduce,HBase可以正常運行

C\MapReduce可以直接訪問Hbase

D、它們之間沒有任何關系

答案:BC

解析:Hbase是Hadoopdatabase,即Hadoop數據庫。它是一^適合于非結構化數

據存儲的數據庫,與MapReduce并無強關聯關系,HadoopMapReduce為HBase提供

了高性能的計算能力,可直接訪問Hbase

120.下面是文件基本操作的函數()。

A、cIose

B\read

C、rename

D\remove

答案:ABCD

解析:下面是文件基本操作的函數close、read、rename、removeo

121.屬于特征選擇的優點有()。

A、解決模型自身的缺陷

B、減少過擬合

C、提升模型的性能

D、增強模型的泛化能力

答案:BCD

解析:特征選擇無法克服模型自身的缺陷,二者是獨立的。

122.Client端上傳文件的時候下列哪項正確0。

A、數據經過NameNode傳遞給DataNode

B、Client端將文件切分為Block,依次上傳

C\CIient只上傳數據到一臺DataNode,然后由NameNode負責BIock復制

D、Client如果上傳的時候沒有上傳成功指定的副本數,則整次上傳不成功

答案:BD

解析:Client端在上傳文件的時候,請求是由NameNode響應,傳輸數據時Clien

t直接與DataNode通信,并非先把數據傳輸到NameNode再傳送到DataNode,否則

會極大的增加NameNode節點的負擔,因此A、C錯誤。

123.常見的核函數主要包括()。

A、多項式核

B、高斯核

C、線性核

D、拉普拉斯核

E、Sigmoid核

答案:ABODE

解析:上述都是常見的核函數。

124.任何函數都可以修改,所以盡量少用全局變量,主要原因包括()。

A、不夠安全

B、一直占用內存

C、容易失效

D、一直占用字符

答案:AB

解析:全局變量安全性差、相關內存一直無法釋放。

125.可視化高維展示技術在展示數據之間的關系以及數據分析結果方面作0。

A、能夠直觀反映成對數據之間的空間關系

B、能夠直觀反映多維數據之間的空間關系

C、能夠靜態演化事物的變化及變化的規律

D、能夠動態演化事物的變化及變化的規律

E、提供高性能并行計算技術的強力支撐

答案:BD

解析:可視化高維展示技術在展示數據之間的關系以及數據分析結果方面能夠直

觀反映多維數據之間的空間關系,動態演化事物的變化及變化的規律。

126.當我們構造線性模型時,我們注意變量間的相關性。在相關矩陣中搜索相關

系數時,如果我們發現3對變量的相關系數是(Vari和Var2,Var2和Var3,Var3

和Vari)是-0.98,0.45,1.23.我們可以得出什么結論:()。

A、Vari和Var2是非常相關的

B、因為Va1r和Var2是非常相關的,我們可以去除其中一個

GVar3和Vari的1.23相關系數是不可能的

答案:ABC

解析:ASVM的策略是最大間隔分類器。B簇內的相似性越大,簇間的差別越大,

聚類的效果就越好。C訓練誤差減少與測試誤差逐漸增大,是明顯的過擬合的特

征。

127.聚類性能度量外部指標包括()。

A、Jaccard系數

B、FM指數

C\Dunn指數

D、Rand指數

答案:ABD

解析:常用的聚類性能度量外部指標:Jaccard系數,FM指數,Rand指數。

128.在Spark中,彈性分布式數據集的特點包括0。

A、可分區

B、可序列化

C、可直接修改

D、可持久化

答案:ABD

解析:RDD不可修改。

129.常見的原型聚類算法包括0。

A、k均值算法

B、學習向量量化

C、高斯混合聚類

D、密度聚類

答案:ABC

解析:常見的原型聚類算法包括k均值算法,學習向量量化,高斯混合聚類等。

130.Spark有哪些缺陷()。

A、于內存的計算

B、持Schema信息

C、支持增量迭代計算

D、支持細粒度更新操作

答案:CD

解析:不支持細粒度的寫和更新操作,Spark寫數據是粗粒度的,即為了提高效率

批量寫入數據。Spark讀數據是細粒度的,即一條一條讀的,C對;Spark不支持增

量迭代計算,Flink支持增量迭代計算,D對。

131.可視分析學的幾個特點包含()

A、強調數據到知識的轉換過程

B、強調可視化分析與自動化建模之間的相互作用

C、強調數據映射和數據挖掘的重要性

D、強調數據加工(DataWrangling或DataMunging)工作的必要性

E、強調人機交互的重要性

答案:ABCDE

解析:從可是分析學模型可以看出,可視分析學的流程具有如下特點:1)強調數據

到知識的轉換過程。可視化分析學中對數據可視化工作的理解發生了根本性變化

——數據可視化的本質是將數據轉換為知識,而不能僅僅停留在數據的可視化呈

現層次之上。兩種從數據到知識的轉換途徑:一是可視化分析,另一個是自動化建

模。2)強調可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現

在:一方面,可視化技術可用于數據建模中的參數改進的依據;另一方面,數據建

模也可以支持數據可視化活動,為更好地實現用戶交互提供參考。3)強調數據映

射和數據挖掘的重要性。從數據到知識轉換的兩種途徑一一可視化分析與自動化

建模分別通過數據映射和數據挖掘兩種不同方法實現。因此,數據映射和數據挖

掘技術是數據可視化的兩個重要支撐技術。用戶可以通過兩種方法的配合使用實

現模型參數調整和可視化映射方式的改變,盡早發現中間步驟中的錯誤,進而提

升可視化操作的信度與效度。4)強調數據加工工作的必要性。數據可視化處理之

前一般需要對數據進行預處理(轉換)工作,且預處理活動的質量將影響數據可視

化效果。5)強調人機交互的重要性。可視化過程往往涉及人機交互操作,需要重

視人與計算機在數據可視化工作中的互補性優勢。因此,人機交互以及人機協同

工作也將成為未來數據可視化研究與實踐的重要手段。

132.以下()是一元通用函數。

A、np.add0

B\np.maximum0

C、np.exp0

D\np.sqrt()

答案:CD

133.特征工程一般需要做哪些工作0。

A、正則化

B、標準化

C、特征處理

D、特征選擇

答案:CD

解析:特征工程包括特征選擇、特征處理、特征變換、特征衍生等。

134.以下屬于圖像分割的算法的是:()。

A、閾值分割方法(threshoIdsegmentationmethod)

B\區域增長細分(regionaIgrowthsegmentation)

C\邊緣檢測分割方法(edgedetectionsegmentationmethod)

D、基于聚類的分割(segmentationbasedoncIustering)

E、基于CNN中弱監督學習的分割

答案:ABODE

解析:以下方法均屬于圖像分割。

135.圖像分割中常使用的領域有()。

A、0鄰域

B、4鄰域

C、8鄰域

D、24鄰域

答案:BC

解析:圖像分割中常見的鄰域為4鄰域與8鄰域,即某像素的上下左右、某像素

周圍的一圈像素。

136.下列既可以用于分類,又可以用于回歸的機器學習算法有:

A、k近鄰

B、邏輯回歸

C'決策樹

D、線性回歸

答案:AC

解析:邏輯回歸只用于分類,線性回歸只用于回歸。

137.對于主成分分析方法,降維后低維空間的維數d可以通過。方法確定。

A、由用戶事先指定

B、通過在d值不同的低維空間中對開銷較小的學習器進行交叉驗證來選取

C、可從重構的角度設置一個重構閾值,選取使得特定公式成立的最小值

D、隨機設置

答案:ABC

解析:降維后低維空間的維數通常是由用戶事先指定,或通過在d值不同的低維

空間中對k近鄰分類器(或其他開銷較小的學習器)進行交叉驗證來選取較好的d

值。從重構的角度還可以設置一個重構閾值,選取使得特定公式成立的最小值。

138.數據挖掘算法的組件包括0。

A、模型或模型結構

B、評分函數

C、優化和搜索方法

D、數據管理策略

答案:ABCD

解析:數據挖掘算法的組件包括模型或模型結構、評分函數、優化和搜索方法、

數據管理策略。

139.以下哪幾項屬于漢語未登錄詞的類型0。

A、存在于詞典但出現頻率較少的詞

B、新出現的普通詞匯

C、專有名詞

D、專業名詞和研究領域名稱

答案:BCD

解析:未登錄詞就是未知的新詞。判斷一個新字符串是否應作為一個詞,是基于

世界知識的,需要人參與才能確認。

140.Hadoop生態系統中,核心是()o

A、FIume

B、MapReduce

C、Pig

D、HDFS

答案:BD

解析:Hadoop的框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據

提供了存儲,則MapReduce為海量的數據提供了計算。

141.關于數據產品研發,下列說法錯誤的是()。

A、從加工程度看,可以將數據分為一次數據、二次數據和三次數據

B、一次數據中往往

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論