2023-2024學年《大數據技術導論》模擬試卷及答案解析4

上傳人：非*** IP屬地：河北上傳時間：2024-11-19 格式：PDF 頁數：73 大小：12.20MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩68頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

國家開放大學

2023-2024學年《大數據技術導論》模擬試卷及答案解析

一、選擇題

可視分析是一種（）?

（A.1交互式用戶界面模型

[B.1結構化用戶界面模型

[C.1非結構化用戶界面模型

[D.]獨立式用戶界面模型

【答案】A

數據科學的研究對象是（）?

[A.]藥品成分

[B.]文學作品

[C.1數據界的數據

[D.]人類歷史

【答案】C

下面不是研究數據方法的是（）?

[A.]統計學

[B.1機器學習

[C.1心理分析

[D.]數據挖掘

【答案】C

卜面是數據科學的主要研究內容的是（）?

（A.1數據泄露

[B.]數據交易

（C.1數據盜竊

[D.]數據分析

第1頁共74頁

【答案】D

下面不是數據產品開發的特征的是()?

[A.]多樣性

[B.]無競爭性

[C.1增值性

[D.]層次性

【答案】B

下面不屬于互聯網大數據的是()?

[A.]視頻

[B.]圖片

[C.1音頻

(D.)心情

【答案】D

下面不屬于大數據的特性是O?

[A.]數據量大

【B.】多樣性

[C.1真實性差

[D.]具有價值

【答案】C

下面屬于結構化數據的是()?

[A.]表格數據

(B.1圖形

[CJ圖像

[D.]HTML文檔

【答案】A

第2頁共74頁

下面不屬于大數據的處理過程的是（）?

[A.]數據獲取、儲存

[B.]數據清洗

[C.1數據分析

[D.]數據安全

【答案】D

下面不屬于大數據離線處理特點的是（）?

[A.]數據保存時間短

[B.]數據不會發生改變

[C.1可進行復雜的批審計算

[D.]方便查詢計算結果

【答案】A

下面不屬于大數據處理模式的是（）?

[A.]離線處理

[B.]在線處理

[C.1手動計算

【DJ交互處理

【答案】C

下面僅屬于大數據在線處理模式的是（）?

[A.]批量計算

[B.]流式計算

[C.1手動計算

[D.]交互處理

【答案】B

下面不屬于流式數據源的是（）?

[A.]硬盤數據

[B.]傳感器數據

第3頁共74頁

基于任務的定義和分類，下列不屬于可視分析關注點的是（）?

[A.]以用戶價值為關注點

[B.]以用戶意圖為關注點

[C.1以同戶行為為關注點

[DJ以軟件操作為關注點

【答案】A

下面不屬于企業大數據應用成功的考慮因素是（＞?

[A.]成本

[B.]客戶滿意度

[C.1附加收益

[D.]工人滿意度

【答案】D

下面不屬于大數據在通訊行業的應用是O?

【A.】預測客戶行為

[B.]市場監控

[C.1智能電表

[D.]市場預警

【答案】C

MapReduce以什么方式進行分布式計算（）？

[A.]文本

[B.]函數

[C.1數據集

[D.]矩陣

【答案】B

第5頁共74頁

在Hadoop中，將每一次計算請求稱為一個()?

[A.]文本

[B.]函數

(C.1數據集

[D.]作業

【答案】D

在Hadoop中，將每個作業拆分為若干個()?

[A.]文本

[B.]Map任務

[C.J數據集

[D.]Reduce任務

【答案】B

在Hadoop中，作業服務器被稱為()?

[A.]Job

[B.]Map

[C.JMaster

[D.]Reduce

【答案】C

下列不屬于一個作業的計算流程的是O?

[A.]作業開始

[B.]作業修改

[C.JMap任務分配

[D.]Reduce任務執行

【答案】B

下列不屬于Map任務的執行的子步驟的是()?

[A.]輸入準備

[B.]輸入修改

[C.1算法執行

第6頁共74頁

[D.]輸出生成

【答案】B

在MapReduce模型編程中，不屬于其步驟的是()?

[A.]遍歷數據

[BJ映射鍵值

[C.J數據分組

[D.]數據插補

【答案】D

Hadoop的核心是（）和MapReduce。

[A.]NTFS

[B.]GFS

[C.lHDFS

[D.]FS

【答案】C

下列不屬于單詞計數的Map過程的是()?

【A.】按列分割文件

[B.]分詞處理

[C.1按行分割文件

[D.]排序與合并

【答案】A

WordCount完成的功能是統計()？

[A.]按列分割文件數

[B.1輸入文件中單詞頻數

[C.J按行分割文件數

[D.]輸入文件中單詞頻率

【答案】B

第7頁共74頁

Hadoop開發環境部署內容不包括()?

[A.]安裝SSH協議

[B.]Hadoop系統部署

[C.1偽分布式Hadoop環境部署

[D.]電腦斷網

【答案】D

Reduce任務目標是()?

[A.]輸入文件

(B.1輸入數據

[C.1輸入圖表

[D.]將若干個Map任務生成的中間文件匯總到最后的輸出文件

【答案】D

Hadoop作業服務器不負責()?

[A.]接受用戶提交的作業

[B.]任務的分配

[C.1執行具體的任務

【D.】管理所有的任務服務器

【答案】C

下列不屬于文本數據語義特征的是O?

[A.]詞頻

[B.]邏輯結構

[C.1動態演化規律

[D.]數據結構

【答案】D

文本數據是典型的O?

第8頁共74頁

[A.]結構化數據

[B.J半結構化數據

[C.1非結構化數據

[D.]混合結構數據

【答案】C

MapReduce模型將數據集的大規模操作分發給網絡上的各節點，每個節點將已完成的工作

和狀態更新，周期性地報告給（）。

[A.]作業

[B.J任務

（C.J作業服務器

[D.]任務服務器

【答案】C

MapReduce模型的最大優點體現在（）?

[A.]輸入方便

[B.]分布式處理

[C.1各類型數據輸入

[D.]算法簡單

【答案】B

MapReduce模型適用場景的特點（）?

[A.]數據可實時處理

[B.]任務不可分解

[C.1任務可分解

[D.]任務需要順序執行

【答案】C

MapReduce將計算過程分解的最大好處是（）？

[A.]復雜化

[B.]快捷化

第9頁共74頁

[C.1并行化

[D.]低成本

【答案】C

下列不屬于MapReduce模型的限制因素的是()?

[AJ任務要求

[B.]數據不可無限分割

[CJ通信開銷

[D.]集群規模

【答案】A

下列不屬于信息可視化的分類的是()?

[A.]一維信息可視化

【B.】三維信息可視化

[C.1截面數據可視化

(D.1時序信息可視化

【答案】C

下列屬于傳統數據獲取的特點的是O?

[A.]數據源多種多樣

[B.1數據量巨大

[C.1結構單一

[D.]結構化、半結構化和非結構化數據

【答案】C

下列不屬于大數據獲取的特點的是()?

[A.]數據源多種多樣

[B.]數據量巨大

(C.)結構單一

[D.]結構化、半結構化和非結構化數據

【答案】C

第10頁共74頁

下列屬于大數據獲取的特點的是O?

[A.]數據源單一

[B.]數據量較小

[C.J結構單一

[DJ包括結構化、半結構化和非結構化數據

【答案】D

氣泡圖由什么演化而來是O?

（A.]直方圖

[B.]條形圖

[C.J散點圖

[D.）折線圖

【答案】C

下列不屬于文本數據的是O?

[A.]廣告

[B.]音頻

[C.]雜志

[D.]圖書

【答案】B

下列不屬于文本數據的獲取特點的是O?

[A.]靈活度高

[B.]速度快

[C.1按需獲取

[D.]易處理

【答案】D

下列屬于意見建議類用戶反饋的特點的是O?

第11頁共74頁

[A.]反饋量大

[B.]反饋速度快

[C.1針對性強

[D.]傳播快

【答案】C

下列不屬于空間數據的特性的是()?

[A.]定位

[B.1定量

[C.J定性

[D.]時空關系

【答案】B

下列不屬于網站內部數據庫中的數據的是()?

【A.】用戶信息數據

[B.]野外實測數據

[C.1網站產品數據

[DJ網站運營數據

【答案】B

下列不屬于網站數據采集的數據的是()?

[A.]非結構化數據

[B.1半結構化數據

[C.1結構化數據

[D.]實驗測試數據

【答案】D

下列不屬于網絡爬蟲工作過程的是O?

(A.1獲取網頁

[B.]修改網頁

[C.1解析網頁

【D.】儲存數據

第12頁共74頁

【答案】B

下列不屬于通用網絡爬蟲為特點及要求的是（）?

[A.]數量巨大

[B.]范圍較小

[C.J存儲空間要大

[D.]爬行速度要快

【答案】B

下列不屬于通用網絡爬蟲的結構的是O?

【A.】頁面爬行模塊

[B.]頁面分析模塊

[C.1頁面數據庫

（D.）頁面修改模塊

【答案】D

下列不屬于網頁的爬蟲策略的是O?

LA.]深度優先搜索策略

（B.1精確選擇搜索策略

1C.1廣度優先搜索策略

[D.]最佳優先搜索策略

【答案】B

下列不屬于通用網絡爬蟲的局限性的是（）?

[A.]無用網頁較多

[B.]對非結構化數據獲取相對?容易

[CJ難以支持基于語義信息的查詢

[D.）有限的網絡爬蟲服務器資源與無限的網絡數據資源之間的沖突

【答案】B

第13頁共74頁

下列屬于聚焦網絡爬蟲的特點的是()?

[A.]數量巨大

[B.]范圍較大

[C.1精準篩選

[D.]爬行速度慢

【答案】C

下列屬于淺聚焦網絡爬蟲的核心特點的是O?

[A.]數量巨大

[B.]范圍較大

(CJ精準篩選

[D.]選定URL種子

【答案】D

下列不屬于爬蟲對抓取目標的定義原則的是()？

[A.]目標網頁特征

[B.]目標數據量

(C.1目標數據模式

[D.]領域概念

【答案】B

下列不屬于網絡爬蟲的數據抓取方式的是()?

[A.]預先給定的初始抓取種子樣本

[B.]預先給定的網頁分類目錄和與分類目錄對應的種子樣本

[C.1通過用戶行為確定的抓取目標樣例

[D.]自行編寫種子樣本

【答案】D

下列不屬于NoSQL數據庫的特點的是()?

[A.]需預定義數據模型

【B.】支持透明橫向擴展

第14頁共74頁

[C.1將數據進行分區

【D.】保證最終一致性

【答案】A

下列不屬于NoSQL數據庫的存儲方式的是()?

[A.]行式存儲

[B.1鍵值式存儲

[C.1圖形式存儲

[D.]文檔式存儲

【答案】A

下列不屬于NoSQL數據庫的鍵值式存儲的常見形式的是()?

[A.]臨時型

[B.]附加型

【C.】混合型

[D.]永久型

【答案】B

下列不屬于數據庫架構混合應用模式的是O?

[A.]OldSQL+NewSQL混合模式

[B.]OldSQL+NoSQL+NewSQL混合模式

[C.1OldSQL+NoSQL混合模式

[D.)NewSQLd-NoSQL混合模式

【答案】B

下列不屬于大數據抽取方式的是O?

[A.]同構同質數據抽取

[B.]異構同質數據抽取

[C.1同構異質數據抽取

(D.)文件型數據抽取

【答案】B

第15頁共74頁

F列不屬于增量數據抽取特點的是O?

[A.]抽取發生變化的數據

[B.]快捷

[C.J處理量更多

[D.]需要與數據裝載時的更新策略相對應

【答案】C

下列不屬于地域空間可視化展現的功能的是()?

[A.]認識功能

[B.]模擬功能

[C.1載負功能

[D.]學習功能

【答案】D

時間戳是能表示一份數據在某個特定時間之前已經存在的、完整的、可驗證的一個數據,

其通常是()?

[A.]一個數據集

[B.]一個字符序列

[C.]一個日志文件

[D.]一段儲存代碼

【答案】B

下列不屬于基于時間戳的增量數據抽取方式的優點的是O?

[A.]性能優異

[B.]系統設計清晰

[C.J數據抽取簡單

[D.]對業務系統無其他要求

【答案】D

第16頁共74頁

卜.列不屬于MD5（消息摘要算法）的特點的（）?

[A.]對源系統的傾入性較小

[B.]被動地進行全表數據的比對

[CJ性能優異

[D.]準確性不穩定

【答案】C

下列不屬于數據清洗的是（）?

【A.】檢查數據的完整性

【BJ修改數據

[C.1填補數據

[D.]消除重復

【答案】B

下列不屬于數據質量的要素的是O?

[A.]準確性

[B.]完整性

[C.1異質性

【D.】及時性

【答案】C

下列不屬于數據質量一致性的是（）？

[A.]數據編碼一致性

[B.]數據大小一致性

[C.1指標統計一致性

[D.]指標計算一致性

【答案】B

【答案】D

第17頁共74頁

下列不屬于數據清洗算法標準的是O?

[A.]返回率

[B.]錯誤返回率

[C.1正確返回率

[D.]精確度

【答案】C

下列不會造成文本記錄重復相似的是O?

[A.]插入

[B.]交換

[C.J等價表述

【D.】刪除冗余

【答案】D

下列不屬于文本相似度計算的應用領域的是（）?

[A.]信息檢索

[B.]數據挖掘

【C.】文檔修改

[D.]機器翻譯

【答案】C

下列不屬于文本相似度計算流程的是O?

[A.]文本排序

[B.]文本分詞

[C.J統計詞頻

[D.]寫出詞頻向量

【答案】A

增量數據抽取方式只抽取O?

第18頁共74頁

[A.]PB級數據

[Bl不變數據

[C.l變化數據

[D.]有價值數據

【答案】C

數據清洗算法的衡量標準主要包含（）、錯誤返回率和精確度。

[A.]冗余度

[B.]返回率

[C.J可用性

[D.]一致性

【答案】B

下列不屬于數據轉換中適合對數轉換的數據是（）?

【A.】部分正偏態數據

[B.]等比數據

[C.J等差數據

[D.]數值相差不大的數據

【答案】C

下列不屬于數據轉換中適合平方根轉換的數據是（）?

[A.]泊松分布數據

[B.]輕度偏態數據

[CJ樣本方差和平均數呈現正相關的數據

[D.]數值相差不大的數據

【答案】D

噪聲是指測量數據中的O?

（A.1隨機誤差

[B.]均值

[C.J方差

[D.]極差

第19頁共74頁

【答案】A

下列不屬于地圖的構成要素的是()?

[A.]圖形要素

【B.】價格要素

[C.1數學要素

[D.]輔助要素

【答案】B

下列不屬于數據平滑方法的是O?

[A.]移動平均法

[B.]最大最小值標準化

[C.1指數平滑法

[D.]分箱平滑法

【答案】B

下列不屬于移動平均法的是O?

[A.]一次移動平均法

[B.1二次移動平均法

【C.】混合移動平均法

[D.]多次移動平均法

【答案】C

下列屬于一次移動平均法的適用范圍的是()?

[A.]水平變動的時間序列數據

[B.]長期變動趨勢的時間序列數據

[C.1循環性變動的時間序列數據

[DJ季節變動趨勢的時間序列數據

【答案】A

第20頁共74頁

下列屬于二次移動平均法的適用范圍的是（）?

[A.]水平變動的時間序列數據

[B.]長期變動趨勢的時間序列數據

[C.1循環性變動的時間序列數據

[D.]直線上升或下降趨勢的時間序列數據

【答案】D

下列不屬于指數平滑法的適用范圍的是（）?

[A.]穩定變化態勢的時間序列數據

[B.]不穩定變化的時間序列數據

[C.1規則變化的時間序列數據

（D.）直線上升或下降趨勢的時間序列數據

【答案】B

下列不屬于指數平滑法的適用范圍的是O?

[A.]近期趨勢預測

[B.]短期趨勢預測

[C.1中期趨勢預測

[D.]長期趨勢預測

【答案】D

下列不屬于分箱平滑法參照的是（）？

[A.]箱內數值的均值

[B.]箱內數值的中值

[C.1箱內數值的邊界值

[D.]箱內數值的方差

【答案】D

數據規范化是將原來的度量值轉換為O?

[A.]無量綱的值

[B.]原來度量值的均值

第21頁共74頁

[C.1原來度量值的方差

(D.J原來度量值的極差

【答案】A

下列不屬于數據規范化的作用的是O?

[AJ加快學習速度

[B.]規范事物概念

[C.1避免單位的影響

[D.]呈現數據的集中程度

【答案】D

假定某屬性x的最小值、最大值分別為12000和98000,將屬性x映射到[0,口中，根據

最小最大規范化方法，x的值73600(設定值)將轉換為()?

[A.]0.716

[B.]0.616

[C.]0.516

[D.]0.816

【答案】A

Z分數規范化方法依據的是原始數據的()?

[A.]均值和中位數

[B.]中位數和極差

[C.1極差和方差

[D.]均值和標準差

【答案】D

如果x的平均值和標準差分別為54000和16000o使用z分數規范化方法，x的值73600

被轉換為()?

[A.]1.125

[B.]1.025

[C.11.225

[D.]1.325

第22頁共74頁

【答案】C

Z分數規范化方法中對于離群點，均值絕對偏差相比標準差()?

[A.]更有效

[B.]更平穩

[C.J更精確

[D.]更魯棒

【答案】D

小數定標規范化方法中，其小數點移動的位數依賴于S?

[A.]最大絕對值

[B.]最小絕對值

[C.1均值絕對值

(D.)中位數絕對值

【答案】A

數據平滑方法主要有指數平滑法、移動平均法和O?

[A.]統計法

[B.1最短距離法

[C.1分箱平滑法

[D.]聚類方法

【答案】C

100

數據規范方法主要有最小最大規范法、z分數規范法和?)?

[A.]極差規范法

[B.]小數定標規范法

[C.1模糊規范法

[D.]聚類方法

【答案】B

101

第23頁共74頁

下列不屬于數據約簡策略的是（）?

[A.]特征約簡

[B.]樣本約簡

[C.J數值約簡

【DJ文本約簡

【答案】D

102

下列不屬于特征約簡的步驟的是（）?

【A.】搜索過程

[B.]填補過程

[C.J評估過程

[D.]分類過程

【答案】B

103

【答案】B

104

系統抽樣又稱之為（）?

[A.]隨機抽樣

[B.]等距抽樣

（C.J分層抽樣

[D.]類型抽樣

【答案】B

105

下列不屬于影響突出對比的可視化展現是（）？

[A.]比例選擇

[B.]顏色使用

[C.J圖形形狀

[D.J圖形內容

【答案】D

第24頁共74頁

106

下列不屬于檢驗假設方法的是O?

[A.]提出假設

[B.]選擇統計量

[C.J修正統計量

[DJ根據顯著性水平進行判斷

【答案】C

107

分層抽樣又稱之為O?

[A.]隨機抽樣

[B.]等距抽樣

[C.J系統抽樣

[D.]類型抽樣

【答案】D

108

數據立方體是一類多維矩陣，讓用戶從多個角度探索和分析數據集，通常是一次同時考慮

幾個維度()?

[A.]一個

兩個

[C.1三個

[D.]四個

【答案】C

109

三維的數據立方體看作是一組類似的互相疊加起來的()?

[A.]一維表格

[B.J二維表格

(C.J三維表格

[D.]四維表格

【答案】B

110

第25頁共74頁

【答案】C

111

維數災難通常是指在涉及()計算的問題中，隨著維數的增加，計算量呈指數倍增長的一

種現象。

[A.]數字

[B.J文木

[C.J向量

[D.]矩陣

【答案】C

112

下列不屬于維數災難問題的特點O?

[A.]計算量巨大

[B.]成本降低

[C.]結果不理想

[D.]無法反映數據的本質特征

【答案】B

113

下列不屬于數據約簡的特點O?

[A.]計算量巨大

[B.]成本降低

[C.1較少存儲量

[D.]方便分類

【答案】A

114

下列不屬于數據約簡的分類基準的是O?

[A.]約簡維數的大小

[B.1成本的大小

[C.J數據時序

[D.]有無監督信息

【答案】B

第26頁共74頁

115

卜.列不屬于數據約簡中有無監督信息分類的是O?

【AJ監督式維數約簡

[B.]半監督式維數約簡

[C1非監督式維數約簡

【DJ混合式維數約簡

【答案】D

116

下列不屬于無參數值約簡技術的是()?

[A.]直方圖

(B.1聚類

[C.1選擇

[D.]線性回歸模型

【答案】D

117

下列不屬于信息孤島帶來的問題的是()?

[A.]數據不能共享

[B.]冗余數據

[C.1數據優化

[D.1垃圾數據

【答案】C

118

數據集成最復雜和困難的任務是O?

[A.]數據插補

[B.]數據格式轉換

[C.1數據修改

[D.]冗余數據處理

【答案】B

119

下列不屬于數據集成的核心問題是O?

[A.]有效性

第27頁共74頁

[B.]異構性

[C.l分布性

[D.]自治性

【答案】A

120

下列不屬于數據集成的構成方式的是()?

[A.]聯邦數據庫集成模式

[B.1中間件集成模式

[C.1數據倉庫集成模式

[D.]地區數據庫集成模式

【答案】D

121

大數據需要分析的是O?

[A.]發展趨勢

[B.]發展現狀

(C.J發展模式

[D.]發展制度

【答案】A

122

大數據分析的核心是()?

[A.]數據收集

[B.]數據管理

[C.1數據挖掘

[D.]數據交易

【答案】C

123

下列不屬于數據挖掘的特點的是O?

[A.]數據量大

(B.]目標清晰

[C.1處理不同類型的數據

[D.]結果不易解釋

【答案】B

第28頁共74頁

124

F列屬于數據分析的特點的是()？

[A.]數據量大

[B.]目標不清晰

[CJ處理不同類型的數據

[D.]結果不防解釋

【答案】A

125

從分析的結果上看，大數據分析主要分為O?

[A.]探索性數據分析、證實性數據分析、定性數據分析

[B.]證實性數據分析、定性數據分析、離線數據分析

[C.1探索性數據分析、定性數據分析、離線數據分折

[D.]探索性數據分析、證實性數據分析、離線數據分析

【答案】A

126

從分析方式上看，大數據分析主要分為()?

[A.]在線數據分析、離線數據分析、交互式數據分析

[B.]交互式數據分析、在線數據分析、定性數據分析

[C.1定性數據分析、離線數據分析、交互式數據分析

[D.]離線數據分析、在線數據分析、定性數據分析

【答案】A

127

探索性數據分析是基于什么角度來說明數據分析方法的O?

[A.]數據本身

[B.]數據范圍

[C.1模型假設

[D.]統計推斷

【答案】A

128

第29頁共74頁

下列不屬于探索性數據分析的特點的是()?

[A.]分離出數據的模式

[B.]分離出數據的特點

[C.1揭示數據對模型的偏離

[D.]計算模型對數據的擬合度

【答案】D

129

下列不屬于探索性數據分析的內容的是()?

[A.]檢查數據錯誤

[B.]填補數據缺失

[C.1獲取數據分布特征

[D.]觀察數據規律

【答案】B

130

下列不屬于數據位置特征的是O?

[A.]均值

[B.]中位數

[C.3方差

[D.]四分位數

【答案】C

131

下列不屬于數據分散性特征的是O?

[A.]均值

[B.]極差

[CJ方差

[D.]變異系數

【答案】A

132

統計學是收集、分析、表述和O的科學?

[A.]整理數據

(B.1計算數據

【C.】填補數據

第30頁共74頁

[D.]解釋數據

【答案】D

133

統計的基礎是O?

[A.]統計工作

[B.]計算數據

[C.1統計數據

[D.]統計科學

【答案】A

134

下列不屬于模型的組成的是O?

[A.]目標

[B.]數據

[C.1變量

[D.]關系

【答案】B

135

下列不屬于相關系數的是（）?

[A.]簡單相關系數

[B.]復相關系數

[C.1典型相關系數

[D.]常態相關系數

【答案】D

136

下列不屬于相關分析的是O?

（A.1線性相關分析

[B.1復相關分析

[C.1偏相關分析

[D.]距離分析

【答案】B

第31頁共74頁

137

卜.列不屬于回歸分析的步驟的是O?

[A.]確定自變量與因變量

[B.]對變量進行分類

[CJ根據變量進行回歸建模

【》】模型檢驗

【答案】B

138

下列不屬于回歸分析的類別的是()?

[A.]一元回歸分析

(B.1二元回歸分析

[C.1多元回歸分析

[D.]線性回歸分析

【答案】B

139

下列不屬于判別分析的類別的是O?

[A.]兩組判別法

[B.]多組判別法

[C.1逐步判別法

【D.】面積判別法

【答案】D

140

下列不屬于判別方法的是()？

[A.]最大似然法

[B.]最小二乘法

[C.1距離判別法

[D.]貝葉斯判別法

【答案】B

141

Z分數規范化方法中，下列可以替換標準差的是()?

[A.]均值

第32頁共74頁

[B.]方差

[Cl極差

[D.]平均值絕對偏差

【答案】D

142

下列不屬于確定樣本子集大小的因素的是O?

[A.]計算成本

[B.]存儲要求

[C.1估計量的范圍

[D.]估計量的精度

【答案】C

二、判斷題

計算機科學是算法與算法變換的科學。（）

[A.]V

[B.]x

【答案】A

計算機科學是算法與算法變換的科學。

數據科學是通過科學方法探索數據，以獲得有價值的發現。（）

[A.]V

[B.]x

【答案】A

數據科學是通過科學方法探索數據，以獲得有價值的發現。

數據科學的發展不僅可以推動學科的發展，而且能夠助推相關產業的發展與進步。（）

[A.]V

[B.lx

【答案】A

數據科學的發展不僅可以推動數學、計算機科學、人工智能、統計學、天體信息學、生物

信息學、計算社會學等學科的發展，而且能夠大力助推用關產業的發展與進步。

第33頁共74頁

數據科學家不需要具備計算機科學、統計學的知識和應用領域的行業經驗。()

[A.]V

[B.]x

【答案】B

數據科學家需要具備計算機科學、統計學的知識和應用領域的行業經驗。

Cyber空間是指以計算機技術、現代通信網絡技術、虛擬現實技術等信息技術的綜合運用

為基礎，以知識和信息為內容的新型空間。()

[A.]V

[B.]x

【答案】A

Cyber空間是指以計算機技術、現代通信網絡技術、虛擬現實技術等信息技術的綜合運用

為基礎，以知識和信息為內容的新型空間。

數據能夠記錄人類的行為，包括工作、生活和社會的發展。()

[A.]V

[B.]x

【答案】A

數據能夠記錄人類的行為，包括工作、生活和社會的發展。

研究數據僅僅包括數據采集和數據分析。O

[A.]V

[B.]x

【答案】B

研究數據主要包括數據采集、數據存儲和數據分析。

數據加工與傳統數據處理的不同之處在于，其更加強調數據處理中的增值過程。()

[A.]V

[B.]x

【答案】A

數據加工與傳統數據處理的不同之處在于，其更加強調數據處理中的增值過程。

大數據只來自互聯網世界，O

第34頁共74頁

[A.]V

[B.]X

【答案】B

大數據主要來自互聯網世界與物理世界。

數據類型包括結構化數據、非結構化數據和半結構化數據。O

[AJJ

[B.]X

【答案】A

數據類型包括結構化數據、非結構化數據和半結構化數據。

網頁數據是一種半結構化數據。O

[A.]V

[B.]X

【答案】A

網頁數據就是一種典型的半結構化數據。

批量計算是一種在線計算，支持海量作業并發規模，系統自動完成資源管理、作業調度和

數據加載，并按實際使用量計費。O

[A.]V

[B.]X

【答案】B

批量計算是一種離線計算，

靜態數據是流式數據。O

[A.]V

[B.]X

【答案】B

靜態數據不是流式數據。

流式計算適用于無須先存儲，可以直接進行數據計算，實時性要求很嚴格，但對數據的精

確度要求較寬松的應用場景。O

[A.]V

[B.]X

第35頁共74頁

【答案】A

流式計算適用于無須先存儲，可以直接進行數據計算，實時性要求很嚴格，但對數據的精

確度要求較寬松的應用場景。

實時計算系統的設計需要考慮高延遲、高性能、分布式、可擴展、高容錯。O

[A.]V

[B1X

【答案】B

實時計算系統的設計需要考慮低延遲、高性能、分布式、可擴展、高容錯。

流式查詢主要有兩種方式，一種是指定查詢，另一種是即席查詢。()

[A.]V

[B.]X

【答案】A

流式查詢主要有兩種方式，一種是指定查詢，另一種是即席查詢。

流式數據的處理是批量處理。O

[A.]V

[B.]X

【答案】B

流式數據的處理也是連續處理，而不是批量處理。

流式計算不宜用持久穩定關系建模，而適用瞬態數據流建模。()

[A.]V

[B.]X

【答案】A

流式計算不宜用持久稽定關系建模，而適用瞬態數據流建模。

為了更有效地處理數據，應該盡可能地限制靜態數據。O

[A.]V

[B.]X

【答案】A

為了有效地處理數據，人們應該盡可能地限制靜態數據.

第36頁共74頁

大數據的無序性是指各數據流之間無序，而同一-數據流內部各數據元素之間是有序的。O

[A.]V

[B.]X

【答案】B

大數據的無序性是指各數據流之間無序，而同一數據流內部各數據元素之間也無序。

MapReduce由Map和Reduce兩個階段組成，用戶只需要編寫Map和Reduce兩個函數就可

以完成簡單的分布式程序的設計。()

[A.]V

[B.JX

【答案】A

MapReduce由Map和Reduce兩個階段組成，用戶只需要編寫Map和Reduce兩個函數就可

以完成簡單的分布式程序的設計。

Map相對獨立且并行運行，對存儲系統中的文件按列處理，并產生鍵值對。()

[A.]V

[B.JX

【答案】B

Map相對獨立且并行運行，對存儲系統中的文件按行處理，并產生鍵值對。

在Hadoop中，將每一次計算請求稱為一個作業。()

[A.]V

[B.]X

【答案】A

在Hadoop中，將每,次計算請求稱為?個作業。

與分布式文件系統相比，MapReduce框架可定制性強。1)

[A.]V

[B.]X

【答案】A

與分布式文件系統相比，MapReduce框架還有一個特點就是可定制性強。

第37頁共74頁

通常一個作業的輸入都是基于分布式文件系統的文件,而對于一個Map任務而言，它的輸

入是輸入文件的一個數據塊，或者是數據塊的一部分,也可跨越數據塊。O

[A.]V

[B.]X

【答案】B

通常一個作業的輸入都是基于分布式文件系統的文件,而對于一個Map任務而言，它的輸

入是輸入文件的一個數據塊，或者是數據塊的一部分,但通常不跨越數據塊。

Reduce任務與Map任務的最大不同是Map任務的文件都存儲于木地，而Reduce任務需要

到多處采集。()

[A.]V

[B.JX

【答案】A

Reduce任務與Map任務的最大不同是Map任務的文件都存儲于本地，而Reduce任務需要

到多處采集。

MapReduce模型適用場景的特點是任務可被分解成相互我系的子問題。()

[A.]V

[B.JX

【答案】B

MapReduce模型適用場景的特點是任務可被分解成相互獨立的子問題。

可視分析是一種獨立式的圖形用戶界面模型。()

[A.]V

[B.]X

【答案】B

可視分析是?種交互式的圖形用戶界面模型。

在單詞計數的Map過程中需要將文件進行按列分割。。

[A.]V

[B.lX

【答案】B

在單詞計數的Map過程中需要將文件進行按行分割。

第38頁共74頁

在單詞計數中，Reduce方法的輸入參數key為單個單詞，而value是由各Mapper類上對■應

單詞的計數值所組成的列表，所以只要遍歷value并求和，即可得到某個單詞出現的總次

數。()

[A.]V

[B.]X

【答案】A

在單詞計數中，Reduce方法的輸入參數key為單個單詞，而value是由各Mapper類上對應

單詞的計數值所組成的列表，所以只要遍歷value并求和，即可得到某個單詞出現的總次

數.

WordCount完成的功能是統計輸入文件中的每個單詞出現的頻率()

[A.]V

[B.]X

【答案】B

WordCount完成的功能是統計輸入文件中的每個單詞出現的次數。

在MapReduce程序執行過程中，用戶程序中的MapReduce類庫首先將輸入文檔進行分割,

用戶也可以通過設置參數對其大小進行控制()

[A.]V

[B.]X

【答案】A

在MapReduce程序執行過程中，用戶程序中的M叩Reduce類庫首先將輸入文檔進行分割,

用戶也可以通過設置參數對其大小進行控制。

在MapReduce程序執行過程中，由Master負責分配任務，分配的原則是Master選擇空閑

的Worker并為其分配一個Map任務或一個Reduce任務()

[A.]V

[B.]X

【答案】A

在M叩Reduce程序執行過程中，由Master負責分配任務，分配的原則是Master選擇空閑

的Worker并為其分配一個M叩任務或一個Reduce任務。

網站外部數據主要包括互我網環境數據、競爭對手數據、合作伙伴數據和用戶數據等。()

[A.]V

[B.]X

【答案】A

第39頁共74頁

網站外部數據主要包括互狹網環境數據、競爭對手數據、合作伙伴數據和用戶數據等。

在MapReduce程序執行過程中，Map和Reduce函數接攻的都是鍵值對。()

[A.]V

[B.]X

【答案】A

在MapReduce程序執行過程中，Map和Reduce函數接收的都是鍵值對。

MapReduce模型通過將數據集的大規模操作分發給網絡上的各節點，每個節點將已完成的

工作和狀態更新，周期性地報告給Worker。()

[A.]V

[B.]X

【答案】B

MapReduce模型通過將數據集的大規模操作分發給網絡上的各節點，每個節點將已完成的

工作和狀態更新，周期性地報告給Master。

M叩Reduce的基本原理就是將大數據分成小塊逐個分析，最后將提取出來的數據匯總分析,

進而獲得需要的結果。O

[A.]V

[B.]X

【答案】A

MapReduce的基本原理就是將大數據分成小塊逐個分析，最后將提取出來的數據匯總分析,

進而獲得需要的結果。

MapReduce模型中，Map針對每一個輸入元素都要生成一個輸出元素,Reduce針對每■個

輸入列表都要生成一個輸出元素。()

[A.]V

[B.]X

【答案】A

MapReduce模型中，Map針對每一個輸入元素都要生成一個輸出元素，Reduce針對每一個

輸入列表都要生成一個輸出元素。

通常情況下如果集群的規模在百個節點以上，MapReduce的速度可以和節點的數目成正比。

()

第40頁共74頁

[A.]V

[B.]X

【答案】A

通常情況下如果集群的規模在百個節點以上，MapReduce的速度可以和節點的數kl成正比。

由于集群模式和單節點模式運行Hadoop系統都需要使用SSH登錄，因此在安裝Hadoop系

統之前，首先需要安裝配置SSH協議。

[A.]V

[B.lX

【答案】A

由于集群模式和單節點模式運行Hadoop系統都需要使用SSH登錄，因此在安裝Hadoop系

統之前，首先需要安裝配置SSH協議。

獲取的數據是指已被轉換為電信號的各種物理量，如溫度、水位、風速、壓力等。O

[A.]V

[B.]X

【答案】A

獲取的數據是指已被轉換為電信號的各種物理量，如溫度、水位、風速、壓力等。

大數據的獲取要避免重復數據。O

[A.]V

[B.]X

【答案】A

大數據的獲取要避免重復數據。

在互聯網營銷中，用戶反饋承擔的核心任務是為產品收集用戶輿情信息。()

[A.]V

[B.lX

【答案】A

在互聯網營銷中，用戶反饋承擔的核心任務是為產品收集用戶輿情信息。

圖像數字化是進行數字圖像處理的前提。O

[A.]V

[B.]X

第41頁共74頁

【答案】A

圖像數字化是進行數字圖像處理的前提。

圖像數字化是將連續色調的模擬圖像經采樣量化后轉換成數字影像的過程。()

[A.]V

[B.]X

【答案】A

圖像數字化是將連續色調的模擬圖像經采樣量化后轉換成數字影像的過程。

圖像信息獲取的方法只有掃描技術。O

[A.]V

[B.]X

【答案】B

圖像信息獲取的主要方法是掃描技術，另一種方法是直接運用數字攝影技術。

圖形數字化是將圖形的連續模擬展轉換成離散的數字最的過程。()

[A.]V

[B.]X

【答案】A

圖形數字化是將圖形的連續模擬量轉換成離散的數字量的過程。

空間數據是一種用點、線、面以及實體等基本空間數據結構來表示自然世界的數據。O

[A.]V

[B.]X

【答案】A

空間數據是一種用點、線、面以及實體等基本空間數據結構來表示自然世界的數據。

空間數據的獲取不包括對多媒體數據進行獲取。()

[A.]V

[B.]X

【答案】B

空間數據獲取的任務包括對地圖數據、野外實測數據、空間定位數據、攝影測量與遙感圖

像、多媒體數據等進行獲取。

第42頁共74頁

網站內部數據是網站最容易獲取的數據，其通常存放在網站的文件系統或數據庫中，也是

與網站自身最為密切相關的數據，是網站分析最常用的數據來源。()

[A.]V

[B.]X

【答案】A

網站內部數據是網站最容易獲取的數據，其通常存放在網站的文件系統或數據庫中，也是

與網站自身最為密切相關的數據?，是網站分析最常用的數據來源。

網站數據采集只是將網站上的結構化數據從網頁中提取出來，并將其存儲到統一的本地數

據文件中。O

[A.]V

[B.]X

【答案】B

網站數據采集是將網站上的非結構化數據、半結構化數據和結構化數據從網頁中提取出來,

并將其存儲到統一的本地數據文件中。

網絡爬蟲的過程主要分為獲取網頁、解析網頁和存儲數據三部分，其是按照一定的獲取網

頁規則，自動地抓取互聯網數據的軟件。O

[A.]V

[B.]X

【答案】A

網絡爬蟲的過程主要分為獲取網頁、解析網頁和存儲數據三部分，其是按照一定的獲取網

頁規則，自動地抓取互聯網數據的軟件。

網絡爬蟲可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等。O

[A.]V

[B.]X

【答案】A

網絡爬蟲可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等。

網絡爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL,在抓取網頁的過程

中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的停止條件為止。()

[A.]V

[B.]X

第43頁共74頁

【答案】A

網絡爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL,在抓取網貝的過程

中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的停止條件為止。

通用網絡爬蟲又稱為全網爬蟲，其可將爬行對象從一些種子URL擴充到整個Web,主要為

門戶站點搜索引擎和大型Web服務采集數據。()

[A.]J

[B.]X

【答案】A

通用網絡爬蟲又稱為全網爬蟲，其可將爬行對象從一些種子URL擴充到整個Web,主要為

門戶站點搜索引擎和大型Web服務采集數據。

網頁的爬行策略可以分為深度優先搜索策略、廣度優先搜索策略、最佳優先搜索策略和反

向鏈接數搜索策略，其中深度優先搜索策略是最常使用的方法。＜)

[A.]V

[B.]X

【答案】B

網頁的爬行策略可以分為深度優先搜索策略、廣度優先搜索策略、最佳優先搜索策略和反

向鏈接數搜索策略，其中廣度優先搜索策略和最佳優先搜索策略是經常使用的方法。

聚焦網絡爬蟲又稱為主題爬蟲，是面向特定主題的一種網絡爬蟲程序。O

[A.]V

[B.JX

【答案】A

聚焦網絡爬蟲又稱為主題爬蟲，是面向特定主題的一種網絡爬蟲程序。

聚焦網絡爬蟲與通用網絡爬蟲的區別之處在于聚焦網絡爬蟲在實施網頁抓取時要進行主題

篩選，盡量保證只抓取與主題相關的網頁信息。O

[A.]V

[B.lX

【答案】A

聚焦網絡爬蟲與通用網絡爬蟲的區別之處在于聚焦網絡爬蟲在實施網頁抓取時要進行主題

篩選，盡量保證只抓取與主題相關的網頁信息

第44頁共74頁

網頁分析算法可以歸納為基于網絡拓撲、基于網頁內容和基于用戶訪問行為三種類型。()

[A.]V

[B.]X

【答案】A

網頁分析算法可以歸納為基于網絡拓撲、基于網頁內容和基于用戶訪問行為三種類型。

網絡拓補分析算法是基于網頁之間的鏈接，通過已知的網頁或數據對與其有直接或間接鏈

接關系的對象作出評價的算法，其又分為網頁粒度、網站粒度兩種算法。()

[A.]V

[B.]X

【答案】B

網絡拓補分析算法是基于網頁之間的鏈接，通過已知的網頁或數據對與其有直接或間接鏈

接關系的對象作出評價的算法，其又分為網頁粒度、網站粒度以及網頁塊粒度三種算法。

從應用的構建架構角度出發，我們可以將數據庫歸納為OldSQL數據庫、NoSQL數據庫和

NewSQL數據庫。()

[A.]V

[B.JX

【答案】A

從應用的構建架構角度出發，我們可以將數據庫歸納為OldSQL數據庫、NoSQL數據庫和

NewSQL數據庫。

OldSQL數據庫是指傳統的關系數據庫，NoSQL數據庫是指非結構化數據庫，而NewSQL數

據庫是介于OldSQL數據庫和NoSQL數據庫兩者之間的數據庫。()

[A.]V

[B.]X

【答案】A

OldSQL數據庫是指傳統的關系數據庫，NoSQL數據庫是指非結構化數據庫，而NewSQL數

據庫是介于OldSQL數據庫和NoSQL數據庫兩者之間的數據庫。

OldSQL數據庫適用于數據分析應用，NewSQL數據庫適用于事務處理應用，NoSQL數據庫

適用于互聯網應用。()

[A.]V

[B.]X

【答案】B

第45頁共74頁

OldSQL數據庫適用于事務處理應用，NewSQL數據庫適用于數據分析應用，NoSQL數據庫

適用于互聯網應用。

大數據可視分析通過交互可視界面來進行分析、推理和決策，可視分析與各個領域的數據

形態、大小及其應用密切相關。O

[A.]V

[B1X

【答案】A

大數據可視分析通過交互可視界面來進行分析、推理和決策，可視分析與各個領域的數據

形態、大小及其應用密切相關。

NoSQL主要指非關系型、分布式、不提供ACID特性的數據庫設計模式。()

[A.]V

[B.]X

【答案】A

NoSQL主要指非關系型、分布式、不提供ACID特性的數據庫設計模式。

NoSQL數據庫代表了一系列的、不同類型的相互關聯的數據存儲與處理的技術的集合。()

[A.]V

[B.]X

【答案】A

NoSQL數據庫代表了一系列的、不同類型的相互關聯的數據存儲與處理的技術的集合。

NoSQL數據庫與SQL數據庫顯著的區別是NoSQL數據庫不使用SQL作為查詢語言，其數據

存儲不使用固定的表格模式，具有橫向可擴展性的特征。()

[A.]V

[B.]X

【答案】A

NoSQL數據庫與SQL數據庫顯著的區別是NoSQL數據庫不使用SQL作為查詢語言，其數據

存儲不使用固定的表格模式，具有橫向可擴展性的特征.

NewSQL數據庫是指各種新型的可擴展/高性能數據庫，這類數據庫不僅具有NoSQL數據

庫對海量數據的存儲管理能力，還保持了傳統數據庫的AQD和SQL等特性。()

[A.]V

第46頁共74頁

[B.]X

【答案】A

NewSQL數據庫是指各種新型的可擴展/高性能數據庫，這類數據庫不僅具有NoSQL數據

庫對海量數據的存儲管理能力，還保持了傳統數據庫的ACID和SQL等特性。

在大數據抽取之前，無需清楚數據源的類型和數據的類型，可直接抽取。（）

[A.]J

[B.]X

【答案】B

在大數據抽取之前，需要清楚數據源的類型和數據的類型。

增量數據抽取機制能夠將業務系統中的變化數據按一定的頻率準確地捕獲到，同時不能對

業務系統造成太大的壓力，也不能影響現有業務。相對全量數據抽取，增量數據抽取的設

計更簡單。（）

[A.]V

[B.]X

【答案】B

增錄數據抽取機制能夠將業務系統中的變化數據按一定的頻率準確地捕獲到，同時不能對

業務系統造成太大的壓力，也不能影響現有業務。相對全量數據抽取，增量數據抽取的設

計更復:雜。

時間戳是能表示一份數據在某個特定時間之前已經存在的、完整的、可驗證的一個數據，

其通常是一個字符序列，唯一標識某一刻的時間。（）

[A.]V

[B.]X

【答案】A

時間戳是能表示?份數據在某個特定時間之前已經存在的、完整的、可驗證的?個數據，

其通常是一個字符序列，唯一標識某一刻的時間。

使用基于時間戳的增最數據抽取方式進行數據抽取時，系統通過比較上次抽取時間與時間

戳字段的值來決定抽取的數據。O

[A.]V

[B.]X

【答案】A

使用基于時間戳的增量數據抽取方式進行

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

2023-2024學年《大數據技術導論》模擬試卷及答案解析4

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

2023-2024學年《大數據技術導論》模擬試卷及答案解析4

文檔簡介

溫馨提示

最新文檔

評論

相關文檔