大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用基礎(chǔ)知到智慧樹期末考試答案題庫2025年山東建筑大學需要轉(zhuǎn)換默認的seaborn繪圖風格,只需調(diào)用有參數(shù)設(shè)置的set方法。()

答案:錯邏輯回歸可用于解決類別超過3類的分類問題。()

答案:錯通過數(shù)學模型進行預(yù)測是科學方法,通過測量獲取經(jīng)驗數(shù)據(jù)進而預(yù)測不是科學方法。()

答案:錯運行網(wǎng)絡(luò)爬蟲程序時,必須保證瀏覽器正在運行。()

答案:錯計算線性回歸模型判定系數(shù)R方的方法是()。

答案:LinearRegression().score()計算機外存中保存的數(shù)據(jù)斷電后會消失。()

答案:錯解決數(shù)據(jù)倫理問題,最根本的是企業(yè)或組織堅守倫理底線,踐行科技向善的原則。()

答案:對網(wǎng)絡(luò)爬蟲能夠爬取互聯(lián)網(wǎng)上的任何數(shù)據(jù)。()

答案:錯維克托·邁爾·舍恩伯格(ViktorMayer-Sch?nberger)在《大數(shù)據(jù)時代:生活、工作與思維的大變革》中指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變是思維方式轉(zhuǎn)變,包括:()

答案:總體而非抽樣;效率而非精確;相關(guān)而非因果私有云和公有云在技術(shù)架構(gòu)上是相同的,只是服務(wù)的對象不同。()

答案:對電信運營商可以根據(jù)大數(shù)據(jù),發(fā)現(xiàn)有“離網(wǎng)”傾向的用戶。()

答案:對現(xiàn)實世界中直接采集到的數(shù)據(jù)大多是不完整、結(jié)構(gòu)不一致、含噪聲的數(shù)據(jù),無法直接用于數(shù)據(jù)分析或挖掘。()

答案:對物聯(lián)網(wǎng)是物物相連的網(wǎng)絡(luò),是互聯(lián)網(wǎng)的延伸。()

答案:對物聯(lián)網(wǎng)中每時每刻都在產(chǎn)生、傳輸海量數(shù)據(jù),是大數(shù)據(jù)的主要來源之一。()

答案:對爬蟲程序的不當使用包括()

答案:利用搶票軟件購票;在社交平臺自動“點贊”檢查HDFS中文件一致性狀況的命令是?()

答案:fsck有關(guān)文本分析的描述,不正確的是()。

答案:去除停用詞是指去除文本中包含信息較多、使用頻率又很高的詞有關(guān)K-means聚類命令sklearn.cluster.KMeans(),以下說法不正確的是()。

答案:可通過參數(shù)n_clusters指定初始聚類中心位置更改一個文件權(quán)限的命令是()。

答案:chmod無論是用戶,還是應(yīng)用程序,對文件的存取,都要通過操作系統(tǒng)來完成。()

答案:對文本文件中的數(shù)據(jù)的存儲結(jié)構(gòu)依賴應(yīng)用程序,所以文件不適合管理較大規(guī)模的數(shù)據(jù)。()

答案:對文本分析中的詞語分詞是指為詞語標注相應(yīng)詞性的過程。()

答案:錯文字出現(xiàn)之前,人類沒有使用數(shù)據(jù)的經(jīng)歷。()

答案:錯數(shù)據(jù)預(yù)處理的目的()

答案:清理“臟”數(shù)據(jù);抽取精準的數(shù)據(jù);調(diào)整數(shù)據(jù)格式;盡可能的簡化數(shù)據(jù);提高數(shù)據(jù)質(zhì)量數(shù)據(jù)集成的過程中需要處理的問題有()

答案:其余選項都是數(shù)據(jù)計量單位中,千字節(jié)是1000個字節(jié)。()

答案:錯數(shù)據(jù)計量單位中,T是G的()倍。

答案:1024數(shù)據(jù)節(jié)點(DataNode)的主要功能包括哪些?()

答案:負責數(shù)據(jù)的存儲和讀取;根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索;向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表數(shù)據(jù)的形式有:()。

答案:數(shù)值;文字;圖像;圖形;動畫;視頻;音頻數(shù)據(jù)挖掘指從大量數(shù)據(jù)中通過算法和分析工具獲得隱藏于其中的信息的過程。()

答案:對數(shù)據(jù)挖掘和機器學習是一個概念的不同表述。()

答案:錯數(shù)據(jù)歸約指數(shù)據(jù)降維,是從原有的數(shù)據(jù)中刪除不重要或不相關(guān)的屬性,或者通過對屬性進行重組來減少屬性的個數(shù)。()

答案:對數(shù)據(jù)庫管理系統(tǒng)的主要功能包括以下幾個方面()

答案:數(shù)據(jù)庫的建立與維護;數(shù)據(jù)定義;數(shù)據(jù)組織、存儲和管理;數(shù)據(jù)操作數(shù)字經(jīng)濟就是電子商務(wù)。()

答案:錯散點圖無法反映特征之間的統(tǒng)計關(guān)系。()

答案:錯折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢。()

答案:對當前,大數(shù)據(jù)安全已經(jīng)上升到了國家安全高度。()

答案:對當前,人們能夠基于數(shù)據(jù)總體(而不是抽取的樣本)進行分析,其原因包括()。

答案:獲取數(shù)據(jù)的能力空前提高(如傳感器能夠高速測量);分布式文件系統(tǒng)和分布式數(shù)據(jù)庫技術(shù)提供了理論上近乎無限的數(shù)據(jù)存儲能力;分布式并行程序設(shè)計框架MapReduce提供了強大的海量數(shù)據(jù)并行處理能力應(yīng)用程序刪除文件時,可以不使用操作系統(tǒng)的功能。()

答案:錯常見的數(shù)據(jù)質(zhì)量問題包括()

答案:噪聲;離群值;數(shù)據(jù)缺失;數(shù)值重復(fù)常用的流數(shù)據(jù)處理技術(shù)有()。

答案:Strom;SparkStreaming;Flink常用的中文停用詞列表包括()。

答案:哈工大停用詞表;四川大學機器智能實驗室停用詞表;百度停用詞表如果顧客的購物車中有多包羊肉片、糖蒜卻沒有火鍋蘸料,則在結(jié)賬時詢問是否需要蘸料,這一過程需要人工介入()

答案:錯大數(shù)據(jù)管理平臺技術(shù)的發(fā)展歷程為()。

答案:初始階段;開源階段;內(nèi)存計算階段;流處理階段大數(shù)據(jù)管理平臺技術(shù)可以應(yīng)用到下述哪些領(lǐng)域場景中()。

答案:互聯(lián)網(wǎng);交通;醫(yī)療;電信大數(shù)據(jù)的來源包括()。

答案:組織內(nèi)部的信息系統(tǒng);互聯(lián)網(wǎng)用戶;智能設(shè)備和傳感器;科學實驗大數(shù)據(jù)時代,數(shù)據(jù)類型繁多,半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)成為主流數(shù)據(jù)形式,而NoSQL數(shù)據(jù)庫沒有固定的表結(jié)構(gòu),數(shù)據(jù)約束也比較寬松,更適合海量的非結(jié)構(gòu)化數(shù)據(jù)存儲。()

答案:對基于文件的數(shù)據(jù)管理模式下,應(yīng)用程序要依賴文件的存儲結(jié)構(gòu),數(shù)據(jù)項位置發(fā)生變化時,應(yīng)用程序就要相應(yīng)改變。()

答案:對在詞頻統(tǒng)計中,對于文本行"hellohadoophelloworld",經(jīng)過WordCount的Reduce函數(shù)處理后的結(jié)果是()。

答案:<“hadoop”,1><“hello”,2><“world”,1>在實際應(yīng)用中,大數(shù)據(jù)處理主要包括以下哪三種類型?()

答案:復(fù)雜的批量數(shù)據(jù)處理:通常時間跨度在數(shù)十分鐘到數(shù)小時之間;基于歷史數(shù)據(jù)的交互式查詢:通常時間跨度在數(shù)十秒到數(shù)分鐘之間;基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)百毫秒到數(shù)秒之間在大數(shù)據(jù)時代,可視化技術(shù)可以支持實現(xiàn)哪些目標?()

答案:觀測、跟蹤數(shù)據(jù);分析數(shù)據(jù);輔助理解數(shù)據(jù);增強數(shù)據(jù)吸引力在Spark生態(tài)系統(tǒng)組件的應(yīng)用場景中,下列哪項說法是錯誤的?()

答案:SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘在seaborn中要移除圖形中的軸線,使用的方法是despine方法。()

答案:對在pyecharts中使用Barh類繪制水平柱狀圖。()

答案:錯在pandas中繪制水平柱狀圖需在plot函數(shù)中設(shè)置參數(shù)kind='barh'。()

答案:對在K-means聚類過程中,計算不同K值時的內(nèi)平方和WWS如下表所示,請問最優(yōu)K值是()。K值WWS值162.8212.339.449.359.269.1

答案:3在HDFS中負責保存文件數(shù)據(jù)的節(jié)點被稱為()。

答案:DataNode合理獲取數(shù)據(jù)的方法包括()

答案:直接獲取開放數(shù)據(jù);使用程序采集數(shù)據(jù)(數(shù)據(jù)生產(chǎn)者不反對的情況下);在合法平臺上購買數(shù)據(jù);有警示的情況安裝攝像頭采集數(shù)據(jù)可通過瀏覽器訪問SparkWebUI查看Spark集群狀態(tài),默認地址為主節(jié)點IP加端口號8080。

答案:對可用于計算邏輯回歸模型判別準確度的方法是()。

答案:LogisticRegression().score()可用于英文分詞的方法是()。

答案:nltk.word_tokenize()可用于統(tǒng)計詞頻的方法()。

答案:nltk.FreDist()利用邏輯回歸模型進行類別預(yù)測的方法是()。

答案:LogisticRegression.predict()利用線性回歸模型進行預(yù)測的方法是()。

答案:LinearRegression().predict()利用八爪魚采集器采集數(shù)據(jù)過程中,如果希望只采集滿足條件的部分數(shù)據(jù),可以嘗試通過判斷條件功能來完成。()

答案:對列族數(shù)據(jù)庫的查找速度快、可擴展性強、復(fù)雜性低,代表性的軟件有HBase、Cassandra等。()

答案:對關(guān)系型數(shù)據(jù)庫中,關(guān)系中每一列都應(yīng)是不可再分的基本屬性。()

答案:對關(guān)于服務(wù)器,正確的說法是()。

答案:是一臺或一組計算機;為其他客戶機提供服務(wù);具有強大的運算和輸入輸出能力關(guān)于數(shù)據(jù)庫,正確的說法是()。

答案:和文件一樣,都是存儲數(shù)據(jù)的載體;數(shù)據(jù)是組織的;可以被不同應(yīng)用程序以統(tǒng)一的方式進行訪問關(guān)于因果關(guān)系和相關(guān)關(guān)系,正確的描述是()

答案:因果關(guān)系是必然的、機理性的關(guān)系關(guān)于關(guān)系型數(shù)據(jù)庫,正確的說法是()。

答案:采用二維表來存儲數(shù)據(jù);二維表的列的次序不影響語義;二維表的列的名字不能重復(fù);一個數(shù)據(jù)庫可能包含多個二維表關(guān)于Linux操作系統(tǒng),正確的說法是()。

答案:是一款開源操作系統(tǒng),比閉源操作系統(tǒng)更安全;內(nèi)核由來自荷蘭的LinusBenedictTorvalds開發(fā)成功;每個人都可以閱讀該操作系統(tǒng)的源代碼保障大數(shù)據(jù)造福大眾的措施有()。

答案:技術(shù)進步;健全法律法規(guī);企業(yè)堅守自身倫理底線使用seaborn中的set_style()設(shè)置主題,有5個預(yù)設(shè)的主題。()

答案:對作為數(shù)字經(jīng)濟的關(guān)鍵生產(chǎn)要素,大數(shù)據(jù)資源具有可復(fù)制、可共享、無限增長和供給的稟賦。()

答案:對傳統(tǒng)的數(shù)據(jù)安全問題包括以下幾個方面()。

答案:計算機病毒;黑客攻擊;介質(zhì)損壞;人為失誤以下行為正確的是()。

答案:及時刪除不明電子郵件的附件;使用國產(chǎn)替換軟件以下屬于K-means聚類步驟的是()。

答案:隨機選取K個點作為每個類別的初始聚類中心;計算每個樣本點與K個聚類中心的距離;將每個樣本點分配給距離它最近的聚類中心對應(yīng)的那一簇,進而重新計算每個簇的聚類中心;反復(fù)迭代計算聚類中心,直到算法收斂以下哪項是數(shù)據(jù)節(jié)點的職責?()

答案:根據(jù)客戶端的請求執(zhí)行讀寫操作以下哪項是NameNode的職責()?

答案:管理文件系統(tǒng)命名空間以下哪個組件不屬于Spark生態(tài)()。

答案:YARN以下哪個方法可用于實現(xiàn)分類()。

答案:sklearn.linear_model.LogisticRegression()以下關(guān)于聚類的描述,正確的是()

答案:聚類的數(shù)據(jù)集只包含特征變量不包含類別變量以下關(guān)于繪圖標準流程的說法錯誤的是()。

答案:添加圖例可以在繪制圖形之前以下與物聯(lián)網(wǎng)相關(guān)的應(yīng)用場景是()。

答案:智慧公交;智能家居以下()屬于NoSQL數(shù)據(jù)庫。

答案:列族數(shù)據(jù)庫;文檔數(shù)據(jù)庫;鍵值數(shù)據(jù)庫從目錄/home/glxy/app切換到目錄/home/glxy/hadoop的相對路徑是()

答案:../hadoop云計算降低了計算資源的成本和技術(shù)壁壘,為大數(shù)據(jù)技術(shù)發(fā)展奠定了算力基礎(chǔ)。()

答案:對云計算的用戶知道哪臺服務(wù)器為他(她)提供了服務(wù)。()

答案:錯云計算的典型服務(wù)模式包括()。

答案:SaaS;IaaS;PaaS云計算是一種提供可伸縮的計算能力的服務(wù),使用者可以按需求量使用,按使用量付費。()

答案:對為了快速發(fā)展數(shù)字經(jīng)濟,可以允許一些平臺收集用戶的隱私信息。()

答案:錯下面有關(guān)邏輯回歸的描述,正確的是()。

答案:邏輯回歸用于解決二分類問題;邏輯回歸中的因變量Y取值為0或1;邏輯回歸中p(y=0)+p(y=1)=1;決策邊界的概率估計值p(y=0)=p(y=1)=0.5下面有關(guān)回歸分析的描述,正確的是()。

答案:回歸分析包括學習過程和預(yù)測過程;回歸分析的學習過程是利用有標簽的訓練數(shù)據(jù)集學習得到一個模型;回歸分析的預(yù)測過程是利用得到的模型對新樣本進行預(yù)測下面有關(guān)回歸分析的描述,不正確的是()。

答案:回歸分析屬于無監(jiān)督學習下面有關(guān)分類的描述,正確的是()。

答案:分類是一種監(jiān)督學習;分類問題的因變量是類別變量;分類包括學習過程和分類過程下面有關(guān)分類的描述,不正確的是()。

答案:分類是一種無監(jiān)督學習下面對甘特圖的敘述錯誤的是()。

答案:甘特圖的橫軸表示任務(wù);甘特圖的縱軸表示時間下面哪個程序負責HDFS數(shù)據(jù)存儲()。

答案:Datanode下面哪個Linux命令可以一次顯示文件的一頁內(nèi)容?()

答案:more下面與HDFS類似的框架是()?

答案:GFS下述哪些技術(shù)不屬于開源技術(shù)()。

答案:GFS下列選項中,獲取數(shù)據(jù)的直接來源的方法有()

答案:實驗檢測獲取數(shù)據(jù);問卷調(diào)查下列調(diào)查適宜用調(diào)查問卷的是()

答案:對你所在班級的學生最喜歡的體育活動進行調(diào)查;對上海市常住人口家庭收入情況進行調(diào)查下列說法中,哪些選項描述正確?()

答案:Spark在借鑒HadoopMapReduce優(yōu)點的同時,很好地解決了MapReduce所面臨的問題;Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作下列哪些選項屬于Hadoop的缺點?()

答案:表達能力有限;磁盤IO開銷大;延遲高;在前一個任務(wù)執(zhí)行完成之前,其他任務(wù)就無法開始,難以勝任復(fù)雜、多階段的計算任務(wù)下列參數(shù)中調(diào)整后顯示中文的是()。

答案:font.sans-serif下列函數(shù)中,可以設(shè)置坐標軸刻度標簽的是()。

答案:xticks()下列函數(shù)中,可以一次繪制多個子圖的是()。

答案:add_subplot()下列關(guān)于Spark的描述,錯誤的是哪一項?()

答案:Spark運行模式單一下列關(guān)于RDD說法,描述有誤的是?()

答案:RDD是可以直接修改的一般來說,組織內(nèi)部的信息系統(tǒng)產(chǎn)生的數(shù)據(jù)體量大,質(zhì)量不高。()

答案:錯一般來說,科學實驗產(chǎn)生的數(shù)據(jù)體量較小,質(zhì)量不高。()

答案:錯一般來說,智能機器產(chǎn)生的數(shù)據(jù)體量較小,質(zhì)量不高。()

答案:錯一般來說,和PaaS模式的云服務(wù)相比,使用SaaS云服務(wù),用戶需要自行管理更多的資源。()

答案:錯一種典型的數(shù)據(jù)處理使用模式是:首先使用()工具對原始海量數(shù)據(jù)進行分析,產(chǎn)生較小規(guī)模的數(shù)據(jù)集,再使用()工具對該數(shù)據(jù)集進行快速查詢,獲取最終結(jié)果。

答案:批處理、交互式處理一個爬蟲程序開發(fā)成功后,如果想爬取另一個網(wǎng)站,只需要修改目標的URL就可以。()

答案:錯ZooKeeper屬于大數(shù)據(jù)管理平臺的資源管理層。()

答案:對Spark的主要特點有()。

答案:性能高效;簡單易用;與Hadoop無縫集成Spark生態(tài)系統(tǒng)支持批處理、交互式處理和流處理。()

答案:對Spark提供了內(nèi)存計算,帶來了更高的迭代運算效率。()

答案:對seaborn的繪圖更加便捷美觀,是Matplotlib的替代。()

答案:錯Response類對象的下列屬性中,用于表示HTML代碼的是()

答案:textRDD(ResilientDistributedDataset)是運行在工作節(jié)點的一個進程,負責運行任務(wù)。()

答案:錯Python常用的中文分詞包是()。

答案:jiebapyecharts可基于Web瀏覽器顯示所繪制圖形。()

答案:對pandas的DataFrame對象的drop_duplicates可以刪除空數(shù)據(jù)行或列。()

答案:錯pandas庫中的DataFrame對象的replace方法可以替換指定數(shù)據(jù)。()

答案:對NoSQL是大數(shù)據(jù)時代的主流存儲方式,可以全面替代傳統(tǒng)的關(guān)系數(shù)據(jù)庫。()

答案:錯NameNode通過什么機制知道DataNode是活動的?()

答案:心跳mv命令可以移動文件和目錄,還可以為文件和目錄重新命名。()

答案:對Matplotlib中的plot模塊提供了一系列操作和繪圖函數(shù)。()

答案:錯Matplotlib中的()模塊提供了一系列操作和繪圖函數(shù)。

答案:pyplotMap階段的主要工作是將多個任務(wù)的計算結(jié)果進行匯總。()

答案:錯MapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù)。()

答案:對Linux的命令由連續(xù)的字符組成,命令和參數(shù)之間可以沒有空格。()

答案:錯Linux文件權(quán)限一共10位長度,第5到7位表示的內(nèi)容是()。

答案:文件所有者所在組的權(quán)限Linux操作系統(tǒng)的主要特點是()。

答案:免費;開源;多用戶多任務(wù);安全Linux中權(quán)限最大的賬戶是()。

答案:rootKafka主要解決了各個組件之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介問題。()

答案:對JamesNicholasGray總結(jié)的科學范式包括()。

答案:實驗科學(經(jīng)驗科學);理論科學;計算科學;數(shù)據(jù)密集型科學HDFS采用了什么模型?()

答案:主從結(jié)構(gòu)模型HDFS系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論