




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘課后習題第1章1、數據采集旨在找到可用于訓練模型的數據集,主要包括哪三種技術?()A.數據發現、數據增強、數據生成B.數據清洗、數據標注、數據預處理C.數據挖掘、模式識別、機器翻譯D.數據共享、數據檢索、數據合成2、以下哪個不是數據標注——基于眾包技術中提到的質量控制方法?()A.使用多個工人重復標注同一示例B.進行多數投票C.手動標注每一條實例D.有效地向工作人員提供如何執行標簽的說明3.請簡述數據挖掘的含義及其應用場景。4.請簡述數據挖掘的基本任務。5.請簡述數據挖掘的主要步驟。6.請列舉數據采集的主要方式。第2章1.關于數據歸約,以下說法錯誤的是?()A.數據歸約可以減少數據存儲空間B.數據歸約可以提高數據挖掘算法的效率C.數據歸約一定會導致信息丟失D.數據歸約是數據預處理的一個重要步驟2.在數據挖掘之前為什么要對原始數據進行預處理。3.請簡述數據集成可能會遇到的挑戰。4.現實世界中的數據在某些屬性上常常存在缺失值,請簡述處理該問題的各種方法。第3章1、下面列出的條目中,哪項不是數據倉庫的基本特征?()A.數據倉庫是面向主題的B.數據倉庫集成多個異構數據源C.數據倉庫的數據是相對穩定的D.數據倉庫的數據是反映歷史變化的2、下面的數據倉庫操作中,哪項不是多維數據模型上的OLAP操作?()A.上卷B.選擇C.下鉆D.旋轉3、以下哪種數據倉庫模式中,中心是一個事實表,周圍圍繞著多個維度表?()A.雪花模式B.事實星座模式C.星形模式D.以上都不是4、請簡述數據倉庫定義,并列舉利用維表和事實表處理多維數據模型的幾種常用模式。5、請列舉數據倉庫的四個特征及常見的OLAP操作。6、請簡述數據庫與數據倉庫的主要區別。第4章1.關聯規則挖掘的一般步驟不包括以下哪項?()A.數據預處理B.模型訓練C.產生頻繁項集D.生成規則2.在關聯規則挖掘中,支持度計數是指()A.項集在所有事務中出現的次數B.項集在部分事務中出現的次數C.項集在頻繁事務中出現的次數D.項集在非頻繁事務中出現的次數3.關聯規則挖掘設置較高的最小支持度閾值時,可能遇到什么問題?()A.忽略了稀疏但可能重要的模式B.發現更多的頻繁項集C.計算時間顯著增加D.提高了規則的置信度4.請簡述FP-Growth算法相比Apriori算法的優勢。5.假設最小支持度=60%,最小置信度=80%,根據下表計算購買行為的相關信息:(1)計算2-項集{O,K}的支持度;(2)列出所有頻繁項集;(3)規則{K,E}→Y是否成立。交易號(TID)商品(Items)1M,O,N,K,E,Y2D,O,N,K,E,Y3M,A,K,E4M,U,C,K,Y5C,O,K,I,E第5章1.數據挖掘中的分類任務與回歸任務的主要區別是什么?()A.分類任務的輸出是連續的,回歸任務的輸出是離散的。B.分類任務的輸出是離散的,回歸任務的輸出是連續的。C.分類和回歸任務的輸出都是連續的。D.分類和回歸任務的輸出都是離散的。2.決策樹分類中,以下哪種度量標準用于選擇最優特征進行節點分裂?()A.方差B.信息增益C.熵D.支持度3.支持向量機(SVM)在解決非線性可分問題時,通常使用哪種技術?()A.決策樹B.核函數C.聚類D.貝葉斯定理4.簡述決策樹定義及其構建方法。5.請簡述支持向量機的分類原理、構建方法。6.下表提供了一個關于是否要踢球的訓練數據集合,包含天氣、溫度、濕度、風力這四個屬性,其類別屬性為踢球,包含兩個不同的取值{yes,no}。天氣溫度濕度風力足球陰天熱高弱Yes晴天熱高弱No晴天熱高強No陰天熱正常弱Yes雨天溫暖高弱Yes晴天冷正常弱Yes雨天冷正常弱Yes雨天溫暖正常弱Yes雨天冷正常強No陰天冷正常強Yes晴天溫暖高弱No陰天溫暖高強Yes根據上面訓練數據集,采用樸素貝葉斯分類方法對下列未知樣本進行分類,并給出具體步驟,其中未知樣本為:X=(天氣=青托,溫度=溫暖,濕度=高,風力=強)第6章1.下列哪種聚類算法屬于劃分聚類算法?()A.K均值算法B.AGNES算法C.DBSCAN算法D.譜聚類算法2.下列選項中關于K-means算法描述錯誤的是()。A.簇數K必須是預先設定的B.聚類結果是全部最優解C.對噪聲和異常數據敏感D.不適合非凸形簇3.()是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。A.邊界點B.質心C.離群點D.中心點4.請列出分類或聚類算法的幾種評估方法。5.請簡述K-means的輸入、輸出及聚類過程。第7章1.下列哪種算法用于挖掘圖數據中的凝聚子圖?()A.Apriori算法B.Bron-Kerbosch算法C.K均值算法D.DBSCAN算法2.以下關于時間序列數據挖掘的描述,錯誤的是()A.時間序列數據挖掘可以用于預測未來趨勢B.時間序列數據挖掘可以發現數據中的周期性模式C.時間序列數據挖掘只能處理線性關系的數據D.時間序列數據挖掘可以進行異常檢測3.請簡述時間序列數據的特點及其應用場景。4.請簡述Spark與MapReduce相比的主要優勢。5.如何利用凝聚子圖挖掘技術來檢測社交網絡中的社區結構?第8章1.以下哪種數據可視化工具是基于Python的?()A.EchartsB.TableauC.MatplotlibD.PowerBI2.在數據可視化中,下列哪種圖表類型最適合用于比較不同類別之間的數據差異?()A.折線圖B.餅圖C.柱狀圖D.散點圖3.請列舉并簡述三種常見的數據可視化圖表類型及其適用場景。4.請列舉兩種可用于數據可視化的Python庫。5.請簡述數據可視化軟件Tableau的主要特點。第9章1.自然語言挖掘中,以下哪種技術常用于文本分類?()A.聚類分析B.決策樹分類C.卷積神經網絡D.基于規則的推理2.以下關于醫療大數據智能挖掘中電子病歷數據挖掘的描述,錯誤的是()A.命名實體識別可以識別病歷中的疾病名稱B.關系抽取可以確定病歷中疾病與癥狀之間的關系C.文本分類可以將病歷文檔
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公路工程執照考試的未來展望與試題及答案
- 計算機三級嵌入式行業趨勢分析試題及答案
- 行政理論全景式復習試題及答案
- 金屬制品行業綠色制造與環保政策研究考核試卷
- 計算機三級數據庫解題思路試題及答案
- 危運消防設備管理制度
- 單位資金使用管理制度
- 農村聚餐工作管理制度
- 商貿公司費用管理制度
- 醫院賬務預算管理制度
- 互聯網驅動的保險創新
- 汽車線控底盤與智能控制課件:線控懸架系統認知
- 2025年度數據中心10kv配電設備維保服務合同3篇
- 卸妝潔面知識培訓課件
- GB/T 42968.4-2024集成電路電磁抗擾度測量第4部分:射頻功率直接注入法
- 2025年中國wAMD治療藥物行業市場發展現狀及投資前景展望報告
- 質量投訴與改進管理制度
- 2025國網陜西電力省管產業單位供電服務業務部招聘(379人)高頻重點提升(共500題)附帶答案詳解
- 產褥期感染病人護理
- 《大數據導論》期末考試復習題庫(含答案)
- 2024年新技術、新產品、新工藝、新材料的應用培訓課件
評論
0/150
提交評論