


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘習題二簡答:1. 何謂數據挖掘?它有哪些方面的功能?2. 何謂數據倉庫?為什么要建立數據倉庫?3. 常見的分箱方法有哪些?數據平滑處理的方法有哪些?4. 何謂數據規范化?規范化的方法有哪些?寫出對應的變換公式。數據挖掘討論題1、(20分)討論 ::下列每項活動是否是數據挖掘任務 ?簡單陳述你的理由。(a) 根據性別劃分公司的顧客。(b) 根據可贏利性劃分公司的顧客。(c) 預測投一對骰子的結果。使用歷史記錄預測某公司未來的股票價格簡答:5. 何謂數據挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、 人們事先不知道的、但又是潛在有用的信息和
2、知識的過程稱為數據挖掘。相關的名稱 有知識發現、數據分析、數據融合、決策支持等。數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、 孤立點分析以及偏差分析等。6. 何謂數據倉庫?為什么要建立數據倉庫?數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,為企業決策支持系統提供所需的集成 信息。建立數據倉庫的目的有 3個:一是為了解決企業決策分析中的系統響應問題,數據倉庫能提供比傳統事務數據庫更快的大規模決策分析的響應速度。二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統事務數
3、據庫不能直接提供的。三是解決決策分析對數據的特殊操作要求。決策分析是面向專業用戶而非一般業務員,需要使用專業的分析工具,對分析結果還要以商業智能的方式進行表現,這是 事務數據庫不能提供的。7. 常見的分箱方法有哪些?數據平滑處理的方法有哪些?分箱的方法主要有: 統一權重法(又稱等深分箱法) 統一區間法(又稱等寬分箱法) 最小熵法 自定義區間法數據平滑的方法主要有:平均值法、邊界值法和中值法。8. 何謂數據規范化?規范化的方法有哪些?寫出對應的變換公式。將數據按比例縮放(如更換大單位),使之落入一個特定的區域(如0.01.0),稱為規范化。規范化的常用方法有: 最大最小規范化:max-min .
4、x= (X。_mino) + min(ma/ _min0)(2)零均值規范化:x0_XX=(3) 小數定標規范化:x= xo/10數據挖掘討論題1、(10 分)討論 ::下列每項活動是否是數據挖掘任務 ?簡單陳述你的理由。(d) 根據性別劃分公司的顧客。不是。 數據挖掘是在大型數據存儲庫中, 自動地發現有用信息的過程。 數據挖掘技 術服務用來探查大型數據庫, 發現先前未知的有用模式。 還可以預測未來觀測結果, 例如,預測一位新的顧客是否會在一家百貨公司消費 100 美元以上。 但并非所有的 信息發現任務都被視為數據挖掘, 數據挖掘與信息檢索不同, 使用數據庫管理系統 查找個別的記錄,或通過因特
5、網的搜索引擎查找特定的 Web 頁面,則是信息檢索 領域的任務,它們主要依賴傳統的計算機科學技術和數據的明顯特征來創建索引結 構,從而有效地組織和檢索信息。 數據挖掘的任務可分為兩大類: 預測任務和描述 任務。主要任務有四種:聚類分析,關聯分析,異常檢測,和預測建模。其目的是 根據其它屬性的值, 預測特定屬性的值, 或導出概括數據中潛在聯系的模式, 主要 是預測某些信息。而根據性別劃分公司的顧客,只是一種簡單的數據庫查詢操作, 并沒有涉及預測分析。(e) 根據可贏利性劃分公司的顧客。不是。根據可贏利性劃分公司的顧客是使用閾值進行的一種統計計算。 它僅僅是根 據消費結果統計將原有顧客進行劃分,
6、只是一種統計的結果, 而沒有根據這些結果 的特點預測一個新的顧客的贏利性,這種預測才是數據挖掘。(f) 預測投一對骰子的結果。不是。 因為骰子的六個數值出現的可能性是相同的,這是一種概率計算, 如果結果出現的可能性是不確定的, 不相同的, 則更像是數據挖掘的任務, 但在很早以前利 用數學已經能夠很好的解決這個問題了。 所以預測投一對骰子的結果不屬于數據挖 掘的任務,不帶有發現新信息的預測特點。(g) 使用歷史記錄預測某公司未來的股票價格。這是數據挖掘的任務。 可以通過對歷史記錄特點的分析來創建一種模型預測未來的 公司的股票價格, 這是數據挖掘任務中預測建模的一個例子, 預測建模涉及以說明 變量函
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國套裝雨衣褲行業投資前景及策略咨詢報告
- 2025至2030年中國多層置物架行業投資前景及策略咨詢報告
- 2025至2030年中國分體式無磁智能IC卡熱能表行業投資前景及策略咨詢報告
- 閱覽室朗誦管理制度
- 非營利食堂管理制度
- 餐廳積分制管理制度
- 餐飲業財產管理制度
- 許昌電氣職業學院《砌體結構課程設計》2023-2024學年第二學期期末試卷
- 廣西交通職業技術學院《韓國社會與文化》2023-2024學年第二學期期末試卷
- 長春建筑學院《先秦漢魏文學研究》2023-2024學年第二學期期末試卷
- 《新能源材料概論》 課件 第3章 化學-電能轉換新能源材料
- 方形和圓筒形電容器對比
- DeepSeek從入門到精通培訓課件
- 統編版(2025版)七年級下冊道德與法治期末復習知識點背誦提綱詳細版
- 2025年中考生物考前必背全冊知識點梳理(全國)
- 護理文件書寫導致的糾紛
- 基于機器學習的糖尿病早期診斷模型及可解釋分析
- 2024年全國職業院校技能大賽高職組(研學旅行賽項)考試題庫(含答案)
- A3精益報告書培訓
- 路面硬化施工方案
- 學前教育安全標志課件
評論
0/150
提交評論