




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
主講:朱佳為什么需要數(shù)據(jù)預(yù)處理2在現(xiàn)實社會中,存在著大量的“臟”數(shù)據(jù)不完整性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)采集設(shè)備和數(shù)據(jù)錄入人員)
缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數(shù)據(jù),沒有詳細(xì)數(shù)據(jù)噪音數(shù)據(jù)(采集數(shù)據(jù)的設(shè)備、數(shù)據(jù)錄入人員、數(shù)據(jù)傳輸)數(shù)據(jù)中包含錯誤的信息存在著部分偏離期望值的孤立點不一致性(數(shù)據(jù)結(jié)構(gòu)的設(shè)計人員、數(shù)據(jù)錄入人員)數(shù)據(jù)結(jié)構(gòu)的不一致性Label的不一致性數(shù)據(jù)值的不一致性為什么需要數(shù)據(jù)預(yù)處理3數(shù)據(jù)挖掘的數(shù)據(jù)源可能是多個互相獨立的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫(DataCube)文件、文檔數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為了數(shù)據(jù)挖掘的方便海量數(shù)據(jù)的處理數(shù)據(jù)歸約(在獲得相同或者相似結(jié)果的前提下)沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須基于高質(zhì)量的數(shù)據(jù)基礎(chǔ)上數(shù)據(jù)倉庫是在高質(zhì)量數(shù)據(jù)上的集成數(shù)據(jù)預(yù)處理的主要任務(wù)4數(shù)據(jù)清理填入缺失數(shù)據(jù)平滑噪音數(shù)據(jù)確認(rèn)和去除孤立點解決不一致性數(shù)據(jù)集成多個數(shù)據(jù)庫、DataCube和文件系統(tǒng)的集成數(shù)據(jù)轉(zhuǎn)換規(guī)范化、聚集等數(shù)據(jù)歸約在可能獲得相同或相似結(jié)果的前提下,對數(shù)據(jù)容量進(jìn)行有效的縮減數(shù)據(jù)離散化對于一個特定連續(xù)屬性,尤其是連續(xù)數(shù)字屬性,可以把屬性值劃分成若干區(qū)間,以區(qū)間值來代替實際數(shù)據(jù)值,以減少屬性值的個數(shù).數(shù)據(jù)預(yù)處理的形式5數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)歸約缺失數(shù)據(jù)的處理方法6使用屬性的平均值填充空缺數(shù)值簡單方便、挖掘結(jié)果容易產(chǎn)生不精確的結(jié)果使用與給定元組同一個類別的所有樣本的平均值分類非常重要,尤其是分類指標(biāo)的選擇使用最有可能的值予以填充利用回歸、基于推導(dǎo)的使用貝葉斯形式化的方法的工具或者判定樹歸納確定利用屬性之間的關(guān)系進(jìn)行推斷,保持了屬性之間的聯(lián)系噪音數(shù)據(jù)7噪音數(shù)據(jù):一個度量(指標(biāo))變量中的隨機錯誤或者偏差主要原因數(shù)據(jù)采集設(shè)備的錯誤數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題部分技術(shù)的限制數(shù)據(jù)轉(zhuǎn)換中的不一致
數(shù)據(jù)清理中所需要處理的其它問題重復(fù)的記錄不完整的數(shù)據(jù)不一致的數(shù)據(jù)噪音數(shù)據(jù)的處理8分箱(Binning)的方法聚類方法檢測并消除異常點線性回歸對不符合回歸的數(shù)據(jù)進(jìn)行平滑處理人機結(jié)合共同檢測由計算機檢測可疑的點,然后由用戶確認(rèn)分箱方法2023/5/159基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值基本步驟首先,對數(shù)據(jù)進(jìn)行排序,并分配到具有相同寬度/深度的不同的“箱子”中。其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進(jìn)行平滑處理。分箱(Binning)方法舉例10對數(shù)據(jù)進(jìn)行排序:4,8,9,15,21,21,24,25,26,28,29,34對數(shù)據(jù)進(jìn)行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據(jù)bin中的平均值進(jìn)行離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司臘八促銷活動方案
- 公司物業(yè)送花活動方案
- 公司歡迎晚會策劃方案
- 公司聚餐寫活動方案
- 公司生日會小策劃方案
- 公司淘寶推廣活動方案
- 公司旅游營銷策劃方案
- 2025年在線教育平臺運營考試試卷及答案
- 2025年智能制造及工程技術(shù)考試題及答案
- 2025年信貸風(fēng)險管理師職業(yè)資格考試試題及答案
- GB/T 12149-2017工業(yè)循環(huán)冷卻水和鍋爐用水中硅的測定
- 斷絕子女關(guān)系協(xié)議書模板(5篇)
- 成都小升初數(shù)學(xué)分班考試試卷五
- Q∕SY 01007-2016 油氣田用壓力容器監(jiān)督檢查技術(shù)規(guī)范
- 水利水電 流體力學(xué) 外文文獻(xiàn) 外文翻譯 英文文獻(xiàn) 混凝土重力壩基礎(chǔ)流體力學(xué)行為分析
- 零星維修工程項目施工方案
- 物流公司超載超限整改報告
- 起重機安裝施工記錄表
- 江蘇省高中學(xué)生學(xué)籍卡
- 碳排放問題的研究--數(shù)學(xué)建模論文
- 贏越酒會講解示范
評論
0/150
提交評論