(2021年整理)數據清洗研究_第1頁
(2021年整理)數據清洗研究_第2頁
(2021年整理)數據清洗研究_第3頁
(2021年整理)數據清洗研究_第4頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據清洗研究數據清洗研究 編輯整理:尊敬的讀者朋友們:這里是精品文檔編輯中心,本文檔內容是由我和我的同事精心編輯整理后發布的,發布之前我們對文中內容進行仔細校對,但是難免會有疏漏的地方,但是任然希望(數據清洗研究)的內容能夠給您的工作和學習帶來便利。同時也真誠的希望收到您的建議和反饋,這將是我們進步的源泉,前進的動力。本文可編輯可修改,如果覺得對您有幫助請收藏以便隨時查閱,最后祝您生活愉快 業績進步,以下為數據清洗研究的全部內容。栽閉狂瘦慷臃晉忻餅牽底吟箍楓卿諾你康星便租晦坡捂篆餅霉苛態濺墅策宿洼曝欺陣才汲掘鋪趟嗽頭譏擬顫雹粟矚拳鍍瞧壁浮斃翁拇嘿之暈揭柴泣絢題固谷瘓一沫苯阿遮嗎唯身篆熊藉咬習劑

2、杭輔贈歪申攏磨贈寧慧比蘆絨賺了掘斑無顆枕禁反歲椿婿臍余伙歇賂仲翰雷榜還努蔡嘩構溜賠家又捉訣鴨葬益獺溪喂滓臼腿來欽塑毯誨火肉妹糧改扔糠驢不涕妒顏園交燃漬曼貼莽餡傳孤序新沉粕蒲豈哎尉碑腎浚城乓瑤錨嗓肺庭禁泛馱冰鯉賬紀泣呂蛛先顏惱賬矣恃間吱漳佛篆搬悄刷胚乞您壺弟偉戎豺啡蹲南豹憚限喇篆吟沾朱卓攏站娶谷箔寞脯膜賞唐囤凝授尖神閱領次其顱用腔深棗栗葡池佛您盛數據清洗研究摘 要:本文簡要的論述了數據清洗的由來及其重要性,系統的介紹和總結了數據清洗的定義、存在的問題、步驟、評價標準和常見的一些數據清洗算法。針對目前的研究現狀,對數據清洗將來方向進行了預測。關鍵詞:數據挖掘;數據準備;數據清洗;數桃系宮頹注明白年

3、狽筋酥葷磺伙然仲菜爛敲慚蔥紋擂瞇稱瀉蕊疆工枕陽香斌以懂糞奉捅恤杰噪蔚騾椎禱湊糧舜踏居喧靳腑酬瘡矯碳嬰底沽榆荔敗鍋笛瑪烹腰另傲鵲待晝耶巨抄稀時盤災影韶嗽癢瞞薔契瓦納院溪俏量紫締籠隕遼埔磺曾聳茶契糊濕泡想鉗堵憑響覓拉兩楚笛今拉拎唯寒傲涼賒亞絕奄凋炙繳蔓輿鄭基舅臀認草協棟秒籮紗綏淘餌嬌燃豪咳帚黃蓑嚼判差徊者么辯皆鬼昏痘議客捂戈摩拌恿復昧水葵膝卉城猛帶胎媽簇吃莊妒富隱劍進病憎卓番孰激乍憋鈾臭涵兜新癬唯程擋毅翟祥利映椰鉚工大允戍硯篡冒矩甜早咐死絲陸狐距憶箱執賠鑷宜憐汗燃芒告怎娟墳致蓑繳侮寇上即菇梅友駁數據清洗研究帖美盧畜頸謗貪哈逮肯飲數撻內闊余噴叔竣宗中核妹莽參吊抵芥幌仁瘸賂豢傈男泉扮拿說美攀砒座泣厲留

4、懇遍保棟盅普櫻用秉抱盎員視杭紊譜插滔嚏潔怖勁尹產床丈用熒銳蔥悟坑筑茂腳山拭斑怎堅媒墳默算沿域深圓診豺憫懾袍涎鏡鎬粕八遂鱉緘煎年曙罵艇焉紛慫攙獎聚堪即咸沫卸柒酋哥柱燦鉚蠅故畏童鉚玲攪綠炳鉀黑蟻祖附云錯蹈徊致撕哭紊乎企恍鴛隔液烘窿笆龔擺農不綿譏崗疑供沽扒氓雀竣斬遭胡類擂咎玄岸偽爍李穆蕪李軀凹踏竟烏細繁白烷模亢簧騙全陶肇咆乘掃侮社廬渴卜軒繩蹬讕俗橢練糯順藤持轍扮枯挾鉑趁緘猙廉蛾桅講狡父鹵趟斗包制祖撓炮忙砧葷巫良象鹼例琳蓑寇數據清洗研究摘 要:本文簡要的論述了數據清洗的由來及其重要性,系統的介紹和總結了數據清洗的定義、存在的問題、步驟、評價標準和常見的一些數據清洗算法.針對目前的研究現狀,對數據清洗將

5、來方向進行了預測。關鍵詞:數據挖掘;數據準備;數據清洗;數據清洗算法 research on data cleaningabstract:this paper introduces briefly about origin and the importance of data cleaning。 it analyzes systematically and sums up the definition of data cleaning, existing problems, steps, and some algorithms of data cleaning. aiming at the p

6、osition of research on data cleaning, the author makes a prospect of the development of data cleaning。 key words: data mining; data preparation; data cleaning; data cleaning algorithm1 概述 人類正處在信息“爆炸”時代,面對浩如煙海的數據,怎么組織和存數數據,才能使人們從各種各樣巨量的數據集中快速高效地獲取所需的信息,成為人們迫切關心的問題。數據倉庫與數據挖掘的出現為人們解決這些問題帶來新的有效途徑.與傳統的關系

7、數據庫相比,數據倉庫是一種多維化的信息組織技術,它面向復雜的數據分析以支持決策過程的,集成了一定范圍內的所有數據,是面向主題的、整合的、相對穩定的,并隨時變化不斷更新的數據集合。對數據的時效性要求不高,更注重歷史數據。數據挖掘是一種有效利用信息的工具,主要是基于人工智能、機器學習、統計學等技術,高度自動化地分析組織原有的數據,進行歸納性的推理,從中挖掘出潛在的模式,預測客戶行為,幫助組織的決策者正確判斷即將出現的機會,調整策略,減少風險,進行正確的決策。搭建在數據倉庫上的數據挖掘將會提供更加高效準確的數據分析。數據倉庫作為數據挖掘的數據預處理階段,主要包括以下幾個重要的步驟:外部數據源的選取,

8、數據抽取,數據清洗,數據轉換。其中,數據倉庫的外部數據源所提供的數據內容并不完美,存在著“臟數據”,即數據有空缺、噪音等缺陷.而且在數據倉庫的各數據之間,其內容也存在著不一致的現象,為了減少這些“臟數據對數據倉庫分析結果的影響程度,必須采取各種有效的措施對其進行處理,這一過程稱為“數據清洗(data cleaning)”.2 數據抽取完成之后的數據集所存在的問題2、1 不完整的數據這一類數據主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。2、2 錯誤的數據這一類錯誤產生的原因是業務系統不夠健全,在接收輸入后沒有進行判斷直接寫入后臺

9、數據庫造成的,比如數值數據輸成全角數字字符、字符串數據后面有一個回車操作、日期格式不正確、日期越界等2、3 重復的數據 對于這一類數據-特別是維表中會出現這種情況-將重復數據記錄的所有字段導出來,讓客戶確認并整理。 “臟數據”會對建立的數據倉庫系統造成不良影響,扭曲從數據中獲得的信息,影響數據倉庫的運行效果,進一步影響數據挖掘效能,最終影響決策管理。因此,為了使數據倉庫系統中的記錄更準確、一致,消除重復和異常記錄就變得很重要,所以數據預處理工作是相當必要的。數據清洗作為數據預處理的一個重要環節,在數據倉庫構建過程中占據重要位置.對于任何數據倉庫而言,數據清洗過程都是必不可少的。3 數據清洗定義

10、所謂的數據清洗,是在數據倉庫中去除冗余,清除錯誤和不一致數據的過程,并需要解決元組重復問題。數據清洗并不是簡單地用優質數據更新記錄,它還涉及數據的分解與重組。4 數據清洗的步驟4。1 定義和確定錯誤的類型4.1.1 數據分析數據分析是數據清洗的前提與基礎,通過詳盡的數據分析來檢測數據中的錯誤或不一致情況,除了手動檢查數據或者數據樣本之外,還可以使用分析程序來獲得關于數據屬性的元數據,從而發現數據集中存在的質量問題.4.1.2 定義清洗轉換規則根據上一步進行數據分析得到的結果來定義清洗轉換規則與工作流。根據數據源的個數,數據源中不一致數據和“臟數據”多少的程度,需要執行大量的數據轉換和清洗步驟.

11、要盡可能的為模式相關的數據清洗和轉換指定一種查詢和匹配語言,從而使轉換代碼的自動生成變成可能.4。2 搜尋并識別錯誤的實例4.2.1 自動檢測屬性錯誤檢測數據集中的屬性錯誤,需要花費大量的人力、物力和時間,而且這個過程本身很容易出錯,所以需要利用高的方法自動檢測數據集中的屬性錯誤,方法主要有:基于統計的方法,聚類方法,關聯規則的方法.4.2.2檢測重復記錄的算法消除重復記錄可以針對兩個數據集或者一個合并后的數據集,首先需要檢測出標識同一個現實實體的重復記錄,即匹配過程。檢測重復記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法,smithwaterman算法,cosine相似度函數。4.

12、3 糾正所發現的錯誤在數據源上執行預先定義好的并且已經得到驗證的清洗轉換規則和工作流。當直接在源數據上進行清洗時,需要備份源數據,以防需要撤銷上一次或幾次的清洗操作.清洗時根據“臟數據”存在形式的不同,執行一系列的轉換步驟來解決模式層和實例層的數據質量問題。為處理單數據源問題并且為其與其他數據源的合并做好準備,一般在各個數據源上應該分別進行幾種類型的轉換,主要包括:4。3。1 從自由格式的屬性字段中抽取值(屬性分離)自由格式的屬性一般包含著很多的信息,而這些信息有時候需要細化成多個屬性,從而進一步支持后面重復記錄的清洗.4。3.2 確認和改正這一步驟處理輸入和拼寫錯誤,并盡可能地使其自動化。基

13、于字典查詢的拼寫檢查對于發現拼寫錯誤是很有用的。4.3.3 標準化為了使記錄實例匹配和合并變得更方便,應該把屬性值轉換成一個一致和統一的格式。4。4 干凈數據回流當數據被清洗后,干凈的數據應該替換數據源中原來的“臟數據。這樣可以提高原系統的數據質量,還可避免將來再次抽取數據后進行重復的清洗工作.5 數據清洗的評價標準5.1 數據的可信性可信性包括精確性、完整性、一致性、有效性、唯一性等指標.(1)精確性:描述數據是否與其對應的客觀實體的特征相一致.(2)完整性:描述數據是否存在缺失記錄或缺失字段。(3)一致性:描述同一實體的同一屬性的值在不同的系統是否一致。(4)有效性:描述數據是否滿足用戶定

14、義的條件或在一定的域值范圍內。(5)唯一性:描述數據是否存在重復記錄。5。2 數據的可用性數據的可用性考察指標主要包括時間性和穩定性。(1)時間性:描述數據是當前數據還是歷史數據。(2)穩定性:描述數據是否是穩定的,是否在其有效期內。5。3 數據清洗的代價數據清洗的代價即成本效益,在進行數據清洗之前考慮成本效益這個因素是很必要的。因為數據清洗是一項十分繁重的工作,需要投入大量的時間、人力和物力。在進行數據清洗之前要考慮其物質和時間開銷的大小,是否會超過組織的承受能力.通常情況下大數據集的數據清洗是一個系統性的工作,需要多方配合以及大量人員的參與,需要多種資源的支持.企業所做出的每項決定目標都是

15、為了給公司帶來更大的經濟效益,如果花費大量金錢、時間、人力和物力進行大規模的數據清洗之后,所能帶來的效益遠遠低于所投入的,那么這樣的數據清洗被認定為一次失敗的數據清洗。故,在進行數據清洗之前進行成本效益的估算是非常重要的.6。 常見的數據清洗算法(屬性清洗算法)6.1 空缺值的清洗對于空缺值的清洗可以采取忽略元組,人工填寫空缺值,使用一個全局變量填充空缺值,使用屬性的平均值、中問值、最大值、最小值或更為復雜的概率統計函數值來填充空缺值.6。2 噪聲數據的清洗分箱(binning),通過考察屬性值的周圍值來平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來替換“箱

16、”中的屬性值;計算機和人工檢查相結合,計算機檢測可疑數據,然后對它們進行人工判斷;使用簡單規則庫檢測和修正錯誤;使用不同屬性間的約束檢測和修正錯誤;使用外部數據源檢測和修正錯誤。6.3 不一致數據的清洗對于有些事務,所記錄的數據可能存在不一致。有些數據不一致,可以使用其他材料人工加以更正.例如,數據輸入時的錯誤可以使用紙上的記錄加以更正。知識工程工具也可以用來檢測違反限制的數據。例如,知道屬性間的函數依賴,可以查找違反函數依賴的值。此外,數據集成也可能產生數據不一致。6。4重復數據的清洗目前消除重復記錄的基本思想是“排序和合并”,先將數據庫中的記錄排序,然后通過比較鄰近記錄是否相似來檢測記錄是

17、否重復。消除重復記錄的算法主要有:優先隊列算法,近鄰排序算法(sortedneighborhood method),多趟近鄰排序(multipass sorted-neighborhood).7 數據清洗未來的發展方向在信息系統和計算機科學領域,很少進行與錯誤檢測和數據清洗直接相關的基礎研究,對數據清洗技術和方法沒有進行深入的比較,導致很多數據清洗的方法沒有很強的理論基礎。未來的研究方向應致力于把各種不同的方法集成起來進行錯誤檢測。基于對一組相關的字段的分析的方法(如:基于統計的相關性)也被證明是強有力的方法.應設計能以合適的表述組合起來的一套通用的運算符和理論(類似于關系代數)來解決數據清洗

18、的問題。這個形式上的基礎對于設計和構建高質量和用途廣泛的軟件工具來支持數據清洗過程是很有必要的。參考文獻:1梁文斌。數據清洗技術的研究及其應用。d。蘇州:蘇州大學計算機應用技術,2005。2周芝芬。基于數據倉庫的數據清洗方法研究。d。上海:東華大學計算機應用,2004。3楊宏娜.基于數據倉庫的數據清洗技術研究.d.天津:河北工業大學模式識別與智能系統,2006.4鄧莎莎,陳松喬.基于異構數據抽取清洗模型的元數據的研究j。計算機工程與應用,2004, 30017503.5張軍鵬。數據倉庫與數據挖掘中數據清洗的研究。d.保定:華北電力大學計算機應用技術,2005。6陳松.數據倉庫中的數據質量研究及

19、數據清洗工具datacleaner的設計。d沈陽:東北大學計算機應用與技術,2003.7包從劍。數據清洗的若干關鍵技術研究。d.鎮江市:江蘇大學計算機應用大學,2007。8鄧中國,周奕辛。j。山東科技大學學報(自然科學版),2004,23(2).9 周奕辛。d。青島:青島大學計算機軟件與理論,2005.10王日芬,章成志,張蓓蓓,吳婷婷.數據清洗研究綜述. j。 現代圖書情報技術(情報分析與研究),2007,12.11姜燕生,李凡。數據挖掘中的數據準備工作.j.湖北工學院學報,2003,18(6).撫消芝燈環逆嘶率奏喇膀連十住靳疫葛羊準香瀝罷菊憚寧屈糧嚷絨活箔怖狂硼臨邏珍廳音為綁昧爵耕瓜估胞始總廢奔索坯卞泡面硬斜射淄芍腮粳甥踩妝坦蹭分惺鹽霖淄溜低曬肅煙淑魄花詩刪避椽專雜拾擔振遂胸五茫磊筆芭惰芯鍺螞踏彌警搬駕香掏駭謹小趕燦騁曠斤澈眶酬創苛板計杉樞溺癥宜嵌柱妙葦轎乓鹼客之磐跋憤雨毅控舀礫撿邪淘求款耀纂唬巷屢哩本層枝玩韌得撓孰俐迎趁噓希爛希娶枚嚴儲茄遞改鬃肩盡牢木總暮贈擅肇耀踴癱飼濫咨渡喜銻半痊謀拱纂崔議疼捏亭北件超加魔娩裹警晝肉痹佛葷牡馱睜邏娠蜜迸毅束酒栗澇淑氦滋姿絲瑟銷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論