數據清洗與數據預處理_第1頁
數據清洗與數據預處理_第2頁
數據清洗與數據預處理_第3頁
數據清洗與數據預處理_第4頁
數據清洗與數據預處理_第5頁
已閱讀5頁,還剩59頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據清洗與數據預處理第1頁,共64頁,2023年,2月20日,星期六教學目標認識數據挖掘前數據進行適當處理的必要性掌握常用數據預處理的方法。第2頁,共64頁,2023年,2月20日,星期六教學要求知識要點能力要求相關知識點數據預處理的原因(1)了解原始數據存在的主要問題(2)明白數據預處理的作用和工作任務(1)數據的一致性問題(2)數據的噪聲問題(3)原始數據的不完整和高維度問題數據預處理的方法(1)掌握數據清洗的主要任務與常用方法(2)掌握數據集成的主要內容和常用方法(3)掌握數據變換的主要內容和常用方法(4)掌握數據歸約的主要內容和常用方法(1)數據清洗(2)數據集成(3)數據變換(4)數據歸約第3頁,共64頁,2023年,2月20日,星期六為什么要預處理數據?現實世界的數據是“骯臟的”不完整的含噪聲的不一致的沒有高質量的數據,就沒有高質量的挖掘結果高質量的決策必須依賴高質量的數據數據倉庫需要對高質量的數據進行一致地集成第4頁,共64頁,2023年,2月20日,星期六原始數據中存在的問題1.不一致——數據內涵出現不一致情況2.重復3.不完整——感興趣的屬性沒有值4.含噪聲——數據中存在著錯誤、或異常(偏離期望值)的數據5.高維度

第5頁,共64頁,2023年,2月20日,星期六

數據預處理的方法1.數據清洗去掉噪聲和無關數據2.數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲中3.數據變換把原始數據轉換成為適合數據挖掘的形式4.數據歸約主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等

第6頁,共64頁,2023年,2月20日,星期六數據清洗數據選取參考原則:1.盡可能賦予屬性名和屬性值明確的含義2.統一多數據源的屬性值編碼3.去除惟一屬性4.去除重復屬性5.去除可忽略字段6.合理選擇關聯字段進一步處理:通過填補遺漏數據、消除異常數據、平滑噪聲數據,以及糾正不一致的數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據

第7頁,共64頁,2023年,2月20日,星期六數據清洗——處理空缺值數據并不總是完整的在分析一個商場銷售數據時,發現有多個記錄中的屬性值為空,如:顧客的收入屬性對于為空的屬性值引起空缺值的原因設備異常與其他已有數據不一致而被刪除因為誤解而沒有被輸入的數據在輸入時,有些數據應為得不到重視而沒有被輸入對數據的改變沒有進行日志記載第8頁,共64頁,2023年,2月20日,星期六數據清洗——處理空缺值空缺值要經過推斷而補上1.忽略該記錄2.去掉屬性3.手工填寫空缺值4.使用默認值5.使用屬性平均值6.使用同類樣本平均值7.預測最可能的值第9頁,共64頁,2023年,2月20日,星期六數據清洗——噪聲數據的處理噪聲:在測量一個變量時可能出現的測量值相對于真實值的偏差或者錯誤。第10頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱分箱:把待處理的數據按照一定的規則放進一些箱子中,考察每一個箱子中的數據,采用某種方法分別對各個箱子中的數據進行處理。箱子:按照屬性值劃分的子區間,如果一個屬性值處于某個子區間范圍內,就稱把該屬性值放進這個子區間代表的“箱子”里。分箱技術需要確定的主要問題:分箱方法,即如何分箱數據平滑方法,即如何對每個箱子中的數據進行平滑處理第11頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱分箱的方法:分箱前對記錄集按目標屬性值的大小進行排序。等深分箱法等寬分箱法用戶自定義區間最小熵例:客戶收入屬性income排序后的值(人民幣元):800100012001500150018002000230025002800300035004000450048005000第12頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱等深分箱法(統一權重)按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱的權重,也稱箱子的深度。設定權重(箱子深度)為4,上述例子分箱后的結果如下。

箱1:800100012001500

箱2:1500180020002300

箱3:2500280030003500

箱4:4000450048005000第13頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱等寬分箱法(統一區間)在整個屬性值的區間上平均分布,即每個箱的區間范圍是一個常量,稱為箱子寬度。設定區間范圍(箱子寬度)為1000元人民幣,分箱后

箱1:80010001200150015001800

箱2:20002300250028003000

箱3:350040004500

箱4:48005000第14頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱最小熵使在各區間分組內的記錄具有最小的熵。信息是信號、符號或消息所表示的內容,用以消除對客觀事物認識的不確定性信息量的直觀定義:信息量的大小取決于信息內容消除人們認識的“不確定程度”,所消除的不確定程度越大,則所包含的信息量就越大。

第15頁,共64頁,2023年,2月20日,星期六熵——信息的度量(利用概率來度量)A到1000人的學校去找B。傳達室人告訴他,“B是信息管理系”,而管理系有100人。他獲得的信息是100/1000=0.1,也就是將可能性空間縮小到原來的1/10.用概率來表示:-log(1/10)=log10又有人告訴他:B在信息管理與信息系統教研室(10人),則第2個信息的確定性又縮小到原來的100/1000*10/100=10/1000,其信息量為

-log100/1000+(-log10/1000)=-log10/1000=log100只要可能性范圍縮小了,獲得的信息量總是正的。如果為0,獲得的信息為○。如果為負,反而擴大了其可能性范圍。第16頁,共64頁,2023年,2月20日,星期六熵——信息的度量信息量大小的單位用比特來衡量。1比特的信息量是指含有兩個獨立均等概率狀態的事件所具有的不確定性能被全部消除所需要的信息。信息量:

H(x)=-∑P(Xi)log2P(Xi)i=1,2,3,…,n

其中Xi表示第i個狀態(共n個狀態);

P(Xi)代表出現第i個狀態時的概率;

H(x)為消除不確定性所需的信息量,單位為比特(bit)。例如:幣下落可能有正反兩種狀態,出現這兩種狀態的概率都是1/2,即:則,H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]=-(-0.5-0.5)=1比特。同理可得,投擲均勻正六面體骰子的H(X)=2.6比特。第17頁,共64頁,2023年,2月20日,星期六例子硬幣下落:硬幣下落可能有正反兩種狀態,出現這兩種狀態的概率都是1/2。如果需要消除其不確定性,則就需要信息量:H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]

=-(-0.5-0.5)=1比特為1比特的信息。例2:張三到4000人的企業去找李四。當企業人事部門告訴張三:“李四是第四車間的”,而第四車間有1000人,如果第四車間的人告訴張三,李四在第三班,第三班共有125位員工,計算張三所獲得的信息量?第18頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——分箱用戶自定義區間

用戶根據需要自定義區間。用戶自定義:如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱后

箱1:800

箱2:100012001500150018002000

箱3:2300250028003000

箱4:35004000

箱5:450048005000第19頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——平滑處理分箱后對數據進行平滑處理3種進行數據平滑方法:①按平均值平滑對同一箱值中的數據求平均值,用平均值替代該箱子中的所有數據。②按邊界值平滑用距離較小的邊界值替代箱中每一數據。③按中值平滑

取箱子的中值,用來替代箱子中的所有數據。

第20頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——聚類簇:一組數據對象集合。同一簇內的所有對象具有相似性,不同簇間對象具有較大差異性。聚類:將物理的或抽象對象的集合分組為由不同簇,找出并清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。通過聚類分析發現異常數據:相似或相鄰近的數據聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數據對象,自然而然就被認為是異常數據。特點:直接形成簇并對簇進行描述,不需要任何先驗知識。第21頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——聚類第22頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——回歸回歸:發現兩個相關的變量之間的變化模式,通過使數據適合一個函數來平滑數據,即利用擬合函數對數據進行平滑。方法:線性回歸(簡單回歸):利用直線建模,將一個變量看作另一個變量的線性函數。

如:Y=aX+b,其中a、b稱為回歸系數,可用最小二乘法求得a、b系數。非線性回歸

第23頁,共64頁,2023年,2月20日,星期六噪聲數據的處理——回歸xyy=x+1X1Y2Y1’第24頁,共64頁,2023年,2月20日,星期六數據集成數據集成:將多個數據源中的數據整合到一個一致的存儲中1.模式匹配2.數據冗余3.數據值沖突第25頁,共64頁,2023年,2月20日,星期六數據集成——模式匹配整合不同數據源中的元數據。實體識別問題:匹配來自不同數據源的現實世界的實體,比如:A.cust-id=B.customer_no

。第26頁,共64頁,2023年,2月20日,星期六數據集成——數據冗余同一屬性在不同的數據庫中會有不同的字段名。一個屬性可以由另外一個表導出。如:一個顧客數據表中的平均月收入屬性,它可以根據月收入屬性計算出來。有些冗余可以被相關分析檢測到第27頁,共64頁,2023年,2月20日,星期六數據集成——數據值沖突對于一個現實世界實體,其來自不同數據源的屬性值或許不同。產生的原因:表示的差異、比例尺度不同、或編碼的差異等。例如:重量屬性在一個系統中采用公制,而在另一個系統中卻采用英制。同樣價格屬性不同地點采用不同貨幣單位。第28頁,共64頁,2023年,2月20日,星期六數據變換——平滑去除噪聲,將連續的數據離散化,增加粒度分箱聚類回歸第29頁,共64頁,2023年,2月20日,星期六數據變換——聚集對數據進行匯總avg(),count(),sum(),min(),max()…例如:每天銷售額(數據)可以進行合計操作以獲得每月或每年的總額。可以用來構造數據立方體第30頁,共64頁,2023年,2月20日,星期六數據變換——數據概化用更抽象(更高層次)的概念來取代低層次或數據層的數據對象例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國家。同樣對于數值型的屬性,如年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。第31頁,共64頁,2023年,2月20日,星期六數據變換——規范化將數據按比例進行縮放,使之落入一個特定的區域,以消除數值型屬性因大小不一而造成挖掘結果的偏差。如將工資收入屬性值映射到[-1.0,1.0]范圍內。方法:(1)最小-最大規范化(2)零-均值規范化(z-score規范化)(3)小數定標規范化第32頁,共64頁,2023年,2月20日,星期六最小-最大規范化已知屬性的取值范圍,將原取值區間[old_min,old_max]映射到new_min,new_max]保留了原來數據中存在的關系。但若將來遇到超過目前屬性[old_min,old_max]取值范圍的數值,將會引起系統出錯第33頁,共64頁,2023年,2月20日,星期六最小-最大規范化第34頁,共64頁,2023年,2月20日,星期六零-均值規范化(z-score規范化)根據屬性A的均值和偏差來對A進行規格化,常用于屬性最大值與最小值未知;或使用最大最小規格化方法時會出現異常數據的情況。第35頁,共64頁,2023年,2月20日,星期六零-均值規范化(z-score規范化)第36頁,共64頁,2023年,2月20日,星期六小數定標規范化通過移動屬性A值的小數位置,將屬性A的值映射到[0,1]之間,用小數的科學表示法來達到規格化的目的。移動的小數位數取決于屬性A絕對值的最大值。第37頁,共64頁,2023年,2月20日,星期六小數定標規范化第38頁,共64頁,2023年,2月20日,星期六數據變換——屬性構造利用已有屬性集構造出新的屬性,并加入到現有屬性集合中以幫助挖掘更深層次的模式知識,提高挖掘結果準確性。例如:根據寬、高屬性,可以構造一個新屬性:面積。第39頁,共64頁,2023年,2月20日,星期六數據歸約(數據消減)

對大規模數據庫內容進行復雜的數據分析通常需要耗費大量的時間。數據歸約(消減)技術用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果基本相同。第40頁,共64頁,2023年,2月20日,星期六數據歸約標準用于數據歸約的時間不應當超過或“抵消”在歸約后的數據上挖掘節省的時間歸約得到的數據比原數據小得多,但可以產生相同或幾乎相同的分析結果第41頁,共64頁,2023年,2月20日,星期六數據歸約的方法1.數據立方體聚集:2.維歸約3.數據壓縮4.數值歸約5.離散化和概念分層生成第42頁,共64頁,2023年,2月20日,星期六數據歸約——數據立方體聚集數據立方體基本概念:數據立方體是數據的多維建模和表示,由維和事實組成。維——屬性事實——數據數據立方體聚集定義——將n維數據立方體聚集為n-1維的數據立方體。第43頁,共64頁,2023年,2月20日,星期六數據歸約——數據立方體聚集第44頁,共64頁,2023年,2月20日,星期六數據歸約——數據立方體聚集聚集后的銷售數據立方體

第45頁,共64頁,2023年,2月20日,星期六下圖數據是某商場2000~2002年每季度的銷售數據,對這種數據進行聚集,使結果數據匯總每年的總銷售額,而不是每季度的總銷售額。聚集后數據量明顯減少,

但沒有丟失分析任務所需的信息。對年度內的

各季度數據進行

sum(求和)聚集數據歸約——數據立方體聚集第46頁,共64頁,2023年,2月20日,星期六下圖所示數據立方體用于某銷售企業每類商品在各分公司年銷售多維數據分析。每個單元存放一個聚集值,對應于多維空間的一個數據點。每個屬性可能存在概念分層,允許在多個抽象層進行數據分析。

2001年

568

750

150

50

四川河南湖北上海分公司

辦公用品

電話

計算機

打印機

2000年

2002年

型分公司西南華中華東四川河南湖北上海數據歸約——數據立方體聚集第47頁,共64頁,2023年,2月20日,星期六數據歸約——維歸約維歸約——去掉無關的屬性,減少數據挖掘處理的數據量。例如:挖掘顧客是否會在商場購買Mp3播放機的分類規則時,顧客的電話號碼很可能與挖掘任務無關,應該可以去掉。目標:尋找出最小的屬性子集并確保新數據子集的概率分布盡可能接近原來數據集的概率分布。第48頁,共64頁,2023年,2月20日,星期六維歸約——選擇相關屬性子集1.逐步向前選擇從一個空屬性集(作為屬性子集初始值)開始,每次從原來屬性集合中選擇一個當前最優的屬性添加到當前屬性子集中。直到無法選擇出最優屬性或滿足一定閾值約束為止。2.逐步向后刪除

從一個全屬性集(作為屬性子集初始值)開始,每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。3.向前選擇和向后刪除結合4.判定樹(決策樹)歸納利用決策樹的歸納方法對初始數據進行分類歸納學習,獲得一個初始決策樹,所有沒有出現這個決策樹上的屬性均認為是無關屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個較優的屬性子集。5.基于統計分析的歸約

第49頁,共64頁,2023年,2月20日,星期六數據歸約——數據壓縮數據壓縮——用數據編碼或者變換,得到原始數據的壓縮表示。在數據挖掘領域通常使用的兩種數據壓縮方法均是有損的:主成分分析法(PCA)

假定待壓縮的數據由N個取自k個維的元組或數據向量組成。主要成分分析并搜索得到c個最能代表數據的k維正交向量,這里

c≤k。這樣就可以把原數據投影到一個較小的空間,實現數據壓縮小波轉換第50頁,共64頁,2023年,2月20日,星期六數據歸約——數據壓縮壓縮算法分類:無損(loseless)壓縮:可以不丟失任何信息地還原壓縮數據。例如:字符串壓縮有廣泛的理論基礎和精妙的算法有損(lossy)壓縮:只能重新構造原數據的近似表示。例如:音頻/視頻壓縮有時可以在不解壓整體數據的情況下,重構某個片斷第51頁,共64頁,2023年,2月20日,星期六數據歸約——數值歸約數值歸約——用較小的數據表示數據,或采用較短的數據單位,或者用數據模型代表數據,減少數據量。常用的方法直方圖用聚類數據表示實際數據抽樣(采樣)4.參數回歸法第52頁,共64頁,2023年,2月20日,星期六利用分箱方法對數據分布情況進行近似數值歸約——直方圖(“頻率-值”對應關系圖)第53頁,共64頁,2023年,2月20日,星期六數值歸約——用聚類數據表示實際數據第54頁,共64頁,2023年,2月20日,星期六優點:獲取樣本的時間僅與樣本規模成正比方法:不放回簡單隨機抽樣放回簡單隨機抽樣聚類抽樣:先聚類,再抽樣分層抽樣:先分層,再抽樣數值歸約——抽樣(采樣)第55頁,共64頁,2023年,2月20日,星期六數值歸約——參數回歸法

通常采用一個模型來評估數據,該方法只需要存放參數,而不是實際數據。能大大簡少數據量,但只對數值型數據有效。方法:線性回歸非線性回歸第56頁,共64頁,2023年,2月20日,星期六不放回簡單隨機抽樣放回簡單隨機抽樣聚類抽樣分層抽樣第57頁,共64頁,2023年,2月20日,星期六

數據歸約——離散化與概念分層生成三種類型的屬性值:名稱型——e.g.無序集合中的值序數——e.g.有序集合中的值連續值——e.g.實數離散化技術以通過將屬性(連續取值)域值范圍分為若干區間,來幫助消減一個連續(取值)屬性的取值個數。概念分層概念分層定義了一組由低層概念集到高層概念集的映射。它允許在各種抽象級別上處理數據,從而在多個抽象層上發現知識。用較高層次的概念替換低層次(如年齡的數值)的概念,以此來減少取值個數。雖然一些細節在數據泛化過程中消失了,但這樣所獲得的泛化數據或許會更易于理解、更有意義。在消減后的數據集上進行數據挖掘顯然效率更高。概念分層結構可以用樹來表示,樹的每個節點代表一個概念。第58頁,共64頁,2023年,2月20日,星期六

數據歸約——概念分層生成第59頁,共64頁,2023年,2月20日,星期六數值數據的概念分層生成方法a.分箱屬性的值可以通過將其分配到各分箱中而將其離散化。利用每個分箱的均值和中數替換每個分箱中的值(利用均值或中數進行平滑)。循環應用這些操作處理每次操作結果,就可以獲得一個概念層次樹。b.直方圖循環應用直方圖分析方法處理每次劃分結果,從而最終自動獲得多層次概念樹,而當達到用戶指定層次水平后劃分結束。最小間隔大小也可以幫助控制循環過程,其中包括指定一個劃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論