數據挖掘2第二章數據預處理_第1頁
數據挖掘2第二章數據預處理_第2頁
數據挖掘2第二章數據預處理_第3頁
數據挖掘2第二章數據預處理_第4頁
數據挖掘2第二章數據預處理_第5頁
已閱讀5頁,還剩63頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主要內容ECUST--JingZhang1為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結為什么要數據預處理?ECUST--JingZhang2真實世界的數據是“臟的”不完整:有些感興趣的屬性缺少屬性值,或者僅僅具備聚集數據,而非具體數據噪聲:包含錯誤或者存在偏離期望值的離群值不一致性:在代碼或者名稱上存在差異沒有高質量的數據,也就沒有高質量的挖掘結果!高質量的決策必須依賴于高質量的數據數據倉庫也需要高質量的數據如何衡量數據的質量?ECUST--JingZhang3如何衡量數據的質量?準確性(Accuracy)完整性(Completeness)一致性(Consistency)時效性(Timeliness)可信性(Believability)可解釋性(Interpretability)數據預處理中的主要任務4數據清理(Datacleaning)填充缺失值,平滑噪聲數據,鑒別或者移除離群點,糾正不一致性問題數據集成(Dataintegration)從多個數據庫,數據立方體(cube)或者文件中集成數據變換(Datatransformation)規范化和聚集數據歸約(Datareduction)減少數據的字段數目,但是仍然產生相同或者近似的分析結果數據離散化(Datadiscretization)數據歸約的一部分,對于從數值數據自動產生概念分層非常有用數據預處理的形式ECUST--JingZhang5數據預處理ECUST--JingZhang6為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結描述性數據匯總描述性數據匯總獲得數據的總體印象識別數據的典型性質,凸顯噪聲或離群點度量中心趨勢度量均值(mean)中位數(median)眾數(mode)中列數(midrange)離中心趨勢度量四分位數(quartiles)四分位數極差(interquartilerange,IQR)方差(variance)7度量數據的中心趨勢均值(Mean)

:代數度量加權算術平均(Weightedarithmeticmean):截斷均值(Trimmedmean):去除極端值注:分布式度量:是一種通過如下方法計算度量:將數據集劃分成較小的子集,計算每個子集的度量,然后合并計算結果,得到原(整個)數據集的度量值。如sum(),count()代數數量:可以通過應用一個代數函數于一個或多個分布度量計算的度量。如mean()度量數據的中心趨勢中位數(Median):整體度量如果總數為奇數,則為中間那個數;如果為偶數,則為中間兩個值的平均值對于已經按照某值劃分的組數據,可以利用插值計算中位數的近似值:L1是中位數區間的下界,N是整個數據集的值的個數,是低于中位數區間的所有區間的頻率和,是中位數區間的頻率,width是中位數區間的寬度。(34)9度量數據的中心趨勢眾數(Mode):整體度量數據集中出現頻率最高的值單峰Unimodal,雙峰bimodal,三峰trimodal對于適度傾斜(非對稱)的單峰頻率曲線,有如下經驗關系:中列數(Midrange):代數度量數據集的最大和最小值的平均值ECUST--JingZhang1004February2023DataMining:ConceptsandTechniques11

對稱數據vs.傾斜數據對稱與正傾斜和負傾斜數據的中位數、均值和眾數positivelyskewednegativelyskewedsymmetric12度量數據的離散程度極差(range),四分位數(Quartiles),離群點(outliers)和盒圖(boxplots)Range(極差):max()-min()Quartiles(四分位數):Q1(25thpercentile),Q3(75thpercentile)Inter-quartilerange(中間四分位數極差):IQR=Q3–

Q1Fivenumbersummary(五數概括):min,Q1,median,

Q3,maxBoxplot(盒圖):盒的端點是四分位數;中位數用盒內的線標記;僅當最小最大觀測值超過四分位數不到1.5xIQR時,盒外的兩條線延伸到最小和最大觀測值,否則,胡須出現在四分位數的1.5xIQR之內的最極端的觀測值處終止;離群點單獨表示。Outlier(離群值):通常為高于/低于1.5xIQR的值。13

盒圖分析Five-numbersummaryofadistributionMinimum,Q1,Median,Q3,MaximumBoxplotDataisrepresentedwithaboxTheendsoftheboxareatthefirstandthirdquartiles,i.e.,theheightoftheboxisIQRThemedianismarkedbyalinewithintheboxWhiskers:twolinesoutsidetheboxextendedtoMinimumandMaximumOutliers:pointsbeyondaspecifiedoutlierthreshold,plottedindividually度量數據的離散程度方差(Variance)和標準差(standarddeviation)Variance:(algebraic,scalablecomputation)Standarddeviation

σ

isthesquarerootofvarianceσ2作為發散性度量,標準差的基本性質如下σ是關于均值的發散,僅當選擇均值作為中心度量時使用。僅當不存在發散時,即當所有的觀測值具有相同值時,σ=0,否則σ>0。ECUST--JingZhang14數據預處理ECUST--JingZhang15為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結數據清理ECUST--JingZhang16數據清理任務填充空缺值平滑噪聲數據糾正不一致的數據空缺值17數據不總是可用的很多記錄的許多屬性難以獲取,比如:在銷售數據中客戶的收入情況很難掌握。數據缺省的原因裝備的故障由于和其他數據不一致而被刪除了由于理解錯誤而未被錄入某些數據在錄入的時候并不認為是重要的,因此沒錄入沒有注冊歷史或者數據改變了…….空缺的數據可能需要被推斷出來空缺值18忽略該記錄:當類標號缺少時通常這樣做(假定挖掘任務涉及分類或者描述)。除非元組有多個屬性缺少值,否則該方法不是很有效。當每個屬性缺少值的百分比變化很大時,它的性能非常差。人工填寫空缺值:一般地說,該方法很費時,并且當數據集很大、缺少很多值時,該方法可能行不通。使用一個全局的常量填寫空缺值,例如“unknown”,但是這可能會引入一個新類型?!使用屬性的中心度量(如均值、中位數)填充空缺值使用與給定元組屬同一類的所有樣本的屬性均值或中位數:例如,若將顧客按credit_risk分類,使用具有相同信用度的顧客的平均收入替換income中的空缺值使用最可能的值去填充空缺值:基于推導的使用貝葉斯公式或者決策樹噪聲數據ECUST--JingZhang19噪聲(noise):

是一個測量變量中的隨機錯誤或偏差不正確的屬性值可能導致數據轉換問題技術限制命名轉換過程的不一致性其他需要數據清理的數據問題重復記錄不完整數據不一致數據如何處理噪聲數據?ECUST--JingZhang20分箱(binning)首先,把數據排序,把排序后數據分到等深的箱中接著,用按箱平均值、中心值、邊界值等平滑技術平滑化數據聚類檢測和移除離群點回歸利用回歸函數填充數據,從而平滑化數據簡單離散化方法:分箱ECUST--JingZhang21等寬劃分將整個區域劃分成N個相同大小的間隔若A和B是這個屬性的最小值和最大值,則各個間隔的寬度為:W=(B-A)/N.等寬分箱法是最直接的分箱方法但是離群點可能會影響表示傾斜的數據并不能夠很好地被處理等深劃分將整個區域劃分為N個間隔,各個間隔中所包含的樣本數目大致相同具有較好的數據擴展性數據平滑的分箱方法22

price的排序后數據(美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:-箱1:4,8,15-箱2:21,21,24-箱3:25,28,34用箱平均值平滑:-箱1:9,9,9-箱2:22,22,22-箱3:29,29,29用箱邊界值平滑:-箱1:4,4,15-箱2:21,21,24-箱3:25,25,34聚類分析ECUST--JingZhang23回歸ECUST--JingZhang24數據預處理ECUST--JingZhang25為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結數據集成26數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲(如數據倉庫)中模式集成從不同的數據源集成元數據實體識別問題:來自多個信息源的現實世界的實體如何才能“匹配”?例如,A.cust-idB.cust-number數據沖突的檢測與處理對于現實世界的同一實體,來自不同數據源的屬性值可能不同可能原因:不同的表示方式,不同的度量標準,例如公制單位和英制單位處理數據集成中的冗余數據當多個數據庫的數據集成時,會產生冗余數據在不同數據庫中,相同的屬性可能具備不同的名稱一個屬性可能由另外一張表的多個字段推導出,例如:年收入有些冗余可以被相關分析檢測到對多數據源中的數據進行仔細的數據集成,可以減少/避免冗余和矛盾,并且能提高挖掘的速度和質量ECUST--JingZhang2728相關分析(數值數據)相關系數(Correlationcoefficient)(alsocalledPearson’sproductmomentcoefficient)其中n是元組個數,

分別是p和q的平均值,σp是

σq分別是p和q的標準差,Σ(pq)是pq叉積的和(即,對于每個元組,A的值乘以該元組B的值)。如果rp,q>0,p與q正相關,值越大,相關性越強.rp,q=0:相互獨立;rp,q<0:負相關。29相關分析(離散數據)Χ2(chi-square)testΧ2

值越大,兩個變量越相關實際值與期望值差別越大,則其對Χ2

值貢獻越大。相關性不包含因果性例如:醫院是的數量與偷車賊的數量是相關的,實際上它們都與另一個變量相關:人口數量數據變換ECUST--JingZhang30平滑:去掉數據中的噪聲聚集:對數據進行匯總和聚集離散化:數值屬性的原始值用區間標簽或概念標簽替換規范化:將屬性數據按比例縮放,使之落入一個小的特定區間屬性構造:由給定的屬性構造新的屬性,并添加到屬性集中由標稱數據產生概念分層:用高層次概念替換低層次“原始”數據。數據變換:規范化31最小-最大規范化將A的值v映射到區間[new_minA,new_maxA]中的v’z-score規范化屬性A的值基于A的平均值和標準差規范化,A的值v被規范化為v’。小數定標規范化通過移動屬性A的小數點的位置進行規范化。小數點的移動位數依賴于A的最大絕對值。A的值v被規范化為v’。其中,j

是使得Max(||)<1的最小整數。數據預處理ECUST--JingZhang32為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結數據歸約策略

ECUST--JingZhang33數據倉庫可以存儲數千兆字節的數據:在海量數據上進行復雜數據分析和數據挖掘需要很長時間數據歸約數據歸約技術可以用來得到數據集的規約表示,它在規模上要小得多,但能產生同樣(或幾乎同樣的)的分析結果數據歸約策略維規約:減少所考慮的隨機變量或屬性的個數數量規約:用替代的、較小的數據表示形式替換原數據數據壓縮:使用變換以得到元數據的規約或壓縮表示。數據立方體聚集ECUST--JingZhang34數據立方體的最低層為基本方體,最高層為頂點方體,中間層為方體。對應于感興趣實體的聚集數據數據立方體中聚集的多層次進一步減少了要處理數據的大小有關聚集信息的查詢,如果可能的話,應當使用數據立方體回答屬性子集選擇定義:通過刪除不相關或者冗余的屬性(或維)減少數據集目標:找出最小屬性集,使得數據類的概率分布盡可能接近原數據集的概率分布優點:減少了出現在發現模式上的屬性的數目,使得模式更易于理解啟發式方法:逐步向前選擇(空集開始,每次添一最優屬性)逐步向后刪除(滿集開始,每次刪一最差屬性)向前選擇和向后刪除的結合決策樹歸納ECUST--JingZhang35ECUST--JingZhang36決策樹歸納初始屬性集合:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>歸約后的屬性集合:{A1,A4,A6}如何判斷屬性的重要性?ECUST--JingZhang37很多方法,例如:informationgain(ID3)gainratio(C4.5)giniindex2contingencytablestatisticsuncertaintycoefficient維歸約(數據壓縮)ECUST--JingZhang38數據壓縮分類無損壓縮有損壓縮串壓縮典型的無損壓縮已有廣泛的理論和協調的算法但是只允許有限的數據操作音頻/圖像壓縮典型的有損壓縮,逐步加細有時可以只重構信號的小片斷,而無需重構整個信號數據壓縮39OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy小波變換40離散小波變換(DWT):一種線性信號處理技術近似壓縮技術:僅僅保存一小部分最強的小波系數類似于離散傅立葉變換(DFT),但是DWT是更好的有損壓縮,空間局部性相當好方法:輸入數據向量的長度L必須是2的整數冪(必要時可在數據向量后加0)每個變換涉及兩個應用函數。第一個使用數據平滑,第二個進行加權差分,產生數據的細節特征兩個函數作用于輸入數據對,產生兩個長度為L/2的數據集。一般地,他們分別代表輸入數據平滑后的低頻和高頻內容兩個函數遞歸地作用于前面循環得到的數據集,直到結果集的長度為2由以上迭代得到的數據集中選擇值,指定其為數據變換的小波系數。小波變換的優點小波空間局部性好,有利于保留局部細節

對噪音和數據的輸入順序不敏感計算復雜度為O(N),具有較高的計算效率小波變換可以用于高維數據小波變換的有損壓縮比當前的商業標準JPEG壓縮好小波變換有許多實際應用,包括:指紋圖像壓縮,計算機視覺,時間序列數據分析和數據清理。ECUST--JingZhang41主成分分析ECUST--JingZhang42假定待壓縮的數據由N個元組或者數據向量組成,取自k個維。主成分分析(PCA)搜索c(且c<=k)個最能夠代表數據的k-維正交向量。元數據集被歸約到一個由c個主要成分上的N個數據向量構成的空間上(維歸約)每一個數據矢量都是c個主要成分矢量的線性組合僅僅針對數值型數據對高維數據較為有效與小波變換比,PCA能較好地處理稀疏數據,而小波變換更適合高維數據。主成份分析ECUST--JingZhang43基本過程對輸入數據規范化,使得每個屬性都落入相同的區間。PCA計算c個規范正交向量,作為規范化輸入數據的基。這些向量被稱為主成份,輸入數據是主成份的線性組合。對主成分按“重要性”或強度降序排列。通過去掉較弱的成分來壓縮數據。ECUST--JingZhang44X1X2Y1Y2主成分分析數值規約ECUST--JingZhang45數值規約技術通過選擇替代的、’較小的‘數據表示形式來減少數據量。參數方法和非參數方法參數方法假設數據適合一些模型,評估模型參數,使得只需存放模型參數,而不是實際數據(離群點也可能被存放)如對數線性模型:估計離散的多維概率分布。非參數方法不必假設模型主要包括:直方圖,聚類和選樣。回歸和對數線性模型線性回歸:對數據建模,使之適合一條直線兩個參數,α和β確定這條直線,能夠利用手頭的數據進行估計通常使用最小平方法來確定直線方程的系數多元回歸是線性回歸的擴充,相應變量是多維特征向量的線性函數。Y=b0+b1X1+b2X2.對數線性模型:近似離散的多維概率分布回歸和對數線性模型都可用于稀疏數據。對于高維數據,回歸可能是計算密集的,而對數線性模型則可以表現出很好的可伸縮性。ECUST--JingZhang46直方圖一種流行的數據歸約技術把數據分成不同的桶,存儲每個桶的平均值劃分規則等寬等頻(等深)V最優:具有最小方差的直方圖。直方圖的方差是每個桶代表的原來值的加權和,其中權等于桶中值的個數。MaxDiff:桶的邊界是具有β-1個最大差的對,其中β是用戶指定的桶數ECUST--JingZhang47聚類ECUST--JingZhang48把數據集劃分成聚類,使得類內數據相似,類間數據不相似,從而只存儲聚類的表示如果數據是聚集的,聚類技術將十分有效,而當數據有噪聲時將失去它的有效性可以層次聚類且被存儲在多維索引樹結構中抽樣ECUST--JingZhang49用數據的較小隨機樣本(子集)表示大的數據集。選擇數據的代表子集簡單隨機取樣在有傾斜數據時可能會執行得比較差抽樣方法簡單選擇n個樣本,不回放(SRSWOR)簡單選擇n個樣本,回放(SRSWR)聚類抽樣分層抽樣把數據庫D劃分為互不相交的部分,稱作“層”,則通過對每一層的簡單隨機取樣就可以得到D的分層選樣當數據傾斜時,可以幫助確保樣本的代表性抽樣的復雜性子線性于數據的大小。ECUST--JingZhang50抽樣(Sampling)SRSWORSRSWR原始數據SRSWOR:簡單選取n個樣本,不回放SRSWR:簡單選取n個樣本,回放聚類抽樣ECUST--JingZhang51原始數據聚類抽樣數據預處理ECUST--JingZhang52為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結離散化ECUST--JingZhang53屬性的三種類型:標稱屬性—來自無序集中的值序數屬性—來自有序集的值連續屬性—實數離散化:把連續的屬性值區間劃分成多個區間一些分類算法只接受分類屬性通過離散化壓縮數據大小為進一步分析作準備離散化和概念分層ECUST--JingZhang54離散化

通過將一個連續型的屬性劃分成少數幾個間隔范圍,從而降低取值的數目。間隔的標簽被用于表示該字段的真實值。概念分層將低級的概念(例如以數值形式表示年齡字段)轉化為更高級別的概念(例如,以青年,中年,老年表示年齡字段)。針對數值型數據的離散化和概念層次化ECUST--JingZhang55分箱(前面已講過)直方圖分析基于熵的離散化基于Χ2(chi-square)分析的區間合并聚類分析根據直觀劃分離散化直方圖ECUST--JingZhang56一個常用的非監督數據規約技術將數據劃分成多個桶(buckets),并且以平均值(總和)表示每個桶能夠通過動態規劃的方法優化生成基于熵的離散化利用熵的值遞歸地劃分數值屬性A的值,產生分層的離散化。給定一個樣本集S,基于熵對A離散化的方法如下:A的每個值可以認為是一個潛在的區間邊界或閾值T。給定S,所選擇的閾值時這樣的值,它使其后劃分得到的信息增益最大。信息增益是:其中,s1和s2分別對應于s中滿足條件A<T和A》T的樣本。對于給定集合,它的熵函數Ent根據集合中樣本的類分布來計算。例如,給定m個類,Si的熵為:(pi是類i在Si中的概率)確定閾值的過程遞歸的用于所得到的每個劃分,直到滿足某個終止條件,如:實驗證明基于熵的離散化可以壓縮數據量,提高分類的準確性57基于Χ2(chi-square)分析的區間合并基本思想對于精確的離散化,相對類頻率在一個區間內應當相當一致。如果兩個鄰近的區間具有非常類似的類分布,則這兩個區間可以合并。否則,它們應該保持分開過程把數值屬性A的每個不同值看做一個區間對每對相鄰區間進行Χ2檢驗把具有最小Χ2值的相鄰區間合并在一起以上各步遞歸進行,直到滿足預先定義的終止標準ECUST--JingZhang58聚類ECUST--JingZhang59將數據集合劃分為多個簇,然后僅僅以簇代表數據如果數據本身可以分為多個簇,則較為有效每一個簇可以進一步分成若干子簇,形成較低的概念層。簇可以聚集在一起,以形成分層結構中較高的概念層標稱數據的概念分層生成ECUST--JingZhang60由用戶或專家在模式級顯示地說明屬性的部分序通過顯式數據分組說明分層結構的一部分說明屬性集,但不說明他們的偏序只說明部分屬性集屬性集的說明ECUST--JingZhang61概念分層可以根據給定屬性集中每一個屬性的不同屬性值的個數自動生成。具有最多不同屬性值的屬性放在分層中的最低層數據預處理ECUST--JingZhang62為什么要對數據預處理?描述性數據匯總數據清理數據集成和變換數據歸約離散化和概念分層生成小結小結ECUST--JingZhang63數據預處理對于數據倉庫和數據挖掘都是一個重要的問題數據預處理包括數據清理和數據集成數據歸約和特征選擇離散化和概念分層盡管已經提出了一些數據預處理的方法,數據預處理仍然是一個活躍研究領域推薦參考文獻ECUST--JingZhang64R.Agrawal,J.Han,andH.Mannila,ReadingsinDataMining:ADatabasePerspective,MorganKaufmann(inpreparation)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996U.Fayyad,G.Grinstein,andA.Wierse,InformationVisualizationinDataMiningandKnowledgeDiscovery,MorganKaufmann,2001J.HanandM.Kamber.DataMining:ConceptsandTechniques.MorganKaufmann,2001D.J.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論