Python數據分析與挖掘 課件 第 12 章 離群點檢測_第1頁
Python數據分析與挖掘 課件 第 12 章 離群點檢測_第2頁
Python數據分析與挖掘 課件 第 12 章 離群點檢測_第3頁
Python數據分析與挖掘 課件 第 12 章 離群點檢測_第4頁
Python數據分析與挖掘 課件 第 12 章 離群點檢測_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Python數據挖掘與機器學習第12章離群點檢測第10章離群點檢測本章內容離群點概述離群點檢測sklearn中的異常值檢測方法14六月202521離群點概述3數據庫中的數據由于各種原因常常會包含一些異常記錄,對這些異常記錄的檢測和解釋有很重要的意義。異常檢測目前在入侵檢測、工業損毀檢測、金融欺詐、股票分析、醫療處理等領域都有著比較好的實際應用效果。異常檢測的實質是尋找觀測值和參照值之間有意義的偏差。離群點檢測是異常檢測中最常用的方法之一,是為了檢測出那些與正常數據行為或特征屬性差別較大的異常數據或行為。1離群點概述4離群點的概念離群點(Outlier)是指顯著偏離一般水平的觀測對象。離群點檢測(或稱異常檢測)是找出不同于預期對象行為的過程。離群點的本質仍然是數據對象,但它與其他對象又顯著差異,又被稱為異常值。1離群點概述5離群點不同于噪聲數據。噪聲是指被觀測數據的隨機誤差或方差,觀測值是真實數據與噪聲的混合。而離群點屬于觀測值,既可能是真實數據產生,也有可能由噪聲帶來。離群點的產生主要有以下原因:1.第一類離群值是總體固有變異性的極端表現,這類離群值與樣本中其余觀測值屬于同一總體。2.第二類離群值是由于試驗條件和試驗方法的偶然偏離所產生的結果,或產生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體。1離群點概述6離群點的類型:全局離群點、條件離群點和集體離群點。1.全局離群點當一個數據對象明顯地偏離了數據集中絕大多數對象時,該數據對象就是全局離群點(GlobalOutlier)。全局離群點有時也稱為點異常,是最簡單的一類離群點。如圖10-1中區域R中的點,它們顯著偏離數據集的絕大多數的數據對象,因此屬于全局離群點。1離群點概述7離群點的類型:全局離群點、條件離群點和集體離群點。2.條件離群點與全局離群點不同,當且僅當在某種特定情境下,一個數據對象顯著地偏離數據集中的其他對象時,該數據對象被稱為條件離群點(ContextualOutlier)。一般地,在情境離群點檢測中所考慮對象的屬性劃分為條件屬性和行為屬性。條件屬性是指數據對象的定義中定義情境的屬性。行為屬性指數據對象中定義對象特征的屬性。1離群點概述8離群點的類型:全局離群點、條件離群點和集體離群點。3.集體離群點當數據集中的一些數據對象顯著地偏離整個數據集時,該集合形成集體離群點(CollectionOutlier)。不同于全局或條件離群點,在集體離群點檢測中,除了考慮個體對象的行為,還要考慮集體的行為。1離群點概述9離群點檢測的挑戰:1.正常對象和離群點的有效建模2.針對應用的離群點檢測3.在離群點檢測中處理噪聲4.可理解性2離群點的檢測離群點的檢測方法很多,每種方法在檢測時都會對正常數據對象或離群點作出假設,從所做假設的角度,離群點檢測方法可以分為基于統計學的離群點檢測、基于近鄰的離群點檢測、基于聚類以及基于分類的離群點檢測。102離群點的檢測基于統計學的離群點檢測在基于統計學的離群點檢測方法中,假設數據集中的正常數據對象由一個統計模型產生,如果某數據不符合該統計模型,則該數據對象是離群點。在基于統計的離群點檢測過程中,一般先設定數據集的分布模型,如正態分布、泊松分布和二項式分布等,然后根據模型進行不和諧檢驗以發現離群點。不和諧檢驗中需要樣本空間數據集的參數知識、分布的參數知識以及期望的離群點數目。112離群點的檢測基于統計學的離群點檢測122離群點的檢測2基于鄰近性的離群點檢測給定特征空間中的數據對象集,可以使用距離度量對象之間的相似性。直觀地,遠離其他大多數對象的數據對象被視為離群點。基于鄰近性的方法假定離群點對象與它最近鄰的鄰近性顯著偏離數據集中其他對象與其近鄰之間的鄰近性。基于鄰近型的離群點檢測方法有基于距離的和基于密度的方法。132離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法在基于距離的離群點檢測方法中,離群點就是遠離大部分對象的點,即與數據集中的大多數對象的距離都大于某個給定閾值的點。基于距離的檢測方法考慮的是對象給定半徑的鄰域。如果在某個對象的鄰域內沒有足夠的其他的點,則稱此對象為離群點。基于距離的離群點方法有嵌套-循環算法、基于索引的算法和基于單元的算法。142離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法基于距離的離群點方法有嵌套-循環算法、基于索引的算法和基于單元的算法。下面簡要介紹嵌套-循環算法。152離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法基于密度的離群點檢測方法考慮的是對象與它近鄰的密度。如果一個對象的密度相對于它的近鄰低得多,則被視為離群點。最有代表性的基于密度的離群點檢測方法是基于局部離群點離群因子的離群點檢測方法。局部離群因子(LocalOutlierFactor,LOF)會給數據集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。162離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法局部離群因子(LocalOutlierFactor,LOF)會給數據集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠大于1,則認為是離群因子,接近于1,則是正常點。對于任何給定的數據點,局部離群因子算法計算的離群度等于數據點p的k近鄰集合的平均局部數據密度與數據點自身局部數據密度的比值。172離群點的檢測3基于聚類的離群點檢測離群點與簇的概念高度相關,因此,可以通過考察對象與簇之間的關系檢測離群點。直觀地,離群點是一個屬于小的偏遠簇或者不屬于任何簇的數據對象。基于聚類的離群點檢測方法分為兩個階段,首先對數據進行聚類,然后計算對象或簇的離群因子,將離群因子大的對象或稀疏簇中的對象判定為離群點。對于基于原型的聚類,可以用對象到其簇中心的距離度量對象屬于簇的程度。182離群點的檢測4基于分類的離群點檢測如果訓練數據中有類標號,則可以將其視為分類問題。該問題的解決思路是訓練一個可以區分正常數據和離群點的分類模型。構造分類器時,訓練數據的分布可能極不均衡,相對正常數據,離群點的數目極少,這樣會造成在構建分類器時精度收到很大影響。為了解決兩類數據的不均衡問題,可以使用一類模型(One-classModel)進行檢測。193sklearn中的異常值檢測方法sklearn中關于異常檢測的方法主要有兩種:(1)noveltydetection:當訓練數據中沒有離群點,我們的目標是用訓練好的模型去檢測另外新發現的樣本;(2)outlierdetection:當訓練數據中包含離群點,模型訓練時要匹配訓練數據的中心樣本,忽視訓練樣本中的其他異常點;203sklearn中的異常值檢測方法sklearn提供了一些機器學習方法,可用于奇異(Novelty)點或異常(Outlier)點檢測,包括OneClassSVM、IsolationForest、LocalOutlierFactor(LOF)等。其中OneClassSVM可用于NoveltyDetection,而后兩者可用于OutlierDetection。21本章小結離群點(Outlier)是指顯著偏離一般水平的觀測對象。離群點不同于噪聲數據。離群點一般分為全局離群點、條件離群點和集體離群點。離群點檢測方法可以分為基于統計學的離群點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論