數據挖掘中特征提取的分析與應用_第1頁
數據挖掘中特征提取的分析與應用_第2頁
數據挖掘中特征提取的分析與應用_第3頁
數據挖掘中特征提取的分析與應用_第4頁
數據挖掘中特征提取的分析與應用_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘中特征提取的分析與應用摘要:數據挖掘中需要對數據進行各種分析,在一切分析前需要做好數據預處理。然而經過數據清理、數據集成、數據變換后,數據集仍然會非常大!在海量的數據上直接進行復雜的數據分析與挖掘將需要很長時間,使得這種分析不現實或不可行。數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍接近于保持原數據的完整性。這樣,在歸約后的數據集上挖掘將更有效,并產生相同或幾乎相同的分析結果。通過這種方法從大量特征中提取出最具有代表性的特征根據需要分析有用的信息。隨著社會的發展,傳統的基于信物或口令的安全系統顯得越來越脆弱,不能夠滿足現代安全系統的需要。基于特征提取的指紋識別隨之產生,在眾

2、多的指紋屬性中提取端點和分叉點兩大明顯特征,進行數據挖掘與分析。關鍵詞:數據挖掘;數據預處理;數據歸約;維歸約;特征提取;指紋識別前言:數據挖掘中需要對數據進行各種分析,在一切分析前需要做好數據預處理。然而經過數據清理、數據集成、數據變換處理后,數據集仍然會非常大!在海量的數據上直接進行復雜的數據分析與挖掘將需要很長時間,使得這種分析不現實或不可行。此時數據歸約技術顯得尤為重要,通過數據歸約技術的數據立方體聚集、維歸約、數據壓縮、數值壓縮、離散化和概念分層產生策略將數據集歸約表示,保持原數據的完整性。這樣,在歸約后的數據集上挖掘將更有效,并產生相同或幾乎相同的分析結果。通過這種方法從大量特征中

3、提取出最具有代表性的特征根據需要分析有用的信息。數據挖掘中的特征提取被廣泛應用,其中指紋識別則是最典型的應用。正文: 數據挖掘中的特征提取的分析與應用經過數據清理、數據集成、數據變換預處理后,數據量仍然會很大,直接進行分析,肯定會降低挖掘過程的速度和效率。而通過數據歸約的數據立方體聚集、維歸約、數據壓縮、數值壓縮等策略可以壓縮數據集,而又不損害數據挖掘的結果。簡而言之,數據歸約是通過聚集、刪除冗余特性或聚類的方法來壓縮數據。數據立方體聚集是作用于數據立方體中的數據;維歸約可以檢測并刪除不相關、弱相關或冗余的屬性或維;數據壓縮使用編碼機制壓縮數據集;數值壓縮用替代的、較小的數據表示替換或估計數據

4、。本文就維歸約的特征提取進行詳盡的分析與應用說明,首先介紹維歸約的概念。一、維歸約用于數據分析的數據可能包含數以百計的屬性,其中大部分屬性與挖掘任務不相關,是冗余的。盡管領域專家可以挑選出有用的屬性,但這可能是一項困難而費時的任務,特別是當數據的行為不清楚的時候更是如此。遺漏相關屬性或留下不相關屬性是有害的,可能會減慢挖掘進程。維歸約則是通過刪除不相關的屬性或維減少數據量。通常使用屬性子集的選擇方法,即特征提取。二、特征提取的概念特征提取是通過映射的方法,將高維的屬性空間壓縮為低維的屬性空間,得到最小的屬性集,使得數據類的概念分布盡可能地接近使用所有屬性的原分布。得到的數據挖掘結果與所有特征參

5、加的數據挖掘結果相近或完全一致。對于d個屬性來說,有2d個可能的子集。三、特征提取的分析通過窮舉搜索找出屬性的最佳子集可能是不現實的,特別是當d和數據類的數目增加時,因此,對于特征提取通常是使用壓縮搜索空間的啟發式算法。特征提取的基本啟發式方法包括以下四種:(1)逐步向前選擇:該過程由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,并將它添加到歸約集中。在其后的每一次迭代,將剩下的原屬性集中的最好的屬性添加到該集合中。如圖1左(2)逐步向后刪除:該過程由整個屬性集開始。在每一步中,刪除尚在屬性集中最差的屬性。如圖1中(3)逐步向前選擇和逐步向后刪除的組合:可以將逐步向前選擇和逐步向后刪除方法

6、結合在一起,每一步選擇一個最好的屬性,并在剩余屬性中刪除一個最差的屬性。(4)決策樹歸納:決策樹歸納構造一個類似于流程圖的結構,其中每個內部(非樹葉)結點表示一個屬性上的測試,每個分枝對應于測試的一個結果;每個外部(樹葉)結點表示一個類預測。在每個結點上,算法選擇“最好”的屬性,將數據劃分成類。如圖1右 圖1 屬性子集選擇(特征提取)的貪心(啟發式)方法四、特征提取在指紋識別技術上的應用與分析基于特征提取的特性,其被廣泛應用于各種領域。在現實生活中經常要對人的身份進行識別,例如登飛機時要識別登機者的身份,在銀行取錢時要核實取錢者是否是指定賬戶的合法擁有者,使用計算機時要檢查操作者的權限等等。隨

7、著國民經濟和社會信息化的飛速發展,金融機構、政府機關、企業以及個人之間通過互聯網日益緊密地聯系在一起,一方面為信息的共享提供了條件,另一方面也為心懷叵測的人試圖非法獲取他人信息提供了機會。因此,如何自動、準確和高效地識別人的身份是信息安全領域的重要問題。而指紋具有唯一性和穩定性,因此被人們用來當作鑒別一個人身份的主要依據。然而如何在成千上萬的指紋數據庫中準確找出代表某一個人的指紋,進行數據挖掘,這就需要用到指紋識別技術了。相對于其它生物特征鑒定技術,指紋識別是一種理想的身份鑒別技術。1、 指紋的類型目前我國指紋的分類主要有以下兩種:(1)基于指紋管理需要的十指指紋管理分類法:該分類方法將指紋分

8、為弓、箕、斗三種類型,并將箕型紋分為反箕和正箕以及中心點、外角點和追跡線的計線法。(2)計算機指紋管理的分類:指紋自動識別系統一般把指紋紋型分為弓、左箕、右箕、斗和雜型五大類,其分類的規則與十指指紋分析法基本一致,其代號為:A、弓型紋;B、左箕型紋;C、右箕型紋;D、斗型紋;E、雜型紋。2、指紋圖像的采集傳統的指紋采集方法為油墨轉印法;活體指紋采集法直接從手指上獲取數字指紋圖像。3、指紋圖像的預處理對于一幅指紋采集頭采集的原始圖像,為了使后續特征提取的操作能夠正常有效的進行,必須對原始指紋圖像進行一定的處理。通常這樣的處理過程包括歸一化、圖像增強、二值化和細化等過程。如圖2所示圖2 指紋圖像處

9、理步驟4、指紋圖像的特征選取因為每個人的指紋多種多樣,在指紋識別技術中,指紋特征提取是其中一個非常重要的部分。這其中包括了提取什么樣的特征、用什么樣的方法提取特征、提取到的特征是不是能夠代表該指紋特點的真實特征等三個問題。指紋圖像中存在兩種類型的特征:全局特征和局部特征。全局特征通常用于指紋的分類,局部特征通常用于指紋的比對。基于局部特征,根據指紋學所述,國際鑒定協會標準委員會確定的特征細節點有以下五種:(1)紋線端點(2)紋線分叉(3)短線(4)眼線(5)點奧斯特布曾建議指紋特征細節點除上述五種外再加上以下五種:(6)三角(7)橋形(8)雙叉(9)三叉(10)馬刺形指紋特征中還有一個非常重要

10、的特征點(11)中心點,如圖3所示為特征點細節的舉例圖3 指紋特征點據統計,這幾類特征點占特征點的比率如圖4所示。從表中可以發現,端點和分叉點占特征點91%,而交叉形、橋形以及環形三類總共只占9%左右。這一方面說明了幾乎所有的指紋都有端點和分叉點,而且數量豐富;另一方面也反映了不是所有的指紋都有橋形、環形等特征點,而且即使有數量也比較少。由此可知,端點和分叉點又占了很大的比例,所以一般只研究端點和分叉點的特性。圖4 特征點類型及所占比例目前大部分指紋識別系統使用的局部特征都是美國聯邦調查局(FBI)提出的細節點匹配模型,它利用末梢點(紋線端點)與分叉點(紋線分叉)(如圖5)這兩種特征來鑒定指紋

11、,思路是先進行細節特征提取,將指紋圖像中所有的末梢點和分叉點找出來,然后對所有的細節特征點進行后處理,以判斷它們是否有效。圖5 末梢點與分叉點目前對指紋特征點提取的算法多種多樣,各有不同,如基于直接從指紋灰度圖像的特征提取算法、基于細化的圖像特征提取算法、基于紋線方向濾波的指紋特征提取算法、基于二值化的指紋特征提取算法等等。但總體上,最常用的特征點提取算法有兩類:一是從灰度圖像直接提取特征點;二是對預處理細化后的圖像進行提取特征點。基于上述數據挖掘中的特征提取在指紋識別分析技術上的應用,可以看出,經過一系列的特征提取后,將原本多種指紋屬性降到最少,卻依然具有代表性。不僅更加準確的完成識別,而且

12、可以明顯大大降低了工作量。顯而易見,特征提取在數據挖掘中的重要性,以及不可忽視性。結論:在海量的數據上直接進行復雜的數據分析與挖掘將需要很長時間,使得這種分析不現實或不可行。所以需要進行數據歸約,此時特稱提取就顯得尤為重要了。經過提取后的數據集在進行數據挖掘后的結果不僅與所有特征參加的數據挖掘結果相近或完全一致,而且大大減少了工作量,因此它被廣泛運用于現實生活。隨著社會的發展,傳統的基于信物或口令的安全系統顯得越來越脆弱,不能夠滿足現代安全系統的需要。基于特征提取的指紋識別隨之產生,在眾多的指紋屬性中提取端點和分叉點兩大明顯特征,進行數據挖掘與分析。參考文獻:Jiawei Han、Micheline kamber

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論