



免費預覽已結束,剩余1頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
面向屬性歸納綜述摘要 面向屬性的歸納是新近提出的一種廣泛用于數據庫中知識發現的方法。本文綜合敘述了面向屬性歸納的概念、主要思想和面向屬性歸納的基本方法以及算法;對面向屬性歸納的應用例子進行了簡單的綜合描述。1、 引言在“數據爆炸但知識貧乏”的網絡時代,人們希望能夠對數據進行更高層次的分析,以便更好地利用這些數據或者說可以用于決策的知識,基于此,知識發現或者數據挖掘技術產生了,并顯示出強大的生命力。基于數據庫的知識發現(KDD)一詞最早是在1989年8月于美國底特律市召開的第一屆KDD國際學術會議上正式形成的;1996年,Fayyad, Piatetsky-Shapio和Smyth將KDD過程定義為:從數據集中識別出有效的、新穎的、潛在有用的、以及最終可理解的模式的非平凡過程;并指出數據挖掘是知識發現的核心部分,是重要步驟,是采用機器學習、統計等方法進行知識學習的階段,其中數據挖掘技術就包含面向歸納方法。面向屬性的歸納(AOI, Attribute Oriented Induction) 是一種面向關系數據庫查詢的、基于概化的、聯機的數據分析處理技術, 是用于數據庫的知識發現方法。最早于1989年Jiawei Han等人提出, 并對此作了比較全面的介紹。這種方法在知識發現中發揮著重要的作用。2、 面向屬性的歸納面向屬性的歸納使用概念分層,通過以高層概念替換低層數據概化訓練數據,目前是數據挖掘主要技術之一。面向屬性歸納方法是面向查詢的、基于泛化的聯機數據分析處理技術。為了有效地進行知識發現,為了使用戶得到高層次、適當概括的簡化信息,通常采用面向屬性的歸納技術,通過屬性泛化和屬性約簡,對原始數據作必要的處理;面向屬性的歸納是目前主要的數據歸約方法。其主要思想是: 首先使用關系數據庫查詢收集任務相關的數據; 然后通過考察任務相關數據中每個屬性的不同值的數量, 進行屬性概化。生成的結果廣義關系可以映射到不同形式, 如圖表或規則, 提供給用戶。AOI主要用來歸納數據,應用于大數據集,一方面能夠讓用戶在一個更有意義的概念層來觀察數據,另一方面AOI極大地縮小了數據的向量空間;減少了數據的讀寫次數,節省了空間。這種多維多層次的數據概化分析與數據倉庫中的多維數據分析,即在線分析處理(簡稱OLAP)功能相似,但是存在著的區別是:(1)目前許多OLAP所處理的屬性只能是非數值類型的,而處理功能也僅能用于對數值數據的處理;而在概念描述形成過程中,數據庫中的數據可以足各種類型,其中包括:數值型、非數值型、文本型、圖像;數據庫概念描述則能夠處理復雜數據類型和對復雜數據進行處理;(2)數據倉庫中在線分析處理過程完全是一個用戶控制驅使的過程,選擇所分析維(屬性)和有關OLAP操作均是由用戶控制的;與此相比,概念描述則是一個更加自動化的數據挖掘過程,它的目的就是幫助用戶找到更有趣的數據。3、 面向屬性歸納的方法以及基本的算法3.1 面向屬性歸納的基本方法是屬性聚焦,屬性刪除,屬性概化,屬性概化閾值控制,概化 關系閾值控制,概化的表示。(1) 屬性聚焦選擇和當前分析相關的數據,包括屬性和維,選擇相關的數據集可以提高挖掘效果,還能夠產生更有意義的規則,我們可以從描述過程中刪除些不相關的或弱相關的屬性來提高概化的效率。執行數據挖掘查詢語言后收集到的任務相關的數據集被稱為初始工作關系。(2) 屬性刪除如果某個屬性包含大量的不同值,那么,在下列兩種情況下,該屬性就應該被刪除:(1)在該屬性上沒有概化操作;如果保留該屬性,就會產生不簡潔的規則;(2)它的較高層概念己經有其他屬性表示,在這種情況下,刪除該屬性等價于使用了概化操作。(3) 屬性概化“屬性具有大量不同的值”的度取決于屬性或應用;如果屬性概化得過高,會導致過分概化;如果屬性不能在足夠高的層次概化,會導致概化不足。過分概化和概化不足都會使產生的規則包含的信息量不夠。因此需要對屬性概化過程進行有效的控制。常用的控制方法有兩種:屬性概化閾值控制和概化關系閾值控制。(4)屬性概化閾值控制屬性概化閾值規定屬性不同值的個數可以允許的上限。可以對每個屬性設置一個閾值,也可以對所有的屬性設置同一個閾值。通常情況下,數據挖掘系統都有一個缺省的屬性概化閾值,取位范圍為2-8.屬性概化閾值也可以由用戶或專家指定或調整,加大閩值可以降低概化的層次,減小閩值可以提高概化的層次。(5) 概化關系閾值控制概化關系閾值也可以由用戶或專家指定或調整,加大閾值可以降低概化的層次,減小閾值可以提高概化的層次。在實際的操作中,可以根據用戶調整這兩種控制方法的順序。(6) 概化的表示方式通過概化處理可以得到原始數據集的概化關系。通常,直接向用戶提供概化關系作為最終的概念描述,有時也以交叉表、餅狀圖、柱狀圖、曲線、數據立方體或量化規則等更加直觀或抽象的形式描述概化果。3.2 面向屬性歸納的基本算法輸入: (i)關系數據庫DB;(ii)數據挖掘查詢DM Query;( iii)屬性表t list(包含屬性ti等); (iv)屬性ti上的概念分層或概化操作符的集合Gen(ti);(v)每個屬性ti的概化閾值genthresh(ti)。輸出: 主概化關系P。方法: 方法概述如下。1. W get task relevant data (DM Query,DB); 2. PREPARE FOR GENERALIZATION (W); (a) 掃描W , 收集每個屬性ti的不同值。(注意: 如果W很大,可以通過考察W的樣本來做。)(b) 對于每個屬性ti根據給定的或缺省的屬性閾值, 確定ti是否應當刪除;如果不刪除,則計算它的最小期望層次Li, 并確定映射對(v, v) , 其中,v是W中ti的不同值, 而v是其在層Li。對應的概化值。3. Pgeneralization (W )。通過用其在映射中對應的v替換W中的每個值v,累計計數并計算所有聚集值, 導出主概化關系P。這一步可以用下面兩種方法有效地實現:(1) 對于每個概化元組, 通過二分檢索將它插入主關系P中。如果元組已在P 中, 則簡單地增加它的計數值并相應地處理其他的聚集值; 否則, 將它插入P。(2) 在大部分情況下, 由于主關系層不同值的個數很少, 可以將主關系編碼, 作為m - 維數組, 其中m 是P 中的屬性數, 而每個維包含對應的概化屬性值。數組的每個元素存放對應的計數和其他聚集值(如果有的話)。概化元組的插入通過對應的數組元素上的度量聚集進行。4、 面向屬性歸納的相關應用隨著數據庫技術的廣泛應用, 各行各業都積累了大量的數據, 這些數據的內在聯系可能就是有價值的知識, 應用數據挖掘面向屬性的歸納方法發現并提取這些知識, 有十分重要的現實意義,目前這種技術已經用于各行業中,比如農業、工業和服務業等行業中,為各個行業的決策提供更好的信息更有力的數據信息。由于面向屬性歸納技術不是很完善的,存在著一些不足之處;例如面向屬性的歸納方法用于在關系數據庫中發現知識,這種方法沒有分析屬性數據間的依賴關系,因而產生的規則不精確,帶有一定的冗余信息等,這就使得面向屬性歸納方法可以和其他技術想結合,比如與K-means方法,與概念聚類方法結合形成更加有效的獲取知識的方法,能更好的運用到各個行業中,形成了更有效的決策途徑。5、 總結本文主要對面向屬性歸納進行綜合的講述,面向屬性歸納是數據挖掘的主要技術之一;綜上所述,數據挖掘的主要對象一般是具有極其大量數據的關系數據庫.由于數據量大,所以有很多噪音數據.而原有的挖掘方法大多對噪音數據處理不了.因而使很多有用的知識挖掘不出來,為了提高數據提取效率,獲得更加有價值的知識,面向屬性歸納技術出現了。面向屬性歸納的基本方法是數據收集,屬性刪除,屬性概化,閾值控制;由于面向屬性歸納存在著一些不足,可以與其他技術相結合形成更加有效的知識獲取方法;目前面向屬性的歸納與各應用行業數據的結合的方式并不完善,仍然值得我們去深入的探索和研究從大量的數據中提取隱含的、未知的、對決策有潛在價值的知識和規則。參考文獻1、黃紅艷,才秀鳳面向屬性的歸納方法研究J科技信息,2007(24);2、伍小榮,謝立宏面向屬性的歸納與概念聚類J計算機工程,2003,29(5);3、孫華梅,郭茂祖,焦杰,黃梯云一種新的面向屬性歸納中概念層次技術研究J.管理科學學報,2004,7(1);4、吳蓉運用SQL實現面向屬性歸納的算法J電腦知識與技術,2008,4(1):4-6;5、薛軍,陳英.基于AOI的客戶行為分析方法J. 計算機應用與軟件,2008,25 (6);6、周曉潔,白楊,孫艷華,孫恩昌,張延華.基于數據歸約和面向屬性歸納的網絡流量分析系統J. 中國電子科學研究院學報,2009(4);7、田揚戈,邊馥苓.基于概念聚類和面向屬性歸納的區劃分析J. 武漢大學學報(信息科學報),2005(30);8、Jiawei Han ,Micheline Kamber. Data Mining Conce
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電氣設備行業月報:內需驅動持續行業發展動能充足
- 自然語言及語音處理項目式教程 課件1.2.1-2NLP研究內容和應用場景
- 《涉外法律服務能力模型》(征求意見稿)
- 工業互聯網平臺安全多方計算在智能零售業庫存優化中的應用報告
- 2025年農村土地流轉規范化管理與土地流轉政策效應分析報告
- 乳制品行業奶源質量控制與品牌建設策略研究報告
- 2025年神經修復領域新突破:干細胞治療在周圍神經損傷中的應用
- 2025年工業園區污水處理站設計綠色建筑安全效益評估報告
- 2025年工業互聯網平臺網絡隔離技術數據安全與隱私保護報告
- 醫療行業人才培養與流動趨勢分析:2025年戰略布局報告
- 人工智能外文翻譯文獻
- 歐美風格高級配色ppt
- 學堂云同等學力研究生公共英語(上)
- 中職學校師生數字素養現狀與提升
- 飛機結構設計-課件
- 智能建造(利用智能技術和相關技術的建造方式)
- 浙江省煙草專賣局(公司)業務類崗位招聘考試真題及答案2022
- 工藝管道安裝工程質量檢驗、試驗計劃
- D500-D505 2016年合訂本防雷與接地圖集
- 《史記》上冊注音版
- GB/T 19326-2022鍛制支管座
評論
0/150
提交評論