數據挖掘中的軟計算方法及應用綜述_第1頁
數據挖掘中的軟計算方法及應用綜述_第2頁
數據挖掘中的軟計算方法及應用綜述_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘中的軟計算方法及應用綜述    摘  要  文章對數據挖掘中軟計算方法及應用作了綜述。對模糊邏輯、遺傳算法、神經網絡、粗集等軟計算方法,以及它們的混合算法的特點進行了分析,并對它們在數據挖掘中的應用進行了分類。     關鍵詞 數據挖掘;軟計算;模糊邏輯;遺傳算法;神經網絡;粗集   1  引言     在過去的數十年中,隨著計算機軟件和硬件的發展,我們產生和收集數據的能力已經迅速提高。許多領域的大量數據集中或分布的存儲在數據庫中12,這些領域包括

2、商業、金融投資業、生產制造業、醫療衛生、科學研究,以及全球信息系統的萬維網。數據存儲量的增長速度是驚人的。大量的、未加工的數據很難直接產生效益。這些數據的真正價值在于從中找出有用的信息以供決策支持。在許多領域,數據分析都采用傳統的手工處理方法。一些分析軟件在統計技術的幫助下可將數據匯總,并生成報表。隨著數據量和多維數據的進一步增加,高達109的數據庫和103的多維數據庫已越來越普遍。沒有強有力的工具,理解它們已經遠遠超出了人的能力。所有這些顯示我們需要智能的數據分析工具,從大量的數據中發現有用的知識。數據挖掘技術應運而生。     數據挖掘就是指從數據庫中發現知識

3、的過程。包括存儲和處理數據,選擇處理大量數據集的算法、解釋結果、使結果可視化。整個過程中支持人機交互的模式3。數據挖掘從許多交叉學科中得到發展,并有很好的前景。這些學科包括數據庫技術、機器學習、人工智能、模式識別、統計學、模糊推理、專家系統、數據可視化、空間數據分析和高性能計算等。數據挖掘綜合以上領域的理論、算法和方法,已成功應用在超市、金融、銀行4、生產企業5和電信,并有很好的表現。     軟計算是能夠處理現實環境中一種或多種復雜信息的方法集合。軟計算的指導原則是開發利用那些不精確性、不確定性和部分真實數據的容忍技術,以獲得易處理、魯棒性好、低求解成本和更好地

4、與實際融合的性能。通常,軟計算試圖尋找對精確的或不精確表述問題的近似解6。它是創建計算智能系統的有效工具。軟計算包括模糊集、神經網絡、遺傳算法和粗集理論。 2   數據挖掘中的軟計算方法     目前,已有多種軟計算方法被應用于數據挖掘系統中,來處理一些具有挑戰性的問題。軟計算方法主要包括模糊邏輯、神經網絡、遺傳算法和粗糙集等。這些方法各具優勢,它們是互補的而非競爭的,與傳統的數據分析技術相比,它能使系統更加智能化,有更好的可理解性,且成本更低。下面主要對各種軟計算方法及其混合算法做系統性的闡述,并著重強調它們在數據挖掘中的應用情況。 2.1模

5、糊邏輯     模糊邏輯是1965年由澤德引入的,它為處理不確定和不精確的問題提供了一種數學工具。模糊邏輯是最早、應用最廣泛的軟計算方法,模糊集技術在數據挖掘領域也占有重要地位。從數據庫中挖掘知識主要考慮的是發現有興趣的模式并以簡潔、可理解的方式描述出來。模糊集可以對系統中的數據進行約簡和過濾,提供了在高抽象層處理的便利。同時,數據挖掘中的數據分析經常面對多種類型的數據,即符號數據和數字數據。Nauck7研究了新的算法,可以從同時包含符號數據和數字數據中生成混合模糊規則。數據挖掘中模糊邏輯主要應用于以下幾個方面:     (1)聚類。

6、將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。聚類分析是一種重要的人類行為,通過聚類,人能夠識別密集的和稀疏的區域,因而發現全局的分布模式,以及數據屬性之間有趣的關系。模糊集有很強的搜索能力,它對發現的結構感興趣,這會幫助發現定性或半定性數據的依賴度。在數據挖掘中,這種能力可以幫助阻止搜到無用和微不足道的知識。研究者為此發展了模糊聚類算法,并得到了廣泛應用8。在高維數據挖掘中有太多的屬性要考慮,因此知識簡約就非常的必要。屬性聚類的實質就是知識簡約,所謂知識約簡,就是在保持知識庫的分類或者決策能力不變的條件下,刪除不重要的或冗余的知識,最小約簡(含有最小屬性)是人們所期

7、望的,且約簡結果是不確定的。所以模糊聚類成為知識簡約的有力工具。     (2)關聯規則。數據挖掘重要的一點是關聯規則的發現,關聯規則挖掘是尋找給定數據集中屬性間的關聯。其中,布爾關聯規則考慮的是關聯的屬性在與不在的二維特征,概化關聯規則描述的是屬性的分層關系,量化關聯規則描述的是量化的屬性(既離散化的屬性)間的關聯9。由于使用模糊概念表示的規則更符合人的思維和表達習慣,增強了規則的可理解性,所以模糊技術已成為數據挖掘系統中的關鍵技術。文獻10中用模糊分類開拓了概化關聯規則。     (3)數據概化。概化發現是數據挖掘重要部分之一。它

8、將大的數據集從較低的概念層抽象到較高的概念層,用可理解的信息來表達數據庫中最重要的部分,并提供給用戶。 大數據集的語言概化通過有效的程度來獲得,參考的標準內容在挖掘任務中。系統由概述、一致性程度真實和有效性組成。已經發現的最有興趣的語言概化并不瑣碎,卻很人性化。實際上,它并不能自動地進行概化,需要人的操作。Kacprzyk和Zadrozny11發展了功能依賴度,語言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統從數據庫中獲得記錄,并計算每個概化的有效性,最后,選擇最適合的語言概化。此方法通過網絡瀏覽器已用在因特網上。模糊

9、值、模糊聯系和語言量都通過JAVA來定義。     (4)Web應用。通過Web日志的挖掘,來發現用戶訪問Web頁面的模式。通過分析Web日志記錄中的規律,可以識別電子商務的潛在客戶,增強對最終用戶的Internet信息服務的質量和交付,并改進Web服務器系統的性能。還可以進一步獲得用戶訪問的附加信息(包括Web服務器緩沖區中用戶瀏覽Web頁面的序列等),以便于做更為詳細的Web日志分析。如通過用戶訪問模式的學習改進其自身的Web站點,有助于建立針對個體用戶的定制Web服務。為了挖掘出較完全的興趣模式, 吳瑞12提出一種新的結構類型-FLAAT,它可發現那些被忽略

10、的用戶瀏覽偏愛路徑。同時引進模糊集來處理停留在網頁上的時間,以形成語義術語使挖掘出的用戶瀏覽偏愛路徑更自然、更易理解。算法能準確地反映用戶的瀏覽興趣。     (5)圖像檢索。隨著近來由多種媒體數據構成的多媒體信息倉庫數據的增加,基于內容的圖像檢索開始活躍在這個領域。和傳統數據庫中基于精確匹配的關鍵字來檢索信息不同,基于內容的圖像檢索系統的信息是一個圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據人的主觀性所決定,因此很大程度上帶有模糊性。對于圖像紋理,習慣于用“很粗”、“中等”、“弱”這樣的一些模糊概念來描述;形狀一般用“幾何形的”、“立體形的

11、”或“似長方形的”、“正方形的”等概念描述;顏色特征通常用“很艷”、“一般”、 “暗淡”或“大紅”、“紫紅”、“紅”這樣的模糊概念來描述。所以基于內容是圖像檢索是基于圖像的相似特征來檢索的。 2.2  神經網絡      數據挖掘的困難主要存在于三個方面:首先,巨量數據集的性質往往非常復雜,非線性、時序性與噪音普遍存在;其次,數據分析的目標具有多樣性,而復雜目標無論在表述還是在處理上均與領域知識有關;第三,在復雜目標下,對巨量數據集的分析,目前還沒有現成的且滿足可計算條件的一般性理論與方法。研究者們主要是將符號型機器學習方法與數據庫技術相結合,

12、但由于真實世界的數據關系相當復雜,非線性程度相當高,而且普遍存在著噪音數據,因此這些方法在很多場合都不適用。 因為神經網絡的黑箱問題,在數據挖掘的初期并不看好,然而,神經網絡由于本身良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性,以及它對未經訓練的數據分類模式的能力,非常適合解決數據挖掘中存在的以上問題,因此近年來越來越受到人們的關注。     規則抽取方法是解決“黑箱問題”的有效手段。神經網絡規則抽取的研究最早開始于80年代末。1988年,Gallant13設計了一個可以用if-then規則解釋推理結論的神經網絡專家系統。根據設計思想的不同,目

13、前的規則提取方法大致可以分成兩大類,即基于結構分析的方法和基于性能分析的方法。     基于結構分析的神經網絡規則抽取方法把規則抽取視為一個搜索過程,其基本思想是把已訓練好的神經網絡結構映射成對應的規則。由于搜索過程的計算復雜度和神經網絡輸入分量之間呈指數級關系,當輸入分量很多時,會出現組合爆炸。因此,此類算法一般采用剪枝聚類等方法來減少網絡中的連接以降低計算復雜度。RX算法14首先用權衰減方法構造BP網絡(該網絡中連接權的大小反映了連接的重要程度),然后對網絡進行修剪,在預測精度不變的情況下刪除次要連接,在對網絡進行充分簡化的條件下,對隱藏層結點的激活值進行聚類

14、,根據不同的隱藏層結點激活值用窮舉搜索的辦法來尋找從輸入層到隱藏層和從隱藏層到輸出層的規則.     與基于結構分析的方法不同,基于性能分析的神經網絡規則抽取方法并不對神經網絡結構進行分析和搜索,而是把神經網絡作為一個整體來處理,這類方法更注重的是抽取出的規則在功能上對網絡的重現能力,即產生一組可以替代原網絡的規則。較有代表性的算法是Sestito等人提出的相似權值法15,這種方法將輸出節點添加到輸入層去與輸入節點進行比較。1994年,Craven和Shavlik16為神經網絡規則抽取任務下了一個定義:給定一個訓練好的神經網絡以及用于其訓練的訓練集,為網絡產生一個

15、簡潔而精確的符號描述。在文獻16的基礎上,1996年,Craven和Shavlik17提出了TREPAN算法。該算法首先用訓練好的神經網絡對示例集進行分類,然后將該集合作為訓練集提供給決策樹學習算法,從而構造出一棵與原網絡功能接近的、使用MOFN表達式作為內部劃分的決策樹。TREPAN的計算量較低。1997年,Craven和Shavlik18將TREPAN用于一個噪音時序任務,即美元馬克匯率預測,取得了比現有方法更好的效果。 2.3遺傳算法     遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。它是美國 Michigan大學的Holland教授于1975年首先提出的。遺傳算法中包含了5個基本要素:參數編碼;初始群體的設定;適應度函數的設計;遺傳操作設計;控制參數設定。遺傳算法具有十分頑強的魯棒性、自適應性,其在解決大空間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論