數據挖掘模型的設計與選擇_第1頁
數據挖掘模型的設計與選擇_第2頁
數據挖掘模型的設計與選擇_第3頁
數據挖掘模型的設計與選擇_第4頁
數據挖掘模型的設計與選擇_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘模型的設計與選擇

實際應用程序主要根據任務特征和數據特征進行分類。任務特征:目標、目標和挖掘類型;數據特征:數據類型、連續性、一致性、指導類型和量化。對這些特征的具體描述就構成一個數據挖掘的實際應用的特征集合。應用特征集:由多個集合構成,每個集合即為一類特性的具體特征,則所有集合的并集即為應用的所有特征。各個集合間屬于并列關系,每個集合的各元素是互斥關系。如:挖掘對象集合:{工業,農業,林業,…},目標集合:{個體,集體,機關,…},挖掘類型集合:{分類,預測,聚類,關聯規則,特征化描述和區分},數據類型集合{文本,數字},連續性集合{離散,連續},歸一性集合{歸一,不歸一},指導類型集合{有師,無師},量化性集合{可量化,不可量化}應用算子集:包含集合的并集、交集、子集、冪集、笛卡爾積運算。每種運算均符合規范的集合運算規則。應用有機特征集:是應用特征集中的特征按照某些運算規則組合而生成應用特性集合,每一個集合對應一個實際的應用。生成規則:由笛卡爾積算子作用于所有應用特征集,生成多個所有特性的各種有機組合,使得實際中的應用可以對應于應用有機特征集的某一個元素。同時也可以用有條件的交集、并集和冪集運算得到相應的結果。數據挖掘算法特征集:集合,包含數據挖掘所有的算法,同時每個挖掘算法所適用的范圍和所具有的特性都可表示。數據挖掘算子集:選擇算子,交集,并集。數據挖掘算法有機組合集:是算法的分類集合。根據算法對挖掘類型和數據描述的適應性,對算法分類。根據算法是否可獨立進行某類挖掘,得到針對每一類挖掘的算法集合;針對算法對數據特性的適用性,得到符合每一類數據特征的混合算法集合。例如適用于分類的{決策樹,神經網絡,貝葉斯分類,…},適用于預測的{多元線性回歸,非線性回歸,廣義線性回歸,…},適用于連續數據的算法集合,適用于歸一類型的算法集合等等。建立應用特征集與數據挖掘算法特征集的某種映射關系:分別建立數據挖掘算法的屬性庫和實際應用特征庫,根據應用特征,實現每個特征與某些算法的一對一或一對多關系,同樣可以實現一個算法與多個應用特征的映射關系。建立應用有機特征集與數據挖掘算法有機組合集的某種映射關系:在應用有機特征集中每個應用都有其具體的應用特征,根據這些應用特征以及數據挖掘算法有機組合集的特征,通過相應的運算可以實現在應用有機特征集中的每一個元素對應數據挖掘算法有機組合集中的一個或多個集合的并集或交集,從而實現完成某種應用所需要的獨立算法集和混合算法集的選擇。2.2該模型用于挖掘方法的選擇2.2.1基于續性的數據挖掘算法描述賦值變量:m,n,s,t,k;賦值矩陣:A(m,n),B(s,t),T(k,t);生成矩陣:D(n,2),E(m,2)。釋義:m:應用特征的個數(如從:挖掘對象,挖掘類型,數據類型,連續性來描述應用,則m=4);n:應用特征的層數(取所有特征層數的最大值,如n=4);s:數據挖掘算法的個數;t:挖掘算法所適用的數據特征的個數(如挖掘類型、數據類型、連續性、歸一性等)k:具體實際應用的個數。A(m,n):代表應用特征所處應用中的位置,按所在層位置定義;B(s,t):代表具體數據算法技術所具備的應用特征,按數據描述及挖掘類型定義;T(k,t):代表實際應用所具有的特性,根據任務描述和數據描述定義;D(n,2):集合庫,存放臨時生成的數據挖掘算法集合;E(m,2):最終生成的獨立數據挖掘算法模型庫;最終生成的混合數據挖掘算法模型庫。2.2.2算法1:化構造獨立算法(1)ifbik(i=1,2,…,m)=t1k,則,d(k-1)1={bi1,i∈(1,??m)}?(k=2,??l)d(k?1)1={bi1,i∈(1,??m)}?(k=2,??l),所以,e11=∩dk1,k=(1,…,l-1)。即為應用獨立算法。(2)ifbi8(i=1,2,…,m)=t12,則d12={bi1,i∈(1,??m)},d12={bi1,i∈(1,??m)},ifbik(i=1,2,…,m)=t1k,則dk2={bi1,i∈(1,??m)}.(k=2,?l-1)dk2={bi1,i∈(1,??m)}.(k=2,?l?1)。所以e12=∩dk2∪e11,k=(1,…,l-1)。即為應用混合算法。2.2.3自動選取應用tp8=ep1,tp9=ep2(p=1,2,…,m)。注:在該模型中,矩陣A(m,n)與B(s,t)的數據為固定模式,用戶只需要確定矩陣T(k,t)即實際應用所具有的特性,即可應用該模型實現數據挖掘模型的自動選取。2.3dm任務的挖掘在油田開發領域中的具體應用。油田壓裂選井選層決策系統項目中,應用數據挖掘方法選擇模型,首先確定矩陣T(1,t),挖掘目的(分類)、數據特點(數值型、連續型、歸一、有師、可量化)、任務目標(壓裂效果的評價與預測)等方面描述DM任務。其次,依賴模型化建模方法,選擇挖掘方案,求得e12,得到混合算法庫:決策樹算法結合神經網絡算法。生產因素數據經過量化、歸一化預處理后,轉換為數值信息作為神經網絡的輸入向量。系統調度路徑分別經過了標準BP網絡,共軛梯度BP網絡,和動量項慣性系數指數增長的BP網絡。同時可生成經驗庫,遇到與此一致的應用即可直接選擇上述方法組合進行數據挖掘。通過油井壓裂措施選井應用研究,設計適應的壓裂措施選井系統,該系統能夠正常運行,并且較好地完成壓裂井選擇任務,從應用角度驗證了數據挖掘方法模型系統的理論基礎與邏輯設計。在數據挖掘方法模型研究中,已經建立挖掘技術的表達框架與表達形式,使挖掘特征框架更加規范化,能夠支撐更廣泛的挖掘模型選擇。3階段數據挖掘模型的設計和選擇本文提出了一種數據挖掘模型選擇的方法,根據該方法對于一個具體的數據挖掘的實際應用,通過應用分析、業務分析和數據分析給出具體應用的特征,應用本文研究的模型化的建模方法,可以根據該應用所具備的業務、應用和數據特征,自動選擇一種最優的數據挖掘方法,也許是某種單一的算法,或是多個算法的組合。現階段數據挖掘(DataMining)模型的選擇與專家的經驗密切相關,有經驗的專家就會選擇良好的,優質的模型,使得挖掘工作高效、準確;反之,就會浪費時間,或得不到理想的結果,因此數據挖掘模型的設計和選擇是挖掘工作的關鍵。現階段數據挖掘模型的選擇是:針對某些具體的任務和領域選擇一些已經成型的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯規則模型。傳統數據挖掘系統的建立強調人工主動參與,循環測試可能有效的挖掘技術,最終得出相對可行的系統結構,導致了數據挖掘的手工化,挖掘數據處理復雜化。本文要建立一個模型,實現挖掘目標的特征集與挖掘算法集合間的對應關系。用戶只需提供如挖掘目標、數據類型等必要的挖掘信息,具體地選擇哪種算法,都可通過該模型實現,最后,用戶可以得到最佳的挖掘方法,應用這種挖掘方法就可最好地實現挖掘目標。該模型實際應用在“油田開發壓裂措施選井”系統,研究油田開發領域業務需求,獲取油田開發壓裂措施設計的業務特征及數據特征,得到了很好的效果。1系統運行效率低傳統的數據挖掘技術往往一次需要處理大量數據,還可能因為低準確性而造成多次重復操作,并且需要大量的手工參與,這使得系統運行效率低,浪費了用戶的時間和精力。如何設計適應性好、操作方便、擴展靈活的DM模型是各個方法論無可回避的重點內容,為具體的挖掘任務選擇最佳算法配置是DM建模的重要目標。1.1dm技術應用傳統的DM模型設計是一個多步驟的、循環的、非線性的處理過程,完成從源數據中發現有價值的知識的過程,可以概括為:首先,明確能夠有效挖掘的數據源,并且將其組織成為適合挖掘的數據形式;然后,根據建立挖掘模型的基本常識,設計可能有效的挖掘模型,即選擇相應的挖掘算法及各種算法的搭配組合來處理業務數據,初步建立挖掘模型,通過挖掘模型獲得滿足業務需求的知識與信息;最后,對挖掘模型進行評估,并且建立適合開發目標的挖掘系統,為應用部門部署應用,通過反饋可能進一步調整系統。這樣,DM可以定義為問題分析、數據抽取、數據預處理、DM模型設計、模型評估等基本階段。挖掘模型設計本身也是一個往復的過程。這種方式不僅需要操作人員具有應用領域的專業知識而且需要對DM技術有廣泛并且深刻的認識。隨著DM技術研究的不斷發展,針對各種不同的應用問題催生出各式各樣的DM算法,如神經網絡、支持向量機、粗糙集等。但這些算法有各自的假設、適用對象及目標,并需要設置各種參數,在沒有足夠DM專業知識情況下,很難確定哪些算法或者算法組合能夠有效完成挖掘任務。從某種程度上,傳統的挖掘模型設計方法不但降低了DM模型建立的效率,而且面對應用領域,專業的建模知識只掌握在少數專業工程師手中,對數據挖掘技術的推廣和應用帶來一定的難度。1.2數據挖掘的復雜過程由于每一種數據挖掘技術方法都有其自身的特點和實現步驟,數據挖掘與具體應用問題的密切相關性。因此,成功應用數據挖掘技術以達到目標的過程本身就是一件很復雜的事情。針對傳統的建模方法存在的局限性,本文研究一種模型化的建模方法,其思想是將專業建模人員需要完成的分析、選擇、判斷等任務由程序自動完成,這樣呈現給用戶的就是相對簡潔的過程,提供具體挖掘的任務目標、數據特征的詳細描述,通過程序就可獲得所需要的挖掘方法。2挖掘方法的選擇2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論