




已閱讀5頁,還剩46頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章統計類數據挖掘和知識類數據挖掘,6.1設計數據挖掘模型6.1.1數據挖掘方法論6.1.2構造和使用數據挖掘模型6.2統計類數據挖掘6.2.1統計分析類數據挖掘技術6.2.2統計分析工具6.2.3統計分析工具應用6.3知識類數據挖掘6.3.1知識發現系統的一般結構6.3.2知識發現技術及其運用6.3.3知識發現工具6.4MDX語言,6.1設計數據挖掘模型,數據挖掘的基本機制是數據挖掘模型,這是一個抽象的對象,該模型以一系列結構行集存儲數據挖掘信息,并可使用各種工具輕松訪問數據。構造和使用數據挖掘模型首先必必須創建數據挖掘模型,并可以使用數據挖掘模型測覽器以圖形格式顯示數據挖掘模型的內容。,6.1.1數據挖掘方法論,1.數據取樣(Sample)2.數據特征探索、分析和預處理(Explore)3.問題明確化、數據調整和技術選擇(Modify)4模型的研發及知識的發現(Model)5模型和知識的綜合解釋和評價(Assess),6.1.2構造和使用數據挖掘模型,1創建數據挖掘模型創建新的數據挖掘模型包括確定模型類型、構建事例集將要使用的模型并選擇模型構造新數據挖掘模型所用的數據挖掘技術。根據要處理的事例集數據的類型,可以使用兩種類型的數據挖掘模型:關系數據挖掘模型和OLAP數據模型。前者設計為處理傳統的關系數據庫表,而后者則設計為處理以多維數據集形式保存的OLAP數據。,2編輯數據挖掘模型,一般可以通過編輯器來編輯數據挖掘模型。數據挖掘模型的進程取決于挖掘模型的類型。(1)通過編輯器編輯關系數據挖掘模型可以使用關系挖掘模型編輯器編輯關系數據挖掘模型的結構,該編輯器也可用來處理數據挖掘模型和查看結果內容,允許更改數據挖掘模型的基本屬性(如數據挖掘算法),顯示數據挖掘模型列(包括鍵列、輸入列和可預測列)。,關系挖掘模型編輯器還可以顯示構造事例集的表結構,顯示事例和支持表。對于已培訓的關系挖掘模型,可以使用數據挖掘模型瀏覽器,以圖形形式顯示數據挖掘模型的內容。,(2)通過編輯器編輯OLAP數據挖掘模型可以使用OLAP挖掘模型編輯器編輯OLAP數據挖掘模型的結構而且可處理數據挖掘模型并顯示結果內容,更改數據挖掘模型的基本屬性(如數據挖掘算法)及組成數據挖掘模型事例集的維度、級別和度量值的屬性。如果OLAP數據挖掘模型已經過培訓,則該編輯器還可以使用數據挖掘模型瀏覽器以圖形形式顯示數據挖掘模型的內容。,3培訓數據挖掘模型,為提供預測性的結果,數據挖掘模型首先必須在稱為“培訓”的進程中采用已知數據。在該進程中,數據被插入到未經過培訓的數據挖掘模型中。這個進程并不將培訓數據保存到數據挖掘模型中,而是通過數據挖掘模型分析培訓數據,找出以后可使用的規則和模式,以確定預測列的圖值并將統計信息作為數據挖掘模型內容保存。,4查看數據挖掘模型,查看已培訓數據挖掘模型的最簡單方法是使用數據挖掘模型瀏覽器和相關性網絡瀏覽器,這些圖形化工具以易于理解的圖形界面顯示數據挖掘模型的復雜內容(如決策樹),并圖形化數據挖掘模型的內容。,圖形化是指以易十理解的可視化格式顯示復雜數據的過程,但在數據挖掘中實現卻非常困難。數據挖掘模型瀏覽器可以簡化數據挖掘模型內容的圖形化過程,而相關性網絡瀏覽器則可以使決策樹數據挖掘模型中復雜關系的圖形化變得易于理解。,5對數據挖掘模型的其他操作,也可以為數據挖掘模型分配安全角色,以將對該模型及其預測能力的訪問權限限制為特定用戶和組、當數據挖掘模型鏈接到相應的數據庫時,將使用數據庫角色決定是否允許訪問鏈接到數據庫中的數據挖掘模型,這與在多維數據集中使用數據庫角色類似。,6.2統計類數據挖掘,統計技術是一個有著百余年歷史,并有著廣泛應用的技術。目前所使用的一些經典數據挖掘技術(如CART和CHAID等)都來自統計技術。在數據挖掘中的概率、獨立性、偶然性和過適應性等概念也都來源于統計技術。,6.2.1統計分析類數據挖掘技術,統計類數據挖掘技術是數據挖掘技術中較為成熟的一種,主要包括數據的聚集與度量技術、各種回歸技術、聚類挖掘技術和最近鄰域挖掘技術等。1數據的聚集與度量2各種回歸技術回歸又包括線性回歸和非線性回歸。,3聚類挖掘技術(1)聚類分析原理(2)分層聚類(3)劃分聚類(4)密度聚類(5)網格聚類(6)模型聚類,4最近鄰域數據挖掘最近鄰域數據挖掘工具是數據挖掘技術中最容易理解的技術之一,因為它用與人們思維方式相似的方法進行分析檢測最接近的匹配樣本。用最近鄰域方法進行預測的基本概念是相互之間“接近”的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰域對象。,6.2.2統計分析工具,數據挖掘中的統計分析上具是一種處于知識發現工具和信息處理工具之間的數據挖掘工具。,1統計類數據挖掘工具的功能,(1)可視化功能(2)探索功能(3)統計功能(4)數據管理功能(5)顯示功能(6)挖掘結果描述功能(7)開發工具(8)可接受的響應時間,2統計分析類工具的用途,統計類數據挖掘工具可以在時序數據和序列數據的挖掘中發揮重要作用,主要是趨勢分析、相似性搜索、與時間有關數據的序列模式挖掘和周期性模式的挖掘。,6.2.3統計分析工具應用,1統計分析類工具應用中的問題(1)空缺值處理A.忽略元組B.人工填寫空缺值。C.使用一個全局變量填充空缺值。,(2)噪聲數據處理噪聲是一個測量變量中的隨機錯誤或偏差。給定一個數值屬性的噪聲,可以將其平滑掉或剔除掉噪聲。A.分箱B.聚類C.計算機和人工檢查結合D.回歸,(3)不一致數據處理對于有些事務,所記錄的數據可能存在不一致性。數據不一致可以使用其他材料人工加以更正,例如數據輸入時的錯誤可以便用紙上的記錄加以更正。,2統計分析遵循的基本原則,統計分析的科學依據在于事物發展的規律性。具體來說,應該遵循以下3個基本原則。(1)與定性分析相結合原則(2)連貫和類推原則(3)統計資料的可靠性和分析公式的適應性原則,3統計分析的步驟,(1)確定分析目標(2)收集、審核及分析統計資料(3)確定分析模型、選擇分析方法(4)進行分析和誤差分析,4統計類數據挖掘的性能問題,統計方法的優點是精確、易理解并臣己經被廣泛應用。統計分析是一種有力的技術,用它可以了解客戶、市場、產品和其他關鍵商業參數。但也存在一些問題。,(1)它是勞動力密集的,需要相當一部分統計分析員和商業分析員的分析勞動。(2)成功的可能性很大程度上依賴于商業分析員解決問題的能力,不能自行查找隱藏在數據背后的知識。(3)許多情況下,商業分析人員并不知道需要查找什么(或無法選擇離散的變量分析),此時,統計分析工具將無法工作。,(4)在進行市場細分時,很難集成和分析非數字化數據,只適合數字化數據處理。(5)一般來說,統計類數據挖掘工具的應用成本與其可接受的響應時間不好統一。,6.3知識類數據挖掘,知識類數據挖掘技術就是一種依靠數據驅動的、從數據倉庫的數據中挖掘業務模式的知識發現技術。,6.3.1知識發現系統的一般結構,知識發現系統的結構由知識發現系統管理器、知識庫、商業分析員、數據倉庫的數據接口、數據選擇、知識發現引擎、知識發現評價、知識發現描述等部分組成。見圖6-1。,1知識發現系統管理器,知識發現系統管理器控制并管理整個知識發現過程。商業分析人員的輸入和知識庫中的信息用于驅動以下三個過程:(1)數據選擇過程。(2)抽取算法的選擇及使用過程。(3)發現的評價過程。,2知識庫和商業分析員,知識庫包含源于各方面的知識。商件分析員將元數據輸入數據倉庫,描述數據倉庫的數據結構、商業分析員還要在知識庫中輸入其他相關的數據知識(如應當注意的關鍵數據字段、分析中用于產生數據需求的商業規則、任何數據層次等)。其目的是按一種有效的方式指導對關注性信息的發現。,3數據倉庫的數據庫接口,知識發現系統利用數據庫的查詢機制,從數據倉庫中抽取數據。對于關系數據庫,可使用SQL查詢語言。知識庫中的數據倉庫元數據指導數據庫接口正確組織數據結構,并正確組織數據結構在數據倉庫中存儲的方式。為了提高效率,知識發現系統的數據庫接口可以直接與數據倉庫通信。,4數據選擇,數據選擇構件可以確定從數據倉庫中需要抽取的數據及數據結構。知識庫指導數據選擇構件,選擇需要抽取的數據以及抽取方式。如果只需示例數據,數據選擇構件必須有能力選擇并抽取恰當的隨機事例。此外,它還要選擇算法所需要的數據類型,同時將數據類型輸入算法。,5知識發現引擎,知識發現引擎將知識庫中的抽取算法提供數據選擇構件抽取的數據,其目的是抽取數據元素間的模式和關系。存儲在知識庫中的經驗對發現抽取有重要的作用。許多數據挖掘算法可與知識發現系統結合,作為知識發現引擎,如數據依賴、分類規則、聚類、概括數據、偏差檢查、歸納和模糊推理等。,6發現評價,商業分析員需要尋找關注性的數據模式,以便了解顧客、產品、市場等等。數據倉庫潛在地具有宿主模式。評價構件或過濾構件有助于商業分析員篩選模式,選出關注性的信息。用于分析關注性模式的技術包括統計的重點、覆蓋級別的置信度因子,以及可視化分析。,7發現描述,發現描述構件提供兩種必須的功能。一種是發現評價輔助商業分析員,在知識庫中保存關注性的發現結果,以備引用和使用。另一種是保持發現與商業經理(或商業總經理)的通信。其目的是利用知識發現來理解業務模式,將此理解轉化成可執行的建議。知識發現系統中的描述技術包括可視化導航和瀏覽、自然語言文本報告以及圖表和圖形。,6.3.2知識發現技術及其運用,前面敘述過,數據挖掘中的知識發現技術按照其不同的技術特點,可以分成規則型知識挖掘技術、神經網絡型知識挖掘技術、遺傳算法型知識挖掘技術和粗糙集型數據挖掘技術。這些不同類型的知識挖掘技術在數據挖掘中占有重要的地位。,1關聯規則應用,關聯規則是知識挖掘中一種主要的挖掘技術,通過關聯規則在數據倉庫中的應用,可使人們了解各種事物發生的前因后果,使企業利用挖掘的各種商業規則在市場競爭中獲取優勢。通常,關聯規則用于值域的基數很高或有多個二值屬性列的數據庫。,2神經元網絡的應用,人工種經網絡是種有效的預測模型。其模型比較復雜,許多人都難以理解;但是在聚類分析、奇異點分析、特征抽取中可以得到較大的應用,例如應用在信用卡欺詐、信貸風險、客戶分類、盈利客戶特征分析商業模式的識別上。,神經元網絡在使用時需要很長的圳練時間,因而對有足夠長訓練時間的應用更為合適。此外,神經元網絡對噪聲數據具有較高的承受能力。,3遺傳算法的應用,遺傳算法作為基于生物進化過程的組合優化方法,在數據挖掘中主要用于分類系統中,并且經常與神經網絡等數據挖掘技術綜合應用。神經元網絡在客戶的分類中的應用是比較成功的。,4粗糙集理論的應用,粗糙集在數據挖掘應用中,經常用于處理不確定問題,而且在處理過程中可以不需要關于問題的先驗知識,可以自動找出問題的內在規律。因此,在模式識別、決策分析、知識發現等方面得到較廣泛的應用。粗糙集在商業應用中也具有很大的應用范圍。,6.3.3知識發現工具,1知識發現工具系統結構(1)無耦合(2)松散耦合(3)半緊密耦合(4)緊密耦合,2知識發現工具運用中的問題,(1)數據挖掘技術應用中的共性問題在應用數據挖掘技術時,所遇到的共性問題有:數據質量、數據可視化、極大數據庫、性能與成本、分析人員的技能、數據噪聲和模式評價等問題。,(2)數據挖掘技術應用中的個性問題A.規則歸納應用中的問題。B.神經網絡應用中的問題。神經網絡方法也有一些缺點。第一,神經網絡易于受訓練過度的影響。第二,神經網絡的訓練速度問題。C.遺傳算法應用中的問題。,3知識發現的價值,(1)了解商業活動(2)發現商業異常(3)預測模型,6.4MDX語言,MDX是一種語法,支持多維對象與數據的定義和操作。它在很多方面與SQL語法相似,但并不是SQL語言的擴展。事實上,MDX所提供的一些功能也可由SQL提供,盡管不是那么有效或直觀。,1基本MDX,MDX查詢的創建者在編寫查詢前必須確定所請求數據集的結構,基本MDX查詢提供如下功能:A.MDX查詢的基本語法信息。B.成員、元組和集合提供了對成員、元組和集合的簡要描述(包
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《人工智能應用:機器學習基礎與應用教案》
- 專利使用權協議
- 將進酒:古典詩歌情感探究教案
- 自然選擇的作用和含義深度解析教學教案
- 保護動物呼喚行動議論文(7篇)
- 生物化學分子生物學在線試題
- 汽車維修行業服務標準與規范
- 航空航天器制造產業報告表
- 一場激烈的辯論賽事件描寫(15篇)
- 中醫藥服務與鄉村社區健康治理融合模式
- 特許經營合作合同
- 人教版九年級物理 14.3能量的轉化和守恒(學習、上課課件)
- 2024年網絡安全知識競賽考試題庫500題(含答案)
- 江蘇省徐州市賈汪區2023-2024學年七年級上學期期中考試數學試卷(含解析)
- 《港口粉塵在線監測系統建設技術規范(征求意見稿)》編制說明
- 品質巡檢個人工作計劃
- 醫院采購委員會管理制度
- 設備管道 防腐保溫施工方案
- DZ∕T 0214-2020 礦產地質勘查規范 銅、鉛、鋅、銀、鎳、鉬(正式版)
- 校車安全行車記錄表
- QCSG1204009-2015電力監控系統安全防護技術規范
評論
0/150
提交評論