




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于神經網絡的數據挖掘方法第1頁/共24頁0引言1數據挖掘技術2神經網絡原理3基于神經網絡的數據挖掘4結論2第2頁/共24頁0引言現代信息技術的高速發展,數據庫應用的規模、范圍不斷擴大,可獲得的數據量越來越大,數據的種類也日益繁多。面對如此大規模的、并且存在著“噪聲”的數據,如何從中提取出隱含其中的有意義的、對決策有用的信息或知識,進一步提高信息利用率,成為“信息時代”亟待解決的一個問題。3第3頁/共24頁0引言20世紀90年代出現的數據挖掘技術受到不同領域研究學者的極大關注,盡管對數據挖掘的研究與應用還只處于初級階段,但是它的應用前景早已被各方面專家學者看好。GarterGroup在1997年的一份報告中指出:數據挖掘技術將在未來的三到五年內成為對全球影響最的一個關鍵技術領域。4第4頁/共24頁1數據挖掘技術數據挖掘的含義:數據挖掘,又稱數據庫中的知識發現,就是從大量數據中獲取有效、新穎、潛在有用、最終可理解的模式的非平凡過程。簡單地說,數據挖掘就是從海量的數據中挖掘出可能有潛在價值的信息的技術。這些知識是是隱含的,事先未知的潛在的有用的信息。5第5頁/共24頁1數據挖掘技術數據挖掘的主要功能:①分類:按照對象的屬性、特征,建立不同的組類來描述事物。②聚類:識別出分析對象內在的規則,按照這些規則把對象分成若干類。6第6頁/共24頁1數據挖掘技術數據挖掘的主要功能:③關聯規則和序列模式:關聯是某種事物發生時其他事物會發生的這樣一種聯系。④預測:把握分析對象發展的規律,對未來的趨勢做出預見。⑤偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。7第7頁/共24頁1數據挖掘技術數據挖掘的處理過程:數據挖掘的過程主要分為5個部分:①問題的定義②數據準備③數據整理④建立模型⑤評價和解釋8第8頁/共24頁1數據挖掘技術數據挖掘的處理過程:9第9頁/共24頁1數據挖掘技術現行的數據挖掘方法:統計方法、關聯發現、聚類分析、分類與回歸和決策樹、聯機分析處理(OLAP)、查詢工具、主管信息系統(EIS)等。這些方法幫助分析包含在數據倉庫中的數據,它們的共同特點是問題驅動的。用戶必須提出許多問題,才能得到包含在復雜關系中的結果,當提不出問題或提出的問題不正確時,將得不到正確的數據。10第10頁/共24頁2神經網絡原理神經網絡是由大量并行分布式處理單元組成的簡單處理單元。它有通過調整連接強度而從經驗知識進行學習的能力并可將這些知識進行運算。是模擬人腦的一種技術系統。11第11頁/共24頁3基于神經網絡的數據挖掘基于神經網絡的數據挖掘由以下二個階段組成:網絡構造、訓練和剪枝規則提取與評估12第12頁/共24頁3基于神經網絡的數據挖掘網絡構造、訓練和剪枝:這個階段需要選擇擬采用的網絡模型,選擇或設計一種網絡訓練算法。訓練后的網絡可能有些臃腫,剪枝就是在不影響網絡準確性的前提下,將網絡中冗余的連接和結點去掉。沒有冗余結點和連接的網絡產生的模式更精練和更易于理解。13第13頁/共24頁3基于神經網絡的數據挖掘規則提取和評估:這一階段從進化后產生的相對簡單的網絡中提取分類規則。規則提取目的就是從網絡中提取規則,并轉換為某種易理解的形式表達出來,如決策樹、模糊邏輯等方法。再利用測試樣本對規則的可靠性進行測試與評估,最后輸出有用知識。14第14頁/共24頁3基于神經網絡的數據挖掘適合神經網絡的數據挖掘問題:分類是數據挖掘的一個主要問題。單層感知器的線性可分能力早已證明,但是對于非線性可分問題單層網絡是無能為力的。可通過加入中間層,引入轉換函數,將非分線性可分的問題映射后變為線性可分。一個多層的神經網絡具有非常強的分類能力,并且分類誤差率較低。15第15頁/共24頁3基于神經網絡的數據挖掘適合神經網絡的數據挖掘問題:時序預測是依據當前已知的數據來預測將來未知數據的狀態。神經網絡固有的輸人輸出映射特性,特別適合用來建立預測模型。不管是線性問題還是非線性問題,只要輸入輸出間存在連續映射關系,就可以用一個多層神經網絡以任意精度來逼近之。16第16頁/共24頁3基于神經網絡的數據挖掘適合神經網絡的數據挖掘問題:聚類是無監督學習過程,它依據數據間的相似度將數據集劃分為不同的簇。目的是概觀數據的全貌,了解數據點的分布情況以及可能存在的問題。17第17頁/共24頁4結論神經網絡的優點:①非用戶驅動,用戶參與少,挖掘層次深。②處理變量較多,能處理定性變量,復雜、動態數據,發現的事實或規則是以描述和可視性為主要目的。③分布記憶性和快速的計算能力。18第18頁/共24頁4結論神經網絡的不足:①非數值型數據的處理:量化此類數據往往憑人們主觀經驗而定,如果不能按實際情況進行量化,將影響挖掘結果。②數據質量:由于某些數據具有冗余或不完整性,致使產生的規則存在不真實和異常等問題。19第19頁/共24頁4結論神經網絡的不足:③權值和閾值初值的確定:權值和閾值的初值影響算法的迭代次數和學習結果。④學習樣本的大小:對于數據量較小的數據庫,可能出現錯誤的結果,這時就可以把這些數據作為新樣本補充到學習樣本中去。20第20頁/共24頁4結論神經網絡的不足:⑤激勵函數的選取:激勵函數是對多個輸入進行處理產生輸出的功能模塊,它將關系到結果是有價值和真實。對于數據庫中模糊知識的發現,往先對輸出狀態進行編碼,采用符號函數作為激勵數。⑥神經網絡的訓練速度問題:構造神經網絡時要求對其訓練許多遍,這意味著獲得精確的神經網絡需要花費許多時間。21第21頁/共24頁4結論神經網絡的不足:⑦特征函數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財政投資風險評審流程
- 養老護理員職業素養培訓計劃
- 醫院醫療安全資金投入計劃
- 人教版七年級下冊生物教學創新模式計劃
- 最美文化工作者事跡材料范文
- 風門砌筑施工規范化管理技術措施
- 裝配式建筑施工現場管理機構設置及職責
- 幼兒園疫情期間中班家長志愿者參與計劃
- ERP系統軟件項目進度計劃
- 舞蹈愛好者社團活動計劃
- 工程部內部培訓(一)項目經理培訓
- 《病歷書寫基本規范》課件
- 【多旋翼無人機的組裝與調試分析6000字(論文)】
- 中學生反詐專題主題班會課件
- 塔式起重機安裝驗收牌
- 幼兒園大班社會《偉大的起點 》 高清有聲課件
- 《義務教育地理新課程標準》(2022年版)新課標初中地理解讀與梳理教學課件
- 工程倫理-核工程的倫理問題
- 施工臨時設施驗收表
- 2022年隴南市事業單位考試真題
- 中藥學電子版教材
評論
0/150
提交評論