




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章數據挖掘與其它數據處理方法1.1 數據挖掘與傳統分析方法的區別數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數 據挖掘是在沒有明確假設的前提下去挖掘信息、 發現知識。數據挖掘所得到的信 息應具有先未知,有效和可實用三個特征。先前未知的信息是指該信息是預先未曾預料到的, 既數據挖掘是要發現那些 不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越 是出乎意料,就可能越有價值,在商業應用中最典型的例子就是一家連鎖店通過 數據挖掘發現了小孩尿布和啤酒之間有著驚人的聯系。1.2 數據挖掘和數據倉庫大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或
2、數據 集市中(見圖8.1)。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉 庫時已經清理過,那很可能在做數據挖掘時就沒必要在清理一次了,而且所有的數據不一致的問題都已經被解決了。數據挖掘庫可能是數據倉庫的一個邏輯上的 子集,而不一定非得是物理上單獨的數據庫。 但如果數據倉庫的計算資源已經很 緊張,那最好還是建立一個單獨的數據挖掘庫根據挖掘的任務可以分為:分類和預測模型發現、數據總結和聚類、關聯規 則發現、序列模式發現、相似模式發現和混沌模式發現等。根據挖掘對象來分, 數據挖掘方法有面向關系數據庫、空間數據庫、時態數據庫、文本
3、數據源、多媒 體數據庫、面向對象數據庫、異質數據庫以及 WEB!息等。根據挖掘方法來分, 數據挖掘方法可分為機器學習方法、 統計方法、神經網絡方法和數據庫方法。其 中機器學習可細分為歸納學習方法、 基于范例學習、遺傳算法等;統計方法可細 分為回歸分析、判別分析、聚類分析、探索性分析等;神經網絡方法可細分為前 向神經網絡、自組織神經網絡等;數據庫方法主要是多維數據分析或聯機分析方 法,另外還有面向屬性的歸納方法。數據挖掘之所以被稱為未來信息處理的骨干技術之一,主要在于它以一種全新的 概念改變著人類利用數據的方式。數據挖掘和知識發現使數據處理技術進入了一 個更高級的階段。它不僅能對過去的數據進行簡
4、單的查詢, 并且能夠找出過去數 據之間的潛在聯系,進行更高層次的分析,以便更好地做出理想的決策、預測未 來的發展趨勢等。數據挖掘技術將人們認識和利用數據的三個階段數據、信息、和知識有機的 結合在一起。從數據、信息和知識三個層面上看,數據是最原始的未經組織和處 理的信息源。信息或稱有效信息是指對人們在某些方面有價值的東西。知識是一 種現實世界信息的抽象和濃縮,是一種概念、規則、模式和規律等。數據挖掘技 術通過對原始數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,發現數 據問的關聯性、未來趨勢以及一般性的概括知識等, 轉變成可以用來指導人們某 些高級商務活動的有用信息。1.3 數據挖掘技術將來
5、的發展趨勢:1)數據挖掘技術已經存在相當大市場, 將成為對工業產生重要影響的關鍵技術 之一。同時,并行計算機體系結構研究和 KD疝被列入今后5年內公司應該 投資的10個新技術領域之一。這些資料都表明,數據挖掘技術在將來有很大 的發展潛力及空間。2)數據挖掘技術作為一門新技術,仍有許多問題需要研究、解決和探索。分析 目前的研究和應用現狀,對于數據挖掘技術將來的工作重點有:a.數據挖掘技術與特定商業邏輯的平滑集成問題;b.數據挖掘技術與特定數據存儲類型的適應問題;c.大型數據的選擇和規格化問題;d.數據挖掘系統的構架與交互式挖掘技術;e.數據挖掘語言與系統的可視化問題;f. 數據挖掘理論與算法研究
6、。分類是數據挖掘中一項非常重要的任務, 目前在商業上的應用最多。分類的目 的是提出一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中 的數據項映射到給定類別中的某一個。 分類和回歸都可用于預測,預測的目的是 從歷史數據記錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。分類的效果一般和數據的特點有關,有的數據噪聲大,有的有缺省值,有的 分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混 合式的。目前普遍認為不存在某種方法能適合各種特點的數據。下面介紹幾種常用的分類算法。構造一個決策樹分類器通常分為兩步:樹的生成和剪枝。樹的生成采用自上 而下的遞歸分治
7、法。如果當前訓練例子集合中的所有實例是同類的,構造一個葉 節點,節點內容即是該類別。否則,根據某種策略選擇一個屬性,按照該屬性的 不同取值,把當前實例集合劃分為若干子集合。對每個子集合重復此過程,直到 當前集中的實例是同類的為止。剪枝就是剪去那些不會增大樹的錯誤預測率的分 枝。經過剪枝,不僅能有效的克服噪聲,還使樹變得簡單,容易理解。生成最 優的決策樹同樣是NP問題。目前的決策樹算法通過啟發式屬性選擇策略來解決 問題。第二章逐步判別算法2.1 逐步分析法概述逐步判別分析法是多元統計學中的一類重要方法。它在生物學、農學、醫學 等領域中有著廣泛的應用。以前的多元統計分析計算程序大多是在 pc-15
8、00機上 用低版本的BASIC語言開發的,存在著用戶界面差,程序通用性、可移植性差等 缺點。隨著多元統計方法應用領域的不斷擴大及計算機軟、硬件技術的發展,開發一個用戶界面好、程序通用性強的多元統計分析軟件包具有較高的實用價值。 本章針對逐步判別的思想,進行了算法分析和編程,同時注意到程序的通用性、 可移植性、可靠性和用戶界面友好等軟件特性。在實際生活中,我們常會碰到這樣的問題:如果已經存在某個準則,由它我 們肯定知道原始樣本來自某總體,但由于一些客觀存在的原因,如:信息丟失, 不能獲得充足的信息、對某件事進行預測、破壞性試驗等等,使我們不能使用這 個準則,但我們可以用數學的方法,從已知的材料和
9、準則出發,設置一個準則, 使來源未知的個體分配到正確的總體中去。 逐步判別是先從所有因子中挑選一個 具有最顯著判別能力的因子,然后再挑選第二個因子,這因子是在第一因子的基 礎上具有最顯著判別能力的因子,即第一個和第二個因子聯合起來有顯著判別能 力的因子;接著挑選第三個因子,這因子是在第一、第二因子的基礎上具有最顯 著判別能力的因子。由于因子之間的相互關系,當引進了新的因子之后,會使原 來已引入的因子失去顯著判別能力。 因此,在引入第三個因子之后就要先檢驗一 下各已經引入的因子是否還具有顯著判別能力,如果有就要剔除這個不顯著的因 子;接著再繼續引入,直到再沒有顯著能力的因子可剔除為止。用這樣挑選
10、出來的因子建立的判別函數進行判別,就能得到較高的判別準確率。2.2 逐步判別的主要算法分析第一步:列出原始數據,包括總體個數 G;判別變量個數同各已知總體中樣 本個數Ni (i=1,2 , - G,樣品總數N=N1+N2 +-+NG;引入和剔除變量的臨界值F1 和 F2 (一月取 F1=F2).第二步:計算各總體的均值和總均值分類均值Xj 1 =工Ji X . 1 1=1,2G j=1,2MN awXajG Ni總均值 XJ =' ' Xaj1 j=1,2mN i aT第三步:計算組內離差陣 Wft總離著陣TW=(Wj) m XmT =(j)m Xm,不 JNil lll其中
11、Wij=(Xi Xi )(Xaj-Xj)i £ i TG Ni tij = " (Xai Xi)(X; Xj)gZ.Gi =1 a £第四步:逐步計算:a剔除變量:l計算每個已選入變量的U i|(L-1)= 4,挑選最大的U|(L-1),假設r變量的Ur|(L-1)Wi為最大,作F檢驗:匚 1 -Ur |(L -1) N -G -(L -1)F =.Ur |(L -1)G -1,若F<F1 ,則把X1從判別函數中剔除。b選入變量:l計算未選入變量的UiiKL):,挑選最小的UJ(L-1),假設r變量的Ur| (L) tii為最小,作F檢驗F =1 -Ur |(L) N G - L :若F>F1 ,則把xr引入判別函數Url(L) G-1C消去過程:當剔除變量/Wrj /WrrXr或引入變量lxr,都同樣運用下列公式進行消去。(i 1)WjWij -Wir.Wrj/Wrrl1/Wrrll-Wir /Wrrj 二r j 二 r j =r j 二 r(l) l(i 1) ti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中級會計實務精講試題及答案
- 休閑體育考試試題及答案
- 二建機電考試題及答案
- 初中vb試題及答案
- 幼教一級評職稱考試試題及答案
- 大情境語文試題及答案
- 財務管理翻轉課堂試題及答案
- 2025年工程法規綜合知識點復習試題及答案
- 2025年工程法規知識整合復習試題及答案
- 2025年工程法規考試中的實戰技巧試題及答案
- GB/T 30565-2025無損檢測渦流檢測總則
- 食堂承包餐飲管理制度
- 企業文化宣傳合同樣本
- 鄉村助理醫師考試知識運用試題及答案
- 2025年中國商業銀行同業業務行業深度分析、投資前景及發展趨勢預測報告(智研咨詢)
- 中考專項復習訓練:課外古詩詞練習(附答案)
- 2025年高考作文素材積累:熱點人物+小眾金句
- 道路運輸汛期安全教育
- 2025醫療機構數據分類分級規范
- 軟件實施工程師個人述職報告
- 會議資料制作合同范本
評論
0/150
提交評論