大數據算法綜述_第1頁
大數據算法綜述_第2頁
大數據算法綜述_第3頁
大數據算法綜述_第4頁
大數據算法綜述_第5頁
已閱讀5頁,還剩17頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘算法綜述張嫻162107201332017.04.28CONTENTS大數據概述數據挖掘算法分類經典算法簡介123PART ONE大數據概述大數據概述 大數據是指無法在一定時間范圍內用常規的軟件工具進行捕捉、管理和處理的數據集合。是由于目前存儲和計算模式與能力不能滿足存儲與處理現有數據集規模的需求而產生的相對概念。大數據平臺的設計大數據分布式存儲系統: 研究大規模、非結構化數據的存儲問題,突破大數據的存儲、管理和高效訪問關鍵技術平臺層高可擴展性大數據挖掘算法:基于云計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫功能層基于 Web 的大數據挖掘技術:Web 的大數

2、據挖掘方法和流程,實現易于使用的基于Web 的大數據挖掘技術,構建基于 Web 的大數據分析環境。 服務層PART TWO數據挖掘算法分類數據挖掘 大數據的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發現隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。 大數據的挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網絡方法、Web 數據挖掘等。這些方法從不同的角度對數據進行挖掘。數據挖掘算法分類 找出數據庫中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到摸個給定的類別中。分類 反映了數據庫中數據的屬性

3、值的特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系?;貧w分析 針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。聚類數據挖掘算法分類 隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。關聯 一種先進的人工智能技術,具有自行處理、分布存儲和高度容錯等特性。非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據。神經網絡 Web 從文檔結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個

4、映射過程。Web數據挖掘PART THREE經典算法簡介ID3算法 決策樹決策樹是一種依托決策而建立起來的一種樹。在機機器學習器學習中,決策樹是一種預測模型,代表的是一種對象屬性與對象值之間的一種映射關系,每一個節點代表某個對象,樹中的每一個分叉路徑代表某個可能的屬性值,而每一個葉子節點則對應從根節點到該葉子節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,如果有多個輸出,可以分別建立獨立的決策樹以處理不同的輸出。ID3算法 ID3算法是決策樹的一種,它是基于奧卡姆剃刀原理的,即用盡量用較少的東西做更多的事。在信息論中,期望信息越小,那么信息增益就越大,從而純度就越高。ID3算法的核心思想

5、就是以信息增益來度量屬性的選擇,選擇分裂后信息增益最大的屬性進行分裂。該算法采用自頂向下的貪婪搜索遍歷可能的決策空間。ID3算法ID3算法ID3算法C4.5算法C4.5相比于ID3改進的地方有: 1、用信息增益率來選擇屬性。 2、在樹構造過程中進行剪枝,在構造決策樹的時候,那些掛著幾個元素的節點,不考慮最好,不然容易導致overfitting。 3、對非離散數據也能處理。 4、能夠對不完整數據進行處理。K-Means算法 K-Means算法是聚類算法,k在在這里指的是分類的類型數,所以在開始設定的時候非常關鍵,算法的原理是首先假定k個分類點,然后根據歐式距離計算分類,然后取同分類的均值作為新的聚簇中心,循環操作直到收斂。K-Means算法Apriori 關聯關聯算算法法 Apriori算法學習數據的關聯規則(association rules),適用于包含大量事務(transcation)的數據庫。 關聯規則學習是學習數據庫中不同變量中的相互關系的一種數據挖掘技術。Apriori 關聯關聯算算法法基本的 Apriori 算法有三步: 1、參與:掃描一遍整個數據庫,計算1-itemsets 出現的頻率。 2、剪枝:滿足支持度和可信度的這些1-itemsets移動到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論