




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據應用人才培養系列教材大數據導論第五章大數據分析5.1數據分析概念和分類5.2數據分析方法5.3
數據挖掘 大數據應用人才培養系列教材習題5.4上機與項目實訓 5.1數據分析概念和分類第五章大數據分析數據分析概念和分類數據分析是指收集、處理數據并獲取數據隱含信息的過程。大數據具有數據量大、數據結構復雜、數據產生速度快、數據價值密度低等特點,這些特點增加了對大數據進行有效分析的難度,大數據分析(BigDataAnalytics,BDA)成為當前探索大數據發展的核心內容。數據分析主要作用包括:●推測或解釋數據并確定如何使用數據;●檢查數據是否合法;●給決策制定合理建議;●診斷或推斷錯誤原因;●預測未來將要發生的事情。數據分析的類型根據數據分析深度,可將數據分析分為三個層次:描述性分析(descriptiveanalysis),預測性(predictiveanalysis)分析和規則性分析(prescriptiveanalysis)。在統計學的領域當中,數據分析可劃分為描述性統計分析、探索性數據分析及驗證性數據分析三種類型。在人類探索自然的過程中,通常將數據分析方法分為定性數據分析和定量數據分析兩大類。按照數據分析的實時性,一般將數據分析分為實時數據分析和離線數據分析。第五章大數據分析5.1數據分析概念和分類5.2數據分析方法5.3
數據挖掘 大數據應用人才培養系列教材習題5.4上機與項目實訓 數據分析是指數據收集、處理并獲取數據信息的過程。通過數據分析,人們可以從雜亂無章的數據當中獲取有用的信息,從而找出研究對象的內在規律。數據作為第四次工業革命的戰略資源,全球各國都在大力發展數據基礎信息平臺的建設,用以改善數據的采集、存儲、傳輸及管理的效率,從而提升信息服務水平。數據分析方法概述數據來源大數據分析包括五個階段,1)數據獲取及儲存2)數據信息抽取及無用信息的清洗3)數據整合及表示4)數據模型的建立和結果分析5)結果闡釋數據分析活動步驟分析數據在完成對數據的處理之后,最重要的就是根據既定目標需求對處理結果進行分析。目前,主要依靠四項技術:統計分析、數據挖掘、機器學習和可視化分析。5.2數據分析方法第五章大數據分析大數據分析方法的三種體系面向數據視角面向流程視角面向信息技術視角面向數據視角的大數據分析方法主要是以大數據分析處理的對象“數據”為依據,從數據本身的類型、數據量、數據處理方式以及數據能夠解決的具體問題等方面對大數據分析方法進行分類。面向流程視角的大數據分析方法主要關注大數據分析的步驟和階段。一般而言,大數據分析是一個多階段的任務循環執行過程。面向信息技術視角的大數據分析方法強調大數據本身涉及到的新型信息技術,從大數據的處理架構、大數據系統和大數據計算模式等方面來探討具體的大數據分析方法。5.2數據分析方法第五章大數據分析巨量的各類機器產生的數據123數據來源人為產生的大量數據企業的數據5.2數據分析方法第五章大數據分析大數據的來源按照數據產生主體可劃分為三層。最外層的是巨量的各類機器產生的數據,次外層是人為產生的大量數據。最內層主要是來自企業的數據。數據分析活動步驟1數據獲取及儲存2數據信息抽取及無用信息的清洗3數據整合及表示4數據模型的建立和結果分析5結果闡釋5.2數據分析方法第五章大數據分析由于大數據復雜多變的特殊屬性,不同的學者對大數據分析方法的看法各異。總結起來,包括三種體系,分別是面向數據視角、面向流程視角和面向信息技術視角的分析方法。4大必要的活動步驟(4)數據挖掘(3)數據預處理(1)識別目標需求(2)采集數據數據挖掘的目的是在現有數據基礎之上利用各類有效的算法挖掘出數據中隱含的有機質信息,從而達到分析推理和預測的效果,實現預定的高層次數據分析需求。對數據進行必要的預處理,常用的數據預處理方法包括:數據集成、數據清洗、數據去冗余。首先必須明確數據分析的目標需求,從而為數據的收集和分析提供清晰的方向,該步驟是數據分析有效性的首要條件。數據采集就是運用合適的方法來有效收集盡可能多的相關數據,從而為數據分析過程的順利進行打下基礎。常用的數據采集方法包括:系統日志采集方法,這是目前廣泛使用的一種數據采集方法。5.2數據分析方法第五章大數據分析數據分析活動步驟分析數據數據挖掘數據挖掘可以認為是發現大數據集中數據模式的一種計算過程。許多數據挖掘算法已經在機器學習、人工智能、模式識別、統計和數據庫領域得到了應用。機器學習機器學習算法從數據中自動分析獲得規律,并利用規律對未知數據進行預測。高性能的以機器學習算法為核心的數據分析,為實際業務提供服務和指導,進而實現數據的最終變現。統計分析統計分析基于統計理論,屬于應用數學的一個分支。在統計理論中,隨機性和不確定性由概率理論建模。統計分析技術可以分為描述性統計和推斷性統計。可視化分析可視化分析與信息繪圖學和信息可視化相關。數據可視化的目標是以圖形方式清晰有效地展示信息,從而便于解釋數據之間的特征和屬性情況。5.2數據分析方法第五章大數據分析第五章大數據分析5.1數據分析概念和分類5.2數據分析方法5.3
數據挖掘
大數據應用人才培養系列教材
習題5.4上機與項目實訓 5.3數據挖掘數據挖掘基本概念數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。第五章大數據分析5.3數據挖掘大數據挖掘數據挖掘是創建數據挖掘模型的一組試探法和計算方法,通過對提供的數據進行分析,查找特定類型的模式和趨勢,最終形成創建模型。分類樸素貝葉斯算法一種重要的數據分析形式,根據重要數據類的特征向量值及其他約束條件,構造分類函數或分類模型,目的是根據數據集的特點把未知類別的樣本映射到給定類別中。支持向量機SVM算法AdaBoost算法C4.5算法CART算法聚類BIRCH算法目的在于將數據集內具有相似特征屬性的數據聚集在一起,同一個數據群中的數據特征要盡可能相似,不同的數據群中的數據特征要有明顯的區別。K-Means算法期望最大化算法(EM算法)K近鄰算法關聯規則Apriori算法索系統中的所有數據,找出所有能把一組事件或數據項與另一組事件或數據項聯系起來的規則,以獲得預先未知的和被隱藏的,不能通過數據庫的邏輯操作或統計的方法得出的信息。FP-Growth算法大數據挖掘工具Hadoop如此復雜和龐大的數據集面前,傳統的數據挖掘分析工具已經不能勝任大數據的挖掘分析。針對大數據龐大的規模以及復雜的結構,目前業界已開發了眾多的大數據挖掘分析工具。第五章大數據分析MahoutSparkMLlibStormApacheDrillRapidMinerPentahoBI數據挖掘常用算法大數據挖掘常用的算法有分類、聚類、回歸分析、關聯規則、特征分析、Web頁挖掘、神經網絡等智能算法。5.3數據挖掘第五章大數據分析
分類就是通過學習得到一個目標函數,根據目標數據的不同特點按照分類模式將其劃分為不同的類別,其作用是通過分類模型,將目標數據映射到某個特定的類別。分類
聚類分析是把一組數據按照差異性和相似性分為幾個類別,使得屬于同一類的數據之間相似性盡可能大,不同類之間的相似性盡可能小,跨類的數據關聯性盡可能低。聚類
5.3數據挖掘第五章大數據分析
回歸分析是確定兩種或兩種以上變量相互之間依賴性關系的一種統計分析方法,用以分析數據的內在規律,常用于數值預報、系統控制等問題。回歸分析
關聯分析最主要的目的就是找出隱藏在數據之間的相互關系和關聯性,即可以根據一個數據項的出現推導出其他相關數據項的出現。關聯分析第五章大數據分析5.3數據挖掘
特征分析是指從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式即為此數據集的總體特征。特征分析
Web網頁挖掘涉及Web技術、計算機語言、信息學等多個領域,是一個綜合性過程。Web網頁挖掘第五章大數據分析5.3數據挖掘人工神經網絡
第五章大數據分析5.3數據挖掘人工神經網絡是一種模擬大腦神經突觸聯接結構來進行信息處理的數學模型,具有強大的自主學習能力和聯想存儲功能并具有高度容錯性,非常適合處理非線性數據以及具有模糊性、不完整性、冗余性特征的數據。大數據挖掘工具第五章大數據分析5.3數據挖掘人工神經網絡是一種模擬大腦神經突觸聯接結構來進行信息處理的數學模型,具有強大的自主學習能力和聯想存儲功能并具有高度容錯性,非常適合處理非線性數據以及具有模糊性、不完整性、冗余性特征的數據。Hadoop是一種能夠對大數據進行并行分布式處理的計算框架,以一種可靠、可伸縮、高效的方式對海量數據進行處理。Hadoop實現了一個分布式文件系統(HadoopDistributedFileSystem),簡稱HDFS。HDFS具有高容錯性的特點,并且設計用來部署在低廉硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。Mahout第五章大數據分析5.3數據挖掘Mahout的主要數據目標集是大規模數據,因此Mahout能夠建立運行在ApacheHadoop平臺上的可伸縮的機器學習算法,這些算法通過Mapreduce模式實現,但并不局限于Hadoop平臺。SparkMLlibMLlib是構建在ApacheSpark上的一個可擴展的分布式機器學習庫,充分利用了Spark的內存計算和適合迭代型計算的優勢,將性能大幅度提升。MLlib支持的分類算法主要有:樸素貝葉斯、邏輯回歸、決策樹和支持向量機.MLlib支持的回歸算法主要有:Lasso、線性回歸、決策樹和嶺回歸。聚類算法屬于非監督式學習,MLlib目前支持廣泛使用的Kmeans算法。MLlib也支持基于模型的協同過濾,其中用戶和商品通過一小組隱語義因子進行表達,并且這些因子也用于預測缺失元素。StormStorm是一個開源的、分布式的具有高容錯性的實時計算系統。Storm能夠十分可靠地處理龐大的數據流,能夠用來處理Hadoop的批量數據。Storm應用領域廣泛,包括:在線機器學習、實時分析、分布式RPC(遠過程調用)、持續計算、ETL等等。Storm的處理速度非常迅速,每個節點每秒可以處理上百萬個數據元組,Storm支持多種語言編程,具有容錯性高、可擴展、易于設置和操作的特點。5.3數據挖掘第五章大數據分析
ApacheDrill在基于SQL的數據分析和商業智能(BI)上引入了JSON(JavaScriptObjectNotation,JS對象標記)文件模型,使得用戶能查詢固定架構、演化架構以及各種格式和數據存儲中的模式(columnar-free)無關數據。ApacheDrill
RapidMiner是德國多特蒙德工業大學于2007年推出的世界領先的數據挖掘工具,能夠完成的數據挖掘任務涉及范圍廣泛,并且能夠簡化數據挖掘過程的設計和評價。RapidMiner第五章大數據分析5.3數據挖掘PentahoBI第五章大數據分析5.3數據挖掘PentahoBI是一個以流程為核心的,面向解決方案(Solution)而非工具組件的框架,其目的在于將一系列企業級BI產品、API、開源軟件等組件加以集成,方便商務智能應用的開發。PentahoBI包括多個工具軟件和一個webserver平臺,支持分析、報表、圖表、數據挖掘和數據集成等功能,允許商業分析人員或研發人員分析模型,創建報表,商業規則和BI流程。數據挖掘算法應用第五章大數據分析5.3數據挖掘決策樹分類算法,只需從樹的根節點開始,將測試條件用于檢驗記錄,根據測試結果選擇合適的分支,一直到最后輸出檢驗結果。數據屬性名稱體溫胎生類標號數據內容太陽鳥恒溫否?數據挖掘算法應用第五章大數據分析5.3數據挖掘利用貝葉斯網絡進行病情分析診斷,醫生可以根據病例數據建立合適的貝葉斯網絡分類模型,如對心臟病或心口疼痛患者的病例數據進行建模。造成心臟病(HD)的因素可能有不健康的飲食(D)和缺少鍛煉(E),心臟病帶來的相應癥狀包括高血壓(BP)和胸痛(CP)等。與此類似,心口痛(Hb)可能因為飲食不健康,同時也會造成胸痛。K-均值聚類方法
第五章大數據分析5.3數據挖掘K-均值聚類常用來對異常對象進行檢測,如垃圾信息、欺詐性行為等。K-均值算法通過對數據集的聚類分析,找出數據集合中遠離集聚簇的那些稀疏數據,再通過相應的處理方法作進一步處理,能夠有效清洗不干凈的數據,剔除惡意用戶。
K-均值目標數據集關聯規則關聯規則常用于發現事物之間的相關關系,通過一種屬性的出現來推斷很可能出現的其他屬性,能夠起到一種預測作用。通過發現這種關聯關系能夠指導用戶合理安排事物處理規則。5.3數據挖掘第五章大數據分析Tid項目集1{面包,牛奶,雞蛋,麥片}2{面包,牛奶,雞蛋}3{雞蛋,麥片}4{面包,牛奶,花生}第五章大數據分析5.1數據分析概念和分類5.2數據分析方法5.3
數據挖掘
大數據應用人才培養系列教材習題5.4上機與項目實訓
5.4上機與項目實訓第五章大數據分析1.給定特征數值離散的1組數據實例,設計并實現決策樹算法,對數據實例建立決策樹,觀察決策樹是否正確,數據樣本如下:TidOutlookTemperatureHumidityWindyPlay1SunnyHotHighFalseNo2SunnyHotHighTrueNo3OvercastHotHighFalseYes4RainyMildHighFalseYes5RainyCoolNormalFalseYes6RainyCoolNormalTrueNo7OvercastCoolNormalTrueYes8SunnyMildHighFalseNo9SunnyCoolNormalFalseYes10RainyMildNormalFalseYes編寫決策樹程序,建立決策樹,輸入實例,輸出預測類型。5.4上機與項目實訓第五章大數據分析
2.根據貝葉斯公式,給出在類條件概率密度為正態分布時具體的判別函數表達式,用此判別函數設計分類器。數據隨機生成,比如生成兩類樣本(如鱸魚和鮭魚),每個樣本有兩個特征(如長度和亮度),每類有若干個(比如20個)樣本點,假設每類樣本點服從二維正態分布,隨機生成具體數據,然后估計每類的均值與協方差,在兩類協方差相同的情況下求出分類邊界。先驗概率自己給定,比如都為0.5。如果可能,畫出在兩類協方差不相同的情況下的分類邊界。畫出圖形。標號集合數目中心坐標半徑1100(5,5)22100(10,6)23100(8,10)25.4上機與項目實訓第五章大數據分析3.隨機生成2維坐標點,對點進行聚類,進行k=2聚類,k=3聚類,多次k=4聚類,分析比較實驗結果,隨機生成3個點集,點到中心點距離服從高斯分布,相關數據如下:隨機生成測試點集,分別聚成2,3,4類,觀察實驗結果。多次4聚類,觀察實驗結果。
4.使用一種你熟悉的程序設計語言,如C++或Java,實現Apriori算法,至少在兩種不同的數據集上比較算法的性能。在Apriori算法中,尋找頻繁項集的基本思想是:
A.簡單統計所有含一個元素項目集出現的頻率,找出不小于最小支持度的項目集,即頻繁項集;
B.從第二步開始,循環處理直到再沒有最大項目集生成。循環過程是:
第k步中,
根據第k-1步生成的頻繁(k-1)項集產生侯選k項集。根據候選k項集,算出候選k項集支持度,并與最小支持度比較,
找到頻繁k項集。5.4上機與項目實訓第五章大數據分析實驗5認識大數據分析工具實驗原理本節內容,主要向讀者簡單介紹使用Mahout軟件來實現K-means程序。ApacheMahout是ApacheSoftwareFoundation(AFS)開發的一個嶄新的開源項目,主要目的是為了創建一些可伸縮的機器學習算法,供研發人員在Apache的許可下免費使用。在Mahout中,包含了分類、聚類、集群和頻繁子項挖掘等實現。另外,用戶可以通過ApacheHadoop庫將Mahout有效地擴展到云中。Mahout在開源領域的發展時間還比較短暫,但是Mahout目前已經擁有了大量的功能實現,尤其是針對聚類和CF方面。Mahout主要擁有如下特性:(1)TasteCF。Taste是一個針對CF的開源項目,由SeanOwen在SourceForge上發起的。(2)支持針對Map-Reduce的聚類算法的實現,例如K-means、模糊K-means、Canopy、Mean-shift和Dirichlet。(3)分布式貝葉斯網絡和互補貝葉斯網絡的分類實現。(4)擁有專門針對進化編程的分布式適用性功能。(5)擁有Matrix和矢量庫。5.4上機與項目實訓第五章大數據分析實驗內容K-means算法是一種聚類算法,主要功能是用來把目標數據分成幾個不同的簇,使得簇內元素彼此具有最大相似,不同簇間的元素彼此具有最大相異性。算法實現原理比較簡單,容易理解。具體過程如圖所示:K-means實現過程實驗5認識大數據分析工具5.4上機與項目實訓第五章大數據分析實驗內容如上圖所示,圖中有A,B,C,D,E五個點,假設K值為2圖中灰色點所示,意味著把目標數據分成兩個集群。具體實現過程如下:(1)在目標范圍內隨機取K個分簇點(圖中K=2);(2)求圖中所有個點到 K個分簇點的距離,若Pi離分簇點Si距離最小,則Pi屬于Si的類。從上圖可以看到A,B,C屬于1號分簇點,D,E屬于2號分簇點;(3)移動分簇點到屬于它的類中心;(4)重復執行(2)、(3)步驟到所有分簇點不在改變位置為止。K-means算法具有實現簡單、執行速度快,對大數據集有較高的效率而且算法可伸縮,時間復雜度為O(NKt)其中N為數據集個數,K為簇數目,t為算法迭代次數。K-means非常適合用于大數據挖掘,但它也有固有的不足之處,例如K的取值具有隨機性,非常難以在事先具體給出,并且初始聚類的中心選擇對最后的聚類結果也有較大影響。實驗5認識大數據分析工具5.4上機與項目實訓第五章大數據分析實驗指導(1)建立HDFS目錄在client機上操作,首先在HDFS上建立文件目錄;[root@clienthadoop]#bin/hadoopfs–mkdir–p/user/root/testdata(2)準備實驗數據將root/data/33/文件夾下的synthetic_control.data文件上傳到HDFS上面上個步驟新建的目錄下。[root@clienthadoop]#bin/hadoop/fs–putsynthetic_control.data/user/root/testdata(3)添加臨時的JAVA_HOME環境變量[root@clienthadoop]#exportJAVA_HOME=/usr/local/jdk1.7.0_79(4)提交Mahout的K-means程序[root@clienthadoop]#bin/hadoopjar/usr/cstor/mahout/mahout-examples-0.9-job.jar\>org.apache.mahout.clustering.syntheticcontrol.kmeans.Job(5)查看程序結果[root@clienthadoop]#bin/hadoopfs–ls/user/root/output。實驗5認識大數據分析工具第五章大數據分析5.1數據分析概念和分類5.2數據分析方法5.3
數據挖掘
大數據應用人才培養系列教材習題5.4上機與項目實訓
1.數據挖掘的常用算法有哪幾類?2.數據挖掘方法中分類的含義?分類與聚類方法有哪些不同之處?3.根據數據挖掘的應用場景,談談數據挖掘的主要應用領域。4.簡述決策樹分類的主要步驟。簡略介紹貝葉斯網絡的構建過程,以及如何應用先驗概率求得后驗概率的步驟。5.K-均值聚類算法和K-中心點聚類算法都能進行有效的聚類分析。概述K-均值和K-中心點算法的優缺點;并分別舉出兩個算法各自適用的分析實例。習題:6.計算決策樹在最壞情況下的計算復雜度是很有意義的。給定數據集D,屬性數n和訓練元組數|D|,根據D和n來分析計算復雜度。7.當一個數據對象可以同時屬于多個類時,很難評估分類的準確率,在此種情況之下,您打算使用何種標準在相同數據上建立不同的分類器。8.假如銀行想開發一個分類器,預防信用卡交易中的欺詐。如果銀行有大量非欺詐數據實例和很少的欺詐數據實例,考慮如何構造高質量分類器。習題:9.考慮如右表的數據集:(1)計算條件概率P(A|X),P(B|X),P(C|X),P(A|Y),p(B|Y),P(C|Y);(2)根據(1)中的條件概率,使用樸素貝葉斯方法預測樣本(A=0,B=1,C=0)的類標號;(3)比較P(A=1),P(B=1)和P(A=1,B=1),陳述A,B之間的關系;(4)比較P(A=1,B=1|類=X)與P(A=1|類=X)和P(B=1|類=X),給定類X,變量A,B條件獨立嗎?習題:10.某醫院對本院醫生進行服務態度的評估,根據以往的評估顯示,70%的醫生服務態度為良好,30%的醫生服務態度一般。在此次評估中,以前評為良好的醫生中,有80%的仍然為良好;而在以前評為一般的醫生,有30%的人達到了良好。現在有一名醫生的評估結果是良好,請問他在以前評估中是良好的概率是多少。11.假設數據挖掘的任務是將如下的8個點(用(x,y)代表位置)聚類為3個簇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學前兒童疾病防御教育
- 愛學班班培訓
- 酒店服務培訓
- 精細管理型廠房租賃安全責任書
- 車輛銷售代理傭金結算及售后服務協議
- 智能家居合同財務管理與用戶隱私保護協議
- 電影節場地借用及影視作品推廣合同
- 工程質量教育培訓
- 財務風險控制顧問勞動合同范本及風險評估方法
- 融資型餐廳總經理職務任聘合同書范本
- 網絡安全預防電信詐騙主題班會PPT
- 農村垃圾清運投標方案
- 優秀物業管理項目評選方案
- 貴州大方富民村鎮銀行股份有限公司(籌)招聘上岸提分題庫3套【500題帶答案含詳解】
- GB/T 5470-2008塑料沖擊法脆化溫度的測定
- GB/T 40998-2021變性淀粉中羥丙基含量的測定分光光度法
- 圖書管理系統畢業論文參考文獻精選,參考文獻
- 中國當代舊體詩選讀幻燈片
- 吉林省全省市縣鄉鎮衛生院街道社區衛生服務中心基本公共衛生服務醫療機構信息名單目錄995家
- 倔強的小紅軍-精講版課件
- 信息隱藏與數字水印課件(全)全書教學教程完整版電子教案最全幻燈片
評論
0/150
提交評論