




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Eon-Cloud大數(shù)據(jù)平臺介紹大數(shù)據(jù)技術(shù)Hadoop是目前大數(shù)據(jù)平臺中應(yīng)用率最高的技術(shù),已成為行業(yè)內(nèi)事實上的標準,特別是針對諸如文本、社交媒體訂閱以及視頻等半/非結(jié)構(gòu)化數(shù)據(jù)。Hadoop兩大核心技術(shù)HDFS 和 MapReduce,解決大數(shù)據(jù)的存儲與計算2大數(shù)據(jù)技術(shù)(big data),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主流軟件工具,需要特殊的技術(shù)和工具在合理時間實現(xiàn)數(shù)據(jù)的獲取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策價值數(shù)據(jù)。大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進行存儲和分析。大數(shù)據(jù)特點3體量大Volume多樣性Variety增長速度快Velocity價值密度低Value非結(jié)構(gòu)化數(shù)
2、據(jù)的超大規(guī)模和增長占總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍數(shù)據(jù)類型多樣化(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義價值密度低,大量的不相關(guān)信息對未來趨勢的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)短時間范圍內(nèi)以TB級別增長實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)下的商業(yè)智能4傳統(tǒng)BI結(jié)構(gòu)化數(shù)據(jù)關(guān)系型數(shù)據(jù)庫數(shù)據(jù)規(guī)模一般TB級集中式,數(shù)據(jù)向計算靠近批處理為主離線計算報表展示統(tǒng)計分析使用算法看數(shù)據(jù)大數(shù)據(jù)時代的BI半結(jié)構(gòu)+非結(jié)構(gòu)化數(shù)據(jù)+結(jié)構(gòu)化數(shù)據(jù)集群、分布式文件系統(tǒng)數(shù)據(jù)規(guī)模
3、從數(shù)十TB到PB級分布式,計算向數(shù)據(jù)靠近支持流式計算實時分析+離線計算智能決策自動化分析依賴算法解讀數(shù)據(jù)Hadoop大數(shù)據(jù)介紹5HDFS集群6NameNode服務(wù)器客戶端機架1機架2DataNode服務(wù)器DataNode服務(wù)器DataNode服務(wù)器DataNode服務(wù)器打開文件415323241352541一個文件被分成很多的數(shù)據(jù)塊,存儲在多臺服務(wù)器上運行的HDFS分布式文件系統(tǒng)中,每一個數(shù)據(jù)塊會有三個復(fù)本(缺省,可自定義)。例如:客戶端的一個文件被分成5個數(shù)據(jù)塊,存儲在HDFS集群DataNode服務(wù)器上。寫數(shù)據(jù)塊1復(fù)制123登記,查詢和管理文件系統(tǒng)命名空間,記錄MetaData元數(shù)據(jù)復(fù)制3
4、4寫完成5關(guān)閉文件1創(chuàng)建文件,進行分片獲取數(shù)據(jù)庫定位及元數(shù)據(jù)2333讀讀讀4關(guān)閉文件數(shù)據(jù)大小超過一臺獨立計算機存儲能力時,有必要對它進行分區(qū),并存儲到多臺獨立的計算機上。管理網(wǎng)絡(luò)中多臺計算機存儲空間的文件系統(tǒng)稱為分布式文件系統(tǒng)。3八臺DataNode服務(wù)器,部署在兩個機架中。HDFS分布式文件系統(tǒng)7存儲“超大文件”,幾百GB或幾百TB,甚至到達PB級,一個“超大文件”數(shù)據(jù)是分散的、冗余的存儲在HDFS分布式文件系統(tǒng)中。以流式數(shù)據(jù)訪問,一次寫入多次讀取,寫操作講數(shù)據(jù)追加到文件末尾,每次分析(讀)都將涉及數(shù)據(jù)集的大部分甚至全部的數(shù)據(jù)。不挑硬件,使用廉價的x86架構(gòu)的普通服務(wù)器,甚至可以使用PC,不
5、需要專業(yè)共享存儲設(shè)備。適合高數(shù)據(jù)吞吐量的分析應(yīng)用,不適合低延時數(shù)據(jù)訪問的分析應(yīng)用(使用HBase)。數(shù)據(jù)塊,HDFS進行讀寫的最小單位,缺省64M,每個數(shù)據(jù)塊有三個副本。容忍節(jié)點故障,不丟失數(shù)據(jù),為大數(shù)據(jù)分布式計算提供數(shù)據(jù)存儲的場景。橫向擴展,HDFS可以隨時進行橫向擴展節(jié)點,增加存儲空間。Hadoop HDFS分布式文件系統(tǒng)特點:HDFS存放數(shù)據(jù)(復(fù)本怎么放)8DataNode服務(wù)器DataNode服務(wù)器AAAA數(shù)據(jù)塊機架1機架2數(shù)據(jù)塊存放原則首先,HDFS選擇一臺服務(wù)器,寫入數(shù)據(jù)塊A在同一臺機器上,寫入一個副本A同一個機架上另外一臺服務(wù)器上,寫入數(shù)據(jù)塊副本A最后,不同機架的一臺服務(wù)器上,寫
6、入數(shù)據(jù)塊副本AAHadoop MapReduce 計算9文件(流數(shù)據(jù)):每個商品不同區(qū)域的訂單數(shù)量數(shù)據(jù)前三位是商品編號,后三位是訂單數(shù)量167100143002167011143260143017172088143012172007( 0,167100)( 7,143002)(14,167011)(21,143260)(28,143017)(35,172088)(42,143012)(49,172007)輸入(167,100)(143, 2)(167,11)(143,260)(143,17)(172,88)(143,12)(172, 7)(167,100,11)(143, 2,260,17,1
7、2)(172,88,7)(167,111)(143, 291)(172,95)167,111143,291172,95Map 映射函數(shù)Reduce化簡函數(shù)Sort輸出文件中是某個電商平臺,每個商品每天的訂單數(shù)量,現(xiàn)在需要統(tǒng)計某段時間內(nèi),每個商品的訂單總數(shù):輸入文件數(shù)據(jù),整理為(key,value)數(shù)據(jù)格式,Key為行的偏移量;通過Map函數(shù),提取出來產(chǎn)品編號(1至3列)和訂單數(shù)量(4至6列);通過Sort,整理出來(key,value)每個訂單的元組信息(產(chǎn)品編號,訂單數(shù)量,訂單數(shù)量,訂單數(shù)量,;通過Reduce函數(shù),把每個商品的訂單數(shù)量求和,并輸出結(jié)果;易用云大數(shù)據(jù)平臺10易用云大數(shù)據(jù)平臺1
8、1HBase列族數(shù)據(jù)庫HDFS 分布式文件系統(tǒng)Hive數(shù)據(jù)倉庫Pig分析工具YARN處理框架數(shù)據(jù)層Storm內(nèi)存流式計算框架Hadoop離線計算框架Spark 并行計算框架計算層業(yè)務(wù)引擎基礎(chǔ)設(shè)施數(shù)據(jù)引擎引擎層Oracle點擊流日志其他數(shù)據(jù)接口MySQLSQL Server抽取層分布式數(shù)據(jù)庫數(shù)據(jù)推送權(quán)限管理任務(wù)管理關(guān)系型數(shù)據(jù)庫數(shù)據(jù)展現(xiàn)Flume & Sqoop序列化配置管理文件其他分布式文件系統(tǒng)ETL清洗外部數(shù)據(jù)接口代理管理數(shù)據(jù)管理HA管理結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)、機器數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)、機器數(shù)據(jù)NoSQL數(shù)據(jù)庫平臺提供的功能12提供Hadoop大數(shù)據(jù)開發(fā)和運行環(huán)境;提供大數(shù)據(jù)的HDFS分布式文件系統(tǒng)存儲及
9、針對于小文件優(yōu)化后的分布式文件系統(tǒng);提供Hadoop Hive、HBase、Pig等組件功能,提供NoSQL數(shù)據(jù)庫服務(wù)功能;提供Storm實時數(shù)據(jù)分析計算框架環(huán)境;提供Spark并行計算框架環(huán)境;提供機器冷數(shù)據(jù)(非業(yè)務(wù)數(shù)據(jù))的數(shù)據(jù)分析引擎和算法工具;提供行業(yè)業(yè)務(wù)數(shù)據(jù)的大數(shù)據(jù)分析引擎;提供數(shù)據(jù)展現(xiàn)工具;提供大數(shù)據(jù)云化服務(wù)平臺,封裝數(shù)據(jù)接口服務(wù)和大數(shù)據(jù)分析云服務(wù)以及大數(shù)據(jù)讀寫存儲云服務(wù)平臺提供業(yè)務(wù)能力13大數(shù)據(jù)開發(fā)運行環(huán)境大數(shù)據(jù)行業(yè)業(yè)務(wù)數(shù)據(jù)服務(wù)大數(shù)據(jù)平臺云服務(wù)大數(shù)據(jù)日志分析系統(tǒng)零售行業(yè)大數(shù)據(jù)分析引擎其他行業(yè)大數(shù)據(jù)分析業(yè)務(wù)如何構(gòu)建大數(shù)據(jù)?建議流程14第一步,數(shù)據(jù)抽取并存儲15Oracle點擊流日志其
10、他數(shù)據(jù)接口MySQLSQL Server分布式數(shù)據(jù)庫Flume & Sqoop序列化ETL清洗HDFS 分布式文件系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化 / 非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),通過兩種途徑抽取并存放到HDFS分布式文件系統(tǒng)中:能夠序列化的數(shù)據(jù),直接存放到HDFS中;不能夠序列化的數(shù)據(jù),通過數(shù)據(jù)整理后統(tǒng)一存放在分布式數(shù)據(jù)庫環(huán)境中,再經(jīng)過序列化后再存放到HDFS中,經(jīng)整理后還不能序列化的數(shù)據(jù)也直接存放到HDFS中;半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù):各種日志數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中;點擊流和數(shù)據(jù)接口中的數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中;非結(jié)構(gòu)化的數(shù)據(jù)直接存放到HDFS中;No
11、SQL數(shù)據(jù)處理16OracleMySQLSQL Server分布式數(shù)據(jù)庫Flume & SqoopETL數(shù)據(jù)處理結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)處理要解決的問題:重復(fù)的數(shù)據(jù)處理缺失的數(shù)據(jù)處理格式不統(tǒng)一的數(shù)據(jù)處理檢查數(shù)據(jù)邏輯錯誤需要進行計算的數(shù)據(jù)處理數(shù)據(jù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)提取、數(shù)據(jù)計算等處理方法。數(shù)據(jù)處理最基本的目的是從大量雜亂無章、難以理解的數(shù)據(jù)中,抽取并推導(dǎo)出對解決問題有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理對收集到的數(shù)據(jù)進行加工整理,形成適合數(shù)據(jù)分析的樣式,是數(shù)據(jù)分析前必須經(jīng)歷的過程。數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)提取數(shù)據(jù)計算第二步,數(shù)據(jù)規(guī)劃17HDFS分布式文件系統(tǒng)中存放海量的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),合理化組織數(shù)
12、據(jù):結(jié)構(gòu)化和有一定格式關(guān)系的半結(jié)構(gòu)化的數(shù)據(jù)存放在Hadoop Hive數(shù)據(jù)倉庫中,Hive是一個構(gòu)建在Hadoop上的數(shù)據(jù)倉庫框架,可以通過SQL語句進行統(tǒng)計分析查詢;結(jié)構(gòu)化和有一定格式關(guān)系的半結(jié)構(gòu)化數(shù)據(jù)存放在Hadoop HBase列族數(shù)據(jù)中;Hadoop Pig分析工具直接查詢和分析存放在HDFS分布式文件系統(tǒng)中的數(shù)據(jù),Pig Latin程序(與SQL語言很類似)可以直接把查詢分析轉(zhuǎn)換成MapReduce程序執(zhí)行,幫助用戶更多的精力放在數(shù)據(jù)上,而不是放在程序的編寫上;HBase列族數(shù)據(jù)庫HDFS 分布式文件系統(tǒng)Hive數(shù)據(jù)倉庫Pig分析工具YARN處理框架數(shù)據(jù)層NoSQL數(shù)據(jù)庫第三步,大數(shù)
13、據(jù)計算框架18Storm內(nèi)存流式計算框架Hadoop離線計算框架Spark 并行計算框架計算層Storm實時大數(shù)據(jù)分析:一個分布式的、容錯的、實時的內(nèi)存流式計算系統(tǒng);Hadoop離線大數(shù)據(jù)分析:大數(shù)據(jù)離線批處理系統(tǒng),Spark并行大數(shù)據(jù)計算:Hadoop MapReduce的通用的并行計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map reduce的算法。適用于實時查詢分析適用于離線的大數(shù)據(jù)統(tǒng)計分析適用于大數(shù)據(jù)并行計算針對查詢分析的實
14、時性和延時需求,可選擇不同的大數(shù)據(jù)計算框架構(gòu)建查詢分析業(yè)務(wù):第四步,大數(shù)據(jù)分析引擎19業(yè)務(wù)引擎基礎(chǔ)設(shè)施數(shù)據(jù)引擎引擎層數(shù)據(jù)推送關(guān)系型數(shù)據(jù)庫數(shù)據(jù)展現(xiàn)文件其他分布式文件系統(tǒng)外部數(shù)據(jù)接口行業(yè)業(yè)務(wù)屬性決定計算的邏輯,計算數(shù)學(xué)是實現(xiàn)計算邏輯的方法(利用數(shù)學(xué)領(lǐng)域的算法和理論)數(shù)據(jù)分析不僅僅指運算數(shù)據(jù),還包括全面了解數(shù)據(jù)分析所處的背景和環(huán)境數(shù)據(jù)分析結(jié)果可以保存在多種結(jié)構(gòu)中數(shù)據(jù)也可以在不同的分布式集群之間進行傳輸、復(fù)制、同步數(shù)據(jù)分析結(jié)果可以通過多種展現(xiàn)形式(表格、各種展現(xiàn)圖)進行數(shù)據(jù)展現(xiàn)行業(yè)屬性 + 算法 = 業(yè)務(wù)數(shù)據(jù)分析引擎(幫助用戶自動化分析大數(shù)據(jù))基礎(chǔ)設(shè)施數(shù)據(jù)引擎(機器數(shù)據(jù)引擎、日志數(shù)據(jù)引擎)數(shù)據(jù)分析20
15、數(shù)據(jù)分析方法論數(shù)據(jù)分析方法論主要從宏觀角度指導(dǎo)如何進行數(shù)據(jù)分析,數(shù)據(jù)分析的前期規(guī)劃,指導(dǎo)后期數(shù)據(jù)分析工作的開展,而數(shù)據(jù)分析法則是指具體的分析方法。數(shù)據(jù)分析法主要從微觀角度指導(dǎo)如何進行數(shù)據(jù)分析。營銷方面的理論模型有:4P、用戶使用行為、STP理論、SWOT等。管理方面的理論模型有:PEST、5W2H、時間管理、生命周期、邏輯樹、金字塔、SMART原則等。其中PEST、5W2T、邏輯樹、4P、用戶使用行為等理論應(yīng)用比較廣泛。21PEST分析法22企業(yè)經(jīng)濟環(huán)境Economic政治環(huán)境Political經(jīng)濟環(huán)境Economic技術(shù)環(huán)境TechnologicalPEST分析法用于對宏觀環(huán)境的分析,指影響
16、一切行業(yè)和經(jīng)營需要的各種宏觀力量。由于不同行業(yè)和企業(yè)有其自身特點和經(jīng)營需要,分析的具體內(nèi)容會有差異,但是一般都從政治、經(jīng)濟、技術(shù)和社會這四大類影響企業(yè)的主要外部環(huán)境因素進行分析。5W2H分析法23Why何因How如何做Where何地What何事廣泛應(yīng)用于企業(yè)營銷、管理活動;對于決策和執(zhí)行的活動措施非常有幫助,也有助于彌補考慮問題的疏漏;對于任何事情的分析都可以從這七個方面去思考,指導(dǎo)建立數(shù)據(jù)分析框架;5W2H分析法Who何人How much何價When何時Why用戶購買行為分析WhatWhoWhenWhereHowHow much用戶購買的目的是什么?產(chǎn)品在哪方面吸引用戶?在用戶購買行為分析上
17、的應(yīng)用公司提供什么產(chǎn)品或服務(wù)?與用戶需求是否一直?誰是我們的用戶?用戶有何特點?何時購買?多久再次購買?用戶在哪里購買?用戶在各地區(qū)的構(gòu)成怎樣?用戶購買支付方式是怎樣?用戶購買花費的時間、交通等成本各是多少?數(shù)據(jù)分析24數(shù)據(jù)分析描述性數(shù)據(jù)分析EDA探索性數(shù)據(jù)分析CDA驗證性數(shù)據(jù)分析初級數(shù)據(jù)分析,使用常見的分析方法數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法,對收集來的大量數(shù)據(jù)進行分析,提取出有價值的信息,總結(jié)出所研究對象的內(nèi)在規(guī)律。側(cè)重在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,高級數(shù)據(jù)分析側(cè)重于驗證已有假設(shè)是否成立,高級數(shù)據(jù)分析數(shù)據(jù)分析計算方式25傳統(tǒng)的數(shù)據(jù)分析計算方式:各種數(shù)據(jù)運算,把數(shù)據(jù)整理成可以讓人理解的內(nèi)容;快速傅
18、立葉變換(FFT)及平滑和濾波把離散的數(shù)據(jù)變成可視化和可以理解的數(shù)據(jù)曲線;基線和峰值分析可以幫助用戶看到數(shù)據(jù)的發(fā)展趨勢及可預(yù)見的最高和最低值;數(shù)據(jù)分析作用26數(shù)據(jù)分析作用描述基本方法數(shù)據(jù)分析方法現(xiàn)狀分析分析過去發(fā)生了什么。通過日常通報(日、周、月報等形式)對比對比分析平均分析綜合評價分析原因分析分析某一個現(xiàn)狀為什么發(fā)生。一般通過專題分析來完成,根據(jù)企業(yè)運營情況選擇針對某一現(xiàn)狀進行原因分析細分分組分析、結(jié)構(gòu)分析、交叉分析、杜邦分析、漏斗圖分析、矩陣關(guān)聯(lián)分析、聚類分析預(yù)測分析分析將來會發(fā)生什么。一般通過專題分析來完成,通常在制定企業(yè)季度、年度等計劃時進行預(yù)測回歸分析、時間序列、決策樹、神經(jīng)網(wǎng)絡(luò)高級
19、數(shù)據(jù)分析方法27研究方向數(shù)據(jù)分析方法產(chǎn)品研究相關(guān)分析、對應(yīng)分析、判別分析、結(jié)合分析、多維尺度分析等品牌研究相關(guān)分析、聚類分析、判別分析、因子分析、對應(yīng)分析、多維尺度分析等價格研究相關(guān)分析、PSM價格分析等市場細分聚類分析、判別分析、因子分析、對應(yīng)分析、多維尺度分析、Logistic回歸、決策樹等滿意度研究相關(guān)分析、回歸分析、主成分分析、因子分析、結(jié)構(gòu)方程等用戶研究相關(guān)分析、聚類分析、判別分析、因子分析、對應(yīng)分析、Logistic回歸、決策樹、關(guān)聯(lián)規(guī)則等預(yù)測決策回歸分析、決策樹、神經(jīng)網(wǎng)絡(luò)、時間序列、Logistic回歸等高級數(shù)據(jù)分析方法不一定是最好的方法,能夠簡單有效解決問題的方法才是最好!綜合
20、評價分析法綜合評價分析法的基本思想是講多個指標轉(zhuǎn)化為一個能夠反映綜合情況的指標來進行分析評價,通常有5個步驟。281. 確定綜合評價指標體系,既包含哪些指標,是綜合評價的基礎(chǔ)和依據(jù)。2. 收集數(shù)據(jù),并對不同計量單位的指標數(shù)據(jù)進行標準化處理。3. 確定指標體系中各指標的權(quán)重,以保證評價的科學(xué)性。4. 對經(jīng)處理后的指標再進行匯總計算出綜合評價指數(shù)或綜合評價分值。5. 根據(jù)評價指數(shù)或分值對參評單位進行排序,并由此得出結(jié)論。評價過程不是逐個指標順次完成的,而是通過一些特殊方法講多個指標的評價同時完成在綜合評價過程中,一般要根據(jù)指標的重要性進行加權(quán)處理評價結(jié)果不再是具有具體含義的統(tǒng)計指標,而以指數(shù)或分值
21、表示參評單位綜合狀況的排序數(shù)據(jù)挖掘29數(shù)據(jù)挖掘30數(shù)據(jù)挖掘是有組織、有目的地收集數(shù)據(jù),通過分析數(shù)據(jù)使之成為信息,從而從大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識的技術(shù)。數(shù)據(jù)挖掘是一種高級的數(shù)據(jù)分析方法,是傳統(tǒng)數(shù)據(jù)分析和統(tǒng)計分析方法學(xué)的延伸或擴展,基于完善的數(shù)學(xué)理論和高超的技巧。數(shù)據(jù)挖掘側(cè)重解決四類數(shù)據(jù)分析問題:分類、聚類、關(guān)聯(lián)和預(yù)測,重點在尋找模式與規(guī)律。數(shù)據(jù)挖掘中的數(shù)據(jù)模型是一個預(yù)測和概率模型,但不會告訴用戶為什么會這樣,數(shù)據(jù)挖掘的運作不是用于驗證某個假定的模式或者模型的正確性,而是通過數(shù)據(jù)挖掘方法讓模型自動形成,也就是說在本質(zhì)上數(shù)據(jù)挖掘是一個歸納的過程。數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)分析主要是一
22、個假設(shè)檢驗的過程,是一個嚴重依賴數(shù)據(jù)分析師手工作業(yè)的過程;數(shù)據(jù)挖掘一般是再沒有明確假設(shè)的前提下整理數(shù)據(jù)、挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘是人驅(qū)使機器(機器學(xué)習(xí)算法)挖掘知識的過程,在挖掘之前目標并不一定明確;數(shù)據(jù)分析以統(tǒng)計學(xué)的算法為主,分類和預(yù)測是兩種數(shù)據(jù)分析形式,抽取能夠描述重要數(shù)據(jù)的集合或者預(yù)測未來數(shù)據(jù)趨勢的模型中的樣本;而數(shù)據(jù)挖掘不僅僅需要統(tǒng)計學(xué),還需要大量使用機器學(xué)習(xí)、人工智能和模式識別領(lǐng)域的算法。數(shù)據(jù)挖掘也需要數(shù)據(jù)分析的算法和思路,只是用新的方法重新組織實施;31數(shù)據(jù)挖掘算法分類32數(shù)據(jù)挖掘領(lǐng)域有大量基于海量數(shù)據(jù)的分類問題,對于分類問題的解決就是生成分類器的過程。支持向量機(SVM)神經(jīng)
23、網(wǎng)絡(luò)K最近鄰算法(kNN)決策樹(if-then)數(shù)據(jù)挖掘算法聚類33聚類的目的也是把所有對象分成不同的群體,但是和分類算法最大不同是聚類算法劃分之前并不知道要把數(shù)據(jù)分成多少組,也不知道依賴哪些變量進行數(shù)據(jù)劃分。聚類算法有很多種,K-means聚類算法(K均值)比較常用。滿足方差最小標準的K個聚類K-means聚類算法數(shù)據(jù)挖掘算法關(guān)聯(lián)規(guī)則34所謂關(guān)聯(lián),反映的是一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)等。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)中隱藏的關(guān)聯(lián)網(wǎng)。關(guān)聯(lián)規(guī)則算法關(guān)聯(lián)規(guī)則(支持度置信度)的發(fā)現(xiàn)過程分為兩步:第一步
24、是迭代識別所有的頻繁項目集(Frequent Itemsets),要求頻繁項目集的支持度不低于用戶設(shè)定的最低值;第二步是從頻繁項目集中構(gòu)造置信度不低于用戶設(shè)定的最低值的規(guī)則,產(chǎn)生關(guān)聯(lián)規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分;數(shù)據(jù)挖掘算法序列35在數(shù)據(jù)挖掘中的序列挖掘指的是從一個序列中的數(shù)據(jù)找出統(tǒng)計規(guī)律。根據(jù)時間序列型數(shù)據(jù),由歷史和當前的數(shù)據(jù)去推測未來的數(shù)據(jù)。時間序列算法例如,基于事件的實際問題:一個客戶購買了車,那么他很可能需要在一周內(nèi)去購買汽車保險;可以根據(jù)前12個月的轉(zhuǎn)化率和收入情況,預(yù)估出第13個月的總體轉(zhuǎn)化率和收入情況;大數(shù)據(jù)分析方向36Mutil
25、Data SourceSemantic EnginesAnalytic VisualizationsData Mining AlgorithmsPredictive Analytic CapabilitiesData Quality and Master Data Management可視化分析數(shù)據(jù)挖掘算法預(yù)測性分析能力語義引擎數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)來源多樣化算法研究37參考案例38案例一. 分析氣象大數(shù)據(jù)390067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0081+
26、999999999990043011990999991955051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0111+999999999990043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN050
27、0001N9+0171+999999999990043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0306+999999999990067011990999991952051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0131+999999999990043011990999991952051512004+68750+023550FM-12+038299999V0203201N0067
28、1220001CN9999999N9+0221+999999999990043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0265+999999999990043012650999991953032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991955032418004+62300+010750FM-12+048599999V
29、0202701N00461220001CN0500001N9+0218+999999999990043011990999991953051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0239+999999999990043012650999991952032412004+62300+010750FM-1
30、2+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991951032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0268+999999999990043011990999991949051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0276+999999999990043011990999991950051518004+6875
31、0+023550FM-12+038299999V0203201N00261220001CN9999999N9+0318+99999999999美國國家氣候數(shù)據(jù)中心NCDC,分布在全球各地的氣象傳感器(幾萬)每天收集氣象數(shù)據(jù),其中有年份和溫度數(shù)據(jù)(+-代表零上零下,氣溫除以10是實際氣溫)。全球的從1901年到2001年100年的氣象數(shù)據(jù)大約200-300TB,以下是樣例數(shù)據(jù):大數(shù)據(jù)分析需求:統(tǒng)計分析出每年氣溫最高的記錄是多少?案例一. 分析氣象大數(shù)據(jù)4019500515+008119550515+022119550515+011119500324+017119500324+0306195205
32、15+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+023919520324+033619510324+026819500515+027619500515+031819500515+008119550515+022119520515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+02391952032
33、4+033619510324+026819500515+027619500515+0318對氣象數(shù)據(jù)進行切片,分成四份存放到Hadoop HDFS分布式文件系統(tǒng)中;分別放在四臺計算機中,每臺計算機占用一個數(shù)據(jù)塊的空間;每一個塊運行一個Map函數(shù);計算機1計算機2計算機3計算機4案例一. 分析氣象大數(shù)據(jù)4119500515+008119550515+022119550515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+02211955
34、0515+023919520324+033619510324+026819500515+027619500515+0318計算機1計算機2計算機3計算機4(1950,81)(1955,221)(1955,111)(1950,171)(1950,306)(1952,131)(1952,221)(1950,265)(1953,336)(1955,218)(1953,221)(1955,239)(1952,336)(1951,268)(1950,276)(1950,318)(1950,81,171)(1955,221,111)(1950,81,171)(1950,306,265)(1950,276,
35、318)(1952,131,221)(1952,336,221)(1950,81,171,306,265,276,318)(1952,131,221,336,221)ReduceMapMap(1950,306,265)(1952,131,221)Map(1953,336,221)(1955,218,239)Map(1952,336,221)(1955,268,111)(1950,276,318)(1955,221,111)(1953,336,211)(1955,218,239)(1955,268,111)Reduce(1955,221,111,218,239,268,111)(1953,336
36、,211)(1950,318)(1952,336)(1955,268)(1953,336)輸出結(jié)果輸出結(jié)果分類拷貝Merge合并Merge合并計算每年的最高氣溫分類分類分類分類案例二. 統(tǒng)計論文引用42Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop海量論文數(shù)據(jù),每篇論文結(jié)尾都有引文(引用和參考了哪些論文和文章)。統(tǒng)計引文中,論文關(guān)鍵字被引用的數(shù)次;例如:Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop計算機1計算機2計算機
37、3數(shù)據(jù)切分為三個切片,存放在3臺服務(wù)器上的HDFS分布式文件系統(tǒng)中案例二. 統(tǒng)計論文引用43Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop計算機1計算機2計算機3MapMapMap(Hello,1)(World,2)(Bye,1)(Hello,1)(Hadoop,2)(Bye,1)(Bye,1)(Hadoop,2)(Hello,1)(Hello,1,1,1)(World,2)(Bye,1,1,1)(Hadoop,2,2)Reduce(Hello,3)(World,2)(Bye,3)(Hadoop,4)分類合
38、并輸出結(jié)果求和關(guān)鍵詞計數(shù)案例三. 電商大數(shù)據(jù)精準營銷44性別年齡教育程度星座腰圍身高體型家中是否有孕婦孩子年齡是否有孩子孩子性別是否有車是否有房用戶的關(guān)系網(wǎng)婚否收入活躍程度購物類型評價關(guān)注程度顏色偏好品牌偏好家電的潛在購買需求促銷敏感度購物忠誠度購買力消費信用水平所屬購買群體基本屬性購買能力行為特征社交網(wǎng)絡(luò)心理特征興趣愛好案例三. 電商大數(shù)據(jù)精準營銷45海淘猶豫型理性比較型購物沖動型目標明確型用戶瀏覽SKU數(shù)量用戶瀏覽至購買的時長學(xué)校公司家網(wǎng)吧用戶分群網(wǎng)購達人有房一族家庭用戶單身貴族時尚男女奶爸奶媽閃購用戶超級用戶電腦達人數(shù)碼潮人案例三. 電商大數(shù)據(jù)精準營銷46性別:男年齡:26-35購買力:
39、高收入:8000需要:商務(wù)機價位:4000顏色:黑/紅用戶畫像個性化搜索體系個性化推薦體系千人千面情感分析個性化推薦系統(tǒng)47推薦系統(tǒng)從推薦的形式來看,亞馬遜把推薦服務(wù)應(yīng)用到了網(wǎng)站的每一個角落,從首頁到產(chǎn)品內(nèi)頁無所不至;而在推薦方法技術(shù)上,亞馬遜也綜合了多種類型的推薦服務(wù),有的基于項目相似性和相關(guān)性,有的基于客戶瀏覽和購買歷史記錄,也有的基于協(xié)同過濾等技術(shù)。亞馬遜能夠根據(jù)客戶當前所查看頁面的類型和內(nèi)容、當前和之前關(guān)注的產(chǎn)品信息等內(nèi)容動態(tài)地組合這些推薦服務(wù)。銷售額 = 訪客數(shù) * 轉(zhuǎn)化率 * 客單價,提升網(wǎng)店的總收入需要在其中的一個或者多個數(shù)據(jù)點上面下功夫,當電子商務(wù)網(wǎng)站的老客戶的比例比較高的時候
40、,轉(zhuǎn)化率比較高,所以提升老客戶的活躍度是提升轉(zhuǎn)化率從而增加整體收入的一個有效手段。48推薦系統(tǒng),根據(jù)不同客戶的興趣特點和購買行為,預(yù)測客戶對某種商品感興趣的程度,向客戶推薦商品信息或提供個性化商品,引導(dǎo)客戶購買。幫助客戶找到感興趣的、愿意購買某樣商品的興奮點,形成購買行為;推薦系統(tǒng)的作用可以幫助建立客戶忠誠度(可以更愿意買到最能滿足需求的商品)挖掘老客戶的價值二八定律,企業(yè)80%的業(yè)務(wù)收入通常來自20%的客戶向新客戶推銷的費用要數(shù)倍甚至數(shù)十倍于向現(xiàn)有客戶推銷的花費通過數(shù)據(jù)分析,可以發(fā)現(xiàn)什么樣的客戶群體在什么時間范圍,購買什么樣的商品,平均支出是多少,最喜歡的商品是什么類型對于新推出的產(chǎn)品哪些客
41、戶可能會購買,哪些客戶是最需要留住進行深度營銷和人性化關(guān)懷的49協(xié)同過濾算法 推測同類用戶的行為50幫助用戶在海量的互聯(lián)網(wǎng)信息(商品)中找出該用戶會感興趣的內(nèi)容,找出關(guān)聯(lián)商品推薦。一般來說,做推薦系統(tǒng)的數(shù)據(jù)一般分兩種,一種從在線的讀取,比如用戶產(chǎn)生一個行為,推薦系統(tǒng)就反應(yīng)下,還有一種就是從數(shù)據(jù)庫里讀。協(xié)同過濾算法可以幫助找到和某個用戶喜好類似的群體,看他們都買了哪些東西,然后推薦給這個用戶。基于用戶的:收集用戶的信息屬性,對于每一個用戶A,找到跟他比較接近或者相似的一些用戶。根據(jù)這些相似的用戶的信息對用戶A的興趣點進行預(yù)測,挖掘出用戶A潛在的興趣點。基于項目:收集項目的信息屬性,對每個項目X找到一些類似的項目。一個用戶如果對X有很高的興趣,那么這個用戶很可能也對X相似的其他項目感興趣。基于內(nèi)容的:除了用戶和項目信息,還需要進一步分析用戶的評價內(nèi)容和反饋。用向量表示數(shù)據(jù)51編號問題1是否為男性?2一線城市的用戶?3月收入是否超過7000元?435歲以上?5最大的購物金額是否大于1000元?6購買次數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國漿內(nèi)施膠劑行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國洗手間通風(fēng)風(fēng)扇行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國沙棘果市場供需調(diào)查與銷售渠道發(fā)展趨勢報告
- 2025至2030中國氯化銠行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國植脂鮮奶油行業(yè)市場深度分析及市場需求與投資報告
- 2025至2030中國棉襪行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國桌面手勢識別系統(tǒng)行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國果蔬洗滌鹽市場經(jīng)銷模式及發(fā)展前景預(yù)測分析報告
- 2025-2030中國速食連鎖行業(yè)經(jīng)營效益及競爭格局分析報告
- 2025-2030中國超吸水性硅藻土行業(yè)供需態(tài)勢與競爭趨勢分析報告
- 健身房預(yù)售培訓(xùn)課件
- 智能化熱模鍛技術(shù)
- 個人車位租賃合同電子版 個人車位租賃合同
- 普惠性托育機構(gòu)申請托育中心情況說明基本簡介
- 外輪理貨業(yè)務(wù)基礎(chǔ)-理貨單證的制作
- 《水火箭制作》課件
- 網(wǎng)絡(luò)安全預(yù)防電信詐騙主題班會PPT
- 優(yōu)秀物業(yè)管理項目評選方案
- 圖書管理系統(tǒng)畢業(yè)論文參考文獻精選,參考文獻
- 中國當代舊體詩選讀幻燈片
- 吉林省全省市縣鄉(xiāng)鎮(zhèn)衛(wèi)生院街道社區(qū)衛(wèi)生服務(wù)中心基本公共衛(wèi)生服務(wù)醫(yī)療機構(gòu)信息名單目錄995家
評論
0/150
提交評論