大數據技術基礎課件_第1頁
大數據技術基礎課件_第2頁
大數據技術基礎課件_第3頁
大數據技術基礎課件_第4頁
大數據技術基礎課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章:大數據技術基礎《大數據分析及應用實踐》第二章:大數據技術基礎《大數據分析及應用實1目錄CONTENTS2.1基礎架構支持2.2云計算2.3數據采集2.4數據存儲目錄CONTENTS2.1基礎架構支持2.2云計算2.3數據21.基礎架構支持1.基礎架構支持32.1.1HadoopHadoop是Apache軟件基金會旗下的一個開源分布式計算平臺,為用戶提供了系統底層細節透明的分布式基礎架構Hadoop是基于Java語言開發的,具有很好的跨平臺特性,并且可以部署在廉價的計算機集群中Hadoop的核心是分布式文件系統HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公認為行業大數據標準開源軟件,在分布式環境下提供了海量數據的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發工具、開源軟件、商業化工具和技術服務,如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.1HadoopHadoop是Apache軟件基金42.1.1Hadoop經過多年的發展,Hadoop項目不斷完善和成熟,目前已經包含多個子項目(如下圖2-2所示)除了核心的HDFS和MapReduce以外,Hadoop項目還包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子項目,它們提供了互補性服務或在核心層上提供了更高層的服務Hadoop技術架構Hadoop技術架構圖2.1.1Hadoop經過多年的發展,Hadoop項目不斷52.1.1Hadoop1:日志采集;2:傳輸日志;3:將日志寫入HDFS;4:從HDFS中將日志裝載入數據倉庫中;5:對裝載的數據進行分析;6:調用Hadoop集群的M/R執行并行計算,并返回結果;7:將結果中有價值的數據寫入HBASE數據庫;8:報表系統&應用程序端通過HBASE查詢數據并展現;項目架構2.1.1Hadoop1:日志采集;項目架構62.1.2HBaseHBase是運行在Hadoop上的NoSQL數據庫,它是一個分布式的、可擴展的大數據倉庫,是一個構建在HDFS上的分布式列存儲系統;從邏輯上講,HBase將數據按照表、行和列進行存儲。與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。HBase表特點:a.大b.無模式c.面向列d.稀疏e.數據多版本f.數據類型單一2.1.2HBaseHBase是運行在Hadoop上的No72.1.3MapReduceMapReduce是一種編程模型,基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上T級別的數據集。Map—映射Reduce——歸納MapReduce就是“任務的分解與結果的匯總”MapReduce處理流程2.1.3MapReduceMapReduce是一種編程模82.1.4Hive?Hive是建立在Hadoop上的數據倉庫基礎構架,可以將結構化的數據文件映射為一張數據庫表,并提供類SQL查詢功能。?本質是將SQL轉換為MapReduce程序Hive與Hadoop關系2.1.4Hive?Hive是建立在Hadoop上的數92.1.5PigPig是一個基于Hadoop的大規模數據分析平臺,Pig包含兩個部分:PigInterface,PigLatin。它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。Pig為復雜的海量數據并行計算提供了一個簡單的操作和編程接口。Pig簡介2.1.5PigPig是一個基于Hadoop的大規模數據102.1.6R語言R是一套完整的數據處理、計算和制圖軟件系統。數據存儲和處理系統數組運算工具(其向量、矩陣運算方面功能尤其強大)完整連貫的統計分析工具優秀的統計制圖功能簡便而強大的編程語言可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能功能2.1.6R語言R是一套完整的數據處理、計算和制圖軟件系統112.云計算2.云計算122.2.1云計算的特點云計算是一種計算模型,它將計算任務分布在大量計算機構成的資源池上,使用戶能夠按照自己的需要獲取計算、存儲和信息服務。云計算實現了通過網絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源1.可擴展性:實現動態的,可伸縮的擴展2.按需提供資源服務:按需求提供資源,按使用量付費3.虛擬化:基于虛擬化技術快速部署資源或獲得服務4.超大規模:通過互聯網提供、面向海量信息處理5.高可靠性和安全性:服務器使用數據多副本容錯,計算節點同構可互換等措施,保障服務的可靠性和安全性。云計算的特點:云計算的服務模式和類型2.2.1云計算的特點云計算是一種計算模型,它將計算任務分13商業模式驅動應用需求驅動云計算為大數據提供了技術基礎,大數據為云計算提供了用武之地云計算的模式是業務模式,本質是數據處理技術。數據是資產,云為數據資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數據資產的能力,挖掘價值性信息和預測性分析,為國家、企業、個人提供決策和服務,是大數據核心議題,也是云計算的最終方向。2.2.2云計算與大數據商業模式驅動應用需求驅動云計算為大數據提供了技術基礎,大數據143.數據采集3.數據采集152.3數據采集數據采集:其實就是大數據抽取、轉換和加載的過程數據采集的工具:攝像頭、麥克風等都是數據采集的工具。數據采集的意義:足夠的數據量是企業大數據戰略建設的基礎,數據采集成為大數據分析的前奏。數據采集是大數據價值挖掘中重要的一環,它是計算機與外部物理世界連接的橋梁。數據采集的方法:2.3數據采集數據采集:其實就是大數據抽取、轉換和加載的過162.3.1數據采集的意義數據采集:其實就是大數據抽取、轉換和加載的過程數據采集的工具:攝像頭、麥克風等都是數據采集的工具。數據采集的意義:足夠的數據量是企業大數據戰略建設的基礎,數據采集成為大數據分析的前奏。數據采集是大數據價值挖掘中重要的一環,它是計算機與外部物理世界連接的橋梁。數據采集的方法:系統日志采集方法網絡數據采集方法其他數據采集方法基于物聯網的采集方法2.3.1數據采集的意義數據采集:其實就是大數據抽取、轉換172.3.2數據采集的方法1.基于物聯網的采集方法數據的采集有基于物聯網傳感器的采集,也有基于網絡信息的數據采集。基于物聯網的采集,例如在智能交通中,數據的采集有:基于GPS的定位信息采集、基于交通攝像頭的視頻采集、基于交通卡口的圖像采集、基于路口的線圈信號采集等。基于GPS的定位信息采集基于GPS的定位信息采集基于交通攝像頭的視頻采集基于交通卡口的圖像采集基于路口的線圈信號采集智能交通中基于物聯網的數據采集2.3.2數據采集的方法1.基于物聯網的采集方法數據的采集182.3.2數據采集的方法2.系統日志采集方法很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。

系統日志的采集Facebook的ScribeHadhoop的ChukwaCloudra的Flume

Facebook的ScribeScribe是Facebook開源的日志手機系統,它能夠從各種日志源上收集日志,存儲到一個中央存儲系統上,以便于進行集中統計分析處理。它為日志的“分布式收集,統一處理”提供了一個可擴展的,高容錯的方案。

Hadoop的Chukwachukwa是一個開源的用于監控大型分布式系統的數據收集系統。這是構建在hadoop的hdfs和map/reduce框架之上的,繼承了hadoop的可伸縮性和魯棒性。Chukwa還包含了一個強大和靈活的工具集,可用于展示、監控和分析已收集的數據。

Cloudera的FlumeFlume是一個分布式、可靠、和高可用的海量日志聚合的系統,支持在系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力2.3.2數據采集的方法2.系統日志采集方法很多互聯網企業192.3.2數據采集的方法3.網絡數據的采集方法1)四個主要模塊及功能網絡爬蟲從Internet上抓取網頁內容,并抽取出需要的屬性內容。URL隊列為爬蟲提供需要抓取數據網絡的URL數據處理對爬蟲抓取的內容進行處理數據1.SiteUrl,需要抓取數據網站的Url信息;2.SpiderData,爬蟲從網頁中抽取出來的數據;3.DPData,經過dp處理之后的數據2)網絡數據采集和處理的基本步驟2.3.2數據采集的方法3.網絡數據的采集方法1)四個主要202.3.2數據采集的方法4.其他數據的采集方法對于企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。2.3.2數據采集的方法4.其他數據的采集方法對于企業生產214.數據存儲4.數據存儲222.4.1數據存儲的概念概念:數據以某種格式記錄在計算機內部或外部存儲介質上。數據存儲方式與數據文件組織密切相關,其關鍵在于建立記錄的邏輯與物理順序間對應關系,確定存儲地址,以提高數據存取速度。2.4.1數據存儲的概念概念:數據以某種格式記錄在計算機內部232.4.2數據的存儲方式開放系統的直連式存儲(DirectAttachedStorage,DAS)

網絡附加存儲(NetworkAttachedStorage,NAS)直接連接于主機服務器的一種儲存方式。每一臺主機服務器有獨立的儲存設備,可以說是一種應用較為早的技術實現。DAS缺點:效率比較低無法共享數據保護流程復雜是一種用高速(光纖)網絡聯接專業主機服務器的一種儲存方式。NAS優點:即插即用存儲簡單存儲設備位置靈活大數據存儲方式2.4.2數據的存儲方式開放系統的直連式存儲(Direct242.4.3常見數據源類型1、文本類型:Excel、TXT、CSV等。2、數據庫類型:MySQL、SQLSever、Oracle、PostgreSQL等。3、數據集群類型:Hive、Spark等。2.4.3常見數據源類型1、文本類型:Excel、TXT、25本章小結進行大數據的大分析,需要一定的架構支撐和技術支持。本章介紹了大數據處理過程中需要涉及的幾個重要技術平臺。Hadoop被視為事實上的大數據處理標準,本章介紹了Hadoop的發展歷程,并著重介紹了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論