


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據職業發展方向一、大數據的概念及特點:大數據本身就是一個很抽象的概念, 提及大數據很多人也只能從數據量上去感知大數據 的規模, 大數據被定義為 “代表著人類認知過程的進步, 數據集的規模是無法在可容忍的時 間內用目前的技術、方法和理論去獲取、管理、處理的數據。大數據不是一種新技術, 也不是一種新產品, 而是一種新現象, 是近來研究的一個技術 熱點。大數據具有以下 4 個特點,即 4 個“ V”:(1) 數據體量 (Volumes) 巨大。大型數據集,從 TB 級別,躍升到 PB 級別。(2) 數據類別 (Variety) 繁多。數據來自多種數據源,數據種類和格式沖破了以前所限定 的結構化數
2、據范疇,囊括了半結構化和非結構化數據。(3) 價值 (Value) 密度低。 以視頻為例, 連續不間斷監控過程中, 可能有用的數據僅僅一 兩秒鐘。(4) 處理速度 (Velocity) 快。包含大量在線或實時數據分析處理的需求, 1 秒定律。最后 這一點也是和傳統的數據挖掘技術有著本質的不同。 物聯網、 云計算、 移動互聯網、 車聯網、 手機、平板電腦、 PC 以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者 承載的方式。二、大數據處理流程:從大數據的特征和產生領域來看, 大數據的來源相當廣泛, 由此產生的數據類型和應用 處理方法千差萬別。 但是總的來說, 大數據的基本處理流程大都
3、是一致的。 整個處理流程可 以概括為四步,分別是采集、導入和預處理、統計和分析,最后是數據挖掘。三、大數據分解結構:第一層面是理論, 理論是認知的必經途徑, 也是被廣泛認同和傳播的基線。 我會從大數據的特征定義理解行業對大數據的整體描繪和定性; 從對大數據價值的探討來深入解析大數 據的珍貴所在; 從對大數據的現在和未來去洞悉大數據的發展趨勢; 從大數據隱私這個特別 而重要的視角審視人和數據之間的長久博弈。我將分別從云計算、 分處理、 存儲到形成結果的第二層面是技術, 技術是大數據價值體現的手段和前進的基石。布式處理技術、 存儲技術和感知技術的發展來說明大數據從采集、 整個過程。第三層面是實踐,
4、實踐是大數據的最終價值體現。實踐(Utilization)4-個人的大數據 晏企業的大數據2-政府的大數據1互聯網的大故據技術(Technology)2-價值探討-ZJf羨現在和未來4-犬鱷吧理論(Theory)1 - - 1 s_-IMiE*四、大數據相關的技術:1、云技術一一大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,云計算充當了工業革命時期的發動機的角色,而大數據則是電。提供拭于每蛍 業務故據的創通過云計算技木的 不斷發展降低大數 退業務的成本2、分布式處理技術: 分布式處理系統可以將不同地點的或具有不同功能的或擁
5、有 不同數據的多臺計算機用通信網絡連接起來, 在控制系統的統一管理控制下, 協調地完成信 息處理任務 -這就是分布式處理系統的定義。目前最常用的是 Hadoop 技術, Hadoop 是一個實現了 MapReduce 模式的能夠對大量數 據進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 用到的一些技術有:HDFS: Hadoop分布式文件系統(Distributed File System ) - HDFS (HadoopDistributed FileSystem)Map Reduce:并行計算框架HBase:類似Google BigTable的分布式 N
6、oSQL列數據庫。Hive:數據倉庫工具。Zookeeper:分布式鎖設施,提供類似Google Chubby的功能。Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。Pig:大數據分析平臺,為用戶提供多種接口。Ambari:Hadoop 管理工具,可以快捷的監控、部署、管理集群。Sqoop:用于在Hadoop與傳統的數據庫間進行數據的傳遞。3、存儲技術大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關系是: 大數據存儲的目的是支撐大數據分析。4、感知技術 大數據的采集和感知技術的發展是緊密聯系的。以傳感器技術,指紋 識別技術,RFID技術,坐標定位技術等為基
7、礎的感知能力提升同樣是物聯網發展的基石。五、大數據人才方向:目前,大數據方面主要有五大人才方向: 大數據核心研發方向(系統研發) ; 大數據性能調優方向; 大數據挖掘、分析方向; 大數據運維、云計算方向 數據分析師方向( CDA、 CPDA)大數據是一項基于 Java的分布式架構技術,用來管理及分析海量數據。大數據核心研發(系統研發)方向:基礎課程篇:1、 Java基礎課程(大數據任何方向必學內容)2、Linux基礎一一基礎課程(大數據任何方向必學內容)3、 Shell編程一一從程序員的角度來看,Shell本身是一種用 C語言編寫的程序,從用戶的角度來看,ShelI是用戶與Linux操作系統溝
8、通的橋梁。用戶既可以輸入命令執行,又可以利用 Shell腳本編程,完成更加復雜的操作。軟件語言篇:4、 Hadoop是一個開發和運行處理大規模數據的軟件平臺,是Appach的一個用java語言實現開源軟件框架,實現在大量計算機組成的集群中對海量數據進行分布式計算。5、HDFS6、YARN7、Map Reduce8ETL (數據倉庫技術)9、Hive (數據倉庫工具)10、Sqoop11、Flume12、HBase13、Storm14、Scala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(HDFS)被設計成適合
9、運行在通用硬件(commodityhardware) 上的分布式文件系統。全 稱: Hadoop Distributed File System簡 稱: hdfs實 質: 分布式文件系統作 用: 作為 Apache Nutch 的基礎架構特 點: 高容錯性適 用: 大規模數據集原理:HDFS就像一個傳統的分級文件系統??梢詣摻?、刪除、移動或重命名文件,等等。HDFS是Hadoop兼容最好的標準文件系統,因為 Hadoop是一個綜 合性的文件系統抽象, 所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個框架,HDFS是Hadoop中的一個部件。優 點:1)存儲超大文件,存儲文
10、件為TB,甚至PB;2)流式數據讀取,一次寫入多次讀取,是最高效的訪問模式;3 )商用硬件,設計運行普通的廉價的PC上。缺 點: 1)數據訪問延遲高,設計于大吞吐量數據的,這是以一定的延遲為代價;2) 文件數受限,存儲的文件總數受限于NameNode 的內存容量;3)不支持多用戶寫入,也不支持任意修改文件。替代品:1)DataStax不是文件系統,而是一個開源的代碼,NoSQL鍵/值存儲,依靠快速的數據訪問。2)CEPH 一個開源代碼,是一家名為 Inktank 做多種存儲系統的商業軟件。 其特點是高性能并行文件系統。3)Dispersed Storage Network Cleversafe
11、 這一新產品將 Hadoop MapReduce 與企業分散存儲網絡系統相融合??邕^集群完全分配元數據,也不依賴于復制,Cleversafe 認為與 HDFS相比,Dispersed Storage Network 的速度 更快,更可靠。4)Lustre 是一個開發源代碼的高性能文件系統,一些人聲稱在性能敏感區域其可以作為 HDFS的一個替代方案。YARNApache Hadoop YARN (另一種資源協調者) 是一種新的 Hadoop 資源管理器, 它 是一個通用資源管理系統, 可為上層應用提供統一的資源管理和調度, 它的引入為集群在利 用率、資源統一管理和數據共享等方面帶來了巨大好處。Y
12、ARN從某種那個意義上來說應該算做是一個云操作系統,它負責集群的資源管理。實 質:一種新的 Hadoop 資源管理器作 用:修復 MapReduce 實現里的明顯不足,并對可伸縮性(支持一萬個節點和二十萬個 內核的集群)、可靠性和集群利用率進行了提升缺 點:這種架構存在不足,主要表現在大型集群上。當集群包含的節點超過4,000 個時(其中每個節點可能是多核的) ,就會表現出一定的不可預測性。其中一個最大的 問題是級聯故障, 由于要嘗試復制數據和重載活動的節點, 所以一個故障會通過網 絡泛洪形式導致整個集群嚴重惡化。優 點:大大減小了 JobTracker (也就是現在的 ResourceMan
13、ager)的資源消耗,并且讓監 測每一個 Job 子任務 (tasks) 狀態的程序分布式化了,更安全、更優美。MapReduceMapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map (映射)"和"Reduce (歸約)”,是它們的主要思想,都是從函數式編程語言里借來的,還 有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況 下,將自己的程序運行在分布式系統上。本 質:一種編程模型用 途:大規模數據集的并行運算特 點:分布可靠應 用:大規模的算法圖形處理、文字處理等 主要功能: 1 )數據劃分和計算任
14、務調度;2)數據 / 代碼互定位;3)系統優化;4)出錯檢測和恢復。技術特點: 1 )向“外”橫向擴展,而非向“上”縱向擴展2)失效被認為是常態3)把處理向數據遷移4)順序處理數據、避免隨機訪問數據5)為應用開發者隱藏系統層細節6)平滑無縫的可擴展性ETL (數據倉庫技術)用來描述將數據從來源端經過抽?。?extract )、轉換( transform )、加載( load ) 至目的端的過程。ETL 一詞較常用在數據倉庫,但其對象并不限于數據倉庫。ETL 是構建數據倉庫的重要一環, 用戶從數據源抽取出所需的數據, 經過數據清洗 , 最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
15、軟件名稱: Extract-Transform-Load過 程:數據抽取、清洗、轉換、裝載應 用: Informatica 、 Datastage 、OW、B數據集成:快速實現 ETL特 性:正確性、 完整性、 一致性、 完備性、 有效性、 時效性和可獲取性等幾個特性。 影響特性原因: 業務系統不同時期系統之間數據模型不一致; 業務系統不同時期業務過 程有變化; 舊系統模塊在運營、 人事、財務、辦公系統等相關信息的不 一致;遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。轉換過程: 1)空值處理:可捕獲字段空值,進行加載或替換為其他含義數據,并可根 據字段空值實現分流加載到不同目標庫。
16、2)規范化數據格式: 可實現字段格式約束定義,對于數據源中時間、數值、 字符等數據,可自定義加載格式。3)拆分數據:依據業務需求對字段可進行分解4)驗證數據正確性:可利用 Lookup 及拆分功能進行數據驗證5)數據替換:對于因業務因素,可實現無效數據、缺失數據的替換。6)Lookup :查獲丟失數據 Lookup實現子查詢,并返回用其他手段獲取的 缺失字段,保證字段完整性。7)建立ETL過程的主外鍵約束:對無依賴性的非法數據,可替換或導出到 錯誤數據文件中,保證主鍵唯一記錄的加載。功能特點: 1)管理簡單2 )標準定義數據3 )拓展新型應用Hive (數據倉庫工具)hive 是基于 Hado
17、op 的一個數據倉庫工具, 可以將結構化的數據文件映射為一張數據庫表,并提供簡單的 sql查詢功能,可以將 sql語句轉換為 MapReduce任務進行運行。Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載 (ETL),這是一種可以存儲、 查詢和分析存儲在 Hadoop中的大規模數 據的機制。兼容性: hadoop 生態圈依 賴: jdk , hadoop定 義: 在 Hadoop 上的數據倉庫基礎構架適 用: Hive 構建在基于靜態批處理的 Hadoop 之上, Hadoop 通常都有較高的延遲 并且在作業提交和調度的時候需要大量的
18、開銷。 因此, Hive 并不能夠在大規 模數據集上實現低延遲快速的查詢。特 性: 1)支持索引,加快數據查詢。2) 不同的存儲類型,例如,純文本文件、HBase 中的文件。3) 將元數據保存在關系數據庫中,大大減少了在查詢過程中執行語義檢查的 時間。4)可以直接使用存儲在 Hadoop 文件系統中的數據。5)內置大量用戶函數 UDF 來操作時間、字符串和其他的數據挖掘工具,支 持用戶擴展 UDF 函數來完成內置函數無法實現的操作。6) 類SQL的查詢方式,將 SQL查詢轉換為 Map Reduce的job 在Hadoop集 群上執行。體系結構: 1)用戶接口用戶接口主要有三個: CLI, C
19、lient 和 WUI2 )元數據存儲 Hive 將元數據存儲在數據庫中,如 mysql 、 derby3 )解釋器、 編譯器、 優化器、 執行器解釋器、 編譯器、 優化器完成 HQL查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生 成的查詢計劃存儲在 HDFS 中,并在隨后由 MapReduce 調用執行。SqoopSqoop 是一款開源的工具,主要用于在 Hadoop(Hive) 與傳統的數據庫 (mysql 、 postgresql.)間進行數據的傳遞,可以將一個關系型數據庫(例如 :MySQLOracle ,Postgres 等)中的數據導進到 Hadoop的HDFS中,
20、也可以將 HDFS勺數據 導進到關系型數據庫中。特 點:可以通過 hadoop 的 mapreduce 把數據從關系型數據庫中導入數據到HDFS。flumeFlume 是 Cloudera 提供的一個高可用的,高可靠的,分布式的海量日志采集、聚 合和傳輸的系統, Flume 支持在日志系統中定制各類數據發送方,用于收集數據;同時, Flume 提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。中文名:水槽特 點:聚合和傳輸的系統實 質:孵化項目是經濟方面的用于 , 一項鑒定成功,付諸實施的項目。功 能: 1)日志收集;2)數據處理HBaseHBase是一個分布式的、面向列的開源數據
21、庫,一個結構化數據的分布式存儲系統。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。結 構:分布式存儲系統優 點:HBase - Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PCServer上搭建起大規 模結構化存儲集群。模 型:邏輯模型主要從用戶角度出發;物理模型主要從實現 Hbase 的角度來討論;StormStorm 是一個分布式的,可靠的,容錯的數據流處理系統。它會把工作任務委托給 不同類型的組件,每個組件負責處理一項簡單特定的任務。 St
22、orm 集群的輸入流由一個被稱 作 spout 的組件管理, spout 把數據傳遞給 bolt , bolt 要么把數據保存到某種存儲器,要 么把數據傳遞給其它的 bolt 。優 點:1)簡單的編程模型。類似于Map Reduce降低了并行批處理復雜性,Storm降低了進行實時處理的復雜性。2) 可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默 認支持 Clojure、Java、Ruby和Python。要增加對其他語言的支持, 只需實現一個簡單的 Storm 通信協議即可。3)容錯性。 Storm 會管理工作進程和節點的故障。4)水平擴展。計算是在多個線程、進程和服務器之間并
23、行進行的。5) 可靠的消息處理。Storm 保證每個消息至少能得到一次完整處理。任 務失敗時,它會負責從消息源重試消息。6) 快速。系統的設計保證了消息能得到快速的處理,使用?MQ乍為其底 層消息隊列。7)本地模式。 Storm 有一個“本地模式” ,可以在處理過程中完全模擬 Storm 集群。這讓你可以快速進行開發和單元測試。缺 點: 1)單調乏味性;2 )脆弱性;3 )可伸縮性差;使用性: Storm 有許多應用領域,包括實時分析、在線機器學習、信息流處理、連 續性的計算、分布式 RPC ETL等。術 語: Storm 的術語包括 Stream 、Spout 、Bolt 、Task、Worker、Stream Grouping 和 Topology 。同 品:可以和 Storm 相提并論的系統有 Esper、Streambase 、HStreaming 和 YahooS4。其中和Storm最接近的就是 S4。ScalaScala 是一門多范式的編程語言,一種類似 java 的編程語言,設計初衷是實現可 伸縮的語言、并集成面向對象
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廉租房出售協議樣式3篇
- 供電委托示例3篇
- 供應鏈管理師徒合同2篇
- 學前班開學家長會發言稿(15篇)
- 年度自我鑒定(16篇)
- 電容器基礎知識入門考核試卷
- 2024年雞西市社會治安綜合治理中心招聘公益性崗位考試真題
- 有線電視傳輸網絡G技術應用考核試卷
- 歷史教研組工作計劃(18篇)
- 洗浴服務行業法律法規修訂影響分析報告考核試卷
- 2025屆山東省濟南市歷下區中考二模生物試題含解析
- 創意美術網絡安全課件
- 上海電信2025年度智慧城市合作協議2篇
- 2024燃煤發電企業安全生產標準化達標評級標準
- 產前檢查婦產科教學課件
- 氣球婚禮派對合同范例
- 2024無人機測評規范
- 術中停電應急預案
- 【高分復習筆記】許莉婭《個案工作》(第2版)筆記和課后習題詳解
- GB/T 22517.5-2024體育場地使用要求及檢驗方法第5部分:足球場地
- 幼兒園的社會交往能力
評論
0/150
提交評論