




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、目錄結構1、 主流架構選用技術2、 Hadoop版本選型方案3、 選用的技術與其他工具的對比4、 大數據相關的技術選型版本確定5、 市場上的hadoop發行版廠商資料6、 具體操作一、主流架構選用技術:采集層:flume;sqoop存儲層:包括文件存儲層和數據存儲層文件:采用hdfs存儲數據:采用hbase,redis等模型層:離線處理:mr/yarn;實時流式處理spark streaming(比storm的優勢)分析層:hive管理層:zookeeper(調度;ha)2、 Hadoop版本選型方案:Hadoop提供的經典方案:HDP(Hadoop Data Platform)管理一體化 數
2、據接入Flume Script SQL Nosql Stream Search In-Memory OthersSqoop Pig Hive Hbase Storm Solr Spark YARN-Ready AppsNFS -WebHDFS YARNFalcon - HDFS - 數據管理三、選用的技術與其他工具的對比:選用sqoop的好處:開源,抽取的數據可以直接傳至hive,可操作性和可視性高選用Flume的好處:純Java開發,框架分明,易于開發,可以直接寫hdfs且支持對text和sequence壓縮選用Spark的好處:基于內存,適合需要多次迭代計算的算法,在迭代處理計算方面比Ha
3、doop快100倍以上,Spark采用一個統一的技術堆棧解決了云計算大數據的所有核心問題安全 操作認證,授權,審計,數據保護 準備,管理,監控Storage:HDFS AmbariResource:YARN ZookeeperAccess:Hive OoziePipeline:FalconCluster:KnoxHue的好處:多應用平臺,便捷的操作流程;自動補全;查詢結果表格化圖像化4、 大數據相關的技術選型版本確定:操作系統:CentOS6.X各個技術版本:(最新,最穩定,bug少)Hadoop版本:hadoop-2.6.4.tar.gz此版本是一個相對最新且比較穩定的版本,基數版本可能不穩
4、定,最好選用偶數版本Zookeeper版本:zookeeper-3.4.8.tar.gz此版本修復了此前的9個問題,最明顯的是在關閉zookeeper時會產生的一個停頓問題。Flume 版本:apache-flume-1.6.0-bin.tar.gzKafka版本:kafka_2.11-.tgz/082/documentation.htmlSpark版本:spark-1.6.0-bin-hadoop2.6.tgz此版本能支持Hadoop2.6.x以上的版本且相對穩定版Sqoop版本:sqoop-1.4.6.bin_hadoop-2.0.
5、4-alpha.tar.gzHive版本:apache-hive-1.2.1-bin.tar.gzHbase版本:hbase-1.1.3-bin.tar.gzMahout版本:apache-mahout-distribution-0.11.0.tar.gz五、市場上的hadoop發行版廠商資料:版本:除了社區的 Apache Hadoop 外, Cloudera , Hortonworks , MapR , EMC , IBM , Intel , 華為等都提供了自己的商業版本。 版本 內容 特點網址ClouderaCDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、
6、Zookeeper、Oozie、Mahout、Hue和其他開源工具(包括實時查詢引擎Impala)。CDH完全開源,比 Apache Hadoop 在兼容性,安全性,穩定性上有所增強;Cloudera Manager是集群的軟件分發及管理監控平臺,可以在幾個小時內部署好一個hadoop集群,并對集群的節點及服務進行實時監控。標價為每年每個節點4000美元。HortonworksHDP包括HDFS、YARN、HBase、MapReduce、Hive、Pig、HCatalog、Zookeeper、Oozie、Mahout、Hue、Ambari、Tez和Hive的實時版(Stinger)以及其他開源
7、工具。集成和測試封裝;安裝方便;管理和監控服務;數據集成服務;元數據服務;高可用性;每10個節點每年為12500美元。擁有大量的Hadoop專家,對Hadoop的發展起到了重要作用,擁有廣泛的合作伙伴支持,專供Hadoop;對專有代碼的依賴低于ClouderaMapR包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他開源工具。還包括直接NFS訪問、快照和用于“高可用性”的鏡像,有版權的HBase實現(與Apache API完全兼容),以及MapR管理控制臺。1.構建一個 HDFS 的私有替代品,這個替代品比當前的開源版本快
8、三倍,自帶快照功能,而且支持無 NameNode 單點故障 (SPOF) ,并且在 API 上和開源版兼容,所以可以考慮將其作為替代方案。不再需要單獨的 NameNode 機器,元數據分散在集群中,也類似數據默認存儲三份。2.也不再需要用網絡附加存儲 (NAS) 來協助 NameNode 做元數據備份,提高了機器使用率。3.還有個重要的特點是可以使用 nfs 直接訪問 hdfs ,提供了與舊有應用的兼容性。鏡像功能也很適合做數據備份,而且支持跨數據中心的鏡像,快照功能對于數據的恢復作用明顯。4.每年每個節點4000美元。5.在性能方面具備優勢。EMC包括HDFS、MapReduce、Hive、
9、Pig、HBase、Zookeeper、Sqoop、Flume和其他開源工具。兼容SQL;完全兼容ODBC/JDBC;交互式查詢;數據管理;深度分析IBM基礎版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和一些其他開源工具,以及IBM安裝程序和數據訪問工具的基礎版本。企業版增加了復雜的作業管理工具、與主要數據源相互集成的數據訪問層和BigSheets(類似于電子表格的界面,用于在集群中操作數據)在 平臺管理,安全認證,作業調度算法,與 DB2 及 netezza 的集成上做了增強 。兼容性好,同時運行多種Hadoop版本的
10、程序,IBM的服務。IntelApache Hadoop Intel 分發版主要是強調其能提供全面的 軟硬件解決方案設計 , 針對硬件具有更好的性能優化 ,以及 提供集群管理工具和安裝工具簡化了 Hadoop 的安裝和配置 ,能夠提供項目規劃到實施各階段專業的咨詢服務,實際中采購 Intel 版本貌似動力不足。 性能好,最先進入中國市場。華為Funsionlnsight Hadoop基于 Apache Hadoop ,構建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能,進程故障后系統自動 Failover ,無需人工干預,這個也是對 Hadoop 的小修
11、補,遠不如 MapR 解決的徹底。當為公司/部門選取特定發行版時,需要考慮如下因素:技術細節應該包括Hadoop版本、包含的組件、涉及所有權的功能組件等。易于部署應該有可用的工具包來管理部署、版本更新、補丁等。易于維護涉及集群管理、多中心支持、災難恢復支持等。成本包括實現某個特定版本所需要的費用、計費模式和許可證。企業應用集成支持包括對Hadoop應用與企業的其他應用進行集成的支持。選用Cloudera的方案:Cloudera:最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。Cloudera開發并貢獻了可實時處理大數據的Impala項目。優點:1. 基于Apache協議,
12、100%開源。2. 版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上補丁版本,如CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。3. 比Apache Hadoop在兼容性、安全性、穩定性上有增強。第三方發行版通常都經過了大量的測試驗證,有眾多部署實例,大量的運行到各種生產環境。4. 版本更新快。通常情況,比如CDH每個季度會有一個update,每一年會有一個release。5. 基于穩定版本Apache Hadoop,并應用了最新Bug修復或Feature的pa
13、tch6. 提供了部署、安裝、配置工具,大大提高了集群部署的效率,可以在幾個小時內部署好集群。7. 運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效。 缺點:1. 涉及到廠商鎖定的問題。(可以通過技術解決)六、具體操作:Hadoop2.6 HA搭建至少四臺機器:hadoop1,hadoop2,hadoop3,hadoop4NNDNZKZKFCJNRMNM(任務管理)Hadoop1YYYHadoop2YYYYYYYHadoop3YYYYHadoop4YYY1. core-site.xml<configuration>&
14、lt;property> <name>fs.defaultFS</name> <value>hdfs:/zhjy</value></property><property> <name>ha.zookeeper.quorum</name> <value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value></property><property> <name>hadoop.tmp.dir</
15、name> <value>/opt/hadoop</value></property></configuration>2. hdfs-site.xml<configuration><property> <name>services</name> <value>zhjy</value></property><property> <name>nodes.zhjy</name> <va
16、lue>nn1,nn2</value></property><property> <name>node.rpc-address.zhjy.nn1</name> <value>hadoop1:8020</value></property><property> <name>node.rpc-address.zhjy.nn2</name> <value>hadoop2:8020</value></pro
17、perty><property> <name>node.http-address.zhjy.nn1</name> <value>hadoop1:50070</value></property><property> <name>node.http-address.zhjy.nn2</name> <value>hadoop2:50070</value></property><property> <na
18、me>node.shared.edits.dir</name> <value>qjournal:/hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value></property><property> <name>vider.zhjy</name> <value>node.ha.ConfiguredFailove
19、rProxyProvider</value></property><property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value></property><property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_dsa</value></property><property> <name>dfs.journalnode.edits.dir</name> <value>/opt/hadoop/data</value></property><property> <name>dfs.ha.automatic-failover.enab
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 省級中小學現代教育技術裝備標準實施指南
- 基于二進制分析的iOS應用漏洞動態行為研究-洞察及研究
- 微膿腫組織病理特征-洞察及研究
- 在役橋梁檢測與健康監測技術融合及診斷體系創新研究
- 權責清單管理暫行辦法
- 關鍵技術改進下的期盼
- 血液透析專業理論與實踐考核要點解析
- 安全生產三卡是指
- 生產安全事故調查處理報告
- 綠色金融估值體系-洞察及研究
- 2025至2030中國燕窩行業市場運行分析及競爭格局與投資方向報告
- 2025年河北省中考語文試卷真題及答案詳解(精校打印版)
- 口服靶向藥講課件
- 12024-2025學年暑假安全教育主題班會課件
- 肝膽外科醫學科普
- 能源轉型與碳市場機制協同的路徑優化研究
- GB/T 45449-2025再生粉末高溫合金原料
- 工程投資人合同協議
- 包席合同協議
- 資產評估風險管理制度
- 中醫醫療技術手冊2013普及版
評論
0/150
提交評論