hadoop高級管理與應用開發_第1頁
hadoop高級管理與應用開發_第2頁
hadoop高級管理與應用開發_第3頁
hadoop高級管理與應用開發_第4頁
hadoop高級管理與應用開發_第5頁
已閱讀5頁,還剩44頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hadoop高級管理與應用課程目標

掌握配置Hadoop的分布式環境和高級特性

掌握利用Sqoop和Flume進行數據的交換什么是ZooKeeper

掌握利用HBase存儲和訪問訪問數據課程內容

第一講:Hadoop高級特性第二講:Hadoop的底層原理解析第三講:數據的交換和集成

第四講:Yarn的任務調度和管理

第五講:管理和操作HBase學習本門課程的前提

已經學習完了《大數據之Hadoop管理培訓》課程

第一講:Hadoop的高級特性搭建Hadoop的全分布模式參數文件配置參數參考值hadoop-env.shJAVA_HOME/root/training/jdk1.7.0_75hdfs-site.xmldfs.replication2dfs.permissionsfalsecore-site.xmlfs.defaultFShdfs://1:9000hadoop.tmp.dir/root/training/hadoop-2.4.1/tmpslavesDataNode的地址34mapred-site.xmlyarnyarn-site.xmlyarn.resourcemanager.hostname1yarn.nodemanager.aux-servicesmapreduce_shuffle啟動Hadoop集群命令:start-all.shWebConsole免密碼登錄的原理配置集群的免密碼登錄Demo演示配置HUE管理Hadoop集群什么是HUE?Hue是一個開源的ApacheHadoopUI系統,最早是由ClouderaDesktop演化而來,由Cloudera貢獻給開源社區,它是基于PythonWeb框架Django實現的。通過使用Hue我們可以在瀏覽器端的Web控制臺上與Hadoop集群進行交互來分析處理數據,例如操作HDFS上的數據,運行MapReduceJob等等。配置HUE的主要步驟安裝所需的rpm包編輯hadoop的配置文件hdfs-site.xml文件和core-site.xml文件安裝Hue解壓編輯hue.ini文件步驟一:Hue所需要的rpm包antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy(forunittestsonly)libxml2-devellibxslt-develmakemvn(frommavenpackageormaven3tarball)mysqlmysql-developenldap-develpython-develsqlite-developenssl-devel(forversion7+)gmp-devel編輯Hadoop的配置文件參數文件參數參考值說明hdfs-site.xmldfs.webhdfs.enabledtrue開啟webhdfs功能core-site.xmlxyuser.root.hosts*設置Hadoop集群的代理用戶xyuser.root.groups*設置Hadoop集群的代理用戶組安裝HUE解壓:tar-zxvfhue-3.7.0-cdh5.4.2.tar.gz編譯安裝:注意系統時間PREFIX=/root/training/makeinstall添加用戶hueadduserhuechown-Rhue.hue/root/training/hue/修改hue.ini($HUE_HOME/desktop/conf)參數文件HUE的參數文件(hue.ini)參數參考值http_host5http_port8888server_userrootserver_grouprootdefault_userrootdefault_hdfs_superuserrootfs_defaultfshdfs://5:9000webhdfs_url

hadoop_conf_dir/root/training/hadoop-2.4.1/etc/hadoopresourcemanager_host1resourcemanager_api_url

proxy_api_url

history_server_api_url

啟動HUE啟動Hadoop相關組件啟動Hue:bin/supervisor&訪問首頁:HDFS的聯盟**************Hadoop和ZooKeeperZookeeper簡介Hadoop和ZooKeeperZookeeper的配置利用ZooKeeper實現Hadoop的高可用特性**************第二講:Hadoop的底層原理解析知識點回顧-1HDFS文件上傳的過程知識點回顧-2HDFS文件下載的過程什么是RPC?RPC:RemoteProcedureCall(遠程過程調用)Hadoop集群各個節點之間采用的就是RPC通信什么是代理對象?是一種包裝設計模式,用來增強類中方法的功能。第三講:數據的交換和集成使用Sqoop進行HDFS和RDBMS數據的交換什么是Sqoop?SQL-to-HDFS工具利用JDBC連接關系型數據庫Sqoop的獲取關系型數據庫HDFS數據交換Hadoop-0.20.2下使用SqoopSQOOP不支持此版本,可使用CDH3。也可以通過拷貝相應的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。CDH3和SQOOP1.2.0的下載地址:

其中sqoop-1.2.0-CDH3B4依賴hadoop-core-0.20.2-CDH3B4.jar,所以你需要下載hadoop-0.20.2-CDH3B4.tar.gz,解壓縮后將hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.jar復制到sqoop-1.2.0-CDH3B4/lib中。Sqoop命令選項Sqoop的具體例子演示導入Oracle數據庫表中指定的列導入Oracle數據庫表中指定的列,并且指定分隔符和HDFS的路徑Sqoop的具體例子演示(續)導入Oracle數據庫表中的數據,并使用query語句使用ApacheFlume采集數據什么是Flume?ApacheFlume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。Flume的體系結構外部數據源(webserver)將Flume可識別的Event發送到Source;Source收到Event后存儲到一個或多個Channel中;Channel保留Event直到Sink將其處理完畢;Sink從Channel中取出數據,并將其傳輸至外部存儲(HDFS)Flume安裝和配置文件Flume的安裝:只需設置JAVA_HOME環境變量,即可配置文件示例Demo演示集成Flume和HDFS通過配置Flume的Sink,可以將采集來的數據直接寫到HDFS中Demo演示HDFS與ApacheKafka什么是ApacheKafka?ApacheKafka是分布式發布-訂閱消息系統。它最初由LinkedIn公司開發,之后成為Apache項目的一部分。Kafka是一種快速、可擴展的、設計內在就是分布式的,分區的和可復制的提交日志服務ApacheKafka部署模式ApacheKafka與HadoopHDFS的集成對于一個實時訂閱的系統來說,可以通過Kafka將實時處理和監控的數據加載到Hadoop的HDFS中,或者NoSQL數據庫中,或者數據倉庫中。Kafka提供了HadoopProducer和Consumer用于集成Hadoop。第四講:Yarn的任務調度和管理第五講:管理和操作HBase知識點回顧-1HBase的體系結構知識點回顧-2HBase的表結構HBase的安裝部署方式本地模式偽分布模式集群模式HBase本地模式參數文件配置參數參考值hbase-env.shJAVA_HOME/root/training/jdk1.7.0_75hbase-site.xmlhbase.rootdirfile:///root/training/hbase-0.96.2-hadoop2/dataHBase的偽分布模式參數文件配置參數參考值.bash_profileHBASE_HOME/root/training/hbase-0.96.2-hadoop2hbase-env.shJAVA_HOME/root/training/jdk1.7.0_75HBASE_MANAGES_ZKtruehbase-site.xmlhbase.rootdirhdfs://5:9000/hbasehbase.cluster.distributedtruehbase.zookeeper.quorum5dfs.replication1regionserverslocalhostHBase的集群模式參數文件配置參數參考值.bash_profileHBASE_HOME/root/training/hbase-0.96.2-hadoop2hbase-env.shJAVA_HOME/root/training/jdk1.7.0_75HBASE_MANAGES_ZKtruehbase-site.xmlhbase.rootdirhdfs://1:9000/hbasehbase.cluster.distributedtruehbase.zookeeper.quorum1dfs.replication2hbase.master.maxclockskew180000regionservers23-ROOT-和.META.HBase中有兩張特殊的Table,-ROOT-和.META.-

ROOT-:記錄了.META.表的Region信息,-ROOT-只有一個region.META.:記錄了用戶創建的表的Region信息,.META.可以有多個regoinZookeeper中記錄了-ROOT-表的locationClient訪問用戶數據之前需要首先訪問zookeeper,然后訪問-ROOT-表,接著訪問.META.表,最后才能找到用戶數據的位置去訪問。HBaseShellHBase提供了一個shell的終端給用戶交互名稱命令表達式創建表create'表名稱','列族名稱1','列族名稱2','列族名稱N'添加記錄put'表名稱','行名稱','列名稱:','值'查看記錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論