




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Hadoop大數據平臺構建與應用Hadoop大數據項目2 Hadoop大數據平臺的構建項目2 任務2.1 搭建Ambari Hadoop系統A任務2.2使用Apache Ambari管理Hadoop集群B項目描述任務2.1 搭建Ambari Hadoop系統AB項目描述項目描述通過分析學生專業課程技能考核、學生就業、學生學習興趣、企業崗位需求、互聯網招聘等數據信息,建立崗位模型、知識模型和學情模型,指導公司進行就業和學情分析系統的研發。在綜合分析相關技術和應用實踐的前提下,選擇了主流的Hadoop大數據平臺,并采用Apache Ambari管理平臺構建Hadoop開發環境。項目描述任務2.1
2、搭建Ambari Hadoop系統任務描述1. 借助學習論壇、網絡視頻等網絡資源和各種圖書資源,學習Cloudera Manager、Ambari和MapR等大數據平臺管理工具。2. 借助學習論壇、網絡視頻等網絡資源和各種圖書資源,學習Hadoop生態系統的相關技術,了解各項技術的功能。3. 完成Ambari的安裝與配置。任務目標1. 了解Hadoop背景知識,熟悉Hadoop的生態系統。2. 學會Hadoop分布式集群的組建方法。 3. 學會Ambari Server和Ambari Agent的配置方法。任務2.1 搭建Ambari Hadoop系統任務描述知識準備1. 認識Hadoop平臺
3、產品相比于SQL數據庫,Hadoop在某些方面仍然顯得不夠完善。Cloudera、Hortonworks、MapR是最具有代表性的公司,他們帶來眾多的創新并提供強大的集群工具。這些管理工具分別是Cloudera Manager、Ambari和MapR,它們均能對集群進行自動化安裝、管理、監控、診斷和集成。如圖2-1所示為3大Hadoop平臺的供應商。下面向讀者擴展一下這些公司的產品服務。圖2-1 三大Hadoop平臺的供應商知識準備1. 認識Hadoop平臺產品圖2-1 三大Hado圖1-7 Apache Spark 開源項目(1)Cloudera圖1-7 Apache Spark 開源項目(
4、1)Cloud圖2-3 HDP資源棧(2)Hortonworks(3)MapR圖2-3 HDP資源棧(2)Hortonworks(3)Ma2. 熟悉Hadoop生態系統MindmapSuitable for all categories business and personal presentation(14(1)Ambari(6)Pig(4)Oozie(5)Hive(13)Sqoop(11)YARN(12)HDFS(7)Shark(8)MapReduce(3)HBase(2)ZooKeeper(9)Tez(10)Spark(14)Flume2. 熟悉Hadoop生態系統MindmapSui
5、table任務實施Ambari管理平臺通過安裝向導來進行集群的搭建,簡化了集群供應。Ambari支持作業與任務執行的可視化與分析,能夠更好地查看依賴和性能。Ambari是一個分布式架構的軟件,主要由Ambari Server和 Ambari Agent兩部分組成,如圖2-5所示。圖2-5 Ambari Server架構任務實施Ambari管理平臺通過安裝向導來進行集群的搭建,簡(1)基本環境配置本任務以兩臺節點為例來組建 Hadoop分布式集群,這里采用的系統版本為CentOS 7,具體要求見表2-1。根據表中的資源配置來組建大數據基礎平臺。圖1-8 Apache Storm開源項目主機名內存
6、硬盤IP地址角色master8 GB100 GB31Ambari-Server、Ambari-Agent、MySQLslave14 GB100 GB33Ambari-Agent(1)基本環境配置圖1-8 Apache Storm開源項目首先需要配置主機名。 配置主機名。# master# hostnamectl set-hostname master# hostnamemaster# slave1# hostnamectl set-hostname slave1# hostnameslave11首先需要配置主機名。 配置 修改 hosts 映射文件。# master# vi /etc/host
7、s31 master.hadoop master33 slave1.hadoop# slave1# vi /etc/hosts31 master.hadoop33 slave1.hadoop slave12 修改 hosts 映射文 配置Yum源。# master將BigData-v2.0-BASE.iso復制到/mnt目錄下,將其中的ambari 解壓到/opt目錄下,并在master節點配置ftp服務。注意:因為安裝大數據相關軟件包時,可能會用到相關依賴軟件包,所以需要配置CentOS 7 Yum 源,可以配置CentOS 7的本地Yum源文件,如果有網絡的話也可以配置公網的Yum源。這里
8、可以采用本地 CentOS 7 Yum 源。#master& slave1# cd /etc/yum.repos.d/# rm -vf *注意:如果配置公網Yum源,則不需要刪除原來的repo文件。3 配置Yum源。# mas編寫REPO文件,指定Ambari安裝包路徑和CentOS 7安裝包路徑。# vi ambari.repo centos7baseurl=0/centos7/(注:具體的Yum 源根據真實環境配置,本次為實驗室測試環境。)gpgcheck=0 enabled=1 name=centos ambari name=ambaribaseurl=1/ambari(注:具體的Yum
9、 源根據真實環境配置,本次為實驗室測試環境。)編寫REPO文件,指定Ambari安裝包路徑和CentOS enabled=1 gpgcheck=0#master# yum -y install httpd將/mnt/目錄下的HDP-2.4-BASE和HDP-UTILS-0兩個文件夾拷貝到/var/www/html/目錄下。啟動httpd服務。# systemctl enable httpd.service# systemctl status httpd.serviceenabled=1 配置ntp。# master# yum -y install ntp# vi /etc/ntp.conf注釋
10、或者刪除以下4行server 0. iburst server 1. iburst server 2. iburstserver 3. iburst添加以下兩行server fudge stratum 10#systemctl enable ntpd#systemctl start ntpd4# slave1# yum -y install ntpdate# ntpdate master.hadoop# systemctl enable ntpdate 配置ntp。# mast 配置SSH。# master& slave1檢查 2個節點是否可以通過無密鑰相互訪問,如果未配置,則進行SSH無密碼
11、公鑰認證配置。如下:# yum install openssh-clients# ssh-keygen# ssh-copy-id master.hadoop# ssh-copy-id slave1.hadoopssh登錄遠程主機查看是否成功。# ssh master.hadoop# exit# ssh slave1.hadoop# exit5 配置SSH。# mast 禁用 Transparent Huge Pages。操作系統后臺有一個khugepaged 的進程,它會一直掃描所有進程占用的內存,在可能的情況下會把4k page交換為Huge Pages,在這個過程中,對于操作的內存的各種分
12、配活動都需要各種內存鎖,直接影響程序的內存訪問性能,并且這個過程對于應用是透明的,在應用層面不可控制,對于專門為4k page優化的程序來說,可能會造成隨機的性能下降現象。#master& slave1# cat /sys/kernel/mm/transparent_hugepage/enabledalways madvise never# echo never /sys/kernel/mm/transparent_hugepage/enabled# echo never /sys/kernel/mm/transparent_hugepage/defrag# cat /sys/kernel/m
13、m/transparent_hugepage/enabledalways madvise never重啟后失效,需要再次執行。6 禁用 Transparen 安裝配置 JDK。#master# mkdir /usr/jdk64/# mount -o loop XianDian-BigData-v2.0.5-BASE.iso /mnt/# cd /mnt/# tar -zxvf jdk-8u77-linux-x64.tar.gz -C /usr/jdk64/# vi /etc/profileexport JAVA_HOME=/usr/jdk64/jdk1.8.0_77 export PATH=$
14、JAVA_HOME/bin:$PATH# source /etc/profile#Java versionJava version 1.8.0_77Java(TM) SE Runtime Environment (build 1.8.0_77-b03)Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)7 安裝配置 JDK。#mas# slave1#mkdir /usr/jdk64/#scp 06:/mnt/jdk-8u77-linux-x64.tar.gz .# tar -zxvf jdk-8u77-linux-x64
15、.tar.gz -C /usr/jdk64/# vi /etc/profileexport JAVA_HOME=/usr/jdk64/jdk1.8.0_77 export PATH=$JAVA_HOME/bin:$PATH# source /etc/profile#Java versionJava version 1.8.0_77Java(TM) SE Runtime Environment (build 1.8.0_77-b03)Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)# slave1(2) 配置Ambar
16、i Server#master# yum -y installambari-server配置MariaDB數據庫。#master安裝MariaDB數據庫。# yum install mariadb mariadb-server mysql-connector-java啟動MariaDB數據庫。# systemctl enable mariadb# systemctl start mariadb配置MariaDB數據庫。#mysql_secure_installation按Enter 鍵確認后設置數據庫 root 密碼,這里設置為“bigdata”Remove anonymous users?
17、Y/n yDisallow root login remotely? Y/n nRemove test database and access to it? Y/n yReload privilege tables now? Y/n y(2) 配置Ambari Server創建Ambari數據庫。# mysql -uroot -pbigdataMariaDB (none) create database ambari;MariaDB (none) grant all privileges on ambari.* to ambarilocalhost identified by bigdata;
18、MariaDB (none) grant all privileges on ambari.* to ambari% identified by bigdata; MariaDB (none) use ambari;MariaDB ambari source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlMariaDB ambari Bye創建Ambari數據庫。安裝配置Ambari Server。#master# ambari-server setupWARNING: SELinux is set to permiss
19、ive mode and temporarily disabled. OK to continue y/n (y)?Customize user account for ambari-server daemon y/n (n)? nChecking JDK.1 Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 8 2 Oracle JDK 1.7 + Java Cryptography Extension (JCE) Policy Files 7 3 Custom JDK=Enter choice (1): 3Pat
20、h to JAVA_HOME: /usr/jdk64/jdk1.8.0_77Validating JDK on Ambari Server.done. Completing setup.Configuring database.Enter advanced database configuration y/n (n)? yConfiguring database.安裝配置Ambari Server。= Choose one of the following options:1 - PostgreSQL (Embedded) 2 - Oracle3 - MySQL4 - PostgreSQL5
21、- Microsoft SQL Server (Tech Preview) 6 - SQL Anywhere= Enter choice (1): 3Hostname (localhost): Port (3306):Database name (ambari): Username (ambari):Enter Database Password (bigdata):Proceed with configuring remote database connection properties y/n (y)? Ambari Server setup completed successfully.
22、=啟動Ambari Server服務。# ambari-server start打開瀏覽器,登錄頁面 31:8080/,在“用戶名”的文本框中輸入“admin”,在“密碼”的文本框中輸入“admin”,如圖2-6所示。圖2-6 Ambari登錄頁面啟動Ambari Server服務。圖2-6 Ambari(3)配置Ambari Agent# master& slave1安裝Ambari Agent并修改ambari-agent.ini文件指定Ambari Server的地址或者主機名。# yum -y install ambari-agent# vi /etc/ambari-agent/con
23、f/ambari-agent.iniserverhostname= master# ambari-agent restart打開Ambari Agent的log日志文件/var/log/ambari-agent/ambari-agent.log,查看是否存在“Building Heartbeat: responseId = ”等字樣,如果有則表示Ambari Server和Ambari Agent之間已經成功傳遞了心跳連接信號。# tail -f /var/log/ambari-agent/ambari-agent.logINFO 2017-01-12 09:44:20,919 Control
24、ler.py:265 - Heartbeat response received (id = 1340) INFO 2017-01-12 09:44:30,820 Heartbeat.py:78 - Building Heartbeat: responseId = 1340,timestamp = 1484214270820, commandsInProgress = False, componentsMapped = True(3)配置Ambari Agent(4)部署管理 Hadoop集群登錄頁面http:/IPAddress:8080/,在“用戶名”的文本框中輸入“admin”,在“密碼
25、”的文本框中輸入“admin”。接下來就可以啟動安裝向導、創建集群和安裝服務。如圖2-7和圖2-8所示。圖2-7 Ambari管理頁面(4)部署管理 Hadoop集群圖2-7 Ambari管理頁圖2-8 Ambari安裝向導圖2-8 Ambari安裝向導在“選擇安裝棧”時指定安裝源HDP-2.4和HDP-UTILS-0的位置。指定相應的目標主機并選擇手動注冊主機,選擇所需要安裝的服務,本任務需安裝HDFS、YARN+MapReduce2、Zookeeper、Ambari Metrics、Hive、HBase、Mahout、Sqoop、Spark等服務。在整個過程需要設置Grafana Admi
26、n和Hive的密碼。部署完成頁面,如圖2-9所示。圖2-9 部署完成頁面在“選擇安裝棧”時指定安裝源HDP-2.4和HDP-UTIL單擊頁面導航欄的“主界面”按鈕,在主界面中可以查看集群狀態和監控信息,如圖2-10所示。單擊頁面導航欄的“主界面”按鈕,在主界面中可以查看集群狀態和監控信息,如圖2-10所示。至此,大數據基礎平臺已經部署完畢了。圖2-10 平臺主界面單擊頁面導航欄的“主界面”按鈕,在主界面中可以查看集群狀態和任務2.2使用Apache Ambari管理Hadoop集群任務目標1. 學會使用Ambari Web管理界面對Hadoop服務進行管理的方法。2. 學會使用Ambari W
27、eb管理界面對集群主機進行管理的方法。3. 學會使用Ambari Web管理界面對Hadoop服務進程進行管理的方法。4. 學會使用Ambari Web管理界面對服務配置文件進行管理的方法。任務2.2使用Apache Ambari管理Hadoop集群(1)服務管理在頁面左側的服務列表中,可以選中任何一個想要操作的服務。以 HDFS為例,單擊左側服務列表中的“HDFS”按鈕后,就會在服務列表右側看到該服務的相關信息,如圖2-11所示。圖2-11 HDFS概要展示頁面(1)服務管理在頁面左側的服務列表中,可以選中任何一個想要Hadoop的集群部署完成后,并不知道這個集群是否可用。這時候就可以借助“運行服務檢查”命令來確保集群服務可以正常運行。選擇這個命令后,就會在彈出的對話框中出現如圖2-12所示的HDFS服務操作進度顯示。當進度條執行完畢后,全綠代表服務運行正常,全紅代表服務運行失敗,黃色代表出現告警信息。圖2-12 HDFS服務操作進度顯示Hadoop的集群部署完成后,并不知道這個集群是否可用。這時“服務操作”下拉菜單中的“啟動”、“停止”、“重啟所有”3個命令的含義分別是指:啟動、停止、重啟集群中所有該服務的進程。當執行進度頁面打開時,可以進入查看每個主機進程的操作進度和運行log,如圖2-13所示。圖2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論