Hadoop264環境搭建步驟_第1頁
Hadoop264環境搭建步驟_第2頁
Hadoop264環境搭建步驟_第3頁
Hadoop264環境搭建步驟_第4頁
Hadoop264環境搭建步驟_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Hadoop2.6.4 環境搭建步驟參考網站:1. 創建hadoop用戶useradd -m hadoop -s /bin/bash配置SSH無密碼登陸cd /.ssh/ # 若沒有該目錄,請先執行一次ssh localhostssh-keygen -t rsa # 會有提示,一路都按回車就可以cat ./id_rsa.pub >> ./authorized_keys # 加入授權此時再用 ssh localhost 命令,無需輸入密碼就可以直接登陸。安裝Java環境rpm ivh jdk-7u79-linux-x64.rpmvim /etc/profile#set java en

2、vironment JAVA_HOME="/usr/java/jdk1.7.0_79"CLASSPATH=".:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"HADOOP_HOME="/usr/local/hadoop"PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$PATH"export JAVA_HOME CLASSPATH PATHsource /etc/profilejava -versionJava環境安裝成功。安裝

3、 HadoopHadoop 2 可以通過 或者 下載,一般選擇下載最新的穩定版本,即下載 “stable” 下的 hadoop-2.x.y.tar.gz 這個格式的文件,這是編譯好的,另一個包含 src 的則是 Hadoop 源代碼,需要進行編譯才可使用。下載時強烈建議也下載 hadoop-2.x.y.tar.gz.mds 這個文件,該文件包含了檢驗值可用于檢查 hadoop-2.x.y.tar.gz 的完整性,否則若文件發生了損壞或下載不完整,Hadoop 將無法正常運行。本文涉及的文件均通過瀏覽器下載,默認保存在 “下載” 目錄中(若不是請自行更改 tar 命令的相應目錄)。另外,本教程選

4、擇的是 2.6.4 版本,如果你用的不是 2.6.4 版本,則將所有命令中出現的 2.6.4 更改為你所使用的版本。tar -zxf /data/install/hadoop-2.6.0.tar.gz -C /usr/local # 解壓到/usr/local中cd /usr/local/mv ./hadoop-2.6.4/ ./hadoop # 將文件夾名改為hadoopchown -R hadoop ./Hadoopvim /etc/profileHADOOP_HOME="/usr/local/hadoop"PATH="$JAVA_HOME/bin:$JAVA

5、_HOME/jre/bin:$HADOOP_HOME/bin:$PATH"export JAVA_HOME CLASSPATH PATH# improve Could not resolve hostname library: Name or service not known export HADOOP_COMMON_LIB_NATIVE_DIR="$HADOOP_HOME/lib/native"export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"source /et

6、c/profilehadoop versionHadoop偽分布式配置Hadoop 可以在單節點上以偽分布式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既作為 NameNode 也作為 DataNode,同時,讀取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,偽分布式需要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每個配置以聲明 property 的 name 和 value 的方式來實現。修改配置文件 core-site.

7、xml (通過 gedit 編輯會比較方便: gedit ./etc/hadoop/core-site.xml),將當中的<configuration></configuration>XML修改為下面配置:<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directo

8、ries.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs:/localhost:9000</value> </property></configuration>同樣的,修改配置文件 hdfs-site.xml:<configuration> <property> <name>dfs.replication</name> <value

9、>1</value> </property> <property> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</

10、value> </property></configuration>Hadoop配置文件說明Hadoop 的運行方式是由配置文件決定的(運行 Hadoop 時會讀取配置文件),因此如果需要從偽分布式模式切換回非分布式模式,需要刪除 core-site.xml 中的配置項。此外,偽分布式雖然只需要配置 fs.defaultFS 和 dfs.replication 就可以運行(官方教程如此),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄為 /tmp/hadoo-hadoop,而這個目錄在重啟時有可能被系統清理掉,導致必須重新執行 forma

11、t 才行。所以我們進行了設置,同時也指定 .dir 和 dfs.datanode.data.dir,否則在接下來的步驟中可能會出錯。配置完成后,執行 NameNode 的格式化:su hadoop./bin/hdfs namenode format如果在這一步時提示 Error: JAVA_HOME is not set and could not be found. 的錯誤,則說明之前設置 JAVA_HOME 環境變量那邊就沒設置好,請按教程先設置好 JAVA_HOME 變量,否則后面的過程都是進行不下去的。接著開啟 NameNode 和 DataNode

12、守護進程。./sbin/start-dfs.sh啟動成功!瀏覽器訪問:19:50070/驗證成功!啟動 Hadoop 時提示 Could not resolve hostname如果啟動 Hadoop 時遇到輸出非常多“ssh: Could not resolve hostname xxx”的異常情況,如下圖所示:啟動Hadoop時的異常提示啟動Hadoop時的異常提示這個并不是 ssh 的問題,可通過設置 Hadoop 環境變量來解決。首先按鍵盤的 ctrl + c 中斷啟動,然后在 /.bashrc 中,增加如下兩行內容(設置過程與 JAVA_HOME 變

13、量一樣,其中 HADOOP_HOME 為 Hadoop 的安裝目錄):export HADOOP_HOME=/usr/local/hadoopexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeShell保存后,務必執行 source /.bashrc 使變量設置生效,然后再次執行 ./sbin/start-dfs.sh 啟動 Hadoop。啟動完成后,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下進程: “NameNode”、”DataNode” 和 “SecondaryNameNode”(如果 Second

14、aryNameNode 沒有啟動,請運行 sbin/stop-dfs.sh 關閉進程,然后再次嘗試啟動嘗試)。如果沒有 NameNode 或 DataNode ,那就是配置不成功,請仔細檢查之前步驟,或通過查看啟動日志排查原因。通過jps查看啟動的Hadoop進程通過jps查看啟動的Hadoop進程Hadoop無法正常啟動的解決方法一般可以查看啟動日志來排查原因,注意幾點:啟動時會提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”,

15、其中 DBLab-XMU 對應你的機器名,但其實啟動日志信息是記錄在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.log 中,所以應該查看這個后綴為 .log 的文件;每一次的啟動日志都是追加在日志文件之后,所以得拉到最后面看,對比下記錄的時間就知道了。一般出錯的提示在最后面,通常是寫著 Fatal、Error、Warning 或者 Java Exception 的地方。可以在網上搜索一下出錯信息,看能否找到一些相關的解決方法。此外,若是 DataNode 沒有啟動,可嘗試如下的方法(注意這會刪除 HDFS 中原有的所有數據,

16、如果原有的數據很重要請不要這樣做):# 針對 DataNode 沒法啟動的解決方法./sbin/stop-dfs.sh # 關閉rm -r ./tmp # 刪除 tmp 文件,注意這會刪除 HDFS 中原有的所有數據./bin/hdfs namenode -format # 重新格式化 NameNode./sbin/start-dfs.sh # 重啟啟動YARN上述通過 ./sbin/start-dfs.sh 啟動 Hadoop,僅僅是啟動了 MapReduce 環境,我們可以啟動 YARN ,讓 YARN 來負責資源管理與任務調度。首先修改配置文件 mapred-site.xml,這邊需要先

17、進行重命名:mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xmlShell 命令然后再進行編輯,同樣使用 gedit 編輯會比較方便些 gedit ./etc/hadoop/mapred-site.xml :<configuration> <property> <name></name> <value>yarn</value> </property></configurat

18、ion>XML接著修改配置文件 yarn-site.xml:<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>XML然后就可以啟動 YARN 了(需要先執行過 ./sbin/start-dfs.sh):./sbin/start-yarn.sh # 啟動YARN./sbin/mr-jobhistory-daemon.sh start historyserver # 開啟歷史服務器,才能在Web中查看任務運行情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論