




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
廈門大學計算機科學系2015年版林子雨廈門大學計算機科學系主頁:
第二章大數據處理架構Hadoop
〔PPT版本號:2015年6月第1.0版〕《大數據技術原理與應用》溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大校徽和底部文字提綱2.1概述2.2Hadoop工程結構2.3Hadoop的安裝與使用歡送訪問《大數據技術原理與應用》教材官方網站:本PPT是如下教材的配套講義:21世紀高等教育計算機規劃教材《大數據技術原理與應用——概念、存儲、處理、分析與應用》〔2015年6月第1版〕廈門大學林子雨編著,人民郵電出版社ISBN:978-7-115-39287-92.1概述2.1.1 Hadoop簡介2.1.2 Hadoop開展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應用現狀2.1.1Hadoop簡介Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺,為用戶提供了系統底層細節透明的分布式根底架構Hadoop是基于Java語言開發的,具有很好的跨平臺特性,并且可以部署在廉價的計算機集群中Hadoop的核心是分布式文件系統HDFS〔HadoopDistributedFileSystem〕和MapReduceHadoop被公認為行業大數據標準開源軟件,在分布式環境下提供了海量數據的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發工具、開源軟件、商業化工具和技術效勞,如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.2Hadoop開展簡史Hadoop最初是由ApacheLucene工程的創始人DougCutting開發的文本搜索庫。Hadoop源自始于2002年的ApacheNutch工程——一個開源的網絡搜索引擎并且也是Lucene工程的一局部在2004年,Nutch工程也模仿GFS開發了自己的分布式文件系統NDFS〔NutchDistributedFileSystem〕,也就是HDFS的前身2004年,谷歌公司又發表了另一篇具有深遠影響的論文,闡述了MapReduce分布式編程思想2005年,Nutch開源實現了谷歌的MapReduceHadoop的標志2.1.2Hadoop開展簡史到了2006年2月,Nutch中的NDFS和MapReduce開始獨立出來,成為Lucene工程的一個子工程,稱為Hadoop,同時,DougCutting加盟雅虎2008年1月,Hadoop正式成為Apache頂級工程,Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界紀錄,成為最快排序1TB數據的系統,它采用一個由910個節點構成的集群進行運算,排序時間只用了209秒在2009年5月,Hadoop更是把1TB數據排序時間縮短到62秒。Hadoop從此名聲大震,迅速開展成為大數據時代最具影響力的開源分布式開發平臺,并成為事實上的大數據處理標準2.1.3Hadoop的特性Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進行處理的,它具有以下幾個方面的特性:高可靠性高效性高可擴展性高容錯性本錢低運行在Linux平臺上支持多種編程語言2.1.3Hadoop的應用現狀Hadoop憑借其突出的優勢,已經在各個領域得到了廣泛的應用,而互聯網領域是其應用的主陣地2007年,雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadoop集群系統Facebook作為全球知名的社交網站,Hadoop是非常理想的選擇,Facebook主要將Hadoop平臺用于日志處理、推薦系統和數據倉庫等方面國內采用Hadoop的公司主要有百度、淘寶、網易、華為、中國移動等,其中,淘寶的Hadoop集群比較大2.2Hadoop工程結構經過多年的開展,Hadoop工程不斷完善和成熟,目前已經包含多個子工程〔如圖2-2所示〕除了核心的HDFS和MapReduce以外,Hadoop工程還包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子工程,它們提供了互補性效勞或在核心層上提供了更高層的效勞圖2-2Hadoop工程結構圖2.3 Hadoop的安裝與使用Hadoop根本安裝配置主要包括以下幾個步驟:創立Hadoop用戶Java安裝SSH登錄權限設置單機安裝配置偽分布式安裝配置2.3.1創立Hadoop用戶添加用戶-----useradd刪除用戶-----userdel更改密碼-----passwd在本次實驗中,創立的用戶名為hadoop2.3.2Java安裝使用CentOS自帶的java版本安裝Oracle官方java版本2.3.3SSH登錄權限配置SSH的原因:Hadoop名稱節點〔NameNode〕需要啟動集群中所有機器的Hadoop守護進程,這個過程需要通過SSH登錄來實現。Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺機器,需要將所有機器配置為名稱節點可以無密碼登錄它們。SSH是什么?SSH
為
SecureShell
的縮寫,是建立在應用層和傳輸層根底上的平安協議。SSH是由客戶端和效勞端的軟件組成,效勞端是一個守護進程(daemon),他在后臺運行并響應來自客戶端的連接請求,客戶端包含ssh程序以及像scp〔遠程拷貝〕、slogin〔遠程登陸〕、sftp〔平安文件傳輸〕等其他的應用程序。2.3.4安裝單機HadoopHadoop版本:下載地址:實驗步驟:解壓縮修改hadoop-env.sh查看hadoop版本信息:./hadoopversion運行hadoop實例2.3.5Hadoop偽分布式安裝文件名稱格式描述hadoop-env.shBash腳本記錄配置Hadoop運行所需的環境變量,以運行Hadoopcore-site.xmlHadoop配置XMLHadoopcore的配置項,例如HDFS和MapReduce常用的I/O設置等hdfs-site.xmlHadoop配置XMLHadoop的守護進程的配置項,包括NameNode、SecondaryNameNode和DataNode等mapred-site.xmlHadoop配置XMLMapReduce守護進程的配置項,包括JobTracker和TaskTrackermasters純文本運行SecondaryNameNode的機器列表(每行一個)slaves純文本運行DataNode和TaskTracker的機器列表(每行一個)pertiesJava屬性控制metrics在Hadoop上如何發布的屬性Hadoop配置文件2.3.5Hadoop偽分布式安裝實驗步驟:修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml初始化文件系統hadoopnamenode-format啟動所有進程start-all.sh訪問web界面,查看Hadoop信息運行實例本章小結Hadoop被視為事實上的大數據處理標準,本章介紹了Hadoop的開展歷程,并闡述了Hadoop的高可靠性、高效性、高可擴展性、高容錯性、本錢低、運行在Linux平臺上、支持多種編程語言等特性Hadoop目前已經在各個領域得到了廣泛的應用,雅虎、Facebook、百度、淘寶、網易等公司都建立了自己的Hadoop集群經過多年開展,Hadoop工程已經變得非常成熟和完善,包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子工程,其中,HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統下完成Hadoop的安裝和配置,這個局部是后續章節實踐環節的根底主講教師和助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 茶樓與茶藝表演團隊合作演出合同
- 農村集體土地征收拆遷補償合同
- 水務企業水資源利用與財務管理制度
- 環保項目場地調研合同協議書范本
- 老人營養健康課件
- 美術課件彩虹
- 美術素描兒童課件下載
- 美術版畫介紹課件
- 美術政策解讀課件下載
- 安全工作總結幼兒園中班
- Unit2MyfavouriteseasonPartALet'stryLet'stalk(第1課時)分層作業-2024-2025學年英語五年級下冊(人教PEP版)
- 《鋰離子電池人造石墨類負極材料用原料焦》
- 中國移動5G手機產品白皮書(2025年版)-中國移動
- 課題十劃線鉆孔
- 精神病學睡眠覺醒障礙
- 手術室外麻醉與護理
- 防溺水救助培訓內容
- 衛生監督協管員培訓課件
- 國開(北京)2024年秋《財務案例分析》形考作業答案
- 廠區食堂二次供水水箱清洗協議
- DB52T 1512-2020 水利水電工程隧洞施工超前地質預報技術規程
評論
0/150
提交評論