Spark大數據分析與實戰(第二版) 項目1 教案_第1頁
Spark大數據分析與實戰(第二版) 項目1 教案_第2頁
Spark大數據分析與實戰(第二版) 項目1 教案_第3頁
Spark大數據分析與實戰(第二版) 項目1 教案_第4頁
Spark大數據分析與實戰(第二版) 項目1 教案_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

課程名稱Spark大數據分析選用教材Spark大數據分析與實戰(第2版)出版社西安電子科技大學出版社章節項目1搭建Spark開發環境教學內容基于Ubuntu系統,搭建Spark開發環境(含Hadoop偽分布)授課學時4授課班級****專業*****班授課日期授課地點教學目標初步了解大數據的相關知識,了解Hadoop、Spark平臺的產生背景與功能;能夠在本地環境(Ubuntu系統)中,獨立搭建Hadoop偽分布基礎平臺;能夠在本地環境(Ubuntu系統)中,獨立搭建Spark計算平臺。重點難點Spark的原理、運行的基本邏輯;在Ubuntu系統中,完成Hadoop的安裝;在Ubuntu系統中,完成Spark的安裝;教學方法R講授£討論或座談£問題導向學習£分組合作學習£案例教學£任務驅動R項目教學£情景教學£演示匯報£實踐教學£參觀訪問£引導文教學£其他(--)教學準備(教師)教材:《Spark大數據分析與實戰(第2版)》硬件設備:內存8G(或以上)的計算機(2)教學資源:課件PPT、教學日歷、相關軟件等教學準備(學生)教材:《Spark大數據分析與實戰(第2版)》硬件設備:內存8G(或以上)的計算機(3)教學資源:課件PPT、相關軟件等教學環節教學內容與過程(教學內容、教學方法、組織形式、教學手段)課前組織教師通過課程教學平臺或班級群發布學習預習任務及課程資源;學生提前預習相關內容,并完成課前自測等。課程內容描述情境導入隨著Hadoop等大數據平臺的日漸成熟,大數據應用不斷落地,社會已然進入大數據時代;但Hadoop本身存在的缺陷也不斷暴露,MapReduce計算模型因其先天不足,已經無法適應實時計算需求。在借鑒MapReduce優點基礎上,新一代大數據計算引擎Spark應運而。學習Spark技術,首先要了解大數據、Hadoop、Spark等熱點的背景,進而著手搭建一個Spark運行環境。任務1.1擁抱大數據時代1.大數據時代已然到來2025年全球數據總量將增長到175ZB(約合200萬億GB),10年增長10余倍,復合增長率為26%。從資源的角度,數據被視為“未來的石油”,被作為戰略性資產進行管理。大數據是指無法在有限時間內用常規軟件工具對其進行獲取、存儲、管理和處理的數據集合。大數據具備Volume、Velocity、Variety和Value四個特征(簡稱“4V”,即體量巨大、速度快、類型繁多和價值密度低)。2.大數據來自哪里?(1)運營式系統階段(2)用戶原創內容階段(3)感知式系統階段如何處理大數據?(1)數據收集:通過Web爬蟲、數據庫接口、服務器日志等手段采集數據;(2)數據預處理:包括數據清理、數據集成、數據歸約與數據轉換等內容,可以極大提升數據的總體質量(3)數據處理與分析:綜合應用IT技術、統計學、機器學習、人工智能等知識,分析現有數據(分布式統計分析),然后挖掘數據背后隱含的有價值信息(通過聚類與分類、推薦、關聯分析、深度學習等算法,對未知數據進行分布式挖掘)(4)數據可視化與應用

:可視化圖表形式展示;分析處理后的結果應用于管理決策、戰略規劃等。任務1.2搭建Hadoop基礎平臺Hadoop是一個由Apache基金會開發的大數據分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,輕松地在Hadoop上開發、運行分布式程序,充分利用集群的優勢,進行高效運算和存儲。Hadoop運行模式包括單機模式、偽分布模式及分布式模式。準備工作:(1)VirtualBox工具安裝Ubuntu,創建hadoop用戶;(2)設置SSH免密登錄(3)安裝JDK使用如下命令完成Hadoop包的解壓、重命名等工作。sudotar-zxvfhadoop-3.3.5.tar.gz-C/usr/local#Hadoop包解壓到/usr/localsudomv/usr/local/hadoop-3.3.5//usr/local/hadoop#目錄改名,便于后續操作sudochown-Rhadoop:hadoop/usr/local/hadoop#目錄擁有者改為hadoop用戶修改Hadoop的兩個配置文件core-site.xml和hdfs-site.xml(位于目錄/usr/local/hadoop/etc/hadoop/下);使用命令“/usr/local/hadoop/bin/hdfsnamenode-format”,完成NameNode的格式化處理HadoopNameNode、DataNode啟動成功后,瀏覽器中輸入http://localhost:9870,可以訪問HadoopWeb界面。任務1.3部署Spark大數據平臺ApacheSpark是用于大規模數據處理的統一分析引擎,它能夠在內存中進行計算,因此Spark比MapReduce更加高效。Spark的特點:高效性、易用性、通用性、兼容性。Spark基于內存計算,把中間結果放到內存中,帶來了更高的迭代運算效率;Spark提供了一個全面、統一的框架,用于滿足各種有著不同性質數據集(結構化、非結構化)和數據源(批數據、流數據)的大數據處理需求。Spark提供的數據集操作類型更加豐富,從而可以支持更多類型的應用。Spark基于DAG的任務調度執行機制比HadoopMapReduce的迭代執行機制更優越。Spark的安裝過程準備工作:(1)完成JDK、Hadoop等部署與配置(已完成);(2)下載Spark安裝包(官網下載或教材資源中下載),spark-3.4.2-bin-without-hadoop.tgz;解壓安裝包:sudotar-zxfspark-3.4.2-bin-without-hadoop.tgz-C/usr/local/#解壓sudomv/usr/local/spark-3.4.2-bin-without-hadoop//usr/local/spark#重命名sudochown-Rhadoop:hadoop/usr/local/spark#授權給hadoop用戶進入/usr/local/spark/conf目錄下,復制一份文件spark-env.shcd/usr/local/spark/confcp./spark-env.sh.template./spark-env.sh#復制一份配置文件gedit命令打開./spark-env.sh,文件頭部添加下面一行:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath);/usr/local/spark/bin/spark-shell#啟動spark-shell總結評價當前,Spark已經成為主流的大數據計算引擎;學習Spark大數據開發,首先要了大數據概念、特征以及處理過程,建立大數據基本認識。Spark與Hadoop密不可分,可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論