




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGE6PAGE6PAGE5PAGE5
課題數據處理與分析(三)課時2課時(90min)教學目標知識技能目標:(1) 了解Spark的概念和主要組件。(2) 理解Spark的運行架構和工作流程。思政育人目標:自覺履行國家科技自立自強的使命擔當,面向世界科技前沿和國家重大需求,大膽創新,追求卓越,勇攀科技高峰。教學重難點教學重點:Spark的運行架構和工作流程教學難點:使用SparkJavaAPI編寫簡單的應用程序教學方法案例分析法、問答法、討論法、講授法教學用具電腦、投影儀、多媒體課件、教材教學設計第1節課:→→傳授新知(23min)→課堂討論(15min)第2節課:→傳授新知(20min)→課堂互動(15min)→課堂小結(3min)→作業布置(2min)教學過程主要教學內容及步驟設計意圖第一節課考勤
(2min)【教師】使用文旌課堂APP【學生】按照老師要求簽到培養學生的組織紀律性,掌握學生的出勤情況問題導入(5min)【教師】提出以下活動:基于內存的大數據處理引擎Spark有什么優點?【學生】聆聽、思考、舉手回答通過問題導入的方法,引導學生主動思考,激發學生的學習興趣傳授新知
(23min)【教師】通過學生的回答引入要講的知識,介紹Spark的相關知識一、什么是Spark數據是用來記錄客觀事物或事件的符號,具體來說,是對客觀事物或事件的性質、狀態及相互關系等信息進行記錄的物理符號。它是可識別的、抽象的符號(詳見教材)?【教師】提出問題:什么是Spark??【學生】思考、舉手回答?【教師】對學生的回答進行總結Spark是一個針對超大數據集合的、低延遲的集群分布式計算系統,它同時支持批處理和流計算。其最初由加州大學伯克利分校的AMPLab研發,現已成為Apache軟件基金會的頂級項目之一。Spark不僅提供了可擴展、高容錯、高性能的分布式數據處理,還提供了內存級的數據處理。(詳見教材)?【教師】利用多媒體輔助講解Spark的主要組件Spark由4個主要組件組成,包括提供交互式數據查詢的SparkSQL、實時計算的SparkStreaming、機器學習的MLlib和圖處理的GraphX。(1)SparkSQL提供了類SQL的結構化數據交互式操作。它由Shark(HiveonSpark)演化而來,Shark嚴重依賴于Hive,并對Hive進行了改造。······(詳見教材)?【教師】提出以下學習任務:閱讀“提示”部分,進一步了解Spark組成。?【學生】自主學習,理解,總結二、Spark與Hadoop對比分析?【教師】利用多媒體輔助講解Spark與Hadoop對比分析Spark與Hadoop主要在抽象層次上有所不同。Hadoop被創建為處理大量現有數據的引擎,它具有較低的抽象級別,允許執行復雜的操作,但可能導致學習和管理困難。Spark更容易,更快捷,具有許多方便的高級工具和功能,可以簡化工作。Spark在Hadoop之上運行,并且擁有許多優秀的庫,如SparkSQL、MLlib等,它的出現促使Hadoop生態圈發生演變,以便更好地為大數據分析服務。(詳見教材)?【教師】提出以下問題:根據Spark生態系統圖片,說一說Spark與Hadoop對比分析?【學生】自主學習,理解,總結?【教師】對學生的回答進行總結Hadoop與Spark都是并行計算,且都是用MapReduce原理模型進行計算。與Hadoop開發語言不同的是,Spark是由Scala語言編寫而成。Scala是一種函數式編寫語言,是運行在JVM(Java虛擬機)上的高級靜態語言。(詳見教材)三、Spark的運行架構和工作流程?【教師】利用多媒體輔助講解與Spark的運行架構相關的重要概念(1)RDD:彈性分布式數據集(resilientdistributeddataset)的簡稱,是分布式內存的一個抽象概念,它提供了一種高度受限的共享內存模型。(2)DAG:有向無環圖(directedacyclicgraph)的簡稱,反映RDD之間的依賴關系。(詳見教材)?【教師】提出問題:Spark的運行架構包含哪些部分??【學生】思考、舉手回答?【教師】對學生的回答進行總結Spark的運行架構包括集群管理器(ClusterManager)、運行作業任務的工作節點(WorkerNode)、每個應用的任務控制節點(DriverProgram)和每個工作節點上負責具體任務的執行進程(Executor)。?【教師】提出以下學習任務:閱讀“知識庫”部分,進一步了解什么是RDD。?【學生】自主學習,理解,總結?【教師】利用多媒體輔助講解Spark的工作流程(1)當一個Spark應用被提交時,首先需要為這個應用構建起基本的運行環境,即由任務控制節點(DriverProgram)創建一個SparkContext,由SparkContext負責和集群資源管理器(ClusterManager)的通信,以及進行資源的申請、任務的分配和監控等。SparkContext會向資源管理器注冊并申請運行Executor的資源。(2)資源管理器為Executor分配資源,并啟動Executor進程,Executor運行情況將隨著“心跳”發送到資源管理器上。(詳見教材)?【教師】提出以下學習任務:觀察圖片Spark的工作流程,根據圖片流程再次理解和學習Spark的工作流程。?【學生】自主學習,理解,總結【學生】聆聽、記錄、理解通過教師的講解和演示,互動以及案例,使學生了解Spark的相關知識課堂討論(15min)【教師】組織學生閱讀“高手點撥”部分(詳見教材),然后組織學生以小組為單位討論以下問題:Spark的運行架構與Executor有什么必然聯系?【學生】聆聽、思考、小組討論,由小組代表上臺發表討論結果【教師】與學生一起評價各組的討論結果通過課堂討論,加深學生對Spark的了解第二節課實戰演練(20min)【教師】演示安裝Spark并編寫單詞統計程序,然后組織學生上機操作一、安裝Scala?【教師】提出學習任務:閱讀課本“提示”部分,理解什么是Scala??【學生】自主學習,理解?【教師】演示實際操作步驟:以hadoop0虛擬機為例,在CentOS7系統中安裝Scala的方法(1)下載Scala安裝包scala-2.11.8.tgz。(2)使用WinSCP軟件將下載的Scala安裝包scala-2.11.8.tgz上傳到hadoop0虛擬機的“/opt/packages”目錄下,然后執行以下命令進入該目錄:#cd/opt/packages……(詳見教材)?【學生】觀察,記錄,思考?【學生】教師演示完成后,由學生自主操作?【教師】巡視課堂記錄,對個別學習進行指導二、安裝Spark?【教師】提出學習任務:閱讀課本“提示”部分,了解Spark的安裝模式。?【學生】自主學習,理解?【教師】演示實際操作步驟:(1)通過頁面下載Spark安裝包spark-2.3.3-bin-hadoop2.7.tgz。(2)使用WinSCP軟件將下載的Spark安裝包spark-2.3.3-bin-hadoop2.7.tgz上傳到hadoop0虛擬機的“/opt/packages”目錄下,然后執行以下命令進入該目錄:#cd/opt/packages……(詳見教材)?【學生】觀察,記錄,思考?【學生】教師演示完成后,由學生自主操作?【教師】巡視課堂記錄,對個別學習進行指導?【教師】提出學習任務:閱讀課本“提示”部分,了解Spark的啟動和停止。?【學生】自主學習,理解三、單詞統計程序?【教師】演示實際操作步驟:SparkAPI支持Scala、Java、Python和R多種編程語言,這里介紹如何使用SparkJavaAPI編寫單詞統計程序。(1)在Eclipse開發主界面選擇“File”→“New”→“Other...”選項(或按“Ctrl+N”組合鍵),打開“New”對話框,選擇“Maven”→“MavenProject”選項,然后單擊“Next”按鈕。(2)彈出“NewMavenProject”對話框,保持默認設置,單擊“Next”按鈕。……(詳見教材)?【學生】觀察,記錄,思考?【學生】教師演示完成后,由學生自主操作?【教師】巡視課堂記錄,對個別學習進行指導?【教師】提出學習任務:閱讀課本“小技巧”部分,了解Spark的使用技巧。?【學生】自主學習,理解【學生】、記錄、理解通過實戰演練,讓學生了解如何安裝Spark并編寫單詞統計程序小組互助(20min)【教師】組織學生以小組為單位,使用Spark編寫簡單應用程序觀看、聆聽、思考、上機操作,由先完成的小組成員幫助其他成員完成操作【教師】巡堂指導,及時解決學生遇到的問題通過小組互助,使學生熟悉Spark軟件相關代碼,為解決實際問題打好基礎課堂小結
(3min)【教師】簡要總結本節課的要點本節課學習了基于內存的大數據處理引擎Spark軟件,并且通過實戰演練學習安裝Spark軟件及編寫程序。希望大家在課下多加練習,鞏固所學知識【學生】總結回顧知識點總結知識點,鞏固學生對Spark相關知識的印象作業布置
(2min)【教師】布置課后作業(1)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論