




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《大數據技術綜合實訓2》教學大綱一、課程基本信息課程名稱大數據技術綜合實訓ComprehensiveActualTrainingOfBigDataTechnology課程編碼SCC320811030開課院部理學院課程團隊數據科學團隊學分3.0課內學時3周講授0實驗0上機0實踐3周課外學時0適用專業數據科學與大數據技術授課語言中文先修課程Python語言與實訓、大數據技術基礎實訓課程簡介(必修)《大數據技術綜合實訓》是數據科學與大數據技術專業的一門必修課。通過本課程的實機操作,使學生掌握在本機與多臺機器集群執行Spark應用程序,并運用MLlib機器學習演算法進行數據處理、訓練、建立模型、訓練驗證模型、預測結果。另外,以大數據實際案例示范使用SparkMLPipeline機器學習流程進行二元分類、多元分類、回歸分析,將機器學習的每一個步驟建立成Pipeline流程。通過對SparkMLlib機器學習算法和應用案例的研究,進一步鍛煉學生的動手能力,培養學生處理大數據問題的能力。TheComprehensiveTrainingofBigDataTechnologyisacompulsorycourseforthemajorofDataScienceandBigDataTechnology.Throughthereal-timeoperationofthiscourse,studentscanmasterhowtoexecuteSparkapplicationprogramwithmultiplemachineclustersontheirown,anduseMLlibmachinelearningalgorithmtoprocessdata,train,buildmodels,trainvalidationmodelsandpredictresults.Inaddition,weuseSparkMLPipelinemachinelearningprocesstocarryoutbinaryclassification,multipleclassificationandregressionanalysiswithlargedataexamples,andbuildeverystepofmachinelearningintoPipelineprocess.ThroughthestudyofSparkMLlibmachinelearningalgorithmandapplicationcases,thestudents'practicalabilityisfurthertrainedandtheirabilitytodealwithbigdataproblemsistrained.負責人大綱執筆人審核人二、課程目標序號代號課程目標OBE畢業要求指標點任務自選1M1目標1:掌握在本機與多臺機器集群執行Spark應用程序,系統掌握大數據技術的實驗方法,培養學生實踐實驗技能是3.22M2目標2:運用SparkMLlib和SparkMLPipeline機器學習流程進行二元分類、多元分類、回歸分析,能夠量化分析問題,具備分析和建立大數據模型的能力是3.2,4.23M3目標3:通過對SparkMLlib機器學習算法和應用案例的研究,進一步鍛煉學生的團隊協作能力,培養創新精神,訓練創新思維,培育創新創業實踐能力、科學研究能力和技術開發能力是7.2,8.1,8.24M4目標4:能保障課程正常秩序(政治層面、課堂保障層面,非學生能力層面)否三、課程內容序號章節號標題課程內容/重難點支撐課程目標課內學時教學方式課外學時課外環節1第1章第1章Spark的介紹與安裝本章重點難點:不同模式下運行spark程序////21.11.1Spark的介紹與安裝Spark的介紹與安裝M10.25天講授、討論//31.21.2運行spark程序與SparkWebUI界面本地運行spark程序、在HadoopYARN運行spark、構建SparkStandaloneCluster運行環境、在SparkStandalone運行spark、SparkWebUI界面M10.25天講授、討論//4實驗1實驗1:Spark的生態環境與安裝實驗Spark的生態環境與安裝實驗M10.5天實驗、上機//5第2章第2章SparkRDD本章重點難點:RDD“轉換”運算、RDD“動作”運算、Broadcast廣播變量、accumulator累加器、RDDPersistence持久化////62.12.1“轉換”運算基本RDD“轉換”運算、多個RDD“轉換”運算、RDDKey-Value基本“轉換”運算、多個RDDKey-Value“轉換”運算M10.25天講授、討論//72.22.2“動作”運算基本“動作”運算、Key-Value“動作”運算M10.25天講授、討論//82.32.3RDD相關概念Broadcast廣播變量、accumulator累加器、RDDPersistence持久化M10.25天講授、討論//92.72.4使用Spark創建WordCount使用Spark創建WordCountM10.25天講授、討論//10實驗2實驗2:SparkRDD實驗SparkRDD實驗M11天實驗、上機//11第3章第3章Spark的集成開發環境本章重點難點:PyDev和SCALA編程、不同模式下運行Spark程序/////123.13.1PyDev項目PyDev設置SparkPython鏈接庫、PyDev設置環境變量、WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序、在SparkStandaloneCluster上運行M10.25天講授、討論//133.23.2SCALA編程SCALA實現WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序M10.25天講授、討論//14實驗3實驗3:Spark的集成開發環境實驗Spark的集成開發環境實驗M10.5天實驗、上機//15第4章第4章SparkMLlib決策樹分類本章重點難點:SparkMLlib運行決策樹二元分類、SparkMLlib決策樹多元分類////164.14.1SparkMLlib決策樹分類SparkMLlib決策樹分類M1,M20.25天講授、討論//174.24.2“StumbleUponEvergreen”大數據問題數據搜集、數據準備、訓練模型、模型預測、模型準確率評估M1,M20.5天講授、討論//184.34.3“森林覆蓋植被”大數據問題數據搜集、數據準備、訓練模型、模型預測、模型準確率評估M1,M20.5天講授、討論//19實驗4實驗4:PythonSparkMLlib決策樹分類實訓PythonSparkMLlib決策樹分類實訓M2,M33天實驗、上機//20第5章第5章SparkMLPipeline機器學習流程分類本章重點難點:采用SparkMLPipeline實現隨機森林RandomForestClassier分類////215.15.1機器學習pipeline流程的組件建立機器學習pipeline流程、使用pipeline進行數據處理與訓練、使用pipelineModel進行預測、評估模型的準確率M1,M20.25天講授、討論//225.25.2使用隨機森林RandomForestClassier分類器使用隨機森林RandomForestClassier分類器M1,M20.5天講授、討論//235.35.3大數據問題SparkMLPipeline實訓對于大數據問題,可由教師和學生自行選擇M1,M20.5天講授、討論//24實驗5實驗5:SparkMLPipeline機器學習流程二元分類SCALA實現SparkMLPipeline機器學習流程二元分類M2,M33天實驗、上機//25第6章第6章SparkSQL、DataFrame、RDD數據統計與可視化本章重點難點:DataFrame、RDD數據統計與可視化////266.16.1RDD、DataFrame、SparkSQL數據整理與統計RDD、DataFrame、SparkSQL數據、顯示字段與增加計算字段、篩選數據、字段數據排序、分組統計數據、Join聯接數據M10.25天講授、討論//276.26.2大數據問題數據統計與可視化實訓對于大數據問題,可由教師和學生自行選擇M2,M30.25天講授、討論//28實驗6實驗6:數據統計與可視化實訓數據統計與可視化實訓M2,M32天實驗、上機//四、考核方式序號考核環節操作細節總評占比1實驗1.本課程3周實驗,共六次實驗。2.成績采用百分制,根據實驗完成情況評分。3.考核學生實機操作能力,使學生掌握在本機與多臺機器集群執行Spark應用程序,并運用MLlib機器學習演算法進行數據處理、訓練、建立模型、訓練驗證模型、預測結果。60%2考勤隨機點名、刷卡點名等5%3課堂表現隨機檢查學生上課精神狀態、回答問題情況5%4大作業1.本課程要求利用Python語言工具建立研究對象的模型,兩到三人一組,以競賽組隊模式完成一道大數據競賽題目,并提交論文并答辯。2.根據模型建立情況、論文方案的準確性和個人在大作業的貢獻率評分。30%五、評分細則序號課程目標考核環節大致占比評分等級1M1實驗60%A-按時提交實驗報告,數據分析符合規范,結論無誤。B-按時提交實驗報告,數據分析基本規范,結論基本正確。C-數據分析過程存在問題。D-未提交實驗報告或實驗報告存在嚴重抄襲現象。2M1大作業30%A-按時提交大作業論文,數據分析符合規范,結論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業論文,數據分析基本規范,結論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數據分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業論文或大作業論文存在嚴重抄襲現象,未參加課程答辯。3M1課堂表現10%A-精神狀態飽滿,回答問題準確。B-精神狀態良好,問題回答較好。C-精神狀態一般,問題回答一般。D-很少參加課堂討論,精神狀態較差,回答問題有誤。4M2實驗60%A-按時提交實驗報告,數據分析符合規范,結論無誤。B-按時提交實驗報告,數據分析基本規范,結論基本正確。C-數據分析過程存在問題。D-未提交實驗報告或實驗報告存在嚴重抄襲現象。5M2大作業40%A-按時提交大作業論文,數據分析符合規范,結論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業論文,數據分析基本規范,結論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數據分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業論文或大作業論文存在嚴重抄襲現象,未參加課程答辯。6M3實驗50%A-按時提交實驗報告,數據分析符合規范,結論無誤。B-按時提交實驗報告,數據分析基本規范,結論基本正確。C-數據分析過程存在問題。D-未提交實驗報告或實驗報告存在嚴重抄襲現象。7M3大作業50%A-按時提交大作業論文,數據分析符合規范,結論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業論文,數據分析基本規范,結論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數據分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業論文或大作業論文存在嚴重抄襲現象,未參加課程答辯。8M4考勤100%A-全勤。B-缺勤1次。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 備份文件備份周期統計表
- 食品加工工藝與安全規范考試卷
- 進銷存軟件開發服務合作協議
- 2025年信息安全與風險管理考試試題及答案
- 小兒高熱驚厥的急救
- 2025年社會變遷與家庭教育考試試題及答案
- 2025年母嬰護理師考試試題及答案
- 2025年應用統計學基礎能力考試試卷及答案
- 2025年公共衛生管理課程考試試卷及答案
- 2025年兒童發展與家庭教育考試試卷及答案
- 2024年春江蘇開放大學先進制造技術第一次過程性考核作業答案
- 2019版新人教版高中英語必修+選擇性必修共7冊詞匯表匯總(帶音標)
- 公務員午休管理制度
- 煙機設備修理工濾棒成型
- 外來醫療器械清洗消毒操作流程課件
- 軟件工程-機票預訂系統-詳細設計-報告
- 網絡安全服務實施方案
- 樓長-層長工作職責
- 物理化學實驗:實驗一 溶解熱的測定
- 天然草皮鋪設施工方案
- 丹尼森組織文化模型
評論
0/150
提交評論