




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Spark應用開發技術本章主要講述SparkSQL的使用。本章主要講述SparkDataFrame基礎操作。通過學習本節將能夠學習SparkSQL、SparkDataFrame基礎操作。通過本節學習可以:理解SparkSQL的基本概念。掌握SparkSQL與Shell交互。掌握創建DataFrame對象的方法。掌握DataFrame查看數據的方法。掌握DataFrame的查詢及輸出操作。認識SparkSQLSpark
SQL簡介Spark
SQLCLI配置SparkSQL與Shell交互掌握DataFrame基礎操作創建DataFrame對象DataFrame查看數據DataFrame查詢操作DataFrame輸出操作探索分析法律服務網站數據獲取數據、網頁類型分析、點擊次數分析、網頁排名分析1.創建DataFrame對象結構化數據文件創建DataFrame外部數據庫創建DataFrameRDD創建DataFrameHive中的表創建DataFrame掌握DataFrame基礎操作結構化數據文件創建DataFrame加載parquet文件為DataFrame加載json文件為DataFrame方式一加載json文件為DataFrame方式二掌握DataFrame基礎操作外部數據庫創建DataFrameSparkSQL可以從外部數據庫(比如MySQL、Oracle等數據庫)中創建DataFrame使用這種方式創建DataFrame需要通過JDBC連接或ODBC連接的方式訪問數據庫掌握DataFrame基礎操作RDD創建DataFrame方式一利用反射機制推斷RDD模式,使用這種方式首先需要定義一個caseclass,因為只有caseclass才能被Spark隱式地轉換為DataFrame。掌握DataFrame基礎操作RDD創建DataFrame方式二從原來的RDD創建一個元組或列表的RDD用StructType創建一個和上一個步驟中創建
的RDD中元組或列表的結構相匹配的Schema通過SQLContext提供的createDataFrame方法
將Schema應用到RDD上掌握DataFrame基礎操作從Hive中的表創建RDD從Hive表中的表創建DataFrame,可以聲明一個HiveContext對象使用HiveContext對象查詢Hive中的表并轉成DataFrame掌握DataFrame基礎操作準備數據將數據movies.dat,ratings.dat,users.dat上傳到HDFS分別加載movies.dat,ratings.dat,users.dat數據為RDD數據movies,ratings,users分別將RDD數據movies,ratings,users轉換為DataFrame掌握DataFrame基礎操作2.DataFrame查看數據掌握DataFrame基礎操作DataFrame查看數據——printSchemaprintSchema函數查看數據模式,打印出列的名稱和類型掌握DataFrame基礎操作DataFrame查看數據——show掌握DataFrame基礎操作DataFrame查看數據——show()/show(truncate:Boolean)show()方法與show(true)方法一樣,只顯示前20條記錄并且最多只顯示20個字符若是要顯示所有字符,需要使用show(false)方法掌握DataFrame基礎操作DataFrame查看數據——show(numRows:Int)show(numRows:Int)查看前n行記錄掌握DataFrame基礎操作DataFrame查看數據——first/head/take/takeAsList掌握DataFrame基礎操作DataFrame查看數據——collect/collectAsListcollect方法可以將DataFrame中的所有數據都獲取到,并返回一個Array對象collectAsList方法可以獲取所有數據到List掌握DataFrame基礎操作3.DataFrame查詢方式一將DataFrame注冊成為臨時表,然后通過SQL語句進行查詢掌握DataFrame基礎操作4.DataFrame查詢方式二直接在DataFrame對象上進行查詢,DataFrame提供了很多查詢的方法掌握DataFrame基礎操作DataFrame查詢——條件查詢DataFrame可以使用where(conditionExpr:String)根據指定條件進行查詢參數中可以使用and或or該方法的返回結果仍然為DataFrame類型掌握DataFrame基礎操作DataFrame查詢——條件查詢DataFrame還可使用filter篩選符合條件的數據filter與where的使用方法一樣掌握DataFrame基礎操作DataFrame查詢——查詢指定字段的數據信息select方法根據傳入的string類型字段名,獲取指定字段的值,以DataFrame類型返回掌握DataFrame基礎操作DataFrame查詢——查詢指定字段的數據信息掌握DataFrame基礎操作selectExpr:對指定字段進行特殊處理可以對指定字段調用UDF函數或者指定別名selectExpr傳入string類型的參數,返回DataFrame對象。DataFrame查詢——查詢指定字段的數據信息col或者apply也可以獲取DataFrame指定字段col或者apply只能獲取一個字段,并且返回對象為Column類型掌握DataFrame基礎操作DataFrame查詢——limitlimit方法獲取指定DataFrame的前n行記錄,得到一個新的DataFrame對象不同于take與head,limit方法不是Action操作。掌握DataFrame基礎操作DataFrame查詢——orderByorderBy方法是根據指定字段排序,默認為升序排序若是要求降序排序,可以使用desc(“字段名稱”)或者$”字段名”.desc或者在指定字段前面加“-”來表示降序排序掌握DataFrame基礎操作DataFrame查詢——sortsort方法與orderBy方法一樣,也是根據指定字段排序,用法也與orderBy一樣掌握DataFrame基礎操作DataFrame查詢——groupBygroupBy方法是根據字段進行分組操作groupBy方法有兩種調用方式,可以傳入String類型的字段名,也可傳入Column類型的對象。掌握DataFrame基礎操作DataFrame查詢——groupBygroupBy方法返回的是GroupedData對象,GroupedData的操作方法如表所示掌握DataFrame基礎操作DataFrame查詢——joinDataFrame提供了三種join方法用于連接兩個表掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame)掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame,joinExprs:Column)掌握DataFrame基礎操作DataFrame查詢——join(right:DataFrame,joinExprs:Column,joinType:String)連接類型joinType只能是inner、outer、left_outer、right_outer、semijoin中的一種掌握DataFrame基礎操作5.DataFrame輸出操作save方法可以將DataFrame保存成文件,save操作有一個可選參數SaveMode,用這個參數可以指定如何處理數據已經存在的情況。在使用HiveContext的時候,DataFrame可以用saveAsTable方法,將數據保存成持久化的表。讀取持久化表時,只需要用表名作為參數,調用SQLContext.table方法即可得到對應DataFrame。掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一首先創建一個Map對象,用于存儲一些save函數需要用到的一些數據,這里將指定保存文件路徑及JSON文件的頭信息從DataFrame對象中選擇出userId,gender和age三列調用save函數保存(2)中的DataFrame數據到copyOfUser.json文件夾中掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一mode函數可以接收的參數有Overwrite、Append、Ignore和ErrorIfExists。Overwrite代表覆蓋目錄下之前存在的數據Append代表給指導目錄下追加數據Ignore代表如果目錄下已經有文件,那就什么都不執行ErrorIfExists代表如果保存目錄下存在文件掌握DataFrame基礎操作將DataFrame保存到一個文件里方法一查看保存結果掌握DataFrame基礎操作將DataFrame保存到一個文件里方法二直接調用save(path:String,source:String,mode:SaveMode)方法掌握DataFrame基礎操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流中心視頻監控系統維護保養方案計劃
- PEP小學英語五年級上冊互動復習計劃
- 圖書館小主持人講故事活動計劃
- 能源項目現場管理機構及勞動力計劃
- 信息技術教研組課程開發計劃
- 三年級數學下冊教師培訓計劃
- 城市小學人教版六年級數學第二學期教學工作計劃
- 六年級上學期班主任學生安全保障工作計劃
- 小學數學課后輔導工作計劃2024
- 共青團團委2025年志愿服務品牌建設總結及2025年工作計劃
- 2024-2025學年度天津鐵道職業技術學院單招《語文》真題附答案詳解(突破訓練)
- 快遞行業市場發展分析及投資前景研究報告2025-2028版
- 2025年育嬰師職業資格考試試題及答案
- 2023年三種人試題附答案
- 北京市八十中學2025屆八年級英語第二學期期中經典試題含答案
- 2024年 金澤鎮專職村務工作者招錄考試真題試題含答案
- 哇哈哈品牌管理制度
- 《基本樂理》師范與學前教育專業基本樂理相關知識全套教學課件
- 2025年內蒙古自治區包頭市東河區第二中學英語八年級第二學期期末復習檢測模擬試題含答案
- 2025年安徽省中考物理試題(原卷版)
- 2025年四川省達州市中考英語真題(原卷版)
評論
0/150
提交評論