《內存大數據計算框架-Spark》課件_第1頁
《內存大數據計算框架-Spark》課件_第2頁
《內存大數據計算框架-Spark》課件_第3頁
《內存大數據計算框架-Spark》課件_第4頁
《內存大數據計算框架-Spark》課件_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五章

內存大數據計算框架Spark5.1

Spark簡介5.2

Spark部署5.3

Spark配置5.4

Spark

RDD習題5.5

Spark

Shell第五章內存大數據計算框架Spark5.1Spark簡介5.1Spark簡介第五章內存大數據計算框架Spark美國加州大學伯克利分校的AMP實驗室在2010年發布的一個快速、通用的開源大數據處理引擎與Hadoop平臺類似,提供更高效、更快的數據處理,兼容Hadoop生態當前主流的數據分析、數據流式處理、機器學習平臺之一5.1Spark簡介第五章內存大數據計算框架Spark美Spark特性多種類數據處理支持豐富、靈活的編程接口高效、高性能的批處理靈活、易用的編程模型批處理、流失處理、迭代計算(機器學習、圖計算)、交互式查詢編程語言:Java、Scala、Python、R、SQL交互式數據處理:

Spark

Shell、PySpark、Spark

SQL

CLI高效利用內存處理數據;計算中間結果不需要存儲到文件系統;作業調度的優化第五章內存大數據計算框架SparkDAG編程模型豐富了map,reduce操作接口,增加了filter、flatMap、union等操作接口5.1Spark簡介多數據源支持HDFS、Hive、HBase、Parquet等Spark多種類數據處理支持豐富、靈活的編程接口高效、高性能第五章內存大數據計算框架Spark5.1Spark簡介Spark生態系統BDAS第五章內存大數據計算框架Spark5.1Spark簡介S第五章內存大數據計算框架Spark5.1Spark簡介Spark應用程序架構第五章內存大數據計算框架Spark5.1Spark簡介S第五章內存大數據計算框架Spark5.1Spark簡介有向無環圖的階段劃分A----groupBy-->BC----map------>DD,E--union----->FB,F---join------>GRDD的轉化:第五章內存大數據計算框架Spark5.1Spark簡介有第五章

內存大數據計算框架Spark5.2

Spark部署5.1

Spark簡介5.3

Spark配置5.4

Spark

RDD習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.2Spark部署5.2Spark部署第五章內存大數據計算框架Spark準備工作1)安裝JDK2)下載Spark5.2Spark部署第五章內存大數據計算框架Spark準5.2Spark部署第五章內存大數據計算框架SparkSpark單節點部署1)選擇一臺Linux機器,安裝JDK2)下載Spark包文件,并解壓3)運行測試程序(計算圓周率)/bin/run-exampleSparkPi102>/dev/null

5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的架構5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的規劃5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的部署步驟1)配置Linux機器,調通網絡,關閉防火墻2)創建用戶dtadmin3)配置host文件4)安裝JDK5)配置免密碼登錄6)下載、解壓Spark安裝包7)配置slaves文件8)執行啟動腳本,啟動集群9)驗證安裝是否成功10)提交測試程序5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—高可用集群1)增加備用Master節點實現高可用集群2)配置Master節點本地文件系統恢復5.2Spark部署第五章內存大數據計算框架SparkS第五章

內存大數據計算框架Spark5.3

Spark配置5.1

Spark簡介5.2

Spark部署5.4

Spark

RDD習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.3Spark配置5.3Spark配置第五章內存大數據計算框架Spark三種配置1)Spark屬性應用程序相關配置2)環境變量機器相關配置3)日志配置日志開關、級別等5.3Spark配置第五章內存大數據計算框架Spark三5.3Spark配置第五章內存大數據計算框架SparkSpark屬性,優先級由低到高:1)spark-defaults.conf配置文件2)命令行參數3)SparkConf對象5.3Spark配置第五章內存大數據計算框架SparkS5.3Spark配置第五章內存大數據計算框架Spark常用Spark屬性屬性名默認值含義

(none)Spark應用程序的名稱

spark.driver.cores

1集群模式下driver所使用的core的數量

spark.driver.memory

1G

Driver進程所使用的內存大小

spark.executor.memory

1G

每個executor進程所使用的內存大小

spark.master

(none)集群管理器URL

spark.submit.deployMode

(none)Driver程序的部署模式,取值為:”client”或”cluster”

5.3Spark配置第五章內存大數據計算框架Spark常5.3Spark配置第五章內存大數據計算框架Spark常用環境變量配置配置項含義SPARK_LOCAL_IP

綁定的IP地址

SPARK_PUBLIC_DNS

Driver程序使用的DNS服務器

SPARK_CLASSPATH額外追加的classpath

5.3Spark配置第五章內存大數據計算框架Spark常第五章

內存大數據計算框架Spark5.4

Spark

RDD5.1

Spark簡介5.2

Spark部署5.3

Spark配置習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.4SparkR

RDD特性只讀彈性分布數據集合分布式存儲一旦生成便不可修改,易于同步處理數據的分片可以自定義與編程語言中的集合類似第五章內存大數據計算框架Spark切分為多個數據塊,分散存儲在多個節點中5.4SparkRDD可重新計算在出現異常錯誤的情況下能夠重新計算出可持久化可緩存,避免重復計算RDD只讀彈性分布數據集合分布式存儲一旦生成便不可修改,易5.4Spark

RDD第五章內存大數據計算框架Spark常用RDD轉換操作RDD轉換含義map(func)

通過函數func對數據集中的每個成員進行轉換

filter(func)

通過函數func選擇過濾數據集中的成員

flatMap(func)

和map轉換類似,但函數func可以把單個成員轉換為多個成員。

union(other)

返回當前集合與otherDataset集合的union操作

distinct

去掉集合中重復成員,使新的集合中成員各不相同

groupByKey

對鍵-值(key-value)對集合按照鍵(key)進行groupBy操作

sortByKey

對鍵-值(key-value)對集合進行排序

join(other)

對兩個鍵-值(key-value)對集合:(K,V),(K,W)進行連接操作,形成新的鍵-值對集合:(K,(V,W))

5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD依賴關系:RDD轉換生成新的RDD,新的RDD依賴于舊的形成依賴關系1)窄依賴父RDD的每個分區最多被一個子RDD分區所依賴2)寬依賴

子RDD的每個分區都依賴于父RDD的所有分區或多個分區按照RDD分區的依賴關系可分為兩種類型:5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD窄依賴第一類第二類5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD寬依賴5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架Sparkof3025RDD行動操作(Action)Action含義collect

返回RDD中的所有元素

count

返回RDD中元素的數量

countByKey

計算鍵-值對RDD每個鍵(key)對應的元素個數

first

返回RDD中第一個元素

take(n)

返回RDD中前n個元素

reduce(func)

通過函數func對RDD進行聚合操作

saveAsTextFile(path)

把RDD保存為一個文本文件,可以選擇保存在本地文件系統、HDFS等。文件中的一行為RDD中的一個元素

foreach(func)

通過函數func對RDD中的每個元素進行計算,通常在更新累加器或者使用外部存儲系統時用到

5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD作業的執行

RDD的轉換是惰性的(lazy),遇到Action時才會執行5.4SparkRDD第五章內存大數據計算框架Spar第五章

內存大數據計算框架Spark5.5

Spark

Shell5.1

Spark簡介5.2

Spark部署5.3

Spark配置習題5.4

Spark

RDD大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.5SparkS5.5Spark

Shell第五章內存大數據計算框架Spark交互式數據分析工具,適用于: 1)快速數據分析 2)快速原型開發

3)學習Spark

API5.5SparkShell第五章內存大數據計算框架Sp第五章

內存大數據計算框架Spark習題5.1

Spark簡介5.2

Spark部署5.3

Spark配置5.5SparkShell5.4

Spark

RDD大數據應用人才培養系列教材第五章內存大數據計算框架Spark習題5.1Spark1.Spark集群有哪幾種模式?2.Standalone集群中的Master節點和Slave節點分別負責什么功能?3.Spark-submit腳本的功能是什么?4.分布式彈性數據集RDD的特點有哪些?5.列舉三個RDD轉換操作,并描述其功能。6.列舉三個RDD行動操作,并描述其功能。習題:1.Spark集群有哪幾種模式?習題:感謝聆聽感謝聆聽第五章

內存大數據計算框架Spark5.1

Spark簡介5.2

Spark部署5.3

Spark配置5.4

Spark

RDD習題5.5

Spark

Shell第五章內存大數據計算框架Spark5.1Spark簡介5.1Spark簡介第五章內存大數據計算框架Spark美國加州大學伯克利分校的AMP實驗室在2010年發布的一個快速、通用的開源大數據處理引擎與Hadoop平臺類似,提供更高效、更快的數據處理,兼容Hadoop生態當前主流的數據分析、數據流式處理、機器學習平臺之一5.1Spark簡介第五章內存大數據計算框架Spark美Spark特性多種類數據處理支持豐富、靈活的編程接口高效、高性能的批處理靈活、易用的編程模型批處理、流失處理、迭代計算(機器學習、圖計算)、交互式查詢編程語言:Java、Scala、Python、R、SQL交互式數據處理:

Spark

Shell、PySpark、Spark

SQL

CLI高效利用內存處理數據;計算中間結果不需要存儲到文件系統;作業調度的優化第五章內存大數據計算框架SparkDAG編程模型豐富了map,reduce操作接口,增加了filter、flatMap、union等操作接口5.1Spark簡介多數據源支持HDFS、Hive、HBase、Parquet等Spark多種類數據處理支持豐富、靈活的編程接口高效、高性能第五章內存大數據計算框架Spark5.1Spark簡介Spark生態系統BDAS第五章內存大數據計算框架Spark5.1Spark簡介S第五章內存大數據計算框架Spark5.1Spark簡介Spark應用程序架構第五章內存大數據計算框架Spark5.1Spark簡介S第五章內存大數據計算框架Spark5.1Spark簡介有向無環圖的階段劃分A----groupBy-->BC----map------>DD,E--union----->FB,F---join------>GRDD的轉化:第五章內存大數據計算框架Spark5.1Spark簡介有第五章

內存大數據計算框架Spark5.2

Spark部署5.1

Spark簡介5.3

Spark配置5.4

Spark

RDD習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.2Spark部署5.2Spark部署第五章內存大數據計算框架Spark準備工作1)安裝JDK2)下載Spark5.2Spark部署第五章內存大數據計算框架Spark準5.2Spark部署第五章內存大數據計算框架SparkSpark單節點部署1)選擇一臺Linux機器,安裝JDK2)下載Spark包文件,并解壓3)運行測試程序(計算圓周率)/bin/run-exampleSparkPi102>/dev/null

5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的架構5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的規劃5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—Standalone模式集群的部署步驟1)配置Linux機器,調通網絡,關閉防火墻2)創建用戶dtadmin3)配置host文件4)安裝JDK5)配置免密碼登錄6)下載、解壓Spark安裝包7)配置slaves文件8)執行啟動腳本,啟動集群9)驗證安裝是否成功10)提交測試程序5.2Spark部署第五章內存大數據計算框架SparkS5.2Spark部署第五章內存大數據計算框架SparkSpark集群點部署—高可用集群1)增加備用Master節點實現高可用集群2)配置Master節點本地文件系統恢復5.2Spark部署第五章內存大數據計算框架SparkS第五章

內存大數據計算框架Spark5.3

Spark配置5.1

Spark簡介5.2

Spark部署5.4

Spark

RDD習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.3Spark配置5.3Spark配置第五章內存大數據計算框架Spark三種配置1)Spark屬性應用程序相關配置2)環境變量機器相關配置3)日志配置日志開關、級別等5.3Spark配置第五章內存大數據計算框架Spark三5.3Spark配置第五章內存大數據計算框架SparkSpark屬性,優先級由低到高:1)spark-defaults.conf配置文件2)命令行參數3)SparkConf對象5.3Spark配置第五章內存大數據計算框架SparkS5.3Spark配置第五章內存大數據計算框架Spark常用Spark屬性屬性名默認值含義

(none)Spark應用程序的名稱

spark.driver.cores

1集群模式下driver所使用的core的數量

spark.driver.memory

1G

Driver進程所使用的內存大小

spark.executor.memory

1G

每個executor進程所使用的內存大小

spark.master

(none)集群管理器URL

spark.submit.deployMode

(none)Driver程序的部署模式,取值為:”client”或”cluster”

5.3Spark配置第五章內存大數據計算框架Spark常5.3Spark配置第五章內存大數據計算框架Spark常用環境變量配置配置項含義SPARK_LOCAL_IP

綁定的IP地址

SPARK_PUBLIC_DNS

Driver程序使用的DNS服務器

SPARK_CLASSPATH額外追加的classpath

5.3Spark配置第五章內存大數據計算框架Spark常第五章

內存大數據計算框架Spark5.4

Spark

RDD5.1

Spark簡介5.2

Spark部署5.3

Spark配置習題5.5

Spark

Shell大數據應用人才培養系列教材第五章內存大數據計算框架Spark5.4SparkR

RDD特性只讀彈性分布數據集合分布式存儲一旦生成便不可修改,易于同步處理數據的分片可以自定義與編程語言中的集合類似第五章內存大數據計算框架Spark切分為多個數據塊,分散存儲在多個節點中5.4SparkRDD可重新計算在出現異常錯誤的情況下能夠重新計算出可持久化可緩存,避免重復計算RDD只讀彈性分布數據集合分布式存儲一旦生成便不可修改,易5.4Spark

RDD第五章內存大數據計算框架Spark常用RDD轉換操作RDD轉換含義map(func)

通過函數func對數據集中的每個成員進行轉換

filter(func)

通過函數func選擇過濾數據集中的成員

flatMap(func)

和map轉換類似,但函數func可以把單個成員轉換為多個成員。

union(other)

返回當前集合與otherDataset集合的union操作

distinct

去掉集合中重復成員,使新的集合中成員各不相同

groupByKey

對鍵-值(key-value)對集合按照鍵(key)進行groupBy操作

sortByKey

對鍵-值(key-value)對集合進行排序

join(other)

對兩個鍵-值(key-value)對集合:(K,V),(K,W)進行連接操作,形成新的鍵-值對集合:(K,(V,W))

5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD依賴關系:RDD轉換生成新的RDD,新的RDD依賴于舊的形成依賴關系1)窄依賴父RDD的每個分區最多被一個子RDD分區所依賴2)寬依賴

子RDD的每個分區都依賴于父RDD的所有分區或多個分區按照RDD分區的依賴關系可分為兩種類型:5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD窄依賴第一類第二類5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架SparkRDD寬依賴5.4SparkRDD第五章內存大數據計算框架Spar5.4Spark

RDD第五章內存大數據計算框架Sparkof3056RDD行動操作(Action)Action含義collect

返回RDD中的所有元素

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論