



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Spark文檔翻譯提交應用程序(v1.2.0)翻譯者ErnestSpark文檔翻譯團成員Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!前言伴隨著大數據相關技術和產業的逐步成熟,繼 Hadoop 之后,Spark 技術以集大成的無可比擬的優勢,發展迅速,將成為替代 Hadoop 的下一代云計算、大數據技術。Spark 是大數據領域最活躍最熱門的高效大數據通用計算平臺,基于 RDD,Spark的構建起了、多元化的大數據處理體系,在“One Stack to rule them的使用 Spark SQL、Spark Streaming、ML
2、Lib、GraphXall”思想的引領下,Spark近乎完美的解決了大數據中 Batch Processing、Streaming Processing、Ad-hocQuery 等三大問題,更為美妙的是在 Spark 中 Spark SQL、Spark Streaming、MLLib、GraphX 四大子框架和庫之間可以無縫的共享數據和操作,這是據平臺都無可匹敵的優勢。任何大數在實際的生產環境中,世界上已經出現很多一千個以上節點的 Spark 集群,以 eBay為例,eBay 的 Spark 集群節點已經超過 2000 個,Yahoo!等公司也在大規模的使用Spark,國內的淘寶、騰訊、網易、
3、京東、大眾點評、優酷土豆等也在生產環境下深度使用 Spark。2014 Spark Summit 上的信息,Spark 已經獲得世界 20 家頂級公司的支持,這些公司中包括 Intel、IBM 等,同時更重要的是包括了最大的四個Hadoop商,都提供了對 Spark 非常強的支持。與 Spark 火爆程度形成鮮明對比的是 Spark的嚴重稀缺,這一情況在中國尤其嚴重,這種的稀缺,一方面是由于 Spark 技術在 2013、2014 年才在國內的一些大型企業里面被逐步應用,另一方面是由于匱乏 Spark 相關的中文資料和系統化的培訓。為此,Spark 亞太和 51CTO推出了“Spark 亞太決
4、勝大數據時代 100 期公益大講堂”,來推動 Spark 技術在國內的普及及落地。具體信息請參考與此同時,為了向 Spark 學習者提供更為豐富的學習資料,Spark 亞太去年8 月發起并號召,結合社區的構建了 Spark 中文文檔翻譯團隊,翻譯了Spark 中文文檔 V1.1.0 版本。2014 年 12 月,Spark本,為了讓學習者了解到最新的內容,Spark 中文文檔版本進行了部分更新,在此,我謹代表 Spark 亞太團隊發布了 Spark 1.2.0 版翻譯團隊又對 Spark 1.2.0及廣大 Spark 學習者向翻譯團隊所有成員熱情而專業的工作致以深刻的敬意!當然,作為相對系統的
5、 Spark 中文文檔,不足之處在所難免,大家有任何建議或者2 / 12TEL: 4006-998-758Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!意見都可以發郵件到 ;同時如果您想加入 Spark 中文文檔翻譯團隊,也請發郵件到 進行申請;Spark 中文文檔的翻譯是一個持續更新的、不斷版本迭代的過程,我們會盡全力給大家提供更高質量的 Spark 中文文檔翻譯。最后,也是最重要的,請我榮幸的一下我們的 Spark 中文文檔 1.2.0 版本翻譯的團隊成員,
6、他們分別是(排名不分先后):, 快速開始(v1.2.0)舟,Spark學習庫 (v1.2.0)武揚,在 Yarn 上運行 Spark (v1.2.0)Spark 調優(v1.2.0),Spark 配置(v1.2.0)Spark 作業調度(v1.2.0),Bagel 編程指南(v1.2.0)harli,Spark 編程指南 (v1.2.0),Spark SQL 編程指南(v1.2.0),文檔首頁(v1.2.0),Spark 實時流處理編程指南(v1.2.0),使用 Maven 編譯 Spark(v1.2.0)王之,給 Spark 提交代碼(v1.2.0)Ernest,集群模式概覽(v1.2.0)
7、程序(v1.2.0)與相關工具(v1.2.0)提交應用Life is short, You need Spark!Spark 亞太院長2015 年 2 月3 / 12翻譯者:ErnestSpark文檔翻譯團成員Spark 亞太Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!Spark 亞太決勝大數據100 期公益大講堂簡介作為下一代云計算的技術,Spark 性能超 Hadoop 百倍,算法實現僅有其 1/10或 1/100,是可以Hadoop 的目前唯一替代者,能夠做 Hadoop 做的一切事情,同時速度比Hadoop 快了 100 倍
8、以上。目前 Spark 已經構建了的整個大數據處理生態系統,國外一些大型互聯網公司已經部署了 Spark。甚至連 Hadoop 的早期主要貢獻者Yahoo 現在也在多個項目中部署使用 Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊、皮皮網等已經使用 Spark 技術用于的商業生產系統中,國內外的應用開始越來越廣泛。Spark 正在逐漸成熟,并在這個領域扮演更加重要的, 剛剛結束的2014 Spark Summit 上的信息,Spark 已經獲得世界 20 家頂級公司的支持,這些公司中包括 Intel、IBM 等,同時更重要的是包括了最大的四個 Hadoop商都提供了對非常強的支持 S
9、park 的支持.鑒于 Spark 的巨大價值和潛力,同時由于國內極度缺乏Spark,Spark 亞太在完成了對 Spark 源碼的徹底研究的同時,不斷在實際環境中使用 Spark 的各種特性的基礎之上,推出了 Spark 亞太決勝大數據100 期公益大講堂,希需求的企業和望能夠幫助大家了解Spark 的技術。同時,對Spark培養個人,以公開課和企業內訓的方式,來幫助大家進行 Spark 技能的提升。同樣,我們也為企業提供Spark 亞太的顧問式服務及Spark 一站式項目解決方案和實施方案。決勝大數據100 期公益大講堂是國內第一個 Spark 課程免講座,每周一期,從 7 月份起,每周四
10、晚 20:00-21:30,與大家不見不散!將就Spark 內核剖析、源碼解讀、性能優化及商業實戰案例等貨不容錯過!內容與大家,干時間:從 7 月份起,每周一期,每周四晚 20:00-21:30形式:騰訊課堂學習條件:對云計算大數據感課程學習地址:的技術4 / 12TEL: 4006-998-758Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!提交應用程序(v1.2.0)(翻譯者:Ernest)Submitting Applications,原文檔:目錄1.提交應用程序62.綁定應用程序的相關依賴63.使用 spark-submit
11、提交程序64.Master 地址85.通過文件加載配置96.高級依賴管理97.信息95 / 12翻譯者:ErnestSpark文檔翻譯團成員Spark 亞太Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!1.提交應用程序Spark 的bin 目錄中的 spark-submit 被用于向集群中提交應用程序。該保證了無論底層的cluster 組織模式cluster managers 有何差異,提交作業時都有相同的接口,而不必進行單獨的配置.2.綁定應用程序的相關依賴如果應用程序依賴于其它項目,這些項目應該和應用程序一同打包,進而分發到 Sp
12、ark集群中。可以打包進一個包含你編寫的應用程序和依賴的集合jar 文件。sbt 及 Maven 都有用于assembly 的插件。當創建這些集合jar 文件時,將Spark 和Hadoop 標為已提供 provided 的依賴;因為此類依賴在運行時會被集群所提供。當打包好jar 文件后,可以使用bin/spark-submit向集群提交jar 文件。對于使用Python 的用戶,可以使用 spark-submit 的-py-files 選項來添加.py, .zip 或 .egg 文件以隨著應用程序被一同分發到集群中。如果依賴于多個 Python 文件,推薦使用.zip 或.egg 文件進行打
13、包。3.使用 spark-submit 提交程序打包好應用程序后,可以使用bin/spark-submit提交應用程序。該負責設置所需的類路徑(classpath)以及依賴,該可用于Spark 所支持所有集群部署模式。./bin/spark-submit -class <main-class>-master <master-url> -deploy-mode <deploy-mode> -conf <key>=<value> . # other options<application-jar> application-ar
14、guments6 / 12TEL: 4006-998-758Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!常用的選項如下:· -class: 應用程序的(e.g. org.apache.spark.examples.SparkPi)· -master: 集群中 master URL 節點的URL (e.g. spark:/87:7077)· -deploy-mode: 是否將driver 部署到worker 節點 (cluster 模式) 或者將driver作為一個外部的client
15、 (client 模式) (default:client)*· -conf: 額外的Spark 配置選項(采用key=value 格式)。對于 value 中包含空格的情況,請使用引號包裹,例如“key=value”。· application-jar: 打包的包含了相關依賴的jar 文件的路徑。該地址應該對集群可見, 例如 hdfs:/ 或者 file:/ 地址。· application-arguments: 傳送給應用程序main 函數的參數。*常見的部署策略是從一個與worker物理上相近的上提交應用程序(例如Standalone 模式時EC2 集群上的
16、master 節點)。在這種情況下 client 更為合適。client 模式下,driver 直接在 spark-submit 程序中啟動,應用程序相關的輸入輸出與所在的console 相。client 模式同樣很適合運行在REPL(e.g. Spark shell)中的應用程序。如果應用程序在一個遠離worker 集群的節點上提交(例如本地的筆記本),此時適合使用 cluster 模式以減少driver 和 executor 之間的延遲。注意,當前 cluster 模式不適用于 standalone 集群,Mesos 集群或Python 程序。對于Python 程序,使用 .py 文件的位
17、置取代 <application-jar> ,并添加所需的 .zip, .egg or .py 文件的搜索路徑到 -py-files.可以通過使用 -help 選項以查看 spark-submit 支持的所有選項。以下示例給出了常用選項。# Run application locally on 8 cores./bin/spark-submit -class org.apache.spark.examples.SparkPi -master local8 /path/to/examples.jar 100# Run on a Spark standalone cluster./bi
18、n/spark-submit -class org.apache.spark.examples.SparkPi -master spark:/38:7077 -executor-memory 20G -total-executor-cores 100 7 / 12翻譯者:ErnestSpark文檔翻譯團成員Spark 亞太Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!/path/to/examples.jar 1000# Run on a YARN clusterexport HADOOP_CONF_DIR=
19、./bin/spark-submit -class org.apache.spark.examples.SparkPi -master yarn-cluster # can also be yarn-client for client mode-executor-memory 20G -num-executors 50 /path/to/examples.jar 1000# Run a Python application on a cluster./bin/spark-submit -master spark:/38:7077 examples/src/main/p
20、ython/pi.py 10004.Master 地址傳送到Spark 的master 的地址可以使用如下格式:Master URLlocal localKlocal*含義在本地以一個worker 運行Spark(完全沒有并行) 在本地以 K 個worker 運行Spark(通常將 K 設置為上的核數)自動根據本地上的核數確定worker 的數目連接到已有的 Standalone 模式的 Spark 集群,端中指定的master 的端口,默認為 7077為配置文件spark:/HOST:PORTmesos:/HOST:PORT 連接到已有的 Mesos 模式下的 Spark 集群。 默認端為
21、5050.對于使用到ZooKeeper 的Mesos 集群,使用 mesos:/zk:/.以client 模式連接到 YARN 集群。通過查找HADOOP_CONF_DIR確定集群的地址以 cluster 模式連接到 YARN 集群。通過 HADOOP_CONF_DIR 確定集群的地址yarn-clientyarn-cluster8 / 12TEL: 4006-998-758Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!5.通過文件加載配置spark-submit可以通過配置文件向應用程序中加載配置 Spark configurati
22、on values 。默認情況下,會Spark 目錄下的conf/spark-defaults.conf 文件,查看loading default configurations 以了解細節。通過默認的Spark 配置可以消除每次使用spark-submit 時附帶一系列配置標志。例如,如果配置了 spark.master ,則不必在使用spark-submit 時附帶-master。在SparkConf 中配置的參數具有最高的優先級,其次是傳送到 spark-submit中的配置參數。的參數,接著是配置文件如果不清楚配置參數從何而來,可以通過使用 spark-submit 的 -verbose
23、 選項以打印出細粒度的調試信息。6.高級依賴管理使用 spark-submit 時, 所有通過 -jars 指定的jar 文件會被自動傳送到集群中。Spark可以使用如下的URL 格式:· file: - 指明jar 文件的 file:/ 類型的地址,其它 executor 節點通過 HTTP server 拉取文件。· hdfs:, http:, https:, ftp: - 通過相應協議拉取 JAR 文件。· local: - 以local:/開頭的地址表明文件存在于每個worker 節點的本地。這意味著不需要通過傳送這類文件,同樣適用于NFS、Gluster
24、FS 等集群。JAR 及相關文件被拷貝到executor 節點的工作目錄。這會使得工作目錄的空間占用顯著增長,需要時進行。使用 YARN 時是自動進行的,使用 Standalone 模式時,可以通過配置 spark.worker.cleanup.appDataTtl 來實現自動。使用Python 時,可以用 -py-files 傳送 .egg, .zip and .py 到executor 上去。7.信息9 / 12翻譯者:ErnestSpark文檔翻譯團成員Spark 亞太Spark文檔翻譯提交應用程序(v1.2.0)Life is short, you need spark!當部署程序后, cluster mode overview 給出了系統中的相關組件的解釋,以及關于如何和調試應用程序的信息。Spark 亞太Spark 亞太是中國最專業的一站式大數據 Spark 解決方案供應商和高品質大數據企業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年醫療影像云市場分析報告
- 2025年市場可行性分析報告
- 民用爆破器材買賣合同(16篇)
- 2025年貓砂市場分析研究報告
- 咨詢服務合同書(11篇)
- 688048長光華芯2024年三季度財務分析結論報告
- 2025年中國節水灌溉市場研究及投資建議預測報告
- 音樂版權合作協議書格式
- 無償使用租車協議7篇
- 廣場建設工程施工承包合同5篇
- 綠色建筑驗收自評報告全
- GB/T 42288-2022電化學儲能電站安全規程
- 第十二講 建設社會主義生態文明PPT習概論2023優化版教學課件
- 工商管理實習周記十篇
- 幼兒園體育游戲活動評價表
- 醫療衛生系統招聘《醫學基礎知識》備考題庫資料寶典(核心題版)
- 使用說明書儀表8530d技術手冊
- 星球版七年級地理上冊《海陸變遷》《火山噴發》實驗說課 課件
- 五金工具零售規章制度
- GB/T 8312-2013茶咖啡堿測定
- GA/T 1217-2015光纖振動入侵探測器技術要求
評論
0/150
提交評論