




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
FiveProgrammingLanguagesforBigData
Unit
7TextAContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsPhrasesAbbreviationsListeningtoTextA用于大數據的五種編程語言大數據專業人員必須做出的最重要的決定之一,尤其是對于那些剛進圈子或剛剛起步的人來說,就是為大數據操作和分析選擇最佳的編程語言。如今,僅了解大數據問題并構筑架構以解決該問題還遠遠不夠,也要完美執行,而且選擇正確的語言任重而道遠。以下是大數據最常用的五種編程語言。1.Python根據最近舉行的StackOverflow開發人員調查,Python已被宣布為2018年增長最快的編程語言之一。它的通用性意味著它可以廣泛使用于各種用例中,大數據編程是應用程序的一個主要領域。大數據框架中越來越多地使用許多用于數據分析和處理的庫來清洗和處理大塊數據,例如pandas、NumPy、SciPy都是基于Python的。不僅如此,大多數流行的機器學習和深度學習框架(例如scikit-learn、Tensorflow等)也都使用Python編寫,并且正在大數據生態系統中得到越來越多的應用。使用Python的一個缺點是它運行緩慢,這也是為什么它在大數據編程方面還不是一流選手的原因。盡管非常易于使用,但大數據專業人員發現使用Java或Scala等語言構建的系統比使用Python構建的系統更快速、更強大。參考譯文但是,Python用其他質量彌補了這一限制。由于Python主要是一種腳本語言,因此交互式編碼和大數據分析解決方案的開發變得非常容易。Python可以輕松地與現有的大數據框架(例如ApacheHadoop和ApacheSpark)集成,從而使你能夠大規模執行預測分析。為什么我們將Python用于大數據??它是通用的。?擁有豐富的數據分析和機器學習庫。?它容易使用。?它支持迭代開發。?它集成了豐富的大數據工具。?通過Jupyter筆記本進行交互式計算。參考譯文參考譯文2.R喜歡統計的人就喜歡R,很多人對此并不會感到驚訝。R被普遍稱為“統計語言”,用于建立有效而準確的數據分析的數據模型。在大型R包存儲庫(CRAN,也稱為綜合R存檔網絡)的支持下,使用R,你幾乎擁有完成大數據處理中的任何任務的所有類型的工具——從分析到數據可視化。R可以與ApacheHadoop和ApacheSpark以及其他流行框架無縫集成,用于大數據處理和分析。使用R作為大數據編程語言的一個問題是它不是很通用。這意味著用R編寫的代碼不可用于產品部署,并且通常必須轉換為某些其他編程語言,例如Python或Java。也就是說,如果你的目標只是為大數據分析構建統計模型,那么你絕對應該考慮使用R。為什么我們將R用于大數據??它是為數據科學而構建的。?它支持Hadoop和Spark。?它具有強大的統計建模和可視化功能。?它支持Jupyter筆記本。3.Java老伙計Java總是很棒。一些傳統的大數據框架(例如ApacheHadoop)及其生態系統中的所有工具都是基于Java的,如今它們仍在許多企業中使用。更不用說Java是迄今為止我們討論過的所有語言中最穩定和最現成的語言!使用Java開發大數據應用程序使你能夠使用大型的工具和庫生態系統來實現互操作性、監控以及更多功能,其中大多數已經過嘗試和測試。Java的主要缺點之一是冗長。你必須用Java編寫數百行代碼來完成一項任務,而該任務用Python或Scala幾乎只編寫15-20行代碼就行了,這一事實可能會使許多新手程序員望而卻步。但是,在Java8中引入lambda函數確實使生活變得更加輕松。與Python等較新的語言不同,Java不支持迭代開發,這是將來的Java版本關注的領域。盡管Java存在缺陷,但在大數據編程的首選語言方面它仍然是強大的競爭者。為什么我們將Java用于大數據??傳統的大數據工具和框架是用Java編寫的。?穩定且現成。?它是一個由久經考驗的工具和庫組成的大型生態系統。
參考譯文4.GoGo是最近發展最快的編程語言之一。由一群對C++感到沮喪的谷歌工程師設計,我們認為Go在此列表中是一個不錯的選擇,這僅僅是因為它支持大數據基礎架構中使用的許多工具,包括Kubernetes、Docker等。Go快速、易學且易用。更重要的是,隨著企業希望構建可大規模運行的數據分析系統,基于Go的系統已用于集成機器學習和數據的并行處理。還可以相對輕松地將其他語言與基于Go的系統進行接口。為什么我們將Go用于大數據??快速且易于使用。?大數據基礎架構中使用的許多工具都是基于Go的。?具有高效的分布式計算。參考譯文參考譯文5.Scala最后但并非最不重要的是Scala。Scala是面向對象和函數式編程范式的完美結合,它既快速又健壯,是許多大數據專業人士常用的語言選擇。事實上,在ApacheSpark和ApacheKafka中兩個最受歡迎的大數據處理框架構建在Scala之上,這可告訴你有關Scala功能的所有信息。Scala在JVM上運行,這意味著用Scala編寫的代碼可以在基于Java的大數據生態系統中輕松使用。不過,使Scala與Java不同的一個重要因素是,相比之下,Scala要簡潔得多。你可以在Scala中用不到15行來編寫數百行看上去令人困惑的Java代碼。但是,與Go和Python之類的語言相比,Scala的不利方面是其陡峭的學習曲線,這可能會使初學者不愿使用它。為什么我們將Scala用于大數據??它快速而強大。?它適合與ApacheSpark等大數據工具一起用于分布式大數據處理。?它適用于JVM,可以在基于Java的生態系統中使用。你可能還需要考慮其他幾種語言——Julia、SAS和MATLAB是一些主要的語言,它們本身就很有用。但是,與我們上面討論的語言相比,我們認為它們在某些方面有所欠缺——無論在速度、效率、易用性、文檔還是社區支持等方面。現在出現的問題是:你應該選擇哪種語言?這完全取決于你要做什么。如果你的重點是涉及大量統計計算的核心數據分析,那么R將是你的首選語言。另一方面,如果你想為大數據開發流應用程序,Scala可能是一個更好的選擇。如果你希望使用機器學習并構建預測模型,那么Python將助你一臂之力。最后,如果你打算僅使用傳統上可用的工具來構建大數據解決方案,那么Java是適合你的語言。你還可以選擇結合兩種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 宴會部維修管理制度
- 家電維修隊管理制度
- 應急醫療包管理制度
- 當當網公司管理制度
- 影視劇公司管理制度
- 心電圖規培管理制度
- 快遞站各項管理制度
- 怎樣對租戶管理制度
- 患者安全與管理制度
- 成品庫班長管理制度
- 2025年高考真題-語文(全國一卷) 無答案
- 兵團開放大學2025年春季《公共關系學》終結考試答案
- 2025年中考語文押題作文范文10篇
- 拆遷名額轉讓協議書
- 2025年初中學業水平考試地理試卷(地理學科核心素養)含答案解析
- 《重大電力安全隱患判定標準(試行)》解讀與培訓
- 《人工智能基礎與應用》課件-實訓任務18 構建智能體
- 人工智能筆試題及答案
- 2025-2030進口肉類市場發展分析及行業投資戰略研究報告
- 山西省臨汾市侯馬市部分學校2025年中考二模化學試題(原卷版+解析版)
- 海洋牧場建設項目可行性研究報告
評論
0/150
提交評論