大數據技術專題研究_第1頁
大數據技術專題研究_第2頁
大數據技術專題研究_第3頁
大數據技術專題研究_第4頁
大數據技術專題研究_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術專題研究2017.3.3大數據概述1大數據主要技術、廠商、產品2目錄能力儲備分析3討論4大數據概述大數據概念大數據(bigdata)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據概述體量大Volume類型多Variety價值密度低Value速度快Velocity非結構化數據的超大規模和增長總數據量的80~90%比結構化數據增長快10倍到50倍是傳統數據倉庫的10倍到50倍大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統商務智能(咨詢、報告等)實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效大數據的4V特性文件存儲數據分析數據計算數據存儲平臺管理數據集成數據源Database

Web

Log…現代數據處理

能力組件現代數據處理框架

計算存儲}容錯}}大數據概述大數據的三大關鍵問題——存儲、計算、容錯大數據概述大數據產業大數據產業是指一切與支撐大數據組織管理和價值發現相關的企業經濟活動的集合產業鏈環節包含內容IT基礎設施層包括提供硬件、軟件、網絡等基礎設施以及提供咨詢、規劃和系統集成服務的企業,比如,提供數據中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數據源層大數據生態圈里的數據提供者,是生物大數據(生物信息學領域的各類研究機構)、交通大數據(交通主管部門)、醫療大數據(各大醫院、體檢機構)、政務大數據(政府部門)、電商大數據(淘寶、天貓、蘇寧云商、京東等電商)、社交網絡大數據(微博、微信、人人網等)、搜索引擎大數據(百度、谷歌等)等各種數據的來源數據管理層包括數據抽取、轉換、存儲和管理等服務的各類企業或產品,比如分布式文件系統(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數據庫和數據倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數據分析層包括提供分布式計算、數據挖掘、統計分析等服務的各類企業或產品,比如,分布式計算框架MapReduce、統計分析軟件SPSS和SAS、數據挖掘工具Weka、數據可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數據平臺層包括提供數據分享平臺、數據分析平臺、數據租售平臺等服務的企業或產品,比如阿里巴巴、谷歌、中國電信、百度等數據應用層提供智能交通、智慧醫療、智能物流、智能電網等行業應用的企業、機構或政府部門,比如交通主管部門、各大醫療機構、菜鳥網絡、國家電網等大數據概述大數據與云計算、物聯網的關系云計算、大數據和物聯網代表了IT領域最新的技術發展趨勢,三者相輔相成,既有聯系又有區別云計算實現了通過網絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。云計算關鍵技術包括:虛擬化、分布式存儲、分布式計算、多租戶等。云計算大數據概述大數據與云計算、物聯網的關系云計算、大數據和物聯網代表了IT領域最新的技術發展趨勢,三者相輔相成,既有聯系又有區別物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯在一起,形成人與物、物與物相聯,實現信息化和遠程管理控制。物聯網中的關鍵技術包括識別和感知技術(二維碼、RFID、傳感器等)、網絡與通信技術、數據挖掘與融合技術等。物聯網大數據概述大數據與云計算、物聯網的關系大數據概述1大數據主要技術、廠商、產品2目錄能力儲備分析3討論4大數據主要技術技術體系數據可視化技術數據處理技術數據存儲技術數據采集技術數據安全技術系統運維技術大數據主要技術主要技術說明數據采集技術通過ETL抽取、文件適配器、網絡抓取、實時數據采集等多種技術從外部數據源導入結構化數據(關系庫記錄)、半結構化數據(日志、郵件等)、非結構化數據(文件、視頻、音頻、網絡數據流等)及實時數據。數據存儲技術負責進行大數據的存儲,針對全數據類型和多樣計算需求,以海量規模存儲、快速查詢讀取為特征,存儲來自外部數據源的各類數據,支撐數據處理層的高級應用。數據處理技術對多樣化的大數據進行加工、處理、分析、挖掘,產生新的業務價值,發現業務發展方向,提供業務決策依據。數據可視化技術是關于數據之視覺表現形式的研究,主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息數據安全技術解決從大數據環境下的數據采集、存儲、分析、應用等過程中產生的諸如身份驗證、授權過程和輸入驗證等大量安全問題。由于在數據分析、挖掘過程中涉及企業各業務的核心數據,防止數據泄露,控制訪問權限等安全措施在大數據應用中尤為關鍵。系統運維技術全面監測大數據處理全過程中各參與方的整體狀態,支持大數據應用功能的配置化定義,可快速擴展應用功能。技術分類大數據主要技術兩大核心技術分布式存儲分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數據庫)NewSQL(如:SQLAzure)MapReduce大數據大數據主要技術hadoopHDFS(HadoopDistributedFileSystem)sparkopenstackMapReduceStormHPCCNoSqlgfsApacheDrillRapidMinerPentahoBIZookeeper關鍵技術介紹大數據主要技術關鍵技術介紹-Hadoop一個分布式系統基礎架構,由Apache基金會所開發。Hadoop實現了一個分布式文件系統(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統中的數據。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。大數據主要技術關鍵技術介紹-HDFSHadoopDistributedFileSystem,簡稱HDFS[1],是一個分布式文件系統。HDFS有著高容錯性(fault-tolerant)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現流的形式訪問(streamingaccess)文件系統中的數據。HDFS開始是為開源的apache項目nutch的基礎結構而創建,HDFS是hadoop項目的一部分,而hadoop又是lucene的一部分。大數據主要技術關鍵技術介紹-NoSQLNoSQL(NoSQL=NotOnlySQL),意即“不僅僅是SQL”,是一項全新的數據庫革命性運動,早期就有人提出,發展至2009年趨勢越發高漲NoSQL的擁護者們提倡運用非關系型的數據存儲,相對于鋪天蓋地的關系型數據庫運用,這一概念無疑是一種全新的思維的注入??梢蕴幚沓罅康臄祿oSQL對大型企業來說還不是主流。大數據主要技術關鍵技術介紹–其他大數據廠商及產品大數據應用類大數據數據源類大數據基礎設施類大數據分析類大數據廠商及產品1.大數據基礎設施類1)硬件類主要廠商有華為、中興、聯想、浪潮、IBM、HP、戴爾等。2)軟件類基于大數據基礎設施提供云服務的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等。軟件類主要廠商有達夢、南大通用、人大金倉、博曉通等。大數據廠商及產品2.大數據分析類1)分析解決方案在這里,最耀眼的明星當屬Hadoop,Hadoop已被公認為是新一代的大數據處理平臺,Cloudera、Hortonworks、MapR、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。其他還包括HP的Vertica、EMC的GreenplumHD、IBM的BigInsights、用友、久其、永洪科技、星圖數據、北斗天成、智慧圖等。2)數據可視化主要廠商有TeraDataAster、SAS、TableauSoftware、Tibco、EMCGreenplum、海云數據、國云數據、數字冰雹、曼恒數字等。3)精準營銷有騰訊、新浪、搜狐、網易、微眾、迅雷、今日頭條、博易智訊等。4)分析服務提供輿情分析的服務主要有方正、Talkingdata、中科數據、紅麥、拓爾思等。大數據廠商及產品2.大數據分析類-分析解決方案平臺解決方案廠商除去IBM、SAP、Oracle、微軟、惠普國外代表廠商,在國內有星環科技、帆軟軟件、用友、永洪等等。星環科技星環信息科技主要從事大數據時代核心平臺數據庫軟件的研發與服務,被Gartner列為國際主流Hadoop發行版廠商。其產品TranswarpDataHub提供高速SQL引擎TranswarpInceptor,NoSQL搜索引擎TranswarpHyperbase、流處理引擎TranswarpStream和數據挖掘組件TranswarpDiscover。帆軟軟件帆軟軟件由報表軟件FineReport起家,目前已成為報表領域的權威者,擁有10年企業數據分析的行業經驗。后發布的商業智能自助式BI工具FineBI,提供包括Hadoop、分布式數據庫、多維數據庫的大數據可視化分析;提供PC端、移動端、大屏的可視化方案,廣泛應用于銀行、電商、地產、醫藥、制造、電信、制造、化工等行業,擁有成熟的行業化解決方案。大數據廠商及產品2.大數據分析類-數據可視化數字冰雹數字冰雹主營大數據可視化業務,提供集設計、程序開發、硬件集成為一體的解決方案,廣泛應用于航天戰場、智慧城市、網絡安全、企業管理、工業監控等領域。海云數據海云數據的產品——圖易能夠集成用戶內部系統大量結構化、非結構化數據,在真實的數據源上,將行業大數據進行多維度的可視分析。目前主要應用于公安、航空、快消、制造、金融、醫療、信息安全等領域。

星圖數據星圖數據是互聯網大數據服務公司,涉及線上零售、線上娛樂、線上教育等領域。基于分布式大數據獲取與存儲系統進行大數據處理及分析,具有自有的大數據分析體系和云計算處理技術。大數據廠商及產品2.大數據分析類-精準營銷分析大數據技術使得用戶在互聯網的行為,得到精準定位,從而細化營銷方案、快速迭代產品。這方面的廠商有GrowingIO、神策數據等。GrowingIOGrowingIO是基于互聯網的用戶行為數據分析產品,具有無埋點的數據采集技術,可以通過網頁或APP的瀏覽軌跡、點擊記錄和鼠標滑動軌跡等行為數據,進行實時的用戶行為數據分析,用于優化產品體驗,實現精益化運營。神策數據與GrowingIO類似,也是基于用戶網絡行為,采集數據進行分析。技術上提供開放的查詢API和完整的SQL接口,同時與MapReduce和

Spark等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規范的數據。大數據廠商及產品2.大數據分析類-分析服務提供輿情分析的有百度統計、品友互動、Talkingdata、友盟、中科數據等等。百度統計百度統計是專業的網站流量分析工具,和GA類似,提供免費的流量分析、來源分析、網站分析等多種統計分析服務,能夠告訴用戶訪客是如何找到并瀏覽用戶的網站,在網站上做了些什么,以此來改善訪客在用戶的網站上的使用體驗。Talking

DataTalkingData是獨立的第三方移動數據服務品牌。其產品及服務涵蓋移動應用數據統計、移動廣告監測、移動游戲運營、公共數據查詢、綜合數據管理等多款極具針對性的產品及服務。在銀行、互聯網、電商行業有廣泛的數據服務應用。友盟+第三方全域大數據服務提供商,通過全面覆蓋PC、手機、傳感器、無線路由器等多種設備數據,打造全域數據平臺。提供全業務鏈數據應用解決方案,包括基礎統計、運營分析、數據決策和數據業務等,幫助企業實現數據化運營和管理。大數據廠商及產品3.大數據應用類1)商業智能產品BI產品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論