




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄7.1以匠心致創新7.27.3應用場景應用實例:天貓大數據大數據相關知識7.3大數據相關知識目標1、大數據的特征2、大數據關鍵技術3、大數據與云計算、物聯網的關系重點1、大數據的特征2、大數據與云計算、物聯網的關系難點無1、大數據的特征大數據的價值1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷2)做小而美模式的中小微企業可以利用大數據做服務轉型3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值什么是大數據?大家比較認可關于大數據的4個“V”,或者說是大數據的4個特點,包含4個層面:數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)。1、大數據的特征數據量大從1986年到2010年的20多年時間里,全球的數據量增長了100倍。人類社會產生的數據一直都在以每年50%的速度增長,預計到2020年,全球將總共擁有35ZB的數據量,與2010年相比,數據量將增長到近30倍。數據存儲單位之間的換算關系單位換算關系Byte(字節)1Byte=8bitKB(Kilobyte,千字節)1KB=1024ByteMB(Megabyte,兆字節)1MB=1024KBGB(Gigabyte,吉字節)1GB=1024MBTB(Trillionbyte,太字節)1TB=1024GBPB(Petabyte,拍字節)1PB=1024TBEB(Exabyte,艾字節)1EB=1024PBZB(Zettabyte,澤字節)1ZB=1024EB1、大數據的特征大數據存儲方式(1)分布式系統:分布式系統包含多個自主的處理單元,通過計算機網絡互連來協作完成分配的任務,其分而治之的策略能夠更好的處理大規模數據問題。(2)NoSQL數據庫:關系型的數據庫無法滿足海量數據的管理需求,無法滿足數據高并發的需求、高可擴展性和高可用性的功能太低。而NoSQL數據庫則具有很大的優勢,可以支持超大規模數據存儲,靈活的數據模型可以很好地支持Web2.0應用,具有強大的橫向擴展能力。(3)云數據庫:云數據庫是基于云計算技術發展的一種共享基礎架構的方法,是部署和虛擬化在云計算環境中的數據庫。云數據庫并非一種全新的數據庫技術,而只是以服務的方式提供數據庫功能。1、大數據的特征大數據的數據來源眾多,科學研究、企業應用和Web應用等都在源源不斷地產生數據,大數據的數據類型豐富,包括結構化和非結構化數據。數據種類繁多結構化數據:占10%左右,主要指存儲在關系數據庫中的數據非結構化數據:占90%左右,種類繁多,包括郵件、音頻、視頻、微信、微博、位置信息、鏈接信息、手機呼叫信息、網絡日志等。存儲在非關系型數據庫(NotOnlySQL,NoSQL)中。1、大數據的特征處理速度快大數據時代的數據增長速度快,處理速度也快,時效性要求高。很多應用都需要基于快速生成的數據給出實時分析結果,用于指導生產和生活實踐。因此,數據處理和分析的速度通常要達到秒級響應。價值密度低在大數據時代,很多有價值的信息都是分散在海量數據中的。例如:小區監控視頻,如果沒有意外事件發生,連續不斷產生的數據都是沒有任何價值的,當發生偷盜等意外情況時,也只有記錄了事件過程的那一小段視頻是有價值的。假設一個電子商務網站想通過微博數據進行有針對性的營銷,為了實現這個目的,就必須構建能存儲和分析新浪微博數據的大數據平臺,使之能根據用戶的微博內容進行有針對性的需求趨勢預測。愿景很美好,但現實代價很大,需要耗費幾百萬構建大數據團隊和平臺,而最終的利潤增加額可能會比投入低許多。大數據技術:伴隨著大數據的采集、預處理、存儲、分析和應用的相關技術,是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理和分析技術。其技術框架如圖所示。2、大數據關鍵技術2、大數據關鍵技術大數據計算模式大數據計算模式解決問題功能批處理計算針對大規模數據的批量處理MapReduce、Spark等流計算針對流數據的實時計算Strom、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數據處理平臺等圖計算針對大規模圖結構數據的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規模數據的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等2、大數據關鍵技術大數據技術的不同層面及其功能如下表所示:技術層面功能數據采集與預處理利用ETL工具將分布的、異構數據源中的數據,如關系數據、平面數據文件等,抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎;也可以利用日志采集工具(如Flume、Kafka等)把實時采集的數據作為流計算系統的輸入,進行實時處理分析數據存儲和管理利用分布式文件系統、數據倉庫、關系數據庫、NoSQL數據庫、云數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理數據處理與分析利用分布式并行編程模型和計算框架,結合機器學習和數據挖掘算法,實現對海量數據的處理和分析;對分析結果進行可視化呈現,幫助人們更好地理解數據、分析數據數據安全和隱私保護在從大數據中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全2、大數據與云計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司校車安全管理制度
- 公司組織夜校管理制度
- 環衛工人個人工作總結20篇
- 廣東省深圳市2025屆高三下冊2月標準學術能力診斷性測試數學試卷附解析
- 2025年中考語文(長沙用)課件:主題15 探尋時間的印記系列活動
- 2025屆湖北省襄陽市襄城區中考適應性考試數學試卷
- 酒店業大數據分析框架構建-洞察闡釋
- 2024年平頂山汝州市萬基高級中學招聘教師真題
- 2024年黃岡市醫療衛生機構專項招聘中醫藥專業技術人員真題
- 社區社區服務創新研究管理基礎知識點歸納
- 2025年黑龍江、吉林、遼寧、內蒙古高考物理真題(解析版)
- 國開2025年《資源與運營管理》形考任務1-4答案
- 學習解讀《水利水電建設工程驗收規程》SLT223-2025課件
- 【MOOC】《電工技術》(北京科技大學)中國大學MOOC慕課答案
- 上海市2023-2024學年八年級下學期期末數學練習卷(解析版)
- 應急第一響應人理論考試試卷(含答案)
- 智障兒童的家庭教育(課堂PPT)
- 《電路分析基礎》試題及答案
- 日本文學概論1
- 《鐵路貨車運用維修規程》2018年10月
- 關口電能計量裝置管理辦法
評論
0/150
提交評論