




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章大數據的起源和發展起源和發展大數據特征2大數據構成3大數據起源及定義1大數據面臨的機遇和挑戰41.1大數據起源及定義1.大數據起源
半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。全球每秒鐘發送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3年…推特上每天發布5千萬條消息,假設10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產生6.3百萬筆訂單…每個月網民在Facebook上要花費7千億分鐘,被移動互聯網使用者發送和接收的數據高達1.3EB…Google上每天需要處理24PB的數據…數據量增加TBPBZBEB根據IDC監測,人類產生的數據量正在呈指數級增長,大約每兩年翻一番,這個速度在2020年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量。數據結構日趨復雜大量新數據源的出現則導致了非結構化、半結構化數據爆發式的增長這些由我們創造的信息背后產生的這些數據早已經遠遠超越了目前人力所能處理的范疇大數據時代正在來臨…1.大數據起源20世紀90年代,數據倉庫之父的BillInmon就經常提及BigData。2011年5月,在“云計算相遇大數據”為主題的EMCWorld2011會議中,EMC拋出了BigData概念。1.大數據起源2.大數據在計算機科學中處于最前沿定義一:大數據指的是那些大小超過標準數據庫工具軟件能夠收集、存儲、管理和分析的數據集。——摘自麥肯錫
定義二:在信息技術中,“大數據”是指一些使用目前現有數據庫管理工具或傳統數據處理應用很難處理的大型而復雜的數據集。其挑戰包括采集、管理、存儲、搜索、共享、分析和可視化。
——摘自WIKI定義三:"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集。——摘自Gartner定義四:大數據本質上是數據交叉、方法交叉、知識交叉、領域交叉、學科交叉,從而產生新的科學研究方法、新的管理決策方法、新的經濟增長方式、新的社會發展方式等等。
——摘自復旦大學朱揚勇教授3.大數據定義1.2大數據特征大數據的4V特征大體量(Volume)、多樣性(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,簡稱4V特征。大體量(Volume)數據基本單位換算:1B(byte字節)=8b(bit位)1KB(Kilobyte千字節)=1024B1MB(Megabyte,簡稱“兆”)=1024KB1GB(Gigabyte,
簡稱“吉”,又稱“千兆”)=1024MB1TB(Trillionbyte,簡稱“太”)=1024GB≈10^3GB1PB(Petabyte,簡稱“拍”字節)=1024TB≈10^6GB1EB(Exabyte,簡稱“艾”字節)=1024PB≈10^9GB1ZB(Zettabyte,簡稱“澤”字節)=1024EB≈10^12GB大體量(Volume)在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而根據知名市場研究機構IDC的預測,到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)。多樣性(Variety)互聯網、移動互聯網、物聯網、車聯網等等各種數據來源大數據的數據結構更加多樣化:圖像、視頻、微博評價、郵件PDF、office文檔(word,excel,ppt)手機呼叫、短信網頁點擊搜索(html,搜索行為)地圖gps……非結構化數據增長率就達80%,而傳統的數據樣式:多半是數據庫表和xml。快速化(Velocity)每秒鐘,人們發送290封電子郵件;每分鐘人們在youtube上傳20小時的視頻;人們每月在總共在facebook上瀏覽7000億分鐘;移動互聯網網用戶發送和上傳的數據量達到1.3exabytes,相當于10的18次方;每秒淘寶商城成交178筆訂單……實時股票分析(過期無用)實時路況信息(過期無用)……數據的快速產生和實時響應是一大特征價值密度低(Value)挖掘大數據的價值類似沙里淘金比如用戶評價分析,幾百萬的評價記錄,真正有借鑒意義的就幾句比如視頻監控,每天產生24小時的視頻數據,真正有價值的就幾秒鐘。1.3大數據的構成大數據=海量數據+復雜類型的數據大數據包括:交易數據和交互數據集在內的所有數據集大數據的構成海量交易數據:企業內部的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什么。海量交互數據:源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數據構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸ManageFileTransfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等等。可以告訴我們未來會發生什么。海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。1.4大數據面臨的機遇和挑戰機遇一:如何使用數據資產?包括個人信息、消費記錄在內的海量數據當中,蘊含著大量有價值的信息,可以為企業經營、管理提供參考互聯網最為本質的一點,就是網民真實的展示了個人的想法,并能迅速為人所知。心理學家說人類的細微行為,直接暴露內心的想法。挖出真正有價值的“鉆石”——數據挖掘和預測性分析,成為了決定組織在新時代成敗的關鍵如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,是“大數據”時代的核心問題機遇二:大數據賦予我們洞察未來的能力?馬云成功預測2008年經濟危機“2008年初,阿里巴巴平臺上整個買家詢盤數急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數據;而我們提前半年時間從詢盤上推斷大數據帶來的機遇判斷出世界貿易發生變化了。”挑戰一:大數據中有用信息的準確提取數據收集(1)利用大數據的開放性,全面收集各種多源異構數據集;(2)從數據質量角度分析數據源的準確性、一致性、及時性、相關性等特性,以獲取高質量的數據。數據存儲(1)用冗余配置、分布化和云計算技術對數據進行預處理;(2)存儲時對數據進行分類,通過過濾和去重,減少存儲量,并加入便于檢索的標簽。數據處理
大數據的復雜性使得難以用傳統的方法描述與度量,需要將高維圖像等多媒體數據降維后度量與處理,利用上下文關聯進行語義分析,從大量動態及可能模棱兩可的數據中綜合信息,并導出可理解的內容。可視化呈現
(1)可視化目的是使結果更直觀以便于洞察。(2)目前計算機只能針對小規模、結構化或類結構化的數據進行分析,無法深層次數據挖掘。(3)現有的數據挖掘算法在不同行業中難以通用。挑戰二:大數據的信息安全隱私泄露風險加劇(1)大量數據的集中存儲增加了其泄露的風險;(2)一些敏感數據的所有權和使用權并沒有清晰界定。現有存儲與安防措施帶考驗(1)復雜的數據存儲在一起,可能造成企業安全管理不合規;(2)安全防護手段更新升級慢,存在漏洞。數據本身成為攻擊手段(1)黑客可收集更多有用信息,大數據分析讓攻擊更精準;(2)大數據為黑客發起攻擊提供了更多機會
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廚師合同協議書的范文
- 豬肉銷售合同協議書范本
- 2025建筑工程評估合同
- 2025合同借款協議范本
- 2025年電子競技俱樂部電競俱樂部電競俱樂部賽事賽事贊助商權益保障報告
- 2025科技公司員工勞動合同
- 2025企業與個人借款合同書模板
- 商業地產項目數字化運營管理優化與客戶滿意度提升實證研究綜述報告2025
- 2025貨車租賃合同范本
- 2025協商解除勞動合同格式模板
- GB/T 34440-2017硬質聚氯乙烯地板
- 員工調令模板
- 不典型平滑肌瘤MR表現
- 糖尿病病歷模板共享
- 《杜鵑圓舞曲》集體備課教案
- 刑事辯護技巧與經驗演示文稿
- 會計專業工作簡歷表(中級)
- 金融科技課件(完整版)
- 利用與非門或異或門構成全加器
- 籃球--傳切配合(縱切)課件.ppt
- 人工神經網絡6HOPFIELD神經網絡ppt課件
評論
0/150
提交評論