




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據與信息第5節
數據與大數據目錄/contents大數據的概念01大數據的特征02大數據思維03大數據對社會的影響04大數據的概念第一部分大數據的概念20世紀90年代末,“大數據”的概念首次由美國硅圖公司(SGI)的一位科學家正式提出。2016年,數據科學家將大數據正式定義為:大數據代表著信息量大、速度快、種類繁多的信息資產,需要特定的技術和分析方法將其轉化為價值。大數據之“大”,不僅指規模、速度和種類的特征,還意味著它超出以往常用的數據采集、組織、管理和加工等軟件的處理能力,要求新型集成技術從多元、復雜和巨量規模的數據集里洞察規律。大數據是什么?大數據的特征第二部分大數據的特征數據量大并不一定就是大數據,用傳統算法和數據庫系統可以處理的海量數據不能算“大數據”。符合大數據概念的數據一般具有數據規模大、處理速度快、數據類型多、價值密度低四個特征,可以用4個V來概括,即數量(Volume)、速度(Velocity)、多樣(Variety)和價值(Value)。數據規模大處理速度快數據類型多價值密度低數量(Volume)速度(Velocity)多樣(Variety)價值(Value)特征4V大數據的特征第一,數據體量巨大。大數據收集和分析的數據量非常大。現在,傳感器、互聯網、智能終端等每天都在源源不斷地產生海量數據,人類社會的數據量在不斷刷新一個個新的量級單位,已經從TB、PB級別躍升至EB、ZB級別。可以通過下面這個例子簡單感受1EB(1EB=2"B)的數據量:一本《紅樓夢》約有87萬個字(含標點),每個漢字占兩個字節,即1個漢字=2B,由此得出1EB約等于6626億部《紅樓夢》。這個數據量必將隨著大數據處理能力的發展而不斷擴大。一本《紅樓夢》約有87萬個字(含標點)1EB約等于6626億部《紅樓夢》大數據的特征第二,速度快。速度快有兩種含義:一是數據產生的速度快。有的數據是爆發式產生的,比如:微博、微信中的數據,每個用戶產生的數據量可能不大,但是由于用戶眾多,短時間內產生的數據量依然非常龐大。二是數據處理的速度快。在信息社會中,數據往往實時變化,只有高效率的數據處理技術才能充分發揮數據的價值,例如:通過氣象衛星等設備采集到的數據,只有及時處理才能滿足天氣預報的需求。大數據的特征第三,數據類型多。大數據的數據來源多,既有人工產生的,如:人們日常使用智能手機,短信、微信、視頻、語音、電子郵件等會產生各種數據;也有機器自動產生的,如各種傳感器在生產監測、環境監測、交通監測、安防監測等過程中也會產生大量數據。正因為大數據來自多種數據源,其數據種類和格式不可能保持一致,各種結構化、半結構化和非結構化數據共存是大數據的普遍現象。大數據的特征第四,價值密度低。大數據蘊含著巨大的價值,但因其數據量龐大,可能發揮價值的僅是其中非常小的部分,價值密度相對較低。以當前廣泛應用的監控視頻為例,在連續不間斷的監控過程中,大量的視頻數據被存儲下來,其中有許多冗余數據。比如:某起交通事故的視頻畫面,有效的部分可能僅僅只需要幾秒鐘,大量不相關的視頻信息會增加獲取有效數據的難度。價值密度的高低與數據總量的大小成反比,“提純”大數據,讓其發揮更大的價值,是人們一直在努力的目標。大數據思維第三部分大數據思維大數據是一場變革,改變的不僅是數據,還有人們的思維。其次,對于數據不再追求精確性,而是能夠接受數據的混雜性。首先,大數據要分析的是全體數據,而不是抽樣數據。再次,不一定強調對事物因果關系的探求,而是更加注重它們的相關性。接受分析注重在大數據處理過程中,數據的來源多種多樣,這些數據可以是結構化的、半結構化的,也可以是非結構化的。在大數據時代,人們不僅可以獲得研究所需的直接數據,而且還能對與之有關聯的所有數據進行分析。在大數據時代,比如電商的個性化推薦,不必知道人們購買某些商品的原因,只要找到商品之間的關聯性,就能為客戶提供精確的推薦。大數據對社會的影響第四部分大數據對社會的影響大數據已滲透到各行各業,成為重要的生產因素。作為全球網民數量最多的國家、重要的電子信息產品生產基地和最具成長性的信息消費市場,中國已經成為重要的大數據資源集聚地和大數據應用市場,大數據產業快速發展,產業鏈加速形成,大數據正在對經濟社會發展發揮著越來越重要的作用。一、大數據讓生活更便利。二、大數據讓決策更精準。三、大數據帶來新的社會問題。大數據對社會的影響一、大數據讓生活更便利。例如:人們可以通過城市熱力圖了解一個區域的人流量及擁擠情況,綠色部分顯示的是人流量小或稀疏的地理區域。城市熱力圖通過手機基站來定位區域中的手機用戶,根據用戶數量渲染地圖的顏色,來展示該區域的人流密度,為人們的出行提供參考。城市熱力圖大數據對社會的影響二、大數據讓決策更精準。大數據支持動態跟蹤與全樣本采集,為各種決策提供了第一手的材料,再加上可視化技術的應用,提高了數據分析的即時性,可以幫助管理者及時發現問題,進行即時干預。例如:江西省上饒市教育局利用大數據動態收集農村孩子入學、輟學、父母陪伴等信息,及時發現留守兒童的學習問題,開展精準助學與幫扶;又如,北京在共享單車運行一年后,重新調整了公交路線,正是共享單車所產生的大數據讓交通部門發現了部分線路的公交站點缺失,從而精準地確定了更為利民的交通路線圖。大數據對社會的影響三、大數據帶來新的社會問題。大數據給生活帶來便利的同時,也帶來如信息泄露、數據安全、個人隱私甚至倫理道德等方面的社會問題。用戶在網上注冊、網上購物等過程中,會留下個人信息。大數據的匯集不可避免地加大了用戶隱私數據信息泄露的風險,如何保護個人的隱私成為亟待解決的問題。各領域對于用戶隱私保護有多方面的要求和特點,數據之間存在復雜的關聯性和敏感性,針對傳統關系型數據的隱私保護模型和算法,大部分都不能直接將其移植到大數據應用中。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林省四平市鐵西區2024-2025學年七年級下學期期末練習生物試卷(含答案)
- 財務會計專員崗位職責要求
- 幼兒園常見傳染病預防控制課件
- 財務會計年終工作總結范文(10篇)
- 土地復墾措施及其規劃設計教學課件
- 道德與法治(海南卷)(考試版A3)
- 2025年android音視頻開發面試!這么香的技術還不快點學起來Android篇-andoid視頻秒開面試
- 2025年Android事件分發機制:面試官你坐啊
- 2024-2025學年下學期高一生物滬科版期末必刷常考題之生物進化論在不斷發展
- 部編版五年級上冊第一單元《白鷺》教案
- 醫院護士辭職申請書集合六篇(護士崗位辭職申請書)
- 靜脈注射 Microsoft PowerPoint 演示文稿課件
- 同濟大學論文答辯通用PPT模板
- AFC檢測技術規程
- 部編人教版二年級下學期數學期末學業質量監測復習課堂知識練習題
- 餐飲行業抖音代運營方案
- 《聰明人和傻子和奴才》 課件
- Fleischner指南解讀
- 建筑工地安全生產百日攻堅行動實施方案
- 電廠度電機維修技術規范書正式
- 年產40萬噸甲醇合成工藝設計
評論
0/150
提交評論