




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
海量數據計算研究中心Massive
Data
Computing
Lab
@
HIT大數據分析·原理與實踐1、緒論王宏志哈爾濱工業大學目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345什么是大數據?《自然》2008年9月,《自然》雜志刊登了名為“Big
Data”的專題。《科學》2011年,《科學》雜志推出專刊
“DealingwithData”對大數據計算問題進行討論。什么是大數據?那么什么是大數據呢?什么是大數據?大數據的定義大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。——維基百科什么是大數據?大數據的定義不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。——《大數據時代》(維克托·邁爾-舍恩伯格與肯尼斯·庫克耶著)什么是大數據?大數據的定義大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。——研究機構Gartner什么是大數據?數據量的迅猛增長2001年全年所形成的網絡流量,在2004年只需一月,在2013年只需一天。我國網民數量居世界首位,所產生的數據量位于世界前列。大數據的背景什么是大數據?數據可挖掘的高價值數據積累到一定程度,其資料屬性越明晰,可挖掘的價值越大。社會的節奏加快,要求快速反應和精細管理,急需借助對數據的分析和科學的決策。大數據的背景什么是大數據?大數據的背景大數據的時代到來了!什么是大數據?大數據的特點——4個VVariety.VolumeVelocityValue規模大數據的存儲和計算均耗費海量資源速度快數據產生的速度快,實時性要求高種類多數據的來源和形式都愈發多樣價值密度低價值總量大,但價值密度低目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345哪里有大數據?來自互聯網社交網絡、日志數據、富媒體數據(視頻、音頻等)來自事業單位和政府醫療影像、電網信息來自大型公用設備和科研設備波音787的飛行數據、風力發電機的數據來自工業領域……大數據無處不在目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345什么是大數據分析?大數據分析的定義數據分析指的是用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。什么是大數據分析?數據分析的三個層次描述分析探索歷史數據并描述發生了什么包括聚類、相關規則挖掘、模式發現和可視化分析預測分析預測未來的概率和趨勢如基于邏輯回歸的預測、基于分類器的預測等規范分析對未來的決策給出建議如基于模擬的復雜系統分析和基于給定約束的優化解生成什么是大數據分析?大數據分析的應用宏觀經濟領域——CPI的預測淘寶根據網上成交額較高、購買量受經濟影響比較明顯的商品的價格來預測CPI;國家統計局的預測依據則主要是剛性物品,如食品。淘寶預測的CPI更能反映價格趨勢。什么是大數據分析?制造業——庫存管理、需求分析企業利用大數據分析實現對采購和合理庫存的管理,通過分析網上數據了解客戶需求,掌握市場動向。大數據分析的應用什么是大數據分析?大數據分析的應用農業領域——產量的預測硅谷的Climate公司,利用氣候和產量的歷史數據,以及氣候和土壤的觀察數據,建立模型。可以預測下一年的農產品產量、市場價格等信息。什么是大數據分析?大數據分析的應用金融領域——股票的買入賣出–華爾街“德溫特資本市場”公司通過分析3.4億留言判斷民眾心情,以決定公司股票的買入和賣出。目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345大數據分析的過程業務理解理解需求,并指定初步計劃數據準備將未處理的數據轉化為模型工具的輸入值數據理解熟悉數據,識別數據的質量問題建模選擇和應用不同的模型技術,并對模型參數進行調整部署產生簡單的報告,或是實現一個比較可重復的數據挖掘過程評估評估模型,檢查構造模型的步驟大數據分析的技術與難點大數據分析涉及的技術大數據分析的技術與難點大數據分析涉及的技術:數據采集數據采集利用多個數據庫來接收客戶端的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理。主要工具傳統的MySQL與Oracle數據庫,以及新興的NoSQL數據庫。挑戰并發數高。如火車票售票網站、網上購物。如何在多個數據庫間進行負載均衡和分片。大數據分析的技術與難點數據管理數據管理是大數據分析的基礎。使得大數據“存得下、查得出”,并為大數據的高效分析提供基本數據操作(如連接和聚集)。大數據帶來的挑戰應用場景的多樣化、數據規模的不斷增加,使得傳統的關系數據庫在很多情況下難以滿足要求。因此,學術界和工業界提出了NoSQL和NewSQL數據庫。大數據分析的技術與難點大數據分析涉及的技術:數據管理大數據分析涉及的技術:數據管理NoSQLNoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數據存儲系統。分為key-value存儲、文檔數據庫和圖數據庫這3類。NewSQLNewSQL是對各種新的可擴展/高性能數據庫的簡稱。這類數據庫不僅具有NoSQL對海量數據的存儲管理能力,還保持了傳統數據庫支持ACID和SQL等特性。大數據分析的技術與難點大數據分析涉及的技術:基礎架構基礎架構從底層來看,對大數據進行分析需要高性能的計算架構和存儲系統。舉例分布式計算的MapReduce框架、Spark計算框架;用于大規模數據協同工作的分布式文件存儲系統HDFS。大數據分析的技術與難點大數據分析涉及的技術:數據理解與提取大數據的多樣性結構方面:大數據分析需要處理的數據,在很多情況下,并非傳統的結構化數據。語義方面:同一含義有著多樣的表達,同樣的表達在不同語境下有著不同的語義。數據理解和提取自然語言處理:研究人與計算機交互的語言問題的一門學科。數據抽取:把非結構化數據中包含的信息進行結構化處理,編程統一的形式。大數據分析的技術與難點大數據分析涉及的技術:統計分析統計分析運用統計方法及與分析對象有關的知識,從定量與定性的結合上進行的研究活動。統計分析是在統計設計、統計調查、統計整理的基礎上,通過分析從而達到對研究對象更為深刻的認識。主要包括假設檢驗、顯著性檢驗、差異分析、相關分析、回歸分析、主成分分析、判別分析等。大數據分析的技術與難點大數據分析涉及的技術:數據挖掘數據挖掘從大量的數據中通過算法搜索隱藏于其中信息的過程。包括分類、估計、預測、相關性分組或關聯規則挖掘等。與統計分析的區別數據挖掘一般沒有什么預先設定的主題,主要是在現有數據上進行基于各種算法的計算,從而起到預測的效果,實現一些高級別數據分析的需求。大數據分析的技術與難點大數據分析涉及的技術:數據可視化為什么需要數據可視化對于大數據而言,由于其規模、高速和多樣性,用戶通過直接瀏覽來了解數據的難度甚高。數據可視化的種類按照原理分類:基于幾何的技術、面向像素的技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等;按照數據類型分類:文本可視化、網絡(圖)可視化、時空數據了實話、多維數據可視化等。大數據分析的技術與難點大數據分析的難點可擴展性大數據分析的首要任務是使得分析算法能夠支持大規模數據;并在所要求的時間內得到結果。可用性將大數據分析應用到實際中的前提是分析結果的可用性。這里的“可用”包含兩個方面:結果具有高質量,如數據完整、符合現實的語義約束等;結果的形式適用于實際的應用。大數據分析的技術與難點大數據分析的難點與領域知識相結合一方面,領域知識具有多樣性,算法需要進行相應的調整;另一方面,往往需要將領域知識的內容,進行合理的表示,用于大數據分析。結果的檢驗往往大數據分析結果需要一定檢驗才能夠真正運用,否則會帶來災難性的后果。結果的檢驗依賴于,對大數據分析結果需求的建模和檢驗。大數據分析的技術與難點目錄什么是大數據哪里有大數據什么是大數據分析大數據分析的技術與難點全書概覽12345全書概覽全書概覽第3章關聯分析模型第4章分類分析模型第5章聚類分析模型第2章大數據分析模型第6章結構分析模型
第7章文本分析模型結構化數據 半結構化數據 非結構化數據模型篇第8章大數據分析的數據預處理
第10章
面向大數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃店鋪的殘疾人士服務考核試卷
- 鑄造過程中的質量管理方法創新與實踐案例分析考核試卷
- 銀礦市場動態監測與投資決策分析考核試卷
- 過敏性休克病人急救護理
- 呼吸道疾病預防及措施
- 院前急救的常見護理技術
- 機場應急救援淺析課件
- 影像學呼吸系統概述
- 外科手部護理標準流程
- 感染控制管理規范實施框架
- 常州保安證考試題及答案
- 《化工和危險化學品生產經營單位重大生產安全事故隱患判定標準》解讀與培訓
- 《合理用藥安全教育》課件
- 優化能源消耗的綠色IT部署戰略規劃
- 2025年上半年內蒙古包頭市市直事業單位招考易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年度人工智能產業投資基金入股協議4篇
- 4.2.2光柵傳感器測量位移
- 2025年華遠陸港集團所屬華遠陸港網絡貨運(山西)限公司招聘(72人)管理單位筆試遴選500模擬題附帶答案詳解
- T-CCIASD 10012-2024 ISO 標準集裝箱用水性涂料
- 國家開放大學《金融學》機考題庫
- 證據法學復習資料
評論
0/150
提交評論