大數據關鍵技術課件_第1頁
大數據關鍵技術課件_第2頁
大數據關鍵技術課件_第3頁
大數據關鍵技術課件_第4頁
大數據關鍵技術課件_第5頁
已閱讀5頁,還剩59頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據關鍵技術肖波中央民族大學2014.10.大數據關鍵技術肖波1報告內容一、大數據時代的誕生二、大數據關鍵技術三、大數據與高等教育四、我們開展的相關研究報告內容一、大數據時代的誕生2一、大數據時代的誕生大數據與云計算大數據是云計算的核心內容大數據改變世界一、大數據時代的誕生大數據與云計算3云計算由何而來?HPC:

High-PerformanceComputingHTC:

High-ThroughputComputingP2P:

PeertoPeerMPP:

MassivelyParallelProcessors云計算由何而來?HPC:High-Performance4 最早是由天文學和基因學創造出了“大數據”這一概念。——《自然》2008年《大數據專刊》大數據名稱的起源一張哈勃望遠鏡捕捉下來的高清相片,高達數十個G字節 最早是由天文學和基因學創造出了“大數據”這一概念。——《自5大數據的定義大數據是指那些大小已經超出了傳統意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數據。大數據的定義大數據是指那些大小已經超出了傳統6大數據的定義

大數據技術將被設計用于在成本可承受(economically)的條件下,通過非常快速(velocity)的采集、發現和分析,從大體量(volumes)、多類別(variety)的數據中提取價值(value),是IT領域新一代的技術與架構。大數據的定義大數據技術將被設計用7大數據的4V

Volumes(GB-TB-PB-EB-ZB-……)Variety(all-structure,semi-structure,non-struture)Velocity(speed,frequency)Value(information)

大數據的4V

Volumes(GB-TB-PB-EB-ZB-8二、大數據關鍵技術大數據采集與預處理大數據存儲及管理大數據計算模式與系統大數據分析與挖掘大數據可視化計算大數據隱私與安全大數據應用技術二、大數據關鍵技術大數據采集與預處理9大數據采集與預處理

大數據采集所說的數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。大數據采集與預處理10BigDataBigData11數據的結構—結構化、非結構化、半結構化數據-12-結構化數據和非結構化數據都是客觀存在,大數據技術需要涵蓋兩者數據的結構—結構化、非結構化、半結構化數據-12-12大數據采集的四種來源管理信息系統(結構化數據)Web信息系統(非結構化,半結構化)物理信息系統(傳感器,多媒體數據)科學實驗系統(仿真數據)大數據采集的四種來源管理信息系統(結構化數據)13大數據預處理技術

主要完成對已接收數據的辨析、抽取、清洗等操作。1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。2)清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。大數據預處理技術主要完成對已接收數據的辨析、抽14預處理取得進展的技術異構數據集成技術WEB中實體識別技術

DeepWeb技術(Web中不能被傳統的搜索引擎索引到的那部分內容)傳感器網絡融合技術-----數據清洗和質量控制工具:DataFlux,DataStage,InformaticalPoweCenter.預處理取得進展的技術異構數據集成技術15數據質量(缺乏系統研究)精確性(數據符合規定的精度)一致性(數據之間不能存在相互矛盾)完整性(數據的值不能為空)同一性(數據的標識是唯一的)時效性(數據的值反映了實際的狀態)真實性(數據不能是虛假的)數據質量(缺乏系統研究)精確性(數據符合規定的精度)16預處理技術發展趨勢數據源的選擇和高質量原始數據的采集方法(建立數據源質量評估模型)多源數據的實體識別和解析方法數據清洗和自動修復方法(清除錯誤,修復信息)高質量數據整合方法(智能模式抽取和匹配)數據演化的溯源管理(追蹤數據演化過程)預處理技術發展趨勢數據源的選擇和高質量原始數據的采集方法(建172.大數據存儲與管理技術主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗余及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。2.大數據存儲與管理技術主要解決大數據的18大數據給存儲系統的挑戰存儲規模大(PB,EB…)存儲管理復雜(多結構)數據服務的種類和要求高(性能,可靠性)大數據給存儲系統的挑戰存儲規模大(PB,EB…)19大數據主要存儲技術分布式文件系統分布式數據庫訪問接口和查詢語言(MapReduce編程接口,PigLatin等)大數據主要存儲技術分布式文件系統20大數據下的存儲概念數據結構:結構化數據與非結構化數據數據庫數據模型:關系型數據庫與非關系型數據庫數據處理特性:OLTP與OLAP數據一致性:強一致性與最終一致性數據存儲方式:行式存儲與列式存儲數據庫存儲與處理架構:SMP與MPP數據存儲架構:傳統分布式文件與新型分布式文件-21-大數據下的存儲概念數據結構:結構化數據與非結構化數據-221分布式MPP數據倉庫代表產品特性比較-22-分布式MPP數據倉庫代表產品特性比較-22-223.大數據計算模式與系統大數據計算模式根據大數據的各種不同數據特征,從多樣性的大數據計算問題和需求中提煉并建立的各種高層抽象或模型。(MapReduce,RDD,GPA等)3.大數據計算模式與系統23大數據處理的特征數據結構(all,semi,non)數據獲取處理方式(batch,stream)數據處理類型(analysis,mining)實時性或相應性能(real,non-real)迭代計算(iterative)數據關聯性(simple,graph)并行計算體系結構(cluster,memory)大數據處理的特征數據結構(all,semi,non)24大數據關鍵技術ppt課件25MapReduce的步驟數據分區計算分區決定主從服務器讀取輸入數據Map函數排序與分組(根據鍵值)Combiner函數(合并本地數據)Partitioning函數(相同鍵值劃分到一個區)同步與通信(所有服務器同時完成)排序與分組Reduce函數MapReduce的步驟數據分區26LogicalDataFlowin5Processing

StepsinMapReduceProcess(Key,Value)PairsaregeneratedbytheMapfunctionovermultipleavailableMapWorkers(VMinstances).Thesepairsarethensortedandgroupbasedonkeyordering.Differentkey-groupsarethenprocessedbymultipleReduceWorkersinparallel.LogicalDataFlowin5Process27AWordCountingExampleon<Key,Count>DistributionAWordCountingExampleon<Ke28LinkingtheMapWorkersandReduceWorkersbyKeyMatching

inPartitioningFunctionsLinkingtheMapWorkersandRe29Fig.6.5

DataflowImplementationofMapReduceFig.6.5

DataflowImplementati30大數據關鍵技術ppt課件31HIVEPig!ZooKeeper分布式文件系統海量數據存儲大規模計算智能分析算法大數據技術架構-典型開源實現HIVEPig!Zoo分布式文件系統海量數據存儲大規模計算智32計算模式發展趨勢Hadoop平臺改進后將與其他計算模式和平臺共存(Hadoop2.0)混合計算模式將成為滿足多樣性大數據處理和應用需求的有效手段。(Spark:迭代、批處理、內存計算、流式計算、shark、圖計算)內存計算將成為高實時性大數據處理的重要技術手段和發展方向。(Hana,Spark)計算模式發展趨勢Hadoop平臺改進后將與其他計算模式和平334.大數據分析與挖掘技術大數據挖掘面臨的挑戰數據量膨脹(TB)數據深度分析需求的增長(路徑分析,時間序列分析,圖分析,What-if分析等)自動化、可視化分析需求的出現(自動查詢,自動分析等)4.大數據分析與挖掘技術大數據挖掘面臨的挑戰34數據挖掘技術機器學習,可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺傳算法等。統計方法,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。數據挖掘技術機器學習,可細分為:歸納學習方法(決策樹、規則歸35大數據分析與挖掘課題改進已有數據挖掘和機器學習技術(并行,分布);開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。大數據分析與挖掘課題改進已有數據挖掘和機器學習技術(并行,分36大數據挖掘當前進展R和Hadoop的深度集成Weka和MapReduce的集成基于Hadoop的數據挖掘開源程序庫(ApacheMahout項目)大數據挖掘算法的提出(大數據關聯、聚類、分類、神經網絡算法)大規模圖數據分析方法(基于內存算法,基于集群算法)大數據挖掘當前進展R和Hadoop的深度集成37大數據挖掘未來發展更加復雜、更大規模的分析和挖掘(時間序列分析,大規模圖分析,大規模社會計算等)大數據的實時分析和挖掘(幾十TB的實時挖掘問題還沒有解決)大數據分析和挖掘的基準測試(了解各種大數據分析和挖掘系統的優缺點)大數據挖掘未來發展更加復雜、更大規模的分析和挖掘38大數據挖掘需突破的技術可視化分析數據挖掘算法預測性分析語義引擎數據質量和數據管理大數據挖掘需突破的技術可視化分析39可視化分析數據可視化無論對于普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。可視化分析數據可視化無論對于普通用戶或是40數據挖掘算法數據挖掘算法。統計、分類、聚類、孤立點分析還有各種各樣五花八門的算法讓我們精煉數據,挖掘價值。改進算法使得這些算法一定要能夠應付大數據的量,同時還具有很高的處理速度。數據挖掘算法數據挖掘算法。41預測性分析預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。預測性分析預測性分析可以讓分析師根據圖42語義引擎語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。語義引擎語義引擎需要設計到有足夠的人工智43數據質量和數據管理數據質量與管理是管理的最佳實踐,透過標準化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。數據質量和數據管理數據質量與管理是管理的445.大數據可視化分析在大數據時代,除了直接的統計或者數據挖掘的方式,可視化通過交互式視覺表現的方式來幫助人們探索和解釋復雜的數據。5.大數據可視化分析在大數據時代,除了直接的統45可視化流程數據可視化圖像感知和認識知識設置探索數據可視化用戶可視化流程數據可視化46四種基本技術數據流線化(大數據分為相互獨立的子塊依次處理SPSD)任務并行化(一個算法分成多個獨立的任務模塊平行處理MPSD)管道并行化(同時處理面向不同數據的任務的多個獨立任務模塊MPMD)數據并行化(數據分塊后進行平行處理SPMD)四種基本技術數據流線化(大數據分為相互獨立的子塊依47可視化發展趨勢原位分析(內存進行分析,而不再硬盤)可視化中的人機交互(提供界面,專家參與)協同與眾包可視分析(多用戶協調工作)可擴展性與多級層次問題(在不同層面不同解析度下瀏覽分析)不確定分析和敏感性分析(了解數據不確定來源和風險)可視化與自動數據計算挖掘的結合(直觀與計算結合)面向領域和大眾的可視化工具庫(領域需求不同)可視化發展趨勢原位分析(內存進行分析,而不再硬盤)486.大數據隱私與安全大數據時代的安全問題更加復雜(集中)使用過程中存在安全問題(黑客)對大數據需求高的團體面臨更多安全挑戰基于位置的隱私暴露嚴重缺乏相應的法律法規保證大數據的共享問題(有效性和加密性)真實數據的動態性變化多元數據的融合挑戰(來自工作、生活)6.大數據隱私與安全大數據時代的安全問題更加復雜(集中)49安全技術當前進展文件訪問控制技術基礎設備加密匿名化保護技術加密保護技術基于數據失真的技術基于可逆的置換算法安全技術當前進展文件訪問控制技術50安全技術發展趨勢NoSQL有待進一步完善開展對 APT攻擊的研究對多元數據融合提出新的安全隱私保護技術保護分布式系統所有站點的安全社教網絡加強安全隱私保護數據采集、存儲、分析安全三權分立安全技術發展趨勢NoSQL有待進一步完善51APT(AdvancedPersistentThreat)高級持續性威脅。利用先進的攻擊手段對特定目標進行長期持續性網絡攻擊的攻擊形式。APT攻擊的原理相對于其他攻擊形式更為高級和先進,其高級性主要體現在APT在發動攻擊之前需要對攻擊對象的業務流程和目標系統進行精確的收集。在此收集的過程中,此攻擊會主動挖掘被攻擊對象受信系統和應用程序的漏洞,利用這些漏洞組建攻擊者所需的網絡,并利用0day漏洞進行攻擊。APT(AdvancedPersistentThreat527.大數據應用技術大數據將重點應用于以下三大領域:商業智能、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務云應用系統(道路監控、視頻監控、網絡監控、智能交通、反電信詐騙、指揮調度等公安信息系統),大規模基因序列分析比對技術,Web信息挖掘技術,多媒體數據并行化處理技術,影視制作渲染技術,其他各種行業的云計算和海量數據處理應用技術等。7.大數據應用技術大數據將重點應用于以53大數據與互聯網電子商務(消費、團購、支付)網絡廣告(效果、相應)網絡新聞(搜索、愛好、習慣)旅行預訂(游客、景點、飯店)及時通信(關注、熱點、民意)網絡視頻(愛好、習性)大數據與互聯網電子商務(消費、團購、支付)54大數據與網絡通信聯通(Hadoop技術查詢與分析支撐系統)移動(BC-Hadoop大數據平臺,BC-PDM&ETL并行數據挖掘,BI-PAAS大數據應用平臺)電信(智慧城市,物聯網加大數據)大數據與網絡通信聯通(Hadoop技術查詢與分析支撐系統)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論