大數據與云計算黃哲學_第1頁
大數據與云計算黃哲學_第2頁
大數據與云計算黃哲學_第3頁
大數據與云計算黃哲學_第4頁
大數據與云計算黃哲學_第5頁
已閱讀5頁,還剩59頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據與云計算:

--信息技術發展的新紀元

黃哲學博士深圳大學特聘教授大數據技術與應用研究所所長大綱大數據與云計算云計算大數據平臺與技術創新大數據平臺產業化與應用案例什么是大數據對數據的使用者來講,如果數據集超出了使用者所擁有的信息處理和分析的能力,就給使用者帶來了大數據問題大數據V特征Volume數據規模大Velocity數據變化數據快Variety數據屬性復雜Value價值大數據的特點并不只是數據規模大數據的量呈現指數增長2009年至2020年將增加44倍數據的體量從0.8zettabytes增加到35ZB生成和采集的數據將按指數增長根據麥肯錫預計美國超過1000雇員的公司,平均每個公司存有200TB的數據,很多行業的公司,如銀行、電訊、互聯網、政府部門等,平均存儲的數據超過1個PB。大數據的多樣性Variety不同的數據格式,數據類型和數據結構文本、數字、圖像、音頻、視頻、時間序列、社會媒體數據、高維矩陣數據等靜態數據vs.流數據同一個應用可以生成和采集不同類型的數據為了提取知識盡可能多地綜合不同類型的相關數據大數據的速度Velocity數據的采集速度的加快導致處理時間都需要有相應的提高在線數據分析(OnlineDataAnalytics)決策的延誤

商機的消失實例網上營銷(E-Promotions):基于用戶當前的位置和過往的交易數據預測用戶的喜好在合適的時間和地點發送用戶感興趣的產品和店鋪健康監控(Healthcaremonitoring):利用穿戴式的傳感器監控用戶的生理和活動數據及時提供需要的醫療服務大數據的價值(Value)未來大數據的產業規模將會至少以萬億美元來進行衡量,大數據將會給信息技術領域帶來一個新的增長點。美國醫療保健每年產值達3000億美金每年生產率增長約0.7%制造業最多可節省50%的產品研發、組裝成本最多可節約7%的營運資金美國零售業凈利率增長可能高達60%+每年生產率增長0.5-1.0%歐洲公共部門管理每年2500億歐元每年生產率增長約0.7%全球個人定位數據1000億+的服務供應商收入為終端用戶帶來高達7000億美的價值大數據的產生數據的發展和創新將不再是如何生成和采集數據具備對采集的數據進行管理、分析、總結、可視化展示和知識發現的能力已經成為新的挑戰社會媒體網絡(每個人都在產生數據)科學儀器

(采集不同類型的數據)移動終端

(個人地理信息數據)傳感器網絡(測量不同類型的數據)大數據的技術挑戰存儲–分布式、低成本傳輸–能力、成本處理–集成、融合、處理分析–能力、效率挖掘–方法、能力、技術、平臺應用能耗互聯網與電訊行業需求某互聯網公司100多在線游戲,4億在線游戲用戶在線系統記錄每個游戲用戶在線玩游戲的詳細數據,包括游戲、時間、動作、結果等,TB級數據分析需求:用戶行分類與預測,用戶行為客戶群劃分用戶挽留、用戶獎勵和級別提升某電信公司深度包檢測(DPI)大數據分析,研究客戶互聯網行為模型,流量分析,數據套餐設計百萬人口城市,每天數據量TB級云計算云計算是一種新的大規模分布式計算模式通過網絡和資源虛擬技術,實現計算及存儲資源集中管理,面向用戶提供服務云計算可以解決目前計算機使用的諸多問題,是計算技術發展的一個新的里程碑2023/2/412傳統計算機的問題

使用成本高資源分散資源不足資源浪費高能耗環境污染云計算的優點

成本低易于普及可擴展能力高節能環保

云計算的五個基本特征按需自助服務(On-demandself-service)廣泛的網絡接入(Broadnetworkaccess)資源池(Resourcepooling)快速彈性化(Rapidelasticity)可度量的服務(MeasuredService)2023/2/413云環境(ACloud)云指的是一個遙遠的計算環境,這個環境是用來為計算環境外的用戶提供可擴展和可度量的計算資源。用戶可能不知道具體的云環境在哪里。如用戶在深圳,云環境可能在內蒙古。2023/2/414云環境的計算資源物理服務器—CPU,內存,外存(磁盤、磁帶)虛擬服務器—CPU,內存,外存軟件服務

(應用)2023/2/415物理服務器虛擬服務器軟件服務虛擬化是云計算的核心技術虛擬化技術可以將一個物理服務器當作多個虛擬服務器使用,多個用戶共享物理服務器的資源,但用戶對虛擬服務器的體驗是獨立的計算機。用戶不需要了解物理服務器虛擬服務器的運行由物理服務器統一管理和維護,虛擬機用戶不需要維護。當某虛擬機用戶需求變化時,物理服務器的資源可以自動擴展。2023/2/416彈性化和可擴展性彈性化是云計算的重要特征,計算資源彈性化可以使云環境的計算能力隨著用戶需求變化而增加或減少。水平擴展向外擴展Scaleout—增加資源向內收縮Scalein—減少資源垂直擴展向上擴展Scaleup—提升CPU和內存向下收縮Scaledown–降低CPU和內存2023/2/417云服務器面向服務ServiceOrientation云計算的獨特特征是服務導向或面向服務,就是將計算和存儲資源作為服務供用戶使用服務的收費方式是誰使用誰付錢,例如:付使用存儲服務的費用付使用CPU的費用付使用數據庫軟件的費用用戶不擁有這些資源,因此不需維護它們2023/2/418云計算的三種基本服務模式云設施服務CloudInfrastructureasaService(IaaS)云平臺服務CloudPlatformasaService(PaaS)軟件作為服務CloudSoftwareasaService(SaaS)2023/2/419云計算架構CloudArchitecture2023/2/420虛擬化計算服務ComputingService存儲服務StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理資源云服務應用的部署模型公有云Publiccloud私有云Privatecloud社區云Communitycloud混合云Hybridcloud2023/2/421大綱大數據與云計算云計算大數據平臺與技術創新大數據平臺產業化與應用案例挑戰性的技術問題數據融合(fusion)數據集成(integration)挑戰病人健康醫療數據沒有有效的數據集成就不能進行有效的綜合數據分析挑戰性的科學問題成千上萬個屬性超高維問題百萬以上甚至超億個記錄混合數據類型缺省值/噪聲相關性問題UnbalanceSubspacepropertyUninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大數據集的挑戰(BigDataMatrix)超高維數據聚類算法研究對屬性變量做分組歸并,產生組變量對組變量和屬性變量分層加權重擴展軟子空間聚類算法EWKM,在聚類過程中自動計算組變量權重值和屬性變量權重值最后得到以組變量為主的子空間聚類結果組變量相當于在高空看數據,大輪廓清晰屬性變量相當于在低空看數據,細節清晰組變量屬性變量SRF:基于MapReduce大數據隨機森林算法Layer寬度優先、大規模分層建樹策略大數據隨機森林算法研究成果屬性加權抽樣隨機森林算法,用于超高維數據分類,平均精度提高20%。與澳大利亞聯邦稅務總局數據挖掘首席科學家GrahamWilliams合作,將隨機森林算法用于ATO繳稅分類建模。分布式高可擴展隨機森林分類算法,實現了對千萬個客戶記錄、千個變量、100GB規模數據的建模能力。將分布式隨機森林算法發布到國際著名的統計分析平臺R系統上,擴大國際影響力。研究成果國際化推廣研究成果國際化應用隨機森林模型并行化實現屬性加權抽樣隨機森林模型云計算與大數據分析數據挖掘是從數據中發現知識的方法和過程,是解決各種科學和應用問題的重要手段由于數據的快速增長,傳統的數據挖掘技術和軟件正面臨極大的瓶頸銀行:人民銀行征信系統收錄了自然人6.4億人的信貸記錄金融:南方基金公司有近1000萬客戶資料需要分析電訊:廣東中國移動每天產生2TB通話記錄數據零售:Wal-Mart每天產生2.6億個交易記錄,其數據中心存儲4PB的交易數據互聯網:Amazon有5900萬活躍客戶,超過42TB的客戶數據2023/2/428云計算的優點是處理海量數據的能力,為大數據挖掘提供了新的計算平臺云計算海量數據處理的核心技術2023/2/429虛擬文件系統數據劃分GFS(Google)HDFS(Hadoop)MapReduce編程模型算法編程Map和Reduce兩個基本操作大規模分布計算可擴展性運行時系統程序運行負載平衡任務調度容錯MapReduce編程模型主節點節點節點節點節點節點用戶編程文件文件文件文件文件輸出輸出文件劃分Map運算Reduce運算結果輸出程序寫成Map和Reduce兩步運算1.

Map統計單個文本詞頻2.

Reduce綜合所有文本的詞頻(Map)(Reduce)MapReduce

管道式運算2023/2/431MRMRMRMRK-均值聚類對象分簇MapReduceMRMRMRMRMRMRMRMR輸出輸入?????收斂?重新計算簇中心點基于云計算的大數據分析平臺區域智能數據中心區域智能數據中心支持多種終端訪問以區域性智能數據中心及高速互聯網為基礎設施以互聯網服務體系為架構以大數據存儲、處理、挖掘和交互式可視化分析等關鍵技術為支撐通過多樣化移動智能終端及移動互聯網為用戶提供數據存儲、管理及分析服務。關鍵技術云計算引擎高性能海量數據挖掘算法庫工作流引擎支撐海量數據處理、挖掘與分析運算提供海量復雜數據處理、分析與挖掘高可擴展算法數據處理分析流程圖形化設計數據處理分析流程自動執行資源調度及優化OpenAPI提供數據挖掘平臺與第三方應用系統的擴展接口支撐海量數據存儲與管理云存儲大數據分析平臺云計算大數據挖掘平臺110臺服務器,840CPU核,550TB存儲容量構建云計算大數據挖掘平臺,具備TB級數據存儲、處理與分析能力,為大數據挖掘技術與系統開發和測試提供實驗支撐環境。數據庫:MySQL5.0商用版云存儲:Hadoop、Casendral數據挖掘軟件:Alphaminer、R平臺規模軟件環境平臺功能大數據云存儲與管理分布式并行數據挖掘任務執行可視化數據分析執行引擎云計算數據挖掘算法庫基于MapReduce模型,實現了11個常用數據挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚類算法DecisionTreeRandomForestsLDA分類算法LogisticRegressionRandomForestRegression回歸算法FP-Growth關聯規則部分算法的測試性能已達到TB級數據的處理能力。K-Means算法性能數據規模:1TB,1千萬條數據*1萬維執行效率:初始10個聚類中心,一次迭代時間約30分鐘RandomForests算法性能數據規模:110GB,1千萬條數據*1千維執行效率:建立20棵樹約36分鐘針對傳統數據挖掘算法不能處理大數據的挑戰,開發基于云計算的高可擴展并行數據挖掘算法庫,突破TB級數據處理瓶頸。大數據處理流程--醫保數據案例1型糖尿病性神經炎(原始記錄)糖尿病性神經炎(ICD國際疾病分類標準)內分泌,營養和代謝疾病(ICD國際疾病分類標準)疾病匹配疾病分類疾病分類在線數據分析通過儀表盤圖形化的KPI指標支持全局的運營表現和局部細節的鉆取分析快速了解業務運營的各項指標實施獲取告警信息定制化的應用開發移動終端上的商務智能分析平臺系統框架基于瀏覽器的BI分析平臺基于智能移動終端的BI分析平臺海量數據可視化大數據分析與挖掘平臺智能數據中心基于WEB的數據分析流程設計工具基于WEBD數據管理工具創新點:與搜索引擎區別主要功能海量數據分析海量信息檢索處理對象各類型海量數據網頁任務目標挖掘新知識、分類模型等已有信息的查詢與集成應用目標智能決策支持信息查詢核心技術機器學習、數據挖掘、分布式計算網頁爬蟲、索引、快速查詢應用領域新興領域(互聯網、移動互聯網、電子商務、醫藥研發、氣象預測)教育、軍事、情報、互聯網vs.大數據分析平臺搜索引擎創新點:與云服務區別主要功能海量數據存儲與分析服務云服務處理對象各類型海量數據PaaS,SaaS應用任務目標挖掘新知識、分類模型等提供低成本計算服務應用目標智能決策支持支持中小企業IT應用相互關系應用云計算技術提供數據分析服務支撐數據分析服務vs.云服務平臺大數據分析平臺創新點:與傳統BI區別應用模式互聯網服務解決方案軟件解決方案技術支撐智能數據中心、互聯網大型BI軟件及昂貴硬件服務器擴展性彈性擴展擴展性差TOC按需付費解決方案,價格昂貴,成本極高應用領域新興領域(互聯網、移動互聯網、電子商務)傳統領域(金融、保險、電信、零售)適用性大型企業(BI私有云)中小企業(BISaaS)大型企業vs.BIServiceBIRuntimeBIServerVisualization傳統BI大數據分析平臺大綱大數據與云計算云計算大數據平臺與技術創新大數據平臺產業化與應用案例大數據信息服務產業鏈金融傳統應用領域新型應用領域互聯網智慧城市電子商務現代物流制造零售通信智能電網大數據信息服務業的機遇大數據是新興技術和戰略性產業,各國都處在同一起跑線,原始創新機遇大;我國數據資源豐富,應用需求巨大,有條件實現跨越性發展,走在世界前列大數據分析平臺產業化大數據分析平臺技術及產業化優勢:降低企業應用成本,技術積累和專業化服務,培育新的大數據分析和信息服務產業。孵化面向不同行業的專業咨詢公司、大數據分析公司和信息服務公司。電信大數據分析案例MBB數據及預處理MBB(MobileBroadband)數據通過移動互聯網訪問網絡的日志數據,該數據為運行商的原始數據。2進制編碼,有標準的協議,需要根據協議進行解碼。規模大,一個中等規模的城市每天產生數TB的MBB數據MBB數據預處理根據MBB數據協議進行解碼,一般由設備供應商提供。解碼后得到的數據payload字段是二進制編碼,其他字段都是文本。Payload是應用程序在互聯網上的傳輸協議,每個協議都有具體的格式。對該部分內容的解析叫做DPI(DeepPacketInspection)。MBB數據格式(小部分屬性)AAL514bytesOuterIP20bytesOuter

UDP8bytesGTPU8bytesInnerIP20bytesInnerTCP20bytesPayload1400bytesMBB數據重要字段解釋序號名稱意義1srcip外層源IP2dstip外層目的IP3type_idstring業務類型,如Streaming,Web_Browsing等4service_id服務類型,如PPStream,HTTP等5detail_id詳情,如PPStream_UDP,HTTP等6imsi國際移動用戶識別碼,儲存在SIM卡中,可用于區別移動用戶的有效信息7imei國際移動裝備辨識碼,用于識別每臺手機8rnc_id基站編號9cell_id小區編號10setup_timeRNC建立時間11access_timeRNC連接時間12quit_timeRNC斷開時間13terminal終端用戶上網位置和行為分析抽象數據模型(U,L,A)U

-

IMEI和IMSI共同標示一個用戶L

-

通過小區編號cell_id標識A

-

通過詳情detail_id作為用戶的行為標識用戶上網位置和行為分析(續1)LocationgroupsActiongroupsLocation_group6302953122620502Action_group11PPStreamSkype_IMIcecastAction_group12POP3KooWoIMAPLocation_group7452531697118746Action_group69158_VChatHTTPTongDaXinAction_group7POP3_SSLIMAP_SSLPPVA_Control_dataγδη結果展示地點組和行為組的關系在地點主題1,用戶的行為主題主要集中在行為主題6某個地點組對應某個行為組的概率分布,其中列代表地點組,行代表行為組,顏色越深表示概率值越大,顏色越淺表示概率值越小

基于位置的推薦模型基于位置的行為推薦當用戶出現在某個地方,推薦可能感興趣的k個應用k精度139%542%1054%1569%2070%2571%3084%算法準確率貝葉斯網絡62.0%決策樹32.9%模型預測準確度與k的關系其他方法預測準確度當k取到15以上,我們的方法比傳統的分類方法具有更高的推薦預測準確率電力行業大數據分析案例智能電網大數據自動化數據采集裝置在智能電網中大量采用東莞大工業的電力用戶達兩萬多家每十五分鐘采集電壓、電流、功率等數據每月平均數據量達85GB用電行為模式的客戶分群選取客戶不同維度的數據進行客戶分群日周月用電模式用戶行業背景用戶地理信息用戶電力設備信息地區宏觀經濟數據通過對客戶分群,獲取用戶不同的用電模式工作日雙班制,三班制,四班制周末長短周輪休夜間用電高峰行業間用電模式比較不同地區不同行業用電模式比較節假日及用電模式趨勢預測用戶行業背景用電模式用戶地理信息電力用戶客戶分群用戶類型分布行業類別總計金屬制品業3456通信設備、計算機及其他電子設備制造業2983塑料制品業2918紡織服裝、鞋、帽制造業1682電氣機械及器材制造業1393紡織業1147橡膠制品業1123家具制造業971造紙及紙制品業926工藝品及其他制造業874文教體育用品制造業866皮革、毛皮、羽毛(絨)及其制品業840通用設備制造業833專用設備制造業826印刷業和記錄媒介的復制745非金屬礦物制品業514行業類別總計化學原料及化學制品制造業

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論