大數據技術領域若干關鍵問題_第1頁
大數據技術領域若干關鍵問題_第2頁
大數據技術領域若干關鍵問題_第3頁
大數據技術領域若干關鍵問題_第4頁
大數據技術領域若干關鍵問題_第5頁
已閱讀5頁,還剩87頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術領域

若干關鍵問題西北大學信息科學與技術學院陳莉教授/博導chenli@2014.4.242025/3/26NWU智能信息處理研究所2風云變幻中……題序

何為大數據(BIGDATA)?

Verylargedata?Massivedata?Bigdata?2025/3/26NWU智能信息處理研究所4大數據(BigData)超大規模數據?海量數據?“verylarge”大?還是“big”大?——相對于當時的CPU和存儲技術水平,均指數據規模很大“超大規模數據庫”(VLDB)這個詞是20世紀70年代中期出現的。VLDB會議1975年發起。數百萬條記錄即超大規?!昂A繑祿眲t是21世紀初出現的詞,越來越多的應用建立在多源數據集成基礎之上時,數據規模急劇擴大,數據類型由關系數據,到非結構化的、半結構化數據。非結構化數據是指在獲得數據之前無法預知其結構的數據,如文本、圖像、視頻等。包含數千萬個文檔、數百萬張照片或者工程設計圖的數據集很平常,關系數據庫無法有效管理這些數據,如何快速訪問數據成為核心挑戰。以Hadoop為代表的分布式文件系統和MapReduce計算框架應運而生2008年9月《科學》(Science)雜志發表了一篇文章“BigData:ScienceinthePetabyteEra”,“大數據”這個詞開始傳播所謂大數據,泛指規模達到幾百TB,甚至PB級的數據,廣泛出現在科學研究,Web集成、多媒體等諸多領域中大數據是伴隨數據獲取技術的發展,Web2.0、WSN(傳感網)和CPS(物聯網)等應用的快速普及而提出的概念2025/3/26NWU智能信息處理研究所5從歷史的視角——“超大規模數據”指表示和處理的是GB級別的數據,主要研究關系數據模型的高效實現技術、事務管理與故障恢復技術、索引與查詢優化技術等,創建了一套關系數據庫的理論與技術體系,已在商業上取得了成功。“海量數據”指表示和處理的數據是TB級的數據,主要研究各種非結構化數據的有效管理、多數據源的集成問題。涉及如何統一表達非結構化數據,如何實現基于語義的非結構化數據的集成和檢索,如何解決與應用緊密相關的功能與數據管理系統融合等問題。我國“核心電子器件、高端通用芯片及基礎軟件產品”(“核高基”)科技重大專項也將非結構化數據管理作為需要重點突破的關鍵技術加以重點支持。

“大數據”指表示和處理的數據是PB級別及其以上的數據。大數據并非單指數據量之大。如果說海量數據主要從存儲角度考慮問題,則大數據除了數據存儲,還包括數據處理、感知等。

2025/3/26NWU智能信息處理研究所6大數據形成于……用電子顯微鏡重建大腦中的突觸網絡,1立方毫米大腦的圖像數據就超過1PB據IDC統計,2011年全球被創建和被復制的數據總量為1.8ZB(1021),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量(200PB)谷歌公司通過大規模集群和MapReduce軟件,每個月處理的數據量超過400PB百度每天大約要處理幾十PB數據Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數據淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20TB數據;雅虎的總存儲容量超過100PB每個人類基因數據:300GB~700GB;基因定位和分析所需時間:1000+機時:1000個基因分析需要114年各類移動設備產生了大量的大數據;傳感網和物聯網的蓬勃發展形成大數據集合各城市的視頻監控每時每刻都在采集巨量的流媒體數據勞斯萊斯公司對全世界數以萬計的飛機引擎進行實時監控,每年傳送PB量級的數據……

數據形成的過程:被動產生——主動產生——自動產生2025/3/26NWU智能信息處理研究所7移動互聯網:即時通迅微信是騰訊公司推出免費即時通訊服務的聊天軟件??梢酝ㄟ^手機、平板、網頁快速發送語音、視頻、圖片和文字。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號碼、附近的人、掃二維碼方式添加好友和關注公眾平臺,同時微信幫將內容分享給好友以及將用戶看到的精彩內容分享到微信朋友圈。

2025/3/26NWU智能信息處理研究所8表1存儲容量單位2025/3/26NWU智能信息處理研究所9表2

9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數據比較

1.8ZB數據如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長的一半;

每位美國人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;

事實上,多數磁盤的容量可能還不到1TB,存儲這些數據的磁盤是十分驚人的數字。2025/3/26NWU智能信息處理研究所10大數據的概念定義1

大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合?!S基百科

Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2025/3/26NWU智能信息處理研究所11大數據定義2——“3V”

BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大數據指:Volume(規模大,數據已從TB級別躍升至PB級別)+Variety(類型多,從普通的文字、視頻、圖片到逐漸增多的地理位置信息等,類型紛繁,已無規律可循)+Velocity(變化快,即時處理成為趨勢)——IBM2025/3/26NWU智能信息處理研究所12大數據定義3當數據的規模和性能要求成為數據管理分析系統的重要設計和決定因素時,這樣的數據就被稱為大數據。不是簡單地以數據規模來界定大數據,要考慮數據查詢與分析的復雜程度以目前計算機硬件的發展水平看針對簡單查詢(如關鍵字搜索),數據量為TB至PB級時可稱為大數據針對復雜查詢(如數據挖掘),數據量為GB至TB級時即可稱為大數據2025/3/26NWU智能信息處理研究所13大數據定義4大數據有兩個不同于傳統數據集的基本特征:

1.大數據不一定存儲于固定的數據庫,而是分布在不同的網絡空間;2.大數據以半結構化或非結構化數據為主,具有較高的復雜性。2025/3/26NWU智能信息處理研究所14大數據定義5-7為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值,而設計的新一代架構和技術?!狪DC大數據——“4V”觀點一

Volume+

Variety+Velocity+Value(創造價值)大數據——“4V”觀點二Volume+

Variety+Velocity+Value(價值密度低,以視頻為例,在連續不間斷監控過程中,有用的數據也許只有一兩秒)

2025/3/26NWU智能信息處理研究所15主要內容數據科學與大數據大數據的主要研究領域大數據技術主要研究內容大數據技術的若干關鍵問題2014年大數據十大發展趨勢預測一、數據科學與大數據數據科學是關于數據的科學——旨在研究數據的各種類型、狀態、屬性及變化形式和變化規律,揭示自然界和人類行為現象和規律,亦稱數據學。2025/3/26NWU智能信息處理研究所17數據科學與第四范式2007年美國總統科學技術顧問委員會(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的報告以及英國e-Science計劃前首席科學家托尼·海(TonyHey)的著作《第四范式:數據密集型科學發現》(TheFourthParadigm:DataintensiveScientificDiscovery)都揭示出數據分析已經成為繼實驗、理論和計算之后的第四種科學發現基礎,成為產生經濟價值的新源泉。2025/3/26NWU智能信息處理研究所18數據科學(DataScience)

圖靈獎獲得者JimGray:2007年在演講中提出“數據密集型科學發現(Data-IntensiveScientificDiscovery)”將成為科學研究的第四范式

實驗科學

理論科學

計算科學

數據科學卡耐基·梅隆大學等相繼提出了“數據密集型超級計算(dataintensivesupercomputing)”和“數據密集型可擴展計算(dataintensivescalablecomputing)”的概念世界著名存儲技術公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國杰院士:“數據科學”研究的對象是什么?計算機科學是關于算法的科學,而數據科學是關于數據的科學——數據學“數據科學”成為一個新興的研究領域——2012年大數據成為熱點2025/3/26NWU智能信息處理研究所19數據科學研究的基本框架“大數據”

大數據(Bigdata)是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合?!S基百科大數據4V特征VolumeVolumeVarietyVolume模態多樣VeracityVolume真偽難辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數據總量達40ZB,人均5.2TB分享的內容條目超過25億個/天,增加數據超過500TB/天202025/3/26NWU智能信息處理研究所20212025/3/26NWU智能信息處理研究所21大數據與常規數據常規數據范圍廣模態多增長快關聯繁數據規模較小模態屬性受限增長速度較慢關聯相對簡單稠密與稀疏共存冗余與缺失并在動態與靜態互現顯式與隱藏均有特性問題描述與存儲的挑戰分析與理解的挑戰挖掘與預測的挑戰挑戰大數據應用目標相對比較明確數據結構相對比較簡單時序長持續時間較短處理方法通常為模型化、參數化2025/3/26NWU智能信息處理研究所22美國的大數據規劃—大數據上升為國家意志2012年3月29日,美國聯邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進采集、存儲、維護、管理、分析和共享海量數據的核心技術;利用以上技術來加速科學與工程發現的步伐,強化國家安全,改變教育和學習;培養開發和使用大數據技術的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA2025/3/26NWU智能信息處理研究所23美國政府六個部門啟動的“大數據研究與發展計劃”,絕大多數研究項目都是應對大數據帶來的技術挑戰國防部高級研究計劃局(DARPA)的大數據研究項目包括:多尺度異常檢測項目,旨在解決大規模數據集的異常檢測和特征化;網絡內部威脅計劃,旨在通過分析傳感器和其他來源的信息,進行網絡威脅和非常規戰爭行為的自動識別;MachineReading項目,旨在實現人工智能的應用和發展學習系統,對自然文本進行知識插入。能源部(DOE)的大數據研究項目包括:機器學習、數據流的實時分析、非線性隨機的數據縮減技術和可擴展的統計分析技術。生物和環境研究計劃的目標是大氣輻射測量等氣候研究設施;系統生物學知識庫項目是對微生物、植物等生物群落功能的數據驅動的預測。國家人文基金會(NEH)項目包括:分析大數據的變化對人文社會科學的影響,如數字化的書籍和報紙數據庫,從網絡搜索,傳感器和手機記錄交易數據。國家科學基金會(NSF)的大數據項目的重點也是圍繞突破關鍵技術,包括:從大量、多樣、分散和異構的數據集中提取有用信息的核心技術;開發一種以統一的理論框架為原則的統計方法和可伸縮的網絡模型算法,以區別適合隨機性網絡的方法。242025/3/26NWU智能信息處理研究所24歐盟的大數據規劃—基礎設施是先導Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數據的數據信息化基礎設施(E-Infrastructure)是優先資助領域GRDI2020-GlobalResearchDataInfrastructures建立針對科研大數據的基礎設施,實現數據管理系統、數字數據圖書館、研究圖書館、數據工具和研究團體的整合FP7Call8IntelligentInformationManagement-BigData預算5千萬歐元,2012-1-17截止目標:提升發現、分析、開采、使用大數據及其基礎設施的能力通過對大數據收集與分析創造更大價值探索基于大規?;ヂ摂祿Y源與專用基礎設施的新型科學研究面向大數據的人力資源開發2025/3/26NWU智能信息處理研究所25大數據涉及諸多不同的領域

天文氣象基因醫學經濟物理其他領域用戶生成數據DeepWeb數據多模態內容數據網絡與關系數據2025/3/26NWU智能信息處理研究所26大數據的價值科研價值圖靈獎得主、數據庫技術奠基人JimGray認為數據驅動的研究將是第四種科學研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數據已為多個不同學科的科學研究工作提供了寶貴機遇經濟價值麥肯錫全球研究院:大數據可為世界經濟創造巨大價值,提高企業和公共部門的生產率和競爭力,并為消費者創造巨大的經濟利益著名Gartner公司:到2015年,采用大數據和海量信息管理的公司將在各項財務指標上,超過未做準備的競爭對手20%工業價值分析使用:揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解二次開發:創造出新產品和服務。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式社會價值例如:2009年淘寶網推出淘寶CPI來反映網絡購物的消費趨勢和價格動態其他價值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創始人TimO‘Reilly大數據處理技術的主要推動者IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等跨國巨頭是發展大數據處理技術的主要推動者;IBM投資160億美元進行了30次與大數據有關的收購,促使其業績穩定高速增長。2012年,IBM股價突破200美元大關,3年之內翻了3倍;IBM成為全球數學博士的最大雇主,數學家正在將其數據分析的才能應用于石油勘探、醫療健康等各個領域;華爾街早已開始招聘精通數據分析的天文學家和理論數學家來設計金融產品;eBay通過數據挖掘可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優化,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%;目前推動大數據研究的動力主要是企業經濟效益,巨大的經濟利益驅使大企業不斷擴大數據處理規模。應用價值佐證美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結構化數據分析公眾情緒,再將情緒曲線與道瓊斯工業指數進行對照分析,發現可以提前3~4天預測股市大盤走勢。基于此,他們已經推出了歐洲第一只基于社交媒體的對沖基金;英國的科學家根據Twitter的數據來跟蹤流感的爆發。基于用戶發布信息中的關鍵詞,如“我頭痛”,并結合用戶的發布地點,按區域與英國衛生部的官方數據進行比較,最終建立起一個預測模型。2012年初的瑞士達沃斯論壇上,一份題為《大數據,大影響》(BigData,BigImpact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣?!度A爾街日報》在文章《科技變革即將引領新的經濟繁榮》中更是大膽預測:“我們再次處于三場宏大技術變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命?!?9學術界對大數據的關注2012年1月,NaturePhysics上出版??癈omplexity”特別指出大數據為科學研究,特別是復雜性科學的研究提供了史無前例的機遇2008年,Nature出版??癇igData”從互聯網技術、互聯網經濟學、超級計算、環境科學、生物醫藥等多個方面介紹了大數據所帶來的技術挑戰2011年,Science刊登??癉ealingwithData”討論了數據洪流(Datadeluge)所帶來的挑戰,也特別指出倘若能夠更有效地組織和使用這些數據,人們將得到更多的機會發揮科學技術對社會發展的巨大推動作用2012年4月,歐洲信息學與數學研究協會會刊ERCIMNews上出版??癇igData”討論了大數據時代的數據管理、數據密集型研究的創新數據庫技術等問題,并介紹了歐洲科研機構開展的研究活動和取得的創新性進展2025/3/26NWU智能信息處理研究所29302025/3/26NWU智能信息處理研究所30大數據會議/Workshop學術會議工業會議2025/3/26NWU智能信息處理研究所31國內現狀2012年2月14日工信部發布的物聯網“十二五”規劃中,信息處理技術作為四項關鍵技術創新工程之一已經被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析——大數據的重要組成部分;另外三項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與大數據密切相關973立項(2013):大數據計算的基礎研究;面向三元空間的感知、認知和智能控制863立項(2013):面向大數據先進存儲結構及關鍵技術;面向大數據的智能存儲體系結構及關鍵技術和模型框架;海量WEB數據提取分析和管理系統平臺開發NSFC:F02大數據管理與分析F03:大數據技術與應用中的挑戰性科學問題二、大數據的主要研究領域科學—技術—工程—應用2025/3/26NWU智能信息處理研究所33大數據的主要研究領域大數據科學:旨在發現和驗證大數據的規律及其與自然和社會活動之間的關系。

大數據工程:指大數據的規劃、建設、運營、管理的系統工程。大數據應用:針對不同行業與領域業務需求,展開數據特征與業務特征的研究,進行大數據應用分類與技術需求分析,構建從“需求分析——業務模型——數據模型——數據采集——數據分析——總結反饋——數據分析”的全生命周期應用模型。大數據技術:旨在從各種各樣類型的數據中,快速獲得有價值信息的技術。大數據技術將被設計用于在成本可承受(economically)的條件下,通過非常快速(velocity)的采集、發現和分析,從大量的(volumes)、多類別(variety)的數據中提取價值(value),將是IT領域新一代的技術架構和相關技術。大數據研究的三個關鍵問題

在“數據科學”領域,大數據管理及處理能力已經成為大數據技術研究的關鍵。由于數據的異質異構、無結構及不可信等特征,大數據管理和分析研究需要解決可表示、可處理和可靠性三個關鍵問題。關鍵問題——可表示問題

例如,互聯網中的數據具有異質、異構、無結構發展趨勢;非結構化數據在互聯網大數據中占有的比例大幅增加;美國弗雷斯特研究公司Forrester)分析師在2010年《政府今天所面臨的挑戰》報告中預計:“數據將會在今后的5年內增加8倍,其中非結構化數據在各組織機構的數據中所占份額超過70%到80%,并且這些非結構化數據的增長速度是結構化數據的10~50倍”。從數據管理的角度看,非結構化數據很難按照統一的模型進行分析處理,比結構化數據處理難得多。因此,如何有效地表示這些非結構化數據成為首要問題??商幚韱栴}——數據規模急劇擴張,遠遠超越現有計算機處理能力圖靈獎獲得者吉姆·格雷(JimGray)和IDC公司曾預測,全球數據量每18個月翻一番。目前全球數據的存儲和處理能力已遠落后于數據的增長幅度。例如,淘寶網每日新增的交易數據達10TB;eBay分析平臺日處理數據量高達100PB,超過了美國納斯達克交易所全天的數據處理量;沃爾瑪是最早利用大數據分析并因此受益的企業之一,曾創造了“啤酒與尿布”的經典商業案例?,F在沃爾瑪每小時處理100萬件交易,將有大約2.5PB的數據存入數據庫,此數據量是美國國會圖書館的167倍;微軟花了20年,耗費數百萬美元完成的Office拼寫檢查功能,谷歌公司則利用大量統計數據直接分析實現??商幚韱栴}——數據處理需求的多樣化逐漸顯現

相比支撐單業務類型的數據處理業務,公共數據處理平臺需要處理的大數據涉及在線/離線、線性/非線性,流數據和圖數據等多種復雜混合計算方式。例如,2011年Facebook首度公開其新數據處理分析平臺PUMA,通過對數據多處理環節區分優化,相比之前單純采用Hadoop和Hive進行處理的技術,數據分析周期從2天降到10秒之內,效率提高數萬倍。手段:云計算、高性能計算、大數據分析處理技術等可靠性問題——大數據的可靠性,既需要數據清洗、去冗等技術提取有價值數據,實現數據質量高效管理;也涉及實現對數據的安全訪問和隱私保護,是大數據可靠性的關鍵需求?;ヂ摼W開放性,使大數據在數據輸入時的質量確保和數據輸出時的隱私保護面臨考驗?;ヂ摼W的數據采集和發布更靈活,容易將各種類型的不確定數據大量引入系統,造成數據中含有各種各樣的錯誤和誤差,體現為數據不正確、不精確、不完全、過時陳舊或者重復冗余。據高德納公司(Gartner)統計,在全球財富1000強公司中有超過25%的公司關鍵數據不正確或不精確;在美國企業中有1%~30%的公司數據存在各類錯誤和誤差,僅就醫療數據而言,有13.6%~81%的關鍵數據遺缺或陳舊;數據是企業降低成本、損失和增加收入不可或缺的工具。英國BT公司(BritishTelecom)因使用數據質量工具而創造的企業效益每年高達6億英鎊。用戶在享受數據價值的同時,也面臨日益嚴重的安全威脅和隱私風險。趨勢科技稱2011年為數據泄露年,國內CSDN網站被曝600萬用戶的數據庫信息數據保護不妥,導致用戶密碼泄露。據安全機構統計,此次隱私信息泄露涉及5000萬互聯網用戶。著名社會網絡Facebook的Beacon廣告系統可以追蹤到5500萬用戶在其他網站的活動,嚴重威脅用戶隱私信息。2025/3/26NWU智能信息處理研究所39大數據技術的研究面臨挑戰數據規模導致難以應對的存儲量和計算量數據規模導致傳統算法失效大數據復雜的數據關聯性導致高復雜度的計算基本原則應用需求為導向領域交叉為橋梁計算技術為支撐

通過并行計算、分布式處理以及集群計算技術來實現大數據量處理及多機分布式并行處理,以滿足應用的需求。Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.2025/3/26NWU智能信息處理研究所40

核心——南京大學黃宜華教授2025/3/26NWU智能信息處理研究所41行業應用開發層行業應用系統和服務大數據應用開發環境和工具大數據應用和服務集成框架和接口大數據應用測試環境和工具大數據應用發布和運行環境2025/3/26NWU智能信息處理研究所42應用算法/技術層研究社會網絡排名與推薦系統個性化推薦技術商業智能媒體分析檢索Web挖掘與搜索3維建模與科學計算可視化生物多樣性信息學自然語言處理其他2025/3/26NWU智能信息處理研究所43社會網絡社團發現(CommunityDetection)網絡建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全(Privacy,SpamandSecurity)等2025/3/26NWU智能信息處理研究所44排名與推薦系統常規排名(Ranking)多樣性排名(DiversifiedRanking)基于內容的推薦(Content-basedRecommendation)基于標簽的推薦(Tag-basedRecommendation)協同過濾推薦(CollaborativeFilteringRecommendation)……2025/3/26NWU智能信息處理研究所45多媒體分析檢索大規模圖像檢索(ImageRetrieval)大規模圖像分類(ImageClassification)目標檢測(ObjectRecognition)視頻異常行為檢測(AbnormalEventDetection)……2025/3/26NWU智能信息處理研究所46WEB搜索與數據挖掘深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網頁摘要(DocumentAutomaticSummarization)場景引擎:將用戶行為抽象為與具體業務相關聯的場景……2025/3/26NWU智能信息處理研究所47自然語言處理機器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(QA)……2025/3/26NWU智能信息處理研究所48三維建模與大數據可視化計算地質建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規模數據可視化計算與分析(ScaleVisualAnalytics)……2025/3/26NWU智能信息處理研究所49基礎算法/技術層研究大數據并行化機器學習和數據挖掘算法研究大數據處理并行化學習和挖掘算法不同并行模型下并行化學習和挖掘算法并行化機器學習和數據挖掘工具和平臺

研究表明:基于大數據集的機器學習會取得更好的學習效果,這已是目前機器學習領域的共識。機器學習和數據挖掘算法分類(Classification)大規模支持向量機(LargeScaleSVM)神經網絡(NeuralNetwork)與深度計算樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)聚類(Clustering)關聯規則挖掘……參數估計(ParametersEstimation)高維度數據降維(DimensionReduction)集成學習(EnsembleLearning)大圖數據算法圖聚類圖分類/圖劃分圖模式匹配(子圖同構、最大公共子圖…)2025/3/26NWU智能信息處理研究所50四、大數據技術若干關鍵問題大數據獲取、表示及傳輸領域應用/服務需求/計算模型并行架構與計算平臺集群多核GPU及其集成云計算技術并行編程模型與計算框架MapReduceBSP并行計算框架大數據存儲技術預處理索引查詢數據表示與存儲管理DFS大數據智能處理技術機器學習與數據挖掘基礎算法和應用2025/3/26NWU智能信息處理研究所512025/3/26NWU智能信息處理研究所52大數據獲取獲取極為困難——大數據在國家企業和社會層面成為重要的戰略資源;數據成為新的戰略制高點,是人們搶奪的新焦點;數據不斷成為機構的資產,成為提升機構和公司競爭力的有力武器建立多個領域的數據共享平臺,包括氣象、地震、林業、農業、海洋、人口與健康、地球系統科學數據等,數據共享應擴展到企業層面需要學科間的交叉融合——增強學科內、學科之間以及學術界與工業界之間的合作與交流等新型數據源——互聯網、云計算和物聯網的迅猛發展,無所不在的移動設備、RFID、無線傳感器每分每秒都在產生數據,數以億計用戶的互聯網服務時刻在產生巨量的交互數據數據所有權,既是技術問題,也有法理問題解決途徑——保護多方利益的前提下解決數據共享問題

隨處可見的攝像頭、傳感器、GPS定位等設備,會感知人們的位置等信息,借助大數據分析技術可以輕易獲得其行蹤規律,給人們生活帶來威脅;“云”的經濟性,推動了海量并行處理破解密碼的可能性;“云”商云集,使人們寄希望于他們是道德圣人,否則損失將是災害性的!2025/3/26NWU智能信息處理研究所53大數據表示關系數據庫曾經是萬能的關系數據模型醫院信息管理系統(HIS)臨床信息系統(CIS)醫學影像信息系統(PACS)ICU監護系統電子病歷遠程健康監護平臺用藥管理系統虛擬醫院2025/3/26NWU智能信息處理研究所54大數據表示——新型數據模型研究關系模型無法表達非結構化數據的復雜結構面向對象模型將具有相同靜態結構、動態行為和約束條件的對象抽象為一類。能夠根據客觀世界的本來面貌描述各種對象,能夠表達對象間各種復雜關系。但缺乏堅實的理論基礎,并且實現復雜分層式數據模型基于語義描述、底層特征和原始數據,但不能很好地表達各類非結構化數據的各組成部分的關系以及各類數據之間的關系需要建立一種將非結構化數據的文本描述性信息與特征等信息整體表達,并且能夠描述各種非結構化數據的統一的新型數據模型(如ResourceDescriptionFramework,RDF研究)2025/3/26NWU智能信息處理研究所55大數據存儲云計算技術是最理想的解決方案???2025/3/26NWU智能信息處理研究所56并行架構與計算平臺技術共享內存架構技術

多核+GPU分布式內存架構技術

集群混合式架構技術

集群+多核集群+GPU大數據應用/云計算支撐平臺技術云計算架構及其平臺研究云存儲技術并行計算系統可靠性及容錯恢復技術數據訪問隱私保護和安全技術目前國際上學術界和工業界主要從系統軟件、體系結構、分布式系統等方面進行了改進和優化!內存數據庫及編譯器優化等技術增加內存、增加處理器、協處理器和增加I/O通道MapReduce或Hadoop架構2025/3/26NWU智能信息處理研究所57并行編程模型與計算框架研究MapReduce應用及改進Hadoop性能優化MapReduce并行計算框架改進MapReduce在不同架構上的實現(如眾核、GPU等)BSP(bulksynchronizedparallel)基于BSP模型的并行處理框架大圖數據并行處理框架研究:基于圖劃分的分布式存儲pregel(Google)Trinity(微軟)CUDA,MPI,OpenMP提升可編程性定制式并行計算框架混合式并行計算模型和框架2025/3/26NWU智能信息處理研究所58大數據存儲技術研究大數據預處理技術研究大數據采集與傳輸清洗過濾和質量管理技術研究壓縮技術研究大數據索引和查詢技術研究靜態記錄型索引技術流式/增量式記錄型索引技術大數據表的高效關系型操作并行化查詢技術圖數據表示與查詢技術靜態圖數據的表示、存儲和查詢流式/增量式圖數據的表示、存儲與查詢查詢語言接口與技術SQL./NoSQL查詢語言接口并行查詢執行機制混合式數據表示及存儲機制研究

存儲管理模型研究數據表示與查詢等技術分布式數據庫技術

Hbase性能優化查詢與索引技術分布式存儲技術分布式文件系統

HDFS系統優化2025/3/26NWU智能信息處理研究所59大數據處理技術并行機器學習/數據挖掘算法研究分類算法SVM;NN;GA;EA;……聚類算法關聯發現參數估計高維度數據降維大圖數據挖掘算法:圖聚類,圖分類,圖模式匹配等……集成學習深度學習……“大數據+簡單模型”?2025/3/26NWU智能信息處理研究所60大圖數據挖掘算法圖查詢:復雜對象識別、社交網絡和WEB網絡、生物數據分析、軟件代碼剽竊檢測;子圖查詢:凝聚子圖查詢、極大團、n-極大團、n-宗派、K-極大核圖聚類:預處理、數據挖掘圖分類:預處理、數據挖掘圖模式匹配:應用于生物學、生物化學、警覺、圖像和視頻、模式匹配等;圖同構、子圖同構、最大公共子圖算法、近似算法(傳播算法、譜算法、優化算法等);靜態圖匹配或動態圖匹配等2025/3/26NWU智能信息處理研究所61社會計算研究內容2025/3/26NWU智能信息處理研究所62社會計算研究內容2025/3/26NWU智能信息處理研究所63群體智慧2025/3/26NWU智能信息處理研究所64群體智慧2025/3/26NWU智能信息處理研究所65群體智慧2025/3/26NWU智能信息處理研究所66群體智慧社會計算的由來社會計算微博——話題跟蹤?輿情分析?情感挖掘?微博數據處理技術研究微博(微信)數據分析及分析軟件研發是又一熱點。(從運營角度:如監測用戶粘度、規模、活躍度、流量等信息;聽眾數、轉播數、轉發率、平均評論次數;發布微博的方式:網頁、手機、客戶端;用戶的背景資料分析,地域、年齡、性別、學歷、職業、行業、薪酬情況等;從營銷角度:用戶分析,用戶引導等等)。2025/3/26NWU智能信息處理研究所71例:數字腳印與城市計算隨著感知、計算、通訊技術的日新月異,記錄人類日常行為軌跡、物理世界的動態變化以及人類與虛擬世界交互等的數字印跡正以前所未有的規模積累和擴張,形成了大數據,可把這些數據稱為“數字腳印”。數字腳印除了出租車GPS軌跡、基于位置的移動社交網絡數據和移動智能電話記錄等外,常見的還有城市公共自行車租借記錄、乘客公共交通刷卡記錄、城市居民家庭和機構用電用水記錄等。城市計算可概括為通過城市感知、數據挖掘、智能提取和服務提供四大環節來建立一個生態循環系統。2025/3/26NWU智能信息處理研究所72城市計算與大數據城市計算是一門新興的交叉領域,是計算機學科與傳統城市規劃、交通、能源、經濟、環境和社會學等多個領域在城市空間的交匯。基本框架包括城市感知及數據捕獲、數據管理、城市數據分析和服務提供;城市感知:利用城市現有的資源(如手機、傳感器、車輛和人等),在不干擾人們生活的前提下自動感知城市的韻律;海量異構數據的管理:城市產生的數據模態多,屬性差別大。如:氣象——空間點數據,道路——空間圖數據,人的移動——軌跡數據(時間+空間),交通流量——流數據,社交網上用戶發布的信息——文本或圖像數據;異構數據的協同計算:(1)從不同的數據源中獲取相互增強的知識是新的課題。(2)在保證知識提取深度的同時,提高分析效率,從而滿足眾多實時性要求較高的應用(如空氣質量預測、異常事件監測等)是難題。(3)數據維度增加導致了數據稀疏性問題。虛實結合的混合式系統:城市計算催生了混合系統,如云加端模式,即信息產生在物理世界,通過終端設備被收集到云端(虛擬世界)分析和處理,最后云再將提取的知識作為服務提供給物理世界的終端用戶。2025/3/26NWU智能信息處理研究所73城市計算的基本框架2025/3/26NWU智能信息處理研究所74城市計算的主要技術傳感器技術:傳感器網絡、主動參與式感知、被動群體感知數據管理技術:流數據管理、軌跡管理、圖數據管理、時空索引等數據挖掘技術:異構數據互增強、稀疏數據處理等優化技術:最優路徑等混合數據的可視化技術:結果顯示應用:城市規劃、智能交通、環境監測與管理、社交娛樂、能源消耗、城市經濟、城市安全和應急響應等2025/3/26NWU智能信息處理研究所75數字腳印與城市計算研究出租車GPS數字腳?。翰煌瑫r刻的城市熱點檢測、城市區域的功能特性分類、路徑規劃、出租車司機尋客策略、異常軌跡檢測、城市道路交通流量預測等;移動社交網絡數字腳?。?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論