




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據技術(jìshù)領域
假設干關鍵問題西北大學信息科學與技術學院(xuéyuàn)陳莉教授/博導chenli@2021.4.24第一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所2風云變幻(fēngyúnbiàhuàn)中……第二頁,共九十二頁。題序
何為(héwéi)大數據〔BIGDATA〕?
Verylargedata?Massivedata?Bigdata?第三頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所4大數據(shùjù)〔BigData〕超大規模數據?海量數據?“verylarge〞大?還是“big〞大?——相對于當時的CPU和存儲技術水平,均指數據規模很大“超大規模數據庫〞〔VLDB〕這個詞是20世紀70年代中期出現的。VLDB會議1975年發起(fāqǐ)。數百萬條記錄即超大規?!昂A繑祿暷敲词?1世紀初出現的詞,越來越多的應用建立在多源數據集成根底之上時,數據規模急劇擴大,數據類型由關系數據,到非結構化的、半結構化數據。非結構化數據是指在獲得數據之前無法預知其結構的數據,如文本、圖像、視頻等。包含數千萬個文檔、數百萬張照片或者工程設計圖的數據集很平常,關系數據庫無法有效管理這些數據,如何快速訪問數據成為核心挑戰。以Hadoop為代表的分布式文件系統和MapReduce計算框架應運而生2021年9月?科學?〔Science〕雜志發表了一篇文章“BigData:ScienceinthePetabyteEra〞,“大數據〞這個詞開始傳播所謂大數據,泛指規模到達幾百TB,甚至PB級的數據,廣泛出現在科學研究,Web集成、多媒體等諸多領域中大數據是伴隨數據獲取技術的開展,Web2.0、WSN〔傳感網〕和CPS〔物聯網〕等應用的快速普及而提出的概念第四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所5從歷史(lìshǐ)的視角——“超大規模數據〞指表示和處理的是GB級別的數據,主要研究關系數據模型的高效實現技術、事務管理與故障恢復技術、索引與查詢優化技術等,創立了一套關系數據庫的理論與技術體系,已在商業上取得了成功。“海量數據〞指表示和處理的數據是TB級的數據,主要研究各種非結構化數據的有效管理、多數據源的集成問題。涉及如何統一表達非結構化數據,如何實現基于語義的非結構化數據的集成和檢索,如何解決與應用緊密相關的功能與數據管理系統融合等問題。我國“核心電子器件、高端通用芯片及根底(gēndǐ)軟件產品〞〔“核高基〞〕科技重大專項也將非結構化數據管理作為需要重點突破的關鍵技術加以重點支持。“大數據〞指表示和處理的數據是PB級別及其以上的數據。大數據并非單指數據量之大。如果說海量數據主要從存儲角度考慮問題,那么大數據除了數據存儲,還包括數據處理、感知等。第五頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所6大數據(shùjù)形成于……用電子顯微鏡重建大腦中的突觸網絡,1立方毫米大腦的圖像數據就超過1PB據IDC統計,2021年全球被創立和被復制的數據總量為1.8ZB〔1021〕,其中75%來自于個人〔主要是圖片、視頻和音樂〕,遠遠超過人類有史以來所有印刷材料的數據總量〔200PB〕谷歌公司通過大規模集群和MapReduce軟件,每個月處理的數據量超過400PB百度每天大約要處理幾十PB數據Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數據淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20TB數據;雅虎的總存儲容量超過100PB每個人類基因(jīyīn)數據:300GB~700GB;基因(jīyīn)定位和分析所需時間:1000+機時:1000個基因(jīyīn)分析需要114年各類移動設備產生了大量的大數據;傳感網和物聯網的蓬勃開展形成大數據集合各城市的視頻監控每時每刻都在采集巨量的流媒體數據勞斯萊斯公司對全世界數以萬計的飛機引擎進行實時監控,每年傳送PB量級的數據……數據形成的過程:被動產生——主動產生——自動產生第六頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所7移動(yídòng)互聯網:即時通迅微信是騰訊公司推出免費即時通訊效勞的聊天軟件??梢酝ㄟ^、平板(píngbǎn)、網頁快速發送語音、視頻、圖片和文字。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號碼、附近的人、掃二維碼方式添加好友和關注公眾平臺,同時微信幫將內容分享給好友以及將用戶看到的精彩內容分享到微信朋友圈。第七頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所8表1存儲容量(cúnchǔrónɡliànɡ)單位第八頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所9表2
9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數據(shùjù)比較
1.8ZB數據如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長的一半;
每位美國(měiɡuó)人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;
事實上,多數磁盤的容量可能還不到1TB,存儲這些數據的磁盤是十分驚人的數字。第九頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所10大數據(shùjù)的概念定義1大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理(chǔlǐ)的數據集合。——維基百科
Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki第十頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所11大數據(shùjù)定義2——“3V〞BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大數據指:Volume〔規模大,數據已從TB級別躍升至PB級別〕+Variety〔類型多,從普通的文字、視頻、圖片到逐漸(zhújiàn)增多的地理位置信息等,類型紛繁,已無規律可循〕+Velocity〔變化快,即時處理成為趨勢〕——IBM第十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所12大數據(shùjù)
定義3當數據的規模和性能要求成為數據管理分析系統的重要設計和決定(juédìng)因素時,這樣的數據就被稱為大數據。不是簡單地以數據規模來界定大數據,要考慮數據查詢與分析的復雜程度以目前計算機硬件的開展水平看針對簡單查詢〔如關鍵字搜索〕,數據量為TB至PB級時可稱為大數據針對復雜查詢〔如數據挖掘〕,數據量為GB至TB級時即可稱為大數據第十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所13大數據(shùjù)
定義4大數據有兩個(liǎnɡɡè)不同于傳統數據集的根本特征:1.大數據不一定存儲于固定的數據庫,而是分布在不同的網絡空間;2.大數據以半結構化或非結構化數據為主,具有較高的復雜性。第十三頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所14大數據(shùjù)
定義5-7為了更經濟地從高頻率獲取的、大容量的、不同結構(jiégòu)和類型的數據中獲取價值,而設計的新一代架構和技術。——IDC大數據——“4V〞觀點一Volume+Variety+Velocity+Value(創造價值)大數據——“4V〞觀點二Volume+Variety+Velocity+Value(價值密度低,以視頻為例,在連續不間斷監控過程中,有用的數據也許只有一兩秒)第十四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所15主要(zhǔyào)內容數據科學與大數據大數據的主要研究領域大數據技術(jìshù)主要研究內容大數據技術的假設干關鍵問題2021年大數據十大開展趨勢預測第十五頁,共九十二頁。一、數據(shùjù)科學與大數據(shùjù)數據科學是關于數據的科學——旨在研究數據的各種類型、狀態、屬性及變化形式(xíngshì)和變化規律,揭示自然界和人類行為現象和規律,亦稱數據學。第十六頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所17數據科學(kēxué)與第四范式2007年美國總統科學技術參謀委員會〔President’sCouncilofAdvisorsonScienceandTechnology,PCAST〕的報告以及英國e-Science方案前首席科學家托尼·?!睺onyHey〕的著作?第四范式(fànshì):數據密集型科學發現?〔TheFourthParadigm:DataintensiveScientificDiscovery〕都揭示出數據分析已經成為繼實驗、理論和計算之后的第四種科學發現根底,成為產生經濟價值的新源泉。第十七頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所18數據(shùjù)科學(DataScience)
圖靈獎獲得者JimGray:2007年在演講中提出“數據密集型科學發現(Data-IntensiveScientificDiscovery)〞將成為科學研究的第四范式實驗科學理論科學計算科學數據科學卡耐基·梅隆大學等相繼提出了“數據密集型超級計算〔dataintensivesupercomputing〕〞和“數據密集型可擴展計算〔dataintensivescalablecomputing〕〞的概念世界著名存儲技術公司EMC:提出了“DataScience〞的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics〞李國杰院士(yuànshì):“數據科學〞研究的對象是什么?計算機科學是關于算法的科學,而數據科學是關于數據的科學——數據學“數據科學〞成為一個新興的研究領域——2021年大數據成為熱點第十八頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所19數據(shùjù)科學研究的根本框架“大數據(shùjù)〞
大數據(Bigdata)是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合?!S基百科第十九頁,共九十二頁。大數據(shùjù)4V特征VolumeVolumeVarietyVolume模態多樣VeracityVolume真偽難辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數據總量達40ZB,人均5.2TB分享的內容條目超過25億個/天,增加數據超過500TB/天202025/4/19NWU智能(zhìnénɡ)信息處理研究所20第二十頁,共九十二頁。212025/4/19NWU智能(zhìnénɡ)信息處理研究所21大數據(shùjù)與常規數據(shùjù)常規(chángguī)數據范圍廣模態多增長快關聯繁數據規模較小模態屬性受限增長速度較慢關聯相對簡單稠密與稀疏共存冗余與缺失并在動態與靜態互現顯式與隱藏均有特性問題描述與存儲的挑戰分析與理解的挑戰挖掘與預測的挑戰挑戰大數據應用目標相比照較明確數據結構相比照較簡單時序長持續時間較短處理方法通常為模型化、參數化第二十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所22美國的大數據(shùjù)規劃—大數據上升為國家意志2021年3月29日,美國聯邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative〞促進采集、存儲、維護、管理、分析和共享海量數據的核心技術;利用(lìyòng)以上技術來加速科學與工程發現的步伐,強化國家平安,改變教育和學習;培養開發和使用大數據技術的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA第二十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所23美國政府六個部門(bùmén)啟動的“大數據研究與開展方案〞,絕大多數研究工程都是應對大數據帶來的技術挑戰國防部高級研究方案局〔DARPA〕的大數據研究工程包括:多尺度異常檢測工程,旨在解決大規模數據集的異常檢測和特征化;網絡內部威脅方案,旨在通過分析傳感器和其他來源的信息,進行網絡威脅和非常規戰爭行為的自動識別;MachineReading工程,旨在實現人工智能的應用和開展學習系統,對自然文本進行知識插入。能源部〔DOE〕的大數據研究工程包括:機器學習、數據流的實時分析、非線性隨機的數據縮減技術和可擴展的統計分析技術。生物和環境研究方案的目標是大氣輻射測量等氣候研究設施;系統生物學知識庫工程是對微生物、植物等生物群落功能的數據驅動的預測。國家人文基金會〔NEH〕工程包括:分析大數據的變化對人文社會科學的影響,如數字化的書籍和報紙數據庫,從網絡搜索,傳感器和記錄交易數據。國家科學基金會〔NSF〕的大數據工程的重點也是圍繞突破關鍵技術,包括:從大量、多樣、分散和異構的數據集中提取有用信息的核心技術;開發一種以統一的理論框架為原那么的統計方法和可伸縮(shēnsuō)的網絡模型算法,以區別適合隨機性網絡的方法。第二十三頁,共九十二頁。242025/4/19NWU智能(zhìnénɡ)信息處理研究所24歐盟的大數據規劃(guīhuà)—根底設施是先導Horizon2021-TheFrameworkProgrammeforResearchandInnovation面向大數據的數據信息化根底設施〔E-Infrastructure〕是優先資助領域GRDI2021-GlobalResearchDataInfrastructures建立針對科研大數據的根底設施,實現數據管理系統、數字(shùzì)數據圖書館、研究圖書館、數據工具和研究團體的整合FP7Call8IntelligentInformationManagement-BigData預算5千萬歐元,2021-1-17截止目標:提升發現、分析、開采、使用大數據及其根底設施的能力通過對大數據收集與分析創造更大價值探索基于大規模互聯數據資源與專用根底設施的新型科學研究面向大數據的人力資源開發第二十四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所25大數據(shùjù)涉及諸多不同的領域
天文氣象基因醫學經濟物理其他領域用戶生成數據DeepWeb數據多模態內容數據網絡與關系數據第二十五頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所26大數據(shùjù)的價值科研價值圖靈獎得主、數據庫技術奠基人JimGray認為數據驅動的研究將是第四種科學研究范式〞TheFourthParadigm:Data-IntensiveScientificDiscovery〞大數據已為多個不同學科的科學研究工作提供了珍貴機遇經濟價值麥肯錫全球研究院:大數據可為世界經濟創造巨大價值,提高企業和公共部門的生產率和競爭力,并為消費者創造巨大的經濟利益著名(zhùmíng)Gartner公司:到2021年,采用大數據和海量信息管理的公司將在各項財務指標上,超過未做準備的競爭對手20%工業價值分析使用:揭示隱藏其中的信息,例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解二次開發:創造出新產品和效勞。例如Facebook通過結合大量用戶信息,定制出高度個性化的用戶體驗,并創造出一種新的廣告模式社會價值例如:2021年淘寶網推出淘寶CPI來反映網絡購物的消費趨勢和價格動態其他價值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創始人TimO‘Reilly第二十六頁,共九十二頁。大數據處理技術(jìshù)的主要推動者IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等跨國巨頭是開展大數據處理技術(jìshù)的主要推動者;IBM投資160億美元進行了30次與大數據有關的收購,促使其業績穩定高速增長。2021年,IBM股價突破200美元大關,3年之內翻了3倍;IBM成為全球數學博士的最大雇主,數學家正在將其數據分析的才能應用于石油勘探、醫療健康等各個領域;華爾街早已開始招聘精通數據分析的天文學家和理論數學家來設計金融產品;eBay通過數據挖掘可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優化,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%;目前推動大數據研究的動力主要是企業經濟效益,巨大的經濟利益驅使大企業不斷擴大數據處理規模。第二十七頁,共九十二頁。應用價值(jiàzhí)佐證美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結構化數據分析公眾情緒,再將情緒曲線與道瓊斯工業指數進行對照分析,發現可以提前3~4天預測股市大盤走勢?;诖耍麄円呀浲瞥隽藲W洲第一只基于社交媒體的對沖基金;英國的科學家根據Twitter的數據來跟蹤流感的爆發。基于用戶發布信息中的關鍵詞,如“我頭痛〞,并結合用戶的發布地點,按區域與英國衛生部的官方數據進行比較,最終建立起一個預測模型。2021年初的瑞士達沃斯論壇上,一份題為?大數據,大影響?(BigData,BigImpact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。?華爾街日報?在文章?科技變革即將引領新的經濟繁榮?中更是大膽預測:“我們再次處于三場宏大技術變革的開端,他們可能足以匹敵(pǐdí)20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命。〞第二十八頁,共九十二頁。29學術界對大數據(shùjù)的關注2021年1月,NaturePhysics上出版(chūbǎn)??癈omplexity〞特別指出大數據為科學研究,特別是復雜性科學的研究提供了史無前例的機遇2021年,Nature出版??癇igData〞從互聯網技術、互聯網經濟學、超級計算、環境科學、生物醫藥等多個方面(fāngmiàn)介紹了大數據所帶來的技術挑戰2021年,Science刊登??癉ealingwithData〞討論了數據洪流〔Datadeluge〕所帶來的挑戰,也特別指出倘假設能夠更有效地組織和使用這些數據,人們將得到更多的時機發揮科學技術對社會開展的巨大推動作用2021年4月,歐洲信息學與數學研究協會會刊ERCIMNews上出版??癇igData〞討論了大數據時代的數據管理、數據密集型研究的創新數據庫技術等問題,并介紹了歐洲科研機構開展的研究活動和取得的創新性進展2025/4/19NWU智能信息處理研究所29第二十九頁,共九十二頁。302025/4/19NWU智能(zhìnénɡ)信息處理研究所30大數據(shùjù)會議/Workshop學術會議工業(gōngyè)會議第三十頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所31國內現狀(xiànzhuàng)2021年2月14日工信部發布的物聯網“十二五〞規劃(guīhuà)中,信息處理技術作為四項關鍵技術創新工程之一已經被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析——大數據的重要組成局部;另外三項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息平安技術,也都與大數據密切相關973立項〔2021〕:大數據計算的根底研究;面向三元空間的感知、認知和智能控制863立項〔2021〕:面向大數據先進存儲結構及關鍵技術;面向大數據的智能存儲體系結構及關鍵技術和模型框架;海量WEB數據提取分析和管理系統平臺開發NSFC:F02大數據管理與分析F03:大數據技術與應用中的挑戰性科學問題第三十一頁,共九十二頁。二、大數據(shùjù)的主要研究領域科學—技術—工程(gōngchéng)—應用第三十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所33大數據的主要(zhǔyào)研究領域大數據科學:旨在發現和驗證大數據的規律及其與自然和社會活動之間的關系。
大數據工程:指大數據的規劃、建設、運營、管理的系統工程。大數據應用:針對不同行業與領域業務需求,展開(zhǎnkāi)數據特征與業務特征的研究,進行大數據應用分類與技術需求分析,構建從“需求分析——業務模型——數據模型——數據采集——數據分析——總結反響——數據分析〞的全生命周期應用模型。大數據技術:旨在從各種各樣類型的數據中,快速獲得有價值信息的技術。大數據技術將被設計用于在本錢可承受〔economically〕的條件下,通過非??焖佟瞯elocity〕的采集、發現和分析,從大量的〔volumes〕、多類別〔variety〕的數據中提取價值〔value〕,將是IT領域新一代的技術架構和相關技術。第三十三頁,共九十二頁。大數據(shùjù)研究的三個關鍵問題
在“數據科學〞領域,大數據管理及處理能力已經成為大數據技術研究的關鍵。由于數據的異質異構、無結構(jiégòu)及不可信等特征,大數據管理和分析研究需要解決可表示、可處理和可靠性三個關鍵問題。第三十四頁,共九十二頁。關鍵問題——可表示(biǎoshì)問題
例如,互聯網中的數據具有異質、異構、無結構開展趨勢;非結構化數據在互聯網大數據中占有的比例大幅增加;美國弗雷斯特研究公司Forrester〕分析師在2021年?政府今天所面臨的挑戰?報告中預計:“數據將會在今后的5年內增加8倍,其中非結構化數據在各組織機構的數據中所占份額超過70%到80%,并且這些非結構化數據的增長速度是結構化數據的10~50倍〞。從數據管理的角度看,非結構化數據很難按照統一的模型進行分析處理,比結構化數據處理難得多。因此,如何有效地表示(biǎoshì)這些非結構化數據成為首要問題。第三十五頁,共九十二頁??商幚韱栴}——數據規模急劇擴張,遠遠超越(chāoyuè)現有計算機處理能力圖靈獎獲得者吉姆·格雷〔JimGray〕和IDC公司曾預測,全球數據量每18個月翻一番。目前全球數據的存儲和處理能力已遠落后于數據的增長幅度。例如,淘寶網每日新增的交易(jiāoyì)數據達10TB;eBay分析平臺日處理數據量高達100PB,超過了美國納斯達克交易所全天的數據處理量;沃爾瑪是最早利用大數據分析并因此受益的企業之一,曾創造了“啤酒與尿布〞的經典商業案例?,F在沃爾瑪每小時處理100萬件交易,將有大約2.5PB的數據存入數據庫,此數據量是美國國會圖書館的167倍;微軟花了20年,消耗數百萬美元完成的Office拼寫檢查功能,谷歌公司那么利用大量統計數據直接分析實現。第三十六頁,共九十二頁??商幚韱栴}——數據處理需求(xūqiú)的多樣化逐漸顯現
相比支撐單業務類型的數據處理業務,公共數據處理平臺需要處理的大數據涉及在線(zàixiàn)/離線、線性/非線性,流數據和圖數據等多種復雜混合計算方式。例如,2021年Facebook首度公開其新數據處理分析平臺PUMA,通過對數據多處理環節區分優化,相比之前單純采用Hadoop和Hive進行處理的技術,數據分析周期從2天降到10秒之內,效率提高數萬倍。手段:云計算、高性能計算、大數據分析處理技術等第三十七頁,共九十二頁??煽啃詥栴}——大數據的可靠性,既需要數據清洗、去冗等技術提取有價值數據,實現數據質量高效管理;也涉及實現對數據的平安(píngān)訪問和隱私保護,是大數據可靠性的關鍵需求?;ヂ摼W開放性,使大數據在數據輸入時的質量確保和數據輸出時的隱私保護面臨考驗?;ヂ摼W的數據采集和發布更靈活,容易將各種類型的不確定數據大量引入系統,造成數據中含有各種各樣的錯誤和誤差,表達為數據不正確、不精確、不完全、過時(guò〃shí)陳舊或者重復冗余。據高德納公司〔Gartner〕統計,在全球財富1000強公司中有超過25%的公司關鍵數據不正確或不精確;在美國企業中有1%~30%的公司數據存在各類錯誤和誤差,僅就醫療數據而言,有13.6%~81%的關鍵數據遺缺或陳舊;數據是企業降低本錢、損失和增加收入不可或缺的工具。英國BT公司〔BritishTelecom〕因使用數據質量工具而創造的企業效益每年高達6億英鎊。用戶在享受數據價值的同時,也面臨日益嚴重的平安威脅和隱私風險。趨勢科技稱2021年為數據泄露年,國內CSDN網站被曝600萬用戶的數據庫信息數據保護不妥,導致用戶密碼泄露。據平安機構統計,此次隱私信息泄露涉及5000萬互聯網用戶。著名社會網絡Facebook的Beacon廣告系統可以追蹤到5500萬用戶在其他網站的活動,嚴重威脅用戶隱私信息。第三十八頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所39大數據(shùjù)技術的研究面臨(miànlíng)挑戰數據規模導致難以應對的存儲量和計算量數據規模導致傳統算法失效大數據復雜的數據關聯性導致高復雜度的計算根本原那么應用需求為導向領域交叉為橋梁計算技術為支撐通過并行計算、分布式處理以及集群計算技術來實現大數據量處理及多機分布式并行處理,以滿足應用的需求。Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.第三十九頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所40
核心——南京大學(nánjīnɡdàxué)黃宜華教授第四十頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所41行業(hángyè)應用開發層行業應用系統和效勞(xiàoláo)
大數據應用開發環境和工具大數據應用和效勞集成框架和接口大數據應用測試環境和工具大數據應用發布和運行環境第四十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所42應用(yìngyòng)算法/技術層研究社會網絡排名與推薦系統個性化推薦技術商業智能媒體分析檢索Web挖掘與搜索3維建模與科學計算可視化生物多樣性信息學自然語言處理(chǔlǐ)
其他第四十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所43社會(shèhuì)網絡社團發現(CommunityDetection)網絡建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(tuījiàn)(ClassificationandRecommendation)隱私平安(Privacy,SpamandSecurity)等第四十三頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所44排名與推薦(tuījiàn)系統常規排名(Ranking)多樣性排名(DiversifiedRanking)基于內容的推薦(Content-basedRecommendation)基于標簽的推薦(Tag-basedRecommendation)協同(xiétóng)過濾推薦(CollaborativeFilteringRecommendation)……第四十四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所45多媒體分析(fēnxī)檢索大規模圖像檢索(ImageRetrieval)大規模圖像分類(ImageClassification)目標檢測(ObjectRecognition)視頻(shìpín)異常行為檢測(AbnormalEventDetection)……第四十五頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所46WEB搜索(sōusuǒ)與數據挖掘深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網頁摘要(DocumentAutomaticSummarization)場景引擎:將用戶行為抽象(chōuxiàng)為與具體業務相關聯的場景……第四十六頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所47自然語言處理(chǔlǐ)機器翻譯(MachineTranslation)情感(qínggǎn)分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(QA)……第四十七頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所48三維建模與大數據(shùjù)可視化計算地質建模與分析(fēnxī)(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規模數據可視化計算與分析(ScaleVisualAnalytics)……第四十八頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所49根底算法(suànfǎ)/技術層研究大數據并行化機器學習和數據挖掘算法研究大數據處理并行化學習和挖掘算法不同并行模型(móxíng)下并行化學習和挖掘算法并行化機器學習和數據挖掘工具和平臺研究說明:基于大數據集的機器學習會取得更好的學習效果,這已是目前機器學習領域的共識。第四十九頁,共九十二頁。機器(jīqì)學習和數據挖掘算法分類(Classification)大規模支持向量機(LargeScaleSVM)神經網絡(NeuralNetwork)與深度(shēndù)計算樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)聚類(Clustering)關聯規那么挖掘……參數估計(ParametersEstimation)高維度數據(shùjù)降維(DimensionReduction)集成學習(EnsembleLearning)大圖數據算法圖聚類圖分類/圖劃分圖模式匹配(子圖同構、最大公共子圖…)2025/4/19NWU智能信息處理研究所50第五十頁,共九十二頁。四、大數據技術(jìshù)假設干關鍵問題大數據獲取、表示及傳輸領域應用/效勞需求/計算模型并行架構與計算平臺集群多核GPU及其集成云計算技術并行編程模型與計算框架MapReduceBSP并行計算框架大數據存儲技術預處理索引查詢數據表示與存儲管理DFS大數據智能處理技術機器(jīqì)學習與數據挖掘根底算法和應用2025/4/19NWU智能(zhìnénɡ)信息處理研究所51第五十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所52大數據(shùjù)獲取獲取極為困難——大數據在國家企業和社會層面成為重要的戰略資源;數據成為新的戰略制高點,是人們搶奪的新焦點;數據不斷成為機構的資產,成為提升機構和公司競爭力的有力武器建立多個領域的數據共享平臺,包括氣象、地震、林業、農業、海洋、人口與健康、地球系統科學數據等,數據共享應擴展到企業層面需要學科間的交叉融合——增強學科內、學科之間以及學術界與工業界之間的合作與交流等新型數據源——互聯網、云計算和物聯網的迅猛開展,無所不在的移動設備、RFID、無線傳感器每分每秒都在產生數據,數以億計用戶的互聯網效勞時刻在產生巨量的交互數據數據所有權,既是技術(jìshù)問題,也有法理問題解決途徑——保護多方利益的前提下解決數據共享問題隨處可見的攝像頭、傳感器、GPS定位等設備,會感知人們的位置等信息,借助大數據分析技術可以輕易獲得其行蹤規律,給人們生活帶來威脅;“云〞的經濟性,推動了海量并行處理破解密碼的可能性;“云〞商云集,使人們寄希望于他們是道德圣人,否那么損失將是災害性的!第五十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所53大數據表示關系數據庫曾經(céngjīng)是萬能的關系數據模型醫院信息管理系統(HIS)臨床信息系統(CIS)醫學影像信息系統(PACS)ICU監護系統電子病歷遠程健康監護平臺用藥管理系統虛擬醫院第五十三頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所54大數據表示——新型(xīnxíng)數據模型研究關系模型無法表達非結構化數據的復雜結構面向對象模型將具有相同靜態結構、動態(dòngtài)行為和約束條件的對象抽象為一類。能夠根據客觀世界的本來面貌描述各種對象,能夠表達對象間各種復雜關系。但缺乏堅實的理論根底,并且實現復雜分層式數據模型基于語義描述、底層特征和原始數據,但不能很好地表達各類非結構化數據的各組成局部的關系以及各類數據之間的關系需要建立一種將非結構化數據的文本描述性信息與特征等信息整體表達,并且能夠描述各種非結構化數據的統一的新型數據模型〔如ResourceDescriptionFramework,RDF研究〕第五十四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所55大數據存儲(cúnchǔ)
云計算技術是最理想的解決方案?。康谖迨屙?,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所56并行(bìngxíng)架構與計算平臺技術共享內存架構技術多核+GPU分布式內存架構技術集群混合式架構技術集群+多核集群+GPU大數據應用(yìngyòng)/云計算支撐平臺技術云計算架構及其平臺研究云存儲技術并行計算系統可靠性及容錯恢復技術數據訪問隱私保護和平安技術目前國際上學術界和工業界主要從系統軟件、體系結構、分布式系統等方面進行了改進和優化!內存數據庫及編譯器優化等技術增加內存、增加處理器、協處理器和增加I/O通道MapReduce或Hadoop架構第五十六頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所57并行編程模型(móxíng)與計算框架研究MapReduce應用及改進Hadoop性能優化MapReduce并行計算框架改進MapReduce在不同架構上的實現〔如眾核、GPU等〕BSP〔bulksynchronizedparallel〕基于BSP模型的并行處理框架大圖數據并行處理框架研究:基于圖劃分的分布式存儲pregel(Google)Trinity(微軟〕CUDA,MPI,OpenMP提升(tíshēng)可編程性定制式并行計算框架混合式并行計算模型和框架第五十七頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所58大數據(shùjù)存儲技術研究大數據預處理技術研究大數據采集與傳輸(chuánshū)清洗過濾和質量管理技術研究壓縮技術研究大數據索引和查詢技術研究靜態記錄型索引技術流式/增量式記錄型索引技術大數據表的高效關系型操作并行化查詢技術圖數據表示與查詢技術靜態圖數據的表示、存儲和查詢流式/增量式圖數據的表示、存儲與查詢查詢語言接口與技術SQL./NoSQL查詢語言接口并行查詢執行機制混合式數據表示及存儲機制研究
存儲管理模型研究數據表示與查詢等技術分布式數據庫技術
Hbase性能優化查詢與索引技術分布式存儲技術分布式文件系統
HDFS系統優化第五十八頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所59大數據處理技術(jìshù)
并行機器學習/數據挖掘算法研究分類算法SVM;NN;GA;EA;……聚類算法關聯發現參數估計高維度數據降維大圖數據挖掘算法:圖聚類,圖分類,圖模式匹配等……集成學習(xuéxí)深度學習……“大數據+簡單模型〞?第五十九頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所60大圖數據挖掘算法(suànfǎ)圖查詢:復雜對象識別、社交網絡和WEB網絡、生物數據分析、軟件代碼剽竊檢測;子圖查詢:凝聚子圖查詢、極大團、n-極大團、n-宗派、K-極大核圖聚類:預處理、數據挖掘圖分類:預處理、數據挖掘圖模式匹配:應用于生物學、生物化學、警覺、圖像和視頻、模式匹配等;圖同構、子圖同構、最大公共子圖算法、近似算法〔傳播算法、譜算法、優化算法等〕;靜態(jìngtài)圖匹配或動態圖匹配等第六十頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所61社會計算(jìsuàn)研究內容第六十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所62社會(shèhuì)計算研究內容第六十二頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所63群體(qúntǐ)智慧第六十三頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所64群體(qúntǐ)智慧第六十四頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所65群體(qúntǐ)智慧第六十五頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所66群體(qúntǐ)智慧第六十六頁,共九十二頁。社會(shèhuì)計算的由來第六十七頁,共九十二頁。社會(shèhuì)計算第六十八頁,共九十二頁。微博——話題跟蹤?輿情(yúqíng)分析?情感挖掘?第六十九頁,共九十二頁。微博數據處理技術(jìshù)研究微博(微信)數據分析及分析軟件研發是又一熱點?!矎倪\營角度:如監測用戶粘度、規模、活潑度、流量(liúliàng)等信息;聽眾數、轉播數、轉發率、平均評論次數;發布微博的方式:網頁、、客戶端;用戶的背景資料分析,地域、年齡、性別、學歷、職業、行業、薪酬情況等;從營銷角度:用戶分析,用戶引導等等〕。第七十頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所71例:數字腳印與城市(chéngshì)計算隨著感知、計算、通訊技術的日新月異,記錄人類日常行為軌跡、物理世界的動態變化以及人類與虛擬世界交互等的數字印跡正以前所未有的規模積累和擴張,形成了大數據,可把這些數據稱為“數字腳印〞。數字腳印除了出租車GPS軌跡、基于位置(wèizhi)的移動社交網絡數據和移動智能記錄等外,常見的還有城市公共自行車租借記錄、乘客公共交通刷卡記錄、城市居民家庭和機構用電用水記錄等。城市計算可概括為通過城市感知、數據挖掘、智能提取和效勞提供四大環節來建立一個生態循環系統。第七十一頁,共九十二頁。2025/4/19NWU智能(zhìnénɡ)信息處理研究所72城市(chéngshì)計算與大數據城市計算是一門新興的交叉領域,是計算機學科與傳統城市規劃、交通、能源、經濟、環境和社會學等多個領域在城市空間的交匯。根本框架包括城市感知及數據捕獲、數據管理、城市數據分析和效勞提供;城市感知:利用城市現有的資源〔如、傳感器、車輛和人等〕,在不干擾人們生活的前提下自動感知城市的韻律;海量異構數據的管理:城市產生的數據模態多,屬性差異大。如:氣象——空間點數據,道路——空間圖數據,人的移動——軌跡數據〔時間+空間〕,交通流量——流數據,社交網上用戶發布的信息——文本或圖像數據;異構數據的協同計算:(1)從不同的數據源中獲取相互增
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考生物213個易錯點匯編
- 貴州省遵義縣第一中學2010屆高三第三次聯考試卷(化學)掃描版
- 2025年研學旅行指導師職業技能認證模擬試題:研學旅行活動組織中的學生公民意識培養
- 2025年校園體育課考勤與體育課程改革措施
- 2025年商務英語BEC高級全真模擬試卷(商務談判與案例分析)-實戰應用版
- 初級工程師土木工程押題試卷(2025年版)
- 甘肅省隴南市禮縣聯考2024年三年級英語第二學期期中復習檢測模擬試題含答案
- 2025年高壓電工考試題庫:高壓設備維護保養計劃實操試題及答案
- 高中英語語法(虛擬語氣)2025年中考沖刺訓練試卷
- 法院強制執行培訓
- (正式版)JC∕T 60021-2024 石膏基自流平砂漿應用技術規程
- 日雜店購銷合同清單
- 非遺文化傳承課件
- 小程序合作協議書
- 天津市濱海新區2022-2023學年高二下學期期末數學試題(學生版)
- 交通安全與事故預防智慧樹知到期末考試答案章節答案2024年山東理工大學
- 辦公區域主要風險辨識與分級管控清單
- 新學位法專題講座課件
- 2024年遼寧鐵道職業技術學院單招職業技能測試題庫及答案解析
- 春夏秋冬主持稿
- 【危險化學品經營單位安全管理人員】考試600題及解析
評論
0/150
提交評論