大數據分析挖掘與應用課件_第1頁
大數據分析挖掘與應用課件_第2頁
大數據分析挖掘與應用課件_第3頁
大數據分析挖掘與應用課件_第4頁
大數據分析挖掘與應用課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據分析、挖掘與應用數據挖掘與智能信息系統實驗室

大數據分析、挖掘與應用數據挖掘一、大數據分析與挖掘

大數據的基本概念比較有代表性:

1)3V定義,即認為大數據需滿足3個特點:規模性(Volume)、多樣性(Variety)和高速性(Velocity)。

2)4V定義,即嘗試在3V的基礎上增加一個新的特性。關于第四個V的說法并不統一,IDC認為大數據還應當具有價值性(Value),大數據的價值往往呈現出稀疏性的特點。而IBM認為大數據必然具有真實性(Veracity)。

3)維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。一、大數據分析與挖掘大數據的基本概念二、大數據處理架構大數據處理模式

1)流處理(StreamProcessing),即直接處理流處理的基本理念是數據的價值會隨著時間的流逝而不斷減少。因此,盡可能快地對最新的數據做出分析并給出結果是所有流數據處理模式的共同目標。

2)批處理(BatchProcessing),即先存儲后處理

Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。

二、大數據處理架構大數據處理模式

MAPREDUCE執行流程圖

MAPREDUCE執行流程圖

MapReduce模型首先將用戶的原始數據源進行分塊,然后分別交給不同的Map任務區處理。Map任務從輸入中解析出Key/Value對集合,然后對這些集合執行用戶自行定義的Map函數得到中間結果,并將該結果寫入本地硬盤。Reduce任務從硬盤上讀取數據之后,會根據key值進行排序,將具有相同key值的組織在一起。最后用戶自定義的Reduce函數會作用于這些排好序的結果并輸出最終結果。

MapReduce模型首先將用戶的原始數據

MapReduce的核心設計思想:

1)將問題分而治之;

2)把計算推到數據而不是把數據推到計算,有效的避免數據傳輸過程中產生的大量通訊開銷。

MapReduce模型簡單,且現實中很多問題都可用MapReduce模型來表示。因此該模型公開后,立刻受到極大的關注,并在生物信息學、文本挖掘等領域得到廣泛的應用。MapReduce的核心設計思想:大數據處理的基本流程

1)數據抽取與集成

2)數據分析面臨著一些新的挑戰:數據量大并不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多;大數據時代的算法需要進行調整,準確率不再是大數據應用的最主要指標;數據結果好壞的衡量。

3)數據解釋(可視化技術)大數據處理的基本流程大數據分析挖掘與應用課件三、天體光譜大數據分析與挖掘

我國已建造一臺大天區面積多目標光纖光譜望遠鏡(LAMOST),是國家重大科學工程項目,也是世界上光譜獲取率最高的望遠鏡。預計LAMOST所觀測到的光譜數據容量將有可能達到4TB;巡天所覆蓋的波段為3700埃至9000埃,即其觀測屬性可達數千維,是典型的高維數據;數據類型:圖像和FITS文件等。科學目標:“星系紅移巡天”、“恒星和銀河系的結構特征”和“多波段認證”。

天體光譜大數據分析處理主要內容:預處理(去噪、歸一化等)、分類與識別、測量(紅移等參數)等。三、天體光譜大數據分析與挖掘我國已建

一條SEYFERT2光譜數據圖(紅移為0)

天體光譜是天體電磁輻射按照波長的有序排列,蘊含著天體的重要物理信息,例如:天體的化學成份、天體的表面溫度、直徑、質量、光度以及天體的視向運動和自轉。天文學家和天體物理學家通過分析天體光譜的信息,不僅可以研究宇宙中物質的分布特征,還可以研究天體的形成和隨時間的演化等重大科學問題。一條SE

由于天文界對宇宙的認識還比較有限,LAMOST巡天計劃的一個重要任務是要發現一些新的、特殊類型的天體,因此,如何利用數據挖掘技術從海量天體光譜數據中發現未知的、特殊的天體及天體規律是數據挖掘值得研究和探索的新應用領域。

面向特定任務的數據挖掘是當前數據挖掘領域發展的趨勢之一。以LAMOST項目為背景,對天體光譜數據挖掘技術進行了研究,其研究成果不僅具有重要的理論價值,而且可直接應用到LAMOST中,為國家重大科學工程提供技術支撐。由于天文界對宇宙的認識還比較有限,LA近年來主持承擔的部分課題[1]海量高維天體光譜數據挖掘及其并行化研究(61272263),國家自然科學基金,2013.1-2016.12,(在研)[2]面向LAMOST天文光譜特征線的數據挖掘方法研究(61073145),國家自然科學基金,2011.1-2013.12,(在研)[3]面向天文光譜的數據挖掘算法性能分析與并行化研究(61111120317),國家自然科學基金委國際合作與交流項目,2011.6-2011.12,(結題)[4]基于加權和約束概念格的數據挖掘方法與天體光譜數據挖掘技術(60773014),國家自然科學基金,2008.1-2010.12,(結題)[5]基于數據網格的分布式數據挖掘方法研究(60911120478),國家自然科學基金委國際合作與交流項目,2009.9-2010.3,(結題)[6]基于背景知識的數據挖掘方法及其在LAMOST中的應用(60573075),國家自然科學基金,2006.1-2008.12,(結題)[7]海量天體光譜數據挖掘算法研究與實現(2003AA133060),國家“863”高技術計劃子課題,2003.8-2005.8(結題)近年來主持承擔的部分課題[1]海量高維天體光譜數據挖掘及其主要成果之一:

基于概念格的天體光譜離群數據挖掘系統

將概念格中每個概念節點內涵描述為天體光譜數據特征子空間,提出了一種天體光譜離群數據識別方法。首先將概念節點的內涵縮減看作天體光譜特征子空間,并依據稀疏度系數閾值確定稀疏子空間;其次對于稀疏子空間,依據稠密度系數判定祖先概念節點內涵是否為稠密子空間,進而判斷出概念節點外延中包含的數據對象是否為天體光譜離群數據;最后以離散化天體光譜數據作為形式背景,實驗驗證了利用該方法識別出的天體光譜離群數據是準確的、完備的和有效的。主要成果之一:

基于概念格的天體光譜離群數據挖掘系統大數據分析挖掘與應用課件典型論文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience(accept)[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2012):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2009,30(15):1434-1439[4]張繼福;張素蘭;蔣義勇.基于約束概念格的天體光譜局部離群數據挖掘系統,光譜學與光譜分析,2009,29(2):551-555[5]張繼福等.基于概念格的天體光譜離群數據識別方法,自動化學報,2008,34(9):1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2008,4(9):2263-2271典型論文[1]JifuZhang,SulanZhan主要成果之二:

天體光譜數據相關性分析系統

以國家重大科學工程LAMOST項目為背景,利用一階謂詞邏輯作為天體光譜知識表示技術,提出了一種約束FP樹及其構造算法,從而有效地提高了天體光譜數據相關性分析的針對性和效率,并在此基礎上,提出了一種基于約束FP樹的天體光譜數據相關性分析方法。實驗結果分析表明,利用該相關性分析方法挖掘天體光譜數據特征和物理化學性質之間存在的相關性,是可行的和有價值的。主要成果之二:

天體光譜數據相關性分析系統大數據分析挖掘與應用課件典型論文[1]JifuZhang,XujunZhao,SulanZhang,ShuYin,andXiaoQin.InterrelationAnalysisofCelestialSpectraDatausingConstrainedFrequentPatternTrees,Knowledge-BasedSystems41(2013):77-88.[2]JianghuiCai,XujunZhao,ShiweiSun,JifuZhang,HaifengYang.Stellarspectraassociationruleminingmethodbasedonweightedfrequentpatterntree.ResearchinAstronomyandAstrophysics,2013,13(3):334-342[3]張繼福;趙旭俊.一種基于約束FP樹的天體光譜數據相關性分析方法,模式識別與人工智能,2009,22(4):639-646[4]趙旭俊;張繼福.基于約束FP樹的天體光譜數據相關性分析系統研究,光譜學與光譜分析,2008,28(12):2996-2999[5]張繼福;趙旭俊.基于關聯規則的恒星光譜數據相關性分析,高技術通訊,2006,16(6):575-579典型論文[1]JifuZhang,XujunZhao其他成果:天體光譜數據模糊聚類及其并行化系統基于智能計算、剪枝技術和屬性相關性的離群數據挖掘及其并行化方法天體光譜數據分類與識別系統

………其他成果:天體光譜數據模糊聚類及其并行化系統四、正在開展的主要研究工作基于MapReduce模型的天體光譜大數據并行挖掘技術(聚類、離群、關聯等)集群環境下的數據密集型計算關鍵技術(數據放置策略、I/O性能分析、負載均衡調度策略、磁盤節能等)海量高維數據挖掘算法與天體光譜數據挖掘技術四、正在開展的主要研究工作基于MapReduce模型的天體光

大數據分析、挖掘與應用數據挖掘與智能信息系統實驗室

大數據分析、挖掘與應用數據挖掘一、大數據分析與挖掘

大數據的基本概念比較有代表性:

1)3V定義,即認為大數據需滿足3個特點:規模性(Volume)、多樣性(Variety)和高速性(Velocity)。

2)4V定義,即嘗試在3V的基礎上增加一個新的特性。關于第四個V的說法并不統一,IDC認為大數據還應當具有價值性(Value),大數據的價值往往呈現出稀疏性的特點。而IBM認為大數據必然具有真實性(Veracity)。

3)維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。一、大數據分析與挖掘大數據的基本概念二、大數據處理架構大數據處理模式

1)流處理(StreamProcessing),即直接處理流處理的基本理念是數據的價值會隨著時間的流逝而不斷減少。因此,盡可能快地對最新的數據做出分析并給出結果是所有流數據處理模式的共同目標。

2)批處理(BatchProcessing),即先存儲后處理

Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。

二、大數據處理架構大數據處理模式

MAPREDUCE執行流程圖

MAPREDUCE執行流程圖

MapReduce模型首先將用戶的原始數據源進行分塊,然后分別交給不同的Map任務區處理。Map任務從輸入中解析出Key/Value對集合,然后對這些集合執行用戶自行定義的Map函數得到中間結果,并將該結果寫入本地硬盤。Reduce任務從硬盤上讀取數據之后,會根據key值進行排序,將具有相同key值的組織在一起。最后用戶自定義的Reduce函數會作用于這些排好序的結果并輸出最終結果。

MapReduce模型首先將用戶的原始數據

MapReduce的核心設計思想:

1)將問題分而治之;

2)把計算推到數據而不是把數據推到計算,有效的避免數據傳輸過程中產生的大量通訊開銷。

MapReduce模型簡單,且現實中很多問題都可用MapReduce模型來表示。因此該模型公開后,立刻受到極大的關注,并在生物信息學、文本挖掘等領域得到廣泛的應用。MapReduce的核心設計思想:大數據處理的基本流程

1)數據抽取與集成

2)數據分析面臨著一些新的挑戰:數據量大并不一定意味著數據價值的增加,相反這往往意味著數據噪音的增多;大數據時代的算法需要進行調整,準確率不再是大數據應用的最主要指標;數據結果好壞的衡量。

3)數據解釋(可視化技術)大數據處理的基本流程大數據分析挖掘與應用課件三、天體光譜大數據分析與挖掘

我國已建造一臺大天區面積多目標光纖光譜望遠鏡(LAMOST),是國家重大科學工程項目,也是世界上光譜獲取率最高的望遠鏡。預計LAMOST所觀測到的光譜數據容量將有可能達到4TB;巡天所覆蓋的波段為3700埃至9000埃,即其觀測屬性可達數千維,是典型的高維數據;數據類型:圖像和FITS文件等。科學目標:“星系紅移巡天”、“恒星和銀河系的結構特征”和“多波段認證”。

天體光譜大數據分析處理主要內容:預處理(去噪、歸一化等)、分類與識別、測量(紅移等參數)等。三、天體光譜大數據分析與挖掘我國已建

一條SEYFERT2光譜數據圖(紅移為0)

天體光譜是天體電磁輻射按照波長的有序排列,蘊含著天體的重要物理信息,例如:天體的化學成份、天體的表面溫度、直徑、質量、光度以及天體的視向運動和自轉。天文學家和天體物理學家通過分析天體光譜的信息,不僅可以研究宇宙中物質的分布特征,還可以研究天體的形成和隨時間的演化等重大科學問題。一條SE

由于天文界對宇宙的認識還比較有限,LAMOST巡天計劃的一個重要任務是要發現一些新的、特殊類型的天體,因此,如何利用數據挖掘技術從海量天體光譜數據中發現未知的、特殊的天體及天體規律是數據挖掘值得研究和探索的新應用領域。

面向特定任務的數據挖掘是當前數據挖掘領域發展的趨勢之一。以LAMOST項目為背景,對天體光譜數據挖掘技術進行了研究,其研究成果不僅具有重要的理論價值,而且可直接應用到LAMOST中,為國家重大科學工程提供技術支撐。由于天文界對宇宙的認識還比較有限,LA近年來主持承擔的部分課題[1]海量高維天體光譜數據挖掘及其并行化研究(61272263),國家自然科學基金,2013.1-2016.12,(在研)[2]面向LAMOST天文光譜特征線的數據挖掘方法研究(61073145),國家自然科學基金,2011.1-2013.12,(在研)[3]面向天文光譜的數據挖掘算法性能分析與并行化研究(61111120317),國家自然科學基金委國際合作與交流項目,2011.6-2011.12,(結題)[4]基于加權和約束概念格的數據挖掘方法與天體光譜數據挖掘技術(60773014),國家自然科學基金,2008.1-2010.12,(結題)[5]基于數據網格的分布式數據挖掘方法研究(60911120478),國家自然科學基金委國際合作與交流項目,2009.9-2010.3,(結題)[6]基于背景知識的數據挖掘方法及其在LAMOST中的應用(60573075),國家自然科學基金,2006.1-2008.12,(結題)[7]海量天體光譜數據挖掘算法研究與實現(2003AA133060),國家“863”高技術計劃子課題,2003.8-2005.8(結題)近年來主持承擔的部分課題[1]海量高維天體光譜數據挖掘及其主要成果之一:

基于概念格的天體光譜離群數據挖掘系統

將概念格中每個概念節點內涵描述為天體光譜數據特征子空間,提出了一種天體光譜離群數據識別方法。首先將概念節點的內涵縮減看作天體光譜特征子空間,并依據稀疏度系數閾值確定稀疏子空間;其次對于稀疏子空間,依據稠密度系數判定祖先概念節點內涵是否為稠密子空間,進而判斷出概念節點外延中包含的數據對象是否為天體光譜離群數據;最后以離散化天體光譜數據作為形式背景,實驗驗證了利用該方法識別出的天體光譜離群數據是準確的、完備的和有效的。主要成果之一:

基于概念格的天體光譜離群數據挖掘系統大數據分析挖掘與應用課件典型論文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience(accept)[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2012):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2009,30(15):1434-1439[4]張繼福;張素蘭;蔣義勇.基于約束概念格的天體光譜局部離群數據挖掘系統,光譜學與光譜分析,2009,29(2):551-555[5]張繼福等.基于概念格的天體光譜離群數據識別方法,自動化學報,2008,34(9):1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2008,4(9):2263-2271典型論文[1]JifuZhang,SulanZhan主要成果之二:

天體光譜數據相關性分析系統

以國家重大科學工程LAMOST項目為背景,利用一階謂詞邏輯作為天體光譜知識表示技術,提出了一種約束FP樹及其構造算法,從而有效地提高了天體光譜數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論