




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
海量天文數(shù)據(jù)挖掘的研究現(xiàn)狀和進展概要必要性概念技巧問題展望文獻大型巡天導致天文學步入
一個新的時代大多數(shù)數(shù)據(jù)大的人們無法看許多知識被數(shù)據(jù)的復雜性所掩蓋而難以獲得大部分數(shù)據(jù)人們是無法直接理解的
這就需要存儲技術、網(wǎng)絡技術、數(shù)據(jù)庫相關技術和標準等大多(不是所有的)經(jīng)驗關系是建立在3維參數(shù)空間基礎上的,如橢圓和核球星系的基平面。宇宙就是這么簡單還是人類認知的偏見??這就需要數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、數(shù)據(jù)理解技術、超高維可視化、人工智能/機器幫助的發(fā)現(xiàn)數(shù)據(jù)挖掘是幫助和加速科學發(fā)現(xiàn)過程的利器!●大數(shù)據(jù)●機器學習
●可視化
●云服務天文數(shù)據(jù)的特點
空間性
多波段性
海量性
非線性
異構性
缺值性或壞標記
分布性
高維性
時序性
開放性海量數(shù)據(jù)NVO(IVOA)注冊的數(shù)據(jù)資源有~14,000一些大型的天文數(shù)據(jù)庫包括NASA空間天文項目已經(jīng)完成或正在進行的大型天文巡天項目,如:MACHO和相關的暗物質巡天:~1TBDPOSS:3TB2MASS:10TBGALEX:30TBSDSS:40TB將來的巨型巡天項目,如:PanSTARRS:每晚
10TB,預計最終40PBLSST(LargeSynopticSurveyTelescope):2018開始運行,with3-Gigapixelcamera每30秒10GB每晚30TB,持續(xù)十年預計最終的圖像數(shù)據(jù)100PB–所有數(shù)據(jù)公開!!!預計最終的星表數(shù)據(jù)30PB實時事件挖掘:每晚事件10,000-100,000個,持續(xù)十年每三晚巡全天一次:制作天體的電影數(shù)據(jù)的大小和增長速度都在持續(xù)增長人類基因序列由約三十億個堿基對組成。存儲要求:約750兆15億個傳感器每秒傳輸四千萬次數(shù)據(jù)流:約每秒700MB,約每天15PB來自34個國家的1000名科學家參與該項目成千上萬的小型天線陣分布在三千多米范圍內數(shù)據(jù)流:約每秒60GB,一天一百萬PBSKA超級計算機約1億臺,每秒要執(zhí)行1018次操作天文數(shù)據(jù)的常用類型
光譜數(shù)據(jù)
圖像數(shù)據(jù)
星表數(shù)據(jù)
時序數(shù)據(jù)
模擬數(shù)據(jù)星系的圖像和光譜、恒星和氣體的光譜天文學:數(shù)據(jù)驅動的科學天文學:是發(fā)現(xiàn)驅動的科學
?驅動發(fā)現(xiàn)的因素:–新問題–新的思想–新模型–新理論–更重要的是新數(shù)據(jù)!
天文學:是發(fā)現(xiàn)驅動的科學?發(fā)現(xiàn)導致:–新的問題–新思想–新模型–新理論–更重要的是
...更多的新數(shù)據(jù)!?因此,需要更有效的挖掘和分析算法或工具天文學家一直在從事數(shù)據(jù)挖掘
“Thedataaremine,andyoucan’thavethem!”?嚴格意義上講...?天文學家喜歡對事物進行分類...
(監(jiān)督學習.如,分類)?天文學家喜歡對事物歸類...
(非監(jiān)督學習.如,聚類)?天文學家更希望發(fā)現(xiàn)新的天體或現(xiàn)象...(半監(jiān)督學習.如,離群探測)天文中的數(shù)據(jù)挖掘課題過去:
100到1000個獨立的分布的異構數(shù)據(jù)/元數(shù)據(jù)/信息庫.目前:天文數(shù)據(jù)可以從融合的分布資源中獲得,如虛擬天文臺.將來:
隨著大型巡天項目的發(fā)展,天文學在未來將越來越成為數(shù)據(jù)密集型的科學.挑戰(zhàn):
越來越難于將數(shù)據(jù)傳輸?shù)接脩簟?/p>
算法移植到數(shù)據(jù)!天文學研究的轉變科學研究的四個階段數(shù)據(jù)驅動到數(shù)據(jù)密集天文學一直以來就是數(shù)據(jù)驅動的科學現(xiàn)在成為數(shù)據(jù)密集型的科學:
天文信息學(Astroinformatics
)!面向數(shù)據(jù)的天文學研究=“第四范式”科學知識發(fā)現(xiàn)大數(shù)據(jù)集的優(yōu)點:很好地統(tǒng)計分析典型或特殊事件自動搜尋稀有事件ScientificKnowledge!第四范式:數(shù)據(jù)密集型的科學發(fā)現(xiàn)科學是數(shù)據(jù)密集型的定義數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
巨量價值
EDPMISDSS知識發(fā)現(xiàn)的優(yōu)點產(chǎn)生快速響應發(fā)布EDP:電子數(shù)據(jù)加工MIS:管理信息系統(tǒng)DSS:決策支持系統(tǒng)數(shù)據(jù)挖掘—知識發(fā)現(xiàn)(KDD)過程的核心數(shù)據(jù)清潔數(shù)據(jù)融合數(shù)據(jù)庫數(shù)據(jù)倉庫知識特定任務的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估數(shù)據(jù)挖掘:知識發(fā)現(xiàn)的過程星表和元數(shù)據(jù)數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其它學科信息科學機器學習&人工智能可視化數(shù)據(jù)挖掘:多學科的交叉學科
KDD:機遇和挑戰(zhàn)
數(shù)據(jù)豐富知識貧乏驅動技術:(互動的管理信息系統(tǒng),OLAP,并行計算,Web,etc.)競爭的壓力數(shù)據(jù)挖掘技術的成熟KDD人工神經(jīng)網(wǎng)絡支持矢量機決策樹
遺傳算法近鄰算法規(guī)則推導
粗糙集數(shù)據(jù)挖掘的常用技術數(shù)據(jù)總結分類分析聚類分析回歸分析關聯(lián)規(guī)則分析序列模式分析依賴關系分析偏差分析模式分析或統(tǒng)計分析時序數(shù)據(jù)分析其它數(shù)據(jù)挖掘的任務分類分析定義按照某種規(guī)則,新的數(shù)據(jù)被劃分到已知類別中的一類。這個規(guī)則是通過具有標簽的數(shù)據(jù)進行監(jiān)督學習獲得的。應用恒星分成不同的光譜型,星系按哈勃或形態(tài)分類,活動星系核進一步細分,等等方法神經(jīng)網(wǎng)絡決策樹Na?veBayesianNetworks支持矢量機學習矢量量化遺傳算法…….采用何種分類器?分類器可以沿幾個正交的軸來訓練,探索所有的維數(shù)比較困難不同的任務需要不同的分類器來實現(xiàn).分類算法決策樹,OC1神經(jīng)網(wǎng)絡最近鄰規(guī)則或其他算法觀測參量流量,位置,色參數(shù),變化參量,空間擴展,…X射線,可見光,紅外,...訓練樣本W(wǎng)GACAT,ROSATAllSkySurvey,...分類粗分:恒星vs.河外天體細分:A0vs.B0…,AGNvs.QSOvs.星系聚類分析定義:按照某種規(guī)律聚在一起的稱為一類。所用的數(shù)據(jù)是無標簽的,通過非監(jiān)督的學習方式訓練數(shù)據(jù),類間的差異盡可能地大,而類內的差異盡可能地小。應用:SDSS的雙色圖恒星聚在一塊如香蕉狀,類星體則偏離該區(qū)域。方法:K均值聚類Hierarchicalclustering預期最大算法(ExpectationMaximizationalgorithm)高斯混合模型(Gaussianmixturemodeling)主成分分析……優(yōu)越性新的概念(Conceptdiscovery)點滴知識(Bootstrappingknowledge)聚類分析1Djorgovski,etal.基本的天文問題
–1聚類問題:在數(shù)據(jù)集中查找聚類的天體統(tǒng)計意義和科學意義上各個類別的重要性是什么?找“朋友的朋友”或近鄰的最優(yōu)算法?N>1010,如何有效地排序、分類?維數(shù)~1000–因此,若干子空間搜索問題是否存在兩點或更高階的相關性?N>1010,N-point相關怎么做?與N2logN成正比的算法顯然不能用基本的天文問題
–2離群探測:(未知的未知)找到那些超出我們預期的天體或事件(不屬于已知類別)這些有可能是真正的科學發(fā)現(xiàn)或垃圾因此,離群探測可用于:新奇發(fā)現(xiàn)–Nobelprize?異常探測–探測系統(tǒng)是否正常工作?數(shù)據(jù)質量保證–數(shù)據(jù)流是否正常工作?在1000維空間中或感興趣的子空間(低維空間)中,如何最優(yōu)化地探測到離群?怎樣衡量“興趣度”?降維問題:尋找相關性和參數(shù)的基平面維數(shù)成千上萬維災!參數(shù)之間的相關性?線性或非線性混合?本征值或緊致表示是否可以代表整個數(shù)據(jù)集的性質?基本的天文問題
–3基本的天文問題
–4疊加和分解問題:在參數(shù)空間中重疊的天體找出它們的所屬類別假設1010
天體在1000維空間中重疊怎么辦?如何最優(yōu)地分解和抽取不同類型的天體?一些約束條件如何應用?最優(yōu)化問題:在高維參數(shù)空間中如何找到復雜的多變量函數(shù)的最優(yōu)解(最佳擬合、全局最大似然)基本的天文問題
–5為什么需要分布的數(shù)據(jù)挖掘?由于…
“JustChecking”…
許多重大的科學發(fā)現(xiàn)產(chǎn)生于多數(shù)據(jù)源的交叉證認:--類星體--Gamma-raybursts--極亮紅外星系--X射線黑洞雙星--射電星系
...天文數(shù)據(jù)的分布性
不同的人、研究所、項目、國家、機構,…數(shù)據(jù)的異構性(如,數(shù)據(jù)庫,圖像,星表,文件系統(tǒng),網(wǎng)頁,文檔數(shù)據(jù)圖書館,二進制,文本,結構的,非結構的,…)天文學家要查詢和挖掘這些數(shù)據(jù)需要進行兩步操作盡管虛擬天文臺驅動數(shù)據(jù)發(fā)現(xiàn)和融合,但是仍然不能有助于大型數(shù)據(jù)挖掘的開展分布的數(shù)據(jù)挖掘分布的數(shù)據(jù)挖掘有兩種類型:分布的挖掘數(shù)據(jù)挖掘分布的數(shù)據(jù)第一類要求復雜的算法移植到數(shù)據(jù)第二類多種形式,數(shù)據(jù)整體存放或分割上集中,或者數(shù)據(jù)分布存放在不同的地方實踐數(shù)據(jù)挖掘線性或非線性高斯或非高斯連續(xù)或離散是否存在缺值對比特征和樣本數(shù)按照數(shù)據(jù)挖據(jù)的任務和特征,選擇合適的數(shù)據(jù)挖掘算法未來天文數(shù)據(jù)的挑戰(zhàn)統(tǒng)計、計算和挖掘方法用于peta-和exa-量級的可擴張性在海量多維數(shù)據(jù)空間中同時多點擬合的算法優(yōu)化用于探索PB級數(shù)據(jù)的緊致表示的多分辨率、多級、分形、分級方法和結構PB量級數(shù)據(jù)的可視化分析(包括特征探測,模型和有趣事件或天體的發(fā)現(xiàn),相關關系、聚類,新類型天體的發(fā)現(xiàn),降維)高維PB級數(shù)據(jù)的索引和聯(lián)合存儲技巧(樹、圖、網(wǎng)絡拓撲)PB級數(shù)據(jù)庫的快速查詢和搜索方法最為成功的巡天項目SDSS發(fā)表SCI論文5600余篇最為成功的巡天項目SDSSSDSS是斯隆數(shù)字化巡天(SloanDigitalSkySurvey)項目的簡稱,是美國、日本和德國的八個大學和研究所的合作項目。SDSS使用了一架口徑為2.5米的光學望遠鏡,這樣的望遠鏡在世界上算是中小型的,但它配備的儀器則是世界領先的。1.是用于成像巡天的大型拼接CCD相機,在相機中有30個CCD組成了成像部分,觀測時可以同時得到五個波段上的天空圖像;在相機中還有20個CCD用于天體的精確位置測量。2.兩臺光纖光譜儀,可以同時測量640個天體的光譜。3.除了2.5米望遠鏡外,SDSS還配備了其它輔助的設備,一個是用于對巡天圖像進行光度定標的口徑為0.5米的測光望遠鏡,另外還有用于對天文觀測條件進行監(jiān)測的“視寧度監(jiān)視儀”和“紅外云量照相機”等儀器。最為成功的巡天項目SDSS在SDSS的巡天計劃中,將對北銀極球冠部分的一萬平方度的天區(qū)進行五個波段上的成像觀測,該天區(qū)占整個天空的四分之一,是銀河系星際物質對光線的吸收效應最小的天區(qū)。同時,SDSS也將對南銀極球冠部分的三塊小天區(qū)進行成像巡天。SDSS成像巡天的深度和觀測到的天體數(shù)目將達到前所未有的水平,它將觀測到所有亮于23星等的天體,主要包括約五千萬個星系、一百萬顆類星體和八千萬顆恒星。SDSS巡天的幾個應用對一百萬個星系進行光譜觀測,有了星系光譜就能得到星系的紅移,根據(jù)紅移就有可以確定星系的距離,由此可以得到星系在宇宙中的三維分布利用SDSS成像巡天所得到的上億個天體的參數(shù),可以將星系和類星體從中挑選出來。例如,利用天體形態(tài)的延展性來挑選出星系,而利用天體的五色星等可以將類星體從絕大多數(shù)恒星中區(qū)分出來………………SDSS的主要科學發(fā)現(xiàn)
發(fā)現(xiàn)紅移高于6的類星體
褐矮星
引力透鏡
銀河系的子結構
小的低表面亮度星系
超高速星
重子聲波振蕩
小行星家族SDSS成功的原因
天文學家與微軟研究院的合作
儀器設備一流
產(chǎn)生的數(shù)據(jù)質量一流
數(shù)據(jù)的獲取和應用方便
研究社區(qū)的巨大投入
廣泛的探索而非盲目的探索大數(shù)據(jù)時代,標著著天文學家獨自搞科研的時代結束!分享、合作、共贏是大數(shù)據(jù)時代的主旋律!成功的數(shù)據(jù)挖掘項目(I)http://dame.dsf.unina.it/●
測光紅移估計●球狀星團搜尋●多波段測光暫源分類●天文圖像分割/vostat/成功的數(shù)據(jù)挖掘項目(II)VOSTATStatisticalAnalysisfortheVirtualObservatory
VOStat項目通過網(wǎng)頁服務為天文學家提供了一套工具。天文學家可以按照需要調用簡單的或復雜的程序來實現(xiàn)自己的任務。這套工具是基于大的開源的統(tǒng)計計算語言和環(huán)境R開發(fā)的。所有的統(tǒng)計計算在VOStat的服務器端進行,算完后再傳給用戶。天文會議或組織ADASS(TheAstronomicalData
AnalysisSoftwareandSystems)ADA(TheAstronomicalDataAnalysis)SummerSchoolinStatisticsforAstronomersStatisticalChallengesinModernAstronomyAstroinformatics
AstrostatisticsAstrostatisticsandAstroinformaticsPortalASAIP:
數(shù)據(jù)挖掘的參考文獻(I)“FromDataMiningToKnowledgeDiscovery:AnOverview.”
Fayyad,U.M.,Piatetsky-Shapiro,G.,andSmyth,P.
InAdvancesInKnowledgeDiscoveryAndDataMining,eds.U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,AAAIPress/TheMITPress,MenloPark,CA.,1996,pp.1-34.“DataMiningandMachineLearninginAstronomy”,
Ball,
Nicholas
M.;Brunner,
Robert
J.InternationalJournalofModernPhysicsD,Volume19,Issue07,pp.1049-1106(2010).
■“ScientificDataMininginAstronomy”
Borne,
Kirk
eprintarXiv:0911.0505■“DataMiningandDiscoveryofAstronomicalKnowledge”
Al-Naymat,
Ghazi
ScientificDataMiningandKnowledgeDiscovery,,Volume.ISBN978-3-642-02789-5.Springer-VerlagBerlinHeidelberg,2009,p.319數(shù)據(jù)挖掘的參考文獻(II)“數(shù)據(jù)挖掘技術在天文學中的應用”
張彥霞趙永恒.
科研信息化技術與應用,2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東石油化工學院招聘輔導員考試真題2024
- 郴州市蘇仙區(qū)招聘社區(qū)專職工作者考試真題2024
- 2025-2030中國資產(chǎn)管理行業(yè)市場深度調研及競爭格局與投資研究報告
- 食品考試試題及答案25題
- 文化遺產(chǎn)數(shù)字化展示2025年傳播策略與用戶體驗分析報告
- 探究2025年模具制造中數(shù)字化設計與仿真技術的融合應用報告
- 2025-2030中國蛋粉市場營銷策略分析與投資效益研究研究報告
- 工作報告智慧
- 2025-2030中國營運資金管理行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030中國茶油行業(yè)市場深度調研及競爭格局與投資前景研究報告
- 2025年國際關系與外交專業(yè)考試試題及答案
- 2025年物流行業(yè)安全生產(chǎn)考試題庫(物流安全生產(chǎn)法規(guī)與事故處理)試題
- 燈謎文化智慧樹知到期末考試答案章節(jié)答案2024年西安交通大學
- 模擬電子技術基礎智慧樹知到期末考試答案章節(jié)答案2024年北京航空航天大學
- 安全主題班會 《防洪防汛知識講解》教學課件
- GB∕T 1727-2021 漆膜一般制備法
- 初中生休學申請書
- 業(yè)主委員會成立全套表格(20210128041538)
- 中國石油大學華東本科畢業(yè)設計論文參考模板
- 微邦生物技術工業(yè)污水處理中的應用
- 重慶市地質災害危險性評估報告編制技術要求
評論
0/150
提交評論