大數據可視化理論及技術_第1頁
大數據可視化理論及技術_第2頁
大數據可視化理論及技術_第3頁
大數據可視化理論及技術_第4頁
大數據可視化理論及技術_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據可視化理論及技術(一)大數據可視分析綜述可視分析是大數據分析的重要方法。大數據可視分析旨在利用計算機自動化分析能力的同時,充分挖掘人對于可視化信息的認知能力優勢,將人、機的各自強項進行有機融合,借助人機交互式分析方法和交互技術,輔助人們更為直觀和高效地洞悉大數據背后的信息、知識與智慧。主要從可視分析領域所強調的認知、可視化、人機交互的綜合視角出發,分析了支持大數據可視分析的基礎理論,包括支持分析過程的認知理論、信息可視化理論、人機交互與用戶界面理論。在此基礎上,討論了面向大數據主流應用的信息可視化技術——面向文本、網絡(圖)、時空、多維的可視化技術。同時探討了支持可視分析的人機交互技術,包括支持可視分析過程的界面隱喻與交互組件、多尺度/多焦點/多側面交互技術、面向Post-WIMP的自然交互技術。最后,指出了大數據可視分析領域面臨的瓶頸問題與技術挑戰。二)大數據分析工具大數據是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬件和軟件工具進行處理。該數據集通常是萬億或EB的大小。這些數據集收集自各種各樣的來源:傳感器,氣候信息,公開的信息,如雜志,報紙,文章。大數據產生的其他例子包括購買交易記錄,網絡日志,病歷,軍事監控,視頻和圖像檔案,及大型電子商務。在大數據和大數據分析,他們對企業的影響有一個興趣高漲。大數據分析是研究大量的數據的過程中尋找模式,相關性和其他有用的信息,可以幫助企業更好地適應變化,并做出更明智的決策。大數據分析的常用工具通常有以下介紹的幾種。4.2.1HadoopHadoop是一個能夠對大量數據進行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴于社區服務器,因此它的成本比較低,任何人都可以使用。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。4.2.2HPCCHPCC,HighPerformanceComputingandCommunications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟件,以支持太位級網絡傳輸性能,開發千兆比特網絡技術,擴展研究和教育機構及網絡連接能力。該項目主要由五部分組成:高性能計算機系統(HPCS),內容包括今后幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;先進軟件技術與算法(ASTA),內容有巨大挑戰問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發;基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期的調查在可升級的高性能計算中來增加創新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素

的人員的聯營,和來提供必需的基礎架構來支持這些調查和研究活動;信息基礎結構技術和應用(IITA),目的在于保證美國在先進信息技術開發方面的領先地位。ECLDeveloperUsingECLIDE圖4?1:HPCC各部分之間的聯系4.2.3StormStorm是自由的開源軟件,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用于處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議,一種通過網絡從遠程計算機程序上請求服務)、ETL(Extraction—Transformation—Loading的縮寫,即數據抽取、轉換和加載)等等。Storm的處理速度驚人:經測試,每個節點每秒鐘可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。4.2.4ApacheDrill為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會近日發起了一項名為“Drill”的開源項目。ApacheDrill實現了Google'sDremel。據Hadoop廠商MapRTechnologies公司產品經理TomerShiran介紹,“Drill”已經作為Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。該項目將會創建出開源版本的谷歌DremelHadoop工具(谷歌使用該工具來為Hadoop數據分析工具的互聯網應用提速)。而“Drill”將有助于Hadoop用戶實現更快查詢海量數據集的目的。“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果通過開發“Drill”Apache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。4.2.5RapidMinerRapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。4.2.6PentahoBIPentahoBI平臺不同于傳統的BI產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。PentahoSDK共包含五個部分:Pentaho平臺、Pentaho示例數據庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配制好的Pentaho網絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數據庫為Pentaho平臺的正常運行提供的數據服務,包括配置信息、Solution相關的信息等等,對于Pentaho平臺來說它不是必須的,通過配置是可以用其它數據庫服務取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示了如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發相關的商業智能解決方案。PentahoBI平臺構建于服務器,引擎和組件的基礎之上。這些提供了系統的J2EE服務器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,數據集成,分析和建模功能。這些組件的大部分是基于標準的,可使用其他產品替換之。(三)數據化可視化分析綜述4.3.1信息可視化、人機交互、可視分析的基本概念Card等人對信息可視化的定義為:對抽象數據使用計算機支持的、交互的、可視化的表示形式以增強認知能力。與傳統計算機圖形學以及科學可視化研究不同,信息可視化的研究重點更加側重于通過可視化圖形呈現數據中隱含的信息和規律,所研究的創新性可視化表征旨在建立符合人的認知規律的心理映像。經過20余年的發展,信息可視化已經成為人們分析復雜問題的強有力工具。人機交互的定義為:人與系統之間通過某種對話語言,在一定的交互方式和技術支持下的信息交換過程。其中的系統可以是各類機器,也可以是計算機和軟件。用戶界面或人機界面指的是人機交互所依托的介質和對話接口,通常包含硬件和軟件系統。信息可視化的概念最早即是在ACM“用戶界面軟件與技術”會議中提出,其本質是一種交互式的圖形用戶界面范型。人機交互的發展一方面強調研究智能化的用戶界面,將計算機系統變成一個有思想、有個性、有觀點的智能機器人;另一方面強調充分利用計算機系統和人各自的優勢,彌補彼此的不足,共同協作來分析和解決問題。大數據可視分析是指在大數據自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術,有效融合計算機的計算能力和人的認知能力,以獲得對于大規模復雜數據集的洞察力。支持可視分析的基礎理論可視化分析需要有多樣的理論支持,而其中支持分析的主要認知理論模型、意義建構理論模型、人機交互分析過程的用戶認知模型、分布式認知理論、信息可視化理論模型、信息可視化理論模型、人機交互與用戶界面理論模型等,這些為大數據的可視化處理的實現提供了堅實的理論基礎。面向大數據主流應用的信息可視化技術大數據可視化技術涉及傳統的科學可視化和信息可視化,從大數據分析將掘取信息和洞悉知識作為目標的角度出發,信息可視化技術將在大數據可視化中扮演更為重要的角色。Shneiderman根據信息的特征把信息可視化技術分為一維信息(1-dimensional)、二維信息(2-dimensional)、三維信息(3-dimensional)、多維信息(multi-dimensional)、層次信息(tree)、網絡信息(network)、時序信息(temporal)可視化20年來,研究者圍繞著上述信息類型提出眾多的信息可視化新方法和新技術,并獲得了廣泛的應用。隨著大數據的興起與發展,互聯網、社交網絡、地理信息系統、企業商業智能、社會公共服務等主流應用領域逐漸催生了幾類特征鮮明的信息類型,主要包括文本、網絡或圖、時空、及多維數據等。這些與大數據密切相關的信息類型與Shneiderman的分類交叉融合,將成為大數據可視化的主要研究領域。表4.1:可視化的分類比較可文本可冬廠時空數多維數據視化視化可視化據可視化可視化分類文本信網絡關聯時空數多維數據

息是大數關糸是大數據是指帶指的是具有據時代非據中最常見有地理位多個維度屬結構化數的關系,例如置與時間性的數據變據類型的互聯網與社標簽的數量,廣泛存在典型代表,交網絡。層次據。傳感器于基于傳統是互聯網結構數據也與移動終關系數據庫中最主要屬于網絡信端的迅速以及數據倉的信息類息的一種特普及,使得庫的應用中,型,也是物殊情況。基于時空數據例如企業信聯網各種網絡節點和成為大數息系統以及意傳感器采連接的拓撲據時代典商業智能系義及集后生成關系,直觀地型的數據統。多維數據影響的主要信展示網絡中類型。時空分析的目標息類型,人潛在的模式數據可視是探索多維們日常工關系,例如節化與地理數據項的分作和生活點或邊聚集制圖學相布規律和模中接觸最性,是網絡可結合,重點式,并揭示不多的電子視化的主要對時間與同維度屬性文檔也是內容之一。對空間維度之間的隱含以文本形于具有海量以及與之關系。Keim式存在。文節點和邊的相關的信等人歸納了本可視化大規模網絡,息對象屬多維可視化的意義在如何在有限性建立可的基本方法,于,能夠將的屏幕空間視化表征,包括基于幾文本中蘊中進行可視對與時間何圖形、基于含的語義化,將是大數和空間密圖標、基于像特征(例如據時代面臨切相關的素、基于層次詞頻與重的難點和重模式及規結構、基于圖要度、邏輯點。除了對靜律進行展結構以及混結構、主題態的網絡拓示。大數據合方法。其聚類、動態撲關系進行環境下時中,基于幾何演化規律可視化,大數空數據的圖形的多維等)直觀地據相關的網高維性、實可視化方法展示出來。絡往往具有時性等特是近年來主動態演化性,點,也是時要的研究方因此,如何對空數據可向。大數據背動態網絡的視化的重景下,除了數特征進行可點。據項規模擴視化,也是不張帶來的挑可或缺的研戰,高維所引究內容。起的問題也是研究的重點。4.3.4支持可視分析的人機交互技術信息可視化中的人機交互技術主要可概括為5類:動態過濾技術與動態過濾用戶界面、整體+詳細技術與用戶界面、平移+縮放技術與可縮放用戶界面(ZUI)、焦點+上下文技術與用戶界面、多視圖關聯協調技術與關聯多視圖用戶界面。根據上面對可視分析相關的任務建模的討論,大數據可視分析中涉及的人機交互技術在融合與發展上述幾大類交互基礎之上,還需要重點研究對可視分析推理過程提供界面支持的人機交互技術以及更符合分析過程認知理論的自然、高效的人機交互技術。(四)數據可視化的問題與挑戰大數據在可視化的發展過程中也面臨著以下的問題和挑戰。多源、異構、非完整、非一致、非準確數據的集成與接口大數據可視化與可視分析所依賴的基礎是數據,而大數據時代數據的來源眾多,且多來自于異構環境。即使獲得數據源,得到的數據的完整性、一致性、準確性都難以保證,數據質量的不確定問題將直接影響可視分析的科學性和準確性。大數據可視化的前提是建立在集成的數據接口,并且與可視分析系統形成松耦合的接口關系,以供各種可視化算法方便的調用,使得可視分析系統的研發者和使用者不需要關系數據接口背后的復雜機理。可見,大數據的集成和接口問題將是大數據可視分析面臨的第一個挑戰。匹配心理映像的可視化表征設計與評估科學/信息可視化領域經過幾十年的發展,積累了大量各具特色的可視化表征,這將為大數據可視化提供有力的支持。然而,絕大多數在當時看來創新的可視化技術,只能被少部分研究人員所接收,卻難以獲得廣泛的認可和應用。原因在于:大量的可視化表征的創造僅僅在于追求技術角度的創新,而忽視了可視化尤其是信息可視化領域的本源——符合人的認知規律和心理映像。針對大數據所固有的特點,未來仍將涌現更多的可視化表征。最大限度發揮人、機各自優勢的人機交互與最優化協作求解如前所述,人和機器各自擁有無可替代的優勢,人具有機器所不具備的視覺系統以及強大的感知認知能力,并且具有非邏輯理性的直覺判斷和分析解讀能力,但是人的工作記憶卻只有7個左右的信息塊;而計算機擁有巨大的存儲系統和強大的數據處理能力,能夠根據數據挖掘模型在短時間內完成大規模的計算量。因此,大數據可視分析的過程就是充分利用各自優勢并且緊密協作的過程。然而,目前大數據可視分析領域仍未能十分清晰和細致地界定在問題分析過程中,人機交互的多層次多粒度任務應該如何最優化地分布在人、機兩側。而且,目前正處于從WIMP走向Post-WIMP的過渡期,各種交互技術如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論