大數據的發展和應用_第1頁
大數據的發展和應用_第2頁
大數據的發展和應用_第3頁
大數據的發展和應用_第4頁
大數據的發展和應用_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據的發展和應用摘要:大數據具有規模大、種類多、生成速度快、價值巨大但密度低的特點。隨著互聯網的壯大以及云計算等技術的發展促進了移動云終端的進步。大數據正成為時下越來越人們的領域。在前幾十年就有很多學者語言到了它的到來,它正在成為一種不可避免的趨勢。它將給我們的生活等各個方面帶來前所未有的改變,但是在此之前也有一些問題需要我們去解決。關鍵詞:大數據、云計算、數據、分析、移動終端、挑戰正如我們過去大量生產汽車一樣,人類正被信息淹沒,卻渴望知識。早在1982年世界預測大師、未來學家約翰奈斯比特就提到我們現在大量生產信息,而在2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數據研究和發展計劃”。這是繼1993年美國宣布“信息高速公路”計劃后的有一次重大科技發展部署。美國政府認為大數據是“未來的新石油”,并將對大數據的研究上升為國家意志°Internet的出現縮短了人與人、人與世界之間的距離,整個世界練成一個“地球村”,人們通過網絡無障礙交流、交換信息和協同工作。與此同時,借助Internet的告訴發展、數據庫技術的成熟和普及、高內存高性能的存儲設備和存儲介質的出現,人類在日常學習、生活、工作中產生的數據量正以指數形式增長,呈現爆炸狀態。1簡介在過去的20年里,各個領域都出現了大規模的數據增長,包括醫療保健和科學傳感器、用戶生成數據、互聯網和金融公司、供應鏈系統等,與此同時,數據也成為一種新的自然資源,亟待我們對其加以合理、高效、充分的利用,使它能夠給人們的生活工作帶來更大的效益和價值。在這種背景下,數據的數量不僅以指數形式遞增,而且數據的結構越來越趨于復雜化,這就賦予了大數據不同于以往普通數據更加深層的內涵。據著名咨詢公司IDC的統計,2011年全球被創建和復制的數據總量為1.8ZB,其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量。Google公司通過大規模集群和MapReduce軟件,每月處理的數據量超過400PB;百度每天大約要處理幾十PB數據;Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數據;淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20TB數據。與傳統的數據集合相比,大數據通常包含大量的非結構化數據,且大多數據需要更多的實時分析。我們經常在公共媒體領域聽到大數據這一話題,包括《經濟學人》、《紐約時報》、《全國公共廣播電臺》。《自然》和《科學》雜志也分別開放了特俗專欄來討論大數據帶來的挑戰和重要性。1989年,GartnerGroup和HowardDresner首次提出"商業智能”這一術語,商業智能通常被理解為企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具,主要是將企業所掌握的信息轉換成競爭優勢,,提高企業決策能力、決策效率、決策準確性。為了將數據轉化為知識,需要利用數據倉庫、聯機分析處理工具和數據挖掘等技術。隨著互聯網絡的發展,企業收集到的數據越來越多、數據結構越來越復雜,一般的數據挖掘技術已經不能滿足大型企業的需要,這就使得企業在收集數據之余,也開始有意識的尋求新的方法來解決大量數據無法存儲和處理分析的問題。由此,IT界誕生了一個新的名詞----大數據。對于大數據的概念目前來說,并沒有一個明確的定義,經過多個企業、機構和數據科學家對于大數據的理解,雖然描述不盡相同,但是有一個普遍共識,即大數據的關鍵是在種類繁多、數量龐大的數據中快速獲取自己想要的信息。其中IDC將大數據定義為:為更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構和技術。2011年,McKinsey公司的研究報告中將大數據定義為“超過了典型數據庫軟件工具捕獲、存儲、管理和分析數據能力的數據集”.這種定義是一種主觀定義,沒有描述與大數據相關的任何度量機制,但是在定義中包含了一種演化的觀點(從時間和跨領域的角度),說明了什么樣的數據集才能被認為是大數據。從數據到大數據,不僅僅是數量上的差別,更是數據質量的提升。傳統意義上的數據處理方式包括數據挖掘、數據倉庫、聯機分析處理等,而在大數據時代,數據已經不僅僅是需要分析處理的內容,更重要的是人們需要借助專用的思想和手段從大量看似雜亂、繁復的數據中收集、整理和分析數據足跡,以支撐社會生活的預測、規劃和商業領域的決策支持等。在現今的IT界,各個企業對大數據有著不同的解讀,但都覺得大數據有4V特征,即Volume(容量大)、Variety(種類多)、Velocity(速度快)和Value(價值密度低)。其中Volume是指大數據巨大的數據量與數據完整性。Variety意味著要在海量、種類繁多的數據間發現其內在關聯,在互聯網時代,各種設備連成一個整體。Velocity即更快地滿足實時性需求。Value是其中最重要的一點,即指大數據的價值密度低,因為數據量巨大,所以真正有價值的東西就顯得越少。2國內外現狀國外的現狀:早在2009年,聯合國就啟動了“全球脈動計劃”,擬通過大數據推動落后地區的發展,而2012年1月的世界經濟論壇年會也把“大數據,大影響”作為重要議題之一。在美國,2009年至今,D(美國政府數據庫)全面開放了40萬政府原始數據集,大數據已成為美國國家創新戰略、國家安全戰略以及國家信息網絡安全戰略的交叉領域和核心領域.2012年3月,美國政府提出“大數據研究和發展倡議”,發起全球開放政府數據運動,并投資2億美元促進大數據核心技術研究和應用,涉及NSF,DARPA等6個政府部門和機構,把大數據放在重要的戰略位置。英國政府也將大數據作為重點發展的科技領域,在發展8類高新技術的6億英鎊投資中,大數據的注資占三成。2014年7月,歐盟委員會也呼吁各成員國積極發展大數據,迎接大數據時代,并將采取具體措施發展大數據業務。例如建立大數據領域的公私合作關系,依托“地平線2020”科研規劃,創建開放式數據孵化器;成立多個超級計算中心,在成員國創建數據處理設施網絡。在學術界,美國麻省理工大學計算機科學與人工智能實驗室建立了大數據科學技術中心(ISTC).ISTC主要致力于加速科學與醫藥發明、企業與行業計算,并著重推動在新的數據密集型應用領域的最終用戶體驗的設計創新。大數據ISTC由MIT作為中心學校,研究專家們來自MIT、加州大學圣巴巴拉分校、波特蘭州立大學、布朗大學、華盛頓大學和斯坦福大學等6所大學.通過明確和資助領域帶頭人,提供合作研究中心的方式,目標是發掘共享、存儲和操作大數據的解決方案,涉及Intel,Microsoft,EMC等多家國際產業巨頭。同時,英國牛津大學成立了首個綜合運用大數據的醫藥衛生科研中心,該中心的成立有望給英國醫學研究和醫療服務帶來革命性變化,它將促進醫療數據分析方面的新進展,幫助科學家更好地理解人類疾病及其治療方法.該中心通過搜集、存儲和分析大量醫療信息,確定新藥物的研發方向,減少藥物開發成本,同時為發現新的治療手段提供線索.而以英國為首的歐洲核子中心也在匈牙利科學院魏格納物理學研究中心建設了一座超寬帶數據中心,該中心將成為連接CERN且具有歐洲最大傳輸能力的數據處理中心。在產業界,國外許多著名企業和組織都將大數據作為主要業務,例如IBM,Microsoft,EMC,DELL,HP等國際知名廠商都提出了各自的大數據解決方案或應用。IBM宣布了收購StarAnalytics(星分析公司)軟件產品組合的消息。除了StarAnalytics,在IBM最新的收購計劃中,Splunk和NetApp是最熱門的收購目標.據不完全統計,從2005年起,IBM花費超過160億美元收購了35家與大數據分析相關的公司。此外,IBM還和全球千所高校達成協議,就大數據的聯合研究、教學、行業應用案例開發等方面開展全面的合作。無疑,歐美等國家對大數據的探索和發展已走在世界前列,各國政府已將大數據發展提升至戰略高度,大力促進大數據產業的發展。國內現狀:我國政府、學術界和產業界也早已經開始高度重視大數據的研究和應用的工作,并紛紛啟動了相應的研究計劃。在政府層面,科技部“十二五”部署了關于物聯網、云計算的相關專項。2012年,中國科學院院長白春禮院士呼吁中國應制定國家大數據戰略。同年3月,科技部發布的《“十二五”國家科技計劃信息技術領域2013年度備選項目征集指南》中的“先進計算”板塊己明確提出“面向大數據的先進存儲結構及關鍵技術”,國家“973計劃”、“863計劃”、國家自然科學基金等也分別設立了針對大數據的研究計劃和專項.目前已立項“973計劃”項目2項,“973計劃”青年項目2項,國家自然科學基金重點項目2項.地方政府也對大數據戰略高度重視,2013年上海市提出了《上海推進大數據研究與發展三年行動計劃》,重慶市提出了《重慶市人民政府關于印發重慶市大數據行動計劃的通知》,2014年廣東省成立大數據管理局負責研究擬訂并組織實施大數據戰略、規劃和政策措施,引導和推動大數據研究和應用工作。貴州、河南和承德等省市也都推出了各自的大數據發展規劃.在學術研究層面,國內許多高等院校和研究所開始成立大數據的研究機構.與此同時,國內有關大數據的學術組織和活動也紛紛成立和開展.2012年中國計算機學會和中國通信學會都成立了大數據專家委員會,教育部也在人民大學成立“大數據分析與管理國際研究中心”。近年來開展了許多學術活動,主要包括:CCF大數據學術會議、中國大數據技術創新與創業大賽、大數據分析與管理國際研討會、大數據科學與工程國際學術研討會、中國大數據技術大會和中國國際大數據大會等。在產業層面,國內不少知名企業或組織也成立了大數據產品團隊和實驗室,力爭在大數據產業競爭中占據領先地位。3意義大數據是與自然資源、人力資源一樣重要的戰略資源,是一個國家數字主權的體現。大數據時代,國家層面的競爭力將部分體現為一國擁有大數據的規模、活性以及對數據的解釋、運用的能力。一個國家在網絡空間的數據主權將是繼海、陸、空、天之后另一個大國博弈的空間。在大數據領域的落后,意味著失守產業戰略制高點,意味著數字主權無險可守,意味著國家安全將出現漏洞。大數據將直接影響國家和社會穩定,是關系國家安全的戰略性問題。因此,我國應盡快研究并制定我們國家的大數據戰略。大數據是現有產業升級與新產業誕生的重要推動力量。數據為王的大數據時代的到來,產業界需求與關注點發生了重大轉變:企業關注的重點轉向數據,計算機行業正在轉變為真正的信息行業,從追求計算速度轉變為關注大數據處理能力,軟件也將從編程為主轉變為以數據為中心。大數據處理的興起也改變了云計算的發展方向,使其進入以分析即服務為主要標志的云時代。采用大數據處理方法,生物制藥、新材料研制生產的流程會發生革命性的變化,可以通過數據處理能力極高的計算機并行處理,同時進行大批量的仿真比較和篩選,大大提高科研和生產效率,甚至使整個行業邁入數字化與信息化的新階段。數據已成為與礦物和化學元素一樣的原始材料,未來可能形成數據服務、數據探礦、數據化學、數據材料、數據制藥等一系列戰略性的新興產業。大數據還引起了科技界對科學研究方法論的重新審視,正在引發科學研究思維與方法的一場革命。最早的科學研究只有實驗科學,隨后出現了以研究各種定律和定理為特征的理論科學。由于理論分析方法在許多問題上過于復雜,難以解決實際問題,人們開始尋求模擬的方法,導致計算科學的興起。海量數據的出現催生了一種新的科研模式,即面對海量數據,科研人員只需從數據中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象。4具體處理流程從大數據的特征和產生領域來看,大數據的來源相當廣泛,由此產生的數據類型和應用處理方法千差萬別但是總的來說,大數據的基本處理流程大都是一致的。大數據的處理流程基本可劃分為數據采集、數據處理與集成、數據分析和數據解釋4個階段。數據采集是大數據處理流程的第一步,現在一般有傳感器收取、射頻識別、數據檢索分類工具還有條形碼等等。數據的處理與集成是對已經采集到的數據進行相應的處理,然后去噪后集成存儲。而大數據有Variety的特點,這就決定了經過各方渠道所得到的數據種類及其結構都比較復雜,這就給數據處理帶來了相應的困難。處理與集成的步驟要先將復雜數據轉換為比較便于分析的結構。信息并非全部有用,內部會有干擾信息,所以要去噪。一般是設計一些數據過濾器,通過聚類或關聯分析將無用信息去除,然后將所得到的有用信息進行集成和存儲,所以要建立專門的數據可把這些數據分類放置。數據分析是比較核心的部分,因為通過這一步驟可以體現出數據的價值。經過上一步驟數據的處理與集成后,所得的數據便成為數據分析的原始數據。根據所需數據的應用需求對數據進行進一步的處理和分析,傳統的數據處理分析方法有數據挖掘、機器學習、智能算法、統計分析等,這些方法已經不能滿足現今的需要了。Google在這方面是比較先進的,它的分布式文件系統GFS、分布式數據庫、批處理技術,以及Hadoop等,這些都是分析數據的好手段。數據解釋是廣大用戶最關心的,過去傳統的文本顯示方式已經不能滿足現今的需要了,現在很多地方都引進了數據可視化技術,通過可視化可以形象地展示出數據的結果。5大數據時代的移動終端作為大數據應用的重要輸入口,移動端產生了與消費者密切相關的數據,因此移動端在大數據時代扮演很重要的角色。它演進方向有基于多種管道技術的多模化集成、傳感器集成、云計算與低功耗等等。所謂多管道集成就是像2G這種單一模式終端已經不能滿足技術進步的實際需求,而2G、3G、LTE、4G、wifi以及藍牙等多種技術集成成為趨勢。隨著智能終端的發展,移動技術向寬帶化演進。多傳感器技術集成是為了滿足移動智能終端越來越多的功能,例如加速傳感器、磁力傳感器、重力感應器、電子羅盤、陀螺儀、氣壓傳感器、光線感應器、距離感應器等等可以提高移動終端的用戶體驗。在大數據時代,移動終端需要通過傳感器采集數據,再通過管道網絡將數據傳輸到云端進行大數據處理,最后將結果反饋。云計算有降低功耗的作用,因為移動端集成了多種接入技術和傳感器,功耗是一大問題。當移動智能終端作為消費品已經超出了最初以通信功能為主的屬性,一方面移動互聯網的發展,使移動互聯網服務內容與移動終端綁定;另一方面,由于云服務降低了移動終端的計算量和存儲,簡化了移動終端,同時使終端消費用戶聚合到云計算服務平臺上,云服務就降低了移動終端的復雜度,并將復雜的計算和存儲等任務交由云端處理,這樣也將終端功耗降低。其中微軟公司正在開發一種全球定位系統技術,是將GPS數據上傳到云端從而解決功耗問題。云計算技術的發展,移動終端通過承載管道逐步向云端延伸,將復雜的大數據計算、龐大的大數據存儲等都移向云端來處理,而將移動終端“瘦”下來,這不但降低終端功耗、延長了待機時間,同時也提高用戶體驗,因此移動智能終端與云計算的深度結合將是大勢所趨。6面臨的挑戰現有的數據中心技術很難滿足大數據的需求,需要考慮對整個IT架構進行革命性的重構。而存儲能力的增長遠遠趕不上數據的增長,因此設計最合理的分層存儲架構已成為IT系統的關鍵。數據的移動已成為IT系統最大的開銷,目前傳送大數據最高效也最實用的方式是通過飛機或地面交通工具運送磁盤而不是網絡通信。在大數據時代,IT系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,將計算推送給數據,而不是將數據推送給計算。大數據也導致高可擴展性成為對IT系統最本質的需求,并發執行的規模要從現在的千萬量級提高到10億級以上。在處理大數據的技術挑戰中,以下幾個問題值得高度重視:(1)去冗降噪技術。前面說過大數據的來源不同且結構的不同導致它的噪聲。它的冗余一般是指數據的重復和數據的超量提供。降噪消除冗余是提高數據質量、降低成本的基礎。(2)新型表示方法。目前表示數據的方法不一定能直觀地展現出大數據本身的意義,研究既有效又簡易的數據表示方法是處理網絡大數據必須解決的技術難題之一。(3)高效率低成本的大數據存儲。大數據的存儲方式不僅影響其后的數據分析處理效率也影響數據存儲的成本。因此就需要研究高效率低成本的數據存儲模式。具體則需要研究多模多態數據,高質量獲取與整合的理論和技術、流式數據的告訴索引創建于存儲、錯誤自動檢測與修復的理論和技術、低質量數據上的近似計算的理論和算法等。(4)大數據的有效融合。數據如果不整合就不能發揮它的價值。就如同人類語言一般,作為網絡空間中唯一的數據難免有多種格式。為了掃清這個障礙,我們應該研究推廣不與平臺綁定的數據格式。(5)適合不同行業的數據挖掘分析工具。我個人曾使用過的weka軟件就是I個比較好的工具,簡單易操作。(6)大幅度降低能耗。因為大數據獲取、通信、存儲等等處理都會有大量的能耗。上面曾提到一個方法,可以利用云計算來降低能耗。7安全隱私隨著大數據的發展,數據的來源和應用領域越來越廣泛。在互聯網上隨意瀏覽網頁就會留下一串的瀏覽痕跡,在網絡中登錄相關網站需要輸入個人的重要信息。例如用戶名密碼、身份證號、手機、住址、銀行卡密碼等,隨處可見的攝像頭和傳感器會記錄下個人的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論