大數據處理技術現狀及其應用展望_第1頁
大數據處理技術現狀及其應用展望_第2頁
大數據處理技術現狀及其應用展望_第3頁
大數據處理技術現狀及其應用展望_第4頁
大數據處理技術現狀及其應用展望_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據處理技術發展現狀及其應用展望著名的管理咨詢公司麥肯錫曾預測到:〃數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”這是大數據的最早定義。業界(于2012年,高德納修改了對大數據的定義)將大數據的特征歸納為4個"V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,海量數據量。大數據計量單位至少是PB級別;第二,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等都是囊括進來。第三,商業價值高。第四,處理速度快。在大數據時代,三分技術,七分數據,得數據者得天下。在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。Google利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。對于〃大數據”(Bigdata)研究機構Gartner給出了這樣的定義。〃大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。二大數據的技術技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。2.1、云技術大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,云計算充當了工業革命時期的發動機的角色,而大數據則是電。云計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。如今,在Google、Amazon、Facebook等一批互聯網企業引領下,一種行之有效的模式出現了:云計算提供基礎架構平臺,大數據應用運行在這個平臺上。業內是這么形容兩者的關系:沒有大數據的信息積淀,則云計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大數據的信息積淀再豐富,也終究只是鏡花水月。那么大數據到底需要哪些云計算技術呢?這里暫且列舉一些,比如虛擬化技術,分布式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。2.2、分布式處理技術分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務一這就是分布式處理系統的定義。以Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。而MapReduce是Google提出的一種云計算的核心計算模式,是一種分布式運算技術,也是簡化的分布式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式,在數據被分割后通過Map函數的程序將數據映射成不同的區塊,分配給計算機機群處理達到分布式運算的效果,在通過Reduce函數的程序將結果匯整,從而輸出開發者需要的結果。再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。其次,Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴于社區服務器,因此它的成本比較低,任何人都可以使用。你也可以這么理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)2.3、存儲技術大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關系是:大數據存儲的目的是支撐大數據分析。到目前為止,還是兩種截然不同的計算機技術領域:大數據存儲致力于研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在最短時間內處理大量不同類型的數據集。提到存儲,有一個著名的摩爾定律相信大家都聽過:18個月集成電路的復雜性就增加一倍。所以,存儲器的成本大約每18-24個月就下降一半。成本的不斷下降也造就了大數據的可存儲性。比如,Google大約管理著超過50萬臺服務器和100萬塊硬盤,而且Google還在不斷的擴大計算能力和存儲能力,其中很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。以Amazon舉例,AmazonS3是一種面向Internet的存儲服務。該服務旨在讓開發人員能更輕松的進行網絡規模計算°AmazonS3提供一個簡明的Web服務界面,用戶可通過它隨時在Web上的任何位置存儲和檢索的任意大小的數據。此服務讓所有開發人員都能訪問同一個具備高擴展性、可靠性、安全性和快速價廉的基礎設施,Amazon用它來運行其全球的網站網絡。再看看S3的設計指標:在特定年度內為數據元提供99.999999999%的耐久性和99.99%的可用性,并能夠承受兩個設施中的數據同時丟失。S3很成功也確實卓有成效,S3云的存儲對象已達到萬億級別,而且性能表現相當良好。S3云已經擁萬億跨地域存儲對象,同時AWS的對象執行請求也達到百萬的峰值數量。目前全球范圍內已經有數以十萬計的企業在通過AWS運行自己的全部或者部分日常業務。這些企業用戶遍布190多個國家,幾乎世界上的每個角落都有Amazon用戶的身影。2.4、預測技術大數據的核心在于〃預測”,而云計算使數據從〃小樣本”轉變成有機會對所有可能的數據進行分析,預測將基于〃數據之間的關聯性”而非〃為什么是這樣的因果性”,我們只需要按照預測出來的趨勢去響應,使用這些結果。比如預測機票價格的走勢,并給出可信度,幫助用戶來決定什么時間購買機票最省錢。它不用關心為什么機票會有差異,是因為季節性還是因為其他什么原因,它僅僅是預測當前的機票未來一段時間會上漲還是下降。如果機票價格有上漲的趨勢,系統就系統用戶立即購買機票。而原始的數據可以從機票預訂數據庫或者行業網站上扒下來。這項預測技術可以用在類似的相關領域。比如賓館預訂,商品購買等。比如通過汽車弓I擎的散熱和振動來預測引擎是否會出現故障。亞馬遜的推薦系統是很好的例子:亞馬遜從每一個客戶身上捕獲了大量的數據歷史購買了什么,哪些商品只是瀏覽卻沒有購買,瀏覽停留的時間,哪些商品是合并購買的,它要做的是找到產品之間的關聯性。在零售行業,銷售數據的統計分析,可以讓供應商監控銷售速率、數量、以及存貨情況,可以知道什么貨物和什么貨物擺在一起,放在什么位置銷量最好,特定的季節,什么產品銷量最高。公共設施領域,不再是隨機的巡檢,而是針對設施上報的數據以及故障發生的歷史數據、環境數據進行分析和預測,集中人力和物力優先檢查最有可能出現問題的那些設施,減少整體平均的故障發生率。最近的”棱鏡計劃〃,從音視頻、圖片、郵件、文檔以及連接信息中分析個人可能對國家安全造成威脅的行動。大數據處理技術的展望3.1、對于企業對于企業的大數據,隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成〃數據供應鏈”。這里尤其有兩個明顯的現象:1)夕卜部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;2)能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。以IBM舉例,上一個十年,他們拋棄了PC,成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因大數據分析軟件而帶來的全新業務增長點°IBM執行總裁羅睿蘭認為,〃數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”IBM積極的提出了〃大數據平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputingX數據倉庫(DataWarehouse)和信息、整合與治理(InformationIntegrationandGovernance)3.2、對于個人個人的大數據,與個人相關聯的各種有價值數據信息被有效采集后,可由本人授權提供第三方進行處理和使用,并獲得第三方提供的數據服務。未來,每個用戶可以在互聯網上注冊個人的數據中心,以存儲個人的大數據信息。用戶可確定哪些個人數據可被采集,并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數據,比如,牙齒監控數據,心率數據,體溫數據,視力數據,記憶能力,地理位置信息,社會關系數據,運動數據,飲食數據,購物數據等等。用戶可以將其中的牙齒監測數據授權給XX牙科診所使用,由他們監控和使用這些數據,進而為用戶制定有效的牙齒防治和維護計劃;也可以將個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運動機能,并有針對的制定和調整個人的運動計劃;還可以將個人的消費數據授權給金融理財機構,由他們幫你制定合理的理財計劃并對收益進行預測。當然,其中有一部分個人數據是無需個人授權即可提供給國家相關部門進行實時監控的,比如罪案預防監控中心可以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。3.3、對于政府奧巴馬政府此前宣布投資2億美元拉動大數據相關產業發展,將〃大數據戰略”上升為國家意志。奧巴馬政府將數據定義為〃未來的新石油”,并表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的占有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。在國內,政府各個部門都握有構成社會基礎的原始數據,比如,氣象數據,金融數據,信用數據,電力數據,煤氣數據,自來水數據,道路交通數據,客運數據,安全刑事案件數據,住房數據,海關數據,出入境數據,旅游數據,醫療數據,教育數據,環保數據等等。這些數據在每個政府部門里面看起來是單一的,靜態的。但是,如果政府可以將這些數據關聯起來,并對這些數據進行有效的關聯分析和統一管理,這些數據必定將獲得新生,其價值是無法估量的。具體來說,現在城市都在走向智能和智慧,比如,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依托于大數據,可以說大數據是智慧的核心能源。從國內整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通信網絡和數據平臺等基礎設施建設投資規模接近5000億元。“十二五”期間智慧城市建設拉動的設備投資規模將達1萬億元人民幣。大數據為智慧城市的各個領域提供決策支持。在城市規劃方面,通過對城市地理、氣象等自然信息和經濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻性。在交通管理方面,通過對道路交通信息的實時挖掘,能有效緩解交通擁堵,并快速響應突發狀況,為城市交通的良性運轉提供科學的決策依據。在輿情監控方面,通過網絡關鍵詞搜索及語義智能分析,能提高輿情分析的及時性、全面性,全面掌握社情民意,提高公共服務能力,應對網絡突發的公共事件,打擊違法犯罪。在安防與防災領域,通過大數據的挖掘,可以及時發現人為或自然災害、恐怖事件,提高應急處理能力和安全防范能力。、大數據的應用4.1、大數據在電子政務中的應用大數據的發展,將極大改變政府現有管理模式和服務模式.具體而言,就是依托大數據的發展,節約政府投入、及時有效進行社會監管和治理,提升公共服務能力.以大數據應用支撐政務活動為例,美國積極運用大數據推動政府管理方式變革和管理能力提升,越來越多的政府部門依托數據及數據分析進行決策,將之用于公共政策、輿情監控、犯罪預測、反恐等活動.例如,作為大數據的強力倡導者,奧巴馬及其團隊創新性地將大數據應用到競選活動中,通過對近2年搜集、存儲的海量數據進行分析挖掘,尋找和鎖定潛在的己方選民,運用數字化策略定位拉攏中間派選民及籌集選舉資金,成為將大數據價值與魅力發揮到淋漓盡致的典型.借助大數據,還能逐步實現立體化、多層次、全方位的電子政務公共服務體系,推進信息公開,促進網上電子政務開展,創新社會管理和服務應用,增強政府和社會、百姓的雙向交流、互動。4.2、大數據在網絡通信業的應用大數據與云計算相結合所釋放出的巨大能量,幾乎波及到所有的行業,而信息、互聯網和通信產業將首當其沖.特別是通信業,在傳統話音業務低值化、增值業務互聯網化的趨勢中,大數據與云計算有望成為其加速轉型的動力和途徑.對于大數據而言,信息已經成為企業戰略資產,市場競爭要求越來越多的數據被長期保存,每天都會從管道、業務平臺、支撐系統中產生海量有價值的數據,基于這些大數據的商業智能應用將為通信運營商帶來巨大機遇和豐厚利潤.例如,電信業者可通過數以千萬計的客戶資料,分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟.中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤,系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情.據計世資訊預測,到2015年,電信業大數據應用市場規模預計將達到18.3億元。4.3、大數據在醫療行業的應用伴隨醫療衛生行業信息化進程的發展,在醫療業務活動、健康體檢、公共衛生、傳染病監測、人類基因分析等醫療衛生服務過程中將產生海量高價值的數據。數據內容主要包括醫院的PACS影像、B超、病理分析、大量電子病歷、區域衛生信息平臺采集的居民健康檔案、疾病監控系統實時采集的數據等對大數據,醫療行業遇到前所未有的挑戰和機遇.例如,Set。nHealthcare是采用IBM最新沃森技術醫療保健內容分析預測的首個戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息.在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鐘有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題并且有針對性地采取措施,避免早產嬰兒夭折.大數據讓更多的創業者更方便地開發產品,比如通過社交網絡來收集數據的健康類App。也許在數年后,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日3次,1次1片,而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥.社交網絡為許多慢性病患者提供臨床癥狀交流和診治經驗分享平臺,醫生借此可獲得在醫院通常得不到的臨床效果統計數據。基于對人體基因的大數據分析,可以實現對癥下藥的個性化治療。對于公共衛生部門,可以通過全國聯網的患者電子病歷庫,快速檢測傳染病,進行全面疫情監測,并通過集成的疾病監測和響應程序,快速進行響應。4.4、大數據在能源行業的應用能源勘探開發數據的類型眾多,不同類型數據包含的信息各具特點,只有綜合各種數據所包含的信息才能得出真實的地質狀況.能源行業企業對大數據產品和解決方案的需求集中體現在:可擴展性、高帶寬、可處理不同格式數據的分析方案.智能電網現在歐洲已經做到了終端,也就是所謂的智能電表.在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來.通過電網收集每隔5min或10min收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電.預測后,就可以向發電或者供電企業購買一定數量的電.因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴.通過預測可以降低采購成本.維斯塔斯風力系統,依靠的是Biginsights軟件和IBM超級計算機,然后對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點.利用大數據,以往需要數周的分析工作,現在僅需要不足lh便可完成.4.5、大數據在零售行業的應用從商業價值來看,大數據究竟能往哪些方面挖掘出巨大的商業價值呢?根據IDC和麥肯錫的大數據研究結果的總結,大數據主要能在以下4個方面挖掘出巨大的商業價值:對顧客群體細分,然后對每個群體量體裁衣般地采取獨特的行動;運用大數據模擬實境,發掘新的需求和提高投入的回報率;提高大數據成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率;進行商業模式、產品和服務的創新.在商業領域,沃爾瑪公司每天通過6000多個商店,向全球客戶銷售超過2.67億件商品,為了對這些數據進行分析,HP公司為沃爾瑪公司建造了大型數據倉庫系統,數據規模達到4PB,并且仍在不斷擴大.沃爾瑪公司通過分析銷售數據,了解顧客購物習慣,得出適合搭配在一起出售的商品,還可從中細分顧客群體,提供個性化服務.在金融領域,華爾街德溫特資本市場公司通過分析3.4億微博賬戶留言,判斷民眾情緒,依據人們高興時買股票、焦慮時拋售股票的規律,決定公司股票的買入或賣出.阿里巴巴公司根據在淘寶網上中小企業的交易狀況篩選出財務健康和講究誠信的企業,對他們發放無需擔保的貸款.當我們去購物時,我們的數據會結合歷史購買記錄和社交媒體數據來為我們提供優惠券、折扣和個性化優惠.零售企業也監控客戶的店內走動情況以及與商品的互動,它們將這些數據與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某領先零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例.4.6、大數據在氣象行業的應用與世界大數據時代的進程相同,氣象數據量不斷翻番.目前,每年的氣象數據已接近PB量級(1O24GB=1TB,1O24TB=1PB)。以氣象衛星數據為例:雖然氣象衛星是用來獲取與氣象要素相關的各類信息的,然而在森林草場火災、船舶航道浮冰分布等方面,氣象衛星卻同樣也能發揮出跨行業的實時監測服務價值.氣象衛星、天氣雷達等非常規遙感遙測數據中包含的信息十分豐富,有可能挖掘出新的應用價值,從而拓展氣象行業新的業務領域和服務范圍.比如,可以利用氣象大數據為農業生產服務.美國硅谷有家專門從事氣候數據分析處理的公司,從美國氣象局等數據庫中獲得數十年來的天氣數據,然后將各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度做成精密圖表,可預測各地農場來年產量和適宜種植品種,同時向農戶出售個性化保險服務.氣象大數據應用還可在林業、海洋、氣象災害等方面拓展新的業務領域.除了上述行業應用外,大數據在教育科研、生產制造、金融保險、交通運輸等行業也有密切應用.大數據在金融行業可用于客戶洞察、運營洞察和市場洞察.大數據在智能交通、智慧城市建設方面也有出色表現.隨著社會、經濟的發展,各行業各類用戶對于智能化的要求將越來越高,今后大數據技術會在越來越多領域得到廣泛應用,通過大數據的采集、存儲、挖掘與分析,大數據在營銷、行業管理、數據標準化與情報分析和決策等領域將大有作為,將極大提升企事業單位的信息化服務水平.隨著云計算、物聯網、移動互聯網等技術的快速發展,大數據未來發展空間將更加廣闊。五、總論大數據應用六大模式捧著金飯碗第三方大數據公司是如何在數據堆中覓得金塊”的呢?〃數據挖掘公司的規模不同,影響力不同導致數據挖掘公司的商業模式也有所不伺。目前比較盛行的數據挖掘公司多為兩大運營模式:第一種是直接為企業用戶提供其所需求的數據;第二種則是為不同的企業或企業不同的需求,對數據進行分析,提供針對性的信息,以此獲利,如天相投顧就是此類公司之一。數據挖掘公司一般有六種商業模式值得參考:第一種是以廣聯達等公司為代表的租售數據模式,它們通過出售廣泛收集、精心過濾時效性強的數據,成為各自行業的翹楚。而龐大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論