大數據擁抱云計算_第1頁
大數據擁抱云計算_第2頁
大數據擁抱云計算_第3頁
大數據擁抱云計算_第4頁
大數據擁抱云計算_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

-6-大數據擁抱云計算對于數據的檢索和挖掘。檢索就是搜尋,俗話說外事不決問谷歌,內事不決問百度。兩大搜尋引擎都是將分析歸納后的數據放入搜尋引擎,從而便利人們找到想要的信息。還有一個就是挖掘,搜尋出來的信息還需要從中挖掘出相互的關系。數據怎么樣才能對人有用?人們成天都在爭論大數據,其實數據本身并不是有用的,必需要經過肯定的處理。數據本身并沒有什么作用,但是數據里面包含一些很重要的東西,叫做信息(Information),數據雜亂無章,只有經過了梳理和清洗,才能夠稱為信息。

1.數據如何升華為才智

數據的處理分五個步驟,全部完成了才最終才會升華才智。

第一:數據的收集。首先得有數據,數據的收集有兩個方式,第一個方式是拿(Pull),專業點的叫爬取或者抓取,常見的搜尋引擎就是這么干的,它把網上的信息都下載到它的數據中心,然后被你搜尋出來。比如你去搜尋的時候,返回的是一個列表,這個列表為什么會在搜尋引擎的公司里面呢,就是由于他把這個數據都爬下來了,但是你一點鏈接,點出來這個網站就不在搜尋引擎它們公司了。比如說搜狐有個新聞,你拿百度搜出來,你不點的時候,那一頁在百度數據中心,一點出來的網頁就跳轉到搜狐的數據中心了。另外一個方式就是推送,有許多終端可以幫我收集數據,比如說智能手環,可以將你每天跑步的數據,血壓的數據,心跳的數據都上傳到數據中心里面。

其次:數據的傳輸。常見的會通過隊列方式進行,數據量實在是太大了,數據必需經過處理才會有用,但是系統處理不過來,只好排排隊,一條條地處理。

第三:數據的存儲。現在數據就是Money,把握了數據就相當于把握了金錢。要不然你看購物網站怎么知道你想買什么呢?就是由于它有你歷史的交易信息,然后通過這個信息分析出你的購物習慣。

第四:數據的處理和分析。上面存儲的數據是原始數據,原始數據多是雜亂的,還有許多垃圾數據,因而需要清洗和過濾。對于整理過的數據,就可以進行分析,從而對數據進行歸類,或者發覺數據之間的相互關系。比如聞名的啤酒和紙尿布的故事,就是通過對人們的購買數據進行比對分析,發覺了男人在買尿布的時候,會同時想要購買啤酒,這樣就發覺了啤酒和尿布之間的對應關系,把握了規律,然后應用到實踐中,將啤酒和尿布的柜臺放到一起,這就是一種才智。

第五:對于數據的檢索和挖掘。檢索就是搜尋,俗話說外事不決問谷歌,內事不決問百度。兩大搜尋引擎都是將分析歸納后的數據放入搜尋引擎,從而便利人們找到想要的信息。還有一個就是挖掘,搜尋出來的信息還需要從中挖掘出相互的關系。例如財經檢索,當搜尋某個公司股票的時候,該公司的管理層是不是也應當被挖掘出來?假如僅僅搜尋出這個公司的股票漲的特殊好,你就去買了,結果其次天就跌了,這不坑人么?所以通過各種算法挖掘數據中的關系,形成學問數據庫,非常重要

2.大數據擁抱云計算

數據分析是一項很有意思的技術,其功能就是幫我們梳理數據,存儲信息,并從信息中總結規律。當數據量很小的時候,幾臺機器就能分析并解決問題。但是,漸漸的當數據量越來越大,大到最強的超級計算機都解決不了問題的時候,該怎么辦呢?這時就要聚合多臺機器的力氣,也就是使用云計算的力氣。

對于數據的收集,以物聯網為例,外面部署這成千上億的檢測設備,將大量的溫度,濕度,PH值,PM2.5等等數據統統收集上來,對于網頁的搜尋引擎來講,需要將整個互聯網全部的網頁都下載下來,這明顯一臺服務器做不到,需要多臺服務器組成分布式系統,每臺機器下載一部分,同時工作,才能在有限的時間內,將海量的網頁下載完畢。

對于數據的傳輸,一個內存里面的隊列確定會被大量的數據擠爆,于是就產生了基于存儲系統的分布式隊列,這樣的隊列可以多臺服務器同時傳輸,隨你數據量多大,只要我的隊伍足夠多,隊列足夠粗,就能夠撐得住。

對于數據的存儲也是一樣,一臺服務器的文件系統確定是放不下了,那我們就做一個很大的分布式文件系統來做這件事情,把多臺機器的硬盤打成一塊大的文件系統。

再比如數據的分析,可能需要對大量的數據做分類,統計,聚合,一臺服務器確定搞不定,處理幾百年也分析不完,于是就有了分布式計算的方法,將大量的數據分成小份,每臺服務器處理一小份,多臺服務器并行處理,很快就能算完。例如聞名的Terasort對1個TB的數據排序,相當于1024G,假如單機處理,怎么也要幾個小時,但是并行處理只需要幾十秒就完成了。

所以說大數據平臺,什么叫做大數據,說白了就是一臺機器干不完,大家一起干。隨著數據量越來越大,許多公司都需要處理相當多的數據,沒有這么多機器可怎么辦呢?

說到這里,就想起云計算的好處了吧,真的是想什么時候要,就什么時候要,想要多少就要多少。例如大數據分析企業的財務狀況,可能一個月分析一次,假如要把這一百臺服務器或者一千臺服務器都在那擺著,一個月用一次吧,特別鋪張。那能不能需要計算的時候,把這一千臺服務器拿出來用,然后不用的時候,這一千臺機器可以去干別的事情。誰能做這個事兒呢?只有云計算服務商(比如文中提到的易邁云),能夠為大數據的運算供應資源層面的敏捷性。而云計算服務商也會部署大數據放到它的PaaS平臺上,作為一個特別重要的通用應用。由于大數據平臺能夠使得多臺機器一起干一個事兒,這個東西不是一般人或團隊能開發出來的,怎么也得雇個幾十上百號專業人才能把這個玩起來,所以說就像數據庫一樣,其實還是需要有一幫專業的人來玩這個東西。

現在公有云服務商(像易邁云)就提出了相應的大數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論