




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大趨勢(shì)
—BigData第一頁(yè),共三十頁(yè)。*國(guó)內(nèi)大數(shù)據(jù)馬云對(duì)未來(lái)的預(yù)測(cè),是建立在對(duì)用戶行文分析的基礎(chǔ)上?!?008年初,阿里巴巴平臺(tái)上整個(gè)買家詢盤數(shù)急劇下滑,歐美對(duì)中國(guó)采購(gòu)在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時(shí)間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!彬v訊在天津投資建立亞洲最大的數(shù)據(jù)中心;百度也在投資建立大數(shù)據(jù)處理中心;第二頁(yè),共三十頁(yè)。*2012年3月,美國(guó)奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研發(fā)計(jì)劃”,旨在提高和改進(jìn)從海量和復(fù)雜數(shù)據(jù)中獲取知識(shí)的能力,加速美國(guó)在科學(xué)和工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全。這是繼1993年美國(guó)宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署,由美國(guó)國(guó)家科學(xué)基金會(huì)、能源部等6個(gè)聯(lián)邦部門共同投資。美國(guó)的大數(shù)據(jù)戰(zhàn)略第三頁(yè),共三十頁(yè)。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第四頁(yè),共三十頁(yè)。*facebook社交網(wǎng)絡(luò)…淘寶、ebuy電子商務(wù)…微博、Apps移動(dòng)互聯(lián)…21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。“大數(shù)據(jù)”的誕生:半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息爆炸的學(xué)科如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念*。如今,這個(gè)概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。大數(shù)據(jù)時(shí)代的背景第五頁(yè),共三十頁(yè)。*GBTBPBEBZB想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)數(shù)據(jù)大爆炸第六頁(yè),共三十頁(yè)。*大數(shù)據(jù)的4V特征體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效第七頁(yè),共三十頁(yè)。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第八頁(yè),共三十頁(yè)。*1、密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問(wèn)和計(jì)算。當(dāng)前云計(jì)算更偏重海量存儲(chǔ)和計(jì)算,以及提供的云服務(wù),運(yùn)行云應(yīng)用,但是缺乏盤活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國(guó)家、企業(yè)、個(gè)人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計(jì)算的最終方向。第九頁(yè),共三十頁(yè)。*2、大數(shù)據(jù)不僅僅是“大”多大?至少PB級(jí)比大更重要的是數(shù)據(jù)的復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價(jià)值第十頁(yè),共三十頁(yè)。*4、大數(shù)據(jù)的應(yīng)用不僅僅是精準(zhǔn)營(yíng)銷通過(guò)用戶行為分析實(shí)現(xiàn)精準(zhǔn)營(yíng)銷是大數(shù)據(jù)的典型應(yīng)用,但是大數(shù)據(jù)在各行各業(yè)特別是公共服務(wù)領(lǐng)域具有廣闊的應(yīng)用前景消費(fèi)行業(yè)金融服務(wù)食品安全醫(yī)療衛(wèi)生軍事交通環(huán)保電子商務(wù)氣象第十一頁(yè),共三十頁(yè)。*5、管理大數(shù)據(jù)“易”理解大數(shù)據(jù)“難”雖然大數(shù)據(jù)是一個(gè)重大問(wèn)題,真正的問(wèn)題是讓大數(shù)據(jù)更有意義目前大數(shù)據(jù)管理多從架構(gòu)和并行等方面考慮,解決高并發(fā)數(shù)據(jù)存取的性能要求及數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容理解仍缺乏實(shí)質(zhì)性的突破和進(jìn)展,這是實(shí)現(xiàn)大數(shù)據(jù)資源化、知識(shí)化、普適化的核心非結(jié)構(gòu)化海量信息的智能化處理:自然語(yǔ)言理解、多媒體內(nèi)容理解、機(jī)器學(xué)習(xí)等第十二頁(yè),共三十頁(yè)。*大數(shù)據(jù)的定義理解大數(shù)據(jù)相關(guān)技術(shù)與應(yīng)用目錄第十三頁(yè),共三十頁(yè)。*分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)一些相關(guān)技術(shù)第十四頁(yè),共三十頁(yè)。*行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石:IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉(混搭供電合作的網(wǎng)絡(luò)平臺(tái));業(yè)務(wù)事件處理;IBMMashupCenter的計(jì)量,監(jiān)測(cè),和商業(yè)化服務(wù)(MMMS)IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的InfoSpherebigInsights,基于ApacheHadoop。該產(chǎn)品組合包括:打包的ApacheHadoop的軟件和服務(wù),代號(hào)是bigInsights核心,用于開(kāi)始大數(shù)據(jù)分析軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡(jiǎn)單、直觀的提取、批注相關(guān)信息為金融,風(fēng)險(xiǎn)管理,媒體和娛樂(lè)等行業(yè)量身定做的行業(yè)解決方案微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫(kù)綜合應(yīng)用部門)合作目標(biāo)是開(kāi)發(fā)了一系列能夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:EMC斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。Oracle:Oracle大數(shù)據(jù)機(jī)與OracleExalogic中間件云服務(wù)器、OracleExadata數(shù)據(jù)庫(kù)云服務(wù)器以及OracleExalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。大數(shù)據(jù)的應(yīng)用
——企業(yè)在投入第十五頁(yè),共三十頁(yè)。*政府、金融、電信等行業(yè)投資建立大數(shù)據(jù)的處理分析手段,實(shí)現(xiàn)綜合治理、業(yè)務(wù)開(kāi)拓等目標(biāo);應(yīng)用到制造等更多行業(yè)。更多行業(yè)的應(yīng)用第十六頁(yè),共三十頁(yè)。*數(shù)據(jù)的再利用:由于在信息價(jià)值鏈中的特殊位置,有些公司可能會(huì)收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長(zhǎng)再次利用這些數(shù)據(jù)。例如,移動(dòng)電話運(yùn)營(yíng)商手機(jī)用戶的位置信息來(lái)傳輸電話信號(hào),這對(duì)以他們來(lái)說(shuō),數(shù)據(jù)只有狹窄的技術(shù)用途。但當(dāng)它被一些發(fā)布個(gè)性化位置廣告服務(wù)和促銷活動(dòng)的公司再次利用時(shí),則變得更有價(jià)值。大數(shù)據(jù)價(jià)值鏈的3大構(gòu)成:數(shù)據(jù)本身、技能與思維其中三者兼具的又谷歌公司,谷歌在剛開(kāi)始收集數(shù)據(jù)的時(shí)候就已經(jīng)有多次使用數(shù)據(jù)的想法。比方說(shuō),它的街景采集車手機(jī)全球定位系統(tǒng)數(shù)據(jù)不光是為了創(chuàng)建谷歌地圖,也是為了制成全自動(dòng)汽車以及谷歌眼鏡等與實(shí)景交匯的產(chǎn)品。未來(lái),企業(yè)會(huì)依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶?!洞髷?shù)據(jù)時(shí)代》傳統(tǒng)行業(yè)最終都會(huì)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè),無(wú)論是金融服務(wù)業(yè)、醫(yī)藥還是制造業(yè)。大數(shù)據(jù)的應(yīng)用
——未來(lái),改變一切第十七頁(yè),共三十頁(yè)。具體案例第十八頁(yè),共三十頁(yè)。難點(diǎn)分析第十九頁(yè),共三十頁(yè)。移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)第二十頁(yè),共三十頁(yè)。什么是hadoop開(kāi)源Apache項(xiàng)目,靈感來(lái)源于Google的 MapReduce白皮書和Google文件系(GFS), Yahoo完成了絕大部分初始設(shè)計(jì)和開(kāi)發(fā)Hadoop核心組件包括:-分布式文件系統(tǒng)-Map/Reduce–分布式計(jì)算用Java編寫運(yùn)行平臺(tái):?Linux,MacOS/X,Solaris,Windows?普通的X86硬件平臺(tái)第二十一頁(yè),共三十頁(yè)。為什么hadoop很重要非結(jié)構(gòu)化數(shù)據(jù)暴增:–估計(jì)未來(lái)5年,企業(yè)的數(shù)據(jù)將增長(zhǎng)650%,其中80%都是非結(jié)構(gòu)化數(shù)據(jù)–比如FACEBOOK每天收集100TB的數(shù)據(jù),Twitter會(huì)有每天產(chǎn)生3500億的tweets非結(jié)構(gòu)化的數(shù)據(jù)同樣蘊(yùn)藏巨大價(jià)值需要新方法利用所有數(shù)據(jù)進(jìn)行業(yè)務(wù)分析–ApacheHadoop作為一個(gè)分析存儲(chǔ)大量數(shù)據(jù)的關(guān)鍵數(shù)據(jù)平臺(tái)出現(xiàn)第二十二頁(yè),共三十頁(yè)。hadoop與大數(shù)據(jù)Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺(tái)之一–能夠輕松擴(kuò)展到PB級(jí)別的數(shù)據(jù)存儲(chǔ),處理規(guī)模–帶有高度容錯(cuò)能力的并行處理架構(gòu)–基于普通的X86平臺(tái)硬件架構(gòu),硬件成本低廉–用內(nèi)置格式存儲(chǔ)/處理數(shù)據(jù)–基于開(kāi)源項(xiàng)目,擁有當(dāng)量的代碼來(lái)源,并且傳統(tǒng)廠商也日益重視對(duì)其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn)之一第二十三頁(yè),共三十頁(yè)。英特爾企業(yè)級(jí)Hadoop堆棧第二十四頁(yè),共三十頁(yè)。我現(xiàn)在做的工作——Nutch定義Nutch是一個(gè)開(kāi)源的、Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。第二十五頁(yè),共三十頁(yè)。nutch首頁(yè)第二十六頁(yè),共三十頁(yè)。搜索引擎原理一、搜索引擎原理用戶用戶用戶檢索入口google百度結(jié)果排序網(wǎng)頁(yè)索引網(wǎng)頁(yè)分析網(wǎng)頁(yè)抓取互聯(lián)網(wǎng)搜索引擎技術(shù)框架圖第二十七頁(yè),共三十頁(yè)。Nutch工作原理第二十八頁(yè),共三十頁(yè)。
謝謝第二十九頁(yè),共三十頁(yè)。內(nèi)容總結(jié)大趨勢(shì)。這是繼1993年美國(guó)宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署,由美國(guó)國(guó)家科學(xué)基金會(huì)、能源部等6個(gè)聯(lián)邦部門共同投資。半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面融入社
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 東營(yíng)中考數(shù)學(xué)試題及答案
- 教育科技政策與實(shí)施策略研究
- 開(kāi)啟數(shù)字化教育新紀(jì)元學(xué)生、教師與家長(zhǎng)的角色變革
- 2025年鋼材卡板項(xiàng)目市場(chǎng)調(diào)查研究報(bào)告
- 城市智慧治理的數(shù)字化戰(zhàn)略及其風(fēng)險(xiǎn)因素研究
- 情智交融:中學(xué)信息技術(shù)課程情感教學(xué)策略的深度探究與實(shí)踐
- 帶權(quán)值的漸進(jìn)迭代逼近算法:原理、優(yōu)化與多元應(yīng)用探究
- 宏觀審慎政策對(duì)貨幣政策銀行風(fēng)險(xiǎn)承擔(dān)渠道的影響:理論、實(shí)證與協(xié)同策略
- 班級(jí)主題班會(huì)的策劃與實(shí)施計(jì)劃
- 企業(yè)數(shù)字化轉(zhuǎn)型與市場(chǎng)趨勢(shì)分析研究
- 2025年國(guó)際關(guān)系與外交專業(yè)考試試題及答案
- 2025年物流行業(yè)安全生產(chǎn)考試題庫(kù)(物流安全生產(chǎn)法規(guī)與事故處理)試題
- 完善土地清表協(xié)議書
- 醫(yī)療器械公司質(zhì)量管理體系文件
- 燈謎文化智慧樹(shù)知到期末考試答案章節(jié)答案2024年西安交通大學(xué)
- 模擬電子技術(shù)基礎(chǔ)智慧樹(shù)知到期末考試答案章節(jié)答案2024年北京航空航天大學(xué)
- 初中生休學(xué)申請(qǐng)書
- 業(yè)主委員會(huì)成立全套表格(20210128041538)
- 中國(guó)石油大學(xué)華東本科畢業(yè)設(shè)計(jì)論文參考模板
- 微邦生物技術(shù)工業(yè)污水處理中的應(yīng)用
- 重慶市地質(zhì)災(zāi)害危險(xiǎn)性評(píng)估報(bào)告編制技術(shù)要求
評(píng)論
0/150
提交評(píng)論