




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第八章
大數(shù)據(jù)思維大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第八章
大數(shù)據(jù)思維在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是一座“寶藏”,而思維是打開寶藏的大門鑰匙,只有建立符合大數(shù)據(jù)時(shí)代發(fā)展的思維,才能最大程度地挖掘出數(shù)據(jù)的潛在價(jià)值。所以,大數(shù)據(jù)的發(fā)展,不僅取決于大數(shù)據(jù)的資源的擴(kuò)展,還取決于大數(shù)據(jù)的應(yīng)用,更取決于大數(shù)據(jù)思維的形成。只有具備大數(shù)據(jù)思維,才能更好地運(yùn)用大數(shù)據(jù)資源和大數(shù)據(jù)技術(shù)。也就是說,大數(shù)據(jù)發(fā)展必須是數(shù)據(jù)、技術(shù)和思維三大要素的聯(lián)動(dòng)。本章首先介紹傳統(tǒng)的思維方式,并指出大數(shù)據(jù)時(shí)代需要新的思維方式,然后介紹大數(shù)據(jù)思維方式,包括全樣兒非抽樣,效率而非精確、相關(guān)而非因果、以數(shù)據(jù)為中心,“人人為我,我為人人”等,最后給出運(yùn)用大數(shù)據(jù)思維的具體實(shí)例。目錄CONTENTS概述8.1傳統(tǒng)的思維方式8.2大數(shù)據(jù)時(shí)代的思維方式8.3本章小結(jié)8.5習(xí)題8.6數(shù)據(jù)安全與隱私保護(hù)的對(duì)策8.4概
述PART01
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是一座“寶藏”,而思維是打開寶藏的大門鑰匙,只有建立符合大數(shù)據(jù)時(shí)代發(fā)展的思維,才能最大程度地挖掘出數(shù)據(jù)的潛在價(jià)值。PART02傳統(tǒng)的思維方式
傳統(tǒng)的思維方式可以定義為是機(jī)械思維,可以追溯到古希臘,它是思辨的思想和邏輯推理的能力,通過這些從實(shí)踐中總結(jié)出基本的結(jié)論,然后通過邏輯繼續(xù)延伸。8.2
傳統(tǒng)的思維方式 傳統(tǒng)的思維方式可以定義為是機(jī)械思維,可以追溯到古希臘,它是思辨的思想和邏輯推理的能力,通過這些從實(shí)踐中總結(jié)出基本的結(jié)論,然后通過邏輯繼續(xù)延伸,最有代表的歐幾里得的幾何學(xué)和托勒密的地心說。目前,大多數(shù)學(xué)者,普遍都遵循這機(jī)械思維。如果把他們的方法論做一個(gè)簡單的概括,其核心思想有兩點(diǎn),一是需要有一個(gè)簡單的元模型,這個(gè)模型可能是假設(shè)出來的,然后再利用這個(gè)元模型構(gòu)建復(fù)雜的模型;二是整個(gè)模型要和歷史數(shù)據(jù)相吻合。被廣泛地應(yīng)用在動(dòng)態(tài)規(guī)劃管理學(xué)上。另外一個(gè)典型的機(jī)械思維的案例是牛頓的方法論,核心思想可以概括成三點(diǎn):第一,世界變化的規(guī)律是確定的;第二,因?yàn)橛写_定性做保障,因此規(guī)律不僅是可以被認(rèn)識(shí)的,而且是可以用簡單的公式或者語音描述清楚。這一點(diǎn)在牛頓之前,大部分人不認(rèn)可,而是歸結(jié)于神的作用。這些規(guī)律應(yīng)該是放之四海皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐,這種認(rèn)知是在牛頓之后才有的。PART03大數(shù)據(jù)時(shí)代的思維方式
數(shù)據(jù)安全的重要性已經(jīng)毋庸置疑,目前支撐數(shù)據(jù)全生命周期安全防護(hù)的技術(shù)也比較成熟。這里我們重點(diǎn)介紹密碼學(xué)基礎(chǔ)及關(guān)鍵技術(shù)、公鑰基礎(chǔ)設(shè)施、數(shù)字證書以及訪問控制等技術(shù)和方案。8.3大數(shù)據(jù)時(shí)代的思維方式在大數(shù)據(jù)時(shí)代,機(jī)械思維的局限性越來越明顯,并非所有的規(guī)律都可以用簡單的原理來描述,同時(shí)不確定性也無處不在。因此,如何在承認(rèn)不確定性的情況下,如何去的科學(xué)上的突破,或者把事情做得更高,這就需要一種新的方法論的誕生。因此,大數(shù)據(jù),不僅是一次技術(shù)革命,同時(shí)也是一次思維革命。從理論上來說,相對(duì)于人類有限的數(shù)據(jù)采集和分析能力,自然界和人類社會(huì)存在的數(shù)據(jù)是無限的。以有限對(duì)無線,如何才能慧眼識(shí)珠,找到人們所需的數(shù)據(jù),無疑是一種思維的指引。因此,就像經(jīng)典力學(xué)和相對(duì)論的誕生改變了人們的思維模式一樣,大數(shù)也在潛移默化地改變?nèi)藗兊乃枷?。維克托.邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是思維方式的轉(zhuǎn)變:全樣兒非抽樣、效率而非精確、相關(guān)而非因果。此外,人們解決問題的思維方式,正在朝著“以數(shù)據(jù)為中心”以及“我為人人,人人為我”的方式邁進(jìn)。8.3.1
全樣而非抽樣過去,由于數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和處理能力的限制,在進(jìn)行科學(xué)分析中,通常采用抽樣的方法,即從全集數(shù)據(jù)中抽取一部分樣本數(shù)據(jù),對(duì)這些樣本數(shù)據(jù)進(jìn)行處理分析,來推斷出全集數(shù)據(jù)的總體特征。抽樣的基本要求是要保證所抽取的樣品單位相對(duì)全部樣品具有充分的代表性。抽樣的目的是從被抽取樣本的分析、研究結(jié)果來估計(jì)和推斷全部樣本的特性,是科學(xué)實(shí)驗(yàn)、質(zhì)量檢驗(yàn)、社會(huì)調(diào)查等普遍采用的一種經(jīng)濟(jì)有效的工作和研究方法。但是,抽樣分析方法有優(yōu)點(diǎn)也有缺點(diǎn)。抽樣保證了在客觀條件達(dá)不到的情況下,可能得出一個(gè)相對(duì)靠譜的結(jié)論,提供一定的參考價(jià)值。但是,抽樣分析的結(jié)果具有不穩(wěn)定性。當(dāng)下大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù)的核心就是對(duì)數(shù)量數(shù)據(jù)能夠進(jìn)行實(shí)時(shí)采集、存儲(chǔ)和處理。8.3.2
效率而非精確過去,采用抽樣分析的方法,就必須追求分析方法的精確性,因?yàn)槌闃臃治鲋皇轻槍?duì)部分樣本的分析,其分析結(jié)果被應(yīng)用到全集數(shù)據(jù)以后,誤差極其容易被放大,這就意味著,抽樣分析的極小誤差,被放大到全集數(shù)據(jù)以后,可能就會(huì)變成一個(gè)很大的誤差,導(dǎo)致出現(xiàn)“失之毫厘謬以千里”的現(xiàn)象。因此,為了保證誤差被放大到全集數(shù)據(jù)時(shí)仍然處于可以接受的范圍,就必須確保抽樣分析結(jié)果的精確性。當(dāng)下的大數(shù)據(jù)時(shí)代,越多越多的不確定性的出現(xiàn),因此我們越來越能夠容忍不精確的數(shù)據(jù)。傳統(tǒng)的樣本分析師門很難容忍錯(cuò)誤數(shù)據(jù)的存在,因?yàn)樗麄儺吷荚谘芯咳绾畏乐购捅苊忮e(cuò)誤的出現(xiàn)。在收集樣本的時(shí)候,統(tǒng)計(jì)學(xué)家會(huì)采用一定的策略來減少錯(cuò)誤發(fā)生的頻率。在公布結(jié)果之前,他們也會(huì)測試樣本是否存在潛在的系統(tǒng)性偏差。綜上,大數(shù)據(jù)時(shí)代人們開始重新審視精確性的優(yōu)劣。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)據(jù)化、網(wǎng)絡(luò)化的時(shí)代,就可能會(huì)錯(cuò)過重要的信息。8.3.3相關(guān)而非因果過去,數(shù)據(jù)分析的目的,一方面是解釋事物背后的發(fā)展機(jī)理,例如,某大型超市的某個(gè)門店在某個(gè)時(shí)期內(nèi)凈利潤下降很多,這就需要信息部門對(duì)相關(guān)銷售數(shù)據(jù)進(jìn)行詳細(xì)分析找出發(fā)生問題的原因。另一方面是用于預(yù)測未來可能發(fā)生的時(shí)間。在無法確定因果關(guān)系是,數(shù)據(jù)為人們提供了解決問題的新方法。數(shù)據(jù)中包含的信息可以幫助消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系,幫助我們得到我們想要知道的答案,這就是大數(shù)據(jù)思維的核心。從因果關(guān)系到相關(guān)性,并不是抽象的,而是有一整套的算法能夠讓人們從數(shù)據(jù)中尋找相關(guān)性,最后去解決各種各樣的難題。8.3.4以數(shù)據(jù)為中心
在很長一段時(shí)期內(nèi)的科學(xué)研究領(lǐng)域,無論是研究語音識(shí)別、機(jī)器翻譯、圖像識(shí)別的學(xué)者,還是研究自然語言理解的學(xué)者,分成了界限明確的兩派,一派堅(jiān)持采用傳統(tǒng)的人工智能方法解決問題,簡單來講就是模仿人,另外一派在倡導(dǎo)數(shù)據(jù)驅(qū)動(dòng)方法。由于數(shù)據(jù)量有限,在最初的機(jī)器翻譯領(lǐng)域,學(xué)者通常采用的人工智能的方法。計(jì)算機(jī)研發(fā)人員將語法規(guī)則和雙語詞典結(jié)合在一起。在20世紀(jì)90年代互聯(lián)網(wǎng)興起之后,數(shù)據(jù)的獲取變得非常容易,可用的數(shù)據(jù)量也愈加龐大,因此,從1994年到2004年十年的時(shí)間里,機(jī)器反應(yīng)的準(zhǔn)確性提高了一倍,其中20%左右的貢獻(xiàn)來自于方法的改進(jìn),80%則來自數(shù)據(jù)量的提升。數(shù)據(jù)驅(qū)動(dòng)方法從20世紀(jì)70年代開始起步,在80-90年代得到緩慢但穩(wěn)步的發(fā)展。目前,全球各個(gè)領(lǐng)域數(shù)據(jù)不斷向外擴(kuò)展,漸漸形成了另外一個(gè)特點(diǎn),越來越多的數(shù)據(jù)開始交叉,各個(gè)維度的數(shù)據(jù)從點(diǎn)和線形成網(wǎng),或者換個(gè)角度說,數(shù)據(jù)之間的關(guān)聯(lián)性極大地增加了。8.3.5我為人人,人人為我“我為人人,人人為我”是大數(shù)據(jù)思維的又一體現(xiàn),城市的智能交通管理便是一個(gè)例子。在智能手機(jī)和智能汽車(特斯拉等)出現(xiàn)之前,世界上的很多大城市雖然都有交通管理中心,但是它們能夠得到的交通路況信息最快也有20分鐘滯后。如果沒有足夠跟蹤足夠多的人出行情況的實(shí)時(shí)信息的工具,一個(gè)城市即使部署再多的采樣觀察點(diǎn),再頻繁地報(bào)告各種交通事故和擁堵的情況,整體交通路況信息的實(shí)時(shí)性也不會(huì)有多大改進(jìn)。但是,在能夠定位的智能手機(jī)出現(xiàn)以后,這種情況就從根本上得到了改變。當(dāng)下智能手機(jī)足夠普及并且大部分用戶開放了他們的實(shí)時(shí)位置信息(符合大數(shù)據(jù)的完備性),使得做地圖服務(wù)的公司,比如百度或者高德,有可能實(shí)時(shí)地得到任何一個(gè)人口密度較大的城市的人員流動(dòng)信息,并且根據(jù)其流動(dòng)的速度和所在的位置,很容易區(qū)分步行的人群和行進(jìn)的汽車。8.3.5我為人人,人人為我由于收集信息的公司和提供地圖服務(wù)的公司是一家,因此從數(shù)據(jù)采集、數(shù)據(jù)處理以及到信息發(fā)布,中間的延時(shí)微乎其微,所提供的交通路況信息要及時(shí)的多。使用過百度或者高德地圖的人,對(duì)比六七年前,都很明顯地感到了其中的差別。同時(shí)還可以通過分析歷史數(shù)據(jù)來預(yù)測某些更及時(shí)的信息。目前,一些科研單位和公司的研發(fā)部門,已經(jīng)開始利用一個(gè)城市交通狀況的歷史數(shù)據(jù),結(jié)合實(shí)時(shí)數(shù)據(jù),預(yù)測出一段時(shí)間以內(nèi)(比如一個(gè)小時(shí)內(nèi))該城市各條道路可能出現(xiàn)的交通狀況,并且?guī)椭鲂姓咭?guī)劃最優(yōu)的出行路線。上述的實(shí)例,很好地闡述了大數(shù)據(jù)時(shí)代“我為人人,人人為我”的全新理念和思維,每個(gè)使用導(dǎo)航軟件的智能手機(jī)用戶,一方面共享自己的實(shí)時(shí)位置信息給導(dǎo)航軟件公司,使得導(dǎo)航軟件公司可以從大量用戶那里獲得實(shí)時(shí)的交通路況大數(shù)據(jù),另一方面,每個(gè)用戶又在享受導(dǎo)航軟件公司提供的基于交通大數(shù)據(jù)的實(shí)時(shí)導(dǎo)航服務(wù)。PART04運(yùn)用大數(shù)據(jù)思維的典型案例
為了進(jìn)一步加深對(duì)大數(shù)據(jù)思維的理解并應(yīng)用,下面對(duì)相關(guān)的典型案例進(jìn)行描述。8.4運(yùn)用大數(shù)據(jù)思維的典型案例為了進(jìn)一步加深對(duì)大數(shù)據(jù)思維的理解并應(yīng)用,下面對(duì)相關(guān)的典型案例進(jìn)行描述,如表8-1所示。8.4.1商品比價(jià)網(wǎng)站美國有一家創(chuàng)新企業(yè),可以幫助人們做購買決策,告訴消費(fèi)者什么時(shí)候買什么產(chǎn)品,什么時(shí)候買最便宜,預(yù)測產(chǎn)品的價(jià)格趨勢。這家公司背后的驅(qū)動(dòng)力就是大數(shù)據(jù)。他們在全球各大網(wǎng)站上搜集數(shù)十億計(jì)的數(shù)據(jù),然后幫助數(shù)以萬計(jì)的用戶省錢,為他們的采購找到最好時(shí)間,提高生產(chǎn)率,降低交易成本,為終端的消費(fèi)者帶去更多價(jià)值。在這類模式下,盡管對(duì)一些零售商的利潤會(huì)進(jìn)一步受擠壓,但從商業(yè)本質(zhì)上來講,可以把錢更多地放回到消費(fèi)者的口袋里,讓購物變的更理性。這是依靠大數(shù)據(jù)催生出來的一項(xiàng)全新產(chǎn)業(yè)。這家為數(shù)以萬計(jì)的客戶省錢的公司,后來被eBay以高價(jià)收購。8.4.2啤酒與尿布“啤酒與尿布”的故事,是全球最大的零售商沃爾瑪發(fā)現(xiàn)的。沃爾瑪?shù)墓ぷ魅藛T在按照周期統(tǒng)計(jì)產(chǎn)品的銷售信息是,發(fā)現(xiàn)了一個(gè)非常奇怪的現(xiàn)象:每到周末的時(shí)候,超市里啤酒和尿布的銷量就會(huì)突然大增。為了搞清楚其中的原因,他們派出工作人員進(jìn)行調(diào)查。通過一段時(shí)間的觀察和走訪之后,他們了解到,在美國有孩子的家庭中,太太經(jīng)常囑咐丈夫下班后要為孩子買尿布,而丈夫們在買完尿布以后又順手帶回了自己愛喝的啤酒(休息時(shí)喝酒是很多男人的習(xí)慣),因此,周末時(shí)啤酒和尿布銷售一起增長。弄清楚原因以后,沃爾瑪打破常規(guī),嘗試將啤酒和尿布擺放在一起,結(jié)果使得啤酒和尿布的銷售雙雙激增,為公司帶來了巨大的利潤。通過這個(gè)故事我們看到,本來尿布與啤酒是兩個(gè)風(fēng)馬牛不相及的物品,但如果關(guān)聯(lián)在一起,銷量就增加了。8.4.3零售商Target的基于大數(shù)據(jù)的商品營銷美國人逛超市,除了大家熟悉的沃爾瑪,還有美國第三大零售商Target,也是人們經(jīng)常光顧的商超。一個(gè)真實(shí)的故事:一名美國男子闖入他家附近的Target,抗議說超市竟然給他17歲的女兒發(fā)嬰兒尿布和童車的優(yōu)惠券,這是赤裸裸的侮辱,他要起訴超市。店鋪經(jīng)理就立刻跑出來承認(rèn)錯(cuò)誤,一臉懵的經(jīng)理也不知道發(fā)生了什么事。一個(gè)月以后這位父親又跑來道歉,這個(gè)時(shí)候他才知道他的女兒的確懷孕了。Target比她的父親知道他女兒懷孕足足早了一個(gè)月,那么Target是怎么知道的呢?這個(gè)女孩也沒有買過任何母嬰用品???原來這就是神秘的大數(shù)據(jù)起的作用。Target從數(shù)據(jù)倉庫中挖掘出了25項(xiàng)與懷孕高度相關(guān)的商品,制作了一個(gè)懷孕預(yù)測的指數(shù),根據(jù)指數(shù)能夠在很小的誤差范圍內(nèi)預(yù)測顧客有沒有懷孕。實(shí)際上這個(gè)女孩只是買了一些沒有味道的濕紙巾和一些補(bǔ)鎂的藥品,就被Target鎖定了。8.4.4
吸煙有害身體健康的法律訴訟關(guān)于吸煙是否有害健康,在過去,由于數(shù)據(jù)量有限,而且常常不是多維度的,這樣的相關(guān)性很難找得到,即使偶爾找到了,人們也未必接受,因?yàn)檫@和傳統(tǒng)的觀念不一樣。20世紀(jì)90年代中期,在美國和加拿大圍繞香煙是否對(duì)人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關(guān)鍵,是采用因果關(guān)系判定,還是采用相關(guān)性判定,決定了那些訴訟案判決的最終結(jié)果。各州檢察官們和專家們經(jīng)過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達(dá)成和解,同意賠償3655億美元。在這場歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對(duì)人體有害的因果關(guān)系的證據(jù),而依然是采用了統(tǒng)計(jì)上強(qiáng)相關(guān)性的證據(jù),只是這一次的證據(jù)能夠讓陪審團(tuán)和法官信服。在這場馬拉松式的訴訟過程中,其實(shí)人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強(qiáng)相關(guān)性上來了。如果在法律上都能夠被作為證據(jù)接受,那么把相關(guān)性的結(jié)果應(yīng)用到其他領(lǐng)域更是順理成章的事情了。8.4.5
基于大數(shù)據(jù)的藥品研發(fā)通過因果分析找到答案,進(jìn)而研制出治療某種疾病的藥物,是傳統(tǒng)的藥物研制方式,青霉素的發(fā)明過程就非常有代表性。19世紀(jì)中期,奧匈帝國的塞麥爾維斯、法國的巴斯德等人發(fā)現(xiàn)微生物細(xì)菌會(huì)導(dǎo)致很多疾病,因此人們很容易相當(dāng)殺死細(xì)菌就能治好疾病,這就是因果關(guān)系。在整個(gè)青霉素和其他抗生素的發(fā)明過程中,人類就是不斷地分析原因,然后尋找答案。通過這種因果關(guān)系找到答案非常讓人信服。按照因果關(guān)系,研制一種新藥就需要如此長的時(shí)間、如此高的成本。這顯然不是患者可以等待和負(fù)擔(dān)的,也不是醫(yī)生、科學(xué)家、制藥公司想要的,但是過去沒有辦法,只能這么做。如今,有了大數(shù)據(jù),尋找特效藥的方法就和過去有所不同了。美國一共有5000多種處方藥,人類會(huì)得的疾病大概有一萬種。如果將每一種藥和每一種疾病進(jìn)行配對(duì),就會(huì)發(fā)現(xiàn)一些意外的驚喜。這種先有結(jié)果再反推原因的做法,和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反。無疑,這種做法會(huì)比較快,前提是足夠多的數(shù)據(jù)支持。8.4.6
基于大數(shù)據(jù)的微信朋友圈廣告微信朋友圈廣告已成為各大商家和品牌方進(jìn)行商品推廣使用最廣泛的途徑之一。它通常以圖文形式呈現(xiàn),通過在用戶朋友圈的內(nèi)容流中插入廣告,向用戶展示推廣的產(chǎn)品、服務(wù)或者品牌。那么微信朋友圈是如何兼顧自己和廣告商的利益,首先,它根據(jù)收集到的大量數(shù)據(jù)對(duì)用戶的特征、興趣、行為習(xí)慣等信息進(jìn)行分析,形成用戶畫像模型,其次,根據(jù)廣告主的設(shè)定與用戶畫像模型進(jìn)行匹配,計(jì)算出匹配度最大的結(jié)果,精準(zhǔn)推送給用戶。最后,系統(tǒng)會(huì)對(duì)廣告的展示量、點(diǎn)擊量等數(shù)據(jù)進(jìn)行收集和分析,以評(píng)估廣告的效果,并根據(jù)廣告的效果和用戶反饋,不斷地進(jìn)行優(yōu)化,從而提升廣告的匹配度和用戶體驗(yàn)。這樣以來,如果一個(gè)廣告很少被點(diǎn)擊,微信朋友圈就會(huì)盡量少地展示這個(gè)廣告。對(duì)廣告主來說省錢了,因?yàn)椴挥没ㄥX在無用的廣告上面。對(duì)微信朋友圈來說,不展示這些廣告就可以把有限而寶貴的搜索流量留給那些可能被點(diǎn)擊的廣告,從而增加自己的收入。對(duì)用戶來說,也不會(huì)看到自己不想看并且跟自己沒關(guān)系的廣告,提升了用戶的體驗(yàn)。這就是用數(shù)據(jù)來獲得智能。8.4.7
搜索引擎“點(diǎn)擊模型”各個(gè)搜索引擎都有一個(gè)度量用戶點(diǎn)擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型,通常被稱為“點(diǎn)擊模型”隨著數(shù)據(jù)量的積累,點(diǎn)擊模型對(duì)搜索結(jié)果排名的預(yù)測越來越準(zhǔn)確,它的重要性也越來越大。目前,它在搜索排序中至少占70%~80%的權(quán)重,也就是說搜索算法中其他所有的因素加起來都不如它重要。換句話說,在當(dāng)今的搜索引擎中,因果關(guān)系已經(jīng)沒有數(shù)據(jù)的相關(guān)性重要了。當(dāng)然,點(diǎn)擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小。對(duì)于常見的搜索,例如“虛擬現(xiàn)實(shí)”,積累足夠多的用戶點(diǎn)擊數(shù)據(jù)并不需要太長的時(shí)間。當(dāng)整個(gè)搜索行業(yè)都意識(shí)到點(diǎn)擊數(shù)據(jù)的重要性后,這個(gè)市場上的競爭就從技術(shù)競爭變成了數(shù)據(jù)競爭。因此,搜索質(zhì)量的競爭就成了瀏覽器或者其他客戶端軟件市場占有率的競爭。雖然在外人看來這些互聯(lián)網(wǎng)公司競爭的是技術(shù),但更準(zhǔn)確地講,它們是數(shù)據(jù)層面的競爭。8.4.8
流感趨勢預(yù)測以流感為例,很多國家都有規(guī)定,當(dāng)醫(yī)生發(fā)現(xiàn)新型流感病例時(shí)需要告知疾控中心。但由于人們可能患病不能及時(shí)就醫(yī),同時(shí)信息傳回疾控中心也需要時(shí)間,因此,通告新流感病例時(shí)往往會(huì)有一定的延遲。很早之前,就有工程師發(fā)現(xiàn)某些搜索字詞非常有助于了解流感病情況。在流感季節(jié),與流感有關(guān)的搜索會(huì)明顯增多。到了過敏季節(jié),與過敏有關(guān)的搜索會(huì)顯著上升。而到了夏季,與曬傷有關(guān)的搜索與會(huì)大幅增加。于是這些工程師開發(fā)了一個(gè)可以預(yù)測流感趨勢的工具,它采用大數(shù)據(jù)分析技術(shù),利用用戶在搜索引擎輸入的搜索關(guān)鍵詞來判斷整個(gè)地區(qū)的流感情況。工程師把人們最頻繁檢索的詞條和官方發(fā)布的季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,并構(gòu)建數(shù)學(xué)模型實(shí)現(xiàn)流感預(yù)測。流感趨勢預(yù)測并不是依賴于對(duì)隨機(jī)抽樣的分析,而是分析了幾十億互聯(lián)網(wǎng)檢索記錄而得到的結(jié)論。分析整個(gè)數(shù)據(jù)庫,而不是對(duì)一個(gè)樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測出任何特定尺度的數(shù)據(jù)特征。8.4.9大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問題,在自然語言處理上表現(xiàn)得很明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們在日常生活中使用語言的學(xué)科方向)。在2000年的時(shí)候,微軟研究中心的米歇爾?班科和埃里克?比爾一直在尋求Word程序中語法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立再百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往四種常見的算法中逐漸添加數(shù)據(jù),先是已簽完字,再到一億字,最后到十億。、隨著數(shù)據(jù)的增多,四種算法的表現(xiàn)都大幅度提高了。后來,班科和比爾在他們發(fā)表的研究論文中寫到:如此一來,我們得重新衡量一下,更多的人力物力是應(yīng)該消耗在算法發(fā)展上,還是在語料庫發(fā)展上。所以,數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還重要,因此大叔的的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效。8.4.10
百度翻譯2007年,百度公司開始涉足機(jī)器翻譯,并于當(dāng)年推出在線翻譯服務(wù),最初僅提供英語到中文和中文到英語的翻譯功能。起初,百度翻譯僅是收集大量的雙語對(duì)照數(shù)據(jù),這些數(shù)據(jù)包含了源語言和目標(biāo)語言的對(duì)應(yīng)關(guān)系,通過對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練和模型構(gòu)建,提高翻譯的準(zhǔn)確率。隨著科技的發(fā)展,百度翻譯擴(kuò)大數(shù)據(jù)源的類型和采集途徑,盡可能地收集所有的翻譯,比如會(huì)從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 野生動(dòng)物疫病監(jiān)測與獸醫(yī)公共衛(wèi)生考核試卷
- 軟件測試工程師考試輕松掌握試題及答案
- 焙烤食品制造企業(yè)的營銷渠道與客戶關(guān)系管理考核試卷
- 公路工程生態(tài)設(shè)計(jì)理念試題及答案
- 船舶設(shè)計(jì)與仿真技術(shù)考核試卷
- 嵌入式開發(fā)實(shí)現(xiàn)中的思維方式探討試題及答案
- 現(xiàn)代數(shù)據(jù)庫與網(wǎng)絡(luò)服務(wù)整合試題及答案
- 大學(xué)公寓社區(qū)管理制度
- 公司現(xiàn)場定置管理制度
- 計(jì)算機(jī)二級(jí)MySQL實(shí)務(wù)題目及答案
- (全冊完整16份)北師大版五年級(jí)下冊100道口算題大全
- 維修電工求職簡歷
- 人教版歷史八年級(jí)上冊知識(shí)點(diǎn)
- 麻醉藥品和精神藥品培訓(xùn)試題
- GB/T 799-2020地腳螺栓
- 非小細(xì)胞肺癌寡轉(zhuǎn)移灶中立體定向放療的運(yùn)用,放射醫(yī)學(xué)論文
- 遠(yuǎn)足拉練動(dòng)員大會(huì)課件
- 出租房屋安全檢查記錄
- 夏季養(yǎng)胃知識(shí)課件
- 人教版PEP六年級(jí)英語下冊單詞聽寫(帶四線格)
- 國家開放大學(xué)《財(cái)務(wù)管理#》形考任務(wù)1參考答案
評(píng)論
0/150
提交評(píng)論