《大數據導論》高職大數據專業全套教學課件_第1頁
《大數據導論》高職大數據專業全套教學課件_第2頁
《大數據導論》高職大數據專業全套教學課件_第3頁
《大數據導論》高職大數據專業全套教學課件_第4頁
《大數據導論》高職大數據專業全套教學課件_第5頁
已閱讀5頁,還剩1130頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據導論項目1大數據與大數據時代謝謝項目2大數據時代思維變革謝謝項目3大數據促進行業發展謝謝項目4大數據方法的驅動力謝謝項目5大數據存儲技術謝謝項目6大數據處理技術謝謝項目7大數據分析技術謝謝項目8大數據在云端謝謝全套可編輯PPT課件

本課件是可編輯的正常PPT課件項目1大數據與大數據時代本課件是可編輯的正常PPT課件目錄1任務1.1:進入大數據時代

【導讀案例】準確預測地震

【任務描述】

【知識準備】進入大數據時代【作業】【實訓操作】ETI公司的背景信息2任務1.2:熟悉大數據的定義本課件是可編輯的正常PPT課件【導讀案例】準確預測地震討論:(1)請記錄下你曾經親歷或者聽說過的地震事件:(2)針對地球上頻發的地震災害,請盡可能多地列舉你所認為的地震大數據內容?(3)認識大數據,對地震活動的方方面面(預報、預測與災害減輕等)有什么意義?(4)請簡單記述你所知道的上一周內發生的國

際、國內或者身邊的大事。本課件是可編輯的正常PPT課件【任務描述】(1)熟悉大數據與大數據時代的發生和發展。(2)深入理解:為什么說“數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。”(3)熟悉大數據的描述性分析、診斷性分析、預測性分析和規范性分析。本課件是可編輯的正常PPT課件【知識準備】進入大數據時代信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機,每臺辦公桌上都放著一臺電腦,每間辦公室內都連接到局域網甚至互聯網。半個世紀以來,隨著計算機技術全面和深度地融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導致了信息形態的變化——量變引起了質變。本課件是可編輯的正常PPT課件天文學——信息爆炸的起源1.1.1本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源綜合觀察社會各個方面的變化趨勢,我們能真正意識到信息爆炸或者說大數據的時代已經到來。以天文學為例,2000年斯隆數字巡天項目(見圖1-2)啟動的時候,位于新墨西哥州的望遠鏡在短短幾周內收集到的數據,就比世界天文學歷史上總共收集的數據還要多。到了2010年,信息檔案已經高達1.4×242字節。不過,預計2016年在智利投入使用的大型視場全景巡天望遠鏡能在五天之內就獲得同樣多的信息。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源圖1-2美國斯隆數字巡天望遠鏡本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源天文學領域發生的變化在社會各個領域都在發生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數學模型和算法之上的計算機程序自動完成的,這些程序運用海量數據來預測利益和降低風險。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源互聯網公司更是要被數據淹沒了。谷歌公司每天要處理超過24拍字節(PB,250字節)的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。臉書(Facebook)這個創立不過十來年的公司,每天更新的照片量超過1000萬張,每天人們在網站上點擊“喜歡”(Like)按鈕或者寫評論大約有三十億次,這就為臉書公司挖掘用戶喜好提供了大量的數據線索。與此同時,谷歌(Google)的子公司YouTube每月接待多達8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會發布超過4億條微博。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源從科學研究到醫療保險,從銀行業到互聯網,各個不同的領域都在講述著一個類似的故事,那就是爆發式增長的數據量。這種增長超過了我們創造機器的速度,甚至超過了我們的想象。我們周圍到底有多少數據?增長的速度有多快?許多人試圖測量出一個確切的數字。盡管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學安嫩伯格通信學院的馬丁?希爾伯特進行了一個比較全面的研究,他試圖得出人類所創造、存儲和傳播的一切信息的確切數目。他的研究范圍不僅包括書籍、圖畫、電子郵件、照片、音樂、視頻(模擬和數字),還包括電子游戲、電話、汽車導航和信件。馬丁?希爾伯特還以收視率和收聽率為基礎,對電視、電臺這些廣播媒體進行了研究。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源據他估算,僅在2007年,人類存儲的數據就超過了300艾字節(260字節)。下面這個比喻應該可以幫助人們更容易地理解這意味著什么:一部完整的數字電影可以壓縮成一個GB的文件,而一個艾字節相當于10億GB,一個澤字節(ZB,270字節)則相當于1024艾字節。總之,這是一個非常龐大的數量。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源有趣的是,在2007年的數據中,只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據,其余全部是數字數據。模擬數據也稱為模擬量,相對于數字量而言,指的是取值范圍是連續的變量或者數值,例如聲音、圖像、溫度、壓力等。模擬數據一般采用模擬信號,例如用一系列連續變化的電磁波或電壓信號來表示。數字數據也稱為數字量,相對于模擬量而言,指的是取值范圍是離散的變量或者數值。數字數據則采用數字信號,例如用一系列斷續變化的電壓脈沖(如用恒定的正電壓表示二進制數1,用恒定的負電壓表示二進制數0)或光脈沖來表示。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時代”和“數字村鎮”的概念,在2000年的時候,數字存儲信息仍只占全球數據量的四分之一,當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。早期數字信息的數量并不多。對于長期在網上沖浪和購書的人來說,那只是一個微小的部分。事實上,在1986年的時候,世界上約40%的計算能力都在袖珍計算器上運行,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計算器處理能力之和高。但是因為數字數據的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數字數據的數量每三年多就會翻一倍。相反,模擬數據的數量則基本上沒有增加。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源到2013年,世界上存儲的數據達到約1.2澤字節,其中非數字數據只占不到2%。這樣大的數據量意味著什么?如果把這些數據全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。公元前3世紀,埃及的托勒密二世竭力收集了當時所有的書寫作品,所以偉大的亞歷山大圖書館(見圖1-3)可以代表世界上所有的知識量。亞歷山大圖書館藏書豐富,有據可考的超過50000卷(紙草卷),包括《荷馬史詩》、《幾何原本》等。但是,當數字數據洪流席卷世界之后,每個地球人都可以獲得大量的數據信息,相當于當時亞歷山大圖書館存儲的數據總量的320倍之多。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源圖1-3舉世聞名的古代文化中心

——亞歷山大圖書館,毀于3世紀末的戰火本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源事情真的在快速發展。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發展的沖擊。歷史學家伊麗莎白?愛森斯坦發現,1453~1503年,這50年之間大約印刷了800萬本書籍,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還占據了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源這種增長意味著什么呢?彼特?諾維格是谷歌的人工智能專家,也曾任職于美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標志性的馬(見圖1-4)。這些畫可以追溯到一萬七千年之前的舊石器時代。然后,再想想畢加索畫的馬,看起來和那些洞穴壁畫沒有多大的差別。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以后,我們就再也沒有創造出什么東西了。”本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源圖1-4拉斯科洞穴壁畫本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源回想一下壁畫上的那匹馬。當時要畫一幅馬需要花費很久的時間,而現在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現在我們能每秒鐘播放24幅不同形態的馬的圖片,這就是一種由量變導致的質變:一部電影與一幅靜態的畫有本質上的區別!大數據也一樣,量變導致質變。物理學和生物學都告訴我們,當我們改變規模時,事物的狀態有時也會發生改變。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源以納米技術為例。納米技術專注于把東西變小而不是變大。其原理就是當事物到達分子級別時,它的物理性質就會發生改變。一旦你知道這些新的性質,你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數據量時,也就可以做很多在小數據量的基礎上無法完成的事情。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源有時候,我們認為約束自己生活的那些限制,對于世間萬物都有著同樣的約束力。事實上,盡管規律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對于人類來說,唯一一個最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控制著我們。但對于細小的昆蟲來說,重力是無關緊要的。對它們而言,物理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對于表面張力毫不在意。本課件是可編輯的正常PPT課件1.1.1天文學——信息爆炸的起源大數據的科學價值和社會價值正是體現在這里。一方面,對大數據的掌握程度可以轉化為經濟價值的來源。另一方面,大數據已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域。盡管我們還處在大數據時代的初期,但我們的日常生活已經離不開它了。本課件是可編輯的正常PPT課件大數據的發展1.1.2本課件是可編輯的正常PPT課件1.1.2大數據的發展如果僅僅是從數據量的角度來看的話,大數據在過去就已經存在了。例如,波音的噴氣發動機每30分鐘就會產生10TB的運行信息數據,安裝有4臺發動機的大型客機,每次飛越大西洋就會產生640TB的數據。世界各地每天有超過2.5萬架的飛機在工作,可見其數據量是何等龐大。生物技術領域中的基因組分析,以及以NASA(美國國家航空航天局)為中心的太空開發領域,從很早就開始使用十分昂貴的高端超級計算機來對龐大的數據進行分析和處理了。本課件是可編輯的正常PPT課件1.1.2大數據的發展現在和過去的區別之一,就是大數據已經不僅產生于特定領域中,而且還產生于我們每天的日常生活中,臉書、推特、領英(LinkedIn)、微信、QQ等社交媒體上的文本數據就是最好的例子。而且,盡管我們無法得到全部數據,但大部分數據可以通過公開的API(應用程序編程接口)相對容易地進行采集。在B2C(商家對顧客)企業中,使用文本挖掘(textmining)和情感分析等技術,就可以分析消費者對于自家產品的評價。本課件是可編輯的正常PPT課件1.1.2大數據的發展1.硬件性價比提高與軟件技術進步計算機性價比的提高,磁盤價格的下降,利用通用服務器對大量數據進行高速處理的軟件技術Hadoop的誕生,以及隨著云計算的興起,甚至已經無需自行搭建這樣的大規模環境——上述這些因素,大幅降低了大數據存儲和處理的門檻。因此,過去只有像NASA這樣的研究機構以及屈指可數的幾家特大企業才能做到的對大量數據的深入分析,現在只要極小的成本和時間就可以完成。無論是剛剛創業的公司還是存在多年的公司,也無論是中小企業還是大企業,都可以對大數據進行充分的利用。本課件是可編輯的正常PPT課件1.1.2大數據的發展(1)計算機性價比的提高。承擔數據處理任務的計算機,其處理能力遵循摩爾定律,一直在不斷進化。所謂摩爾定律,是美國英特爾公司共同創始人之一的高登?摩爾(GordonMoore,1929-)于1965年提出的一個觀點,即“半導體芯片的集成度,大約每18個月會翻一番”。從家電賣場中所陳列的電腦規格指標就可以一目了然地看出,現在以同樣的價格能夠買到的計算機,其處理能力已經和過去不可同日而語了。本課件是可編輯的正常PPT課件1.1.2大數據的發展(2)磁盤價格的下降。除了CPU性能的提高,硬盤等存儲器(數據的存儲裝置)的價格也明顯下降。2000年的硬盤驅動器平均每GB容量的單價約為16美元到19美元,而現在卻只有7美分(換算成人民幣的話,就相當于4~5毛錢的樣子),相當于下降到了10年前的230~270分之一。除了價格,存儲器在重量方面也產生了巨大的進步。1982年日立最早開發的1.2GB硬盤驅動器重量約為250磅(約合113千克)。而現在,32GB的微型SD卡重量卻只有0.5克左右,技術進步的速度相當驚人。本課件是可編輯的正常PPT課件1.1.2大數據的發展(3)大規模數據分布式處理技術Hadoop。這是一種可以在通用服務器上運行的開源分布式處理技術,它的誕生成為了目前大數據浪潮的第一推動力。如果只是結構化數據不斷增長,用傳統的關系型數據庫和數據倉庫,或者是其衍生技術,就可以進行存儲和處理了,但這樣的技術無法對非結構化數據進行處理。Hadoop的最大特征,就是能夠對大量非結構化數據進行高速處理。本課件是可編輯的正常PPT課件1.1.2大數據的發展2.云計算的普及大數據的處理環境現在在很多情況下并不一定要自行搭建了。例如,使用亞馬遜的云計算服務EC2(ElasticComputeCloud)和S3(SimpleStorageService),就可以在無需自行搭建大規模數據處理環境的前提下,以按用量付費的方式,來使用由計算機集群組成的計算處理環境和大規模數據存儲環境了。此外,在EC2和S3上還利用預先配置的Hadoop工作環境提供了“EMR”(ElasticMapReduce)服務。利用這樣的云計算環境,即使是資金不太充裕的創業型公司,也可以進行大數據的分析了。本課件是可編輯的正常PPT課件1.1.2大數據的發展實際上,在美國,新的IT創業公司如雨后春筍般不斷出現,它們通過利用亞馬遜的云計算環境,對大數據進行處理,從而催生出新型的服務。這些公司如網絡廣告公司Razorfish、提供預測航班起飛晚點等“航班預報”服務的FlightCaster、對消費電子產品價格走勢進行預測的D等。本課件是可編輯的正常PPT課件1.1.2大數據的發展3.大數據作為BI的進化形式認識大數據,我們還需要理解BI(BusinessIntelligence,商業智能)的潮流和大數據之間的關系。對企業內外所存儲的數據進行系統的集中、整理和分析,從而獲得對各種商務決策有價值的知識和觀點,這樣的概念、技術及行為稱為BI。大數據作為BI的進化形式,充分利用后不僅能夠高效地預測未來,也能夠提高預測的準確率。本課件是可編輯的正常PPT課件1.1.2大數據的發展BI的概念是1989年由時任美國高德納(Gartner)咨詢公司的分析師HowardDresner所提出的。Dresner當時提出的觀點是,應該將過去100%依賴信息系統部門來完成的銷售分析、客戶分析等業務,通過讓作為數據使用者的管理人員以及一般商務人員等最終用戶來親自參與,從而實現決策的迅速化以及生產效率的提高。本課件是可編輯的正常PPT課件1.1.2大數據的發展BI通過分析由業務過程和信息系統生成的數據讓一個組織能夠獲取企業績效的內在認識。分析的結果可以用于改進組織績效,或者通過修正檢測出的問題來管理和引導業務過程。商務智能在企業中使用大數據分析,并且這種分析通常會被整合到企業數據倉庫中以執行分析查詢。如圖1-5所示,商務智能的輸出能以儀表板顯示,它允許管理者訪問和分析數據,且可以潛在地改進分析查詢,從而對數據進行深入挖掘。本課件是可編輯的正常PPT課件1.1.2大數據的發展圖1-5商務智能用于改善商業應用,將數據倉庫中的數據以及儀表板的分析查詢結合起來本課件是可編輯的正常PPT課件1.1.2大數據的發展BI的主要目的是分析從過去到現在發生了什么、為什么會發生,并做出報告。也就是說,是將過去和現在進行可視化的一種方式。例如,過去一年中商品A的銷售額如何,它在各個門店中的銷售額又分別如何。然而,現在的商業環境變化十分劇烈。對于企業今后的活動來說,在將過去和現在進行可視化的基礎上,預測出接下來會發生什么顯得更為重要。也就是說,從看到現在到預測未來,BI也正在經歷著不斷的進化。本課件是可編輯的正常PPT課件1.1.2大數據的發展要對未來進行預測,從龐大的數據中發現有價值的規則和模式的數據挖掘(DataMining)是一種非常有用的手段。為了讓數據挖掘的執行更加高效,就要使用能夠從大量數據中自動學習知識和有用規則的機器學習技術。從特性上來說,機器學習對數據的要求是越多越好。也就是說,它和大數據可謂是天生一對。一直以來,機器學習的瓶頸在于如何存儲并高效處理學習所需的大量數據。然而,隨著硬盤單價的大幅下降、Hadoop的誕生,以及云計算的普及,這些問題正逐步得以解決。現實中,對大數據應用機器學習的實例正在不斷涌現。本課件是可編輯的正常PPT課件1.1.2大數據的發展4.從交易數據分析到交互數據分析對從像“賣出了一件商品”、“一位客戶解除了合同”這樣的交易數據中得到的“點”信息進行統計還不夠,我們想要得到的是“為什么賣出了這件商品”、“為什么這個客戶離開了”這樣的上下文(背景)信息。而這樣的信息,需要從與客戶之間產生的交互數據這種“線”信息中來探索。以非結構化數據為中心的大數據分析需求的不斷高漲,也正是這種趨勢的一個反映。例如,像亞馬遜這樣運營電商網站的企業,可以通過網站的點擊流數據,追蹤用戶在網站內的行為,從而對用戶從訪問網站到最終購買商品的行為路線進行分析。這種點擊流數據,正是表現客戶與公司網站之間相互作用的一種交互數據。本課件是可編輯的正常PPT課件1.1.2大數據的發展舉個例子,如果知道通過點擊站內廣告最終購買產品的客戶比例較高,那么針對其他客戶,就可以根據其過去的點擊記錄來展示他可能感興趣的商品廣告,從而提高其最終購買商品的概率。或者,如果知道很多用戶都會從某一個特定的頁面離開網站,就可以下功夫來改善這個頁面的可用性。通過交互數據分析所得到的價值是非常之大的。對于消費品公司來說,可以通過客戶的會員數據、購物記錄、呼叫中心通話記錄等數據來尋找客戶解約的原因。隨著“社交化CRM”呼聲的高漲,越來越多的企業都開始利用微信、Twitter等社交媒體來提供客戶支持服務了。上述這些都是表現與客戶之間交流的交互數據,只要推進對這些交互數據的分析,就可以越來越清晰地掌握客戶離開的原因。本課件是可編輯的正常PPT課件1.1.2大數據的發展一般來說,網絡上的數據比真實世界中的數據更加容易收集,因此來自網絡的交互數據也得到了越來越多的利用。不過,今后隨著傳感器等物態探測技術的發展和普及,在真實世界中對交互數據的利用也將不斷推進。例如,在超市中,可以將由植入購物車中的IC標簽收集到的顧客行動路線數據和POS等銷售數據相結合,從而分析出顧客買或不買某種商品的理由,這樣的應用現在已經開始出現了。或者,也可以像前面講過的那樣,通過分析監控攝像機的視頻資料,來分析店內顧客的行為。以前也并不是沒有對店內的購買行為進行分析的方法,不過,那種分析大多是由調查員肉眼觀察并記錄的,這種記錄是非數字化的,成本很高,而且收集到的數據也比較有限。本課件是可編輯的正常PPT課件1.1.2大數據的發展進一步講,今后更為重要的是對連接網絡世界和真實世界的交互數據進行分析。在市場營銷中,O2O(OnlinetoOffline,線上與線下的結合)已經逐步成為一個熱門的關鍵詞。所謂O2O,就是指網絡上的信息(在線)對真實世界(線下)的購買行為產生的影響。舉例來說,很多人在準備購買一種商品時會先到評論網站去查詢商品的價格和評價,然后再到實體店去購買該商品。在O2O中,網絡上的哪些信息會對實際來店顧客的消費行為產生關聯,對這種線索的分析,即對交互數據的分析,顯得尤為重要。本課件是可編輯的正常PPT課件重新認識數據1.1.3本課件是可編輯的正常PPT課件1.1.3重新認識數據如今,人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了。比方說,在飛機降落之后,票價數據就沒有用了(對谷歌而言,則是一個檢索命令完成之后)。譬如某城市的公交車因為價格不依賴于起點和終點,所以能夠反映重要通勤信息的數據被工作人員“自作主張”地丟棄了——設計人員如果沒有大數據的理念,就會丟失掉很多有價值的數據。數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知。本課件是可編輯的正常PPT課件1.1.3重新認識數據最初,大數據這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的MapReduce和開源Hadoop平臺。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的數據庫表格來整齊地排列,這些都是傳統數據庫結構化查詢語言(SQL)的要求,而非關系型數據庫(NoSQL)就不再有這些要求。一些可以消除僵化的層次結構和一致性的技術也出現了。同時,因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成為了最新處理技術的領銜實踐者。本課件是可編輯的正常PPT課件1.1.3重新認識數據今天,大數據是人們獲得新的認知、創造新的價值的源泉,大數據還是改變市場、組織機構,以及政府與公民關系的方法。大數據時代對我們的生活,以及與世界交流的方式都提出了挑戰。本課件是可編輯的正常PPT課件數據集與數據分析1.1.4本課件是可編輯的正常PPT課件1.1.4數據集與數據分析我們把一組或者一個集合的相關聯的數據稱作數據集。數據集中的每一個成員數據,都應與數據集中的其他成員擁有相同的特征或者屬性。以下是一些數據集的例子:存儲在一個文本文件中的推文一個文件夾中的圖像文件存儲在一個CSⅤ格式文件中的從數據庫中提取出來的行數據存儲在一個XML文件中的歷史氣象觀測數據例如XML數據、關系型數據和圖像數據就是三種不同數據格式的數據集。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析數據分析是一個通過處理數據,從數據中發現一些深層知識、模式、關系或是趨勢的過程。數據分析的總體目標是做出更好的決策。舉個簡單的例子,通過分析冰淇淋的銷售額數據,發現一天中冰淇淋甜筒的銷量與當天氣溫的關系。這個分析結果可以幫助商店根據天氣預報來決定每天應該訂購多少冰淇淋。通過數據分析,我們可以對分析過的數據建立起關系與模式。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析數據分析學是一個包含數據分析,且比數據分析更為寬泛的概念。數據分析學這門學科涵蓋了對整個數據生命周期的管理,而數據生命周期包含了數據收集、數據清理、數據組織、數據分析、數據存儲以及數據管理等過程。此外,數據分析學還涵蓋了分析方法、科學技術、自動化分析工具等。在大數據環境下,數據分析學發展了數據分析在高度可擴展的、大量分布式技術和框架中的應用,使之有能力處理大量的來自不同信息源的數據。大數據分析(學)的生命周期通常會對大量非結構化且未經處理過的數據進行識別、獲取、準備和分析等操作,從這些數據中提取出能夠作為模式識別的輸入,或者加入現有的企業數據庫的有效信息。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析不同的行業會以不同的方式使用大數據分析工具和技術,例如:在商業組織中,利用大數據的分析結果能降低運營開銷,還有助于優化決策。在科研領域,大數據分析能夠確認一個現象的起因,并且能基于此提出更為精確的預測。在服務業領域,比如公眾行業,大數據分析有助于人們以更低的開銷提供更好的服務。大數據分析使得決策有了科學基礎,現在做決策可以基于實際的數據而不僅僅依賴于過去的經驗或者直覺。根據分析結果的不同,我們大致可以將分析歸為4類,即描述性分析、診斷性分析、預測性分析和規范性分析。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析不同的分析類型將需要不同的技術和分析算法。這意味著在傳遞多種類型的分析結果的時候,可能會有大量不同的數據、存儲、處理要求。如圖1-6所示,生成高質量的分析結果將加大分析環境的復雜性和開銷。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析圖1-6從描述性分析到規范性分析,價值和復雜性都在不斷提升本課件是可編輯的正常PPT課件1.1.4數據集與數據分析1.描述性分析描述性分析往往是對已經發生的事件進行問答和總結。這種形式的分析需要將數據置于生成信息的上下文中考慮。相關問題可能包括:過去12個月的銷售量如何?根據事件嚴重程度和地理位置分類,收到的求助電話的數量如何?每一位銷售經理的月銷售額是多少?據估計,生成的分析結果80%都是自然可描述的。描述性分析提供了較低的價值,但也只需要相對基礎的訓練集。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析進行描述性分析常常借助OLTP、CRM、ERP等信息系統經過描述性分析工具的處理生成的即席報表或者數據儀表板(dashboard)。報表常常是靜態的,并且是以數據表格或圖表形式呈現的歷史數據。查詢處理往往基于企業內部存儲的可操作數據,例如客戶關系管理系統(CRM)或者企業資源規劃系統(ERP)。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析2.診斷性分析診斷性分析旨在尋求一個已經發生的事件的發生原因。這類分析的目標是通過獲取一些與事件相關的信息來回答有關的問題,最后得出事件發生的原因。相關的問題可能包括:為什么Q2商品比Q1賣得多?為什么來自東部地區的求助電話比來自西部地區的要多?為什么最近三個月內病人再入院的比率有所提升?本課件是可編輯的正常PPT課件1.1.4數據集與數據分析診斷性分析比描述性分析提供了更加有價值的信息,但同時也要求更加高級的訓練集。診斷性分析常常需要從不同的信息源搜集數據,并將它們以一種易于進行下鉆和上卷分析的結構加以保存。而診斷性分析的結果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢。診斷性分析是基于分析處理系統中的多維數據進行的,而且,與描述性分析相比,它的查詢處理更加復雜。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析3.預測性分析預測性分析常在需要預測一個事件的結果時使用。通過預測性分析,信息將得到增值,這種增值主要表現在信息之間是如何相關的。這種相關性的強度和重要性構成了基于過去事件對未來進行預測的模型的基礎。這些用于預測性分析的模型與過去已經發生的事件的潛在條件是隱式相關的,理解這一點很重要。如果這些潛在的條件改變了,那么用于預測性分析的模型也需要進行更新。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析預測性分析提出的問題常常以假設的形式出現,例如:如果消費者錯過了一個月的還款,那么他們無力償還貸款的幾率有多大?如果以藥品B來代替藥品A的使用,那么這個病人生存的幾率有多大?如果一個消費者購買了商品A和商品B,那么他購買商品C的概率有多大?預測性分析嘗試著預測事件的結果,而預測則基于模式、趨勢以及來自于歷史數據和當前數據的期望。這將讓我們能夠分辨風險與機遇。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析這種類型的分析涉及包含外部數據和內部數據的大數據集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價值,同時也要求更加高級的訓練集。如圖1-7所示,這種工具通常通過提供用戶友好的前端接口對潛在的錯綜復雜的數據進行抽象。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析圖1-7預測性分析能夠提供用戶友好型的前端接口本課件是可編輯的正常PPT課件1.1.4數據集與數據分析4.規范性分析規范性分析建立在預測性分析的結果之上,用來規范需要執行的行動。其注重的不僅是哪項操作最佳,還包括了其原因。換句話說,規范性分析提供了經得起質詢的結果,因為它們嵌入了情境理解的元素。因此,這種分析常常用來建立優勢或者降低風險。下面是兩個這類問題的樣例:這三種藥品中,哪一種能提供最好的療效?何時才是拋售一只股票的最佳時機?本課件是可編輯的正常PPT課件1.1.4數據集與數據分析規范性分析比其他三種分析的價值都高,同時還要求最高級的訓練集,甚至是專門的分析軟件和工具。這種分析將計算大量可能出現的結果,并且推薦出最佳選項。解決方案從解釋性的到建議性的均有,同時還能包括各種不同情境的模擬。這種分析能將內部數據與外部數據結合起來。內部數據可能包括當前和過去的銷售數據、消費者信息、產品數據和商業規則。外部數據可能包括社會媒體數據、天氣情況、政府公文等等。如圖1-8所示,規范性分析涉及利用商業規則和大量的內外部數據來模擬事件結果,并且提供最佳的做法。本課件是可編輯的正常PPT課件1.1.4數據集與數據分析圖1-8規范性分析通過引入商業規則、內部數據以及外部數據來進行深入徹底的分析本課件是可編輯的正常PPT課件1.1.4數據集與數據分析5.關鍵績效指標(KPI)關鍵績效指標(KPI)是一種用來衡量一次業務過程是否成功的度量標準。它與企業整體的戰略目標和任務相聯系。同時,它常常用來識別經營業績中的一些問題,以及闡釋一些執行標準。因此,KPI通常是一個測量企業整體績效的特定方面的定量參考指標。KPI常常通過專門的儀表板顯示。儀表板將多個關鍵績效指標聯合起來展示,并且將實測值與關鍵績效指標閾值相比較。本課件是可編輯的正常PPT課件【作業】4選1標準選擇題,必做。本課件是可編輯的正常PPT課件【實訓操作】ETI公司的背景信息課后實訓操作,必做。下周上課前批改,不得補交(除請假外)。本課件是可編輯的正常PPT課件目錄1任務1.1:進入大數據時代

【導讀案例】準確預測地震

【任務描述】

【知識準備】進入大數據時代【作業】【實訓操作】ETI公司的背景信息2任務1.2:熟悉大數據的定義本課件是可編輯的正常PPT課件【導讀案例】得數據者得天下討論:(1)為什么工業和信息化部原部長苗圩說:“大數據是‘21世紀的石油和金礦’”?(2)中國是人口大國、制造業大國、互聯網大國、物聯網大國,為什么說:“中國具備數據強國潛力,2020年數據規模將位居第一”?(3)請闡述,為什么說“得數據者得天下”?(4)請簡單記述你所知道的上一周內發生的國

際、國內或者身邊的大事。本課件是可編輯的正常PPT課件【任務描述】(1)熟悉大數據的狹義與廣義的定義。(2)熟悉大數據的3V與5V特征。(3)熟悉大數據的數據結構類型。本課件是可編輯的正常PPT課件【知識準備】熟悉大數據的定義最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”(BigData)這個概念。如今,這個概念幾乎應用到了所有人類致力于發展的領域中。本課件是可編輯的正常PPT課件大數據的定義1.2.1本課件是可編輯的正常PPT課件1.2.1大數據的定義所謂大數據,狹義上可以定義為:用現有的一般技術難以管理的大量數據的集合。對大量數據進行分析,并從中獲得有用觀點,這種做法在一部分研究機構和大企業中,過去就已經存在了。現在的大數據和過去相比,主要有三點區別:第一,隨著社交媒體和傳感器網絡等的發展,在我們身邊正產生出大量且多樣的數據;第二,隨著硬件和軟件技術的發展,數據的存儲、處理成本大幅下降;第三,隨著云計算的興起,大數據的存儲、處理環境已經沒有必要自行搭建。本課件是可編輯的正常PPT課件1.2.1大數據的定義所謂“用現有的一般技術難以管理”,例如是指用目前在企業數據庫占據主流地位的關系型數據庫無法進行管理的、具有復雜結構的數據。或者也可以說,是指由于數據量的增大,導致對數據的查詢(Query)響應時間超出允許范圍的龐大數據。研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。本課件是可編輯的正常PPT課件1.2.1大數據的定義麥肯錫說:“大數據指的是所涉及的數據集規模已經超過了傳統數據庫軟件獲取、存儲、營理和分析的能力。這是一個被故意設計成主觀性的定義,并且是一個關于多大的數據集才能被認為是大數據的可變定義,即并不定義大于一個特定數字的TB才叫大數據。因為隨著技術的不斷發展,符合大數據標準的數據集容量也會增長;并且定義隨不同的行業也有變化,這依賴于在一個特定行業通常使用何種軟件和數據集有多大。因此,大數據在今天不同行業中的范圍可以從幾十TB到幾PB。”隨著“大數據”的出現,數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據商業價值的利用正逐漸成為行業人士爭相追捧的利潤焦點,在全球引領了又一輪數據技術革新的浪潮。本課件是可編輯的正常PPT課件大數據的3V和5V特征1.2.2本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征從字面來看,“大數據”這個詞可能會讓人覺得只是容量非常大的數據集合而已。但容量只不過是大數據特征的一個方面,如果只拘泥于數據量,就無法深入理解當前圍繞大數據所進行的討論。因為“用現有的一般技術難以管理”這樣的狀況,并不僅僅是由于數據量增大這一個因素所造成的。IBM說:“可以用3個特征相結合來定義大數據:數量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數據”(見圖1-9)。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征圖1-9按數量、種類和速度來定義大數據本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征1.Volume(數量)用現有技術無法管理的數據量,從現狀來看,基本上是指從幾十TB到幾PB這樣的數量級。當然,隨著技術的進步,這個數值也會不斷變化。最初考慮到數據的容量,是指被大數據解決方案所處理的數據量大,并且在持續增長。數據容量大能夠影響數據的獨立存儲和處理需求,同時還能對數據準各、數據恢復、數據管理的操作產生影響。如今,存儲的數據數量正在急劇增長中,我們存儲所有事物,包括:環境數據、財務數據、醫療數據、監控數據等。有關數據量的對話已從TB級別轉向PB級別,并且不可避免地會轉向ZB級別。可是,隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據的比例卻不斷下降。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征典型的生成大量數據的數據源包括:在線交易,例如官方在線銷售點和網銀。科研實驗,例如大型強子對撞機和阿塔卡瑪大型毫米及次毫米波陣列望遠鏡。傳感器,例如GPS傳感器,RFID標簽,智能儀表或者信息技術。社交媒體、臉書、推特、微信、QQ等。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征2.Variety(種類、多樣性)數據多樣性指的是大數據解決方案需要支持多種不同格式、不同類型的數據。數據多樣性給企業帶來的挑戰包括數據聚合、數據交換、數據處理和數據存儲等。隨著傳感器、智能設備以及社交協作技術的激增,企業中的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括單擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征種類表示所有的數據類型。其中,爆發式增長的一些數據,如互聯網上的文本數據、位置信息、傳感器數據、視頻等,用企業中主流的關系型數據庫是很難存儲的,它們都屬于非結構化數據。當然,在這些數據中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息。例如監控攝像機中的視頻數據。近年來,超市、便利店等零售企業幾乎都配備了監控攝像機,最初目的是為了防范盜竊,但現在也出現了使用監控攝像機的視頻數據來分析顧客購買行為的案例。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經驗和直覺來決定商品陳列布局的,現在嘗試利用監控攝像頭對顧客在店內的行為進行分析。通過分析監控攝像機的數據,將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。美國移動運營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監控攝像機,可以統計來店人數,還可以追蹤顧客在店內的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機、試用了多長時間等,對顧客在店內的購買行為進行分析。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征3.Velocity(速度,速率)數據產生和更新的頻率,也是衡量大數據的一個重要特征。在大數據環境中,數據產生得很快,在極短的時間內就能聚集起大量的數據集。從企業的角度來說,數據的速率代表數據從進入企業邊緣到能夠馬上進行處理的時間。處理快速的數據輸入流,需要企業設計出彈性的數據處理方案,同時也需要強大的數據存儲能力。有效處理大數據需要在數據變化的過程中對它的數量和種類執行分析,而不只是在它靜止后執行分析。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征根據數據源的不同,速率不可能一直很快。例如,核磁共振掃描圖像不會像高流量Web服務器的日志條目生成速度那么快。例如一分鐘內能夠生成下列數據:35萬條推文、300小時的YouTube視頻、1.71億份電子郵件,以及330GB飛機引擎的傳感器數據。又如,遍布全國的便利店在24小時內產生的POS機數據,電商網站中由用戶訪問所產生的網站點擊流數據,高峰時達到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結冰、積雪等路面狀態)等,每天都在產生著龐大的數據。本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征IBM在3V的基礎上又歸納總結了第四個V一一Veracity(真實和準確)。“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。”本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征IDC(互聯網數據中心)說:“大數據是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數據并不是新生事物。然而,它確實正在進入主流,并得到重大關注,這是有原因的。廉價的存儲、傳感器和數據采集技術的快速發展、通過云和虛擬化存儲設施增加的信息鏈路,以及創新軟件和分析工具,正在驅動著大數據。大數據不是一個‘事物’,而是一個跨多個信息技術領域的動力/活動。大數據技術描述了新一代的技術和架構,其被設計用于:通過使用高速(Velocity)的采集、發現和/或分析,從超大容量(Volume)的多樣(Variety)數據中經濟地提取價值(Value)。”本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征這個定義除了揭示大數據傳統的3V基本特征,即大數據量、多樣性和高速之外,還增添了一個新特征:價值。考慮到非結構化數據的較低信噪比需要,數據真實性(Veracity)隨后也被添加到這個特征列表中。最終,其目的是執行能夠及時向企業傳遞高價值、高質量結果的分析。除了數據真實性和時間,價值也受如下幾個生命周期相關的因素影響:數據是否存儲良好?數據有價值的部分是否在數據清洗的時候被刪除了?數據分析時我們提出的問題是正確的嗎?數據分析的結果是否準確地傳達給了做決策的人員?本課件是可編輯的正常PPT課件1.2.2大數據的3V和5V特征大數據實現的主要價值可以基于下面3個評價準則中的1個或多個進行評判:它提供了更有用的信息嗎?它改進了信息的精確性嗎?它改進了響應的及時性嗎?總之,大數據是個動態的定義,不同行業根據其應用的不同有著不同的理解,其衡量標準也在隨著技術的進步而改變。本課件是可編輯的正常PPT課件廣義的大數據1.2.3本課件是可編輯的正常PPT課件1.2.3廣義的大數據狹義上,大數據的定義著眼點于數據的性質上,我們在廣義層面上再為大數據下一個定義(見圖l-10)。圖1-10廣義的大數據本課件是可編輯的正常PPT課件1.2.3廣義的大數據“所謂大數據,是一個綜合性概念,它包括因具備3V(Volume/Variety/Velocity)特征而難以進行管理的數據,對這些數據進行存儲、處理、分析的技術,以及能夠通過分析這些數據獲得實用意義和觀點的人才和組織。”“存儲、處理、分析的技術”,指的是用于大規模數據分布式處理的框架Hadoop、具備良好擴展性的NoSQL數據庫,以及機器學習和統計分析等;“能夠通過分析這些數據獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數據科學家”這類人才,以及能夠對大數據進行有效運用的組織。本課件是可編輯的正常PPT課件大數據的結構類型1.2.4本課件是可編輯的正常PPT課件1.2.4大數據的結構類型大數據具有多種形式,從高度結構化的財務數據,到文本文件、多媒體文件和基因定位圖的任何數據,都可以稱為大數據。數據量大是大數據的一致特征。由于數據自身的復雜性,作為一個必然的結果,處理大數據的首選方法就是在并行計算的環境中進行大規模并行處理(MassivelyParallelProcessing,MPP),這使得同時發生的并行攝取、并行數據裝載和分析成為可能。實際上,大多數的大數據都是非結構化或半結構化的,這需要不同的技術和工具來處理和分析。大數據最突出的特征是它的結構。圖1-11顯示了幾種不同數據結構類型數據的增長趨勢,由圖可知,未來數據增長的80%~90%將來自于不是結構化的數據類型(半、準和非結構化)。本課件是可編輯的正常PPT課件1.2.4大數據的結構類型圖1-11數據增長日益趨向非結構化本課件是可編輯的正常PPT課件1.2.4大數據的結構類型雖然圖1-11顯示了4種不同的、相分離的數據類型,實際上,有時這些數據類型是可以被混合在一起的。例如,有一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,這里有典型的結構化數據,比如日期/時間戳、機器類型、問題類型、操作系統,這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結構化數據或半結構化數據,比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術問題和解決方案的實際通話描述。另外一種可能是與結構化數據有關的實際通話的語音日志或者音頻文字實錄。即使是現在,大多數分析人員還無法分析這種通話日志歷史數據庫中的最普通和高度結構化的數據,因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現自動化。本課件是可編輯的正常PPT課件1.2.4大數據的結構類型人們通常最熟悉結構化數據的分析,然而,半結構化數據(XML)、“準”結構化數據(網站地址字符串)和非結構化數據代表了不同的挑戰,需要不同的技術來分析。除了三種基本的數據類型以外,還有一種重要的數據類型為元數據。元數據提供了一個數據集的特征和結構信息。這種數據主要由機器生成,并且能夠添加到數據集中。搜尋元數據對于大數據存儲、處理和分析是至關重要的一步,因為元數據提供了數據系譜信息,以及數據處理的起源。元數據的例子包括:XML文件中提供作者和創建日期信息的標簽;數碼照片中提供文件大小和分辨率的屬性文件。本課件是可編輯的正常PPT課件【作業】討論:本課件是可編輯的正常PPT課件【實訓操作】為ETI公司確定數據特征與類型討論:本課件是可編輯的正常PPT課件《大數據導論》謝謝本課件是可編輯的正常PPT課件項目2大數據時代思維變革本課件是可編輯的正常PPT課件目錄1任務2.1:理解思維轉變之一:樣本=總體2任務2.2:理解思維轉變之二:接受數據的混雜性3任務2.3:理解思維轉變之三:數據的相關關系本課件是可編輯的正常PPT課件【導讀案例】亞馬遜推薦系統討論:(1)你熟悉亞馬遜等電商網站的推薦系統嗎?請列舉一個這樣的實例(你選擇購買什么商品,網站又給你推薦了其他什么商品)。(2)亞馬遜書評組和林登推薦系統各自成功的基礎是什么?(3)為什么書評組最終輸給了推薦系統?請說說你的觀點。(4)請簡單記述你所知道的上一周內發生的國

際、國內或者身邊的大事。本課件是可編輯的正常PPT課件【任務描述】(1)熟悉大數據時代思維變革的基本概念和主要內容;(2)回顧在傳統情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數據時代人們思維變革的第一個轉變,即“分析更多數據而不再是只依賴于隨機采樣”。本課件是可編輯的正常PPT課件【知識準備】分析更多數據而不再是只依賴于隨機采樣人類使用數據已經有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀以來在專業層面上用高級算法進行的量化研究,都與數據有關。在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。而“大數據”全在于發現和理解信息內容及信息與信息之間的關系。實際上,大數據的精髓在于我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法,這三個轉變是相互聯系和相互作用的。本課件是可編輯的正常PPT課件【知識準備】分析更多數據而不再是只依賴于隨機采樣19世紀以來,當面臨大量數據時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物。以前我們通常把這看成是理所當然的限制,但高性能數字技術的流行讓我們意識到,這其實是一種人為的限制。與局限在小數據范圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節——大數據讓我們更清楚地看到了樣本無法揭示的細節信息。大數據時代的第一個轉變,是要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。本課件是可編輯的正常PPT課件【知識準備】分析更多數據而不再是只依賴于隨機采樣很長以來,因為記錄、儲存和分析數據的工具不夠好,為了讓分析變得簡單,人們會把數據量縮減到最少,人們依據少量數據進行分析,而準確分析大量數據一直都是一種挑戰。如今,信息技術的條件已經有了非常大的提高,雖然人類可以處理的數據依然是有限的,但是可以處理的數據量已經大大地增加,而且未來會越來越多。本課件是可編輯的正常PPT課件【知識準備】分析更多數據而不再是只依賴于隨機采樣在某些方面,人們依然沒有完全意識到自己擁有了能夠收集和處理更大規模數據的能力,還是在信息匱乏的假設下做很多事情,假定自己只能收集到少量信息。這是一個自找實現的過程。人們甚至發展了一些使用盡可能少的信息的技術。例如,統計學的一個目的就是用盡可能少的數據來證實盡可能重大的發現。事實上,我們形成了一種習慣,那就是在制度、處理過程和激勵機制中盡可能地減少數據的使用。本課件是可編輯的正常PPT課件小數據時代的隨機采樣2.1.1本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣數千年來,政府一直都試圖通過收集信息來管理國民,只是到最近,小企業和個人才有可能擁有大規模收集和分類數據的能力,而此前,大規模的計數則是政府的事情。以人口普查為例。據說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒(見圖2-2)主導實施的人口普查,提出了“每個人都必須納稅”。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣圖2-2奧古斯都愷撒本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣1086年的《末日審判書》對當時英國的人口、土地和財產做了一個前所未有的全面記載。皇家委員穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。然而,人口普查是一項耗資且費時的事情,盡管如此,當時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“censere”,本意就是推測、估算。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣三百多年前,一個名叫約翰·格朗特的英國縫紉用品商提出了一個很有新意的方法,來推算出鼠疫時期倫敦的人口數,這種方法就是后來的統計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實他能夠得出正確的數據僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進行人口普查還是其他大數據類的任務,人們還是一直使用清點這種“野蠻”的方法。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣考慮到人口普查的復雜性以及耗時耗費的特點,政府極少進行普查。古羅馬在擁有數十萬人口的時候每5年普查一次。美國憲法規定每10年進行一次人口普查,而隨著國家人口越來越多,只能以百萬計數。但是到19世紀為止,即使這樣不頻繁的人口普查依然很困難,因為數據變化的速度超過了人口普查局統計分析的能力。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣中國的人口調查有近4000年的歷史,留下了豐富的人口史料。但是,在封建制度下,歷代政府都是為了征稅、抽丁等才進行人口調查,因而隱瞞匿報人口的現象十分嚴重,調查統計的口徑也很不一致。具有近代意義的人口普查,在1949年以前有過兩次:一次是清宣統元年(1909)進行的人口清查,另一次是民國17年(1928)國民政府試行的全國人口調查。前者多數省僅調查戶數而無人口數,推算出當時中國人口約為3.7億多人,包括邊民戶數總計約為4億人口。后者只規定調查常住人口,沒有規定標準時間。經過3年時間,也只對13個省進行了調查,其他未調查的省的人數只進行了估算。調查加估算的結果,全國人口約為4.75億人。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣新中國建立后,先后于1953、1964和1982年舉行過3次人口普查,1990年進行了第4次全國人口普查。前3次人口普查是不定期進行的,自1990年開始改為定期進行。根據《中華人民共和國統計法實施細則》和國務院的決定以及國務院2010年頒布的《全國人口普查條例》規定,人口普查每10年進行一次,尾數逢0的年份為普查年度(見圖2-3)。兩次普查之間,進行一次簡易人口普查。2020年為第七次全國人口普查時間。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣圖2-3中國人口普查本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣新中國第一次人口普查的標準時間是1953年6月30日24時,所謂人口普查的標準時間,就是規定一個時間點,無論普查員入戶登記在哪一天進行,登記的人口及其各種特征都是反映那個時間點上的情況。根據上述規定,不管普查員在哪天進行入戶登記,普查對象所申報的都應該是標準時間的情況。通過這個標準時間,所有普查員普查登記完成后,經過匯總就可以得到全國人口的總數和各種人口狀況的數據。1953年11月1日發布了人口普查的主要數據,當時全國人口總數為601938035人。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣第六次人口普查的標準時間是2010年11月1日零時。2011年4月,發布了第六次全國人口普查主要數據。此次人口普查登記的全國總人口為1339724852人。比2000年第五次人口普查相比,10年增加7390萬人,增長5.84%,年平均增長0.57%,比1990年到2000年年均1.07%的長率下降了0.5個百分點。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣美國在1880年進行的人口普查,耗時8年才完成數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基礎上的,必須獲得正確且及時的數據。很明顯,當人們被數據淹沒的時候,已有的數據處理工具已經難以應付了,所以就需要有新技術。后來,美國人口普查局就和美國發明家赫爾曼?霍爾瑞斯(被稱為現代自動計算之父)簽訂了一個協議,用他的穿孔卡片制表機(見圖2-4)來完成1890年的人口普查。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣圖2-4霍爾瑞斯普查機本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣經過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查的數據匯總工作。這簡直就是一個奇跡,它標志著自動處理數據的開端,也為后來IBM公司的成立奠定了基礎。但是,將其作為收集處理大數據的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統計。這么麻煩的情況下,很難想象如果不足十年就要進行一次人口普查應該怎么辦。對于一個跨越式發展的國家而言,十年一次的人口普查的滯后性已經讓普查失去了大部分意義。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣這就是問題所在,是利用所有的數據還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統計學家耶日·奈曼指出,這只會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。統計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大。雖然聽起來很不可思議,但事實上,研究表明,當樣本數量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣認為樣本選擇的隨機性比樣本數量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規模的人口普查,而不是只在每十年進行一次。事實上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機采樣的方法對經濟和人口進行200多次小規模的調查。當收集和分析數據都不容易時,隨機采樣就成為應對信息采集困難的辦法。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣在商業領域,隨機采樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。以前,全面的質量監管要求對生產出來的每個產品進行檢查,而現在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機采樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。隨機采樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣在美國總統大選中,以固定電話用戶為基礎進行投票民調就面臨了這樣的問題,采樣缺乏隨機性,因為沒有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由,不考慮這些用戶,自然就得不到正確的預測。2008年在奧巴馬與麥凱恩之間進行的美國總統大選中,蓋洛普咨詢公司、皮尤研究中心、美國廣播公司和《華盛頓郵報》社這些主要的民調組織都發現,如果不把移動用戶考慮進來,民意測試的結果就會出現三個點的偏差,而一旦考慮進來,偏差就只有一個點。鑒于這次大選的票數差距極其微弱,這已經是非常大的偏差了。本課件是可編輯的正常PPT課件2.1.1小數據時代的隨機采樣更糟糕的是,隨機采樣不適合考察子類別的情況。因為一旦繼續細分,隨機采樣結果的錯誤率會大大增加。因此,當人們想了解更深層次的細分領域的情況時,隨機采樣的方法就不可取了。在宏觀領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。隨機采樣也需要嚴密的安排和執行。人們只能從采樣數據中得出事先設計好的問題的結果。所以雖說隨機采樣是一條捷徑,但它并不適用于一切情況,因為這種調查結果缺乏延展性,即調查得出的數據不可以重新分析以實現計劃之外的目的。本課件是可編輯的正常PPT課件大數據與喬布斯的癌癥治療2.1.2本課件是可編輯的正常PPT課件2.1.2大數據與喬布斯的癌癥治療我們來看一下DNA分析。由于技術成本大幅下跌以及在醫學方面的廣闊前景,個人基因排序成為了一門新興產業(見圖2-5)。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答其標注過的基因組表現出來的問題。發現新標注時,該人的DNA必須重新排序,更準確地說,是相關的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發現問題,但不能回答事先未考慮到的問題。本課件是可編輯的正常PPT課件2.1.2大數據與喬布斯的癌癥治療圖2-5世界民族基因總圖(美國)本課件是可編輯的正常PPT課件2.1.2大數據與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以,他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數據文檔。對于一個普通的癌癥患者,醫生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是,史蒂夫?喬布斯的醫生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。喬布斯曾經開玩笑地說:“我要么是第一個通過這種方式戰勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人。”雖然他的愿望都沒有實現,但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。本課件是可編輯的正常PPT課件全數據模式:樣本=總體2.1.3本課件是可編輯的正常PPT課件2.1.3全數據模式:樣本=總體采樣的目的是用最少的數據得到最多的信息,而當我們可以獲得海量數據的時候,采樣就沒有什么意義了。如今,計算和制表已經不再困難,感應器、手機導航、網站點擊和微信等被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理。但是,數據處理技術己經發生了翻天覆地的改變,而我們的方法和思維卻沒有跟上這種改變。在很多領域,從收集部分數據到收集盡可能多的數據的轉變已經發生。如果可能的話,我們會收集所有的數據,即“樣本=總體”。本課件是可編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論