項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第1頁
項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第2頁
項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第3頁
項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第4頁
項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第5頁
已閱讀5頁,還剩143頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性1.世上萬物均有關(guān)聯(lián),這在數(shù)據(jù)中也有反映你的購買行為與你的消費(fèi)歷史、在線習(xí)慣、支付方式以及社會(huì)交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測(cè)出消費(fèi)者的行為。

人們的身體健康狀況,可能就和環(huán)境、收入有很大的關(guān)系,例如,一個(gè)地區(qū)的環(huán)境指數(shù)、氣候指數(shù)、人均GDP等,影響著這個(gè)地區(qū)的人均壽命。2.某些數(shù)據(jù)可能與人均壽命相關(guān)

做預(yù)測(cè)分析時(shí),我們總是會(huì)不斷地從這些數(shù)據(jù)堆中找規(guī)律。我們可能會(huì)帶著一些猜測(cè)去尋找,也可能不知道將從這些數(shù)據(jù)里發(fā)現(xiàn)什么,但在做數(shù)據(jù)整合的過程中,可能就可以通過觀測(cè)解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。3.觀測(cè)與發(fā)現(xiàn)4.預(yù)測(cè)分析是從預(yù)測(cè)變量開始

預(yù)測(cè)常常是從小處入手。預(yù)測(cè)分析是從預(yù)測(cè)變量開始的。

近期性頻率5.預(yù)測(cè)分析系統(tǒng)

預(yù)測(cè)分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測(cè)變量。要把全部已知數(shù)據(jù)都輸入系統(tǒng),然后等著系統(tǒng)運(yùn)轉(zhuǎn)。在系統(tǒng)內(nèi)綜合考量這些因素變量,所采用的核心學(xué)習(xí)技術(shù),正是數(shù)據(jù)科學(xué)的魔力所在。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》常見的數(shù)據(jù)分析方法1.統(tǒng)計(jì)分析

統(tǒng)計(jì),顧名思義即將信息統(tǒng)括起來進(jìn)行計(jì)算的意思,它是對(duì)數(shù)據(jù)進(jìn)行定量處理的理論與技術(shù)。統(tǒng)計(jì)分析,常指對(duì)收集到的有關(guān)數(shù)據(jù)資料進(jìn)行整理歸類并進(jìn)行解釋的過程。2.定量分析與定性分析一個(gè)通俗的解釋(1)英國脫歐定性:英鎊將會(huì)貶值定量:英鎊匯率從9.3下降到8.8(2)A攻打B定性:從綜合實(shí)力來看A能贏定量:A要打贏B需要xxx兵力,以及xx戰(zhàn)略方針具體問題的分析方法是,先定性分析趨勢(shì)(概率,可能性),再定量解決問題。3.定量分析與定性分析定量分析專注于量化;定性分析專注于用語言描述;

統(tǒng)計(jì)方法大多是定量的,比如提供與數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)數(shù)據(jù)的平均值、中位數(shù)或眾數(shù)。

但也可以是定性的,例如,利用回歸性分析和相關(guān)性分析,來推斷數(shù)據(jù)集中的模式和關(guān)系。4.統(tǒng)計(jì)方法大多是定量的

A/B測(cè)試(也稱為分割測(cè)試或桶測(cè)試)是一種將網(wǎng)頁或應(yīng)用程序的兩個(gè)版本相互比較以確定哪個(gè)版本更好的方法。AB測(cè)試本質(zhì)上是一個(gè)實(shí)驗(yàn),其中頁面的兩個(gè)或多個(gè)變體隨機(jī)顯示給用戶,并且統(tǒng)計(jì)分析用于確定哪個(gè)變體對(duì)于給定的轉(zhuǎn)換目標(biāo)更好地執(zhí)行。5.A/B測(cè)試

A/B測(cè)試幾乎適用于任何領(lǐng)域,而且最常被用于市場(chǎng)營銷,目的當(dāng)然是為了增加銷量。例如,為了確定A公司網(wǎng)站上冰激凌廣告可能的最好布局,使用兩個(gè)不同版本的廣告。版本A是現(xiàn)存的廣告(控制版本),版本B的布局被做了輕微的調(diào)整(處理版本)。然后將兩個(gè)版本同時(shí)呈獻(xiàn)給同一類用戶,觀察銷量。6.A/B測(cè)試幾乎適用于任何領(lǐng)域相關(guān)性分析是一種用來確定兩個(gè)變量是否互相有關(guān)系的技術(shù)。如果發(fā)現(xiàn)它們有關(guān),下一步是確定它們之間是什么關(guān)系。例如,變量B無論何時(shí)增長,變量A都會(huì)增長,更進(jìn)一步,我們可能會(huì)探究變量A與變量B的關(guān)系到底如何,這就意味著我們也想分析變量A增長與變量B增長的相關(guān)程度。7.相關(guān)性分析當(dāng)一個(gè)變量增大,另一個(gè)也增大,反之亦然。表明兩個(gè)變量之間呈正相關(guān)關(guān)系8.正相關(guān)關(guān)系當(dāng)一個(gè)變量增大,另一個(gè)減小,反之亦然。表明兩個(gè)變量之間呈負(fù)相關(guān)關(guān)系9.負(fù)相關(guān)關(guān)系當(dāng)一個(gè)變量增大,另一個(gè)保持不變或者無規(guī)律地增大或者減少。表明兩個(gè)變量不相關(guān)。10.變量不相關(guān)冰激凌商店需要在天氣熱的時(shí)候存儲(chǔ)更多的冰激凌,但是不知道要多存多少。為了確定天氣和冰激凌銷量之間是否存在關(guān)系,分析師首先對(duì)出售的冰激凌數(shù)量和溫度記錄用了相關(guān)性分析,得出的值為+0.75,那么就可以根據(jù)第二天的天氣預(yù)報(bào),預(yù)算出冰激凌的備貨量了。11.冰激凌商店回歸性分析技術(shù)旨在探尋在一個(gè)數(shù)據(jù)集內(nèi)一個(gè)因變量與自變量的關(guān)系。例如,回歸性分析可以幫助確定溫度(自變量)和作物產(chǎn)量(因變量)之間存在的關(guān)系類型。利用此項(xiàng)技術(shù)幫助確定自變量變化時(shí),因變量的值如何變化。例如,當(dāng)自變量增加,因變量是否會(huì)增加?如果是,增加是線性的還是非線性的?12.回歸性分析線性回歸非線性回歸13.統(tǒng)計(jì)方法大多是定量的感謝聆聽!《大數(shù)據(jù)導(dǎo)論》什么是大數(shù)據(jù)分析1.什么是大數(shù)據(jù)分析

大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。通過多個(gè)學(xué)科技術(shù)的融合,實(shí)現(xiàn)數(shù)據(jù)的采集、管理和分析,從而發(fā)現(xiàn)新的知識(shí)和規(guī)律。提出問題數(shù)據(jù)采集數(shù)據(jù)分析可視化效果評(píng)估大數(shù)據(jù)分析的一般過程:2.提出問題案例——福特促進(jìn)汽車銷售的大數(shù)據(jù)分析流程1.提出問題#優(yōu)化廣告投入;#提升銷售業(yè)績(jī);3.數(shù)據(jù)采集案例——福特促進(jìn)汽車銷售的大數(shù)據(jù)分析流程2.數(shù)據(jù)采集如房屋市場(chǎng)、新建住宅、庫存、銷售數(shù)據(jù);汽車相關(guān)的網(wǎng)站數(shù)據(jù);區(qū)域經(jīng)濟(jì)數(shù)據(jù);4.數(shù)據(jù)分析案例——福特促進(jìn)汽車銷售的大數(shù)據(jù)分析流程3.數(shù)據(jù)分析整合數(shù)據(jù)分析挖掘出分析結(jié)果根據(jù)結(jié)果設(shè)計(jì)多種廣告促銷方案5.數(shù)據(jù)可視化案例——福特促進(jìn)汽車銷售的大數(shù)據(jù)分析流程4.數(shù)據(jù)可視化分析結(jié)果的圖表展示廣告促銷方案的可視化展示6.效果評(píng)估案例——福特促進(jìn)汽車銷售的大數(shù)據(jù)分析流程5.效果評(píng)估跟傳統(tǒng)的廣告促銷方案比較大數(shù)據(jù)優(yōu)化后的廣告方案更有針對(duì)性的投放花了更少的錢大數(shù)據(jù)分析可以成為提高企業(yè)核心競(jìng)爭(zhēng)力的一個(gè)重要的方法,而如今的各行各業(yè)的決策正在通過大數(shù)據(jù)分析,從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”,大數(shù)據(jù)為企業(yè)獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。7.大數(shù)據(jù)分析的作用感謝聆聽!《大數(shù)據(jù)導(dǎo)論》大數(shù)據(jù)分析的基本方法(1)預(yù)測(cè)性分析預(yù)測(cè)分析涵蓋了各種統(tǒng)計(jì)學(xué)技術(shù),包括利用預(yù)測(cè)模型,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等技術(shù)來分析當(dāng)前及歷史數(shù)據(jù),從而對(duì)未來,或其他不確定的事件進(jìn)行預(yù)測(cè)。(2)預(yù)測(cè)性分析——案例麻省理工學(xué)院研究者約翰·古塔格(JohnGuttag)和柯林·斯塔爾茲(CollinStultz)創(chuàng)建了一個(gè)計(jì)算機(jī)模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者一年內(nèi)死于第二次心臟病發(fā)作的機(jī)率比未出現(xiàn)者高一至二倍。這種新方法能夠識(shí)別出更多的,無法通過現(xiàn)有的風(fēng)險(xiǎn)篩查被探查出的高危病人。(3)可視化分析可視化分析,也稱為數(shù)據(jù)可視化,主要指的是利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對(duì)立體、表面、屬性以及動(dòng)畫的顯示,對(duì)數(shù)據(jù)加以可視化解釋。

最常見的就是圖表展現(xiàn)。(4)可視化分析——案例1一家醫(yī)院的住院費(fèi)分析(5)可視化分析——案例2天貓雙11數(shù)據(jù)實(shí)時(shí)展示(6)數(shù)據(jù)挖掘數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類型的模式和趨勢(shì)。經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART(7)數(shù)據(jù)挖掘算法——案例啤酒和尿布:

20世紀(jì)90年代,美國沃爾瑪超市管理人員分析銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)了一個(gè)令人難以理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品,會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,且大多出現(xiàn)在年輕的父親身上。沃爾瑪就在賣場(chǎng)嘗試將啤酒與尿布擺放在相同區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物,從而極大提升商品銷售收入。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》機(jī)器學(xué)習(xí)1.什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。

專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。

“機(jī)器學(xué)習(xí)之父”——阿瑟·塞繆爾(ArthurSamuel)將其定義為“沒有明確編程就能學(xué)習(xí)的能力”。2.機(jī)器學(xué)習(xí)案例——圖像識(shí)別機(jī)器學(xué)習(xí)已經(jīng)被用來大大改進(jìn)計(jì)算機(jī)識(shí)別圖像或視頻中的對(duì)象的能力。你收集了數(shù)十萬甚至數(shù)百萬張圖片,然后讓人類標(biāo)記它們。例如,人類可能會(huì)標(biāo)記其中包含貓的圖片與不包含貓的圖片。然后,該算法嘗試構(gòu)建一個(gè)模型,該模型可以準(zhǔn)確地將另外的圖片標(biāo)記出是否包含貓。當(dāng)準(zhǔn)確度達(dá)到足夠高,機(jī)器現(xiàn)在就“學(xué)會(huì)”了識(shí)別貓的樣子。

分類是一種有監(jiān)督的機(jī)器學(xué)習(xí),它將數(shù)據(jù)分為相關(guān)的、以前學(xué)習(xí)過的類別。它包括兩個(gè)步驟:

1、將已經(jīng)被分類或者有標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)給系統(tǒng)

2、將未知或者相似數(shù)據(jù)給系統(tǒng)來分類,基于訓(xùn)練數(shù)據(jù)形成的理解,算法會(huì)分類無標(biāo)號(hào)數(shù)據(jù)。例如,銀行想找出哪些客戶可能會(huì)拖欠貸款。3.機(jī)器學(xué)習(xí)——分類(有監(jiān)督的機(jī)器學(xué)習(xí))分類適用的樣例問題可以是:·基于其他申請(qǐng)是否被接受或者被拒絕,申請(qǐng)人的信用卡申請(qǐng)是否應(yīng)該被接受?·基于已知的水果蔬菜樣例,西紅柿是水果還是蔬菜?·病人的藥檢結(jié)果是否表示有心臟病的風(fēng)險(xiǎn)?4.機(jī)器學(xué)習(xí)——分類,可適用的問題

聚類是一種無監(jiān)督的學(xué)習(xí)技術(shù),通過這項(xiàng)技術(shù),數(shù)據(jù)被分割成不同的組,這樣在每組中數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學(xué)習(xí)類別。相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個(gè)算法都有不同的技術(shù)來確定聚類。

例如,一個(gè)銀行想基于已有的顧客記錄檔案,對(duì)顧客進(jìn)行分類,以便向他們介紹不同的金融產(chǎn)品,但是還不知道分成哪幾類,聚類就是通過不同類型的算法,分析出不同的類型。5.機(jī)器學(xué)習(xí)——聚類(無監(jiān)督的機(jī)器學(xué)習(xí))

聚類適用的樣例問題可以是:·根據(jù)樹之間的相似性,存在多少種樹?·根據(jù)相似的購買記錄,存在多少組顧客?·根據(jù)病毒的特性,它們的不同分組是什么?6.機(jī)器學(xué)習(xí)——聚類,可用于的問題

異常檢測(cè)是指在給定數(shù)據(jù)集中,發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)或與其他數(shù)據(jù)不一致的數(shù)據(jù)的過程。這種機(jī)器學(xué)習(xí)技術(shù)被用來識(shí)別反常、異常和偏差,它們可以是有利的,例如機(jī)會(huì),也可能是不利的,例如風(fēng)險(xiǎn)。異常檢測(cè)與分類和聚類的概念緊密相關(guān),雖然它的算法專注于尋找不同值。它可以基于有監(jiān)督或無監(jiān)督的學(xué)習(xí)。異常檢測(cè)的應(yīng)用包括欺詐檢測(cè)、醫(yī)療診斷、網(wǎng)絡(luò)數(shù)據(jù)分析和傳感器數(shù)據(jù)分析。7.機(jī)器學(xué)習(xí)——異常檢測(cè)

過濾是自動(dòng)從項(xiàng)目池中尋找有關(guān)項(xiàng)目的過程。項(xiàng)目可以基于用戶行為或通過匹配多個(gè)用戶的行為被過濾。過濾常用的媒介是推薦系統(tǒng)。通常過濾的主要方法是協(xié)同過濾和內(nèi)容過濾。例如,為了實(shí)現(xiàn)交叉銷售,一家銀行構(gòu)建了使用內(nèi)容過濾的推薦系統(tǒng)。基于顧客購買的金融產(chǎn)品和相似金融產(chǎn)品性質(zhì)所找到的匹配,推薦系統(tǒng)自動(dòng)推薦客戶可能感興趣的潛在金融產(chǎn)品。8.機(jī)器學(xué)習(xí)——過濾感謝聆聽!《大數(shù)據(jù)導(dǎo)論》語義分析1.什么是語義分析

例如:從某些博客文章中,提取關(guān)鍵詞在不同的語境下,文本或語音數(shù)據(jù)的片段可以攜帶不同的含義,而一個(gè)完整的句子可能會(huì)保留它的意義,即使結(jié)構(gòu)不同。為了使機(jī)器能提取有價(jià)值的信息,文本或語音數(shù)據(jù)需要像被人理解一樣被機(jī)器所理解。語義分析是從文本和語音數(shù)據(jù)中提取有意義的信息的實(shí)踐。

自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。

具體來說,包括將句子分解為單詞的語素分析、統(tǒng)計(jì)各單詞出現(xiàn)頻率的頻度分析、理解文章含義并造句的理解等。智能手機(jī)iPhone中的語音助手Siri2.自然語言處理自然語言處理包括文本和語音識(shí)別。對(duì)語音識(shí)別,系統(tǒng)嘗試著理解語音然后行動(dòng),例如轉(zhuǎn)錄文本。語音客服機(jī)器人智能音箱語音識(shí)別3.自然語言處理——產(chǎn)品4.文本分析相比于結(jié)構(gòu)化的文本,非結(jié)構(gòu)化的文本通常更難分析與搜索。文本分析是專門通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理技術(shù)去發(fā)掘非結(jié)構(gòu)化文本價(jià)值的分析文本的應(yīng)用。文本分析的基本原則是,將非結(jié)構(gòu)化的文本轉(zhuǎn)化為可以搜索和分析的數(shù)據(jù)。文本分析通常包括兩步:(1)解析文檔中的文本提取;(2)用這些提取的實(shí)體和事實(shí)對(duì)文檔進(jìn)行分類。

是指搜索引擎的工作不再拘泥于用戶所輸入請(qǐng)求語句的字面本身,而是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進(jìn)行搜索,從而更準(zhǔn)確地向用戶返回最符合其需求的搜索結(jié)果。5.語義檢索例如,搜索框中輸入“孟字去掉子”時(shí),深諳語義搜索的搜索引擎就能夠判斷出,用戶想要找的并不是含有“孟”、“去掉子”等字眼的內(nèi)容,而是想要查找與“皿”這個(gè)字相關(guān)的內(nèi)容;6.語義檢索——例子

語義檢索是基于“知識(shí)”的搜索,即利用機(jī)器學(xué)習(xí)、人工智能等模擬或擴(kuò)展人的認(rèn)識(shí)思維,提高信息內(nèi)容的相關(guān)性。

語義檢索具有明顯的優(yōu)勢(shì):檢索機(jī)制和界面的設(shè)計(jì)均體現(xiàn)“面向用戶”的思想,即用戶可以根據(jù)自己的需求及其變化,靈活地選擇理想的檢索策略與技術(shù);語義檢索能主動(dòng)學(xué)習(xí)用戶的知識(shí),主動(dòng)向用戶提供個(gè)性化的服務(wù):綜合應(yīng)用各種分析、處理和智能技術(shù),既能滿足用戶的現(xiàn)實(shí)信息需求,又能向用戶提供潛在內(nèi)容知識(shí),全面提高檢索效率。5.語義檢索的優(yōu)勢(shì)感謝聆聽!《大數(shù)據(jù)導(dǎo)論》視覺分析

視覺分析是一種數(shù)據(jù)分析,指的是對(duì)數(shù)據(jù)進(jìn)行圖形表示來開啟或增強(qiáng)視覺感知。

視覺分析的主要類型包括:熱點(diǎn)圖、時(shí)間序列圖、網(wǎng)絡(luò)圖、空間數(shù)據(jù)制圖等。1、視覺分析

熱點(diǎn)圖是有效的視覺分析技術(shù),它能促進(jìn)識(shí)別感興趣的領(lǐng)域,發(fā)現(xiàn)數(shù)據(jù)集內(nèi)的極(最大或最小)值。2008年美國總統(tǒng)選舉2、熱點(diǎn)圖3、時(shí)間序列圖

時(shí)間序列圖可以分析在固定時(shí)間間隔記錄的數(shù)據(jù)。這種分析充分利用了時(shí)間序列,這是一個(gè)按時(shí)間排序的、在固定時(shí)間間隔記錄的值的集合。

例如一個(gè)包含每月月末記錄的銷售圖的時(shí)間序列。4、網(wǎng)絡(luò)圖

在視覺分析中,一個(gè)網(wǎng)絡(luò)圖描繪互相連接的實(shí)體。一個(gè)實(shí)體可以是一個(gè)人,一個(gè)團(tuán)體,或者其他商業(yè)領(lǐng)域的物品,例如產(chǎn)品。實(shí)體之間可能是直接連接,也可能是間接連接。有些連接可能是單方面的,所以反向遍歷是不可能的。

有人爬取了新浪微博數(shù)據(jù),分析了黃曉明和Angelababy的社交網(wǎng)絡(luò)圖。來源:/kmd8d5r/article/details/791920065、社交網(wǎng)絡(luò)圖6、空間數(shù)據(jù)制圖

空間或地理空間數(shù)據(jù)通常用來識(shí)別單個(gè)實(shí)體的地理位置,然后將其繪圖。空間數(shù)據(jù)分析專注于分析基于地點(diǎn)的數(shù)據(jù),從而尋找實(shí)體間不同地理關(guān)系和模式。

ArcMap是一個(gè)用戶桌面組件,具有強(qiáng)大的地圖制作,空間分析,空間數(shù)據(jù)建庫等功能。是美國環(huán)境系統(tǒng)研究所(EnvironmentSystemResearchInstitute,ESRI)于1978年開發(fā)的GIS系統(tǒng)。7、空間數(shù)據(jù)制圖軟件感謝聆聽!《大數(shù)據(jù)導(dǎo)論》情感分析

情感分析是一種特殊的文本分析,它側(cè)重于確定個(gè)人的偏見或情緒。通過對(duì)自然語言語境中的文本進(jìn)行分析,來判斷作者的態(tài)度。情感分析不僅提供關(guān)于個(gè)人感覺的信息,也提供感覺的強(qiáng)度。此信息可以被整合到?jīng)Q策階段。常見的情感分析包括識(shí)別客戶的滿意或不滿,測(cè)試產(chǎn)品的成功與失敗和發(fā)現(xiàn)新趨勢(shì)。1、什么是情感分析

例如,一個(gè)冰激凌公司會(huì)想了解哪種口味的冰激凌最受小孩歡迎。僅有銷量數(shù)據(jù)并不提供此信息,因?yàn)橄M(fèi)冰激凌的小孩并不一定是冰激凌的買家。情感分析被用于存檔客戶在冰激凌公司網(wǎng)站留下的反饋來提取信息,尤其是關(guān)于小孩對(duì)于特定口味偏好的信息。2、情感分析——案例

情感和行為是交互的。周圍的事物影響著你,決定了你的情感。如果你的客戶取消了訂單,你會(huì)感到失望。反過來說,你的情感也會(huì)影響行為。你現(xiàn)在心情愉快,因此決定再給修理工一次機(jī)會(huì)來修好你的車。3、情感和行為是交互的4、情緒標(biāo)簽QQ的情緒圖標(biāo)情緒圖標(biāo)是一種直接的情感表達(dá)方式:憤怒、忙碌、醉酒、輕佻、饑渴以及勞累等大部分情況,語言和文字是模糊和間接的情感表達(dá)方式,而我們通常都無法直接看到作者的主觀內(nèi)在情感。

一種簡(jiǎn)單的方式是,看文字里是否出現(xiàn)某些關(guān)鍵詞,然后加以運(yùn)算,來判斷主觀的內(nèi)在情感。

例如,判斷焦慮,可以查找“緊張”、“害怕”、“面試”、“醫(yī)院”等詞,以及文章里面是否缺乏那些非焦慮博客中常見的詞匯,例如“太好了”、“真棒”、“愛”等。5、一種簡(jiǎn)單文字情感分析方式6、情緒指標(biāo)影響金融市場(chǎng)美國伊利諾伊大學(xué)的兩位科學(xué)家:

博客中所表現(xiàn)出來的焦慮是否會(huì)影響到股市呢?

焦慮指數(shù)和標(biāo)普500指數(shù)的走勢(shì)對(duì)照。其中,焦慮指數(shù)(虛線)和標(biāo)普500指數(shù)走勢(shì)(實(shí)線)交錯(cuò)產(chǎn)生了諸多的菱形空間。

用虛線表示的焦慮指數(shù)與標(biāo)普500指數(shù)呈反相關(guān)關(guān)系。“焦慮程度越高,對(duì)市場(chǎng)的負(fù)面影響越大。”

其研究表明,通過公眾情緒可預(yù)測(cè)股市走勢(shì)。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》神經(jīng)網(wǎng)絡(luò)1、什么是神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)一般指生物的大腦神經(jīng)元,細(xì)胞,觸點(diǎn)等組成的網(wǎng)絡(luò),用于產(chǎn)生生物的意識(shí),幫助生物進(jìn)行思考和行動(dòng)。2、人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,簡(jiǎn)寫為ANNs)也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。3、研究?jī)?nèi)容生物原型:從生理學(xué)、心理學(xué)、解剖學(xué)、腦科學(xué)、病理學(xué)等方面研究神經(jīng)細(xì)胞、神經(jīng)網(wǎng)絡(luò)、神經(jīng)系統(tǒng)的生物原型結(jié)構(gòu)及其功能機(jī)理。模型研究:根據(jù)生物原型的研究,建立神經(jīng)元、神經(jīng)網(wǎng)絡(luò)的理論模型。其中包括概念模型、知識(shí)模型、物理化學(xué)模型、數(shù)學(xué)模型等。算法研究:在理論模型研究的基礎(chǔ)上構(gòu)作具體的神經(jīng)網(wǎng)絡(luò)模型,以實(shí)現(xiàn)計(jì)算機(jī)模擬或準(zhǔn)備制作硬件,包括網(wǎng)絡(luò)學(xué)習(xí)算法的研究。這方面的工作也稱為技術(shù)模型研究。4、應(yīng)用完成某種信號(hào)處理或模式識(shí)別的功能構(gòu)作專家系統(tǒng)手寫體識(shí)別神經(jīng)網(wǎng)絡(luò)圖像識(shí)別機(jī)器視覺語音識(shí)別5、經(jīng)典的神經(jīng)網(wǎng)絡(luò)這是一個(gè)包含三個(gè)層次的神經(jīng)網(wǎng)絡(luò)。紅色的是輸入層,綠色的是輸出層,紫色的是中間層(也叫隱藏層)。輸入層有3個(gè)輸入單元,隱藏層有4個(gè)單元,輸出層有2個(gè)單元。對(duì)于神經(jīng)元的研究由來已久,1904年生物學(xué)家就已經(jīng)知曉了神經(jīng)元的組成結(jié)構(gòu)。一個(gè)神經(jīng)元通常具有多個(gè)樹突,主要用來接受傳入信息;而軸突只有一條,軸突尾端有許多軸突末梢可以給其他多個(gè)神經(jīng)元傳遞信息。軸突末梢跟其他神經(jīng)元的樹突產(chǎn)生連接,從而傳遞信號(hào)。這個(gè)連接的位置在生物學(xué)上叫做“突觸”。人腦中的神經(jīng)元形狀6、生物神經(jīng)元

1943年,心理學(xué)家McCulloch(麥卡洛克)和數(shù)學(xué)家Pitts(匹茲)參考了生物神經(jīng)元的結(jié)構(gòu),發(fā)表了抽象的神經(jīng)元模型MP。7、人工神經(jīng)元模型8、連接連接是神經(jīng)元中最重要的東西。每一個(gè)連接上都有一個(gè)權(quán)重。一個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法就是讓權(quán)重的值調(diào)整到最佳,以使得整個(gè)網(wǎng)絡(luò)的預(yù)測(cè)效果最好。我們使用a來表示輸入,用w來表示權(quán)值。一個(gè)表示連接的有向箭頭可以這樣理解:在初端,傳遞的信號(hào)大小仍然是a,端中間有加權(quán)參數(shù)w,經(jīng)過這個(gè)加權(quán)后的信號(hào)會(huì)變成a*w,因此在連接的末端,信號(hào)的大小就變成了a*w。在其他繪圖模型里,有向箭頭可能表示的是值的不變傳遞。而在神經(jīng)元模型里,每個(gè)有向箭頭表示的是值的加權(quán)傳遞。9、神經(jīng)元模型的使用神經(jīng)元模型的使用可以這樣理解:我們有一個(gè)數(shù)據(jù),稱之為樣本。樣本有四個(gè)屬性,其中三個(gè)屬性已知,一個(gè)屬性未知。我們需要做的就是通過三個(gè)已知屬性預(yù)測(cè)未知屬性。具體辦法就是使用神經(jīng)元的公式進(jìn)行計(jì)算。三個(gè)已知屬性的值是a1,a2,a3,未知屬性的值是z。z可以通過公式計(jì)算出來。這里,已知的屬性稱之為特征,未知的屬性稱之為目標(biāo)。假設(shè)特征與目標(biāo)之間確實(shí)是線性關(guān)系,并且我們已經(jīng)得到表示這個(gè)關(guān)系的權(quán)值w1,w2,w3。那么,我們就可以通過神經(jīng)元模型預(yù)測(cè)新樣本的目標(biāo)。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》商業(yè)案例評(píng)估1.大數(shù)據(jù)分析的生命周期

大數(shù)據(jù)分析的生命周期從大數(shù)據(jù)項(xiàng)目商業(yè)案例的創(chuàng)立開始,到保證分析結(jié)果部署在組織中并最大化地創(chuàng)造價(jià)值時(shí)結(jié)束。

可以分為九個(gè)階段:2.什么是商業(yè)案例評(píng)估每一個(gè)大數(shù)據(jù)分析生命周期都必須起始于一個(gè)被很好定義的商業(yè)案例,這個(gè)商業(yè)案例有著清晰的執(zhí)行分析的理由、動(dòng)機(jī)和目標(biāo)。在商業(yè)案例分析階段中,一個(gè)商業(yè)案例應(yīng)該在著手分析任務(wù)之前被創(chuàng)建、評(píng)估和改進(jìn)。3.商業(yè)案例評(píng)估的目標(biāo)大數(shù)據(jù)分析商業(yè)案例的評(píng)估能夠幫助決策者了解需要使用哪些商業(yè)資源,需要面臨哪些挑戰(zhàn)。另外,在這個(gè)環(huán)節(jié)中深入?yún)^(qū)分關(guān)鍵績(jī)效指標(biāo)能夠更好地明確分析結(jié)果的評(píng)估標(biāo)準(zhǔn)和評(píng)估路線。如果關(guān)鍵績(jī)效指標(biāo)不容易獲取,則需要努力使這個(gè)分析項(xiàng)目變得SMART。SMARTSpecific(具體的)Measurable(可衡量的)Attainable(可實(shí)現(xiàn)的)Relevant(相關(guān)的)Timely(及時(shí)的)4.商業(yè)案例評(píng)估的案例例如,多年來,石油巨頭殼牌甚至不知道其在世界各地的各種設(shè)施中的零件都位于哪里;它不知道什么時(shí)候需要再進(jìn)貨;直到部件開始出現(xiàn)故障,它才知道什么時(shí)候出現(xiàn)了維護(hù)問題。由于機(jī)器停機(jī)每天給公司造成了數(shù)百萬美元的損失,于是殼牌決定收集數(shù)據(jù)以避免這些問題。

殼牌卓越數(shù)據(jù)科學(xué)中心的總經(jīng)理DanielJeavons表示,殼牌基于多家供應(yīng)商的軟件建立了一個(gè)分析平臺(tái),運(yùn)行預(yù)測(cè)模型,以預(yù)測(cè)3000多種不同的石油鉆井機(jī)的部件何時(shí)會(huì)出現(xiàn)故障。動(dòng)機(jī):機(jī)器停機(jī)帶來了數(shù)百萬美元的損失。目標(biāo):提前預(yù)測(cè)石油鉆井機(jī)的部件故障時(shí)間,提早準(zhǔn)備。資源:供應(yīng)商的軟件數(shù)據(jù)。5.定位的商業(yè)問題是否是大數(shù)據(jù)問題基于商業(yè)案例中記錄的商業(yè)需求,我們可以確定定位的商業(yè)問題是否是真正的大數(shù)據(jù)問題。為此,這個(gè)商務(wù)問題必須直接與一個(gè)或多個(gè)大數(shù)據(jù)的特點(diǎn)相關(guān),這些特點(diǎn)主要包括數(shù)據(jù)量大、周轉(zhuǎn)迅速、種類眾多。6.判斷各種預(yù)算本階段的另一個(gè)結(jié)果是確定執(zhí)行這個(gè)分析項(xiàng)目的基本預(yù)算。任何如工具、硬件、培訓(xùn)等需要購買的東西都要提前確定以保證我們可以對(duì)預(yù)期投入和最終實(shí)現(xiàn)目標(biāo)所產(chǎn)生的收益進(jìn)行衡量。

比起能夠反復(fù)使用前期投入的后期迭代,大數(shù)據(jù)分析生命周期的初始迭代需要更多的前期投入在大數(shù)據(jù)技術(shù)、產(chǎn)品和訓(xùn)練上。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)標(biāo)識(shí)階段1.數(shù)據(jù)標(biāo)識(shí)階段的主要工作

數(shù)據(jù)標(biāo)識(shí)階段主要是用來標(biāo)識(shí)分析項(xiàng)目所需要的數(shù)據(jù)集和所需的資源。

標(biāo)識(shí)種類眾多的數(shù)據(jù)資源可能會(huì)提高找到隱藏模式和相互關(guān)系的可能性。

例如,為了提供洞察能力,盡可能多地標(biāo)識(shí)出各種類型的相關(guān)數(shù)據(jù)資源非常有用,尤其是當(dāng)我們探索的目標(biāo)并不是那么明確的時(shí)候。2.數(shù)據(jù)標(biāo)識(shí)階段——數(shù)據(jù)集的來源:內(nèi)部數(shù)據(jù)集

內(nèi)部數(shù)據(jù)集,即來自企業(yè)內(nèi)部的數(shù)據(jù)。像是數(shù)據(jù)集市和操作系統(tǒng)等一系列可供使用的內(nèi)部資源數(shù)據(jù)集往往靠預(yù)定義的數(shù)據(jù)集規(guī)范來進(jìn)行收集和匹配。3.數(shù)據(jù)標(biāo)識(shí)階段——數(shù)據(jù)集的來源:內(nèi)部數(shù)據(jù)集3.數(shù)據(jù)標(biāo)識(shí)階段——數(shù)據(jù)集的來源:內(nèi)部數(shù)據(jù)集4.數(shù)據(jù)標(biāo)識(shí)階段——數(shù)據(jù)集的來源

外部數(shù)據(jù)集,即企業(yè)外部數(shù)據(jù),是公司外部的組織所提供的簡(jiǎn)單的數(shù)據(jù)庫。

典型地,商業(yè)信息機(jī)構(gòu)向信息需要者提供這些數(shù)據(jù)庫并收取一定的費(fèi)用。還有一些外部數(shù)據(jù),分散于各個(gè)的網(wǎng)站或軟件中,這些數(shù)據(jù)需要通過自動(dòng)化工具或網(wǎng)絡(luò)爬蟲技術(shù)來獲取。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)獲取和過濾階段1.數(shù)據(jù)獲取和過濾階段——主要工作根據(jù)上一階段所標(biāo)識(shí)的數(shù)據(jù),開始進(jìn)行具體的數(shù)據(jù)獲取工作,完成獲取工作后,進(jìn)行歸類,并進(jìn)行自動(dòng)過濾,以去除掉所有被污染的數(shù)據(jù)和對(duì)分析對(duì)象毫無價(jià)值的數(shù)據(jù)。2.數(shù)據(jù)獲取和過濾階段——可能的數(shù)據(jù)集類型獲取到的數(shù)據(jù)集類型可能會(huì)有:檔案文件第三方數(shù)據(jù)提供者處購入的數(shù)據(jù)API數(shù)據(jù)網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)等等過濾、剔除并不相關(guān)和“壞”的數(shù)據(jù)可能對(duì)于另一種不同類型的分析過程具有價(jià)值3.什么是“壞”的數(shù)據(jù)遺失毫無意義的值無效的數(shù)據(jù)類型較少存儲(chǔ)空間,壓縮備份4.數(shù)據(jù)的持續(xù)留存非實(shí)時(shí)的分析先存儲(chǔ)在磁盤再分析實(shí)時(shí)的分析先進(jìn)行分析再存儲(chǔ)在磁盤5.擴(kuò)充元數(shù)據(jù)元數(shù)據(jù)從內(nèi)部資源和外部資源中添加到數(shù)據(jù)中。元數(shù)據(jù)會(huì)通過自動(dòng)化操作添加到來自內(nèi)部和外部的數(shù)據(jù)資源中來改善分類和查詢。擴(kuò)充的元數(shù)據(jù),例如,數(shù)據(jù)集的大小和結(jié)構(gòu)、資源信息、日期、創(chuàng)建或收集的時(shí)間、特定語言的信息等感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)提取階段1.數(shù)據(jù)提取階段——主要工作

數(shù)據(jù)提取階段主要是要提取不同的數(shù)據(jù),并將其轉(zhuǎn)化為大數(shù)據(jù)解決方案中可用于數(shù)據(jù)分析的格式。

2.數(shù)據(jù)提取階段——主要工作對(duì)XML文檔中對(duì)注釋和內(nèi)嵌用戶ID的提取。需要提取和轉(zhuǎn)化的程度取決于分析的類型和大數(shù)據(jù)解決方案的能力。

3.提取和轉(zhuǎn)化的程度4.例如:對(duì)文本數(shù)據(jù)的提取例如,如果相關(guān)的大數(shù)據(jù)解決方案已經(jīng)能夠直接加工文件,那么就不必要從文本數(shù)據(jù)(如日志文件)中提取需要的域。5.例如:簡(jiǎn)化本地文稿數(shù)據(jù)的提取類似的,如果大數(shù)據(jù)解決方案可以直接以本地格式讀取文稿的話,對(duì)于需要總覽整個(gè)文稿的文本分析而言,文本的提取過程就會(huì)簡(jiǎn)化許多。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)驗(yàn)證與清理階段1.為什么要進(jìn)行數(shù)據(jù)驗(yàn)證與清理

無效數(shù)據(jù)會(huì)歪曲和偽造分析的結(jié)果。和傳統(tǒng)的企業(yè)數(shù)據(jù)那種數(shù)據(jù)結(jié)構(gòu)被提前定義好、數(shù)據(jù)也被提前校驗(yàn)的方式不同,大數(shù)據(jù)分析的數(shù)據(jù)輸入往往沒有任何的參考和驗(yàn)證來進(jìn)行結(jié)構(gòu)化操作,其復(fù)雜性會(huì)進(jìn)一步使數(shù)據(jù)集的驗(yàn)證約束變得困難。

數(shù)據(jù)驗(yàn)證和清理階段是為了整合驗(yàn)證規(guī)則并移除已知的無效數(shù)據(jù)。大數(shù)據(jù)經(jīng)常會(huì)從不同的數(shù)據(jù)集中接收到冗余的數(shù)據(jù)。這些冗余數(shù)據(jù)往往會(huì)為了整合驗(yàn)證字段、填充無效數(shù)據(jù)而被用來探索有聯(lián)系的數(shù)據(jù)集。數(shù)據(jù)驗(yàn)證會(huì)被用來檢驗(yàn)具有內(nèi)在聯(lián)系的數(shù)據(jù)集,填充遺失的有效數(shù)據(jù)。2.數(shù)據(jù)驗(yàn)證與清理階段——主要工作3.有哪些方式?批處理分析:數(shù)據(jù)驗(yàn)證與抽取可以通過離線ETL(抽取轉(zhuǎn)換加載)來執(zhí)行。實(shí)時(shí)分析:從在內(nèi)存中運(yùn)行的系統(tǒng)數(shù)據(jù)進(jìn)行處理。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)聚合與表示階段1.數(shù)據(jù)聚合與表示階段——主要工作數(shù)據(jù)聚合和表示階段是專門為了將多個(gè)數(shù)據(jù)集進(jìn)行聚合,從而獲得一個(gè)統(tǒng)一的視圖。2.數(shù)據(jù)聚合與表示階段——可能遇到的問題數(shù)據(jù)結(jié)構(gòu)——盡管數(shù)據(jù)格式是相同的,數(shù)據(jù)模型則可能不同。比如,兩個(gè)字段名相同的表格數(shù)據(jù),內(nèi)容卻表示不同的含義。語義——在兩個(gè)不同的數(shù)據(jù)集中具有不同標(biāo)記的值可能表示同樣的內(nèi)容,比如“姓”和“姓氏”。

在此階段,需要考慮未來的數(shù)據(jù)分析需求,以幫助數(shù)據(jù)的可重用性。是否需要對(duì)數(shù)據(jù)進(jìn)行聚合,了解同樣的數(shù)據(jù)能以不同形式來存儲(chǔ)十分重要。一種形式可能比另一種更適合特定的分析類型。3.采用不同形式來存儲(chǔ)

例如,如果需要訪問個(gè)別數(shù)據(jù)字段,以BLOB(binarylargeobject,二進(jìn)制大對(duì)象)存儲(chǔ)的數(shù)據(jù)就會(huì)變得沒有多大的用處。數(shù)據(jù)集A包含所需的數(shù)據(jù)塊,但是由于它是BLOB的一部分而不容易訪問。數(shù)據(jù)集B包含有相同的以列為基礎(chǔ)來存存儲(chǔ)的數(shù)據(jù)塊,使得每個(gè)字段都被單獨(dú)查詢到。4.例如,BLOB感謝聆聽!《大數(shù)據(jù)導(dǎo)論》數(shù)據(jù)分析階段1.數(shù)據(jù)分析階段主要任務(wù)

數(shù)據(jù)分析階段致力于執(zhí)行實(shí)際的分析任務(wù),通常會(huì)涉及一種或多種類型的數(shù)據(jù)分析。在這個(gè)階段,數(shù)據(jù)可以自然迭代,尤其是在數(shù)據(jù)分析是探索性分析的情況下,分析過程會(huì)一直重復(fù),直到適當(dāng)?shù)哪J交蛘呦嚓P(guān)性被發(fā)現(xiàn)。2.數(shù)據(jù)分析階段——主要工作根據(jù)所需的分析結(jié)果的類型,這個(gè)階段可能做的工作:查詢數(shù)據(jù)集以實(shí)現(xiàn)用于比較的聚合發(fā)現(xiàn)各種模式和異常生成一個(gè)統(tǒng)計(jì)或是數(shù)學(xué)模型來描述變量關(guān)系數(shù)據(jù)分析可以分為驗(yàn)證分析和探索分析兩類,后者常常與數(shù)據(jù)挖掘相聯(lián)系。3.分類4.分類1——驗(yàn)證性分析

驗(yàn)證性數(shù)據(jù)分析是一種演繹方法,即先提出被調(diào)查的現(xiàn)象的原因,這種被

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論