




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
與挖掘數(shù)據(jù)分析大數(shù)據(jù)基礎(chǔ)Unit6《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群6.1.1數(shù)據(jù)分析簡介6.1.2數(shù)據(jù)挖掘簡介6.1.3pandas數(shù)據(jù)分析6.1數(shù)據(jù)分析與挖掘簡介6.1.1數(shù)據(jù)分析簡介1數(shù)據(jù)分析的定義數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。
數(shù)據(jù)分析的數(shù)學基礎(chǔ)在20世紀早期就已確立,但直到計算機的出現(xiàn)才使得實際操作成為可能,并使得數(shù)據(jù)分析得以推廣。6.1.1數(shù)據(jù)分析簡介2數(shù)據(jù)分析的分類
按統(tǒng)計學領(lǐng)域劃分
描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析。
描述性數(shù)據(jù)分析屬于初級數(shù)據(jù)分析,常見的分析方法有對比分析法、平均分析法、交叉分析法。在日常學習和工作中涉及的數(shù)據(jù)分析主要是描述性數(shù)據(jù)分析。
探索性分析和驗證性分析屬于高級數(shù)據(jù)分析,常見的分析方法有相關(guān)分析、因子分析、回歸分析等。探索性分析側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征,驗證性數(shù)據(jù)分析側(cè)重于驗證已有假設(shè)的真?zhèn)巫C明。6.1.1數(shù)據(jù)分析簡介3數(shù)據(jù)分析的作用(1)現(xiàn)狀分析(2)原因分析(3)預測分析就是告訴你過去發(fā)生了什么,一般通過日常通報完成,如日報、周報、月報等,開展頻率頻繁。就是在現(xiàn)狀分析的基礎(chǔ)上,就某一個特定現(xiàn)狀為什么發(fā)生而發(fā)起的分析。比如:某年的2月份運營收入環(huán)比下降5%,是什么原因?qū)е碌模烤褪歉嬖V你將來會發(fā)生什么。通常用于制定企業(yè)季度、年度計劃等。開展頻率低。6.1.1數(shù)據(jù)分析簡介4數(shù)據(jù)分析流程(1)明確目的和思路數(shù)據(jù)分析必須有一個明確目的,再根據(jù)分析目的梳理分析思路,搭建分析框架,規(guī)劃后續(xù)步驟所選擇的分析方法等。(2)數(shù)據(jù)收集在明確目的和思路的基礎(chǔ)上,有目的的收集必要的、可能來自多途徑的數(shù)據(jù)。數(shù)據(jù)來源可能是數(shù)據(jù)庫、公開出版物、互聯(lián)網(wǎng)、市場調(diào)查等。但收集到的數(shù)據(jù)往往雜亂無章、難以理解、數(shù)量龐大。6.1.1數(shù)據(jù)分析簡介4數(shù)據(jù)分析流程(3)數(shù)據(jù)處理對搜集的數(shù)據(jù)進行加工整理,形成對解決問題、數(shù)據(jù)分析有價值的數(shù)據(jù)。數(shù)據(jù)處理的方法包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)提取、數(shù)據(jù)計算等。(4)數(shù)據(jù)分析數(shù)據(jù)處理過后,就會依據(jù)分析目的和思路,選用合適的數(shù)據(jù)分析方法對數(shù)據(jù)開展分析。一般的數(shù)據(jù)分析可以通過excel完成,高級數(shù)據(jù)分析就要采用如專業(yè)分析軟件spss、或python數(shù)據(jù)分析庫等進行。6.1.1數(shù)據(jù)分析簡介4數(shù)據(jù)分析流程(5)數(shù)據(jù)展現(xiàn)數(shù)據(jù)分析結(jié)果通過圖、表進行可視化展現(xiàn)。一般情況下,能用圖說明問題的就不要用表格,能用表格說明問題的不要用文字。(6)報告撰寫數(shù)據(jù)分析報告把起因、過程、結(jié)果及建議完整的呈現(xiàn)出來,供決策者參考。報告通過對數(shù)據(jù)全方位的科學分析來評估運營質(zhì)量,為決策者提供科學、嚴謹?shù)臎Q策依據(jù),以降低企業(yè)運營風險,提高企業(yè)核心競爭力。《大數(shù)據(jù)基礎(chǔ)》在線開放課程組《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群與挖掘數(shù)據(jù)分析大數(shù)據(jù)基礎(chǔ)Unit6《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群6.1.1數(shù)據(jù)分析簡介6.1.2數(shù)據(jù)挖掘簡介6.1.3pandas數(shù)據(jù)分析6.1數(shù)據(jù)分析與挖掘簡介6.1.2數(shù)據(jù)挖掘簡介1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析。上一節(jié)所講的數(shù)據(jù)分析就是狹義的數(shù)據(jù)分析,而廣義的數(shù)據(jù)分析還包括數(shù)據(jù)挖掘。6.1.2數(shù)據(jù)挖掘簡介2數(shù)據(jù)分析與數(shù)據(jù)挖掘的比較
相同點數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)里面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識、有價值的信息,從而幫助業(yè)務(wù)運營、改進產(chǎn)品以及幫助企業(yè)做更好的決策,所以數(shù)據(jù)分析與數(shù)據(jù)挖掘一起構(gòu)成了廣義的數(shù)據(jù)分析。6.1.2數(shù)據(jù)挖掘簡介2數(shù)據(jù)分析與數(shù)據(jù)挖掘的比較
目的的不同數(shù)據(jù)分析有明確的目標,先假設(shè)數(shù)據(jù)存在某種模型,然后通過統(tǒng)計分析方法來驗證假設(shè)是否正確,或者有明確的統(tǒng)計指標,使用統(tǒng)計分析方法來得到這些指標值,從而結(jié)合業(yè)務(wù)得出結(jié)論。數(shù)據(jù)挖掘是事先對于數(shù)據(jù)中的模型難以假設(shè),通過數(shù)據(jù)挖掘算法尋找未知的模型。6.1.2數(shù)據(jù)挖掘簡介2數(shù)據(jù)分析與數(shù)據(jù)挖掘的比較
方法的不同數(shù)據(jù)分析會采用對比分析、分組分析、交叉分析、回歸分析等常用統(tǒng)計分析方法。數(shù)據(jù)挖掘會采用決策樹、關(guān)聯(lián)規(guī)則、聚類、分類、神經(jīng)網(wǎng)絡(luò)等統(tǒng)計學、人工智能算法、機器學習算法等方法。6.1.2數(shù)據(jù)挖掘簡介2數(shù)據(jù)分析與數(shù)據(jù)挖掘的比較
結(jié)果的不同數(shù)據(jù)分析一般都得到一些統(tǒng)計量結(jié)果,如總和、平均值等,這些數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進行解讀,才能發(fā)揮出數(shù)據(jù)的價值。數(shù)據(jù)挖掘會輸出挖掘到的模型,這個模型會被應(yīng)用到對新的數(shù)據(jù)的預測上。6.1.2數(shù)據(jù)挖掘簡介3數(shù)據(jù)挖掘的流程明確目的和思路數(shù)據(jù)收集數(shù)據(jù)處理構(gòu)建模型模型評價模型發(fā)布數(shù)據(jù)分析流程:明確目的和思路->數(shù)據(jù)收集->數(shù)據(jù)處理->數(shù)據(jù)分析->數(shù)據(jù)展現(xiàn)->報告撰寫6.1.2數(shù)據(jù)挖掘簡介模型訓練數(shù)據(jù)挖掘算法選擇訓練數(shù)據(jù)集模型評價測試數(shù)據(jù)集輸入算法輸入評估模型好不好?不好模型發(fā)布好新的數(shù)據(jù)輸入預測結(jié)果輸出4數(shù)據(jù)挖掘的模型創(chuàng)建過程《大數(shù)據(jù)基礎(chǔ)》在線開放課程組《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群與挖掘數(shù)據(jù)分析大數(shù)據(jù)基礎(chǔ)Unit6《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群6.1.1數(shù)據(jù)分析簡介6.1.2數(shù)據(jù)挖掘簡介6.1.3pandas數(shù)據(jù)分析6.1數(shù)據(jù)分析與挖掘簡介6.1.3pandas數(shù)據(jù)分析1統(tǒng)計方法
Pandas庫是進行數(shù)據(jù)預處理的強有力工具,也是開展數(shù)據(jù)分析的強有力工具。Pandas的DataFrame或Series對象都提供了大量的統(tǒng)計方法,用于實現(xiàn)數(shù)值型數(shù)據(jù)的各類型統(tǒng)計運算,注意這些方法都自動忽略缺失值。
常見的統(tǒng)計方法有統(tǒng)計個數(shù)count、最大值max、最小值min,總和sum、平均值mean,方差var和標準差std等。例如:data=pd.Series([2,3,5,7,11,13,17,19])
data.mean()6.1.3pandas數(shù)據(jù)分析2分組統(tǒng)計
前面的統(tǒng)計方法能夠讓我們對Series類型的一列數(shù)值型數(shù)據(jù)有個比較籠統(tǒng)的認識,但要呈現(xiàn)豐富的描述性數(shù)據(jù)分析,就需要開展分組統(tǒng)計。
分組統(tǒng)計需要有一個被分組的數(shù)據(jù)集,主要是數(shù)值類型的Series對象,分組統(tǒng)計還需要選擇合適的標簽作為分組鍵,作為分組鍵的數(shù)據(jù)會選用能夠呈現(xiàn)類別的Series對象。6.1.3pandas數(shù)據(jù)分析2分組統(tǒng)計
如圖所示,圖中最左側(cè)兩列數(shù)據(jù)分別是分組鍵和待分組數(shù)據(jù),分組統(tǒng)計需要經(jīng)過拆分、應(yīng)用、合并3個步驟:
第一步,根據(jù)分組鍵進行拆分,將同一個鍵的數(shù)據(jù)合并成小的數(shù)據(jù)集。
第二步,根據(jù)分析需要,對每個小的數(shù)據(jù)集選用一個統(tǒng)計分析方法,這就是應(yīng)用,最終,每個小的數(shù)據(jù)集各會得到一個統(tǒng)計值。
第三步,最后是合并,將各組的統(tǒng)計值合并在一起。6.1.3pandas數(shù)據(jù)分析2分組統(tǒng)計pandas的DataFrame或Series對象都提供了方法groupby用于處理分組,返回一個DataFrameGroupBy或SeriesGroupBy對象,它的基本格式為:
DataFrame.groupby(by,….)或Series.groupby(by,…)其中DataFrame或Series對象是待分組的數(shù)據(jù)集,都能調(diào)用方法groupby,方法內(nèi)的參數(shù)by是分組鍵。例如:data=pd.Series([0,5,10,5,10,15,10,15,20])key=pd.Series([‘A’,‘B’,‘C’,‘A’,‘B’,‘C’,‘A’,‘B’,‘C’])data.groupby(key).sum()《大數(shù)據(jù)基礎(chǔ)》在線開放課程組《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群與挖掘數(shù)據(jù)分析大數(shù)據(jù)基礎(chǔ)Unit6《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群6.2.1數(shù)據(jù)挖掘算法分類6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用6.2數(shù)據(jù)挖掘常用算法6.2.1數(shù)據(jù)挖掘算法分類1數(shù)據(jù)挖掘算法概述在數(shù)據(jù)挖掘的模型創(chuàng)建過程中,數(shù)據(jù)挖掘算法在模型訓練中起到了非常重要的作用。國際權(quán)威的學術(shù)組織theIEEEInternationalConferenceonDataMining(ICDM)在2006年12月評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,和CART。其實參加評選的18種算法,隨便拿出一種來都可以稱得上是經(jīng)典算法,它們在數(shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠的影響。
還有很多數(shù)據(jù)挖掘算法在特定場合下發(fā)揮著作用。6.2.1數(shù)據(jù)挖掘算法分類是指對數(shù)據(jù)的若干特征與若干標簽之間的關(guān)聯(lián)性進行建模的過程。包括分類、回歸兩大類算法。例如:描述一個人的身高、體重是特征、是否肥胖是標簽。有監(jiān)督學習是指對只帶若干特征而不帶任何標簽的數(shù)據(jù)進行建模,去分析數(shù)據(jù)本身的內(nèi)在特點和結(jié)構(gòu)。包括聚類、降維兩大類算法。例如:只描述一個人的身高和體重。無監(jiān)督學習介于有監(jiān)督學習和無監(jiān)督學習之間,通常用在數(shù)據(jù)標簽不完整的情況。包括了半監(jiān)督分類、半監(jiān)督回歸、半監(jiān)督聚類、半監(jiān)督降維算法。
半監(jiān)督學習2數(shù)據(jù)挖掘常用算法的分類6.2.1數(shù)據(jù)挖掘算法分類3有監(jiān)督學習算法劃分分類回歸12有監(jiān)督學習算法劃分分類任務(wù)中,標簽都是離散值。比如決策樹算法、樸素貝葉斯算法等。回歸任務(wù)中,標簽都是連續(xù)值。比如線性回歸算法等。6.2.1數(shù)據(jù)挖掘算法分類4無監(jiān)督學習算法劃分聚類降維12無監(jiān)督學習算法劃分聚類任務(wù)中,沒有標簽,主要是將數(shù)據(jù)分成不同的組別。如kmeans聚類算法等。降維任務(wù),主要是為了用更簡潔的方式表示數(shù)據(jù)。如主成分分析等。《大數(shù)據(jù)基礎(chǔ)》在線開放課程組《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群與挖掘數(shù)據(jù)分析大數(shù)據(jù)基礎(chǔ)Unit6《大數(shù)據(jù)基礎(chǔ)》.移動商務(wù)營銷課程群6.2.1數(shù)據(jù)挖掘算法分類6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用6.2數(shù)據(jù)挖掘常用算法6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用問題描述:已知某銀行的一批用戶數(shù)據(jù),涉及貸款申請情況,包含年齡、是否有工作、是否有房子、信用等級等4個特征,而是否允許貸款申請(只有兩個離散值,Yes或No)構(gòu)成了1個標簽。當有一個新的貸款申請者提供了4個特征的值,請構(gòu)建模型預測是否會允許貸款?1有監(jiān)督學習之分類算法案例6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用問題描述:已知坐標系的點的坐標(x,y)表示的分別是面積為x的房屋的銷售價格是y。現(xiàn)有一批點表示不同面積的房屋的銷售價格。當有一個新的房屋面積為X,請構(gòu)建模型預測銷售價格Y?(注:房屋面積是特征、價格是標簽,且價格是連續(xù)值。)2有監(jiān)督學習之回歸算法案例6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用問題描述:如果坐標系的點的坐標(x,y)仍舊表示的分別是面積為x的房屋的銷售價格是y。x,y都看成特征。現(xiàn)有一批點表示不同面積的房屋銷售價格時,那么,可以通過什么方式將這批房屋分成3組呢?(注:x,y都是特征,沒有標簽)3無監(jiān)督學習之聚類算法案例6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用4無監(jiān)督學習之降維算法案例問題描述:已知某銀行的一批用戶數(shù)據(jù),包含年齡、是否有工作、是否有房子、信用等級等4個特征,沒有標簽。假設(shè)為了減少分析的復雜度和減少存儲容量,試分析能否在保留較大的有效信息的情況下,刪除一個字段?6.2.2數(shù)據(jù)挖掘算法典型應(yīng)用5用scikit-Learn實現(xiàn)KNN分類應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省溫州市鹿城區(qū)2025年七下英語期中聯(lián)考模擬試題含答案
- 2025年醫(yī)院電子病歷系統(tǒng)優(yōu)化構(gòu)建醫(yī)療信息化協(xié)同發(fā)展模式與技術(shù)創(chuàng)新報告
- 咨詢工程師實務(wù)視頻課件
- 2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)在臨床試驗數(shù)據(jù)分析與解讀中的方法與工具報告
- 2025年山東省臨沂市蘭山區(qū)英語七下期末教學質(zhì)量檢測模擬試題含答案
- 經(jīng)典思維模型精解集之營銷力篇
- 保密安全試題及答案
- 數(shù)字文化產(chǎn)業(yè)商業(yè)模式創(chuàng)新:2025年網(wǎng)絡(luò)直播與短視頻內(nèi)容創(chuàng)作研究報告
- 2025年工業(yè)互聯(lián)網(wǎng)平臺網(wǎng)絡(luò)安全隔離技術(shù)在工業(yè)互聯(lián)網(wǎng)安全領(lǐng)域的市場機遇與挑戰(zhàn)研究報告001
- 安全檢查培訓試題及答案
- 2024年江西省公安廳招聘警務(wù)輔助人員考試真題
- 砂石銷售提成管理制度
- 2025年湖南省中考生物試卷及答案
- 2025至2030中國地效飛行器行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 高效化學滅菌技術(shù)-洞察及研究
- 2025年重慶市中考語文試卷(含解析)
- 2025年湖北省普通高中學業(yè)水平合格性考試模擬(三)歷史試題(含答案)
- 廣東省中山市2023-2024學年八年級下學期語文期末試卷(含答案)
- 融媒體保密管理制度
- 2025至2030中國消防產(chǎn)業(yè)市場深度調(diào)研及發(fā)展前景及有效策略與實施路徑評估報告
- 2025年高考全國二卷數(shù)學高考真題解析 含參考答案
評論
0/150
提交評論