Excel電商數據分析與應用 課件 2.數據分析方法論2_第1頁
Excel電商數據分析與應用 課件 2.數據分析方法論2_第2頁
Excel電商數據分析與應用 課件 2.數據分析方法論2_第3頁
Excel電商數據分析與應用 課件 2.數據分析方法論2_第4頁
Excel電商數據分析與應用 課件 2.數據分析方法論2_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據分析方法論2.1基本方法&2.2高級方法熵值法CONTENTS漏斗分析法矩陣分析法多維分析法相關性分析法杜邦分析法時間序列分析法18131415161719熵值法PARTThirteen熵值法源自信息學科,廣泛應用于對數據集的離散程度評估,也可用于估算權重從而計算綜合得分。1.原理

在信息論中,熵是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性就越大,熵也就越大。根據熵的特性,可以通過計算熵值來判斷一個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指標對綜合評價的影響越大。因此,可根據各項指標的變異程度,利用信息熵計算各指標的權重,為多指標綜合評價提供依據。2.計算例2-25:表2-25是3個產品測試時的數據,使用熵值法對產品的表現進行綜合評估并排名。解:本例有3個款式的產品可供選擇,每個款式的產品有3個屬性,由于3個屬性的量綱不同,因此需要用熵值法求出各屬性的權重以及在產品中的貢獻度。設產品總量為m,得分為x,產品序號為i,屬性序號為j。

將表2-25轉變成p矩陣,如表2-26所示,p為數值與各列之和的商,pij=xij÷∑xij。將p值乘以ln(p)得到各個評分的貢獻度,Eij=pij×ln(pij),得到表2-27所示的E矩陣。根據k=1÷ln(m),其中m為產品總量,此例m=3,計算得k=0.910239。根據以下3個公式,計算出的結果如表2-28所示。貢獻總量E=k×∑p一致性程度D=1-E權重W=D÷∑D由于得分的量綱不同,先使用Min-Max標準化方法,將值轉換成[0,1]區間的數值,再用每個屬性的得分乘以權重值W后相加得到綜合得分,綜合得分落在[0,1]區間,如表2-29所示。漏斗分析法PARTFourteen漏斗分析法是結合了流程分析的方法,更強調事件的發展過程,按照事件發展的過程分析問題,屬于數據分析中的方法。它能夠科學地反映用戶行為狀態,以及從起點到終點各階段用戶轉化率的情況,是數據分析中重要的分析模型。

目前,漏斗分析法已經廣泛應用于網站用戶行為分析和App用戶行為分析的流量監控、產品目標轉化等日常數據運營與數據分析工作中。圖2-10所示為淘寶生意參謀的交易漏斗圖,從訪客到下單,再到支付,可運用漏斗分析法在這個過程中洞察問題。漏斗分析法分析步驟漏斗分析法的一般操作步驟如下。①確定業務流程,各個環節的量綱必須一致。②確定數據。③畫圖。例2-26:現有用戶交易過程的數據如圖2-11所示,使用Excel畫出數據集的漏斗圖。解:設置各環節數據表格,注意量綱必須一致。選中數據,在【插入】選項卡中選擇【漏斗圖】選項,如圖2-12所示。創建漏斗圖并設置好圖表標題后的效果如圖2-13所示。右擊漏斗圖,在彈出的快捷菜單中選擇【設置數據系列格式(F)】命令,在【設置數據系列】窗格中,將間隙寬度設置為50%,如圖2-14所示。在【插入】選項卡中選擇【形狀】選項,如圖2-15所示,選擇【下箭頭】。圖2-16所示為在漏斗圖中添加下箭頭后的效果。在【插入】選項卡中選擇【文本框】選項,如圖2-17所示,在箭頭旁插入文本框。【格式】選項卡中,將文本框的形狀和邊框都設置為無填充,如圖2-18所示。設置好的漏斗圖如圖2-19所示。添加從瀏覽商品到完成交易的轉化率,最終效果如圖2-20所示。通過圖2-20可以發現,整個流程中最大的問題出現在“加入購物車”這個環節,運營人員可重點優化這個環節。矩陣分析法PARTFifteen矩陣分析法是從交叉法演變而來的,和交叉法最大的區別是矩陣法的兩個軸是維度,不是度量。在低維(二維~三維)時可以使用該方法,它屬于數據分析方法。其原理是在矩陣圖的基礎上,把各因素分別放在行和列中,然后在行和列的交叉點用數量來描述這些因素之間的對比,再進行數量計算,并進行定量分析,從而確定哪些因素比較重要。矩陣分析思維矩陣分析思維是指通過對原始感性材料進行矩陣般的分析與規整,形成全面、系統、嚴謹、專業并具有很強邏輯性和關聯性的理性思想,從而有助于形成正確思考、研究、決策等高層次思維的思想方法,這是一種縱橫交叉的邏輯研究方法。此思維被廣泛應用,比如在工程管理上將各種任務分為重要并緊急、重要不緊急、不重要緊急和不重要不緊急這4類,4類任務分別在矩陣圖的4個象限。SWOT分析法,也是矩陣分析思維的一種應用。創建矩陣創建矩陣至少需要兩個維度,每個維度有N個交點,因此兩個維度形成(N+1)×(N+1)的二維平面圖。以N=1為例,形成2×2=4的二維平面圖,也稱為四象限分析法。例2-27:表2-30所示為某店鋪5個產品的表現數據,用矩陣分析法分析數據。解:用矩陣分析法分析數據的步驟如下。①在Excel中選中支付金額和訪客平均價值,創建散點圖。②根據兩個指標的平均值設置x軸和y軸的交點。③基于(20262.62,15.14)劃分4個坐標區域,每個數據點代表一個產品,分布在4個區域內,如圖2-21所示。定義矩陣繪制矩陣圖需根據畫圖的兩個維度對矩陣進行定義,因此理解指標背后所代表的業務意義,是矩陣分析法的關鍵。支付金額代表產品的市場份額,訪客平均價值代表流量價值。添加定義后的矩陣如圖2-22所示,定義如下。(1)右上角的區域市場份額和流量價值都較高,可定義該區域的產品為企業的核心產品。可將資源重點放在B產品上,通過市場推廣和營銷提高B產品的市場份額。(2)右下角的區域市場份額較高,但流量價值較低,可定義該區域的產品為企業的引流產品。需要維持A產品的市場份額,在其生命周期內保持引流能力。(3)左上角的區域流量價值較高,但市場份額較低,可定義該區域的產品為企業的重點發展產品或利潤產品。需要為C產品引入更多的流量,以測試市場對該產品的反饋。(4)左下角的區域市場份額和流量價值都較低,可定義該區域的產品為企業的問題產品。可下線E產品和D產品或對E產品和D產品進行重新定位。矩陣具有運動的特性,分布在不同區間的點會隨著時間的推移而移動,而這種移動是有規律可循的,如圖2-23所示。隨著需求的增長,低市場份額、高流量價值的市場就會轉變成高市場份額、高流量價值的市場;隨著競爭的加劇,高市場份額、高流量價值的市場就會轉變成高市場份額、低流量價值的市場;隨著產品生命周期的結束,高市場份額、低流量價值的市場就會轉變成低市場份額、低流量價值的市場;此時需要對市場進行重新定位,重新定位后會重新轉變成低市場份額、高流量價值的市場。一個優秀的產品必然具有高流量價值,隨著時間的推移市場份額會越來越大,市場份額大到一定程度,市場的競爭對手會急劇增加,此時流量價值會逐漸下降,隨著產品生命周期的結束,最終產品將會退市多維分析法PARTSixteen多維分析法多維分析法是分析多個指標的方法。在許多復雜的業務場景下,降維后仍存在多個指標,對多個維度進行分析的方法就是多維分析法。多維分析法同樣局限于四維空間,一般采用二維平面圖進行展示。1.三維氣泡圖三維氣泡圖并非真正的三維圖形,而是在二維平面圖上展示3個維度,比一般的二維圖形展現更多的信息。例2-28:表2-31所示為某店鋪產品數據,用氣泡圖展現數據。解:在Excel中選中訪客數、支付轉化率和客單價,創建氣泡圖。x軸為訪客數,y軸為支付轉化率,氣泡大小為客單價,如圖2-24所示。2.雷達圖雷達圖是以從同一點開始的軸上表示的3個或更多個定量、變量的,以二維圖表的形式顯示多變量數據的圖形方法,其軸的相對位置和角度通常是無信息的。雷達圖也稱為網絡圖、蜘蛛網圖、星圖、不規則多邊形、極坐標圖或Kiviat圖。它相當于平行坐標圖,坐標軸徑向排列。例2-29:表2-31所示為某店鋪產品數據,用雷達圖展現數據。解:使用Min-Max標準化方法將表2-31的數據標準化,繪制出表2-32。在Excel中選中表2-32的產品、訪客數、支付轉化率和客單價,創建雷達圖。選中雷達圖,在【圖表工具】的【設計】選項卡中,選擇【切換行/列】選項,效果如圖2-25所示。時間序列分析法PARTSeventeen時間序列分析法,強調的是通過對某個事物或事件進行一定時間段內的連續觀測,并對數據進行統計。采用時間序列分析法研究數據的變化和發展規模,廣泛應用于數據挖掘領域1.移動平均法移動平均法是用一組最近的實際數據值來預測未來一期或幾期內公司產品的需求量、公司產能等的常用方法。移動平均法適用于近期預測。當產品需求既不快速增長也不快速下降,且不存在季節性因素時,移動平均法能有效地消除預測中的隨機波動。移動平均法根據預測時使用的各元素的權重不同,可以分為簡單移動平均法和加權移動平均法。(1)簡單移動平均法。簡單移動平均法的各元素的權重都相等。簡單移動平均法的計算公式為:Ft=[(At-1)+(At-2)+(At-3)+…+(At-n)]/n其中:Ft——對下一期的預測值;n——移動平均的時期個數;At-1——前期實際值;At-2、At-3和At-n分別表示前兩期、前3期直至前n期的實際值。例2-30:表2-33是某店鋪2022年10月26日—2022年11月4日的店鋪訪客數真實數據,采用簡單移動平均法預測2022年11月2日—2022年11月4日的訪客數據。其中表2-33的第8行到第10行為驗證數據,用于驗證預測結果。解:在電商的數據體系中,存在一些常用的時間范圍節點,如近3天、近7天、近14天、近30天等。在正常的流量(非活動)下,當天的流量主要受當天前n個小時、近3天、近7天數據的影響。在以天為單位預測數據時,可選擇近3天或近7天的數據,本例以近7天為例。將數據對應填入Excel中,在D9單元格輸入公式“=AVERAGE(C2:C8)”,然后將公式填充到D10和D11。2022年11月2日和2022年11月3日的預測結果與真實數值較為接近,如圖2-26所示。(2)加權移動平均法。加權移動平均法給固定跨越期限內的每個變量值以不同的權重。其原理是:歷史各期產品需求的數據信息對預測未來期內需求量的作用是不一樣的。除了以n為周期的周期性變化外,遠離目標期的變量值的影響力相對較低,故應給予較低的權重。加權移動平均法的計算公式為:其中:w1——第t-1期實際銷售額的權重;w2——第t-2期實際銷售額的權重;wn——第t-n期實際銷售額的權重;n——預測的時期數,w1+w2+…+wn=1。在運用加權移動平均法時,權重的選擇是一個值得注意的問題。經驗法和試算法是選擇權重較為簡單的兩種方法。一般而言,離日期最近的數據最能準確預測未來的情況,因而權重應大些。例如,前一個月的利潤和生產能力比前幾個月的數據能更好地估測下個月的利潤和生產能力。但是,如果數據是季節性的,則權重也應是季節性的。例2-31:使用加權移動平均法預測表2-33所示的數據。解:根據業務經驗,雖然近7天是一個整體,但也可以分成近3天和3天之前,近3天的數據權重相對較大,系數可設為0.6;3天之前的數據權重相對較低,系數可設為0.4。將表2-33中數據填至一個新的Excel表格中,在D9單元格輸入公式“=0.4×AVERAGE(C2:C5)+0.6×AVERAGE(C6:C8)”。在D10單元格輸入公式“=0.4×AVERAGE(C3:C6)+0.6×AVERAGE(C7:C8,D9)”。在D11單元格輸入公式“=0.4×AVERAGE(C4:C7)+0.6×AVERAGE(C8,D9:D10)”。預測結果如圖2-27所示,預測結果的誤差并沒有明顯提高,說明訪客數受影響的因素較多。除了使用時間序列分析法之外,還可以通過其他方法預測并進行修正。2.指數平滑法指數平滑法實際上是一種特殊的加權移動平均法。指數平滑法進一步加強了觀察期內近期觀察值對預測值的作用,對不同時間的觀察值所賦予的權重不同,加大了近期觀察值的權重,使預測值能夠迅速反映市場實際的變化。根據平滑次數的不同,指數平滑法可以分為一次指數平滑法、二次指數平滑法、高次指數平滑法。(1)一次指數平滑法當時間序列無明顯的變化趨勢時,可用一次指數平滑法。其公式為:其中:指數平滑法初始值的確定需要從時間序列的項數來考慮:若時間序列的觀察期n大于15,初始值對預測結果的影響很小,可以以第一期觀測值作為初始值;若觀察期n等于15,初始值對預測結果影響較大,則取最初幾期觀測值的平均數作為初始值,通常取前3期。一次指數平滑法的局限性:一次指數平滑法只適用于水平型歷史數據的預測,不適用于呈斜坡型線性趨勢歷史數據的預測。(2)二次指數平滑法二次指數平滑法是在一次指數平滑的基礎上再進行一次平滑。它不能單獨進行預測,必須與一次指數平滑法配合,建立預測的數學模型,然后運用數學模型確定預測值。預測公式為:(3)高次指數平滑預測法高次指數平滑預測法是一種使用多個指數平滑系數進行預測的方法,通常使用二次指數平滑或者三次指數平滑。這種方法在預測時考慮了更多的歷史數據,能夠更準確地捕捉到趨勢和季節性的變化。若時間序列的變動呈現二次曲線趨勢,則需采用三次指數平滑法進行預測。三次指數平滑法是在二次指數平滑的基礎上再進行一次平滑。預測公式為:例2-32:使用指數平滑法預測表2-33中的數據。解:預測的期數為3,觀察值為7,由于觀察值過少,故使用一次指數平滑法。將表2-33的數填入一個新的Excel表格中,阻尼系數先設定為0.3,如圖2-28所示。初始值為前3個觀測值的平均值,即在C4單元格輸入公式“=AVERAGE(B2:B4)”。從第4個觀測值開始預測,即在C5單元格輸入公式“=$B$2×C2+(1-$B$2)×D4”。將公式一直填充到C11單元格,如圖2-29所示。可以將預測的值跟真實值進行對比,算出誤差并通過調整阻尼系數對比誤差的大小,從而確定阻尼系數。相關性分析法PARTEighteen相關性分析是對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量元素的相關密切程度,屬于統計分析方法。相關性的元素之間需要存在一定的聯系才可以進行相關性分析。相關性不等于因果性,也不是簡單的個性化。相關性所涵蓋的范圍和領域幾乎覆蓋了人們所能見到的方方面面,其在不同的學科中的定義也有很大的差異。相關性可以研究數值和數值之間的關系,可以研究數值和分類之間的關系,可以研究分類和分類之間的關系,不同類型的數據之間的相關系數計算方法不同。相關系數公式如表2-34所示。1.相關系數相關系數最早是由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母r表示。由于研究對象不同,相關系數有多種定義方式,較為常用的是皮爾遜相關系數。相關圖可反映兩個變量(,)xy之間的相互關系及相關方向,但無法確切地表明兩個變量相關的程度。相關系數是用以反映變量相關關系密切程度的統計指標,其公式為:相關系數的值域為[-1,1],相關系數為正數表示正相關,變量向相同方向變化;相關系數為負數表示負相關,變量向相反方向變化。相關系數的幾何意義如圖2-30所示。相關系數的定義如表2-35所示。由于實踐過程中,數據的干擾因素較大,強相關的關系極難在實際的業務數據中發現,因此在應用過程中需要調整定義,調整后的相關系數定義如表2-36所示。例2-33:表2-37是某店鋪7天的支付金額和直通車消耗(廣告費用),分析兩者的關系。解:兩個變量都是數值型字段,可通過計算相關系數來研究二者的關系。在Excel中使用函數CORREL計算相關系數,如圖2-31所示,在C9單元格中輸入公式“=CORREL(B2:B8,C2:C8)”,計算的相關系數約為0.67,為中正相關,表示兩者之間存在一定的關系,但不是絕對關系,可能還存在其他因素的影響。2.相關矩陣相關矩陣也叫相關系數矩陣,是由矩陣各列間的相關系數構成的。也就是說,相關矩陣第i行第j列的元素是原矩陣第i列和第j列的相關系數。例2-34:表2-38是某店鋪的經營數據,在Excel中計算表2-38中各字段間的相關系數。解:在Excel的【數據選項卡】中,選擇【數據分析】選項,如圖2-32所示。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論