T檢驗和卡方檢驗_第1頁
T檢驗和卡方檢驗_第2頁
T檢驗和卡方檢驗_第3頁
T檢驗和卡方檢驗_第4頁
T檢驗和卡方檢驗_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、T檢驗和卡方檢驗好久沒有更新博客了,今天更新一篇關于數(shù)據(jù)分析方法 的文章,主要是基于統(tǒng)計學的假設檢驗的原理,無論是 T檢 驗還是卡方檢驗在現(xiàn)實的工作中都可以被用到,而且結合 Excel非常容易上手,基于這類統(tǒng)計學上的顯著性檢驗能夠 讓數(shù)據(jù)更有說服力。還是保持一貫的原則,先上方法論再上 應用實例,這篇文章主要介紹方法,之后會有另外一篇文章 來專門介紹實際的應用案例。關于假設檢驗假設檢驗(Hypothesis Testing),或者叫做顯著性檢驗 (Significance Testing )是數(shù)理統(tǒng)計學中根據(jù)一定假設條件由樣本推斷總體的一種方法。其基本原理是先對總體的特征作 由莫種假設,然后通過

2、抽樣研究的統(tǒng)計推理,對此假設應該 被拒絕還是接受作曲推斷。既然以假設為前提,那么在進行 檢驗前需要提由相應的假設:H0:原假設或零假設(null hypothesis ),即需要去驗證的假 設;一般首先認定原假設是正確的,然后根據(jù)顯著性水平選 擇是接受還是拒絕原假設。H1 :備擇假設(alternative hypothesis), 一般是原假設的否 命題;當原假設被拒絕時,默認接受備擇假設。如原假設是假設總體均值以=以0,則備擇假設為總體均值以不以0,檢驗的過程就是計算相應的統(tǒng)計量和顯著性概率, 來驗證原假設應該被接受還是拒絕。T檢驗T檢驗(T Test)是最常見的一種假設檢驗類型,主要驗證

3、總體均值間是否存在顯著性差異。T檢驗屬于參數(shù)假設檢驗,所以它適用的范圍是數(shù)值型的數(shù)據(jù),在網(wǎng)站分析中可以是訪 問數(shù)、獨立訪客數(shù)、停留時間等,電子商務的訂單數(shù)、銷售 額等。T檢驗還需要符合一個條件一一總體符合正態(tài)分布。這里不介紹t統(tǒng)計量是怎么計算的,基于 t統(tǒng)計量的顯著性 概率是怎么查詢的,其實這些計算工具都可以幫我們完成, 如果有興趣可以查閱統(tǒng)計類書籍,里面都會有相應的介紹。這里介紹的是用 Excel的數(shù)據(jù)分析工具來實現(xiàn) T檢驗: Excel默認并沒有加載“數(shù)據(jù)分析”工具,所以需要我們自 己添加加載項,通過文件一選項一加載項一勾選“分析工具 庫”來完成添加,之后就可以在“數(shù)據(jù)”標簽的最右方找到

4、數(shù)據(jù)分析這個按鈕了,然后就可以開始做T檢驗了,這里以最常見的配對樣本t檢驗為例,比較莫個電子商務網(wǎng)站在改 版前后訂單數(shù)是否產(chǎn)生了顯著性差異,以天為單位,抽樣改 版前后各10天的數(shù)據(jù)進行比較:首先建立假設:H0:以1 =以2,改版前后每天訂單數(shù)均值相等;H1 :以1 w以2,改版前后每天訂單數(shù)均值不相等。將數(shù)據(jù)輸入Excel,使用Excel的數(shù)據(jù)分析工具,選擇“ t檢 驗:平均值的成對二樣本分析”,輸由檢驗結果:看到右側(cè)顯示的結果是不是有點暈了,看上去有點專業(yè),其 實也并不難,只要關注一個數(shù)值的大小一一單尾的P值,這里是0.00565,如果需要驗證在 95%的置信水平下的顯著性, 那么0.005

5、65顯然小于0.05 (1-95%),拒絕零假設,認為改 版前后的訂單數(shù)存在顯著性差異。簡單說下為什么選擇單尾 顯著性概率P,而不是雙尾,對于大部分網(wǎng)站分析的應用環(huán) 境,我們一般需要驗證改動前后數(shù)值是否存在明顯提升或下 實,所以一般而言只會存在一類可能一一或者提升或者下 降,所以只要檢驗單側(cè)的概率即可,就像上面例子中改版后 的訂單數(shù)均值1240.6大于改版前的1097.3,我們需要驗證的 就是這種“大于”是否是顯著的,也就是做的是左側(cè)單邊檢 驗,這種情況下只要關注單尾的顯著性概率P即可。卡方檢驗卡方檢驗(chi-square test),也就是2檢驗,用來驗證兩個 總體問莫個比率之間是否存在顯

6、著性差異。卡方檢驗屬于非 參數(shù)假設檢驗,適用于布爾型或二項分布數(shù)據(jù),基于兩個概 率間的比較,早期用于生產(chǎn)企業(yè)的產(chǎn)品合格率等,在網(wǎng)站分 析中可以用于轉(zhuǎn)化率、Bounce Rate等所有比率度量的比較分 析,其實在之前的文章 Abandonment Rate的影響因素進 行過相關的應用。這里同樣不去介紹x2是如何計算得到的, 以及基于x2統(tǒng)計量的顯著性概率的查詢等,這里直接以轉(zhuǎn) 化率為例來比較網(wǎng)站改版前后轉(zhuǎn)化率是否發(fā)生了顯著性差異,抽樣改版前后各 3天的網(wǎng)站分析數(shù)據(jù)一一總訪問數(shù)和轉(zhuǎn) 化的訪問數(shù),用“轉(zhuǎn)化訪問數(shù) /總訪問數(shù)”計算得到轉(zhuǎn)化率:首先建立假設:H0: r1=r2,改版前后轉(zhuǎn)化率相等;H1:

7、 r1r2,改版前后轉(zhuǎn)化率不相等。其實這是一個最簡單的四格卡方檢驗的例子,也無需使用SPSS (當然你足夠熟悉 SPSS也可以使用類似的統(tǒng)計分析工 具),為了簡化中間的計算步驟,我這里用Excel直接制作了一個簡單的卡方檢驗的模板,只要在相應的單元格輸入統(tǒng)計 數(shù)據(jù)就能自動顯示檢驗的結果:點擊下載:卡方檢驗示例Excel中淺藍色的單元格都支持輸入,包括原用方案和測試 方案的總訪問數(shù)和轉(zhuǎn)化訪問數(shù),另外置信度95%也是支持修改了,如果你需要 99%的置信水平,只要修改這個單元格即 可。怎么看檢驗結果?其實非常簡單,只要看那個紅色的“存在” 單元格的顯示結果即可, 上面的案例中兩者的轉(zhuǎn)化率 “存在” 顯著性差異,如果不存在,則該單元格相應的就會顯示“不 存在”,有了這個模板對于 A/B Testing等類似的數(shù)據(jù)比較也 顯得非常簡單容易,或者說其實這個Excel模板就是為了 A/B Testing而量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論