




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
國內最具權威的市場調研門戶網站之一國內最具權威的市場調研門戶網站之一學數據分析、找行業報告、招調查人才可移步一起調研網一個屬于調研行業的B2B網站大數定律與抽樣陷阱前面一篇文章——難以解釋的數據異常——發出來之后,朋友推薦我去讀《黑天鵝》,剛剛翻完這本書,發現書中的很多觀點和細節的表述都能給人啟發,尤其是“敘述謬論”和“過度解釋”這個兩點能對難以解釋的數據異常這篇文章中描述的內容給出另一個側面的解釋。從作者塔勒布的后記和書中表述的觀點來看,讀過這本書的人可能很容易走入兩種認識的極端:1、既然一些未知的黑天鵝事件可能對我們造成極大的影響,那我們就應該去努力預測這些未知事件,以便做好充分的準備來應對這些事件。但作者在書中明確說了黑天鵝事件的不可預測性;
2、既然我們無法預測未知,并且未知事件可能對我們的生活造成翻天覆地的影響,我們只能不去做任何的預測和準備,等待命運的審判。但書的副標題是“如何應對不可預知的未來”,所以作者塔勒布并不認為我們什么都做不了,至少能夠認識到黑天鵝的存在,打破傳統思維的局限性,謹慎地預防,黑天鵝是未知的未知,我們需要為已知的世界和已知的未知做好準備。《黑天鵝》中多次提到大數定律可能會愚弄我們,作為數理統計和概率論中兩個經典的理論(中心極限定理和大數定律)之一,為什么遇到黑天鵝事件時就會失效?或者說大數定律在遇到任何的小概率事件時都有可能“失效”,需要謹慎地認識,以防掉入應用中的陷阱。大數定律大數定律(LawofLargeNumbers),指在隨機試驗中,每次出現的結果不同,但是大量重復試驗出現的結果的平均值卻幾乎總是接近于某個確定的值。典型的例子就是拋硬幣的伯努利試驗,當拋硬幣的次數足夠多的時候,正反面出現的概率都接近于1/2。常用的大數定律有伯努利大數定律和辛欽大數定律。其中伯努利大數定律指在n次獨立試驗中,事件A發生的頻率為p,當n足夠大時,p無限接近事件A真實的發生概率,即頻率的穩定性;辛欽大數定律指若n個獨立同分布的隨機變量存在數學期望,則當n越大時,其算法平均數越接近于這些隨機變量的真實數學期望值,即均值的穩定性。大數定律為統計推斷提供了充分的理論依據,我們可以通過抽樣的方法用樣本統計量的特征去估計總體的特征,而不需要去研究整個總體。當樣本的數量越大時,其對總體的估計就越接近總體的真實特征。但在面對小概率事件時,大數定律對總體的估計會顯得無能為力,很多時候結論是失效的。小概率事件假設我們進行重復10000次的伯努利試驗,事件A、B、C發生的次數均滿足二項分布X~B(n,p),n代表試驗次數,p代表事件發生的概率。其中事件A發生的概率為10%、事件B發生的概率為1%、事件C發生的概率為0.1%。我們知道,滿足二項分布的隨機變量的均值是np,方差為np(1-p),于是就可以用變異系數CV(具體內容參見衡量數據的離散程度這篇文章)來衡量這3個事件發生次數的變異性或者波動情況,可以得到如下的結果:事件試驗次數發生概率均值方差變異系數A1000010%10009003.00%B100001%100999.95%C100000.1%109.9931.60%從上表中可以看出,當試驗的次數保持恒定時,事件發生的概率越低,則事件發生的次數會存在越大的波動性或者波動幅度,如果我們繼續降低事件發生概率,比如事件D發生概率為0.01%,也就是10000次試驗中發生的期望次數是1次,那么事件D的CV就高達99.99%,完全無法預判其是否發生。所以在相同的條件下,小概率事件一定比普遍發生的事件存在更大的變數,概率越小波動的幅度就越大。抽樣誤差隨著網站數據量的不斷增大,數據的處理和統計需要更高的成本,于是有些分析就會借助抽樣的方法來處理數據,GoogleAnalytics的免費版當數據量達到上限時就會采用抽樣的方式顯示結果報表。其實很多時候我們都在使用抽樣的方法分析數據,我們可能會用最近7天的數據來評估近段時間的流量變化、轉化情況等,但7天并不能完全代表近段時間,其實做的也是一種抽樣。下面來看看現實的網站數據分析的例子:轉化率(ConversionRate)是網站分析中非常重要的一個指標,很多公司會把轉化率當做運營產品部門的KPI,但對于很多網站而言,轉化率并不大,一般不會超過10%(根據網站業務特征的差異和對目標轉化的定義不同,轉化率在不同網站間沒有一個恒定的標準,也不具備可比性),如果網站的內容質量不高或者用戶體驗不好,轉化率也很可能低于1%。這個時候如果用抽樣的方法來預估網站整體的轉化情況,就很容易掉入抽樣誤差的陷阱。網站的轉化情況其實是一個二項分布,即轉化或未轉化,滿足X~(n,p)。根據中心極限定理,二項分布的極限是正態分布,一般認為當np和n(1-p)同時大于10時,二項分布近似地滿足X~N(np,np(1-p))的正態分布,即均值為np,方差為np(1-p)。將二項分布除以n之后可以得到均值,即概率p的分布,當n大于30時,近似服從N(p,p(1-p)/n)的正態分布,即均值為p,方差為p(1-p)/n,當n無限大時,樣本概率p與總體概率就不存在誤差,也就是滿足大數定律。假如我們從網站每天幾百萬次的訪問中抽樣1萬次訪問來預估整體的轉化率,當樣本的轉化率(即概率p)分別為10%、1%、0.1%時,預估的總體轉化率的變異系數同上表,分別為3.00%、9.95%、31.60%(可以用均值為p,標準差為sqrt(p(1-p)/n)進行驗證),所以樣本轉化率越低,使用樣本轉化率去預估總體轉化率就會越不準確。既然過小的轉化率在抽樣中可能導致預估的結果存在巨大的誤差,那么如何合理地選擇樣本數量來控制這個誤差?上面已經提到,當二項分布的np和n(1-p)同時大于10時,可以認為近似滿足正態分布,在正態分布下面,就可以計算在一定置信水平下的置信區間(詳細計算方法見參數估計與置信區間中的區間估計),而要讓抽樣的誤差控制在可接受的范圍內,可以增加抽樣的樣本數來提升樣本對總體估計的可信度。假設我們將置信水平設定在90%(一般認為95%的置信水平是滿足統計學意義的,但互聯網的數據影響因素較多,普遍波動較大,不需要科研實驗那么高的精確度,所以90%的置信水平足夠了),即Zα/2取到1.65,我們對轉化率的控制一般要求較高,假設在90%的置信水平下,樣本的置信區間必須控制在樣本轉化率的±10%,可以看下在這種條件下各種轉化率水平所需的抽樣樣本數必須滿足怎么樣的條件:轉化率10%的轉化率σ需要滿足n需要滿足10%0.01<0.00606>24515%0.005<0.00303>51741%0.001<0.000606>269580.1%0.0001<0.0000606>272032上表的樣本數條件可以作為我們抽樣時的參考,具體的應用可以根據概率的大小和對置信水平、置信區間的需要進行計算得到。最后再回到黑天鵝,通過上面對小概率事件和抽樣誤差的解釋,其實已經很明顯了。黑天鵝是極小概率事件,可能幾十年幾百年才遇到一次,而大數定律是一個理想化的狀態,也就是n值趨近于無窮,我們很難在人生短短數十年經歷很多小概率事件,或者我們的知識閱歷的儲備
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金礦尾礦處理與資源化利用技術考核試卷
- 釀造食品企業的法律法規遵守與合規考核試卷
- 慢性阻塞性肺疾病疾病查房
- 急救儀器使用與維護指南
- 急性呼吸窘迫綜合征護理要點
- 呼吸機脫機指征標準
- Cladosporide-C-生命科學試劑-MCE
- 2025年新高考數學一輪復習講義(學生版)
- 食品飲料行業2025年包裝廢棄物處理與資源化利用研究報告
- 2025年睡眠醫療市場趨勢預測:診療服務模式創新與行業可持續發展路徑
- 2025年重慶市中考地理試題 (解析版)
- 2025年河北省麒麟卷數學三試題及答案
- 2024年青海省囊謙縣事業單位公開招聘輔警考試題帶答案分析
- 上海市寶山區2023-2024學年六年級下學期期末語文試題(解析版)
- 2025中考語文常考作文押題(10大主題+10篇范文)
- 售后工作人員培訓計劃方案
- 《工程勘察設計收費標準》(2002年修訂本)
- 天津能源投資集團科技有限公司招聘筆試題庫2024
- 人工智能知到章節答案智慧樹2023年復旦大學
- 人工智能智慧樹知到答案章節測試2023年復旦大學
- GB 31644-2018食品安全國家標準復合調味料
評論
0/150
提交評論