




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
developerWorks中國
>
Webdevelopment
|
Linux
>用PHP使Web數據分析進入更高境界設計您的數據分析,做比簡單原始計數更多的事PaulMeagher(paul@),CEO,DatavoreProductions2003年12月01日
更新2004對Web數據進行有效和多層次的分析是許多面向Web企業能夠生存的關鍵因素,數據分析檢驗的設計(和決策)通常是系統管理員和內部應用程序設計人員的工作,而他們可能除了能夠把原始計數制成表格之外,對統計學沒有更多的了解。在本文中,PaulMeagher向Web開發人員傳授了將推論統計學應用到Web數據流所需的技能和概念。動態網站不斷生成大量的數據—訪問日志、民意測驗和調查結果、客戶概要信息、訂單及其它,Web開發人員的工作不僅是創建生成這些數據的應用程序,而且還要開發使這些數據流有意義的應用程序和方法。通常,對于由管理站點所產生的不斷增長的數據分析需求,Web開發人員的應對是不夠的。一般而言,除了報告各種描述性統計信息之外,Web開發人員并沒有其它更好的方法來反映數據流特征。有許多推論統計步驟(根據樣本數據估計總體參數的方法)可以被充分利用,但目前卻沒有應用它們。例如,Web訪問統計信息(按當前所編輯的)只不過是以各種方式進行分組的頻率計數。以原始計數和百分比表示民意測驗和調查結果的情況比比皆是。開發人員用比較淺顯的方法處理數據流的統計分析或許已經足夠了,我們不應期望太多。畢竟,有從事較復雜的數據流分析的專業人士;他們是統計師和受過訓練的分析師。當組織需要的不僅僅是描述性統計時,可以請他們加入。但另一種應對是承認對推論統計學日益加深的了解正成為Web開發人員工作描述的一部分。動態站點正在生成越來越多的數據,事實表明,設法將這些數據變成有用的知識正是Web開發人員和系統管理員的責任。我提倡采取后一種應對;本文旨在幫助Web開發人員和系統管理員學習(或重溫,如果知識已遺忘的話)將推論統計學應用到Web數據流所需的設計和分析技能。使Web數據與實驗設計相關將推論統計學應用到Web數據流需要的不僅僅是學習作為各種統計檢驗基礎的數學知識。將數據收集過程與實驗設計中的關鍵差別關聯起來的能力同樣很重要:測量尺度是什么?樣本的代表性如何?總體是什么?正在檢驗的假設是什么?要將推論統計學應用到Web數據流,需要先把結果看作是由實驗設計生成的;然后選擇適用于該實驗設計的分析過程。即使您可能認為將Web民意測驗和訪問日志數據看作實驗的結果是多此一舉,但這樣做確實很重要。為什么?這將幫助您選擇適當的統計檢驗方法。這將幫助您從收集的數據中得出適當的結論。在確定要使用哪些適當的統計檢驗時,實驗設計的一個重要方面是選擇數據收集的衡量尺度。
回頁首衡量標準的示例測量尺度只是指定了一個對所感興趣的現象分配符號、字母或數字的步驟。例如,千克尺度允許您給一個物體分配數字,根據測量儀器的標準化的偏移量指示該物體的重量。有四種重要的衡量標準:定比尺度(ratio)—千克尺度是定比尺度的一個示例?分配給物體屬性的符號具有數字意義。您可以對這些符號執行各種運算(如計算比率),而對于通過使用功能不那么強大的衡量標準獲得的數值,您不能使用這些運算。定距尺度(interval)—在定距尺度中,任意兩個相鄰測量單位之間的距離(也稱為間距)是相等的,但零點是任意的。定距尺度的示例包括對經度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加減,但乘除則沒有意義。定序尺度(rank)—定序尺度可應用于一組有順序的數據,有順序指的是屬于該尺度的值和觀察值可以按順序排列或附帶有評級尺度。常見的示例包括“好惡”民意測驗,其中將數字分配給各個屬性(從1=非常厭惡到5=非常喜歡)。通常,一組有序數據的類別有自然的順序,但尺度上相鄰點之間的差距不必總是相同的。對于有順序的數據,您可以計數和排序,但不能測量。定類尺度(nominal)—衡量標準的定類尺度是衡量標準中最弱的一種形式,主要指將項目分配給組或類別。這種測量不帶數量信息,并且不表示對項目進行排序。對定類尺度數據執行的主要數值運算是每一類別中項目的頻率計數。下表對比了每種衡量標準的特征:衡量標準尺度屬性具有絕對的數字含義嗎?能執行大多數數學運算嗎?定比尺度是。是。定距尺度對于定距尺度是這樣;零點是任意的。加和減。定序尺度不是。計數和排序。定類尺度不是。只能計數。在本文中,我將主要討論通過使用測量的定類尺度收集的數據,以及適用于定類數據的推論技術。使用定類尺度幾乎所有Web用戶—設計人員、客戶和系統管理員—都熟悉定類尺度。Web民意測驗和訪問日志類似,因為它們常常使用定類尺度作為衡量標準。在Web民意測驗中,用戶常常通過請求人們選擇回答選項(如“您偏愛品牌A、品牌B,還是品牌C?”)來衡量人們的偏好。通過對各類回答的頻率進行計數來匯總數據。類似的,測量網站流量的常用方法是對一個星期內一天之中的每次點擊或訪問都劃分給這一天,然后對每一天出現的點擊或訪問的數目計數。另外,您可以(也確實可以)通過瀏覽器類型、操作系統類型和訪問者所在的國家或地區—以及任何您想得到的分類尺度—對點擊計數。因為Web民意測驗和訪問統計信息都需要對數據歸入某一特定性質類別的次數進行計數,所以可以用相似的無參數統計檢驗(允許您根據分布形狀而不是總體參數作出推論的檢驗)來分析它們。DavidSheskin在他的HandbookofParametricandNon-ParametricStatisticalProcedures一書(第19頁,1997)中,是這樣區分參數檢驗和非參數檢驗的:本書中將過程分類為參數檢驗和非參數檢驗所使用的區別主要基于被分析數據所代表的測量級別。作為通用規則,評估類別/定類尺度數據和順序/等級-順序數據的推論統計檢驗被歸類為非參數檢驗,而那些評估定距尺度數據或定比尺度數據的檢驗則被歸類為參數檢驗。當作為參數檢驗基礎的某些假設值得懷疑時,非參數檢驗也很有用;當不滿足參數假設時,非參數檢驗在檢測總體差異時有很大的作用。對于Web民意測驗的示例,我使用了非參數分析過程,因為Web民意測驗通常使用定類尺度來記錄投票者的偏好。我并不是在建議Web民意測驗和Web訪問統計信息應該始終使用定類尺度衡量標準,或者說非參數統計檢驗是唯一可用于分析這類數據的方法。不難設想有(譬如)這樣的民意測驗和調查,它們要求用戶對每個選項提供數值評分(從1到100),對此,參數性的統計檢驗就比較合適。盡管如此,許多Web數據流包括編輯類別計數數據,而且通過定義定距尺度(譬如從17到21)并將每個數據點分配給一個定距尺度(如“年輕人”),可以將這些數據(通過使用功能更強大的衡量標準測量)變成定類尺度數據。頻率數據的普遍存在(已經是Web開發人員經驗的一部分),使得專注于非參數統計學成為學習如何將推論技術應用到數據流的良好起點。為了使本文保持合理的篇幅,我將把對Web數據流分析的討論局限于Web民意測驗。但是請記住,許多Web數據流都可以用定類計數數據表示,而我討論的推論技術將使您能做比報告簡單的計數數據更多的事情。
回頁首從抽樣開始假設您在您的站點www.NovaScotiaBeerD上進行每周一次的民意測驗,詢問成員對各種主題的意見。您已經創建了一個民意測驗,詢問成員喜愛的啤酒品牌(在加拿大新斯科舍省(NovaScotia)有三種知名的啤酒品牌:Keiths、Olands和Schooner)。為了使調查盡可能范圍廣泛,您在回答中包括“其它”。您收到1,000條回答,請觀察到表1中的結果。(本文顯示的結果只作為演示之用,并不基于任何實際調查。)表1.啤酒民意測驗KeithsOlandsSchooner其它285(28.50%)250(25.00%)215(21.50%)250(25.00%)這些數據看上去支持這樣的結論:Keiths是最受新斯科舍省居民歡迎的品牌。根據這些數字,您能得出這一結論嗎?換句話說,您能根據從樣本獲得的結果對新斯科舍省的啤酒消費者總體作出推論嗎?許多與樣本收集方式有關的因素會使相對受歡迎程度的推論不正確。可能樣本中包含了過多Keiths釀酒廠的雇員;可能您沒有完全預防一個人投多次票的情況,而這個人可能使結果出現偏差;或許被挑選出來投票的人與沒有被挑選出來投票的人不同;或許上網的投票人與不上網的投票人不同。大多數Web民意測驗都存在這些解釋上的困難。當您試圖從樣本統計數據得出有關總體參數的結論時,就會出現這些解釋上的困難。從實驗設計觀點看,在收集數據之前首先要問的一個問題是:能否采取步驟幫助確保樣本能夠代表所研究的總體。如果對所研究的總體得出結論是您做Web民意測驗的動機(而不是為站點訪問者提供的消遣),那么您應該實現一些技術,以確保一人一票(所以,他們必須用唯一的標識登錄才能投票),并確保隨機選擇投票者樣本(例如,隨機選擇成員的子集,然后給他們發電子郵件,鼓勵他們投票)。最終,目標是消除(至少減少)各種偏差,它們可能會削弱對所研究總體得出結論的能力。
回頁首檢驗假設假設新斯科舍省啤酒消費者統計樣本沒有發生偏差,您現在能夠得出Keiths是最受歡迎品牌這一結論嗎?要回答這個問題,請考慮一個相關的問題:如果您要獲得另一個新斯科舍省啤酒消費者的樣本,您希望看到完全相同的結果嗎?實際上,您會希望不同樣本中所觀察到的結果有一定的變化。考慮這個預期的抽樣可變性,您可能懷疑通過隨機抽樣可變性是否比反映所研究總體中的實際差異能更好地說明觀察到的品牌偏好。在統計學術語中,這個抽樣可變性說明被稱為虛假設(nullhypothesis)。(虛假設由符號Ho表示)在本例中,用公式將它表示成這樣的語句:在作出回答的所有類別中,各種回答的期望數目相同。Ho:#Keiths=#Olands=#Schooner=#Other如果您能夠排除虛假設,那么您在回答Keiths是否是最受歡迎品牌這個最初的問題上取得了一些進展。那么,另一個可接受的假設是在所研究的總體中,各種回答所占比例不同。這個“先檢驗虛假設”邏輯在民意測驗數據分析中的多個階段都適用。排除這一虛假設,這樣數據就不會完全不同,隨后您可以繼續檢驗一個更具體的虛假設,即Keiths和Schooner,或者Keiths與其它所有品牌之間沒有差別。您繼續檢驗虛假設而不是直接評估另一假設,是因為對于在虛假設條件下人們希望觀察到的事物進行統計建模更容易。接下來,我將演示如何對在虛假設下所期望的事物建模,這樣我就可以將觀察結果與在虛假設條件下所期望的結果加以比較。
回頁首對虛假設建模:X平方分布統計到目前為止,您已經使用一個報告每種回答選項頻率計數(和百分比)的表匯總了Web民意測驗的結果。要檢驗虛假設(表單元頻率之間不存在差別),計算每個表單元與您在虛假設條件下所期望值的總體偏差度量要容易得多。在這個啤酒歡迎度民意測驗的示例中,在虛假設條件下的期望頻率如下:期望頻率=觀察數目/回答選項的數目期望頻率=1000/4期望頻率=250要計算每個單元中回答的內容與期望頻率相差多少的總體度量,您可以將所有的差別總計到一個反映觀察頻率與期望頻率相差多少的總體度量中:(285-250)+(250-250)+(215-250)+(250-250)。如果您這么做,您會發現期望頻率是0,因為平均值的偏差的和永遠是0。要解決這個問題,應當取所有差值的平方(這就是X平方分布(ChiSquare)中平方的由來)。最后,為了使各樣本(這些樣本具有不同的觀察數)的這個值具有可比性(換句話說,使它標準化),將該值除以期望頻率。因此,X平方分布統計的公式如下所示(“O”表示“觀察頻率”,“E”等于“期望頻率”):
圖1.X平方分布統計的公式
如果計算啤酒歡迎度民意測驗數據的X平方分布統計,會得到值9.80。要檢驗虛假設,需要知道在假設存在隨機抽樣可變性的情況下獲得這么一個極限值的概率。要得出這一概率,需要理解X平方分布的抽樣分布是什么樣的。
回頁首觀察X平方分布的抽樣分布(下圖所引用的圖像來自在線的NIST/SEMATECH工程統計學因特網手冊。)
圖2.X平方分布圖
在每幅圖中,橫軸表示所得到的X平方分布值大小(圖中所示范圍從0到10)。縱軸顯示各X平方分布值的概率(或稱為出現的相對頻率)。當您研究這些X平方分布圖時,請注意,當您在實驗中改變自由度(即df)時,概率函數的形狀會改變。對于民意測驗數據的示例,自由度是這樣計算的:記下民意測驗中的回答選項(k)的數目,然后用這個值減1(df=k-1)。通常,當您在實驗中增加回答選項的數目時,獲得較大X平方分布值的概率會下降。這是因為當增加回答選項時,就增加了方差值的數目—(觀察值-期望值)2—您可以求它的總數。因此,當您增加回答選項時,獲得大的X平方分布值的統計概率應該增加,而獲得較小X平方分布值的概率會減少。這就是為什么X平方分布的抽樣分布的形狀隨著df值的不同而變化的原因。此外,要注意到通常人們對X平方分布結果的小數點部分不感興趣,而是對位于所獲得的值右邊曲線的總計部分感興趣。該尾數概率告訴您獲取一個象您觀察到的極限值是可能(如一個大的尾數區域)還是不可能(小的尾數區域)。(實際上,我不使用這些圖來計算尾數概率,因為我可以實現數學函數來返回給定X平方分布值的尾數概率。我在本文后面討論的X平方分布程序中會采用這種做法。)要進一步了解這些圖是如何派生出來的,可以看看如何模擬與df=2(它表示k=3)對應的圖的內容。想象把數字1、2和3放進帽子里,搖一搖,選一個數字,然后記錄所選的數字作為一次嘗試。對這個實驗進行300次嘗試,然后計算1、2和3出現的頻率。每次您做這個實驗時,都應當期望結果有稍微不同的頻率分布,這一分布反映了抽樣的可變性,同時,這個分布又不會真正偏離可能的概率范圍。下面的Multinomial類實現了這一想法。您可以用以下值初始化該類:要做實驗的次數、每個實驗中所做嘗試的次數,以及每次試驗的選項數目。每個實驗的結果記錄在一個名為Outcomes的數組中。
清單1.Multinomial類的內容<?php//Multinomial.php//Copyright2003,PaulMeagher//DistributedunderLGPLclassMultinomial{var$NExps;var$NTrials;var$NOptions;var$Outcomes=array();functionMultinomial($NExps,$NTrials,$NOptions){$this->NExps=$NExps;$this->NTrials=$NTrials;$this->NOptions=$NOptions;for($i=0;$i<$this->NExps;$i++){$this->Outcomes[$i]=$this->runExperiment();}}functionrunExperiment(){$Outcome=array();for($i=0;$i<$this->NExps;$i++){$choice=rand(1,$this->NOptions);$Outcome[$choice]++;}return$Outcome;}}?>請注意,runExperiment方法是該腳本中非常重要的一部分,它保證在每次實驗中所做出的選擇是隨機的,并且跟蹤到目前為止在模擬實驗中做出了哪些選擇。為了找到X平方分布統計的抽樣分布,只需獲取每次實驗的結果,并且計算該結果的X平方分布統計。由于隨機抽樣的可變性,因此這個X平方分布統計會隨實驗的不同而不同。下面的腳本將每次實驗獲得的X平方分布統計寫到一個輸出文件以便稍后用圖表表示。
清單2.將獲得的X平方分布統計寫到輸出文件<?php//simulate.php//Copyright2003,PaulMeagher//DistributedunderLGPL//Settimelimitto0soscriptdoesn'ttimeoutset_time_limit(0);require_once"../init.php";requirePHP_MATH."chi/Multinomial.php";requirePHP_MATH."chi/ChiSquare1D.php";//Initializationparameters$NExps=10000;$NTrials=300;$NOptions=3;$multi=newMultinomial($NExps,$NTrials,$NOptions);$output=fopen("./data.txt","w")ORdie("filewon'topen");for($i=0;$i<$NExps;$i++){//Foreachmultinomialexperiment,dochisquareanalysis$chi=newChiSquare1D($multi->Outcomes[$i]);//Loadobtainedchisquarevalueintosamplingdistributionarray$distribution[$i]=$chi->ChiSqObt;//Writeobtainedchisquarevaluetofilefputs($output,$distribution[$i]."\n");}fclose($output);?>為了使運行該實驗所期望獲得的結果可視化,對我來說,最簡單的方法就是將data.txt文件裝入開放源碼統計包R,運行histogram命令,并且在圖形編輯器中編輯該圖表,如下所示:x=scan("data.txt")hist(x,50)正如您可以看到的,這些X平方分布值的直方圖與上面表示的df=2的連續X平方分布的分布近似。
圖3.與df=2的連續分布近似的值
在下面幾節中,我將側重于說明這個模擬實驗中所使用的X平方分布軟件的工作原理。通常情況下,X平方分布軟件將用于分析實際的定類尺度數據(例如Web民意測驗結果、每周的流量報告或者客戶品牌偏好報告),而不是您使用的模擬數據。您可能還會對該軟件生成的其它輸出—例如匯總表和尾數概率—感興趣。
回頁首X平方分布的實例變量我開發的基于php的X平方分布軟件包由用于分析頻率數據的類構成,頻率數據是按照一維或兩維(ChiSquare1D.php和ChiSquare2D.php)進行分類的。我的討論將僅局限于說明ChiSquare1D.php類的工作原理,以及說明如何將其應用于一維Web民意測驗數據。在繼續之前,應當說明:按照兩維對數據進行分類(例如,按照性別對啤酒偏好進行分類),允許您通過查找列聯表單元中的系統關系或條件概率開始說明您的結果。盡管下面的許多討論將有助于您理解ChiSquare2D.php軟件的工作原理,但本文未討論的其它實驗、分析和可視化問題也是使用這個類之前必須處理的。清單3研究了ChiSquare1D.php類的片段,它由以下部分構成:一個被包含的文件類實例變量
清單3.帶有被包含的文件和實例變量的X平方分布類的片段<?php//ChiSquare1D.php//Copyright2003,PaulMeagher//DistributedunderLGPLrequire_oncePHP_MATH."dist/Distribution.php";classChiSquare1D{var$Total;var$ObsFreq=array();//Observedfrequenciesvar$ExpFreq=array();//Expectedfrequenciesvar$ExpProb=array();//Expectedprobabilitiesvar$NumCells;var$ChiSqObt;var$DF;var$Alpha;var$ChiSqProb;var$ChiSqCrit;}?>清單3中這個腳本的頂部包含了一個名為Distribution.php的文件。所包含的路徑合并了在init.php文件中設置的PHP_MATH常量,假定init.php文件已包含在調用腳本中。所包含的文件Distribution.php包含了為幾個常用的抽樣分布(T分布、F分布和X平方分布)生成抽樣分布統計信息的方法。ChiSquare1D.php類必須能夠訪問Distribution.php中的X平方分布方法,以計算所得到的X平方分布值的尾數概率。這個類中的實例變量列表值得注意,因為它們定義了由分析過程生成的結果對象。這個結果對象包含了有關檢驗的所有重要詳細信息,包括三個重要的X平方分布統計—ChiSqObt、ChiSqProb和ChiSqCrit。關于如何計算每個實例變量的詳細信息,可以查閱該類的構造函數方法,所有這些值都源自那里。
回頁首構造函數:X平方分布檢驗的主干清單4給出了X平方分布的構造函數代碼,它構成了X平方分布檢驗的主干。
清單4.X平方分布的構造函數<?phpclassChiSquare1D{functionChiSquare1D($ObsFreq,$Alpha=0.05,$ExpProb=FALSE){$this->ObsFreq=$ObsFreq;$this->ExpProb=$ExpProb;$this->Alpha=$Alpha;$this->NumCells=count($this->ObsFreq);$this->DF=$this->NumCells-1;$this->Total=$this->getTotal();$this->ExpFreq=$this->getExpFreq();$this->ChiSqObt=$this->getChiSqObt();$this->ChiSqCrit=$this->getChiSqCrit();$this->ChiSqProb=$this->getChiSqProb();returntrue;}}?>構造函數方法中值得注意的四個方面是:構造函數接受一個由觀察到的頻率組成的數組、alpha概率斷開點(cutoffscore)和一個可選的期望概率的數組。前六行涉及了相對簡單的賦值和被記錄的計算值,以便于完整的結果對象可用于調用腳本。最后四行執行大量的獲取X平方分布統計的工作,這些統計是您最感興趣的。該類只實現X平方分布檢驗邏輯。沒有與該類相關聯的輸出方法。您可以研究本文的代碼下載中包含的類方法,以了解關于如何計算每個結果對象值的更多信息(請參閱參考資料)。
回頁首處理輸出問題清單5中的代碼展示了使用ChiSquare1D.php類執行X平方分布分析是多么容易。它還演示了輸出問題的處理。該腳本調用一個名為ChiSquare1D_HTML.php的包裝器腳本。這個包裝器腳本的目的是使X平方分布過程的邏輯與它的表示方面相分離。_HTML后綴表明輸出針對的是標準的Web瀏覽器或其它顯示HTML的設備。包裝器腳本的另一個目的是用便于理解數據的方式組織輸出。為了達到這個目的,該類包含了兩個用于顯示X平方分布分析結果的方法。showTableSummary方法顯示了在代碼后面展示的第一個輸出表(表2),而showChiSquareStats顯示了第二個輸出表(表3)。
清單5.利用包裝器腳本組織數據<?php//beer_poll_analysis.phprequire_once"../init.php";require_oncePHP_MATH."chi/ChiSquare1D_HTML.php";$Headings=array("Keiths","Olands","Schooner","Other");$ObsFreq=array(285,250,215,250);$Alpha=0.05;$Chi=newChiSquare1D_HTML($ObsFreq,$Alpha);$Chi->showTableSummary($Headings);echo"<br><br>";$Chi->showChiSquareStats();?>該腳本生成了下列輸出:
運行包裝器腳本而獲得的期望頻率和方差KeithsOlandsSchooner其它合計觀察值2852502152501000期望值2502502502501000方差4.900.004.900.009.80表3.運行包裝器腳本獲得的各種X平方分布統計信息統計DF獲得值概率臨界值X平方分布39.800.027.81表2顯示了期望頻率以及每個單元的方差度量(O-E)2/E。方差值的和等于獲得的X平方分布(9.80)值,這個值顯示在匯總表的右下單元中。表3報告了各種X平方分布統計信息。它包括了分析中使用的自由度,并再次報告了獲得的X平方分布值。獲得的X平方分布值被重新表示成尾數概率值—在本例中是0.02。這意味著,在虛假設條件下,觀察到X平方分布極限值9.80的概率是2%(這是一個相當低的概率)。如果您決定排除虛假設—結果可以按照零分布的隨機抽樣可變性獲得,那么大多數統計師都不會有爭議。您的民意測驗結果更有可能反映了新斯科舍省的啤酒消費者總體對于啤酒品牌偏好的真正差別。為了確認這一結論,可以用獲得的X平方分布值與臨界值進行比較。為什么臨界值很重要呢?臨界值建立在為該分析設置的某一重要級別(即alpha斷開級別)之上。alpha斷開值按照慣例被設置為0.05(上述分析使用的就是該值)。該設置用于查找X平方分布的抽樣分布中包含尾數區域等于alpha斷開值(0.05)的位置(或臨界值)。在本文中,獲得的X平方分布值大于臨界值。這意味著超出了保持虛假設說明的閾值。另一種假設—對象總體中存在著比例差異—在統計上可能更正確。在數據流的自動化分析中,alpha斷開設置可以為知識-發現算法(例如X平方分布自動交互檢測(ChiSquareAutomaticInteractionDetection,CHIAD))設置輸出過濾,這樣的算法自身在發現真正有用的模式方面無法為人們詳細的指導。
回頁首重新進行民意測驗單向X平方分布檢驗的另一個有趣應用是重新進行民意測驗,以了解人們的回答是否已發生變化。假定過一段時間后,您打算對新斯科舍省的啤酒消費者進行另一次Web民意測驗。您再次詢問他們喜愛的啤酒品牌,現在觀察到下列結果:表4.新的啤酒民意測驗KeithsOlandsSchooner其它385(27.50%)350(25.00%)315(22.50%)350(25.00%)舊的數據如下所示:表1.舊的啤酒民意測驗(再一次顯示)KeithsOlandsSchooner其它285(28.50%)250(25.00%)215(21.50%)250(25.00%)民意測驗結果之間的明顯區別在于,第一次民意測驗有1,000個調查對象,而第二次有1,400個調查對象。這些額外調查對象的主要影響是,使得每個回答情形的頻率計數增加了100點。當準備好對新的民意測驗進行分析時,可以利用缺省的方法—計算期望頻率來分析數據,也可以利用每個結果的期望概率(基于前一次民意測驗所觀察到的比例)來初始化分析。在第二種情形中,您將以前獲得的比例裝入期望概率數組($ExpProb),并使用它們來計算每個回答選項的期望頻率值。清單6顯示了用于檢測偏好變化的啤酒民意測驗分析代碼:
清單6.檢測偏好的變化<?php//beer_repoll_analysis.phprequire_once"../init.php";requirePHP_MATH."chi/ChiSquare1D_HTML.php";$Headings=array("Keiths","Olands","Schooner","Other");$ObsFreq=array(385,350,315,350);$Alpha=0.05;$ExpProb=array(.285,.250,.215,.250);$Chi=newChiSquare1D_HTML($ObsFreq,$Alpha,$ExpProb);$Chi->showTableSummary($Headings);echo"<br><br>";$Chi->showChiSquareStats();?>表5和6顯示了beer_repoll_analysis.php腳本生成的HTML輸出:
表5.運行beer_repoll_analysis.php而獲得的期望頻率和方差KeithsOlandsSchooner其它合計觀察值3853503153501400期望值3993503013501400方差0.490.000.650.001.14
表6.運行beer_repoll_analysis.php所獲得的各種X平方分布統計信息統計DF獲得值概率臨界值X平方分布31.140.777.81表6表明,在虛假設條件下,獲得X平方分布值1.14的概率是77%。我們不能排除這樣的虛假設,即自從上一次民意測驗以來,新斯科舍省啤酒消費者偏好已經發生了變化。觀察頻率和期望頻率之間的任何差異都可以解釋為新斯科舍省相同啤酒消費者的期望抽樣可變性。考慮到最初民意測驗結果的轉換只是通過向前面每個民意測驗結果添加常數100完成的,那么這種零發現也不應當有什么令人吃驚的地方了。但是,您可以設想結果已經發生了變化,并且設想這些結果可能暗示著另一種品牌的啤酒正在變得更加流行(請注意表5中每列底部報告的方差大小)。您可以進一步設想這一發現對所討論的釀酒廠的財務方面有顯著的含義,因為酒吧老板往往會采購酒吧里最暢銷的啤酒。這些結果將受到釀酒廠老板極其詳細的檢查,他們會對分析過程和實驗方法的適合性提出疑問;特別地,他們會對樣本的代表性提出疑問。如果您打算進行一次Web實驗,該實驗可能具有重要的實際含義,那么,對于用來收集數據的實驗方法和用來從數據得出推論的分析技術,您需要給予同等的關注。因此,本文不僅為您奠定了一個良好的基礎,以便于可以加強您對Web數據的有效理解,它還提供了一些建議,這些建議是有關如何保護您的統計檢驗選擇的,并且使得從數據獲得的結論更具合理性。
回頁首應用學到的知識在本文中,您已經了解了如何將推論統計學應用于普遍存在的用于匯總Web數據流的頻率數據,側重于Web民意測驗數據的分析。但是,所討論的簡單的單向X平方分布分析過程也能夠有效地應用于其它類型的數據流(訪問日志、調查結果、客戶概要信息和客戶訂單),以便將原始數據轉換成有用的知識。在將推論統計學應用于Web數據時,我還介紹了希望將數據流視作Web實驗的結果,以便于在作推論時提高引用實驗設計考慮事項的可能性。通常由于您對于數據采集的過程缺乏足夠的控制,因此您不能做出推論。但是,如果在將實驗的設計原則應用于Web數據收集過程時您更加主動(例如,在您的Web民意測驗過程中隨機選擇投票者),那么可以改變這種情形。最后,我演示了如何模擬不同自由度的X平方分布的抽樣分布,而不只是僅說明其來源。在這樣做的過程中,對于測量類別的期望頻率小于5(換而言之,即小N實驗)—我還演示了一種變通方法(使用小$NTrials值模擬實驗的抽樣分布)來禁止使用X平方分布檢驗。因此,我不只是使用研究過程中的df來計算樣本結果的概率,對于數量較小的嘗試,可能還需要使用$NTrials值作為參數來求得所觀察X平方分布結果的概率。考慮您可能會如何分析小N實驗是值得的,因為您通常可能希望在數據采集完成之前分析您的數據—當每次觀察的代價都很昂貴時,當觀察需要花費很長時間才能獲得時,或者只是因為您很好奇。在嘗試這一級別的Web數據分析時,最好謹記下面這兩個問題:您是否有理由在小N條件下進行推論?模擬有助于您決定在這些環境下獲得什么推論嗎?參考資料您可以參閱本文在developerWorks全球站點上的HYPERLINK"/developerworks/library/wa-phpolla/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 3670-2019律師政府法律顧問服務導則
- DB32/T 3521-2019“不見面審批”服務規范
- DB32/T 3506-2019青年創業培訓服務規范
- DB31/T 955-2015豬圓環病毒2a/2b亞型實時熒光PCR檢測和分型方法
- DB31/T 493-2020屋頂綠化技術規范
- DB31/T 320-2020工業開發區建設規范
- DB31/T 1189.2-2019車載緊急報警系統第2部分:車輛應急救援平臺技術要求和測試方法
- DB31/T 1041-2017盆栽紅掌生產技術規程
- 2024年冷鏈裝備資金需求報告代可行性研究報告
- 2024年養老服務資金需求報告代可行性研究報告
- 《鐵路軌道維護》課件-扣件螺栓涂油作業
- 初三班級學生中考加油家長會課件
- 多圖中華民族共同體概論課件第十一講 中華一家與中華民族格局底定(清前中期)根據高等教育出版社教材制作
- 可感染人類的高致病性病原微生物菌(毒)種或樣本運輸管理規定
- 2022年全民健康生活方式行動工作計劃
- PVDF乳液與懸浮聚合工藝
- 高三物理一輪復習策略及建議.PPT
- 光伏發電項目并網調試方案
- 面試考核評分表
- 地溝更換管線專項施工方案完整
- 公司組織架構圖模板可編輯
評論
0/150
提交評論