【位置參數估計及其應用探究16000字(論文)】_第1頁
【位置參數估計及其應用探究16000字(論文)】_第2頁
【位置參數估計及其應用探究16000字(論文)】_第3頁
【位置參數估計及其應用探究16000字(論文)】_第4頁
【位置參數估計及其應用探究16000字(論文)】_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

位置參數估計及其應用研究[摘要]本論文主要討論位置參數估計及其應用。這里的位置參數是指均值,中位數或p分位數等,可以用來描述總體位置。對于位置參數的估計,可以分為參數統計方法和非參數統計方法,參數統計方法和非參數統計方法的區別在于樣本的分布類型是否已知,若已知,則使用參數統計方法,若未知,則使用非參數統計方法,兩種方法各有優勢。對于參數統計方法,本文主要總結了位置參數估計的一般方法。對于非參數統計方法,本文主要討論了非參數統計方法下分位點的點估計和區間估計,除此以外還介紹了基于兩種非參數檢驗方法的中位數估計方法,并探討了在實際問題中的應用。[關鍵詞]位置參數區間估計點估計非參數統計參數統計位置參數檢驗目錄151501位置參數的研究背景 417021.1位置參數的類型 4401.2研究的目的和意義 6295902參數統計方法下的位置參數估計 6241582.1正態分布位置參數估計 7245742.1.1點估計 786122.1.2區間估計 991652.2三參數威布爾分布位置參數估計 11143213非參數統計方法下的位置參數估計 1371293.1位置參數估計的非參數統計方法 13324033.1.1總體分位數的估計 1473643.1.2中位數的估計 15230473.1.3一般中心位置參數的估計 17230203.2非參數位置參數檢驗 17301153.2.1單樣本位置參數檢驗方法 18186813.2.2雙樣本和多樣本位置參數檢驗方法 22126574實證分析 2337874.1分位數在天然氣產量中的應用 23143104.1.1數據收集及預處理 23104464.1.2分位數的估計和檢驗 24169904.1.3基于符號檢驗的中位數區間估計 26240664.1.4基于Wilcoxon符號秩檢驗的中位數區間估計 2627014.2位置參數檢驗方法在平穩過程中的應用 2774824.2.1數據收集及預處理 2761994.2.2均值函數的位置參數檢驗 29231374.2.3相關函數的位置參數檢驗 31引言位置參數一般指的是均值,中位數或p對于參數統計方法,本文主要總結了位置參數估計的一般方法——最大似然估計、矩估計法、相關系數法。對于非參數統計方法,本文主要討論了非參數統計方法下分位點的點估計和區間估計,除此以外還介紹了基于兩種符號檢驗和Wilcoxon符號秩檢驗法的中位數估計方法。在實證分析中,對我國天然氣每月產量的分位數進行了估計和檢驗,以及探討了單樣本下的位置參數檢驗方法在平穩過程中的應用。1位置參數的研究背景1.1位置參數的類型對于位置參數的估計,我們通常將其分為點估計和區間估計,估計的對象又可以分為中心位置和分位數。在一般情況下,人們習慣用平均數來表示數據的中心位置,當直方圖鐘形對稱時,只用平均數是可以的,但如果直方圖是右偏或者左偏時,只用平均數顯然是不夠的。如果數據中有異常值的話,平均數就容易受到異常值的影響,不能夠很準確的代表數據的中心位置。相對平均數而言,切尾平均數就可以較好地反映一些有異常值的樣本數據的真實情況。α%切尾平均值指的是各去掉大的一頭和小的一頭的α%個數據后的平均數,我們熟知的去掉一個最大值和一個最小值后的平均數,就是切尾平均數。和切尾平均數類似的還有Winsor化平均數,Winsor化平均數是指去掉兩端的異常值后,在兩端補上個端頭值,再計算個數據的平均數。除了以上介紹的幾種平均數以外,由于中位數不容易受到異常值的影響,它也能較好的反映數據的中心位置,例如一個樣本容量為12的數據,去掉最大值和最小值之后的中位數和沒去掉之前的中位數相等,這就反映了中位數具有穩健性,所以中位數也可以用來描述數據的中心位置。另外,眾數也可以用來描述數據的中心位置,對于一些定性數據的中心位置,計算平均數和中位數是沒有什么意義的,所以對于此類數據,眾數能夠較好的描述數據的情況。所以我們建議使用平均數、中位數和眾數,從不同的角度來表達數據的中心位置,還可以對數據的分布情況做出大致的描述。為什么平均數和中位數能夠表示數據的中心位置呢?“對于數據的中心位置,我們要求他到每個數據點的距離的和比較小。度量兩個點之間的距離通常有兩種方法:平方值距離和絕對值距離。不同的距離度量方法導出了描述數據中心位置的不同位置。平方值距離法導出的是平均數,絕對值距離法導出的是中位數,所以就這個意義而言,平均數和中位數同等重要。如果用平方值距離法,則一個點a到各個數據點x1,x2,?,xi=1n上式表示平均數這一點到個個數據點的平方值距離和最短,在使用平方值距離法時,平均數就是數據的中心位置。如果用絕對值距離法,則一個點a到各個數據點x1,xi=1nx上式中表示中位數這一點到個個數據點的絕對值距離和最短,在使用絕對值距離法時,中位數就是數據的中心位置。”[1]數據總體的中心位置既可以用總體均值來表示,也可以用總體中位數或眾數來表示。除了中心位置以外,p分位數也是我們常關注的位置參數,我們稱ξp為分位數,如果它滿足:設ξp為分布函數的唯一p分位點,則有F(ξp對于這些位置參數的估計,我們將在下面內容展開詳細敘述。1.2研究的目的和意義通過1.1節中對位置參數類型的介紹和分析,其中均值、中位數和分位數常用來描述總體的位置,所以本文將主要以這三種位置參數作為代表,重點將非參數中分位數和中位數以及一般中心位置的估計和檢驗方法進行歸納,并探討了它們在實際問題中的應用,針對不同數據的類型,使用相對應的方法,從而使位置參數的應用更有實際意義。我們遇到的實際問題分布往往是未知的,此時非參數方法就顯現出了優勢,我們想要得到某個位置參數的點估計或者區間估計,或者是對于某個估計結果進行檢驗,且對于不同的數據,不同的方法的效果可能不同,基于這些考慮,本文對均值、中位數和分位數的估計和應用進行一個詳細的分析,使得對位置參數有更深刻的認識。2參數統計方法下的位置參數估計在參數統計中,我們將不帶參數的統計量g(X1,X2,?,Xn),觀測值gx1,x2,?,xP則稱θ,本部分以正態分布和三參數威布爾分布為代表,介紹參數統計方法下的位置參數估計。2.1正態分布位置參數估計正態分布是數理統計中最重要的一個分布,由中心極限定理我們可知,一個隨機變量如果是由大量微小的、獨立的隨機因素疊加的結果,那么這個變量一般都可以認為是服從正態分布。因此很多隨機變量的大樣本都可以用近似正態來描述,例如年降雨量、產品重量等都可以用正態分布描述,這一點從本文第三部分的非參數統計中也可以體現,本節主要概括了正態分布的均值、分位點的點估計和區間估計。2.1.1點估計本小節討論了最大似然估計法和矩估計法,并運用這兩種估計方法,對正態分布的均值進行點估計,對于分位點和中位數的估計,本文將在3.1節具體展開介紹。最大似然估計法估計均值最大似然估計法基本原理“最大似然估計法的基本原理為:在隨機試驗中,概率最大的事件最可能出現。”[2]對于離散總體,設有樣本觀測值,該觀測值出現的概率依賴于某參數θ,將概率看作θ的函數L(θ),又稱為似然函數,即L求最大似然估計量就是找到θ的估計量θ=θ(對于連續總體,我們可以用聯合概率密度函數來表示隨機變量在觀測值附近出現的可能性大小,并將其成為似然函數,以下給出似然函數定義:定義2.1[3]設總體的概率函數為,,其中是一個未知參數或幾個未知參數組成的參數向量,是參數空間,是來自該總體的樣本,將樣本的聯合概率函數看成的函數,用表示,簡記為,成為樣本的似然函數,如果某統計量滿足則稱是的最大似然估計,簡記為(maximumlikelihoodestimate).下面我們利用最大似然估計法來估計正態分布位置參數用最大似然法估計正態分布位置參數例1對于正態分布,概率密度函數為f設有樣本,則似然函數取對數后的結果為將方程右邊關于兩個分量分別求偏導并令其等于0,則可以得到似然方程組,對其進行求解就可以得到的最大似然估計為矩估計法估計均值矩估計法基本原理“1900年英國統計學家皮爾遜提出了一個替換原理,后來人們將此方法稱為矩法,替換原理常指如下兩句話:用樣本矩替換總體矩,這里的矩可以是原點矩,也可以是中心矩。用樣本矩的函數替換相應的總體矩的函數。”[3]用矩估計法估計正態分布位置參數對于正態分布,概率密度函數為f設有樣本,求正態分布的矩估計。我們知道,則。用來估計,那么就是μ的矩估計。2.1.2區間估計本部分介紹了正態分布下當方差已知和未知的情況下均值的置信區間,以及p分位數的置信區間,另外介紹了兩個正態總體的均值差的區間估計和一種特殊情況的區間估計——基于不完全數據的區間估計。均值置信區間設服從標準正態分布,是標準正態分布的上分位數,如果滿,即也可以通過查標準正態分布表求出上分位數。當時,就是標準正態分布的中位數。已知,的置信區間由標準正態分布的對稱性和上分位數的定義,均值的置信區間為未知,的置信區間由于方差未知,我們不能繼續用方差已知時的方法來估計均值,已知樣本函數服從自由度為的分布,不依賴于任何參數,這時由分布的對稱性和上分位數的定義,均值的置信區間為基于不完全數據的區間估計在產品的壽命試驗中,常常存在截尾的不完全數據,知網文獻[4]討論了在小樣本和大樣本情況下的位置參數的置信區間,并且此方法還適用于樣本中存在異常值的情況,具有一定的穩健性。其推導過程如下:構造樞軸量設X1,X2,Hr=X定理2.1[4]公式(2-5)定義的Hr的概率分布與參數μ,以Hr為樞軸量對位置參數進行區間估計,只需要知道樣本的順序統計量中關于其中心對稱的兩個順序統計量X構造Monte-Carlo置信區間樞軸量Hr是在以12(X(r)定理2.2[4]設總體X~N(μ,σ2)nn其中φ(x),?(x)分別是標準正態分布函數和分布密度函數。利用Monte-Carlo方法,設置信水平為1?α(0<α<1),樣本容量為,查表可得相應的上側分位數?α2,則μ在置信水平為11構造大樣本的近似置信區間由文獻[4]可知,Hr近似服從N0,p2nφ122.2三參數威布爾分布位置參數估計威爾布分布是可靠性領域中一種十分重要的分布,應用十分廣泛,對于參數估計,人們提出了例如最大似然估計、最佳線性無偏估計、圖估計法、杜貝估計發等。但這些方法僅針對于形狀參數和尺度參數的估計,對于位置參數的估計,有幾種方法可用,但是相對誤差較大或難以計算,由文獻[5]可知,由相關系數法,得到的位置參數估計精度高,算法簡單,且易于實現,與其他方法相比,簡便了許多,也提高了精度,其簡單推導的過程如下:用相關系數法估計位置參數基本原理威爾布分布的分布函數:F(t)=1?e?其中:-形狀參數,;-尺度參數,;-位置參數,;-產品壽命,;-分布函數,。對(2-1)進行變形處理,可以得到以下的式子:lnln1令Y則(2-2)可以變為Y=mX?可以看出(2-3)是一個直線方程,當估計正確時,X和Y呈線性關系,根據回歸直線,就可以求出和,但如果估計不正確時,X和Y之間的線性關系就會被破壞,回歸方程不再是一條直線,而是一條曲線,當的估計偏差越大,則曲線彎曲越嚴重,回歸求解和表現為X和Y的相關系數減小,估計偏差越大,相關系數越小。的估計值與相關系數的關系是當最大時,是位置參數的最佳估計值。用相關系數法估計位置參數的計算公式設容量為的樣本來自威爾布分布母體,其樣本觀察值從小到大排序為t1≤t2R其中:x令S則可簡化為R對于威爾布分布恒有,故求對的一階導數與求對的一階導數對求而言是等價的,這里僅計算對的一階導數。令v=(n求導后可以得到方程u由于y0≠0,v≠0,所以要使(nS至此,求解γ的方程已給出,在給定樣本觀察值之后,公式(2-4)只含有γ這一個未知量,那么γ則可以很容易求得。3非參數統計方法下的位置參數估計非參數統計是相對于參數統計而出現的,經典的參數統計要求數據是分布已知的或者服從正態分布,如果假設條件和真實數據不符,那么其正確性就會受到影響,而非參數統計不要求總體分布要服從某個具體的分布,即使真實模型與假定理論有所偏差,非參數統計方法仍然能維持較好的性質,至少不會變得太差,所以可以使用的領域十分廣泛,故非參數統計方法具有的優點是:適用面廣、假定條件較少、具有穩健性。接下來引入非參數方法下的位置參數估計,以及檢驗方法。3.1位置參數估計的非參數統計方法我們假設X1,X2,?,Xn來自總體X,X下面將一些位置參數的非參數點估計方法和區間估計方法分述如下。3.1.1總體分位數的估計本小節分為總體分位數的點估計和區間估計,區間估計分為小樣本和大樣本兩種情況。點估計設ξp為分布函數的唯一p分位點,則有F(ξp)=p,即Px≤ξp=p。當F(x)為嚴格單調時,其ξ特別地,當p=1ξ定理3.1[6]設簡單樣本X1,X2,?,XnP區間估計小樣本的情況設X(1)≤X(2)≤?≤W且有PWk由樣本X1,XX1,X2,P可見,給定n,i,j值即可計算此概率值,所以給定置信水平1?1在n不太大時,可由二項分布表查出相對應的i和j,就可以得到唯一的p分位數,ξp的置信度為1?α的置信區間X(i),X(j);當n較大時,較小的p值可采用泊松分布近似計算得到,較大的p值可以通過正態分布近似計算得到。當要求中位數時,令大樣本的情況“當n比較大時,對于給定的置信水平1?m其中,fn代替,其中為樣本落在區間內的個數,為小區間長度,具體長度可由數據區間若干等分得到。”[6]3.1.2中位數的估計點估計通常我們會直接使用樣本中位數來估計總體中位數,即3.1.1節中總體分位數估計中當時的特殊情況,下面我們介紹一種基于Wilcoxon符號秩檢驗的點估計方法,Wilcoxon符號秩檢驗法的原理將在3.2中具體展開介紹。基于Wilcoxon符號秩檢驗的點估計[7]為了更大程度的利用數據,可以通過求每兩個數的平均值(Xi+Xj)/2,i≤j(一共有(n(n+1))/2個)來擴大樣本的數目,這樣的平均叫做Walsh平均,令W+=#(區間估計關于總體中位數的區間估計,在3.1.1節中,我們介紹了一般分位點的區間估計方法,當時,即為總體中位數的區間估計,接下來我們介紹兩種特別的區間估計方法——基于符號檢驗、Wilcoxon符號秩檢驗的中位數區間估計。基于符號檢驗的中位數區間估計此方法是基于符號檢驗法提出的,具體方法如下:給定一個置信水平,并且令置信區間的下限為,上限為,設X1,X2,?,計算值。由于符號檢驗的本質是二項分布,大于中位數的觀測值記為正號,小于中位數的觀測值記為負號,并且正號和負號出現的概率應該相等,即0.05,那么我們有其中n為樣本容量。于是查二項分布表就可以得到相應的值,值是二項分布中當樣本容量為n時,出現正號或者符號的最大個數。將樣本觀測值編秩,在給定的顯著性水平的置信區間為,則大樣本近似法。若樣本容量時,則可以使用大樣本近似法估計區間,其中基于Wilcoxon符號秩檢驗的中位數區間估計[7]此方法是基于Wilcoxon符號秩檢驗法提出的,我們知道Wilcoxon符號秩檢驗法要求樣本分布是對稱的,那么基于此方法的區間估計也必須滿足這個條件,第二部分我們介紹了基于Wilcoxon符號秩檢驗法的中位數點估計,使用了Walsh平均來估計總體中位數,接著我們按照升冪排列Walsh平均,記為W那么就可以得到置信水平為1?α下的置信區間為W當樣本是小樣本時,k可查表得到,當樣本容量時為大樣本,k可以近似為:k=3.1.3一般中心位置參數的估計設是來自同一總體,根據來估計中心位置。中心位置可以用樣本中位數、樣本均值估計,也可以用切尾均值和Winsor化均值估計,Winsor化均值是指去掉兩端的異常值后,再在兩端補上個端頭值,在計算個數據的平均值。3.2非參數位置參數檢驗在參數統計中,最常用的位置參數是均值,所以關于位置參數的檢驗大多是關于均值的檢驗問題,但對于非參數統計,在抽取一樣本數據后,我們常常較關心總體的中心位置或者分位點,中位數就是二分之一分位點,也較常用,所以大部分的位置參數的檢驗方法是圍繞中位數或其他分位點的檢驗展開的,但其思想方法是通用的,以下介紹的方法亦適用于均值,根據對象的不同,可能會得到不同的p值。本節我們主要介紹了單樣本情況下的位置參數檢驗方法,如符號檢驗、游程檢驗、Wilcoxon符號秩檢驗,以及雙樣本、多樣本情況下位置參數檢驗方法。3.2.1單樣本位置參數檢驗方法單樣本數據中中位數、均值均可以表示中心的位置,對于中位數進行點估計得到的是樣本中位數,對均值進行點估計得到是樣本均值,如果數據是對稱的單峰數據,那么中位數和均值的差別不大,但如果是非對稱分布,中位數比均值更穩健。下面我們介紹三種單樣本位置參數檢驗方法:符號檢驗、游程檢驗、Wilcoxon符號秩檢驗。隨機游程檢驗如果一個總體,可以分成兩類,并用字母A,B或者數字10來表示,當樣本按某種順序呈現,一個或多個連續出現時,就稱之為游程,一個游程中包含的符號的個數就是游程的長度,例如111000110的游程數就是4,其中有一個長度為3的1游程,一個長度為3的0游程,一個長度為2的1游程,一個長度為1的0游程。游程檢驗的基本方法是:如果想要判斷一個有序數列的排列是否是隨機的,可以將假設組設為:H如果是像判斷某種傾向的話,假設組可以設為:H或者H將一類的符號的個數記為,另一類即為,則,引入統計量游程總數目。如果原假設是真的,那么兩類符號出現的可能性相等,在序列中交互出現,如果游程的總數目過少,就說明有一段游程的長度多長,即同一種符號連續出現的個數很多,則序列有成群的傾向;反之,如果游程總數過多,則說明序列有混合的傾向。不管是過多還是過少,都說明原假設是假的,即序列不是隨機的。在原假設成立的情況下,檢驗統計量的條件分布為:當是偶數時,設,則P(U=2k)=當U是奇數時,設,則P在這里我們規定個數大的記為m,反之個數小的記為n。根據上面的計算公式可以得到在原假設成立時P(R≥r)或P(R≤r)的值,并根據p值做出判斷。但對于大樣本情況,上面給出的公式難以計算,所以我們利用正態近似作檢驗統計量Z=于是可以查正態分布表得到相應的p值并做出判斷。符號檢驗“符號檢驗又分為廣義符號檢驗和狹義符號檢驗,那么廣義符號檢驗指的是針對所有的分位點的檢驗,而狹義的符號檢驗是指僅對中位數進行的檢驗。”[7]假定檢驗的原假設是H0:Qπ=記樣本中小于q0的數據的個數為S?,而大于q0的數據的個數為S+,記n=S?+S+,K=min(S+,S?),按照原假設的情況,S?和n表3-1p值計算表(Qπ原假設備擇假設p值使檢驗有意義的條件HHPQHH1QHH2當n比較小時,我們可以通過計算二項分布的公式來計算p值(p值計算表如表3-1所示),但當樣本量過大時,計算存在困難,所以我們利用正態近作檢驗統計量Z=于是可以查正態分布表得到相應的p值并做出判斷。Wilcoxon符號秩檢驗[8]符號檢驗是將樣本觀測值和假設的對稱中心的符號來進行檢驗,但是并沒有很好的利用差(絕對值)的大小所蘊含的信息,僅代表了對稱中心的兩邊,卻沒有表明該點距離中心的遠近,其檢驗思想為:首先把樣本數據按照其絕對值X1,X2,...,X(1)Xi?M(2)將Xi(3)令W+為Xi?M0>0的Xi?(4)對于雙邊檢驗H0:M=M0?H1:M≠M0,對于原假設W?和W+應該差不多,如果不符合的話,則說明應該拒絕原假設。對于雙邊假設,W應該取(5)根據W值,查表可以得到p值,再根據p值的大小選擇是否接受原假設。”[7]小樣本情況下p值可以查表得到,但如果是大樣本情況,可以利用正態近似來構造漸近正態統計量Z=再通過正態分布查表得到p值。對于此檢驗,要求總體是連續對稱分布,如果不是的話,則不能使用,應該選擇符號檢驗。如果是打結的情況,則無法進行精確的Wilcoxon符號秩檢驗的計算。符號檢驗和Wilcoxon符號秩檢驗比較前面的介紹我們可以看出符號檢驗和Wilcoxon符號秩檢驗的異同之處,Wilcoxon符號秩檢驗在符號檢驗的基礎上,利用了樣本與中心位置的距離(即絕對值),再對符號秩進行求和,根據兩種符號秩的大小,來判斷是否要拒絕原假設,那么這兩種檢驗在實際應用中的效果如何呢?符號檢驗可以用于判斷位置參數,也可以應用在成對數據中,我們知道,成對數據問題中符號檢驗是配對檢驗的簡化,在一般成對數據的問題中,如果配對t檢驗和符號檢驗都可以使用,配對檢驗更有效,但對于定性數據的問題,配對t檢驗就無法使用,符號檢驗就體現出了優勢。此外符號檢驗也廣泛的應用于其他領域,例如文獻[9]在研究圖像中值濾波及其快速算法中使用了符號檢驗,提高了圖像處理速度;文獻[10]將符號檢驗改進后應用于模型檢驗問題。我們可以很容易地發現,Wilcoxon符號秩檢驗是在符號檢驗的基礎上做的了一些改進的檢驗方法,但需要在對稱分布的情況下才可以使用,Wilcoxon符號秩檢驗也廣泛應用于實際問題的解決,例如文獻[11][12]中使用Wilcoxon符號秩檢驗來檢驗培訓有效性、產品質檢、績效等問題。文獻[13]中,對黃石國家公園間歇式溫泉噴發時間位置參數的檢驗使用了符號檢驗和Wilcoxon符號秩檢驗,但卻得到了相反的判斷結果,從其他圖表可以看出,該樣本的數據并不是對稱的,但Wilcoxon符號秩檢驗只適用于對稱數據,這樣我們可以得知,盡管Wilcoxon符號秩檢驗更大程度的利用了樣本數據提供的信息,在處理非對稱分布的問題時,符號檢驗比Wilcoxon秩和檢驗要可靠。文獻[14]中,對一配對數據,比較兩種流速生產無水醇的含醇率,同樣使用了符號檢驗和Wilcoxon符號秩檢驗,得到了不同的判斷結果,但通過驗證,在近似正態分布的條件下,使用配對比較t檢驗的結果和Wilcoxon符號秩檢驗的結果是一致的,且直方圖沒有顯示該樣本分布不是對稱的,說明此時Wilcoxon符號秩檢驗此時是可用的,且Wilcoxon符號秩檢驗比符號檢驗效果更好。可見,在不同的情況下,不同的檢驗方法檢驗的效果可能不同,每種方法都各有其優缺點,和適用的范圍,在解決實際的問題時,不妨都使用再進行比較分析。符號檢驗和游程檢驗比較從前面的理論介紹我們可以知道,符號檢驗和游程檢驗思想上是有相同點的,他們都只利用樣本數據和位置參數的差的符號進行判斷。符號檢驗的應用前面已經介紹過,游程檢驗一般是應用于時間序列的隨機性檢驗,游程檢驗又可以分為游程個數檢驗和游程長度檢驗,游程個數檢驗可以判斷判斷樣本數據是否是隨機出現的,也可以用于判斷兩組樣本是否有顯著差異,游程長度檢驗可以判斷一段時間序列是否有上升或者下降的趨勢。所以許多和時間序列有關的問題都可以進行游程檢驗,可以應用在一些醫療領域的問題中,例如在流行病學應用中,“游程個數檢驗適用于疾病發展趨勢、發病時間聚集性或周期性、發病空間聚集性、成組資料差異顯著性檢驗等,游程長度檢驗更適用于干預或控制的效果評價等局部時間范圍內疾病發展趨勢判定”[15];游程檢驗也常用于金融領域中股票市場或證券市場問題的分析。3.2.2雙樣本和多樣本位置參數檢驗方法雙樣本位置參數檢驗方法有Brown-Mood中位數檢驗和Mann-Whitney-Wilcoxon秩和檢驗,其中Brown-Mood中位數檢驗是符號檢驗在雙樣本情況下的推廣,而Mann-Whitney-Wilcoxon秩和檢驗是Wilcoxon符號秩檢驗在雙樣本情況下的推廣。多樣本位置參數檢驗方法有Kruskal-Wallis檢驗和Jonckheere-Terpstra檢驗,其中Kruskal-Wallis檢驗是Mann-Whitney-Wilcoxon秩和檢驗在多樣本情況下的推廣,用于檢驗三個或三個以上的樣本分布是否相同,即多樣本位置參數的無方向問題,而Jonckheere-Terpstra檢驗用于檢驗三個或以上的樣本分布是否有相同的上升或者下降的趨勢,即多樣本位置參數的有方向問題。[16]4實證分析前面我們介紹了位置參數的估計方法和檢驗方法,本章我們利用位置參數估計方法和檢驗方法來探討一些實際應用。4.1分位數在天然氣產量中的應用在實際情況中,我們常常想要知道某個樣本數據的總體位置情況如何,那么這就需要對分位數進行估計,又或者我們想知道某個位置參數估計的效果如何,那么就需要用到檢驗方法,接下來,我們以我國天然氣每月產量為例,探討分位點的應用。4.1.1數據收集及預處理我們收集了近幾年我國月度天然氣產量的數據(除每年1、2月),數據引用自國家數據網,我國2017-2020年天然氣每月產量當期值如表4-1所示,記為,對我國天然氣每月產量的中位數進行估計。表4-1我國2017-2020年天然氣每月產量當期值時間2017.32017.42017.52017.62017.7當期值(億立方米)135.8122.0119.9115.5117.4時間2017.82017.92017.102017.112017.12當期值(億立方米)119.5111.5124.1126.3136.1時間2018.32018.42018.52018.62018.7當期值(億立方米)135.2128.9126.2121.8129.6時間2018.82018.92018.102018.112018.12當期值(億立方米)129.0121.8134.2142.7152.5時間2019.32019.42019.52019.62019.7當期值(億立方米)150.6140.8144.2139.2139.0時間2019.82019.92019.102019.112019.12當期值(億立方米)138.1135.2145.6150.8160.2時間2020.32020.42020.52020.62020.7當期值(億立方米)168.6161.4159.4151.9142.4時間2020.82020.92020.102020.112020.12當期值(億立方米)142.1145.9163.2168.6187.1使用SPSS軟件作樣本觀測值的簡單直方圖(如圖4-1所示),考察樣本是否是對稱分布,由直方圖可以看出,沒有明顯的證據表明樣本數據是非對稱分布,且由于我們的樣本容量為40,由正態曲線我們可以看出,我們可以將樣本看作近似正態。那么下面我們分為三個部分,第一部分對分位數進行估計,并使用符號檢驗法對估計結果進行檢驗,后兩個部分應用基于符號檢驗和Wilcoxon符號秩檢驗的方法對我國天然氣每月產量的中位數進行區間估計并進行比較。圖4-1天然氣每月產量當期值直方圖4.1.2分位數的估計和檢驗點估計:根據3.1.1小節介紹的分位數估計方法,以樣本分位點作為總體分位數的估計,那么分位數和分位數分別為再使用符號檢驗對兩個分位點的估計結果進行檢驗,通過SPSS軟件得到結果如表4-2和表4-3所示表4-21/4分位點符號檢驗結果檢驗量(1/4分位點)126.2小于1/4分位點的個數10大于1/4分位點的個數30總數40符號檢驗值0.584表4-33/4分位點符號檢驗結果檢驗量(3/4分位點)150.6小于1/4分位點的個數30大于1/4分位點的個數10總數40符號檢驗值0.560可以看出兩個分位數符號檢驗的值都大于給定的顯著性水平0.05,所以可以認為我們將樣本分位數作為總體分位數的估計是有效的。區間估計:根據3.1.1小節介紹的大樣本情況下分位數估計方法,可以講區間[110,188]六等分,則每個區間的長度為13,即,以剛剛我們作的分位數點估計結果作為總體分位數和的估計,它們所在的區間的頻數分別為11和7,通過計算可以得到在置信水平為95%的情況下,和的置信區間分別為同理我們也可以計算得到中位數的置信區間為補!!!!!!4.1.3基于符號檢驗的中位數區間估計由于樣本容量為40,那么使用大樣本近似法,假定置信水平為95%計算得到取,則中位數的置信區間為通過R軟件可以得到相同的結果,我們可以精確的置信水平為96.2%,即使用符號檢驗法估計的我國天然氣每月產量的中位數在置信水平為96.2%下的置信區間為。4.1.4基于Wilcoxon符號秩檢驗的中位數區間估計由于樣本容量為40,可以使用大樣本近似法,計算得到由于Walsh平均值的個數有820個,所以我們使用R軟件可以得到,置信區間為,置信水平為95%,那么我們可以得知,使用Wilcoxon符號秩檢驗法估計的我國天然氣每月產量的中位數在置信水平為95%下的置信區間為,可以看出在置信水平差不多的情況下,基于Wilcoxon符號秩檢驗估計的區間比符號檢驗短得多,可以認為基于Wilcoxon符號秩檢驗估計的區間效果更好。通過比較我們可以得知,在總體分布是對稱的情況下,使用Wilcoxon符號秩檢驗法估計的效果比符號檢驗法要好,但如果總體分布是非對稱的,則只能只用符號檢驗,類似的,若想對數據進行區間估計,需要先對分布進行判斷,在選擇相應的方法。4.2位置參數檢驗方法在平穩過程中的應用如果一類過程,處于某種平穩狀態,其主要性質只和變量之間的時間間隔有關,與所考察的起始點無關,那么這樣的過程叫做平穩過程,以下給出平穩過程嚴格定義兩條:定義4.1[17]如果隨機過程Xt,t∈T對任意的t1,t2,?,tnX則稱該過程為嚴平穩的,對于嚴平穩過程而言,有限維分布關于時間是平移不變的,但嚴平穩過程條件很強不容易驗證,所以引入了另一種寬平穩過程。定義4.2[17]如果隨機過程Xt4.2.1數據收集及預處理接下來我們引用一個時間序列實例,,某條河流上的一個水文觀測站從1915年到1973年記錄了每年最大徑流量共59個數據x1,x2,?,序號i12345678910x156008960104001060010820988098501090088109960序號i11121314151617181920x122007510864063806810882014400744072406430序號i21222324252627282930x11100731092605290913074806980965072608750序號i31323334353637383940x99007310904073108850784010700619096107580序號i41424344454647484950x99906150825060308980618096309490231011100序號i515253545556575859x509010900649012600664074306760100009300表4-4最大徑流量首先,根據時間序列數據畫出時間序列圖和自相關系數圖以及直方圖(如圖4-2和圖4-3所示)圖4-2圖4-3從時間序列圖我們可以看出該序列在某一值附近波動且無明顯上升和下降趨勢,可以初步判斷該序列是平穩的,再看直方圖,可以大致判斷該序列是單峰對稱序列。我們知道嚴平穩條件太強難以證明,那么當能夠證明某時間序列是寬平穩過程時,就可以認為這個序列是平穩的,寬平穩過程需要滿足兩個條件:1、均值函數μx2、相關函數RX(τ)=EX(s)X(s+τ)只與時間差那么下面我們分兩個部分來證明:4.2.2均值函數的位置參數檢驗由已知數據,我們可以求得樣本均值,將樣本均值作為總體均值的估計,再將樣本觀測值與樣本均值作比較,如果樣本觀測值都在樣本均值附近波動,那么我們就可以認為均值函數是固定的常數,由于均值屬于常用位置參數,我們自然可以使用單樣本中的位置參數檢驗方法,下面我們使用單樣本位置參數中的符號檢驗、Wilcoxon符號秩檢驗、游程檢驗這三種方法來進行驗證:建立原假設原假設均值函數是常數計算檢驗統計量計算可得樣本均值x=1Ni=1方法1:符號檢驗令樣本中大于均值的數據為“+”,小于均值的數據為“-”,統計得到正號的個數s+為32,負號的個數sZ=查正態分布表得到p值為0.2578到0.2546之間,顯然大于給定的顯著性水平0.05。方法2:Wilcoxon符號秩檢驗由直方圖我們可以看出,沒有明顯的證據表明該數據是非對稱的,所以我們也不妨使用Wilcoxon符號秩檢驗。通過EXCEL對樣本數據進行編制并計算秩和,得到結果W+=838,Z=查表得到p值大約在0.3632-0.3594之間,那么雙邊檢驗的p值也一定大于置信水平0.05。方法3:游程檢驗游程總數目U=35,大于均值的個數m=32,小于均值的個數n=27,總數N=59,計算大樣本情況下的檢驗統計量Z=查正態分布表得到p值為0.8925到0.8944之間,大于給定的顯著性水平0.05。根據結果,作出判斷根據三種檢驗方法得到的值,我們可以得到相同的判斷結果,無法拒絕原假設,也就是認為均值函數是常數。運用SPSS軟件可以得到精確p值(如表4-5所示):表4-5SPSS軟件運行結果檢驗量(均值)8669.3220小于均值的個數27大于均值的個數32總數59符號檢驗值0.603Wilcoxon符號檢驗值0.723游程檢驗值0.2134.2.3相關函數的位置參數檢驗已知相關函數RX(τ)=EX(s)X(s+τ)就是兩個時間差為τ的變量乘積的期望,那么在此基礎上,在給定的樣本觀測值中取不同的時間差,就能得到相應的期望,再對期望進行位置參數檢驗,就能夠證明相關函數只與時間差有關,建立假設檢驗原假設H計算檢驗統計量相關函數RX(τ)=EX(s)X(s+τ),其中當時間取1-10年時,相關函數值如表4-6所示表4-6相關函數值時間差τ/年12345678910相關函數1728477527529229572901929751759357353368073934243732786967200

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論