第五章參數統計_第1頁
第五章參數統計_第2頁
第五章參數統計_第3頁
第五章參數統計_第4頁
第五章參數統計_第5頁
已閱讀5頁,還剩66頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

5第五章參數估計通過本章的學習,我們應該知道:統計推斷的基本問題、概念與原理參數點估計的方法與評價正態總體均值的區間估計參數估計所需的樣本容量的確定Statistics統計抽樣推斷是統計學研究的重要內容,包括兩大核心內容:參數估計和假設檢驗。兩者都是根據樣本資料,運用科學的統計理論和方法對總體的參數進行推斷。參數估計對所要研究的總體參數,運用某原理給出一個估計量或估計區間來假設檢驗對提出的關于總體或總體參數的某個陳述進行檢驗,判斷真偽統計推斷總體指標:參數(未知量)樣本總體指標:統計量(已知量)抽樣推斷學習參數估計和假設檢驗要注意:1、明確要研究的問題,并給出正確的提法2、確定合適的統計量3、樣本資料要有代表性4、參數統計與非參數統計方法的主要區別:前者已知總體的分布,只是分布中含有未知參數,后者對總體的分布幾乎是未知的5、給出推斷結果的合理解釋1統計推斷的基本問題和概念在統計學中,往往把所研究的問題或現象視為隨機變量,有自己的概率分布。但絕大多數情況下,要研究的隨機現象(或變量)服從什么分布可能完全不知道,或者由于現象的某些事實而知道其服從什么類型的分布,比如正態分布、指數分布等,但不知道分布中所含的參數。怎樣才能知道一個隨機現象的分布或其參數呢?這正是統計推斷所要解決的基本問題。如何根據觀測或試驗所得到的有限信息對總體作出推斷,并同時指出所作的這種推斷有多大的可靠性(用概率表示),是統計推斷的基本問題。抽樣推斷的作用(1)有些現象和事物不可能進行全面調查,如對具有破壞性或消耗性的產品進行質量檢驗如燈泡電視抗震食品質量檢驗人體白血球數量化驗(2)有些總體理論上可以進行全面調查,實際上辦不到如森林的樹木數量河流中的魚尾數污染狀況(3)抽樣調查可以節省人力費用和實踐,而且比較靈活(4)有些狀況下,抽樣調查結果比全面調查準確;可以用抽樣調查資料修正和補充全面調查資料如10年一次人口普查,中間的人口抽樣調查1%(5)利用抽樣推斷方法,可以對總體進行假設檢驗,判斷真偽,決定取舍

假如我們從總體中按機會均等的原則隨機地抽取n個個體,然后對這n個個體就我們關心的數值指標X進行觀測,這一過程稱為隨機抽樣。這n個個體的數值指標稱為一個樣本,它是一個隨機向量。在一次抽樣以后,觀測到的一組確定的值或數據稱為該樣本的觀測值或樣本數據。樣本所有可能觀測值的全體就構成了樣本空間。

X是一個隨機變量,假設X的分布函數是F(x)。由于樣本中每一個個體都來自總體X,所以樣本中的任一個體的分布函數和總體相同,即的分布函數為一般用大寫英文字母或希臘字母表示隨機變量,而用小寫英文字母表示隨機變量的觀測值或數據簡單隨機抽樣為了避免在抽樣時引入偏差,最簡單、應用很普遍的抽樣方法是簡單隨機抽樣(也稱純隨機抽樣),它滿足以下兩個條件:

1、總體的每一個個體都有同等機會被選入樣本

2、樣本的分量是相互獨立的隨機變量,即樣本中任一個體的取值不影響其他個體的取值抽樣誤差1抽樣誤差(Samplingerror)

總體未知參數(或數字特征)和相應的基于樣本的統計量之間的差異

數學表示:如何理解:

(1)抽樣誤差僅指抽樣的隨機性而產生的那部分代表性誤差

(2)抽樣誤差是實際誤差:即樣本指標與總體指標之差。這無法確知,并且隨著樣本的不同而變化抽樣誤差的影響因素:σ,n,抽樣方法等

影響抽樣誤差的因素總體各單位的差異程度(即標準差的大小):越大,抽樣誤差越大;樣本單位數的多少:越大,抽樣誤差越小;抽樣方法:不重復抽樣的抽樣誤差比重復抽樣的抽樣誤差?。唤y計量及其抽樣分布一、統計量定義

為什么引入統計量:樣本是我們進行分析和推斷的起點,但實際上我們并不直接用樣本進行推斷,而需對樣本進行“加工”和“提煉”,將分散于樣本中的信息集中起來,為此引入統計量的概念。

統計量是不依賴于任何未知參數的樣本的可測函數,它是一個隨機變量。它有自己的分布密度和分布函數。例如樣本均值和樣本方差是常見的統計量一般而言,統計量是隨機變量,它有自己的分布密度和分布函數;統計量的分布稱為抽樣分布。由樣本推斷總體特征時要依據統計量的抽樣分布由于正態分布應用十分普遍,我們將給出總體為正態分布的樣本均值和樣本方差的抽樣分布,它們是統計推斷的理論依據和基礎幾個常見的抽樣分布(一)2—分布1、定義:設n個相互獨立的隨機變量X1,X2,…,Xn,Xi~N(0,1),i=1,2,…,n則稱為自由度為n的2分布。n個相互獨立的服從標準正態分布的隨機變量的平方和服從2(n)。2—分布的密度函數f(y)曲線2、性質(1)(2)2分布的可加性X1,X2相互獨立,則X1+X2~2(n1+n2)例4(X1,X2,X3)為X的一個樣本求的分布。解因為(X1,X2,X3)為X的一個樣本則i=1,2,33、2分布表及有關計算(1)構成P{2(n)>λ}=α,已知n,α可查表求得λ;(2)有關計算λ為2分布的α分位點α1、定義若X~N(0,1),Y~2(n),X與Y獨立,則t(n)稱為自由度為n的t—分布。(二)t—分布例

(X1,X2,X3)為X的一個樣本,求的分布i=1,2,3t(n)的概率密度為2、基本性質:(1)f(t)關于t=0(縱軸)對稱;(2)f(t)的極限為N(0,1)的密度函數,即3、t分布表及有關計算(1)構成:P{t(n)>λ}=α(2)有關計算P{t(n)>λ}=α

,λ=tα(n)α注:(三)F—分布1、定義若X~2(n1),Y~2(n2),X,Y獨立,則

稱為第一自由度為n1

,第二自由度為n2的F—分布,其概率密度為2、F分布表及有關計算(1)構成:P{F(n1,n2)>λ}=α(2)有關計算P{F(n1,n2)>λ}=αλ=Fα(n1,n2)α例6(X1,X2,…,X5)為取自正態總體X~(0,σ2)的樣本,求統計量的分布解三、有關正態總體的幾個主要結果證明組合,故服從正態分布。1、若則是n

個獨立的正態隨機變量的線性2、設(X1,X2,…,Xn)是正態總體N(μ,σ2)的樣本,則(證明略)(1)(2)與S2獨立3、設(X1,X2,…,Xn)是正態總體N(μ,σ2)的樣本,則證明(X1,X2,…,Xn)是正態總體N(μ,σ2)的樣本,則由分布定理1、2可知與S2獨立且所以由t分布的定義,可知總體成數與樣本成數

總體成數(或比例)是指總體中具有某一特征的個體在總體中所占的比重,用表示

如果總體中的個體用表示,總體容量為N,則總體均值等于總體成數說明:個體具有該特征賦值“1”,不具有賦“0”

總體方差為

樣本成數是指樣本中具有某一特征的個體在該樣本中所占的比重,用p表示設X1,X2,…,Xn是從該總體抽取的一個樣本,則

樣本均值就是樣本中具有該特征的個體數占樣本總數的百分比,即就是樣本成數p,

樣本方差為則未知參數,這種問題稱為參數估計問題.在實際中我們經常遇到這樣的問題:總體的分布函數的形式為已知,是未知參數.是的一個樣本,為相應的一個樣本值.我們希望用樣本值去估計一、點估計問題的提出在數理統計中稱統計量

點估計常用方法:矩估計和極大似然估計法.解決上述參數的點估計問題的思路是:設法作出合理的估計.的估計值.構造一個合適的統計量,對為的估計量,的觀測值稱為矩估計法是由英國統計學家矩估計法的基本思想是用樣本的階原點矩去估計總體的階原點矩;皮爾遜(K.Pearson)在1894年提出.用樣本的階中心矩去估計總體并由此得到未知參數的估計量.矩估計法的k階中心矩設總體的分布函數為,是個待估計的未知參數.設存在,對任意,現用樣本矩作為總體矩的估計,即令這樣得到含個參數的個方程組,解該方程組得以作為參數的估計量.這種求出估計量的方法稱為矩估計法.求總體的均值和方差的矩估計.解

設是總體的一個樣本,由于故令解得例極大似然估計作為一種點估計方法最初是由德國數學家高斯(Gauss)于1821年提出,英國統計學家費歇爾(R.A.Fisher)在1922年作了進一步發展使之成為數理統計中最重要應用最廣泛的方法之一.GaussFisher極大似然估計極大似然原理的直觀想法:在試驗中概率最大的事件最有可能出現.一個試驗如有若干個

可能結果,若在一次試驗中,結果出現,則認為出現的概率最大.極大似然估計法設總體的分布律為或分布密度為,其中是未知參數,的分布律(或分布密度)為,當給定樣本值后,

它只是參數的函數,記為,即則稱為似然函數,似然函數實質上是樣本的分布律或分布密度.似然函數既然在一次試驗中得到的樣本值,那么樣本取該樣本值的概率應較大,所以選取使似然函數達到最大的參數值作為估計值,稱為極大似然估計法.是樣本的一個觀測值,設總體的分布律為的概率為則樣本設總體的分布密度(或分布律)為,其中為未知參數.又設是總體的一個樣本值,如果似然函數在處達到最大,則稱分別為的極大似然估計量.由于與有相同的極大值點.因此,為極大似然估計的必要條件為

稱它為似然方程,其中求極大似然估計量的一般步驟為:(1)求似然函數;(2)求出及似然方程(3)解似然方程得到極大似然估計值

(4)最后得到極大似然估計量

設總體,求參數的極大似然估計量.解設是總體的樣本,其觀測值為,由總體,分布密度為例似然函數解似然方程得極大似然估計量為.兩種求點估計的方法:矩估計法極大似然估計法在統計問題中往往先使用極大似然估計法,

在極大似然估計法使用不方便時,再用矩估計法.內容小結點估計的評價標準設為待估計的總體參數,為樣本統計量,則的優良標準為:若,則稱為的無偏估計量指樣本指標的均值應等于被估計的總體指標無偏性若,則稱為比更有效的估計量作為優良的估計量,除了滿足無偏性的要求外,其方差應比較小有效性指隨著樣本單位數的增大,樣本估計量將在概率意義下越來越接近于總體真實值一致性點估計量的評價標準若對于任意ε>0,有為的無偏、有效、一致估計量;為的無偏、有效、一致估計量;為的無偏、有效、一致估計量。數理統計可以證明:點估計量的評價標準3、正態總體均值的區間估計一.置信區間概念對于未知參數,除了得到它的點估計外,我們還希望估計出一個范圍,并希望知道這個范圍包含參數真值的可信程度.這樣的范圍通常以區間的形式給出,而可信程度由概率給出.這種估計稱為區間估計或置信區間,以下先給出置信區間概念.定義

設為總體X的一個未知參數,是預先給定一個數,,是兩個估計量,如果

則稱隨機區間為未知參數的一個置信度為的置信區間(ConfidenceInterval).置信度也常稱為置信水平(confidencelevel)或置信系數(confidencecoefficient).通常取0.05,0.01,0.10,視具體需要而定.二.求區間估計的一般方法首先根據樣本尋找一個隨機變量(樞軸變量),使其分布完全已知.對給定的置信度,由T的分布確定兩個常數C1,C2使將事件表示為則即的置信度為的置信區間為.三.正態總體均值的區間估計

鑒于實際問題中最常見的參數估計問題多數是要求估計總體的均值和方差,且正態總體又是實際問題中最常遇到的總體,因此,以下著重討論正態總體均值和方差的區間估計.總體X~N

,μ

是未知參數,現在我們分兩種情形討論μ的區間估計問題從該總體X中抽取隨機樣本,并以作為μ=EX的點估計,服從正態分布1.已知情形下μ的置信區間若是已知參數,這時可選取樞軸變量~N(0,1)則對給定的置信度,存在,使

這里是標準正態分布的-上側分位數,其值可查附表求得.將U的表示式代入上式可得

所以μ的置信度為的置信區間是

其長度為

2.為未知情形下,μ的置信區間

若是未知參數,則以的無偏估計代替,這時由于樞軸變量~所以對給定的置信度,存在使

這里的是自由度為n-1的t分布的-上側分位數,它的值可查附表求得,將T代入可得因此有

所以μ的置信度為的置信區間是

其長度為

需要說明的是:置信區間公式中的,,在實際問題中都是具體觀測值,計算時應是.四.大樣本情形下總體均值的區間估計.對一般的總體X,無論它服從什么分布,只要其均值μ=EX和方差σ2=DX都存在,我們便可以用增大樣本容量的辦法對其均值μ作區間估計.根據中心極限定理,當樣本容量n充分大時,便近似服從正態分布.又因為

,所以

N(0,1)又因為樣本二階中心矩Sn是σ的無偏估計,當n充分大時,σ近似等于Sn,從而上式中以Sn代替σ,可得樞軸變量

N(0,1)對于指定的α∈(0,1),查附表可得到,使即故的置信度為的置信區間近似為

1.兩個正態總體均值差的區間估計設總體,總體,兩總體相互獨立.現從兩總體中各取一個容量分別為n1和n2的樣本,并記兩個樣本的均值、方差分別為和取作為的點估計,顯然這個估計是無偏的,并且,有~N(0,1)于是可得的置信度為的置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論