第六章 抽樣分布及總體平均數估計_第1頁
第六章 抽樣分布及總體平均數估計_第2頁
第六章 抽樣分布及總體平均數估計_第3頁
第六章 抽樣分布及總體平均數估計_第4頁
第六章 抽樣分布及總體平均數估計_第5頁
已閱讀5頁,還剩44頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第六章

抽樣分布及總體平均數的推斷一抽樣分布與平均數抽樣分布1、三種不同性質的分布及抽樣分布

總體分布:總體內個體數值的頻數分布;

樣本分布:樣本內個體數值的頻數分布;

抽樣分布:某一統計量的概率分布。例:將某市600名學生數學競賽的分數作為一個總體,600個考分的頻數分布是總體分布。若從中隨機抽取40個考分作為樣本,這40個考分的頻數分布是樣本分布。若對所抽取的40個考分計算其平均數或標準差(方差)后還回總體中去,再隨機抽40個考分并計算其平均數或標準差(方差)。反復抽下去,將獲得一個n=40的一切可能個樣本的平均數或標準差(方差),若將這一切可能個樣本的平均數或標準差(方差)分別進行頻數分布,就形成一個平均數抽樣分布或標準差抽樣分布。一抽樣分布與平均數抽樣分布2、平均數抽樣分布的幾個定理(1)從總體中隨機抽出容量為n的一切可能樣本的平均數之平均數等于總體的平均數。(2)容量為n的平均數在抽樣分布上的標準差,等于總體標準差除以n的平方根。(3)從服從正態分布的總體中,隨機抽取的容量為n的一切可能樣本平均數的分布也呈正態分布。(4)若總體不呈正態分布,如果樣本容量較大,反映總體μ和σ的樣本平均數的抽樣分布,也接近于正態分布。

對上述定理的理解:1)反映了平均數抽樣分布的形態;2)表達了平均數抽樣分布的平均數、標準差與總體平均數、標準差的關系;3)抽樣分布是統計推論的理論依據;4)標準誤越小,表明樣本統計量與總體參數的值越近。一抽樣分布與平均數抽樣分布3、樣本平均數與總體平均數離差的形態(1)總體方差已知總體正態,樣本平均數與總體平均數的離差統計量呈Z分布(標準正態分布);總體非正態,但滿足n>30這一條件,樣本平均數與總體平均數的離差統計量近似Z分布(標準正態分布)。一抽樣分布與平均數抽樣分布3、樣本平均數與總體平均數離差的形態(2)總體方差未知總體正態,樣本平均數與總體平均數的離差統計量呈t分布;

總體非正態,但滿足n>30這一條件,樣本平均數與總體平均數的離差統計量近似t分布。t分布

t分布(t-distribution)是統計分析中應用較多的一種隨機變量函數的分布,是統計學者高賽特1908年以筆名“Student”發表的論文中推導出來的一種分布,又叫學生氏分布。這種分布是一種左右對稱,峰態比較高狹,分布形狀隨樣本容量n-1的變化而變化的一組分布。t分布與σ無關,而與n-1有關,t分布的自由度用df

表示,一般為n-1,即樣本容量減1。自由度(degreeoffreedom)是指任何變量中可以自由變化的數目,它代表任何變量中可以自由變化的數目。t分布t分布分布特點:平均值為0。以平均值0左右對稱的分布左側t為負值,右側t為正值。變量取值在-∞~+∞之間。當樣本容量趨于∞時,t分布為正態分布,方差為1;當n-1>30以上時,接近正態分布,方差大于1,隨n-1的增大而方差漸趨于1;當n-1<30時,t分布與正態分布相差較大,隨n-1減少,離散程度(方差)越大,分布圖中間變低尾部變高。二總體平均數的估計引言:何謂參數估計?

當在研究中從樣本獲得一組數據后,如何通過這組信息,對總體特征進行估計,也就是從局部結果推論總體的情況,稱為總體參數估計。總體參數大都未知,要對它進行估計,就需要前述的抽樣分布理論進行推論??傮w參數估計問題分為點估計和區間估計。對參數模型下的估計稱為參數估計,對非參數模型下的估計稱為非參數估計。二總體平均數的估計1、總體參數估計的基本原理(1)點估計(pointestimation)

用樣本統計量來估計總體參數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。例如,對總體平均數的估計可以用樣本平均數,當已知一個樣本的觀測值時,就可得到總體參數的估計值。點估計的優點在于它能夠提供總體參數的估計值。

從某市某年高三會考語文成績中隨機抽取550個考分,算出=62分,則這62分就是全市11000個考生語文成績平均分數的估計值。

二總體平均數的估計(2)良好估計量的標準無偏性

用統計量估計總體參數一定會有誤差,好的統計量應該是一個無偏估計量,即用多個樣本的統計量作為總體參數的估計值,其偏差的平均數為0。如果用某個統計量估計總體的誤差平均數大于或小于0,這個統計量就是有偏的估計量。例如,用樣本平均數作為總體μ的估計值,就具有無偏性,因為無限多個樣本的平均值與μ的偏差之和為零。二總體平均數的估計(2)良好估計量的標準有效性

當總體參數的無偏估計不止一個統計量時,無偏估計變異小者有效性高,變異大者有效性低,即方差越小越好(minimumvariance)。一致性

當樣本容量無限增大時,估計值應能夠越來越接近它所估計的總體參數,估計值越來越接近它所估計的總體參數,估計值越來愈精確,逐漸趨近于真值。即當N∞時,x的平均值μ,

二總體平均數的估計(3)區間估計(interval

estimation)

根據估計量以一定可靠程度推斷總體參數所在的區間范圍,用數軸上一段距離表示未知參數可能落入的范圍,雖不具體指出總體參數等于什么,但能指出未知總體參數落入某一區間的概率有多大。(4)置信區間(confidence

interval)

是指在某一置信度時,總體參數所在的區域距離或區域長度,也稱置信間距。置信區間的上下二端點值稱為置信界限。二總體平均數的估計(5)顯著性水平(significance

level)

是指估計總體參數落在某一區間,可能犯錯誤的概率,用α表示。1-α為置信度或置信水平(confidence

level)。

例如0.95置信區間是指總體參數落在該區間之內,估計正確的概率為95%,而出現錯誤的概率為5%,即0.95置信區間=0.05顯著性水平的置信區間。

此外,顯著性水平在假設檢驗中,還能拒絕虛無假設時可能出現的犯錯誤的概率水平。二總體平均數的估計(6)區間估計的原理區間估計是根據樣本分布理論,用樣本分布的標準誤(SE)計算區間長度,解釋總體參數落入某置信區間可能的概率。區間估計存在成功估計的概率大小及估計范圍大小兩個問題。(二者是一對矛盾)在保證置信度的前提下,盡可能提高精確度。二總體平均數的估計2總體平均數估計的步驟根據實得樣本的數據,計算樣本的平均數與標準差。計算標準誤σx

。當總體方差已知時,參見公式2。當總體方差未知時,樣本的無偏估計量即方差,參見公式3

。如果計算是樣本的有偏估計方差,則參見公式4。二總體平均數的估計確定置信水平或顯著性水平在對總體平均數進行估計之前,根據需要確定,統計學上一般規定顯著性水平為0.05,即置信水平為0.95,或顯著性水平為0.01,即置信水平為0.99。根據樣本平均數的抽樣分布,確定查何種統計表。

一般當總體方差已知時,查正態表;當總體方差未知時,查t值表。二總體平均數的估計計算置信區間如果查正態分布表,置信區間可寫作(參見公式5)如果查t值表,置信區間可寫作(參見公式6)解釋總體平均數的置信區間。估計總體平均數落入該區間的正確可能性概率為1-α,犯錯誤的可能性概率為α。

二總體平均數的估計二總體平均數的估計3總體方差σ2已知時,總體平均數μ的估計(1)當總體分布為正態時,不論樣本n的大小,其標準誤都是σX,查正態表,確定Zα/2值,一般顯著性水平為0.05或0.01,因此其Zα/2為1.96或2.58。(2)當總體分布為非正態分布時,只有當樣本容量n>30以上,才能根據樣本分布對總體平均數μ進行估計,否則不能。二總體平均數的估計4總體方差σ2未知時,總體平均數μ的估計用樣本的無偏方差作為總體方差的估計值,樣本平均數的分布為t分布,應查t值表,包括以下兩種情況:(1)總體的分布為正態時,可不管n值大小。(2)總體分布為非正態,只有n>30,才能用概率對其樣本分布進行解釋。三假設檢驗的基本原理假設與假設檢驗

1、什么是假設?對總體參數的一種看法

總體參數包括總體均值、比例、方差等

分析之前必需陳述三假設檢驗的基本原理2、什么是假設檢驗?1)概念事先對總體參數或分布形式作出某種假設,然后利用樣本信息來判斷原假設是否成立。2)

類型參數假設檢驗非參數假設檢驗3)特點

采用邏輯上的反證法

依據統計上的小概率原理三假設檢驗的基本原理假設檢驗中的小概率原理:隨機事件的概率表示了隨機事件在一次試驗中出現的可能性大小,若隨機事件的概率很小,例如小于0.05,0.01,0.001稱之為小概率事件。小概率事件雖然不是不可能事件,但在一次試驗中出現的可能性很小,不出現的可能性很大,以至于實際上可以看成是不可能發生的,在統計學上,把小概率事件在一次試驗中,看成是實際不可能發生的事件,稱為小概率事件不可能性原理,此原理是統計學上進行假設檢驗(顯著性檢驗)的基本依據。三假設檢驗的基本原理3、如何作出統計假設?假設檢驗背后的基本邏輯是:總存在兩個假設:

虛無假設(nullhypothesis)

備擇假設(alternativehypothesis)虛無假設(H0)預測總體中自變量(處理)對于因變量不產生效應。備擇假設(H1)預測總體中自變量(處理)對于因變量產生效應。假設檢驗的邏輯是假定我們嘗試拒絕虛無假設,即我們要嘗試證明備擇假設。三假設檢驗的基本原理4、假設檢驗的步驟1)作出假設,選擇一個決策標準;2)

收集一個樣本(從總體中隨機選取個體);3)計算出檢驗統計量,如z值、t值、F值等;4)將檢驗統計量與某個標準比較,以得出有關參數的推論,然后作出結論,所觀察到的差別有多大可能性是因為取樣誤差?給出這個概率,

如何下結論?三假設檢驗的基本原理5、假設驗證的可能結果實際情況是怎樣?

-H0

正確

-H0

錯誤研究結論是怎樣?

-H1

正確-H1錯誤這就構成了4種可能性(2*2):

-2種錯誤方式-2種正確方式三假設檢驗的基本原理兩類錯誤兩類錯誤反映的情形不同,它們有不同的名稱:

α錯誤(typeIerror)-拒絕H0時所犯的錯誤,即偵察到不存在的差異。β錯誤(typeIIerror)-接受H0時所犯的錯誤,即未能偵察到存在的差異。H0:無罪假設檢驗中的兩類錯誤(決策結果)陪審團審判裁決實際情況無罪有罪無罪正確錯誤有罪錯誤正確H0檢驗決策實際情況H0為真H0為假接受H01-a第二類錯誤(b)拒絕H0第一類錯誤(a)功效(1-b)假設檢驗就好像一場審判過程統計檢驗過程三假設檢驗的基本原理

兩類錯誤的關系α+β不一定等于1在其他條件不變的情況下,α和β不可能同時減小或增大統計檢驗力(1-β)三假設檢驗的基本原理

影響錯誤的因素1)

總體參數的真值隨著假設的總體參數的減少而增大2)顯著性水平

當減少時增大3)

總體標準差當增大時增大4)

樣本容量n當n減少時增大

雙側檢驗與單側檢驗

(假設的形式)雙側檢驗

(原假設與備擇假設的確定)雙側檢驗屬于決策中的假設檢驗。也就是說,不論是拒絕H0還是接受H0,我們都必需采取相應的行動措施例如,某種零件的尺寸,要求其平均長度為10厘米,大于或小于10厘米均屬于不合格建立的原假設與備擇假設應為

H0:

=10H1:

10

雙側檢驗

(原假設與備擇假設的確定)

例1

(見教材)某小學畢業生漢語拼音測驗平均分數為66分,標準差為11.7分?,F已同樣的試驗測驗應屆畢業生(假定應屆畢業生與歷屆畢業生條件基本相同),并從中隨機抽取18份試卷,算得平均分為69分,問該校應屆與歷屆畢業生漢語拼音測驗成績是否一樣?步驟:從統計角度陳述問題(=66)從統計角度提出相反的問題(66)必需互斥和窮盡提出原假設(=66)提出備擇假設(

66)有符號雙側檢驗

(顯著性水平與拒絕域)

抽樣分布H0值臨界值臨界值a/2a/2

樣本統計量拒絕域拒絕域接受域1-置信水平單側檢驗

(原假設與備擇假設的確定)檢驗研究中的假設將所研究的假設作為備擇假設H1。將認為研究結果是無效的說法或理論作為原假設H0?;蛘哒f,把希望(想要)證明的假設作為備擇假設。先確立備擇假設H1。單側檢驗

(原假設與備擇假設的確定)檢驗某項聲明的有效性將所作出的說明(聲明)作為原假設對該說明的質疑作為備擇假設先確立原假設H0除非我們有證據表明“聲明”無效,否則就應認為該“聲明”是有效的單側檢驗

(原假設與備擇假設的確定)例2(見教材)某市高中入學考試平均分數為68分,標準差為8.6,其中某所中學參加此次考試的46名學生的平均分數為63。過去的資料表明,該校教學成績低于全市平均水平,問此次考試該校數學平均分數是否仍顯著低于全市的平均水平?建立的原假設與備擇假設應為

H0:

≥68H1:<68單側檢驗

(顯著性水平與拒絕域)

H0值臨界值a樣本統計量拒絕域接受域抽樣分布1-置信水平四、總體平均數的顯著性檢驗檢驗的步驟:

提出原假設和備擇假設

確定適當的檢驗統計量規定顯著性水平計算檢驗統計量的值

作出統計決策什么檢驗統計量?

1. 用于假設檢驗問題的統計量

2. 選擇統計量的方法與參數估

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論