參數估計與樣本容量_第1頁
參數估計與樣本容量_第2頁
參數估計與樣本容量_第3頁
參數估計與樣本容量_第4頁
參數估計與樣本容量_第5頁
已閱讀5頁,還剩54頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

4-1第三節總體參數估計本節主要內容:總體參數估計概述總體參數的點估計參數區間估計樣本容量的確定2017-6-5大學生每周上網花多少時間?為了解學生每周上網花費的時間,中國人民大學公共管理學院的4名本科生對全校部分本科生做了問卷調查。調查的對象為中國人民大學在校本科生,調查內容包括上網時間、途徑、支出、目的、關心的校園網內容,以及學生對收費的態度,包括收費方式、價格等問卷調查由調查員直接到宿舍發放并當場回收。對四個年級中每年級各發60份問卷,其中男、女生各30份。共收回有效問卷共200份。其中有關上網時間方面的數據經整理如下表所示2017-6-5大學生每周上網花多少時間?回答類別人數(人)頻率(%)3小時以下32163~6小時3517.56~9小時3316.59~12小時2914.512小時以上7135.5合計200100平均上網時間為8.58小時,標準差為0.69小時。全校學生每周的平均上網時間是多少?每周上網時間在12小時以上的學生比例是多少?你做出估計的理論依據是什么?4-4一、總體參數估計概述設待估計的總體參數是θ,用以估計該參數的統計量是,抽樣估計的極限誤差是Δ,即:極限誤差是根據研究對象的變異程度和分析任務的性質來確定的在一定概率下的允許誤差范圍。參數估計的兩個要求:精度:估計誤差的最大范圍,通過極限誤差來反映。顯然,Δ越小,估計的精度要求越高,Δ越大,估計的精度要求越低。極限誤差的確定要以實際需要為基本標準。可靠性:估計正確性的一個概率保證,通常稱為估計的置信度。2017-6-5參數估計(parameterestimation)就是用樣本統計量去估計總體的參數估計量:用于估計總體參數的統計量的名稱如樣本均值,樣本比例,樣本方差等例如:樣本均值就是總體均值的一個估計量參數用表示,估計量用表示估計值:估計參數時計算出來的統計量的具體值如果樣本均值x=80,則80就是的估計值估計量與估計值

(estimator&estimatedvalue)4-6二、總體參數的點估計點估計的含義:直接以樣本統計量作為相應總體參數的估計量。4-7優良估計量標準優良估計標準:無偏性:要求樣本統計量的平均數等于被估計的總體參數本身。一致性:當樣本容量充分大時,樣本統計量充分靠近總體參數本身。有效性:總體方差的無偏估計量為樣本方差點估計完全正確的概率通常為0。因此,我們更多的是考慮用樣本統計量去估計總體參數的范圍區間估計。2017-6-5無偏性

(unbiasedness)無偏性:估計量抽樣分布的數學期望等于被估計的總體參數2017-6-5有效性

(efficiency)有效性:對同一總體參數的兩個無偏點估計量,有更小標準差的估計量更有效

2017-6-5一致性

(consistency)一致性:隨著樣本量的增大,估計量的值越來越接近被估計的總體參數4-11三、參數區間估計參數區間估計的含義:估計總體參數的區間范圍,并給出區間估計成立的概率值。其中:1-α(0<α<1)稱為置信度;α是區間估計的顯著性水平,其取值大小由實際問題確定,經常取1%、5%和10%。注間對上式的理解:例如抽取了1000個樣本,根據每一個樣本均構造了一個置信區間,,這樣,由1000個樣本構造的總體參數的1000個置信區間中,有95%的區間包含了總體參數的真值,而5%的置信區間則沒有包含。這里,95%這個值被稱為置信水平(或置信度)。一般地,將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比例稱為置信水平。4-12樣本統計量

(點估計)置信區間置信下限置信上限我們用95%的置信水平得到某班學生考試成績的置信區間為60-80分,如何理解?錯誤的理解:60-80區間以95%的概率包含全班同學平均成績的真值;或以95%的概率保證全班同學平均成績的真值落在60-80分之間。正確的理解:如果做了多次抽樣(如100次),大概有95次找到的區間包含真值,有5次找到的區間不包括真值。真值只有一個,一個特定的區間“總是包含”或“絕對不包含”該真值。但是,用概率可以知道在多次抽樣得到的區間中大概有多少個區間包含了參數的真值。如果大家還是不能理解,那你們最好這樣回答有關區間估計的結果:該班同學平均成績的置信區間是60-80分,置信度為95%。2017-6-5區間估計的圖示2017-6-5置信區間的表述

(95%的置信區間)從均值為185的總體中抽出n=10的20個樣本構造出的20個置信區間我沒有抓住參數!點估計值2017-6-5使用一個較大的置信水平會得到一個比較寬的置信區間,而使用一個較大的樣本則會得到一個較準確(較窄)的區間。直觀地說,較寬的區間會有更大的可能性包含參數但實際應用中,過寬的區間往往沒有實際意義比如,天氣預報說“在一年內會下一場雨”,雖然這很有把握,但有什么意義呢?另一方面,要求過于準確(過窄)的區間同樣不一定有意義,因為過窄的區間雖然看上去很準確,但把握性就會降低,除非無限制增加樣本量,而現實中樣本量總是有限的區間估計總是要給結論留點兒余地置信區間的表述

(confidenceinterval)4-16區間估計的基本要素包括:樣本點估計值、抽樣極限誤差、估計的可靠程度樣本點估計值抽樣極限誤差:可允許的誤差范圍。抽樣估計的可靠程度(置信度、概率保證程度)及概率度注意:本教材所進行的區間估計僅指對總體平均數或比例的區間估計,并且在際計算過程中使用下面的式子。式中Δ是極限誤差。4-17區間估計的內容2

已知2未知均值方差比例置信區間4-18平均數的區間估計對總體平均數或成數的區間估計時,使用下面的式子

(式中Δ是極限誤差)有兩種模式:1、根據置信度1-α,求出極限誤差Δ,并指出總體平均數的估計區間。2、給定極限誤差,求置信度。2017-6-5總體均值區間的一般表達式總體均值的置信區間是由樣本均值加減估計誤差得到的估計誤差由兩部分組成:一是點估計量的標準誤差,它取決于樣本統計量的抽樣分布。二是估計時所要的求置信水平為時,統計量分布兩側面積為的分位數值,它取決于事先所要求的可靠程度總體均值在置信水平下的置信區間可一般性地表達為樣本均值±分位數值×樣本均值的標準誤差4-20當σ已知時,根據相關的抽樣分布定理,服從標準正態分布

N(0,1)。查正態分布概率表,

可得(一般記為),則,根據重復抽樣與不重復抽樣的求法的不同,進一步可得總體平均數的估計區間:重復抽樣時,區間的上下限為:不重復抽樣時,區間的上下限為:平均數區間估計—第1種模式(求置信區間)4-214-22平均數區間估計—第1種模式(求置信區間)若總體方差未知,則在計算時,使用樣本方差代替總體方差,此時

服從自由度為n-1的t分布。查t分布表可得,并記為于是:重復抽樣時,區間的上下限為:不重復抽樣時,區間的上下限為:大樣本時,t分布與標準正態分布非常接近,可直接從標準正態分布表查臨界值4-23例:總體平均數的區間估計1對某型號的電子元件進行耐用性能檢查,抽查資料分組如下表,要求估計該批電子元件的平均耐用時數的置信區間(置信度95%)。4-2468.27%的樣本表示樣本均值落在…區間的概率是1-α,例對總體均值區間估計的進一步理解2017-6-5總體均值的區間估計

(大樣本的估計)1. 假定條件總體服從正態分布,且方差(2)

已知如果不是正態分布,可由正態分布來近似(n

30)使用正態分布統計量z總體均值在1-置信水平下的置信區間為例5-7某企業加工的產品直徑X是一隨機變量,且服從方差為0.0025的正態分布。從某日生產的大量產品中隨機抽取6個,測得平均直徑為16厘米,試在0.95的置信度下,求該產品直徑的均值置信區間。解:本例產品數量很多,即總體單位數N很大,故采用放回抽樣的有關公式計算。樣本平均數樣本平均的標準差抽樣極限誤差所求μ的置信區間為:16-0.04<μ<16+0.04即(15.96,16.04)。2017-6-5總體均值的區間估計

(小樣本的估計)1. 假定條件總體服從正態分布,但方差(2)

未知小樣本(n<30)使用t

分布統計量總體均值在1-置信水平下的置信區間為例5-8在例5-3中,若總體方差未知,但通過抽取的6個樣本測得的樣本方差為0.0025,試在0.95的置信度下,求該產品直徑的均值置信區間。解: 所求μ的置信區間為:16-0.0525<μ<16+0.0525,即(15.95,16.05)。4-29平均數區間估計—第2種模式(求置信度)給定極限誤差,求置信度4-30例:總體平均數的區間估計2例:經抽樣調查計算樣本畝產糧食600公斤,并求得抽樣平均誤差為3公斤,現給定允許極限誤差為6公斤,求置信區間包含總體平均畝產的概率,即求置信水平。結果表明,如果多次反復抽樣,每次都可以由樣本值確定一個估計區間,每個區間或者包含總體參數的真值,或者不包含總體參數的真值,包含真值的區間占F(z),即每一萬次抽樣,就有9545個樣本區間包括總體畝產,其余455個樣本區間不包括總體平均數,即若接受估計區間的判斷要冒4.55%的機會犯錯誤的風險。4-31例:總體平均數的區間估計3對某型號的電子元件進行耐用性能檢查,抽查資料分組如下表,設該廠的產品質量檢驗標準規定,元件耐用時數達到1000小時以上為合格品。要求估計該批電子元件的合格率,置信水平95%。4-32總體均值區間估計總結總體平均數估計區間的上下限總體方差已知N(0,1)重復抽樣不重復抽樣總體方差未知t(n-1)大樣本時近似服從N(0,1)重復抽樣不重復抽樣

如果是正態總體4-33

如果不是正態總體,或分布未知總體方差已知且是大樣本總體方差未知且是大樣本

此時不考慮小樣本情況因此,大樣本情況下,直接用標準正態分布求置信區間即可。總體均值的區間估計總體分布小樣本正態分布未知分布樣本容量大樣本區間估計(放回)總體方差已知未知未知已知大樣本小樣本大樣本大樣本4-35比例的區間估計由于總體的分布是(0,1)分布,只有在大樣本的情況下,才服從正態分布。總體比例可以看成是一種特殊的平均數,類似于總體平均數的區間估計,總體比例的區間估計的上下限是:注意:在實踐中,由于總體比例常常未知,這時,抽樣平均誤差公式中的總體成數用樣本成數代替。大樣本的條件:np≥5且n(1-p)≥5,由于總體比例p通常未知,可以用樣本比例來近似判斷。4-36總體比例估計區間估計總結總體成數比例估計區間的上下限 只考慮大樣本情況(請記住大樣本條件)

【例6-6】估計某市居民家庭電腦的普及率,隨機抽取900戶居民調查,其中675戶居民擁有個人電腦。以概率95.45%的保證程度,估計該市居民電腦的普及率的置信區間。

解:樣本比例:,

,所以=(72.2%,77.8%)即以概率95.45%的保證程度,此次抽樣得該市居民電腦的普及率的區間估計為72.2~78.8%之間。2017-6-5總體方差的區間估計1. 估計一個總體的方差或標準差2. 假設總體服從正態分布總體方差2

的點估計量為s2,且4.總體方差在1-置信水平下的置信區間為2017-6-5總體方差的區間估計

(圖示)2017-6-5總體方差的區間估計

(例題分析)【例5-5】一家食品生產企業以生產袋裝食品為主,現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產品重量的分布服從正態分布。以95%的置信水平建立該種食品重量方差的置信區間

25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.32017-6-5總體方差的區間估計

(例題分析)解:已知n=25,1-=95%,根據樣本數據計算得

s2=93.21

2置信度為95%的置信區間為該企業生產的食品總體重量標準差的的置信區間為7.54g~13.43g4-43對總量指標的區間估計在對總體平均數進行區間估計的基礎上,可進一步推斷相應的總量指標,即用總體單位總數N分別乘以總體平均數的區間下限和區間上限,便得到相應總量(Nμ)的區間范圍。4-44例1某廠對一批產品的質量進行抽樣檢驗,采用重復抽樣抽取樣品200只,樣本優質率為85%,試計算當把握程度為90%時優質品率的區間范圍。4-45例2某商場從一批食品(共800袋)中隨機抽取40袋(假設用重復抽樣),測得每袋平均重量為791.1克,標準差為17.136克,要求以95%的把握程度,估計這批食品的平均每袋重量以及這批食品總重量的區間范圍。[800*778.84,800*803.36],即[623072,642688]

4-46三、樣本容量確定什么是樣本容量確定問題?4-47確定樣本容量在設計抽樣時,先確定允許的誤差范圍和必要的概率保證程度,然后根據歷史資料或試點資料確定總體的標準差,最后來確定樣本容量。估計總體均值時樣本容量的確定重復抽樣不重復抽樣估計成數時樣本容量的確定重復抽樣不重復抽樣4-48確定樣本容量應注意的問題計算樣本容量時,一般總體的方差與比例都是未知的,可用有關資料替代:一是用歷史資料已有的方差與比例代替;二是在進行正式抽樣調查前進行幾次試驗性調查,用試驗中方差的最大值代替總體方差;三是成數方差在完全缺乏資料的情況下,就用比例方差的最大值0.25代替。如果進行一次抽樣調查,同時估計總體均值與比例,用上面的公式同時計算出兩個樣本容量,可取一個最大的結果,同時滿足兩方面的需要。上面的公式計算結果如果帶小數,這時樣本容量不按四舍五入法則取整數,取比這個數大的最小整數代替。例如計算得到:n=56.03,那么,樣本容量取57,而不是56。4-49例:確定樣本容量1對某批木材進行檢驗,根據以往經驗,木材長度的標準差為0.4米,而合格率為90%。現采用重復抽樣方式,要求在95.45%的概率保證程度下,木材平均長度的極限誤差不超過0.08米,抽樣合格率的極限誤差不超過5%,問必要的樣本單位數應該是多少?4-50例:確定樣本容量2對某批木材進行檢驗,根據以往經驗,木材的合格率為90%、92%、95%。現采用重復抽樣方式,要求在95.45%的概率保證程度下,抽樣合格率的極限誤差不超過5%,問必要的樣本單位數應該是多少?2017-6-5

練習1

一家保險公司收集到由36個投保人組成的隨機樣本,得到每個投保人的年齡(單位:周歲)數據如下表。試建立投保人年齡90%的置信區間

36個投保人年齡的數據2335392736443642464331334253455447243428393644403949383448503439454845322017-6-5總體均值的區間估計

(大樣本的估計)解:已知n=36,1-=90%,z/2=1.645。根據樣本數據計算得:,

總體均值在1-置信水平下的置信區間為投保人平均年齡的置信區間為37.37歲~41.63歲2017-6-5練習2已知某種燈泡的壽命服從正態分布,現從一批燈泡中隨機抽取16只,測得其使用壽命(單位:h)如下。建立該批燈泡平均使用壽命95%的置信區間16燈泡使用壽命的數據15101520148015001450148015101520148014901530151014601460147014702017

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論