統計學第六章抽樣調查_第1頁
統計學第六章抽樣調查_第2頁
統計學第六章抽樣調查_第3頁
統計學第六章抽樣調查_第4頁
統計學第六章抽樣調查_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

容量為n的所有可能樣本抽取總體,容量為N計算每個樣本統計量例如:樣本均值、成數、方差對頻數分布數據進行總體數字特征分析將被來自不同樣本的不同統計量觀測值分組排列,將對應每個觀測值的相對出現頻數排成另一列,形成樣本統計量的所有可能取值的相對頻數分布表什么是抽樣調查?思考問題在對統計推斷中,需要使用樣本推斷總體:(1)采用什么樣的方式組織抽樣?(2)采用什么樣的方法進行抽樣?(3)總體、樣本和抽樣分布的特征如何?(4)運用什么統計量對抽樣誤差進行檢驗?(5)如何對樣本、總體特征的進行估計?

第六章抽樣調查★第一節抽樣調查的意義第二節抽樣調查的基本概念及理論依據第三節抽樣平均誤差第四節全及指標的推斷第五節抽樣方案設計第六節必要抽樣單位數的確定第七節假設檢驗一、抽樣調查的概念從研究總體中按一定的原則抽取部分單位作為樣本進行觀察研究,以認識總體的一種統計調查方法,分為隨機和非隨機抽樣。這里主要指隨機抽樣

。指樣本單位的抽取不受主觀因素及其他系統性因素的影響,每個總體單位都有均等的被抽中機會按照隨機原則

從調查對象中抽取一部分單位進行觀察,并運用數理統計的原理,以被抽取的那部分單位的數量特征為代表,對總體做出數量上的推斷分析抽樣調查的目的是由部分推斷整體抽選部分單位時遵循隨機原則抽樣調查會產生抽樣誤差,抽樣誤差可以計算,并可以加以控制二、抽樣調查的特點三、抽樣調查的適用范圍有些事物在測量或試驗時有破壞性,不可以進行全面調查可以進行全面調查,但實際上不可行和全面調查相比,抽樣調查能節省人力、費用和時間,而且比較靈活有些情況下,抽樣調查結果比全面調查準確用抽樣調查的資料修正和補充全面調查資料利用抽樣推斷方法,可以對某種總體的假設進行檢驗,判斷這種假設的真偽,決定取舍。第二節抽樣調查的基本概念及理論依據幾組基本概念全及總體(總體)抽樣總體(樣本)重復抽樣不重復抽樣大數定律中心極限定理研究對象抽取方法研究原理總體分布樣本分布抽樣分布重復考慮順序不重復不考慮順序一、全及總體和抽樣總體全及總體:也稱總體。指所要認識對象的全體。用N表示有限總體的單位數,稱總體容量。全及總體變量總體屬性總體(品質標志)無限總體有限總體全及總體類型(數量標志)抽樣總體:也稱樣本。從全及總體中隨機抽取出來,代表全及總體部分單位的集合體用n表示抽樣總體的單位數n≥30,為大樣本;n<30,為小樣本對同一問題,總體是唯一的,樣本不唯一

n1總體n2二、全及指標和抽樣指標全及指標:根據全及總體各個單位的標志值或標志特征計算的、反映總體某種屬性的綜合指標。是唯一的。全及指標研究總體中的數量標志總體平均數總體方差研究總體中的屬性標志總體成數成數方差X=∑XNX=∑XF∑FΣ(X-X)

N2σ=2Σ(X-X)FΣF2σ=2σ2=P(1-P)P=N1N研究數量標志樣本平均數樣本標準差研究屬性標質成數標準差樣本成數抽樣指標抽樣指標:由抽樣總體各個標志值或標志特征計算的綜合指標,不是唯一的。樣本量一個樣本包含的單位數,也稱樣本容量。用n表示。樣本量越大,抽樣誤差越小,一般n≥30為大樣本,小于30為小樣本樣本可能數目按不同方式和方法從總體中可能抽取的樣本個數,也稱樣本可能個數。一般與抽樣方式和抽取要求密切相關三、抽樣方法和樣本可能數目重復抽樣又被稱作重置抽樣、有放回抽樣抽出個體登記特征放回總體繼續抽取特點同一總體單位有可能被重復抽中,而且每次抽取都是獨立進行⒈可能樣本數目(考慮順序):共n個2.可能樣本數目(不考慮順序):重復抽樣和不重復抽樣標號為A、B、C、D的四個圓球從中隨機抽取兩個,分析樣本個數。考慮順序AA、AB、AC、ADBA、BB、BC、BDCA、CB、CC、CDDA、DB、DC、DD可能樣本個數不考慮順序AA、AC、BA、BB、BDCB、CC、DA、DC、DD重復抽樣不重復抽樣又稱作不重置抽樣、不放回抽樣抽出個體登記特征繼續抽取特點同一總體中每個單位被抽中的機會并不均等,在連續抽取時,每次抽取都不是獨立進行是最為常用的抽樣方法。1、

可能樣本數目(考慮順序):2、

可能樣本數目(不考慮順序):標號為A、B、C、D的四個圓球從中隨機抽取兩個,分析樣本個數。可能樣本個數考慮順序AB、AC、ADBA、BC、BDCA、CB、CDDA、DB、DC不考慮順序AB、AC、ADBD、CB、DC不重復抽樣四、抽樣調查的理論依據獨立同分布大數定律對于抽樣調查的意義:

從理論上解釋了樣本與總體之間的內在聯系,即隨著抽樣單位數n的增加,抽樣平均數有接近于總體平均數的趨勢。(1)獨立同分布定律:獨立的隨機變量x1,x2,…,具有相同分布,且存在有限的數學期望E(xi)=X和方差D(xi)=σ2,則對任意小的正數ε,有

1、大數定律貝努大數定律對于抽樣調查的意義:

從理論上解釋了用頻率代替概率的理論依據,即隨著抽樣單位數n的增加,事件A發生的頻率接近于事件A發生的概率。(2)貝努大數定律:設m是n次獨立隨機試驗中事件A發生(成功)的次數,p是事件A在每次試驗中發生的概率,則對于任意小的正數ε,有:

大數定律論證了抽樣平均數趨近于總體平均數的趨勢,這為抽樣推斷提供了重要依據。但是:抽樣平均數和總體平均數的離差究竟有多大?離差不超過一定范圍的概率究竟有多少?離差的分布狀況怎樣?大數定律和正態分布沒有給出任何這方面的信息。大數定律特點2、中心極限定理

(1)獨立同分布中心極限定理:獨立的隨機變量x1,x2,…,具有相同分布,且存在有限的數學期望E(xi)=X和方差D(xi)=σ2,當n->∞時,隨機變量的總和∑xi趨于均值為nx,方差為nσ2的正態分布,即

獨立同分布中心極限定理對于抽樣調查的意義:

從理論上解釋了樣本與總體之間的分布特征關系,即隨著抽樣單位數n的增加,

趨于正態分布。總體分布142300.10.2【例】設一個總體,含有4個元素(個體),即總體單位數N=4。4個個體分別為X1=1、X2=2、X3=3、X4=4。總體分布、樣本分布和抽樣分布關系:現從總體中抽取一個容量為n=3的樣本X1=1,X2=2,X2=2樣本分布142300.30.64個數的相對頻數分別都為0.251和2的相對頻數分別為0.33和0.67

現從總體中抽取n=2的簡單隨機樣本,考慮順數重復抽樣,共有42=16個樣本。所有樣本的結果如下:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能n=2的樣本(16個)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值樣本均值的抽樣分布1.000.10.20.3P(x)1.53.04.03.52.02.5x統計量為均值相對頻數(2)德莫佛-拉普拉斯中心極限定理:設X是n次獨立隨機試驗中事件A發生(成功)的次數,p是事件A在每次試驗中發生的概率,則X服從二項分布B(n,p),當n->∞時,X趨于均值為np,方差為npq的正態分布,即

獨立同分布中心極限定理對于抽樣調查的意義:

為概率估計提供了極為有效的條件中心極限定理研究的是變量和的分布和變量平均數的分布。它論證了以下幾點:第一,如果總體很大,而且服從正態分布,則樣本均值的分布也服從正態分布;第二,如果總體很大,但不服從正態分布,只要樣本單位數足夠大(n≥30

),樣本均值的分布也趨近于正態分布。第三,樣本均值分布的平均數,等于總體均值第四,樣本均值方差等于總體方差的1/n中心極限定理的重要意義抽樣誤差樣本均值樣本成數重復抽樣第三節抽樣平均誤差不重復抽樣重復抽樣不重復抽樣一、抽樣誤差的概念樣本指標與總體指標之間的差別統計誤差登記誤差代表性誤差隨機誤差偏差(不遵守隨機性)抽樣平均誤差實際誤差根據隨機性原則,用部分推斷總體而引起的誤差,可控制,不可避免。(一)抽樣平均數的抽樣平均誤差抽樣平均誤差一系列抽樣指標的標準差(μ)全及平均指標全部可能樣本個數抽樣平均指標說明:實際應用中,該公式中全部可能樣本個數與全及平均數都是不可能已知的,故該公式無法用于計算二、抽樣誤差的計算均值抽樣誤差重復抽樣不重復抽樣(1)總體單位之間的變異程度(即標準差的大小)。標準差越大,抽樣誤差越大;(2)樣本量大小。樣本量越大,抽樣誤差越小;(3)抽樣抽取方式。不重復抽樣的抽樣誤差比重復抽樣的抽樣誤差小;(4)抽樣組織形式。對相同的n,類型抽樣和等距抽樣小于簡單隨機抽樣,單個抽樣小于整群抽樣。影響因素實例分析:設有四個工人月產量分別為40、50、70、80元,現在隨機從其中抽取2人,并求平均加工零件數,用以代表4人總體的平均產量水平,采用考慮順序重復抽樣,所有可能樣本以及平均產量如下表:序號樣本變量

樣本平均數離差離差平方123440,4040,5040,7040,8040455560-20-15-50400225250567850,4050,5050,7050,8045506065-15-1005225100025910111270,4070,5070,7070,8055607075-5010152501002251314151680,4080,5080,7080,8060657580051520025225400合計---96002000序號產量(X)產量離差離差平方123440507080-20-101020400100100400合計240-1000產量總體的全及指標方差計算表結論:①抽樣平均數的平均數等于全及平均數,②抽樣平均誤差,即抽樣平均數的標準差等于總體標準差的③可通過調整樣本單位數來控制抽樣平均誤差。實例分析:設有四個工人月產量分別為40、50、70、80元,隨機從其中抽取2人,求平均加工零件數,以代表4人總體的平均產量水平,采用考慮順序的不重復抽樣,則所有可能樣本以及平均產量如下表:序號樣本變量

樣本平均數離差離差平方12340,5040,7040,80455560-15-5022525045650,4050,7050,80456065-150522502578970,4070,5070,80556075-501525022510111280,4080,5080,706065750515025225合計---720-1000序號產量(X)產量離差離差平方123440507080-20-101020400100100400合計240-1000產量總體的全及指標方差計算表結論:不重復抽樣的抽樣平均誤差(9.13件)小于重復抽樣的抽樣平均誤差(11.18件)

現從總體中抽取n=2的簡單隨機樣本,考慮順數重復抽樣,共有42=16個樣本。所有樣本的結果如下:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能n=2的樣本(16個)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值樣本均值的抽樣分布1.000.10.20.3P(x)1.53.04.03.52.02.5x統計量為均值相對頻數中心極限定理研究的是變量和的分布和變量平均數的分布。它論證了以下幾點:第一,如果總體很大,而且服從正態分布,則樣本均值的分布也服從正態分布;第二,如果總體很大,但不服從正態分布,只要樣本單位數足夠大(n≥30

),樣本均值的分布也趨近于正態分布。第三,樣本均值分布的平均數,等于總體均值第四,樣本均值方差等于總體均值的1/n中心極限定理的重要意義(二)抽樣成數的抽樣平均誤差分組單位數變量值具有某一屬性不具有某一屬性N1N010合計N—為研究是非標志總體的數量特征,令總體中全部單位只具有“是”或“否”、“有”或“無”兩種表現形式的標志,又叫是非標志。交替標志1、數量化標志值具有某種屬性的單位數所占比重不具有某種屬性的單位數所占比重是非標志總體中具有某種表現或不具有某種表現的單位數占全部總體單位總數的比重比重(權數)2、計算指標比重【例】某廠去年生產的產品中,合格率為p,計算該廠產品的平均合格率。交替標志xi單位數(成數)(%)變量x成數xf離差離差平方離差平方乘權數合格品不合格品10Pq合計-P+q=1pP01-P0-p(1-P)2(0-p)2(1-P)2p(0-p)2qq2p+p2q=pq權值為比重P的加權算術平均數(二)抽樣成數的抽樣平均誤差說明:實際應用中,平均數和成數的標準差一般是未知的,通常采用如下方式解決(1)用過去調查的資料(2)樣本方差的資料代替總體方差(3)用小規模調查資料(4)用估計材料重復抽樣:不重復抽樣:【例】某燈泡廠對10000個產品進行壽命檢測,隨機抽取2%樣本進行測試,資料如下。按質量規定,燈泡使用壽命在1000小時以上者為合格品,計算這批燈泡的時間抽樣平均誤差和合格率的平均抽樣誤差。使用時間(小時)燈泡數fi組中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合計200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168結論:不重復抽樣的抽樣平均誤差小于重復抽樣的抽樣平均誤差.【例】某燈泡廠對10000個產品進行壽命檢測,隨機抽取2%樣本進行測試,資料如下。按質量規定,燈泡使用壽命在1000小時以上者為合格品,計算這批燈泡的時間抽樣平均誤差和合格率的平均抽樣誤差。使用時間(小時)燈泡數fi組中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合計200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168抽樣誤差樣本平均值抽樣平均誤差計算過程樣本標準差樣本標準差代替總體標準差樣本均值樣本成數重復抽樣不重復抽樣重復抽樣不重復抽樣抽樣誤差樣本平均值區間估計計算過程樣本標準差樣本標準差代替總體標準差樣本均值樣本成數重復抽樣不重復抽樣重復抽樣不重復抽樣極限誤差總體均值區間估計第四節全及指標的推斷抽樣推斷按已經抽定的樣本指標(樣本平均數或樣本成數)來估計總體指標(總體平均數或總體成數),或其所在的范圍估計量的優良性準則無偏性有效性一致性一、抽樣推斷的要求一、抽樣推斷的方法點估計把樣本平均數或樣本成數直接作為總體平均數或總體成數的估計值簡單,具體明確優點缺點無法控制誤差,僅適用于對推斷的準確程度與可靠程度要求不高的情況1、直接換算法【例】某大學在校的6000名大學生,對其實際月消費支出調查,結果表明,該6000名大學生的平均消費支出為489元,我們推斷說,該校全體大學生月消費支出為489元。2、修正分數法用抽樣所得的調查結果同有關資料的對比分數來正全面統計資料時采用的一種方法【例】某市集團公司2005年年報工資總額數為3218.1萬元,現抽查該集團公司14個單位,年報415.03萬元,多報0.44萬元,少報1.47萬元。

的抽樣分布點估計的最大好處:給出確定的值點估計的最大問題:無法控制誤差抽樣極限誤差:以一定的可靠程度保證抽樣誤差不超過某一給定的范圍.說明:抽樣極限誤差反映了抽樣估計的精確度,抽樣極限誤差越小,抽樣估計的精確度越高,反之越低。區間估計把在一定概率保證下,用樣本指標去推斷總體指標,在考慮抽樣誤差的前提下,是通體指標落在某一范圍之內,即根據抽樣指標定出置信區間和置信度.置信區間:在一定概率保證程度下,某總體參數所在的區間范圍。置信度:總體參數落在某一區間內的概率保證程度。也稱為置信水平或可靠性。0.68270.95450.9973Z置信度概率度常用的置信度和概率度之間的關系

概率度與信任程度(置信度)成正比,但和準確性的要求成反比。

概率度t誤差范圍△概率F(t)0.51.001.501.962.003.000.5μ1.00μ1.50μ1.96μ2.00μ3.00μ0.38290.68270.86640.95000.95450.9973【例】某燈泡廠對10000個產品進行壽命檢測,隨機抽取2%樣本進行測試,資料如下。按質量規定,燈泡使用壽命在1000小時以上者為合格品,在95.45%的概率保證程度下,計算其平均數和成數的估計區間。使用時間(小時)燈泡數fi組中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合計200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168【例】某燈泡廠對10000個產品進行壽命檢測,隨機抽取2%樣本進行測試,資料如下。按質量規定,燈泡使用壽命在1000小時以上者為合格品,在95.45%的概率保證程度下,計算其平均數和成數的估計區間。使用時間(小時)燈泡數fi組中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合計200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168抽樣誤差樣本平均值區間估計計算過程樣本標準差樣本標準差代替總體標準差樣本均值樣本成數重復抽樣不重復抽樣重復抽樣不重復抽樣極限誤差總體均值區間估計第五節抽樣方案設計抽樣組織形式簡單隨機抽樣類型抽樣機械抽樣整群抽樣多階段抽樣抽樣誤差遵從原則樣本量隨機性原則代表性原則最大效果原則一、簡單隨機抽樣——按隨機原則直接從總體中抽出若干單位構成樣本。是最簡單、最基本、最符合隨機原則,但同時也是抽樣誤差最大的抽樣組織形式又稱完全隨機抽樣或純隨機抽樣,適用于均勻總體。

*直接抽選法*抽簽法*隨機數碼表法抽樣誤差樣本均值樣本成數重復抽樣不重復抽樣重復抽樣不重復抽樣二、類型抽樣(分類(層)抽樣)

先對總體各單位按一定標志加以分類(層),然后再從各類(層)中按隨機原則抽取樣本,由各類(層)內的樣本組成一個總的樣本。總體N樣本n類型比例抽樣類型適宜抽樣······抽取方式各組應抽取的樣本單位數:1、類型比例抽樣方法單位數的確定:【例】全及總體單位數N=8000,共要抽取樣本單位數n=120,總體分三個類型:N1=4000,N2=2400,N3=1600,按類型比例抽樣計算各組需要抽取的樣本單位數。標志變動度大的組,抽取樣本單位數的比例相應要大些;反之,則小些。2、類型適宜抽樣方法單位數的確定:【例】全及總體單位數N=8000,共要抽取樣本單位數n=120,總體分三個類型:N1=4000,N2=2400,N3=1600,標準差分別為σ1=10,σ2=15,σ3=30,按類型適宜抽樣計算各組需要抽取的樣本單位數。抽樣誤差的計算

1.先求出各層(組)的方差(或)

2.層內方差加權平均(或

重復抽樣不重復抽樣Ni為各層單位數,【例】某鄉共有農戶4000戶,分糧食作物區與技術作物區。現在用類型比例抽樣方法分別抽10%農戶,調查農戶收入情況,計算平均每戶收入及其標準差,推斷全鄉抽樣平均每戶收入和抽樣平均誤差。農戶總數樣本戶數抽樣平均每戶收入(元)抽樣標準差(元)Ninixσi糧食作物區技術作物區250015002501503600540052724000400--分層抽樣的抽樣平均誤差與組間方差無關,取決于組內方差的平均水平。注意

應擴大組間方差,縮小組內方差∵總方差=組內方差+組間方差∴分層抽樣誤差小于簡單抽樣誤差四、機械抽樣(等距抽樣或系統抽樣)

研究的總體按一定的順序排列,然后按固定順序和間隔來抽選樣本單位的組織抽樣形式。總體單位排列順序時所依據的標志與調查的標志無關等距抽樣按無關標志排列按有關標志排列總體單位排列順序時所依據的標志與調查的標志有關隨機起點(總體單位按某一標志排序)等距抽樣抽取樣本單位的具體方法:抽樣距離:起點nR等距抽樣隨機等距中點等距對稱等距1、隨機等距······2、中點等距優點:樣本有充分的代表性局限性:隨機性不明顯,不能進行樣本輪換,樣本利用率太低3、對稱等距優點:保留了半距起點等距抽樣的優點,避免了他的缺點,具有明顯的優點。抽樣誤差的計算

1、無關標志等距抽樣按簡單隨機抽樣計算2、有關標志等距抽樣按類型抽樣計算

類型抽樣的重復抽樣的抽樣誤差【例】為了推行15塊地小麥平均畝產,按去年畝產排隊123地塊序號123451234512345去年畝產(千克)340350355360375385395400410420430440460465480平均畝產(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論