




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
§6.1引言定義定義6.1系統抽樣(systematicsampling)又稱為等距抽樣、機械抽樣。按照這種抽樣方法,從總體中抽取第一個樣本點(隨機起點),然后按某種固定的順序和規律依次抽取其余的樣本點,最終構成樣本。這種抽樣被稱為系統抽樣是因為這種抽樣的第一個樣本點雖然隨機,但其余樣本點的抽取看起來好像不再隨機,因而是系統的。“牽一發而動全身”。比如要對居民用戶抽樣,可按戶口冊每隔多少戶抽一戶;工廠為檢查產品質量,在連續的生產線上每隔20分鐘抽選一個或若干個樣品進行檢查;農業上為估計農作物產量或病蟲危害,對一大片農田每隔一定距離抽取一塊進行實際測量或調查,等等。本章只作簡單方法介紹。更多內容參見文獻2、文獻3。系統抽樣的一般方法定義6.3直線等距抽樣假設總體單元數為,樣本容量為,為的整數倍。把總體單元排列成一直線。先計算出系統抽樣間隔,(當不是的整數倍時,可令k等于最接近的整數)。然后在第一階段1~k個單元中隨機抽取一個單元,假設為r,然后每隔k個單元抽取一個單元,即分別為:r+k,r+2k,…….,直至抽取了n個單元。抽取的樣本編號為:r+(j-1)k(j=1,2,…,n)。12…r……kk+1k+2…k+r……2k2k+12k+2…2k+r……3k…kkkkk+r2k+r(n-1)k+rrk(k為抽取間隔)例如某學院有200個學生,要抽取10個學生作為樣本。首先計算=20,然后在1~20中隨機抽取一個數字,假設抽中排列中第3位的學生,則其它入樣單元依次為23,43,63,83,103,123,143,163,183。定義6.4圓形等距抽樣(Lahiri)這種方法主要適用于不為整數時。因為當k不為整數,取其最接近的整數時,實際樣本容量可能與n相差1,而且每個單元入樣的概率不等,這時用直線等距抽樣可能產生偏倚。例:設總體N=10,其標志值分別為,總體均值為。若要求樣本容量為n=3,采用直線等距抽樣,驗證樣本均值是否為總體均值的無偏估計?解:先計算間距….,取k=3,在1~3中取一個隨機起點,然后每隔3個單元抽取1個單元可得下列的可能樣本:三個可能的系統抽樣樣本均值分別為:,,所有=,因此樣本均值不是總體均值的無偏估計。在這種情況下,樣本均值將不等于總體均值,因而估計不是無偏的。為了使得樣本均值是總體均值無偏估計,將個總體單元排成首尾相接的一個圓。抽樣間距k取最接近的整數,從1——中隨機抽取一個隨機起點作為起始單元,然后每隔k個抽取一個,直到抽取n個為止。如果序號大于時,將其減去得到的在1——中的號碼入選。正是因為排列為圓形而非直線且隨機起點在1~N中而非在1~[k](或[k]+1)中,導致了該抽樣下的每個樣本嚴格等概率地被抽中,因而估計是無偏的。若是圓形等距抽樣,則在1~10中抽取一個隨機起點,假設為7,然后每隔3個單元取一個,它們的序號是7、10、13。事實上是、、入樣。考慮到實際問題中,n通常比較大(大于等與50),多一個少一個并無關宏旨,因此可以不必考慮N/n不是整數的影響,故通常我們都假定N是n的整數倍。3不等概率抽樣法不等概率抽樣中每個單元入樣的概率不相等。最簡單也是最常用的是系統抽樣,即入樣的概率與單元規模大小成比例的系統抽樣。令表示所有單元規模大小總和,則(包含概率,見不放回不等概率抽樣)。在實際中,不等概率的實施常采用代碼法。如下所示:先將單元規模(不失一般性,設其為整數)值累加,欲從總體中抽取容量為n的樣本,取最接近的整數k為抽樣間距,從[1,k]中隨機抽取一個整數r作為起點,則代碼r,r+k,…,r+(n-1)k所對應的單元入樣。設總體由10個行政村組成,N=10,每個行政村人數為,見表7.1。利用系統抽樣抽取n=3個行政村樣本。表7.1用系統抽樣抽取行政村行政村編號人數累計人數抽中號碼12345678910合計103432962468473205168146317187010353563187796110341239140715531870100*723*1346*,從1~623中抽取一整數,例如是,則,,所對應的行政村入樣,其序號分別為1、4、8。這種方法,當所有單元規模時,每個單元不可能重復,是一種不重復抽樣;當時(超過抽樣間隔),第i個單元為必然被抽中單元,且有可能重復抽中;當,第i個單元為必然被重復抽中。實際中應盡量避免這種重復抽中現象。一種簡單的方法就是把這種大規模單元作為必然調查單元,不再列入抽樣總體,另一種方法是將大規模單元劃分為幾個小規模單元。總體單元排序1按無關標志排序,如調查學生視力,按學號排列,顯然視力與學號沒有關系2按有關標志排序調查身高時,按入校體檢的身高順序排列3介于以上兩者之間系統抽樣的優缺點優點:系統抽樣是實際中常用的一種抽樣方法,1其簡單易行,只要確定起點和間距,便于推廣2便于利用已知信息,系統抽樣的誤差大小與總體單元的排列順序有關,因此當對總體的結構有一定的認識了解,并有相關的標志可以利用時,可以運用已知的信息先對總體單元進行排列,再采用系統抽樣,就能提高系統抽樣的效率。但缺點也很明顯:1方差復雜,難以估計2如果單元排列存在周期性,而抽樣者缺乏對此了解,則很容易抽取出的樣本代表性很差。例如,要調查70路每天的客流量,采用系統抽樣,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,還是星期六到星期日中的哪天作為起點,樣本代表性都很差。系統抽樣與整群抽樣和分層抽樣的關系系統抽樣可以看作特殊的整群抽樣和分層抽樣表6-1系統抽樣的總體單元123…j…n行平均123rk列平均………………見下表6-1,如果將每一行單元視為一個群,則總體由k個群組成,每個群規模大小都為n。系統抽樣從,,…,中任選一個,被選中的單元所在行的所有單元就構成系統抽樣的樣本。顯然每個群都是可能的樣本。因此系統抽樣可以看成從k個群中隨機抽取1個群的整群抽樣。同樣將每一列視為一層,則總體由n個層組成,每個層大小都為k。系統抽樣可以看作從每個層中抽取一個單元的分層抽樣,但由于樣本單元在各層位置相同,因此系統抽樣不同與分層抽樣。表6-2系統抽樣總體單元重新編號12…j…n群平均12rk層平均……………§6.2等概率系統抽樣估計量為討論方便,今后總是設。符號說明第r行第j列單元指標,對照表6-2換個排序方式有總體單元數N;樣本單元數n總體方差總體(群)均值,(每行均值)樣本(群)均值,系統樣本均值,總體層均值,,或,(每列均值)6.2.2估計量假設起始點為r,則相應的系統樣本的平均值為,(6.1)(群內普查)取系統樣本平均值作為總體均值的估計量,即:=(6.2)(由于群內普查)當,有k個可能樣本,因此是無偏估計。(6.9)(方差定義)用系統樣本(群)內方差表示為系統樣本(群)內方差(類似整群抽樣中的定義)因為系統抽樣相當于抽取一個群的整群抽樣,因此群內的單元差異大小,也即系統樣本內的差異大小會直接影響系統抽樣的效果,故定義了系統樣本(群)內方差,它反映了所有k個可能系統樣本內的方差大小。因此可以想象,和整群抽樣一樣,系統樣本內方差愈大,抽樣效率愈高。注意此習慣敘述,(大寫)本該表示總體,由于群內普查,這里的特殊性在于所謂的“系統樣本”實際是表6-2中行表示的總體群。(6.10)證明:(交叉項為0)兩邊同除以,根據方差定義和定義,得到#如果直接用簡單隨機抽樣,則,作差:,于是對于固定總體,總體方差是唯一固定的,因此系統樣本內方差越大,系統抽樣精度越高。故為了提高系統抽樣的精度,總體單元的排列應盡可能增大樣本(群)內方差,使得群內基本單元樣本差異比較大。系統抽樣可以看作特殊整群抽樣,其方差可用樣本(群)內相關系數表示其中系統樣本(群)內相關系數(系統樣本內各單位兩兩之間的相關系數)為(類似4.9)證明:總體單元數群內單元數總體群數樣本群數總體均值估計量群內相關系數系統抽樣整群抽樣NNMnMkN1n、、由整群抽樣,(P141,4.11)。#由看出,系統樣本(群)內正相關性越大,即樣本(群)內單元越相似,則估計量方差越大,系統抽樣精度越差,這與定理6.2結論一致。系統抽樣可看成特殊的分層抽樣,其方差可以用層內方差和表示定義:總體層內方差總體(層)內相關系數:同一系統樣本內對層均值離差的相關系數,系統樣本內各單元兩兩之間分別與各自層的平均數相比較而計算的相關系數。『對于固定的群,兩個不同單元離差乘積共有個組合,所以總體這樣的離差乘積有個,因此上式分子為分母應為對個基本單元的對所在層的層均值離差平方求平均,因此可以表示為,于是』證明:由表6.2可以看出,系統抽樣可以看作一種特殊的分層抽樣,共n層,每層均為k個單元(規模相等),從每層固定同一位置各取1個單元作為樣本。,而根據(),兩邊同乘以,有=+,因此公式成立。#比較系統抽樣方差與比例分配的分層隨機抽樣方差(即),作商:,因此,。從前面的系統抽樣排列的方陣看出,如果按有關標志排列后采用直線等距抽樣,系統樣本中的單位往往會同時大于所在各層的均值,或同時小于所在各層的均值,造成;因而需考慮適當的改進抽樣方式,使得盡可能滿足。例設某個模擬總體有N=32個單元,總體單元排列顯然有穩定上升趨勢。我們要抽取一個容量為4的等距樣本。將總體單元排列如下表7.4,k=8,n=4。每一列是一個等距樣本,共有8個等距樣本。表層ⅠⅡⅢⅣ等距樣本編號層均值層內方差1234567817172718182838203031120314122434514243461625367162738群均值1322可以看出,層內正相關,前四個樣本對各層均值離差均小于0,后4個樣本與各層均值離差均大于0,所以(同一層內兩不同單元離差乘積,累積),因此系統抽樣精度要低于分層抽樣。有:例利用上例,將第二層和第四層觀察值調換,見表表層ⅠⅡⅢⅣ等距樣本編號層均值層內方差1234567811617381161836314203431220344112431582430682528772727群均值1868可以看出,等距樣本內數據對各層均值離差有正有負。造成,因此系統抽樣精度要高于分層隨機抽樣。此時,沒有影響、。但等距抽樣均值的方差。可見系統抽樣的效率很大程度上取決于總體的特征。P200見PPT§6.3不同特征總體的系統抽樣隨機次序排列第總體系統抽樣的方差決定于單元的排列順序,它是不穩定的,因為不同的排列順序會使系統樣本內的方差發生變動,得到不同的抽樣方差可能大于相應簡單隨機抽樣的方差,也可能小于相應當簡單隨機抽樣的方差。例如,若總體共有N個基本單元,則總體共有種排列方式,其中任何一種固定的排列方式對應的系統抽樣其抽樣方差可能大于也可能小于簡單隨機抽樣。但從平均意義上講,系統抽樣方差與簡單隨機抽樣方差相等。即,詳見文獻:杜子芳《抽樣技術及其應用》,P390。因此,可以用簡單隨機抽樣的方差作為系統抽樣的方差估計:,比如總體按照無關標志排列,可以看作隨機排列的,因此系統樣本內方差和總體方差相差不大,系統抽樣的方差也就接近簡單抽樣的方差。對于很多客觀總體,并不存在或很難找到與目標變量相關的輔助變量作為排列依據,于是只能借助原來的自然順序或按無關變量進行排列,這時就是所謂的隨機次序排列。例:某鄉村公路兩旁種植了20000棵小樹,一年后檢查小樹的成活率。采用系統抽樣的方法,先在1~100棵樹之間隨機地抽取一棵樹作為起點,然后每隔100棵抽選1棵,一共抽取了200棵樹作為樣本,發現其中成活174棵,估計成活率的95%的置信區間。解:,方差用簡單估計量的方差估計=0.00056266,,82.6%~91.74%。線性趨勢的總體1線性趨勢總體若總體單元按指標從小到大順序排列或按某個與其有線性關系的輔助變量的大小順序排列,此時指標值與單元序號也是線性相關。一般地,對于線性趨勢總體,系統抽樣優于簡單隨機抽樣,但比分層抽樣差。為了說明問題,我們不妨假設其指標變量為簡單線性函數。()。做變化得到,,所以:,,從而:;因為每層含有k個單元,每個單元相差1,有n個層,因此方差相同,即有:,每層抽1個單元,等同于按比例分配樣本的分層抽樣,;最后,比較三者關系有,在實際問題中,當然不可能完全按指標值的大小順序排列,只能找到一些與指標值相關的變量進行排序,當然也不可能是完全線性的趨勢,但是系統抽樣的效率總會高于簡單隨機抽樣。因此如果采用簡單隨機抽樣的誤差公式,這將是一個比較保守的估計。也就是說,實際誤差應該沒有估計那么大,因此統計學家們提出了一些改進估計方差的公式。見后文。2對線性趨勢總體的系統抽樣的改進抽樣方法的改進中心位置法當總體單元的排列呈現線性趨勢,起始單元的位置偏高或偏低會直接影響整個樣本的代表性,為提高抽樣效率,麥多(Madow,1953)提出中心位置法,即初始樣本不是隨機抽選,而是直接取第一階段的k個單元處于中間位置的單元。當為奇數時,中點取;當為偶數時,中點取或。此種抽樣法雖然可以提高精度,但對于一定順序排列的總體,樣本是確定的,失去了隨機性。尤其對同樣問題進行連續性調查,樣本老化,會帶來較大不利影響。例如某學院共有200個學生,要抽取10個學生作樣本,抽樣間距為。如果采取中心抽樣法,起始樣本就是第10個學生,其余樣本單元依次為第30,50,70,90,110,130,150,170,190位學生。對稱系統抽樣(1)塞蒂(Sethi,1965)對稱系統抽樣這時一種分組對稱方法。當,為偶數時,將總體分為組,每組含有個單元,在各段內隨機抽取與兩端等距地兩個單元作為樣本,一端靠近低端,一端靠近高端。假設起始隨機數為,入樣的單元為::,當為奇數,仍按上述步驟進行,但到后,增加靠近終端的一個單元,。仍是從200個學生中抽取10個作為樣本,將總體分為段,1~40,41~80,81~120,121~160,161~200。假設隨機起點為3,則樣本單元依次為第3,38;43,78;83,118;123,158;163,198位學生。(2)辛(Singn,1968)對稱系統抽樣這種方法是每次選取與總體的兩端相對稱的單元。假當,為偶數時,設起始隨機數為,入樣的單元為::,。當為奇數,仍按上述步驟進行,但到后,增加靠近中間的一個單元。假設從300位學生中抽取15個作為樣本,則,抽樣間距為。假設隨機起點為3,則樣本單元依次為第3,298;23,278;43,258;63,238;83,218;103,198;123,178;143。3估計量改進首尾校正法(Yates,1948;Bellhouse&Rao,1975)針對情形,假設隨機起點樣本單元編號為,則首樣本單元的權重為尾樣本單元的權重為其它樣本權重為首尾校正法修正后的估計量為針對情形,假設隨機起點樣本單元編號為,如果滿足,則所有個樣本單元都不經過單元,相應權重如下:首樣本單元的權重為()尾樣本單元的權重為()其它樣本權重為如果滿足,則有樣本單元都越過單元,假設越過單元的樣本有個,相應權重如下:首樣本單元的權重為()尾樣本單元的權重為()其它樣本權重為總體有個單元,擬抽取個樣本,則,取與之最接近的整數。然后在總體中隨機抽取一個起點,假設,樣本單元的順序編號分別為:19,1,6,11,16。首樣本單元,尾樣本單元。求相應單元的權重。解:由于首樣本單元的權重為尾樣本單元的權重為、周期波動的總體周期波動是指總體單元指標按其順序呈現周期變化。例如,商店的日銷售量一般以7為周期變化,城市交通以24小時為周期變化。等等。對周期變化的總體,使用系統抽樣要特別注意。抽樣的間距盡量不要等于周期,一般取半周期。通常采用交叉法,即在同一個總體中獨立地取多個樣本,再將幾個樣本合并計算估計量及方差。§6.4系統抽樣的方差估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 芒硝礦堆場管理制度
- 英超俱樂部管理制度
- 荊門分級式管理制度
- 財務會計關鍵練習題及答案
- 設備技術要求
- 幼兒園安全教育主題家長會課件
- 2025年Android-一線大廠面試總結
- 期末應用題專項訓練:三角形(含解析)-2024-2025學年數學四年級下冊人教版
- 建筑施工特種作業-建筑起重機械司機(物料提升機)真題庫-1
- 入世出世遁世題目及答案
- 2025年自然災害預防與應急處理安全培訓考試試題匯編
- 土地確權確權合同范本
- 食品檢驗員持證上崗培訓課件
- 臨床教學師資培訓
- 醫療器械相關壓力性損傷預防
- GB/T 21369-2024火力發電企業能源計量器具配備和管理要求
- EHS培訓(環境因素、危險因素識別)
- 2025年全國保安員職業技能上崗證考試題庫(含答案)
- 妊娠劇吐的心理護理總結
- 文學描寫辭典
- 2024年《藥事管理與法規》期末考試復習題庫(含答案)
評論
0/150
提交評論