上部分課內容總結_第1頁
上部分課內容總結_第2頁
上部分課內容總結_第3頁
上部分課內容總結_第4頁
上部分課內容總結_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、上節課內容總結統計推斷基本概念統計模型:參數模型與非參數模型統計推斷/模型估計:點估計、區間估計、假設檢驗估計的評價:無偏性、一致性、有效性、MSE偏差、方差、區間估計CDF估計:點估計、偏差、方差及區間估計統計函數估計點估計區間估計/標準誤差影響函數BootstrapBootstrap也可用于偏差、置信區間和分布估計等計算1本節課內容重采樣技術(resampling)Bootstrap刀切法(jackknife)2引言 是一個統計量,或者是數據的某個函數,數據來自某個未知的分布F,我們想知道 的某些性質(如偏差、方差和置信區間)假設我們想知道 的方差如果 的形式比較簡單,可以直接用上節課學習

2、的嵌入式估計量 作為 的估計例: ,則 ,其中 ,其中問題:若 的形式很復雜(任意統計量),如何計算/估計?3Bootstrap簡介Bootstrap是一個很通用的工具,用來估計標準誤差、置信區間和偏差。由Bradley Efron于1979年提出,用于計算任意估計的標準誤差術語“Bootstrap”來自短語“to pull oneself up by ones bootstraps” (源自西方神話故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,沒有工具,所以他想到了拎著鞋帶將自己提起來)計算機的引導程序boot也來源于此意義:不靠外界力量,

3、而靠自身提升自己的性能,翻譯為自助/自舉1980年代很流行,因為計算機被引入統計實踐中來4Bootstrap簡介Bootstrap:利用計算機手段進行重采樣一種基于數據的模擬(simulation)方法,用于統計推斷。基本思想是:利用樣本數據計算統計量和估計樣本分布,而不對模型做任何假設(非參數bootstrap)無需標準誤差的理論計算,因此不關心估計的數學形式有多復雜Bootstrap有兩種形式:非參數bootstrap和參數化的bootstrap,但基本思想都是模擬5重采樣通過從原始數據 進行n次有放回采樣n個數據,得到bootstrap樣本對原始數據進行有放回的隨機采樣,抽取的樣本數目同

4、原始樣本數目一樣如:若原始樣本為則bootstrap樣本可能為6計算bootstrap樣本重復B次,1. 隨機選擇整數 ,每個整數的取值范圍為1, n,選擇每個1, n之間的整數的概率相等,均為2. 計算bootstrap樣本為:Web上有matlab代碼:BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, toolbox.htmlMatlab函數:bootstrp7Bootstrap樣本在一次bootstrap采樣中,某些原始樣本可能沒被采到,另外一些樣本可能被采樣多次在一個bootstrap樣本集中

5、不包含某個原始樣本 的概率為一個bootstrap樣本集包含了大約原始樣本集的1-0.368 = 0.632,另外0.368的樣本沒有包括8模擬假設我們從 的分布 中抽取IID樣本 ,當 時,根據大數定律,也就是說,如果我們從 中抽取大量樣本,我們可以用樣本均值 來近似當樣本數目B足夠大時,樣本均值 與期望 之間的差別可以忽略不計9模擬更一般地,對任意均值有限的函數h,當 有則當 時,有用模擬樣本的方差來近似方差10模擬怎樣得到 的分布?已知的只有X,但是我們可以討論X的分布F如果我們可以從分布F中得到樣本 ,我們可以計算怎樣得到F?用 代替(嵌入式估計量)怎樣從 中采樣?因為 對每個數據點

6、的質量都為1/n 所以從 中抽取一個樣本等價于從原始數據隨機抽取一個樣本也就是說:為了模擬 ,可以通過有放回地隨機抽取n個樣本(bootstrap 樣本)來實現11Bootstrap:一個重采樣過程重采樣:通過從原始數據 進行有放回采樣n個數據,得到bootstrap樣本模擬:為了估計我們感興趣的統計量 的方差/中值/均值,我們用 bootstrap樣本對應的統計量(bootstrap復制) 近似,其中12例:中值X = (3.12, 0, 1.57, 19.67, 0.22, 2.20)Mean=4.46X1=(1.57,0.22,19.67, 0,0,2.2,3.12)Mean=4.13X

7、2=(0, 2.20, 2.20, 2.20, 19.67, 1.57)Mean=4.64X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22)Mean=1.7413Bootstrap方差估計方差: 其中注意:F為數據X的分布,G為統計量T的分布通過兩步實現:第一步:用 估計 插入估計,積分符號變成求和第二步:通過從 中采樣來近似計算Bootstrap采樣+大數定律近似14Bootstrap:方差估計Bootstrap的步驟:1.畫出2.計算3.重復步驟1和2共B次,得到4.(大數定律)(計算boostrap樣本)(計算boostrap復制)15例:混合高斯模型:假設真實

8、分布為現有n=100個觀測樣本:直接用嵌入式估計結果:16例:混合高斯模型(續)用Bootstrap計算統計量 的方差:1. 得到B=1000個bootstrap樣本 ,其中2. 計算B=1000個bootstrap樣本對應的統計量的值 3. 與直接用嵌入式估計得到的結果比較:17Bootstrap:方差估計真實世界:Bootstrap世界:發生了兩個近似近似的程度與原始樣本數目n及bootstrap樣本的數目B有關18Bootstrap:方差估計在方差估計中, 可為任意統計函數如均值(混合高斯模型的例子)中值(偽代碼參見教材)偏度(例子參見教材)極大值(見后續例子)除了用來計算方差外,還可以

9、用作其他應用CDF近似、偏差估計、置信區間估計19CDF近似令 為 的CDF則 的bootstrap估計為20偏差估計偏差的bootstrap估計定義為:Bootstrap偏差估計的步驟為:得到B個獨立bootstrap樣本計算每個bootstrap樣本 對應的統計量的值計算bootstrap期望:計算bootstrap偏差:21例:混合高斯模型: 標準誤差估計在標準誤差估計中,B為50到200之間結果比較穩定偏差估計22Bootstrap置信區間正態區間:簡單,但該估計不是很準確,除非 接近正態分布 百分位區間: ,對應 的樣本分位數還有其他一些計算置信區間的方法如樞軸置信區間:23例:Bo

10、otstrap置信區間例8.6:Bootstrap方法的發明者Bradley Efron給出了下列用語解釋Bootstrap方法的例子。這些數據是LAST分數(法學院的入學分數)和GPA。計算相關系數及其標準誤差。24例8.6 (續)相關系數的定義為:相關系數的嵌入式估計量為:Bootstrap得到的相關系數插入估計的標準誤差為:標準誤差趨向穩定于25例8.6 (續)當B=1000時, 的直方圖為下圖,可近似為從 的分布采樣95%的正態區間為:95%的百分點區間為:當大樣本情況下,這兩個區間趨近于相同26非參數bootstrap過程總結對原始樣本數據 進行重采樣,得到B個bootstrap樣本

11、 ,其中b=1, , B 對每個bootstrap樣本 ,計算其對應的統計量的值(bootstrap復制)根據bootstrap復制 ,計算其方差、偏差和置信區間等稱為非參數bootstrap方法,因為沒有對F的先驗(即F的知識僅從樣本數據中獲得)27非參數bootstrap統計量/統計函數:沒有對F的先驗,F的知識僅從樣本數據中獲得(CDF估計),統計函數的估計變為嵌入式估計真實世界:Bootstrap世界:如方差計算中,發生了兩個近似近似的程度與樣本數目n及bootstrap樣本的數目B有關28Bootstrap的收斂性例:混合高斯模型: n=100個觀測樣本:4次試驗得到不同B的偏差和方

12、差的結果29Bootstrap的收斂性B的選擇取決于計算機的可用性問題的類型:標準誤差/偏差/置信區間/問題的復雜程度30Bootstrap失敗的一個例子 ,我們感興趣的統計量 為 的CDF用G表示則 的pdf為 31Bootstrap失敗的一個例子(續)對非參數bootstrap,令則所以 ,非參數bootstrap不能很好地模擬真正的分布32Bootstrap失敗的一個例子(續)假設樣本數目n=10,樣本為 ,取參數 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637) 非參數bootstra

13、p復制的直方圖B=1000,最高峰為理論結果:33Bootstrap失敗的一個例子為什么失敗?EDF 不是真正分布 的很好近似為了得到更好的結果,需要F的參數知識或者 的平滑性參數化的bootstrap表現很好,能很好模擬真正的分布34Bootstrap的收斂性給定n個IID數據 ,要求當 , 收斂于F 為 的嵌入式估計統計函數的平滑性平滑函數:均值、方差不平滑函數:數據的一個小的變化會帶來統計量的很大變化順序統計量的極值(極大值、極小值)35參數化的bootstrap真實世界:Bootstrap世界:與非參數的bootstrap相比:F的先驗用參數模型表示多了一個步驟:根據數據估計參數 (參

14、數估計),從而得到 不是經驗分布函數EDF重采樣:從估計的分布 采樣(產生隨機數)F的先驗36例: 非參數bootstrap失敗的例子 ,取參數 ,假設樣本數目n=10,樣本為 X = (0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)在參數bootstrap中:F的先驗:根據數據估計F中的參數:得到F的估計:從分布 產生B=1000個樣本 , 得到B個 , 直方圖如右圖的分布為真正的分布37參數化的bootstrap當F為參數模型時,參數化的bootstrap也可用于計算方差、偏差、置信區間等如計算方

15、差:0. 根據數據 估計 f 的參數 ,得到 f 的估計1. 抽取樣本2. 計算3. 重復步驟1和2 B次,得到4.38參數bootstrap Vs. 非參數的bootstrapF的先驗參數bootstrap中利用了分布F的先驗,表現為一個參數模型,因此多了一個步驟,估計F模型中的參數。當先驗模型正確時,參數bootstrap能得到更好的結果而非參數bootstrap不利用F的先驗知識就能得到正確的標準誤差(在大多數情況下)參數bootstrap能得到與Delta方法(計算變量的函數的方差)相當的結果,但更簡單重采樣參數bootstrap中,通過從分布 中產生隨機數,得到bootstrap樣本

16、,得到的樣本通常與原始樣本不重合非參數bootstrap中,通過對原始樣本進行有放回采樣實現對 的采樣,每個bootstrap樣本都是原始樣本集合的一部分二者相同的是模擬的思想39Bootstrap(參數/非參數)不適合的場合小樣本(n太小)原始樣本不能很好地代表總體分布Bootstrap只能覆蓋原始樣本的一部分,帶來更大的偏差結構間有關聯如時間/空間序列信號因為bootstrap假設個樣本間獨立臟數據奇異點(outliers)給估計帶來了變化40刀切法(jackknife)41引言Bootstrap方法并不總是最佳的。其中一個主要原因是bootstrap樣本是從 產生而不是從F產生。問題:能

17、完全從F采樣或重采樣嗎?如果樣本數目為n,答案是否定的!若樣本數目為m (m n),則可以從F中找到數目為m的采樣/重采樣,通過從原始樣本X得到不同的子集就可以!尋找原始樣本的不同子集相當于從觀測 進行無放回采樣,得到數目為m的重采樣樣本(在此稱為子樣本)這就是jackknife的基本思想。42刀切法(jackknife)Jackknife由Maurice Quenouille (1949)首先提出比bootstrap出現更早與bootstrap相比,Jackknife ( m=n-1) 對計算機不敏感。Jackknife為一種瑞士小折刀,很容易攜帶。通過類比, John W. Tukey (

18、1958)在統計學中創造了這個術語,作為一種通用的假設檢驗和置信區間計算的方法。43Jackknife樣本Jackknife樣本定義為:一次從原始樣本 中留出一個樣本 : Jackknife樣本中的樣本數目為m=n-1共有n個不同的jackknife樣本無需通過采樣手段得到 jackknife樣本BOOTSTRAP MATLAB TOOLBOX中也有該功能44Jackknife復制統計量為:Jackknife復制為:均值的jackknife復制為:45Jackknife方差估計 從原始樣本X中計算n個jackknife樣本計算n個jackknife復制:計算jackknife估計的方差: 46

19、例:計算均值的方差 ,則所以方差的無偏估計47例:計算均值的方差因子 比bootstrap中的因子 大多了。直觀上,因為jackknife 方差 比bootstrap中的方差 小得多(相比bootstrap樣本,jackknife樣本與原始樣本更相似事實上,因子 就是考慮特殊情況 得到的 (有點武斷)48例:混合高斯模型: Bootstrap結果:Jacknife結果:49例:混合高斯模型: 復制的直方圖1000個Bootstrap復制100個Jacknife復制Jackknife復制之間的差異很小,每兩個Jackknife樣本中只有兩個單個的原始樣本不同50Jackknife Vs. boo

20、tstrap當n較小時,能更容易(更快)計算 n個 jackknife復制。但是,與bootstrap 相比,jackknife只利用了更少的信息(更少的樣本) 。事實上, jackknife為bootstrap的一個近似(jackknife方差為bootstrap方差的一階近似)!估計樣本分位數時,jackknife計算的方差不是一致估計51Jackknife的其他應用Jackknife可用于類似bootstrap的應用,如偏差估計52Jackknife不適合的場合統計函數不是平滑函數:數據小的變化會帶來統計量的一個大的變化如極值、中值如對數據 X=(10,27,31,40,46,50,52,104,146)的中值得到的結果為48,48,48,48,45,43,43,43,43偶數個數的中值為最中間兩個數的平均值當函數不平滑時,可以用delete-d jackknife子采樣來彌補每個delete-d jackknife樣本中的樣本的數目為n-d共有 個不同的delete-d jackknife樣本d的取值:53參考文獻BooksAn Introduction to Bootstrap, B. Efron and R. J. Tibshirani, Chapman & Hall, 1998.Bootstrap Meth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論