




已閱讀5頁,還剩76頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計決策1、統計決策3要素1樣本空間和分布族集人口的分布函數x為F(x;),這是一個未知參數,如果x1,xn是來自總體X的樣本,該樣本的所有可能值的集合被稱為樣本空間,其被記錄為X,2決策空間(決策空間)。對于任何參數估計,每個特定的估計都是一個答案,這被稱為決策。統計問題中所有可能的決策集合稱為決策空間,一個決策空間應該至少有兩個決策。3損失函數統計決策的一個基本假設是,每一個決策都必須有一定的后果。統計決策是以定量的形式表達不同的決策。常見的損失函數包括:(1)線性損失函數絕對損失函數(2)平方損失函數(3)凸損失函數(4)多元二次損失函數(2)統計決策函數和風險函數(1)統計決策函數定義(3.1):在樣本空間x上定義,在決策空間a取值的函數d(x)稱為統計決策函數。簡而言之,決策功能是一個行動計劃。如果用表達式處理,d(X)=d(X1,x2,xn)本質上是一個統計數據。風險函數決策函數d (x)完全取決于樣本。損失函數l(,d)也是樣本x的函數。當樣本取不同的值x時,決策d (x)可能不同。因此,損失函數值L(,d)也是不同的,并且不可能判斷決策的質量。一般來說,決策函數是從整體的角度進行評估和比較的,并取平均損失。也就是說,風險函數定義3.2設定了樣本空間,分布族是X,F*,決策空間是A,損失函數是L(,D),d(X)是決策函數,而風險函數的決策函數是D (x),r(,D),它表示平均損失(L(,D)是由決策引起的數學期望d(X),以及卓越標準。定義3.3將d1和d2設置為統計問題中的兩個決策函數。如果風險函數滿足不等式,則決策函數D1優于D2。定義3.4將D=d(X)設置為在樣本空間X上定義并在決策空間A上采用的所有決策函數。如果存在決策函數d*(X),則對于任何d(X),可以說d*(X)是一致的最小風險決策函數或一致的最優決策函數。問題概述:1風險函數是二元函數,極值通常不存在或不唯一。2在某個時間間隔內逐點比較是不現實的(麻煩的)3對應不同的參數。對于相同的決策函數,風險值不相等。4統計規律的特點決定了點對點的比較是不可能的。5點對點比較必須由整體指數代替。2.貝葉斯估計,1)統計推斷的基礎,古典學派的觀點:統計推斷是根據樣本信息推斷人口分布或人口特征的數量,這里使用兩種信息:人口信息和樣本信息;貝葉斯學派的觀點:除了上述兩種信息,統計推斷還應該使用第三種信息:先驗信息。(1)一般信息:一般分發提供的信息。(2)樣本信息:由通過提取樣本獲得的觀察值提供的信息。(3)先驗信息:人們總是對實驗前要做的問題有所了解,既有經驗也有數據,這有助于統計推斷。先驗信息是抽樣(測試)前關于統計問題的一些信息。一般來說,先驗信息來自經驗和歷史數據。先驗信息在日常生活和工作中非常重要。基于上述三種信息進行統計推斷的統計稱為貝葉斯統計。它和經典統計學的區別在于是否使用先驗信息。貝葉斯統計注重先驗信息的收集、挖掘和處理,同時利用總體信息和樣本信息對其進行量化,形成先驗分布,并參與統計推斷,以提高統計推斷的質量。忽視使用先驗信息有時是一種浪費,有時會導致不合理的結論。貝葉斯學派的基本觀點是,任何未知量都可以視為隨機變量(1)參數是隨機的,但有一定的分布規律。(2)參數是常數,但目標是未知的:充分利用參數的先驗信息,對未知參數進行更精確的估計。貝葉斯方法是一種將未知參數視為分布已知的隨機變量,將先驗信息數字化并加以利用的方法。通常,先前的分配被標記為()。3)將貝葉斯公式的密度函數形式(后驗分布)設置為種群X的分布密度函數P(X);在貝葉斯統計中,它被表示為p (x |),當隨機變量取給定值時,它代表總體的條件概率密度函數。p(x;)=p (x |)根據參數的先驗信息確定先驗分布()。樣本x1,x2,xn集成了該分布的總體信息和樣本信息;0未知,它是根據先驗分布()生成的。為了整合先驗信息,我們不僅要考慮0,還要考慮其他值出現的可能性。因此,我們需要使用()進行集成。這樣,樣本x1的聯合分布,xn和參數為:f (x1,x2,xn),)=q (x1,x2,xn)(),并簡單地表示為f (x),)=q (x)()。這種聯合分布綜合了三種可用信息,即總體信息、樣本信息和先驗信息。在樣本觀察值x1,x2,xn都得到了,這個推論應該是根據f (x)作出的。因為f (x,)=h (x1,x2,xn) m (x1,x2,xn),其中m (x1,x2,xn)是x1,x2,xn,這是無關緊要的。因此,只有條件分布h (x1,x2,xn)可用于進行推斷。它的計算公式是,這種條件分布被稱為后驗分布,它將所有相關信息集中在總體、樣本和先驗中。后驗分布h (x1,x2,xn)是由密度函數表示的貝葉斯公式。這是用總體和樣本調整先驗分布()的結果。貝葉斯統計的所有推論都基于后驗分布。4)共軛先驗分布,定義:假設總體的分布密度x是p (x |),F*是一個分布族,()是的任何先驗分布,() F*,如果樣本的任何觀察值x的后驗分布h p(x| x)仍在F*之內,f *稱為關于分布密度p(x |)的共軛先驗分布族,簡稱共軛族。共軛先驗分布的計算方法如下:給定分布(似然函數)q (x |)和先驗分布();根據貝葉斯公式,h (x |)=() q (x)/m(x)被重寫為h (x |) q (x)的異常密度函數,因為m(x)是獨立的。它是h (x |)的主要部分,被稱為h (x |)的內核。實施例8x1,x2,xn來自正態分布n(,2)的樣本,其中已知找到方差2的共軛先驗分布。實施例9x1,x2,xn來自二項式分布b (n)的樣本,得到共軛先驗分布,計算共軛先驗分布的方法為1。h q(x|x)=()q (x |)/m (x),m(x)不依賴于首先找到q(x | ),然后選擇與q(x |)形式相同的分布作為先驗分布,即共軛分布2。當參數有適當的統計量時,設x的分布密度為p (x |),t (x)為充分統計量,然后由定理3.1得到共軛先驗分布族。定理3.1將f()設置為滿足的任何固定函數。如果后驗分布h (x)和()屬于同一分布族,則該分布族稱為共軛先驗分布(族)。二項式分布b (n)中成功概率的共軛先驗分布是分布be (a,b);泊松分布中均值的共軛先驗分布為分布;指數分布中均值倒數的共軛先驗分布是分布(,當方差已知時,正態均值的共軛先驗分布是正態分布n(,2);當平均值已知時,正態方差2的共軛先驗分布是逆分布i(,)。,5)貝葉斯風險,定義:貝葉斯風險在給定的先驗分布下稱為決策函數d(X),貝葉斯風險簡稱為d(X),相當于一個尋找兩個期望的隨機損失函數,一個為后驗分布,一個為X的邊緣分布,6)貝葉斯點估計,定義:假設分布函數中的參數是隨機變量,而分布函數中的參數是先驗分布。如果在決策函數類d中有一個決策函數d*(X),那么對于決策函數類d中的任何決策函數d(X),都有一個稱為d*(X)參數的貝葉斯估計器,定理3.2中的先驗分布集是(),損失函數是l(,d)=(-d) 2,那么貝葉斯估計器是后驗密度,其中h (| x)是參數。定理3.3-3.7。給出了不同損失函數下的貝葉斯估計,但沒有得到證明。定理3.3將先驗分布設置為(),并將損失函數作為加權平方損失函數。定理3.4設置了(1,2,假設d=d(x)是任何決策函數,損失函數為L(,d),則后驗分布H (| x)的數學期望為L(,(d)稱為后驗風險。有記錄表明,如果存在決策函數d*(x),則d*(x)被稱為后驗風險標準下的最優決策函數。定理3.5等價于給定統計決策問題(包括先驗分布)和決策函數類D的貝葉斯后驗決策函數d*(x)。定理3.6將先驗分布設置為(),具有絕對損失函數的貝葉斯估計d*(x)是后驗分布h (| x)的中值。定理3.7將先驗分布設置為(),具有線性損失函數的貝葉斯估計d*(x)是后驗分布h (| x)的k1/(k0 k1)的上分位數。通常使用基于后驗分布h (x)的貝葉斯估計。常用的有以下三種:利用后驗分布的最大密度函數的點估計稱為最大后驗估計;使用后驗分布中值的點估計稱為后驗中值估計。使用后驗分布均值的點估計稱為后驗期望估計。最常用的是后驗期望估計,簡稱貝葉斯估計,記錄為。根據總體x的分布,條件概率q (x |) 2。在已知的先驗分布()下,聯合分布密度f (x,=)q(x |)3。邊緣分布m(x)4。計算h (| x)=() q (x |)/m (x) 5。數學期望。必要時的貝葉斯風險。例3.11設置總體XB(1,p),其中參數p是未知的,并服從0,1上的均勻分布。損失函數采用二次損失函數l(,d)=(-d) 2,并計算參數p的貝葉斯估計和貝葉斯風險。如果在測試之前不知道事件a,則沒有關于其發生概率的信息。貝葉斯自己建議采用“相等無知”的原則,并使用區間(0,1)上的均勻分布U(0,1)作為先驗分布,因為(0,1)上的每個點都有相等的機會。貝葉斯的這一提議被后人稱為貝葉斯假說。在某些情況下,貝葉斯估計比最大似然估計更合理。例如,“抽樣3所有合格產品”和“抽樣10所有合格產品”比前者更可靠。這種差異沒有反映在不合格品率的最大似然估計中(兩者均為0),而貝葉斯估計分別為0.2和0.83。由此可見,在這些極端情況下,貝葉斯估計比最大似然估計更符合人們的想法。對于給定的損失函數l(,d)=(-d) 2,獲得貝葉斯估計,例如3.15x1,x2,xn來自正態分布n(,02)的樣本,其中02是已知和未知的,并且假設的先驗分布是正態分布n(,2),其中先驗均值和先驗方差2都是已知的,并且嘗試貝葉斯估計。解:樣本X的聯合分布和的先驗分布分別是,因此X的聯合分布可以寫成。如果有,請注意,A、B和C是不相關的。樣本的邊緣密度函數可以應用貝葉斯公式得到后驗分布。這表明在給定樣本后,后驗分布是N(B/A,1/A),即| X N (B/A,1/A)。后驗均值是它的貝葉斯估計:它是樣本均值和先驗均值的加權平均值。貝葉斯估計的誤差,貝葉斯區間估計,兩個區間估計之間的差異1)構造一個統計量并獲得其概率分布2)在步驟之前使用參數的后驗分布區間估計來解決相同的貝葉斯點估計;在獲得后驗分布后,根據置信水平,分離單邊和雙邊查找表以獲得置信的上界和下界。注:貝葉斯區間估計的置信區間較短;貝葉斯點估計不再需要無偏性。實施例3.15x1,x2,xn來自正態分布n(,02)的樣本,其中02是已知和未知的,假設的先驗分布是正態分布n(,2),其中先驗均值和先驗方差2都是已知的,嘗試貝葉斯區間估計。解決方案:根據貝葉斯點估計,在例3.16中,測試一個孩子的智力x=115,結果是x n(,100),這是智商。根據經驗 n (100,225),得出兒童智商的0.95貝葉斯置信區間解:由以上結論,后驗分布服從正態分布,最大和最小估計(最大和最小)最小。定義:D是一組決策函數。如果有d* (x)=d * (x1,x2,xn),d * d,因此對于任何決策函數d (x1,x2,xn)中,總是有一個稱為d *的最大和最小決策函數,當可以獲得上界時,可以記錄問題解決步驟(1)在d (2)中找到所有決策函數的最大風險,從所有最大風險值中選擇最小值,并且對應于該最小值的決策函數是最大和最小決策函數。讓我們假設總體x服從兩點分布,并試圖找到p的極大極小估計,其中的解是:決策空間是A=0.25,0.5,選擇容量為1的子樣本,x只能取0,1a只能取0.25,0.5,那么決策函數d(x)有四個:風險函數R(p,d),min(maxR(pi,dj)=5/2,極大極小估計是R(p,d)例如,地質學家將地層狀態分為兩種類型:0和1,并將局部非油記錄為0,油記錄為1。分配規則如下表所示。決策空間是A=a1,a2,a3,其中a1是鉆探石油,a2是出售土地,a3是發展旅游業。損失函數l(,a)記下表,決策函數d(x)記下表(n=1)(9個決策函數),風險函數r (I,DJ)和最大值表。可以看出,min (maxr(,di)=5.4,并且其對應的決策函數是d4,因此d4是這個統計決策問題的最大和最小決策函數。D4是:d4(0)=a2,d4(1)=a1,也就是說,當地質學家斷定沒有石油時,賣掉土地,在有石油時鉆探石油。r(,d)計算的例子,定理3.8給出了一個統計決策問題,如果有先驗分布的貝葉斯決策函數,風險函數是一個常數,那么決策函數必須是統計問題的最大和最小決策函數。如果給定的統計決策問題是參數的點估計,在定理條件下,相應的決策函數必須是參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DBJ04-T282-2025 《行道樹栽植技術規程》
- 汽車傳感器與檢測技術電子教案:柴油機煙度傳感器
- 推進中國政治文化現代化之基本路徑論析
- 佛山顏峰高科技農業生態園項目建議及可行性研究報告
- 介紹民族大聯歡活動方案
- 倉儲團隊激勵活動方案
- 倉鼠訓練活動方案
- 代理補貨活動方案
- 以色列旅游跨年活動方案
- 儀隴縣工會活動方案
- 晉升品質主管述職報告
- 雷火灸技術操作流程圖及考核標準
- 北師大版三年級下冊數學全冊教案(完整版)教學設計含教學反思
- 電力安全生產十大禁令
- 基于機器學習算法的泰坦尼克生還預測
- 農村自建房流程
- 組織內外部環境因素的相關方需求和期望分析與風險和機遇識別評價分析
- 資產處置培訓課件
- 醫院安全生產培訓內容
- 《乳腺癌外科治療》課件
- 《中藥調劑技術》課件-中藥飲片調劑
評論
0/150
提交評論