




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章貝葉斯估計
§6.1貝葉斯推斷方法一、統計推斷中可用的三種信息
美籍波蘭統計學家耐(E.L.Lehmann1894~1981)高度概括了在統計推斷中可用的三種信息:1.總體信息,即總體分布或所屬分布族給我們的信息。譬如“總體是指數分布”或“總體是正態分布”在統計推斷中都發揮重要作用,只要有總體信息,就要想方設法在統計推斷中使用。2.樣本信息,即樣本提供我們的信息,這是任一種統計推斷中都需要。13.先驗信息,即在抽樣之前有關統計推斷的一些信息。譬如,在估計某產品的不合格率時,假如工廠保存了過去抽檢這種產品質量的資料,這些資料(包括歷史數據)有時估計該產品的不合格率是有好處的。這些資料所提供的信息就是一種先驗信息。又如某工程師根據自己多年積累的經驗對正在設計的某種彩電的平均壽命所提供的估計也是一種先驗信息。由于這種信息是在“試驗之前”就已有的,故稱為先驗信息。以前所討論的點估計只使用前兩種信息,沒有使用先驗信息。假如能把收集到的先驗信息也利用起來,那對我們進行統計推斷是有好處的。只用前兩種信息的統計學稱為經典統計學,三種信息都用的統計學稱為貝葉斯統計學。本節將簡要介紹貝葉斯統計學中的點估計方法。2二、貝葉斯公式的密度函數形式貝葉斯統計學的基礎是著名的貝葉斯公式,它是英國學者貝葉斯(T.R.Bayes1702~1761)在他死后二年發表的一篇論文《論歸納推理的一種方法》中提出的。經過二百年的研究與應用,貝葉斯的統計思想得到很大的發展,形成一個統計學派—貝葉斯學派。為了紀念他,英國歷史最悠久的統計雜志《Biometrika》在1958年又全文刊登貝葉斯的這篇論文。初等概率論中的貝葉斯公式是用事件的概率形式給出的??稍谪惾~斯統計學中應用更多的是貝葉斯公式的密度函數形式。下面結合貝葉斯統計學的基本觀點來引出其密度函數形式。貝葉斯統計學的基本觀點可以用下面三個觀點歸納出來。3假設Ⅰ:隨機變量X有一個密度函數p(x;θ),其中θ是一個參數,不同的θ對應不同的密度函數,故從貝葉斯觀點看,p(x;θ)在給定θ后是個條件密度函數,因此記為p(x│θ)更恰當一些。這個條件密度能提供我們的有關的θ信息就是總體信息。假設Ⅱ:當給定θ后,從總體p(x│θ)中隨機抽取一個樣本X1,…,Xn,該樣本中含有θ的有關信息。這種信息就是樣本信息。假設Ⅲ:我們對參數θ已經積累了很多資料,經過分析、整理和加工,可以獲得一些有關θ的有用信息,這種信息就是先驗信息。參數θ不是永遠固定在一個值上,而是一個事先不能確定的量。4從貝葉斯觀點來看,未知參數θ是一個隨機變量。描述這個隨機變量的分布可從先驗信息中歸納出來,這個分布稱為先驗分布,其密度函數用π(θ)表示。1先驗分布定義6.1將總體中的未知參數θ∈Θ看成一取值于Θ的隨機變量,它有一概率分布,記為π(θ),稱為參數θ的先驗分布。2后驗分布在貝葉斯統計學中,把以上的三種信息歸納起來的最好形式是在總體分布基礎上獲得的樣本X1,…,Xn,和參數的聯合密度函數
5在這個聯合密度函數中,當樣本給定之后,未知的僅是參數θ了,我們關心的是樣本給定后,θ的條件密度函數,依據密度的計算公式,容易獲得這個條件密度函數這就是貝葉斯公式的密度函數形式,稱為θ的后驗密度函數,或后驗分布。而
6是樣本的邊際分布,或稱樣本的無條件分布,它的積分區域就是參數θ的取值范圍,隨具體情況而定。前面的分析總結如下:人們根據先驗信息對參數θ已有一個認識,這個認識就是先驗分布π(θ)。通過試驗,獲得樣本。從而對θ的先驗分布進行調整,調整的方法就是使用上面的貝葉斯公式,調整的結果就是后驗分布。后驗分布是三種信息的綜合。獲得后驗分布使人們對θ的認識又前進一步,可看出,獲得樣本的的效果是把我們對θ的認識由π(θ)調整到。所以對θ的統計推斷就應建立在后驗分布的基礎上。7例1設事件A的概率為,即。為了估計而作n次獨立觀察,其中事件A出現次數為X,則有X服從二項分布即如果此時我們對事件A的發生沒有任何了解,對的大小也沒有任何信息。在這種情況下,貝葉斯建議用區間(0,1)上的均勻分布作為的先驗分布。因為它在(0,1)上每一點都是機會均等的。這個建議被后人稱為貝葉斯假設。
8此式在定義域上與二項分布有區別。再計算X的邊際密度為樣本X與參數的聯合分布為即9貝葉斯統計學首先要想方設法尋求θ的先驗分布。先驗分布的確定大致可分以下幾步:第一步,選一個適應面較廣的分布族作先驗分布族,使它在數學處理上方便一些,這里我們選用β分布族10注:
作為θ的先驗分布族是恰當的,可從以下幾方面理解:1參數θ是廢品率,它僅在(0,1)上取值。因此,必需用區間(0,1)上的一個分布去擬合先驗信息。β分布正是這樣一個分布。2β分布含有兩個參數a與b,不同的a與b就對應不同的先驗分布,因此這種分布的適應面較大。113樣本X的分布為二項分布b(n,θ)時,假如θ的先驗分布為β分布,則用貝葉斯估計算得的后驗分布仍然是β分布,只是其中的參數不同。這樣的先驗分布(β分布)稱為參數θ的共軛先驗分布。選擇共軛先驗分布在處理數學問題上帶來不少方便。4國內外不少人使用β分布獲得成功。第二步,根據先驗信息在先驗分布族中選一個分布作為先驗分布,使它與先驗信息符合較好。利用θ的先驗信息去確定β分布中的兩個參數a與b。從文獻來看,確定a與b的方法很多。例如,如果能從先驗信息中較為準確地算得θ先驗平均和先驗方差,則可令其分別等于β分布的期望與方差最后解出a與b。12如果從先驗信息獲得則可解得a=3,b=12這意味著θ的先驗分布是參數a=3,b=12的β分布。假如我們能從先驗信息中較為準確地把握θ的兩個分位數,如θ確定的10%分位數θ0.1和50%的中位數θ0.5,那可以通過如下兩個方程來確定a與b。13假如的信息較為豐富,譬如對此產品經常進行抽樣檢查,每次都對廢品率作出一個估計,把這些估計值看作的一些觀察值,再經過整理,可用一個分布去擬合它。假如關于的信息較少,甚至沒有什么有用的先驗信息,那可以用區間(0,1)上的均勻分布(a=b=1情況)。用均勻分布意味著我們對的各種取值是“同等對待的”,是“機會均等的”。14貝葉斯本人認為,當你對參數θ的認識除了在有限區間(c,d)之外,其它毫無所知時,就可用區間(c,d)上的均勻分布作為θ的先驗分布。這個看法被后人稱之為“貝葉斯假設”。確定了先驗分布后,就可計算出后驗分布,過程如下:
x=0,1,…,n,0<θ<1于是X的邊際分布為
15最后在給出X=x的條件下,θ的后驗密度為顯然這個后驗分布仍然是β分布,它的兩個參數分別是a+x和b+n-x。我們選后驗期望作為的貝葉斯估計,則θ的貝葉斯估計為
與前面的極大似然估計是不同的。
16如果用(0,1)上的均勻作為θ的先驗分布,則θ的貝葉斯估計為
計算如下:
后驗分布為
17
三、常用的一些共軛先驗分布
對于一些常用的指數分布族,如果僅對其中的參數θ感興趣,下表列出了它們的共軛先驗分布及后驗期望。分布共軛先驗分布
后驗期望正態分布正態分布二項分布
β分布
Poisson分布
Γ分布Γ(a,b)18EX1設θ是一批產品的不合格率,已知它不是0.1就是0.2,且其先驗分布為π(0.1)=0.7,π(0.2)=0.3假如從這批產品中隨機取8個進行檢查,發現有2個不合格,求θ的后驗分布。解:19EX2設一卷磁帶上的缺陷數服從泊松分布P(λ)其中λ可取1.0和1.5中的一個,又設λ的先驗分布為
π(1.0)=0.4,π(1.5)=0.6假如檢查一卷磁帶發現了3個缺陷,求λ的后驗分布。20
四、貝葉斯推斷(估計)
Ⅰ條件方法
由于未知參數的后驗分布是集三種信息(總體、樣本和先驗)于一身,它包含了所有可供利用的信息。故有關的參數估計和假設檢驗等統計推斷都按一定方式從后驗分布提取信息,其提取方法與經典統計推斷相比要簡單明確得多。基于后驗分布的統計推斷就意味著只考慮已出現的數據(樣本觀察值)而認為未出現的數據與推斷無關,這一重要的觀點被稱為“條件觀點”,基于這種觀點提出的統計方法被稱為條件方法。21例如經典統計學認為參數的無偏估計應滿足:其中平均是對樣本空間中所有可能出現的樣本而求的,可實際中樣本空間中絕大多數樣本尚未出現過,而多數從未出現的樣本也要參與平均是實際工作者難以理解的。故在貝葉斯推斷中不用無偏性,而條件方法是容易被實際工作者理解和接受的。22Ⅱ估計1.貝葉斯估計
定義3.2使后驗密度達到最大的值稱為最大后驗估計;后驗分布的中位數稱為后驗中位數估計;后驗分布的期望值稱為的后驗期望值估計,這三個估計都稱為貝葉斯估計,記為。例1為估計不合格率,今從一批產品中隨機抽取n件,其中不合格品數X服從,我們假定為的先驗分布,設已知,由共軛先驗分布可知,的后驗分布為可計算得:
23選用貝葉斯假設,則
第一、在二項分布時,的最大后驗估計就是經典統計中的極大似然估計,即的極大似然估計就是取特定的先驗分布下的貝葉斯估計。第二、的后驗期望值估計要比最大后驗估計更合適一些。表3.1列出四個實驗結果,在試驗1與試驗2中,“抽檢3個產品沒有一件不合格”與抽檢10個產品沒有一件是不合格”這兩件事在人們心目中留下的印象是不同的。后者的質量要比前者的質量更信得過。24試驗號樣本量n不合格數x13000.200210000.08333310.8004101010.917
表6.1不合格率的二種貝葉斯估計的比較
25在試驗3和試驗4中,“抽檢3個產品全部不合格”與抽檢“10個產品全部不合格”也是有差別的。在實際中,人們經常選用后驗期望估計作為貝葉斯估計。2.貝葉斯估計的誤差
設是的一個貝葉斯估計,在樣本給定后,是一個數,在綜合各種信息后,是按取值,所以評價一個貝葉斯估計的誤差的最好而又簡單的方式是用θ對的后驗均方差或平方根來度量,定義如下:稱為的后驗均方差,而其平方根稱為后驗標準差.定義6.2設參數θ的后驗分布為,貝葉斯估計為,則26當時,則,稱為后驗均方差.后驗均方差與后驗方差有如下關系:這表明,當時,可使后驗均方差達到最小,實際中常取后驗均值作為的貝葉斯估計值.27例2設一批產品的不合格率為,檢查是一個一個進行,直到發現第一個不合格品為止,若X為發現第一個不合格品時已檢查的產品數,則X服從幾何分布,其分布列為設的先驗分布為,如今只獲得一個樣本觀察值x=3,求的最大后驗估計,后驗期望估計,并計算它的誤差.聯合分布為
X=3的無條件概率為(利用全概率公式)28故或
可看出,的最大后驗估計
的后驗方差為293.區間估計(可信區間)
對于區間估計問題,貝葉斯方法具有處理方便和含義清晰的優點,而經典方法求置信區間常受到批評.定義6.3參數的后驗分布為,對給定的樣本和概率,若存在這樣的二個統計量與,使得則稱區間為參數的可信水平為貝葉斯可信區間,或簡稱為的可信區間.而滿足30的稱為的(單側)可信下限.
滿足的稱為的(單側)可信上限.這里的可信水平和可信區間與經典統計中的置信水平與置信區間雖是同類的概念,但兩者還是有本質的差別,主要表現在下面二點:1.
在條件方法下,對給定的樣本和可信水平,通過后驗分布可求得具體的可信區間,譬如,的可信水平為0.9的可信區間是,這時我們可以寫出31
2.在經典統計中尋求置信區間有時是困難的,因為它要設法構造一個樞軸量,使它的分布不含未知參數,這是一項技術性很強的工作.相比之下可信區間只要利用后驗分布,不需要再去尋求另外的分布,可信區間的尋求要簡單得多.例3設是來自正態總體的一個樣本觀察值,其中已知,若正態均值的先驗分布取為,其中與已知,則可求得的后驗分布為,由此獲得的可信區間32EX1設隨機變量X的密度函數為(1)假如θ的先驗分布為U(0,1),求θ的后驗分布.(2)假如θ的先驗分布為求θ的后驗分布及后驗期望估計336.2貝葉斯決策方法
決策就是對一件事作決定。它與推斷的差別在于是否涉及后果。統計學家在作推斷時是按統計理論進行的,但很少考慮結論在使用后的損失。可決策者在使用推斷時必需與得失聯系在一起,能帶來利潤的就會使用,使他遭受損失的就不會采用,度量得失的尺度就是損失函數。它是著名的統計學家A.Wald(1902-1950)在40年代引入的一個概念。從實際歸納出損失函數是決策的關鍵。貝葉斯決策:把損失函數加入貝葉斯推斷就形成貝葉斯決策論,損失函數被稱為貝葉斯統計中的第四種信息。34一、決策的基本概念3-2014-3-4-12例1設甲乙二人進行一種游戲,甲手中有三張牌,分別標以。乙手中也有三張牌,分別標以。游戲的規則是雙方各自獨立的出牌,按下表計算甲的得分與乙的得分。35這是一個典型的雙人博弈(賭博)問題。不少實際問題可歸納為雙人博弈問題。把上例中的乙方改為自然或社會,就形成人與自然(或社會)的博弈問題。例2農作物有兩個品種:產量高但抗旱能力弱的品種和抗旱能力強但產量低的品種。在明年雨量不知的情況下,農民應該選播哪個品種可使每畝平均收益最大?這是人與自然界的博弈。以明年60mm雨量為界來區分雨量充足和雨量不充足。寫出收益矩陣(單位:元)100020010040036例3一位投資者有一筆資金要投資,有以下幾個投資供他選擇:購買股票,根據市場情況,可凈賺5000元,但可能使他虧損10000元存入銀行,不管市場情況如何總可凈賺1000元這位投資者在金融市場博弈。未來的金融市場也有兩種情況:看漲與看跌可寫出投資者的收益矩陣50001000-100001000投資者將依據收益矩陣決定他的資金投向何方這種人與自然(或社會)的博弈問題稱為決策問題37二、決策的三要素1狀態集,其中每個元素表示自然界(或社會)可能出現的一種狀態,所有可能狀態的全體組成狀態集。2行動集,其中a表示人對自然界可能采取的一個行動一般行動集有兩個以上的行動可供選擇。若有兩個行動無論對自然界的哪一個狀態出現,總比收益高,則就沒有存在的必要,可把它從行動集中去掉,使留在行動集中的行動總有可取之處。383收益函數,函數值表示當自然界處于狀態,而人們選取行動時所得到的收益大小。收益函數的值可正可負,若正表示盈利,負表示虧損,單位常用貨幣單位,收益函數的建立不是件容易的事,要對所研究的問題有全面的了解才能建立起來。收益矩陣39三、損失函數1、從收益到損失為了統一處理,在決策中常用一個更為有效的概念:損失函數。在狀態集和行動集都為有限時用損失矩陣。這里的損失函數不是負的收益,也不是虧損。例如,某商店一個月的經營收益為-1000元,即虧1000元。這是對成本而言。我們不能稱為損失,而稱其為虧損。我們講的損失是指“該賺而沒有賺到的錢”,例如該店本可以賺2000元,當由于某種原因虧了1000元,那我們說該店損失了3000元。用這種觀點認識損失對提高決策意識是有好處的。按上述觀點從收益函數可以很容易獲得損失函數。40例4某公司購進某種貨物可分大批、中批和小批三種行動,記為,未來市場需求量可分為高、中、低三種狀態,記為,三個行動在不同的市場的利潤如下這是一個收益矩陣,我們把它改寫為損失矩陣如下:412、損失函數構成決策問題的三要素:由收益函數容易獲得損失函數例5某公司購進一批貨物投放市場,若購進數量a低于市場需求量,每噸可賺15萬元。若購進數量超過市場需求量,超過部分每噸反要虧損35萬元。由此可寫出收益函數42顯然,當購進數量a等于市場需求量時,收益達到最大433、損失函數下的保守準則第一步,對每個行動a選出最大損失值,記為第二步,在所有選出的最大損失中再選出最小者,則滿足則稱為保守準則下的最優行動,這是一種保守策略,不求零損失,但愿少損失例4幻燈片41在保守準則下,第一步的最大損失值依次為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋品加工過程中的食品安全管理體系考核試卷
- 嵌入式云平臺的應用試題及答案
- 織造設備的數據分析與優化考核試卷
- 專業嵌入式考試準備試題及答案
- 行政管理實操能力考核試題及答案
- 數據庫監管合規性考查試題及答案
- 應用程序監控與測試的關系試題及答案
- 如何提高公路工程考試通過率試題及答案
- 計算機四級軟件測試工程師考點與試題及答案
- 信息系統監理師全面備考方案試題及答案
- 2025年青桐鳴高三語文3月大聯考作文題目解析及相關范文:道理是直的道路是彎的
- 腫瘤免疫治療綜述
- 《基于Android客戶端的助老APP的設計與實現》8400字(論文)
- 三菱D700變頻器說明書
- 高校實驗室安全教育
- 2025-2030年中國威士忌酒行業運行動態及前景趨勢預測報告
- 小學生記憶小竅門課件
- 婚姻家庭與法律知到智慧樹章節測試課后答案2024年秋延邊大學
- 手術患者評估制度理論考核試題
- 《傷寒論》課件-少陽病提綱、小柴胡湯證
- 高速鐵路客運服務基礎知識單選題100道及答案
評論
0/150
提交評論