




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二講基礎知識復習一、概率論基礎知識二、數理統計基礎知識1一、概率論基礎知識概率隨機變量概率密度函數多維隨機變量隨機變量的數字特征一些重要的概率分布2概率隨機試驗可以在相同條件下重復進行每次試驗的可能結果不止一個,但事先能明確所有的可能結果進行一次試驗之前不能確定會出現哪一個結果實例一枚硬幣拋擲兩次在北京師范大學校園里詢問任意一個學生的年齡3概率樣本空間(samplingspace)/總體(population)某一個隨機試驗的所有可能結果組成的集合,記為S樣本點(samplingpoint)樣本空間里的某一元素,即隨機試驗的某一可能結果實例一枚硬幣拋擲兩次,出現正面記為H,出現反面記為T樣本空間:{HH,HT,TH,TT}樣本點:HH,HT,TH,TT4概率事件(event)某一隨機試驗的樣本空間的一個子集實例:一枚硬幣拋擲兩次事件A:出現兩個正面事件B:出現一個正面和一個反面事件C:出現兩個反面5概率頻率(frequency)在相同條件下,某隨機試驗進行了n次,其中事件A發生了m次,則比值m/n稱為事件A發生的頻率,記fn(A)實例:拋擲一枚硬幣,事件A為出現正面n550500204840401200024000fn(A)0.70.540.4840.51810.50690.50160.5005當n逐漸增大時,頻率趨向于某一常數,稱為頻率穩定性6概率概率(probability)S是某一隨機試驗的樣本空間,對于其中的任意一個事件A賦予一個實數P(A),如果P(A)滿足下列三個條件,則稱P(A)為事件A的概率。當n趨近于無窮大時,頻率fn(A)無限接近于概率P(A),從而用概率來度量事件A在一次試驗中發生的可能性7概率條件概率(conditionalprobability)設A、B是兩個事件,且P(A)>0,稱下式為事件A發生的條件下事件B發生的條件概率:實例一枚硬幣拋擲兩次,出現正面記為H,出現反面記為T。事件A為“至少有一次H”,事件B為“兩次都是同一面”。則事件A的概率為3/4,事件A和B同時發生的概率為1/4,在A發生的條件下B發生的概率為1/38隨機變量隨機變量(stochastic/randomvariable)一個變量若它的值是由隨機試驗決定的,稱其為隨機變量。隨機變量通常用大寫字母X、Y、Z表示,其數值則用小寫字母x、y、z表示離散型隨機變量(discreterandomvariable)可能取到的值是有限個的隨機變量連續型隨機變量(continuousrandomvariable)可能取到的值是無限個的隨機變量實例離散型隨機變量:扔一次骰子出現的點數;未出生嬰兒的性別連續型隨機變量:人的身高;百米跑速度9概率密度函數離散型變量的概率密度函數/概率分布(probabilitydensityfunction/probabilitydistribution)實例X:投擲兩顆骰子出現的點數之和X的PDFX23456789101112f(X)1/362/363/364/365/366/365/364/363/362/361/3610概率密度函數連續型變量的累積分布函數(cumulativedistributionfunction)實例槍靶的半徑為2米,若每槍都能擊中槍靶,且擊中靶上任一同心圓內的點的概率與該圓的面積成正比,則彈著點與靶心的距離X是一個連續型隨機變量,其CDF為:F(x)x2111概率密度函數連續型變量的概率密度函數(PDF)實例在上例中,PDF為:f(x)x1212概率密度函數連續型變量的概率密度函數(PDF)f(x)xab13多維隨機變量多維隨機變量多個變量的取值由同一個隨機試驗決定,稱這些變量為多維隨機變量。以下我們考慮最簡單的二維隨機變量,用(X,Y)表示,其數值用(x,y)表示實例離散型二維隨機變量:每一位學生的性別和民族連續型二維隨機變量:每一位學生的身高和體重14多維隨機變量離散型變量的聯合概率密度函數(jointPDF)實例譬如:既是男生又是滿族的概率為0.08,既是女生又是回族的概率為0民族漢族滿族回族蒙古族性別男0.270.080.160女0.350.1000.0415多維隨機變量離散型變量的邊緣概率密度函數(marginalPDF)實例X(民族)邊緣概率漢族滿族回族蒙古族Y(性別)男0.270.080.1600.51女0.350.1000.040.49邊緣概率0.620.180.160.0416多維隨機變量離散型變量的條件概率密度函數(conditionalPDF)表示在Y=y的條件下X=x的概率譬如:f(滿族,女生)=0.10,f(女生)=0.49,f(滿族|女生)=0.10/0.49=0.20f(漢族,男生)=0.27,f(男生)=0.51,f(漢族|男生)=0.27/0.51=0.53X(民族)邊緣概率漢族滿族回族蒙古族Y(性別)男0.270.080.1600.51女0.350.1000.040.49邊緣概率0.620.180.160.0417多維隨機變量統計獨立性(statisticallyindependence)如果兩個隨機變量的聯合PDF等于它們邊緣PDF的乘積,則稱這兩個變量是相互獨立的(independent)。兩個變量獨立意味著其中一個變量的結果不會影響另一個。譬如:f(X=H,Y=H)=f(X=H)*f(Y=H)=1/2*1/2=1/4……實例:拋硬幣X(第一次)正面(H)反面(T)Y(第二次)正面(H)1/41/4反面(T)1/41/418多維隨機變量連續型變量的聯合概率密度函數(jointPDF)連續型變量的邊緣概率密度函數(marginalPDF)統計獨立性(statisticallyindependence)19隨機變量的數字特征以上討論了隨機變量的概率密度函數PDF和累積分布函數CDF,但在處理實際問題時,往往不需要求出這些函數,而是只需要了解變量的某些特征值。這些特征值包括三類:度量變量分布的集中趨勢(centraltendency):數學期望或均值;中位數;眾數度量變量分布的離散性(dispersion):方差;標準差度量兩個變量的相關性(correlation):協方差;相關系數20隨機變量的數字特征數學期望(expectation)或均值(mean)離散型變量的期望:實例:扔兩個骰子的點數之和x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3621隨機變量的數字特征連續型變量的期望:實例:22隨機變量的數字特征期望的性質:23隨機變量的數字特征中位數(median)對于離散型變量,假設所有可能取值的個數為n,把這些數從小到大排列。若n為奇數,位于中央位置的那個數就是中位數;若n為偶數,位于中央位置的那兩個數的平均數就是中位數。記為Med(X),中位數所在的位置為(n+1)/2。對于連續型變量,中位數m滿足下列條件:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3624隨機變量的數字特征眾數(mode)眾數就是隨機變量的所有可能取值中出現次數最多的那個隨機變量的類型定類變量(nominalvariable):性別;民族定序變量(ordinalvariable):教育水平;收入等級定距變量(intervalvariable):考試成績;收入水平一般地,不同類型的變量用不同的數學特征表示其集中趨勢。定類變量用眾數;定序變量用中位數;定距變量用均值或中位數x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3625隨機變量的數字特征方差(variance)方差被定義為隨機變量對其均值的期望距離,用于表示隨機變量與其均值的偏離程度。方差較小說明變量的分布比較集中,反之則說明變量的分布很分散方差的性質26隨機變量的數字特征實例:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3627隨機變量的數字特征標準差(standarddeviation)方差的量綱與變量的量綱不同,為此引入與變量具有相同量綱的數字特征——標準差,同樣度量變量的離散程度標準差的性質:28隨機變量的數字特征度量變量離散程度的其他常用指標還有:極差/全距極差率變異系數基尼系數泰爾系數29隨機變量的數字特征協方差(covariance)協方差度量兩個隨機變量的相關(correlation)程度協方差大于0表示兩個變量正相關(positivelycorrelated),即其中一個變量隨著另一個變量的增大而增大協方差大于0表示兩個變量負相關(negativelycorrelated),即其中一個變量隨著另一個變量的增大而減小協方差等于0表示兩個變量不相關(uncorrelated)30隨機變量的數字特征協方差的性質:31隨機變量的數字特征相關系數(correlationcoefficient)協方差的大小與度量單位有關,使用不便,因此一般用相關系數來衡量兩個變量的相關程度32隨機變量的數字特征相關與獨立(correlation&independence)相關是指兩個隨機變量之間的線性關聯程度,獨立是指兩個變量之間的一般關聯程度若兩個變量相互獨立,其相關系數一定為0若兩個變量的相關系數為0,它們不一定獨立33隨機變量的數字特征條件期望(conditionalexpectation)如果我們可以用變量X解釋變量Y,那么一旦我們知道X取某個特定的值x,就能夠計算出在X=x的條件下Y的期望值,稱為條件期望實例34一些重要的概率分布正態分布(normaldistribution)如果一個隨機變量的概率密度函數PDF如下所示,稱這個變量服從正態分布35一些重要的概率分布標準正態分布(standardnormaldistribution)如果一個服從正態分布的隨機變量的均值為0,方差為1,稱這個變量服從標準正態分布36一些重要的概率分布37一些重要的概率分布標準化隨機變量(standardizedrandomvariable)38一些重要的概率分布統計學書籍和計量經濟學書籍一般都附有標準化正態變量的累積分布函數,可以通過轉換求解正態變量的概率問題39一些重要的概率分布卡方分布n=2n=5n=1040一些重要的概率分布41一些重要的概率分布
t分布(tdistribution)n=120n=5n=2042一些重要的概率分布43一些重要的概率分布
F分布(Fdistribution)F(2,2)F(10,2)F(50,50)44一些重要的概率分布45二、數理統計基礎知識總體與樣本參數估計點估計區間估計假設檢驗置信區間法顯著性檢驗法46總體與樣本總體(population)研究對象的全體,記為X隨機樣本(randomsample)/樣本(sample)在相同條件下對總體X進行n次重復的、獨立的觀測,每次觀測結果都是與X具有相同分布的、相互獨立的隨機變量,記為X1,
X2,…,Xn
,把它們稱為來自總體的一個簡單隨機樣本,簡稱樣本,稱n為樣本容量。當觀測完成后,得到一組觀測值x1,
x2,…,xn
,稱為樣本值我們感興趣的實際上是總體,但由于不可能或很難得到總體的信息,只能從中抽取一個樣本,根據樣本數據來推斷總體的性質。這其中包含兩類問題:參數估計和假設檢驗47參數估計參數(parameters)與總體有關的數字特征。如總體均值、總體方差等等。參數估計(parameterestimation)根據樣本的有關數值來估計總體參數或總體參數的范圍點估計區間估計48點估計點估計(pointestimation)估計量是樣本的函數,對于不同的樣本,參數估計值是不同的。點估計的方法:矩估計法極大似然法最小二乘法49點估計矩(moment)矩估計法(methodofmoment)用樣本矩作為相應總體矩的估計量,并用樣本矩的連續函數作為總體矩連續函數的估計量。通過這種方法得到的估計量稱為矩估計量50點估計矩估計法:實例51點估計極大似然法(methodofmaximumlikelihood)52點估計極大似然法:實例53點估計估計量的評選標準估計量是隨機變量,會由于估計方法的不同而不同,那么,如何判斷一個估計量的好壞呢?或者說應該選擇哪個估計量更好呢?有以下幾條標準:針對小樣本的標準無偏性有效性針對大樣本的標準一致性漸進正態性54點估計無偏性(unbiasedness)實例5556點估計有效性(efficiency)注意:一個無偏的估計量可能存在很大方差,而一個方差很小的估計量可能是偏離總體均值的,因此有效性綜合考慮了估計量的集中趨勢和離散性兩個特征57點估計實例:有效性和無偏性58點估計線性估計量(linearestimator)最優線性無偏估計量(bestlinearunbiasedestimator,BLUE)59點估計一致性(consistence)60點估計概率極限(probabilitylimits)61點估計一些重要的估計量:62點估計實例:為了解中國城市失業率,隨機抽取了10座城市,得到如下樣本。則我們可以用這10座城市的平均失業率來估計中國城市的平均失業率城市(i)12345678910失業率(xi)5.16.49.24.17.58.32.63.55.87.563點估計漸進正態性(asymptoticnormality)當樣本容量無限增大時估計量趨向于正態分布中心極限定理(centrallimittheorem,CLT)定理一(獨立同分布的中心極限定理):當樣本容量無限增大時,任何總體的隨機樣本的均值趨近于正態分布。64點估計中心極限定理定理二:李雅普諾夫(Liapunov)定理65區間估計對于一個未知參數,除了估計其近似值(點估計)外,還希望知道這個值的精確程度,從而引出區間估計(intervalestimation)問題置信區間(confidenceinterval)66區間估計正態總體均值的區間估計:總體方差已知67區間估計實例:總體方差已知時正態總體均值的區間估計68區間估計正態總體均值的區間估計:總體方差未知69區間估計標準誤(standarderror)70區間估計正態總體均值的區間估計:95%置信區間的簡單法則71區間估計非正態總體均值的區間估計72假設檢驗假設檢驗(hypothesistesting)在總體的PDF未知或某些參數未知的情況下,對總體的分布或參數提出某些假設,然后根據樣本對提出的假設作出是拒絕還是接受的判斷實例:Bush和Kerry競選總統,Bush獲得42%的選票而Kerry獲得58%的選票。Bush懷疑大選中有作弊行為,雇傭一個咨詢機構隨機抽取100個選民調查其選舉意愿,發現有53人支持他,47人支持Kerry。由此Bush提出兩個假設:H0(虛擬假設/原假設,nullhypothesis):v<=0.42(沒有作弊)H1(對立假設/備擇假設,alternativehypothesis):v>0.42(有作弊)73假設檢驗第Ⅰ類錯誤(typeⅠerror)拒絕了一個真實的虛擬假設第Ⅱ
類錯誤(typeⅡerror)沒有拒絕一個錯誤的虛擬假設理論上我們
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉庫庫存預警管理辦法
- 企業取暖補貼管理辦法
- 倫理項目經費管理辦法
- 住宅裝修垃圾管理辦法
- 事故案例培訓管理辦法
- 企業碼頭造價管理辦法
- 保監會新股權管理辦法
- 信息安全審計管理辦法
- 企業員工訂單管理辦法
- 企業制度建設管理辦法
- Unit4Where'smyschoolbagSectionB(3a~SelfCheck)教學設計人教版英語七年級上冊
- 腦卒中高危人群篩查和綜合干預表
- 《旅游學概論》第四章
- 中國古典小說巔峰:四大名著鑒賞學習通課后章節答案期末考試題庫2023年
- 教師職業素養精選ppt
- 軌枕工序安全操作規程
- 2021年消防繼續教育試題匯總及答案
- GA 255-2022警服長袖制式襯衣
- JJF 1915-2021傾角儀校準規范
- GB/T 15382-2021氣瓶閥通用技術要求
- 標準的起源、發展與標準化課件
評論
0/150
提交評論