第五章 樣本及其分布_第1頁
第五章 樣本及其分布_第2頁
第五章 樣本及其分布_第3頁
第五章 樣本及其分布_第4頁
第五章 樣本及其分布_第5頁
已閱讀5頁,還剩91頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中南大學數學公共課程之

數理統計郭孔華Telmail:guokonghua@163中南大學數學科學與計算技術學院編輯課件變量函數的分布等。但是對一個實際問題,隨機變量的概率分布往往是不知道的,如何確定隨機變量的概率分布或數字特征就是數理統計要解決的問題。在概率論中,我們所研究的隨機變量,它的分布都是假設的,在這一前提下去研究它的性質、特點和規律性,例如求出它的數字特征,討論隨機數理統計是一個內容十分豐富的數學分支。它既有嚴格的理論,更有極其廣泛的應用。而且隨著科技的開展其研究內容還在不斷地充實提高。數理統計的根本概念編輯課件

從歷史的典籍中,人們不難發現許多關于錢糧、戶口、地震、水災等等的記載,說明人們很早就開始了統計的工作.但是當時的統計,只是對有關事實的簡單記錄和整理,而沒有在一定理論的指導下,作出超越這些數據范圍之外的推斷.編輯課件到了十九世紀末二十世紀初,隨著近代數學和概率論的開展,才真正誕生了數理統計學這門學科.數理統計學編輯課件

數理統計學是一門應用性很強的學科.它是研究怎樣以有效的方式收集、整理和分析帶有隨機性的數據,以便對所考察的問題作出推斷和預測,直至為采取一定的決策和行動提供依據和建議.編輯課件對象:抽樣所獲得的數據(帶有隨機性)數理統計學研究的對象及任務任務:如何有效地收集、整理和分析數據,并對所觀察的問題做出推斷或預測,為采取的決策提供依據和建議。注:只允許我們對隨機現象進行次數不多的觀察試驗,也就是說,我們獲得的只是局部觀察資料.編輯課件作出精確而可靠的結論.從總體上來說,數理統計可以分為兩大類:一類是如何科學地安排試驗,此局部內容稱為描述統計學如:試驗設計、抽樣方法。另一類是研究如何分析所獲得的隨機數據,對所研究的問題進行科學的、合理的估計和推斷,盡可能地為采取一定的決策提供依據,這局部的內容稱為推斷統計學,如:參數估計、假設檢驗等。我們主要討論有關推斷統計學中幾個最根本的問題。以獲取有效的隨機數據。編輯課件——

對隨機現象進行觀測、試驗,以取得有代表性的觀測值——

對已取得的觀測值進行整理、分析,作出推斷、決策,從而找出所研究的對象的規律性數理統計的分類描述統計學推斷統計學編輯課件參數估計(第6章)假設檢驗(第7章)回歸分析(第8章)方差分析(第8章)

推斷統計學編輯課件100個樣品進行強度測試,于是面臨以下幾個問題:例如

某廠生產一型號的合金材料,用隨機的方法選取1、估計這批合金材料的強度均值是多少?(參數的點估計問題〕2、強度均值在什么范圍內?(參數的區間估計問題〕3、假設規定強度均值不小于某個定值為合格,那么這批材料是否合格?(參數的假設檢驗問題〕4、這批合金的強度是否服從正態分布?5、假設這批材料是由兩種不同工藝生產的,那么不同的工藝對合金強度有否影響?假設有影響,那一種工藝生產的強度較好?(分布檢驗問題〕(方差分析問題〕編輯課件6、假設這批合金由幾種原料用不同的比例合成,那么如何表達這批合金的強度與原料比例之間的關系?(回歸分析問題〕我們依次討論參數的點估計、區間估計、假設檢驗等內容。首先我們討論數理統計中的一些根本概念。編輯課件第5章樣本及其分布在數理統計中,我們所研究的隨機變量的分布往往是未知的,通過對隨機變量進行屢次獨立重復的試驗和觀測,獲取數據,利用實際觀測數據研究隨機變量的分布,對其分布函數、數字特征等進行估計和推斷.本章作為數理統計根底,學習總體、樣本、統計量與抽樣分布等有關概念,以及有關正態總體的重要的抽樣分布定理.編輯課件5.1簡單隨機樣本編輯課件編輯課件總體容量有限的稱為有限總體,

總體一個統計問題總有它明確的研究對象.1.總體研究對象的全體稱為總體(母體),總體中每個對象稱為個體.研究某批燈泡的質量總體考察國產轎車的質量§1總體和樣本不過在統計研究中,人們關心總體僅僅是關心其每個個體的一項(或幾項)數量指標和該數量指標在總體中的分布情況.該批燈泡壽命的全體就是總體燈泡的壽命每公里的耗油量所有國產轎車每公里耗油量的全體就是總體這時,每個個體具有的數量指標的全體就是總體.稱總體中所含個體的數目為總體容量,總體容量無限的稱為無限總體.當個體個數很大時通常把有限總體看作無限總體。編輯課件那么,此總體就可用描述其壽命的隨機變量

X

或用其分布函數

F(x)表示.因此在理論上可以把總體與概率分布等同起來.概率分布是刻劃這種集體性質最適當的工具.統計的任務,是根據從總體中抽取的樣本,去推斷總體的性質.由于我們關心的是總體中的個體的某項指標(如人的身高、體重,燈泡的壽命,汽車的耗油量…),從另一方面看:如研究某批燈泡的壽命時,關心的數量指標就是壽命,所謂總體的性質,無非就是這些指標值集體的性質.我們用X和Y分別表示身高和體重,那么此總體就可用二維隨機變量(X,Y)或其聯合分布函數

F(x,y)來表示.總體概念的要旨:總體就是一個概率分布再如,假設研究某地區中學生的營養狀況時,關心的數量指標是身高和體重,編輯課件當X為離散型時,稱X的概率函數〔分布列〕為總體概率函數。當X為連續型時,稱X的概率密度為總體密度函數。當總體分布為指數分布時,稱為指數分布總體;當總體分布為正態分布時,稱為正態分布總體或簡稱正態總體等等.編輯課件例如本市家庭的月收入X是個隨機變量,X服從什么在數理統計中總體X的分布永遠是未知的,有足夠的理由可以認為總體X服從某種類型的分布,但這個分布的參數還是未知的。分布事先是不清楚的,根據資料可確信即使但究竟取什么值還是未知的,由于總體X的分布是未知的,因此X的數字特征如均值、方差等往往也是一個未知的值。對于這些未知值可以根據有關數據來推測。編輯課件壞性的試驗更是不允許對整個總體進行考察.考察某工廠生產的燈泡壽命考察某型號的質量考察吸煙和患肺癌的關系在實際問題中,要考察整個總體往往是不可能的,因為它需要消耗太多的資源和太多的時間.有些破2、樣本與簡單樣本編輯課件樣本中所包含的個體數目稱為樣本容量.但是,一旦取定一組樣本,得到的是n個具體的數x1,x2,…,xn

,按一定規那么從總體中抽取假設干個體進行觀察試驗以獲得有關總體的信息.為推斷總體分布及各種特征,從國產轎車中抽5輛進行耗油量試驗樣本容量為

5樣本是隨機變量抽到哪5輛是隨機的!容量為

n的樣本可以看作一n維隨機變量(X1,X2,

…,Xn).所抽取的局部個體稱為樣本.這一抽取過程稱為抽樣,稱為樣本(X1,X2,…,Xn)的一組觀測值,簡稱樣本值.樣本的值域稱為樣本空間。編輯課件它要求抽取的樣本X1,X2,…,Xn

滿足下面兩點:它可以用與總體同分布的n個相互獨立的隨機變量

X1,X2,…,Xn表示.2.代表性:Xi(i=1,2,…,n)與所考察的總體X同分布.為了使抽取的樣本能很好地反映總體的信息,必須考慮抽樣方法.最常用的一種抽樣方法叫作簡單隨機抽樣,1.獨立性:X1,X2,…,Xn

是相互獨立的隨機變量

;抽樣的目的是為了對總體進行統計推斷,由簡單隨機抽樣得到的樣本稱為簡單隨機樣本,今后,說到“X1,…,Xn是取自某總體的樣本〞時,假設不特別說明,就指簡單隨機樣本.那么其簡單隨機樣本的聯合分布函數為F(

x1,x2,…,

xn

)=F(x1)F(x2)…F(xn)

簡單隨機樣本是應用中最常見的情形,假設總體X的分布函數為F(x),假設總體X的概率密度為f(x),那么其簡單隨機樣本的聯合概率密度為編輯課件求樣本(X1,X2,X3)的概率分布.ex1.設總體

X

~

B(1,p),即

P(X=x)=p

x(1-p)1-x,X

=

0

,1

.設X1,X2,

X3為X的一個樣本,解

x

i=0,1;

i=1,2,3.∴

(X1,X2,X3)的分布律P(X1=

x1,X2=

x2,X3=

x3)又∵

x1+

x2+

x3=0,1,2,3,

P(X1=

x1,X2=

x2,X3=

x3)k=0,1,2,3.編輯課件ex2.設總體X服從均值為1/2的指數分布,X1,X2,X3,X4為來自X的樣本,求X1,X2,X3,X4的聯合概率密度和聯合分布函數.解:X的概率密度為其分布函數為那么X1,X2,X3,X4的聯合概率密度為:編輯課件比方我們從某班大學生中抽取10人測量身高,得到10個數.我們只能觀察到隨機變量取的值而見不到隨機變量.它們是樣本取到的值而不是樣本.3.總體、樣本、樣本值的關系總體(理論分布)?

樣本樣本值統計是從手中已有的資料—

樣本值,去推斷總體的情況

—總體分布F(x)的性質.總體分布決定了樣本取值的概率規律,也就是樣本取到樣本值的規律,事實上,我們抽樣后得到的資料都是具體的、確定的值.因而可以由樣本值去推斷總體.???是總體的代表,含有總體的信息分散、復雜樣本是聯系二者的橋梁編輯課件其中,未知,那么稱g(x1,…,xn)是一個統計量.一個有效的方法就是構造一些樣本的函數,假設樣本函數g(x1,…,xn)中不含任何未知參數,由樣本值去推斷總體情況,需要對樣本值進行“加工〞,1.統計量這種不含任何未知參數、完全由樣本決定的量稱為統計量

通過樣本函數把樣本中所含的(某一方面)的信息集中起來.定義設X1,X2,…,Xn

是來自總體

X

的容量為

n

的樣本,樣本的函數ex1.設

X1,X2,X3

是取自正態總體

X~(

,

2)

的一個樣本,問以下樣本函數中哪些是統計量,那些不是?×X1,X2+1,(X1+

X2

+

Xn)/3,Max{X1,X2,X3},

我們主要研究兩種根本的統計量:樣本矩和順序統計量§2統計量編輯課件幾個常見的統計量樣本均值樣本方差反映了總體均值的信息它反映了總體方差的信息樣本

k

階原點矩樣本

k

階中心矩

k=1,2,…它反映了總體k階矩的信息反映了總體k階中心矩的信息并稱他們相應的觀測值樣本標準差它反映了總體標準差的信息

k=1,2,…仍分別為:

樣本均值、樣本方差、樣本標準差、樣本k階原點矩、樣本k階中心矩.10樣本矩——統稱為樣本矩

編輯課件統計量的重要性質設

X1,

X2,…,

Xn

是來自總體

X

的容量為

n

的樣本,假設X有期望EX=和方差DX=2,

那么

ex3.=

,(1)

E(S

2)

?

=

2,(2)

=

2/n;編輯課件2

順序統計量與極差設為樣本,為樣本值,且當取值為時,定義r.v.那么稱統計量為順序統計量.其中,稱為極差編輯課件總體樣本統計量描述作出推斷隨機抽樣我們介紹了數理統計的根本概念.小結編輯課件5.2抽樣分布編輯課件編輯課件 統計量的分布稱為抽樣分布。 在使用統計量進行統計推斷時常需知道它的分布。當總體的分布函數時,抽樣分布是確定的,然而要求出統計量的精確分布,一般來說是困難的。 本節介紹來自正態總體的幾個常用統計量的分布。今后,我們將看到這些分布在數理統計中有重要的應用。編輯課件(1)

正態分布那么特別地,那么假設假設~編輯課件(2)伽瑪分布(Г分布)如果連續型隨機變量X的密度函數為為函數,那么稱X服從參數是α,λ的伽瑪分布,記為X~Γ(α,λ).定義其中,編輯課件

函數具有以下性質:設X

~Γ(α,λ),可以證明:對于任意整數k,有從而有:編輯課件一、統計學的三大分布為了討論正態總體下的抽樣分布,先引入由正態分布導出的統計中的三個重要分布,即分布,分布,分布。

1、分布設是來自總體的樣本,則稱統計量(1)服從自由度為的分布,記為編輯課件此處,自由度是指〔1〕式右端包含獨立變量個數分布的概率密度為的圖形如圖5-1所示。〔2〕編輯課件圖5-1編輯課件此結論可推廣:設且相互獨立分布的可加性設,并且獨立,則〔證明略〕那么編輯課件例設是總體的簡單隨機樣本,試確定c和d使得解:容易求得并求出n。并且它們是相互獨立的,由χ2分布的定義知由此可知,c=1/3,d=1/2,n=2。編輯課件若,則有分布的數學期望和方差因故因此又所以也相互獨立由于相互獨立于是編輯課件則稱點為的上分位點分布的分位點定義設有分布函數對給定的若有(6)當有密度函數時,式(6)可寫成(7)由上述定義得分布的上分位點為(8)編輯課件如圖5-2所示,對于不同的上分位點的值已制成表格,可以查用(參見附表5)。編輯課件圖5-2編輯課件例如對于,查得但該表只詳列到費歇(R.A.Fisher)曾證明,當充分大時,近似地有

(9)其中是標準正態分布的上分位點。利用(8)式可以求得當時,分布的上分位點的近似值例如由(9)式可得(由更詳細的表得)編輯課件2、分布設,,且獨立服從自由度為的分布則稱隨機變量(10)記為分布又稱為學生氏(student)分布分布的概率密度函數為(11)編輯課件圖5-3中畫出了的圖形。的圖形關于對稱,當充分大時,其圖形類似于標準正態變量概率密度的圖形。事實上,利用函數的性質可得

故當足夠大時,分布近似于分布。但對于較小的,分布與分布相差較大(見附表3與附表4)(12)編輯課件圖5-3編輯課件的點為分布的上分位點。(見圖6-6)分布的分位點對于給定的,,稱滿足條件(13)圖6-6編輯課件由分布上分位點的定義及圖形的對稱性知在時,對于常用的的值,就用正態近似〔14〕分布的上分位點可自附表4查得。〔15〕編輯課件3.分布設且獨立,則稱隨機變量服從自由度為的分布記為〔16〕的概率密度為〔17〕編輯課件圖5-4中畫出了的圖形由定義可知,若則(18)圖5-4編輯課件分布的分位點對于給定的稱滿足條件〔19〕的點為分布的上分位點(圖5-5)圖5-5編輯課件容易證明等式:〔20〕利用這個等式,查附錄表,可以計算當時的的值例如F分布的上分位點有表格可查〔見附表6〕編輯課件二、幾個常見的抽樣分布 研究數理統計的問題時,往往需要知道所討論的統計量的分布。一般說來,要確定某個統計量的分布是困難,有的甚至是不可能的。然而,對于總體服從正態分布的情形已經有了詳盡的研究。 下面我們討論服從正態分布的總體的統計量的分布。假設是來自正態總體的樣本,即它們是獨立同分布的皆服從分布樣本均值與樣本方差分別是編輯課件定理1設總體服從正態分布,〔21〕即那么因為隨機變量相互獨立且與總體服從相同的正態分布證所以由正態分布的性質可知,它們的線性組合服從正態分布即編輯課件這個定理的證明從略,我們僅對自由度作一些說明定理2設總體服從正態分布則(1)樣本均值與樣本方差相互獨立;(2)統計量服從自由度的分布即(22)編輯課件雖然是個隨機變量的平方和,但是這些隨機變量不是相互獨立的。因為它們的和恒等于零:由樣本方差的定義易知所以統計量由于受到一個條件的約束,所以自由度為編輯課件 上述兩定理是正態總體統計推斷的根底,因而是十分重要的,下面列舉其應用.

編輯課件ex1.設是來自的樣本,則統計量(23)由定理1知,統計量又由定理2知,統計量因為與相互獨立與也相互獨立所以證于是,由分布的定義可知,統計量編輯課件ex2.設來自,是來自的兩個獨立樣本,記則統計量(24)編輯課件由定理1可知,統計量證且與相互獨立由正態分布的性質知即又由定理2知:編輯課件因為與相互獨立,與相互獨立所以統計量與也相互獨立因為與相互獨立,所以由分布的可加性可知統計量于是,由分布定義可知,統計量編輯課件由假設,、相互獨立,則由分布的定義ex3.(續上例)記則(25)證由定理2知注:若兩個正態分布的方差與不相等,則統計量編輯課件 本節所介紹的幾個分布以及幾個重要結論,在下面各章中都起著重要的作用。應注意,它們都是在總體為正態這一根本假定下得到的。編輯課件ex4.在總體中,隨機地抽取一個容量為36的樣本,求樣本均值落在50.8到53.8之間的概率.解故編輯課件ex5.設總體X的概率密度函數為為總體的樣本,求(1)的數學期望與方差(2)(3)解(1)編輯課件(近似),(3)由中心極限定理(2)編輯課件容量為10與15的兩個獨立樣本,求它們的均值差大于0.3的概率。ex6.

設總體,分別從X中抽取解設與分別表示容量為10與15的兩個樣本的均值,那么又由于與相互獨立,從而有編輯課件

因此??Za-Za查標準正態分布表:編輯課件解ex7.編輯課件編輯課件編輯課件三、直方圖直方圖與經驗分布函數如前所述,數理統計所研究的實際問題〔總體〕的分布一般來說是未知的,需要通過樣本來推斷.但如果對總體一無所知,那么,做出推斷的可信度一般也極為有限.在很多情況下,我們往往可以通過具體的應用背景或以往的經驗,再通過觀察樣本觀測值的分布情況,對總體的分布形式有個大致了解.觀察樣本觀測值的分布規律,了解總體X的概率密度和分布函數,常用直方圖和經驗分布函數.編輯課件1.直方圖直方圖是對一組數據x1,x2,...,xn的分布情況的圖形描述.將數據的取值范圍分成假設干區間〔一般是等間隔的〕,在等間隔的情況,每個區間的長度稱為組距.考察這些數據落入每一個小區間的頻數和頻率,在每一個區間上畫一個矩形,它的寬度是組距,高度可以是頻數、頻率或頻率/組距,所得直方圖分別稱為頻數直方圖、頻率直方圖和密度直方圖.圖5-6密度直方圖編輯課件如果數據x1,x2,...,xn是來自連續總體X的樣本觀測值,其密度直方圖中,每一個矩形的面積恰好是觀測數據落入對應區間的頻率,這種密度直方圖可以用來估計總體的概率密度〔用密度直方圖的頂部折線估計X的概率密度曲線〕.組距對直方圖的形態有很大的影響,組距太小或太大,直方圖反映概率密度的形態就不夠準確.編輯課件作直方圖的步驟如下:1找出樣本觀測值中的最小值與最大值,分別記作與,即2適中選取略小于的數與略大于的數,并用分點把區間分成個子區間

第個子區間的長度為編輯課件 此外,為了方便起見,分點應比樣本觀測值多取一位小數。各子區間的長度可以相等,也可以不等;若使各子區間的長度相等,則有子區間的個數一般取為8至15個,太多那么由于頻率的隨機擺動而使分布顯得雜亂,太少那么難于顯示分布的特征。3把所有樣本觀測值逐個分到各子區間內,并計算樣本觀測值落在各子區間內的頻數及頻率編輯課件4在軸上截取各子區間,并以各子區間為底,以為高作小矩形,各個小矩形的面積就等于樣本觀測值落在該子區間內的頻率,即所有小矩形的面積的和這樣作出的所有小矩形就構成了直方圖。因為樣本容量充分大時,隨機變量落在各個子區間內的頻率近似等于其概率即所以直方圖大致地描述了總體的概率分布。編輯課件ex8.測量100個某種機械零件的質量,得到樣本觀測值如下〔單位:g〕246251259254246253237252250251249244249244243246256247252252250247255249247252252242245240260263254240255250256246249253246255244245257252250249255248258242252259249244251250241253250265247249253247248251251249246250252256245254258248255251249252254246250251247253252255254247252257258247252264248244寫出零件質量的頻率分布表并作直方圖。編輯課件解因為樣本觀測中最小值為237,最大值為265,所以我們把數據的分布區間確定為〔236.5,266.5〕并把這個區間等分為10個子區間(236.5,239.5),(239.5,242.5),…,(263.5,266.5)由此得到零件質量的頻率分布表:

零件質量/頻數頻率

236.5~239.510.01239.5~242.550.05242.5~245.590.09245.5~248.5190.19248.5~251.5240.24251.5~254.5220.22254.5~257.5110.11257.5~260.560.06260.5~263.510.01263.5~266.520.02總計1001.00編輯課件直方圖如圖5-7所示圖5-7編輯課件一個適宜的分組是希望密度直方圖的形態接近總體的概率密度函數的形態.手工計算常取組數等于左右,一些統計軟件會根據樣本容量和樣本的取值范圍自動確定一個適宜的分組方式,畫出各種漂亮的直方圖.編輯課件ex9.從某高校一年學生的“高等數學〞課程考試成績中,隨機抽取60名學生的成績如下:試利用Excel的“數據分析〞功能作學生成績的密度直方圖,并通過直方圖了解學生成績的分布情況.766971776971836985858677749566876651687377626673937963878754805772725876727669718175667460677963887885725890617077688079編輯課件實驗步驟:(1)確定分組個數:因為,取分組個數為8.數據的最小值為51,最大值為95,為分組方便起見,考慮范圍從50到100,分為8個組,組距取50/8=6.25,分點分別為:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理學生成績數據,在“組上限〞欄中填入各組的上限值,如圖5-8左所示.編輯課件

圖5-8數據整理與“直方圖〞對話框編輯課件(2)在Excel主菜單中選擇“工具〞“數據分析〞,翻開“數據分析〞對話框,在“分析工具〞列表中選擇“直方圖〞選項,單擊“確定〞按鈕.(3)在翻開的“直方圖〞對話框中,依次輸入〔或用鼠標拖動選擇〕“輸入區域〞、“接收區域〞和“輸出區域〞,如圖5-8右所示,單擊“確定〞按鈕.得到頻率分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論