常用概率分布課件(同名859)_第1頁
常用概率分布課件(同名859)_第2頁
常用概率分布課件(同名859)_第3頁
常用概率分布課件(同名859)_第4頁
常用概率分布課件(同名859)_第5頁
已閱讀5頁,還剩106頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

常用概率分布本章內(nèi)容概率論相關(guān)數(shù)學(xué)知識復(fù)習(xí)第一節(jié)二項分布第二節(jié)泊松分布第三節(jié)正態(tài)分布(重點)-查表和Excel表格計算第四節(jié)樣本平均數(shù)的抽樣分布第五節(jié)t分布(重點)1、掌握正態(tài)分布、t分布的概念、內(nèi)涵2、掌握t分布規(guī)律及其與標(biāo)準(zhǔn)正態(tài)分布的關(guān)系概率分布

事件的概率表示了一次試驗?zāi)骋粋€結(jié)果發(fā)生的可能性大小。若要全面了解試驗,則必須知道試驗的全部可能結(jié)果及各種可能結(jié)果發(fā)生的概率,即必須知道隨機(jī)試驗的概率分布(probabilitydistribution)。為了深入研究隨機(jī)試驗,我們先引入隨機(jī)變量(randomvariable)的概念。隨機(jī)變量

描述隨機(jī)事件的變量稱為隨機(jī)變量。隨機(jī)變量的取值在一次試驗前不能確定,具有隨機(jī)性。作一次試驗,其結(jié)果有多種可能。每一種可能結(jié)果都可用一個數(shù)來表示,把這些數(shù)作為變量x的取值,則試驗結(jié)果可用變量x來表示。【例】對10種品牌袋裝奶粉進(jìn)行質(zhì)量檢測,其可能結(jié)果是“0種合格”、“1種合格”、“2種合格”、“…”、“10種袋裝奶粉都合格”。若用x表示袋裝奶粉合格品牌數(shù),則x的取值為0、1、2、…、10。離散型隨機(jī)變量:如果表示試驗結(jié)果的變量x,其可能取值為可列個,且以各種確定的概率取這些不同的值,則稱x為離散型隨機(jī)變量

(discreterandomvariable);連續(xù)型隨機(jī)變量:如果表示試驗結(jié)果的變量x,其可能取值為某范圍內(nèi)的任何數(shù)值,且x在其取值范圍內(nèi)的任一區(qū)間中取值時,其概率是確定的,則稱x為連續(xù)型隨機(jī)變量(continuousrandomvariable)。

離散型隨機(jī)變量的概率分布要了解離散型隨機(jī)變量x的統(tǒng)計規(guī)律,就必須知道它的一切可能值xi及取每種可能值的概率pi。如果我們將離散型隨機(jī)變量x的一切可能取值xi

(i=1,2,…),及其對應(yīng)的概率pi,記作

P(x=xi)=pi

i=1,2,…

(4—1)

則稱(4-1)式為離散型隨機(jī)變量x的概率分布或分布。常用分布列(distributionseries)來表示:x1x2

…xn

….p1p2

…pn

從分布列可以一目了然看出隨機(jī)變量X的可能取值及取這些值的概率。離散型隨機(jī)變量的概率分布具有pi≥0和Σpi=1這兩個基本性質(zhì)。連續(xù)型隨機(jī)變量的概率分布

連續(xù)型隨機(jī)變量(如身高、體重等)的概率分布不能用分布列來表示,因為其可能取值是不可數(shù)的,不能一一列出。改用隨機(jī)變量x在某個區(qū)間內(nèi)取值的概率P(a≤x<b)來表示。下面通過頻率分布密度曲線予以說明。

圖4—1為數(shù)據(jù)資料的頻率分布直方圖,圖中縱座標(biāo)取頻率與組距的比值。可以設(shè)想,如果樣本取得越來越大(n→+∞),組分得越來越細(xì)(i→0),某一范圍內(nèi)的頻率將趨近于一個穩(wěn)定值-概率。這時,頻率分布直方圖各個直方上端中點的連線-頻率分布折線將逐漸趨向于一條曲線。

當(dāng)n→+∞、i→0時,頻率分布折線的極限是一條穩(wěn)定的函數(shù)曲線。對于樣本是取自連續(xù)型隨機(jī)變量的情況,這條函數(shù)曲線將是光滑的。這條曲線排除了抽樣和測量的誤差,完全反映了數(shù)據(jù)資料的變動規(guī)律。這條曲線叫概率分布密度曲線,相應(yīng)的函數(shù)叫概率分布密度函數(shù),簡稱分布密度。

對該曲線積分所得的函數(shù)稱為概率分布函數(shù)。

(4—2)式為連續(xù)型隨機(jī)變量x在區(qū)間[a,b)上取值概率的表達(dá)式。可見,連續(xù)型隨機(jī)變量的概率由概率分布密度函數(shù)確定。

若變量X概率分布密度函數(shù)記為f(x),則x取值于區(qū)間[a,b)的概率為圖中陰影部分的面積,即

P(a≤x<b)=(4-2)第一節(jié)二項分布一、貝努利試驗及其概率公式(1)在相同條件下進(jìn)行了n次試驗,各次試驗彼此之間是獨立的,(2)每次試驗結(jié)果出現(xiàn)且只出現(xiàn)對立事件A與之一,在每次試驗中出現(xiàn)A的概率是常數(shù)p(0<p<1),因而出現(xiàn)對立事件的概率是1-p=q,(3)則稱這一串重復(fù)的獨立試驗為n重貝努利試驗,簡稱貝努利試驗(Bernoullitrials)。(4)則在n次試驗中,事件A出現(xiàn)的次數(shù)是個隨機(jī)變量。

我們經(jīng)常碰到的一類離散型隨機(jī)變量,如抽檢的樣品是否合格,添加劑含量是否超標(biāo)等可用貝努利試驗來概括。在n重貝努利試驗中,事件A可能發(fā)生0,1,2,…,n次,事件A

恰好發(fā)生k(0≤k≤n)次的概率為Pn(k)。先取n=4,k=2來討論。在4次試驗中,事件A發(fā)生2次的方式有以下種:

一般,在n重貝努利試驗中,事件A恰好發(fā)生k(0≤k≤n)次的概率為

k=0,1,2…,n(4-9)

若把(4-9)式與二項展開式相比較就可以發(fā)現(xiàn),在n重貝努利試驗中,事件A發(fā)生k次的概率恰好等于展開式中的第k+1項,所以也把(4-9)式稱作二項概率公式。knkknnqpCkP-=)(二、二項分布的意義及性質(zhì)二項分布定義如下:結(jié)果只有兩種情況的n次實驗中發(fā)生某種結(jié)果為k次的概率分布

=k=0,1,2…,n

其中p>0,q>0,p+q=1,則稱隨機(jī)變量x服從參數(shù)為n和p的二項分布

(binomialdistribution),記為

x~B(n,p)。

二項分布是一種離散型隨機(jī)變量的概率分布。參數(shù)n稱為離散參數(shù),只能取正整數(shù);p是連續(xù)參數(shù),它能取0與1之間的任何數(shù)值(q由p確定,故不是另一個獨立參數(shù))。容易驗證,二項分布具有概率分布的一切性質(zhì),即:

1、P(x=k)=Pn(k)(k=0,1,…,n)2、二項分布的概率之和等于1,即3、(4-10)4、(4-11)5、(m1<m2)(4-12)

二項分布由n和p兩個參數(shù)決定:

1、當(dāng)p值較小且n不大時,分布是偏倚的。但隨著n的增大,分布逐漸趨于對稱,如圖4—8所示;

2、當(dāng)p值趨于0.5時,分布趨于對稱,如圖4—9所示;

3、對于固定的n及p,當(dāng)k增加時,Pn(k)先隨之增加并達(dá)到其極大值,以后又下降。此外,在n較大,np、nq較接近時,二項分布接近于正態(tài)分布;當(dāng)n→∞時,二項分布的極限分布是正態(tài)分布。

圖4—8圖4—9

二項分布的應(yīng)用條件有三:(1)各觀察單位只具有互相對立的一種結(jié)果,如陽性或陰性,生存或死亡等,屬于二項分類資料;(2)已知發(fā)生某一結(jié)果(如死亡)的概率為p,其對立結(jié)果的概率則為1-P=q,實際中要求p

是從大量觀察中獲得的比較穩(wěn)定的數(shù)值;(3)n個觀察單位的觀察結(jié)果互相獨立,即每個觀察單位的觀察結(jié)果不會影響到其它觀察單位的觀察結(jié)果具體事例:食品抽檢合格率(微生物超標(biāo)、質(zhì)量合格等)三、二項分布的平均數(shù)與標(biāo)準(zhǔn)差

統(tǒng)計學(xué)證明,服從二項分布B(n,p)的隨機(jī)變量之平均數(shù)μ、標(biāo)準(zhǔn)差σ與參數(shù)n、p有如下關(guān)系:當(dāng)試驗結(jié)果以事件A發(fā)生次數(shù)k表示時

μ=np(4-13)σ=(4-14)

當(dāng)試驗結(jié)果以事件A發(fā)生的頻率k/n,也就是事件A發(fā)生的概率表示時

(4-15)(4-16)

也稱為總體百分?jǐn)?shù)標(biāo)準(zhǔn)誤,當(dāng)p未知時,常以樣本百分?jǐn)?shù)來估計。此時(4-16)式改寫為:

=

(4-17)

稱為樣本百分?jǐn)?shù)標(biāo)準(zhǔn)誤。第二節(jié)泊松分布

泊松分布是一種可以用來描述和分析隨機(jī)地發(fā)生在單位空間或時間里的稀有事件的概率分布。它是二項分布的一種極端形式,要觀察到這類事件,樣本含量n必須很大,而且p很小。

在食品安全研究中,服從泊松分布的隨機(jī)變量是常見的。如,一定人群中食用食物后某種患病率很低的疾病患病數(shù)或死亡數(shù),一個顯微鏡視野內(nèi)觀察到的細(xì)菌數(shù)等,都是服從泊松分布的。泊松分布的條件所考察的一定時間或空間可劃分為很多個很小的單位區(qū)間(時間或空間),在每個區(qū)間中事件發(fā)生的概率很低在不同區(qū)間中的事件發(fā)生與否彼此無關(guān)在不同的區(qū)間中事件發(fā)生的概率是相同的。一、泊松分布的意義

若隨機(jī)變量x(x=k)只取零和正整數(shù)值0,1,2,…,且其概率分布為

k=0,1,……(4-18)

其中λ>0;e=2.7182…

是自然對數(shù)的底數(shù),則稱x服從參數(shù)為λ的泊松分布(Poisson‘sdistribution),記為x~P(λ)。

泊松分布重要的特征:

平均數(shù)和方差相等,都等于常數(shù)λ,即

μ=σ2=λλ是泊松分布所依賴的唯一參數(shù)。λ值愈小分布愈偏倚,隨著λ的增大,分布趨于對稱(如圖4-10所示)。當(dāng)λ=20時分布接近于正態(tài)分布;當(dāng)λ=50時,可以認(rèn)為泊松分布呈正態(tài)分布。所以在實際工作中,當(dāng)λ≥20時就可以用正態(tài)分布來近似地處理泊松分布的問題。

二、泊松分布的概率計算由(4-23)式可知,泊松分布的概率計算,依賴于參數(shù)λ的確定,只要參數(shù)λ確定了,把k=0,1,2,…

代入(4-23)式即可求得各項的概率。但是在大多數(shù)服從泊松分布的實例中,分布參數(shù)λ往往是未知的,只能從所觀察的隨機(jī)樣本中計算出相應(yīng)的樣本平均數(shù)作為λ的估計值,將其代替(4-23)式中的λ,計算出k=0,1,2,…

時的各項概率。

注意,二項分布的應(yīng)用條件也是泊松分布的應(yīng)用條件。二項分布要求n

次試驗是相互獨立的,這也是泊松分布的要求。然而一些具有傳染性的罕見疾病的發(fā)病數(shù),因為首例發(fā)生之后可成為傳染源,會影響到后續(xù)病例的發(fā)生,所以不符合泊松分布的應(yīng)用條件。對于在單位時間、單位面積或單位容積內(nèi),所觀察的事物由于某些原因分布不隨機(jī)時,如細(xì)菌在牛奶中成集落存在時,亦不呈泊松分布。

前面討論的三個重要的概率分布中,正態(tài)分布屬連續(xù)型隨機(jī)變量的概率分布,二項分布和泊松分布屬離散型隨機(jī)變量的概率分布。三者間的關(guān)系如下:對于二項分布,在n→∞,p→0,且np=λ(較小常數(shù))情況下,二項分布趨于泊松分布。在這種場合,泊松分布中的參數(shù)λ用二項分布的np代之;在n→∞,p→0.5時,二項分布趨于正態(tài)分布。在這種場合,正態(tài)分布中的μ、σ2用二項分布的np、npq代之。在實際計算中,當(dāng)p<0.1且n很大時,二項分布可由泊松分布近似;當(dāng)p>0.1且n很大時,二項分布可由正態(tài)分布近似。

對于泊松分布,當(dāng)λ→∞時,泊松分布以正態(tài)分布為極限。在實際計算中,當(dāng)λ≥20(也有人認(rèn)為λ≥6)時,用泊松分布中的λ代替正態(tài)分布中的μ及σ2,即可由后者對前者進(jìn)行近似計算。第三節(jié)正態(tài)分布

正態(tài)分布是一種很重要的連續(xù)型隨機(jī)變量的概率分布食品科學(xué)研究中有許多變量是服從或近似服從正態(tài)分布的。許多統(tǒng)計分析方法都是以正態(tài)分布為基礎(chǔ)的。此外,還有不少隨機(jī)變量的概率分布在一定條件下以正態(tài)分布為其極限分布。因此在統(tǒng)計學(xué)中,正態(tài)分布無論在理論研究上還是實際應(yīng)用中,均占有重要的地位。

(一)正態(tài)分布的定義若連續(xù)型隨機(jī)變量(身高、體重、…)x的概率密度函數(shù)為

(4-3)

其中μ為平均數(shù),σ2為方差,則稱隨機(jī)變量x服從正態(tài)分布(normaldistribution),記為x~N(μ,σ2)。相應(yīng)的概率分布函數(shù)為

(4-4)一、正態(tài)分布的定義及其特征

(二)正態(tài)分布的特征

1、正態(tài)分布密度曲線是單峰、對稱的懸鐘形曲線,對稱軸為x=μ;

2、f(x)在x=μ處達(dá)到極大,極大值;

3、f(x)是非負(fù)函數(shù),以x軸為漸近線,分布從-∞至+∞;圖4-1正態(tài)分布密度函數(shù)曲線σσ一、正態(tài)分布的定義及其特征4、曲線在x=μ±σ處各有一個拐點,即曲線在(-∞,μ-σ)和(μ+σ,+∞)區(qū)間上是下凸的,在[μ-σ,μ+σ]區(qū)間內(nèi)是上凸的;

5、分布密度曲線與橫軸所夾的面積為1,即:一、正態(tài)分布的定義及其特征圖4-1正態(tài)分布密度函數(shù)曲線圖4-2σ相同μ不同的正態(tài)總體圖4-3σ相同μ不同的正態(tài)總體6、正態(tài)分布有兩個參數(shù),即平均數(shù)μ和標(biāo)準(zhǔn)差σ。

μ是位置參數(shù),當(dāng)σ恒定時,μ愈大,則曲線沿x軸愈向右移動;反之,μ愈小,曲線沿x軸愈向左移動。

σ是變異度參數(shù),當(dāng)μ恒定時,σ愈大,表示x的取值愈分散,曲線愈“胖”;σ愈小,x的取值愈集中在μ附近,曲線愈“瘦”。一、正態(tài)分布的定義及其特征由上述正態(tài)分布的特征可知,正態(tài)分布是依賴于參數(shù)μ和σ2(或σ)的一簇分布,正態(tài)曲線的位置及形態(tài)隨μ和σ2的不同而不同在研究具體的正態(tài)總體時,需將一般的N(μ,σ2)轉(zhuǎn)換為μ=0,σ2=1的標(biāo)準(zhǔn)正態(tài)分布。二、標(biāo)準(zhǔn)正態(tài)分布

對于任何一個服從正態(tài)分布N(μ,σ2)的隨機(jī)變量x,都可以通過標(biāo)準(zhǔn)化變換:

u=(x-μ)/σ(4-5)

將其變換為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量u。

u稱為標(biāo)準(zhǔn)正態(tài)變量或標(biāo)準(zhǔn)正態(tài)離差(standardnormaldeviate)。

標(biāo)準(zhǔn)正態(tài)分布二、標(biāo)準(zhǔn)正態(tài)分布符合μ=0,

σ2=1的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)。標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)及分布函數(shù)分別記作ψ(u)和Φ(u),由(4-3)及(4-4)式得:

(4-6)(4-7)

隨機(jī)變量u服從標(biāo)準(zhǔn)正態(tài)分布,記作u~N(0,1),分布密度曲線如圖4—4所示。

(一)標(biāo)準(zhǔn)正態(tài)分布的概率計算

設(shè)u服從標(biāo)準(zhǔn)正態(tài)分布,則u在[u1,u2

)何內(nèi)取值的概率為:=Φ(u2)-Φ(u1)(4-8)而Φ(u1)與Φ(u2)可由附表1查得。三、正態(tài)分布的概率計算

由(4-8)式及正態(tài)分布的對稱性可推出下列關(guān)系式,再借助附表1,便能很方便地計算有關(guān)概率:

P(0≤u<u1)=Φ(u1)-0.5

P(u≥u1)=Φ(-u1)

P(|u|≥u1)=2Φ(-u1)

P(|u|<u1)=1-2Φ(-u1)

P(u1≤u<u2)=Φ(u2)-Φ(u1)三、正態(tài)分布的概率計算x00.010.020.030.040.050.060.070.080.090.00.50000.50400.50800.51200.51600.51990.52390.52790.53190.53590.10.53980.54380.54780.55170.55570.55960.56360.56750.57140.57530.20.57930.58320.58710.59100.59480.59870.60260.60640.61030.61410.30.61790.62170.62550.62930.63310.63680.64040.64430.64800.65170.40.65540.65910.66280.66640.67000.67360.67720.68080.68440.68790.50.69150.69500.69850.70190.70540.70880.71230.71570.71900.72240.60.72570.72910.73240.73570.73890.74220.74540.74860.75170.75490.70.75800.76110.76420.76730.77030.77340.77640.77940.78230.78520.80.78810.79100.79390.79670.79950.80230.80510.80780.81060.81330.90.81590.81860.82120.82380.82640.82890.83550.83400.83650.83891.00.84130.84380.84610.84850.85080.85310.85540.85770.85990.86211.10.86430.86650.86860.87080.87290.87490.87700.87900.88100.88301.20.88490.88690.88880.89070.89250.89440.89620.89800.89970.90151.30.90320.90490.90660.90820.90990.91150.91310.91470.91620.91771.40.91920.92070.92220.92360.92510.92650.92790.92920.93060.93191.50.93320.93450.93570.93700.93820.93940.94060.94180.94300.94411.60.94520.94630.94740.94840.94950.95050.95150.95250.95350.95351.70.95540.95640.95730.95820.95910.95990.96080.96160.96250.96331.80.96410.96480.96560.96640.96720.96780.96860.96930.97000.97061.90.97130.97190.97260.97320.97380.97440.97500.97560.97620.97672.00.97720.97780.97830.97880.97930.97980.98030.98080.98120.98172.10.98210.98260.98300.98340.98380.98420.98460.98500.98540.98572.20.98610.98640.98680.98710.98740.98780.98810.98840.98870.98902.30.98930.98960.98980.99010.99040.99060.99090.99110.99130.99162.40.99180.99200.99220.99250.99270.99290.99310.99320.99340.99362.50.99380.99400.99410.99430.99450.99460.99480.99490.99510.99522.60.99530.99550.99560.99570.99590.99600.99610.99620.99630.99642.70.99650.99660.99670.99680.99690.99700.99710.99720.99730.99742.80.99740.99750.99760.99770.99770.99780.99790.99790.99800.99812.90.99810.99820.99820.99830.99840.99840.99850.99850.99860.9986x00.10.20.30.40.50.60.70.80.93.00.99870.99900.99930.99950.99970.99980.99980.99990.99991.0000[例]u=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行與0.05所在列相交處的數(shù)值為0.95994,即

Φ(1.75)=0.95994

有時會遇到給定Φ(u)值,例如Φ(u)=0.284,反過來查u值。這只要在附表1中找到與0.284最接近的值0.2843,對應(yīng)行的第一列數(shù)-0.5,對應(yīng)列的第一行數(shù)值0.07,即相應(yīng)的u值為u=-0.57,即

Φ(-0.57)=0.284

如果要求更精確的u值,可用線性插值法計算。三、正態(tài)分布的概率計算【例】已知u~N(0,1),試求:

(1)P(u<-1.64)=0.0505?(2)P(u≥2.58)=0.0049?(3)P(|u|≥2.56)=0.0104?(4)P(0.34≤u<1.53)=0.3039?三、正態(tài)分布的概率計算

利用(4-8)式,查附表1得:

(1)P(u<-1.64)=0.05050(2)P(u≥2.58)=Φ(-2.58)=0.004940(3)P(|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468(4)P(0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389三、正態(tài)分布的概率計算

關(guān)于標(biāo)準(zhǔn)正態(tài)分布,以下幾種概率應(yīng)當(dāng)熟記:

P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545

P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99三、正態(tài)分布的概率計算u變量在上述區(qū)間以外取值的概率分別為:

P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.6826=0.3174P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)

=1-0.9545=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01三、正態(tài)分布的概率計算

(二)一般正態(tài)分布的概率計算

正態(tài)分布密度曲線和橫軸圍成的一個區(qū)域,其面積為1,這實際上表明了“隨機(jī)變量x取值在-∞與+∞之間”是一個必然事件,其概率為1。若隨機(jī)變量x服從正態(tài)分布N(μ,σ2),則x的取值落在任意區(qū)間[x1,x2)的概率,記作P(x1≤x<x2),等于圖4—6中陰影部分曲邊梯形面積。即:

(4-8)

對(4-8)式作變換u=(x-μ)/σ,得dx=σdu,故有其中

這表明服從正態(tài)分布N(μ,σ2)的隨機(jī)變量x在[x1,x2)內(nèi)取值的概率,等于服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量u在[(x1-μ)/σ,(x2-μ)/σ)]內(nèi)取值的概率計算一般正態(tài)分布的概率時,只要將區(qū)間的上下限作適當(dāng)變換(標(biāo)準(zhǔn)化),就可用查標(biāo)準(zhǔn)正態(tài)分布的概率表的方法求得概率三、正態(tài)分布的概率計算【例】設(shè)x服從μ=30.26,σ2=5.102的正態(tài)分布,試求P(21.64≤x<32.98)。令則u服從標(biāo)準(zhǔn)正態(tài)分布,故

=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564

關(guān)于一般正態(tài)分布,以下幾個概率(即隨機(jī)變量x落在μ加減不同倍數(shù)σ區(qū)間的概率)經(jīng)常用到

P(μ-σ≤x<μ+σ)=0.6826P(μ-2σ≤x<μ+2σ)=0.9545P(μ-3σ≤x<μ+3σ)=0.9973

P(μ-1.96σ≤x<μ+1.96σ)=0.95P(μ-2.58σ≤x<μ+2.58σ)=0.99三、正態(tài)分布的概率計算

生物統(tǒng)計中,不僅注意隨機(jī)變量x落在平均數(shù)加減不同倍數(shù)標(biāo)準(zhǔn)差區(qū)間(μ-kσ,μ+kσ)之內(nèi)的概率而且也很關(guān)心x落在此區(qū)間之外的概率。

我們把隨機(jī)變量x落在平均數(shù)μ加減不同倍數(shù)標(biāo)準(zhǔn)差σ區(qū)間之外的概率稱為雙側(cè)概率(兩尾概率),記作α。

對應(yīng)于雙側(cè)概率可以求得隨機(jī)變量x小于μ-kσ或大于μ+kσ的概率,稱為單側(cè)概率(一尾概率),記作α/2。三、正態(tài)分布的概率計算[例]x落在(μ-1.96σ,μ+1.96σ)之外的雙側(cè)概率為0.05,而單側(cè)概率為0.025。即

P(x<μ-1.96σ)=P(x>μ+1.96σ)=0.025

雙側(cè)概率或單側(cè)概率如圖4—7所示。

x落在(μ-2.58σ,μ+2.58σ)之外的雙側(cè)概率為0.01,而單側(cè)概率

P(x<μ-2.58σ)=P(x>μ+2.58σ)=0.005

附表2給出了滿足P(|u|>)=α的雙側(cè)分位的數(shù)值。因此,只要已知雙側(cè)概率α的值,由附表2就可直接查出對應(yīng)的雙側(cè)分位數(shù),查法與附表1相同。例如,已知u~N(0,1)試求:

(1)P(u<-)+P(u≥)=0.10的

(2)P(-≤u<﹚=0.86的因為附表2中的α值是:所以(1)P(u<-)+P(u≥)=1-P(-≤u<﹚=0.10=α由附表2查得:=1.644854(2)P(-≤u<)=0.86,

α=1-P(-≤u<)=1-0.86=0.14

由附表2查得:=1.475791

對于x~N(μ,σ2),只要將其轉(zhuǎn)換為u~N(0,1),即可求得相應(yīng)的雙側(cè)分位數(shù)。

【例】已知豬血紅蛋白含量x服從正態(tài)分布N(12.86,1.332),若P(x<)=0.03,P(x≥)=0.03,求,。

由題意可知,α/2=0.03,α=0.06又因為

P(x≥)=

故P(x<)+P(x≥)=P(u<-)+P(u≥)=1-P(-≤u<)=0.06=α

由附表2查得:=1.88,所以

(-12.86)/1.33=-1.88(-12.86)/1.33=1.88

即≈10.36,≈15.36。第四節(jié)抽樣分布

研究總體與樣本之間的關(guān)系是統(tǒng)計學(xué)的中心內(nèi)容。統(tǒng)計學(xué)的基本方法是歸納法:樣本推斷總體。統(tǒng)計推斷包括兩方面的內(nèi)容,一是參數(shù)估計,即用樣本統(tǒng)計量來對總體參數(shù)進(jìn)行估計;二是假設(shè)檢驗,即利用樣本統(tǒng)計量對總體分布特征進(jìn)行檢驗。

統(tǒng)計推斷是以總體分布和樣本抽樣分布的理論關(guān)系為基礎(chǔ)的。為了能正確地利用樣本去推斷總體,并能正確地理解統(tǒng)計推斷的結(jié)論,須對樣本的抽樣分布有所了解。由總體中隨機(jī)地抽取若干個體組成樣本,即使每次抽取的樣本含量相等,其統(tǒng)計量(比如平均數(shù))也將隨樣本的不同而有所不同,因而樣本統(tǒng)計量也是隨機(jī)變量,也有其概率分布。我們把統(tǒng)計量的概率分布稱為抽樣分布。一、樣本平均數(shù)抽樣分布

由總體隨機(jī)抽樣(randomsampling)的方法可分為有返置抽樣和不返置抽樣兩種。前者指每次抽出一個個體后,這個個體應(yīng)返置回原總體;后者指每次抽出的個體不返置回原總體。對于無限總體,返置與否都可保證各個體被抽到的機(jī)會相等。對于有限總體,就應(yīng)該采取返置抽樣,否則各個體被抽到的機(jī)會就不相等。

設(shè)有一個總體,總體平均數(shù)為μ,方差為σ2,總體中各變數(shù)為x,將此總體稱為原總體。現(xiàn)從這個總體中隨機(jī)抽取含量為n的樣本,樣本平均數(shù)記為。

假設(shè)從原總體中可抽出很多甚至無窮多個含量為n的樣本。由這些樣本算得的平均數(shù)有大有小,不盡相同,與原總體平均數(shù)μ相比往往表現(xiàn)出不同程度的差異。這種差異是由隨機(jī)抽樣造成的,稱為抽樣誤差(samplingerror)。顯然,樣本平均數(shù)也是一個隨機(jī)變量,其概率分布叫做樣本平均數(shù)的抽樣分布。由樣本平均數(shù)構(gòu)成的總體稱為樣本平均數(shù)的抽樣總體。

其平均數(shù)和標(biāo)準(zhǔn)差分別記為和。是樣本平均數(shù)抽樣總體的標(biāo)準(zhǔn)差,簡稱標(biāo)準(zhǔn)誤(standarderror),它表示平均數(shù)抽樣誤差的大小。統(tǒng)計學(xué)上已證明總體的兩個參數(shù)與x

總體的兩個參數(shù)有如下關(guān)系:

=μ,[例]一個N=4的有限總體,變數(shù)為2、3、3、4。根據(jù)μ=Σx/N和σ2=Σ(x-μ)2/N求得該總體的μ、σ2、σ為:

μ=3,σ2=1/2,σ==0.707

從有限總體作返置隨機(jī)抽樣,所有可能的樣本數(shù)為Nn其中n為樣本含量。以上述總體而論,如果從中抽取n=2的樣本,共可得42=16個樣本;如果樣本含量n為4,則一共可抽得44=256個樣本。分別求這些樣本的平均數(shù),其次數(shù)分布如表4—6所示。根據(jù)表4—6,在n=2的試驗中,樣本平均數(shù)抽樣總體的平均數(shù)、方差與標(biāo)準(zhǔn)差分別為:表4—6N=4,n=2和n=4時的次數(shù)分布一個N=4的有限總體,變數(shù)為2、3、3、4

=4/16=1/4=(1/2)/2=

同理,可得n=4時:

這就驗證了=μ,的正確性

由以上模擬抽樣試驗可以看出,雖然原總體并非正態(tài)分布,但從中隨機(jī)抽取樣本,即使樣本含量很小(n=2,n=4),樣本平均數(shù)的分布卻趨向于正態(tài)分布形式。隨著樣本含量n的增大,樣本平均數(shù)的分布愈來愈從不連續(xù)趨向于連續(xù)的正態(tài)分布。當(dāng)n>30時,的分布就近似正態(tài)分布了。X變量與變量概率分布間的關(guān)系可由下列兩個定理說明:1.若隨機(jī)變量x服從正態(tài)分布(μσ2);、、…

、,是由x總體得來的隨機(jī)樣本,則統(tǒng)計量=Σx/n的概率分布也是正態(tài)分布,且有=μ,,即服從正態(tài)分布N(μ,σ2/n)。

2.若隨機(jī)變量x服從平均數(shù)是μ,方差是σ2的分布(不是正態(tài)分布);,,…,是由此總體得來的隨機(jī)樣本,則統(tǒng)計量=Σx/n的概率分布,當(dāng)n相當(dāng)大時逼近正態(tài)分布N(μ,σ2/n)。這就是中心極限定理(統(tǒng)計學(xué)的基礎(chǔ)之二)。3.大數(shù)定律(統(tǒng)計學(xué)的基礎(chǔ)之一)

中心極限定理告訴我們:不論x變量是連續(xù)型還是離散型,也無論x服從何種分布,一般只要n>30,就可認(rèn)為的分布是正態(tài)的。若x的分布不很偏倚,在n>20時,的分布就近似于正態(tài)分布了。第五節(jié)

t分布

由樣本平均數(shù)抽樣分布的性質(zhì)知道:若x~N(μ,σ2),則~N(μ,σ2/n)。將隨機(jī)變量標(biāo)準(zhǔn)化得,則u~N(0,1)。當(dāng)總體標(biāo)準(zhǔn)差σ未知時,以樣本標(biāo)準(zhǔn)差S代替σ所得到的統(tǒng)計量記為t。在計算時,由于采用S來代替σ,使得t

變量不再服從標(biāo)準(zhǔn)正態(tài)分布,而是服從t分布(t-distribution)。它的概率分布密度函數(shù)如下:

(4-26)

式中,t的取值范圍是(-∞,+∞);

df=n-1為自由度(指當(dāng)以樣本的統(tǒng)計量來估計總體的參數(shù)時,樣本中獨立或能自由變化的數(shù)據(jù)的個數(shù)稱為該統(tǒng)計量的自由度。)

t分布的平均數(shù)和標(biāo)準(zhǔn)差為:μt=0(df>1),(df>2)(4-27)t分布密度曲線如圖4-12所示,其特點是:Gammafunction

1、t分布受自由度的制約

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論