




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫藥數理統計課件演示文稿現在是1頁\一共有86頁\編輯于星期六第一章.事件與概率第二章.隨機變量的概率與數字特征第三章.實驗設計第四章.抽樣分布第五章.參數估計第六章.假設檢驗第八章.線性相關與回歸分析第九章.正交設計概率規律統計方法主要內容第七章.方差分析第十章.均勻設計實驗設計現在是2頁\一共有86頁\編輯于星期六確定性現象:結果確定不確定性現象:結果不確定自然界與社會生活中的兩類現象拋出的物體會掉落到地上明天天氣狀況買了彩票會中獎拋硬幣出現正(反)面事件與概率現在是3頁\一共有86頁\編輯于星期六一次拋擲硬幣試驗(出現正面朝上)多次拋擲硬幣實驗(出現正面朝上的次數)不確定近半數(規律)這種在個別實驗中其結果呈現出不確定性,在大量重復試驗中其結果又具有統計規律性的現象,稱為隨機現象。概率論與數理統計是研究和揭示隨機現象規律性的一門數學學科?,F在是4頁\一共有86頁\編輯于星期六事件與概率第一節隨機事件及其運算一、隨機事件隨機試驗:對隨機現象的觀察(試驗)拋一枚硬幣,觀察拋一顆骰子,觀察記錄某城市120急救電話臺一晝夜接到的呼叫次數觀察某一電子元件的壽命將一枚硬幣連拋三次,考慮正(反)面出現的情況具有以上三個特點的試驗成為隨機試驗,簡稱試驗(E)。1、可以在相同條件下重復;2、每次試驗的結果可能不止一個,并且能事先明確試驗的所有可能結果;3、進行一次試驗之前不能確定哪一個結果會出現?,F在是5頁\一共有86頁\編輯于星期六事件與概率樣本空間:試驗所有的結果的集合()拋硬幣:{正面,反面}拋一顆骰子:{1,2,3,4,5,6}記錄某城市120急救電話臺一晝夜接到的呼叫次數:{1,2,3,4,……}觀察某一電子元件的壽命:R+將三枚硬幣:{正正正,正正反,正反反,反反反}隨機事件:隨機試驗的結果(樣本空間的子集)(A,B…….)基本事件:不能分解成其它事件的最簡單的隨機事件.必然事件:每次試驗必然發生()不可能事件:每次試驗都不會發生()現在是6頁\一共有86頁\編輯于星期六二、事件間的關系與運算事件的包含:如果事件A發生必然導致B發生則稱事件B包含事件A
或稱事件A包含于事件B
或稱A是B的子事件記作BA或AB說明:AB屬于A的每一個樣本點一定也屬于B
對任意事件A
易知A
事件的相等:如果事件A包含事件B
事件B也包含事件A
則稱事件A與B相等(或等價)
記作AB
說明:相等的兩個事件總是同時發生或同時不發生
事件與概率現在是7頁\一共有86頁\編輯于星期六事件的并(或和)
“事件A與B至少有一個發生”這一事件稱作事件A與B的并(或和)
記作A∪B或AB
例.在投擲一枚骰子的試驗中記A“點數為奇數”
B“點數小于5”
則A∪B?事件的交(或積)
“事件A和B都發生”這一事件稱為事件A與B的交(或積)
記作A∩B(或AB)說明:兩個事件的并與交可以推廣到有限個或可數個事件的并與交例.在投擲一枚骰子的試驗中記A“點數為奇數”
B“點數小于5”
則A∩B{?}事件與概率現在是8頁\一共有86頁\編輯于星期六事件的差
“事件A發生而B不發生”這一事件稱為事件A與B的差記作AB
例.在投擲一枚骰子的試驗中記A“點數為奇數”
B“點數小于5”
則AB{?}
互不相容事件
若事件A與B不可能同時發生也就是說
AB是不可能事件即AB
則稱事件A與B是互不相容事件事件與概率現在是9頁\一共有86頁\編輯于星期六完備事件組:設A1
A2
An是兩兩互不相容的事件并且和為,稱A1
A2
An是一個完備事件組
例.考察某一位同學在一次數學考試中的成績分別用A
B
C
D
P
F表示下列各事件(括號中表示成績所處的范圍)
A——優秀([90100])
D——及格([6070))
B——良好([8090))
P——通過([60100])
C——中等([7080))
F——未通過([060))
則:A
B
C
D
F是兩兩不相容事件
P與F是互為對立的事件即有PF
A
B
C
D均為P的子事件且有PA∪B∪C∪D
對立事件:“事件A不發生”這一事件稱為事件A的對立事件記作A
如:在投擲一枚骰子的試驗中
“點數小于3”和“點數大于4”這兩個事件是互不相容事件
說明:在一次試驗中如果A發生則A一定不發生如果A不發生則A一定發生因而有AA
A∪A
問:對立事件與互不相容事件之間的關系?事件與概率現在是10頁\一共有86頁\編輯于星期六三、隨機事件的運算律1
關于求和運算(1)A∪BB∪A(交換律)(2)(A∪B)∪CA∪(B∪C)A∪B∪C(結合律)2
關于求交運算(1)A∩BB∩A(交換律)(2)(A∩B)∩CA∩(B∩C)A∩B∩C(結合律)3
關于求和與求交運算的混合(1)A∩(B∪C)(A∩B)∪(A∩C)(第一分配律)(2)A∪(B∩C)(A∪B)∩(A∪C)(第二分配律)4
關于求對立事件的運算5
德摩根律事件與概率現在是11頁\一共有86頁\編輯于星期六頻率穩定值概率
概率的統計定義頻率:在相同條件下進行n次試驗,事件A發生的次數m稱為事件A發生的頻數。稱為A發生的頻率。記作定義:當n足夠大時,頻率的穩定值p(注意概率與頻率的區別)性質:第二節事件的概率注:概率是一個隨機事件所固有的屬性,與試驗次數以及每一次試驗結果無關。頻率的性質事件發生的頻繁程度事件發生的可能性的大小概率的統計定義事件與概率一、概率的定義現在是12頁\一共有86頁\編輯于星期六概率的古典定義前提:試驗樣本空間只包含有限個元素;每個基本事件發生等可能性。定義:已知樣本空間中基本事件總數為n,若事件A包含k個基本事件,則有例:將一枚硬幣拋三次,求(1)事件A={恰有一次出現正面}(2)事件B={至少有一次出現正面}?例:某學習小組有10名同學,其中7名男生,3名女生,從中任選3人去參加社會活動,則3人全為男生的概率為?現在是13頁\一共有86頁\編輯于星期六補充:排列與組合排列定義:從m個元素中,取出n(n≤m)個元素按一定順序排成一列。記為組合定義:從n個元素中,任取k個為一組,得出的不同的組數,稱為組合數。記作現在是14頁\一共有86頁\編輯于星期六1.互斥事件加法定理(有限可加性)若事件A、B互斥,則有P(A+B)=P(A)+P(B)推廣:若為兩兩互斥事件,則例.藥房有包裝相同的六味地黃丸100盒,其中5盒為去年產品,95盒為今年產品。現隨機發出4盒,求:有1盒或2盒陳藥的概率。2.一般加法定理對任意兩事件A、B,有P(A+B)=P(A)+P(B)-P(AB)推廣:對任意三事件A、B、C,有P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)3.減法定理對任意的A、B,有P(A-B)=P(A)-P(AB)二、概率的運算現在是15頁\一共有86頁\編輯于星期六4.條件概率與乘法定理條件概率:在事件B已經發生的條件下,A發生的概率稱為A的條件概率,記性質:一般情況下,例.
袋中有2個白球,8個黑球,現讓兩個人去抽球(無放回)。若已知第一個人抽到白球,則第二個人也抽到白球的概率是多少?乘法定理:推廣公式:現在是16頁\一共有86頁\編輯于星期六4.獨立事件及其乘法定理獨立事件:若或或則稱時間A、B相互獨立。定理:若A與B,A與,與B,與中有一對相互獨立,則另外三對也相互獨立。推廣:若任意三事件A、B、C兩兩獨立,且P(ABC)=P(A)P(B)P(C),則稱A、B、C相互獨立。多事件相互獨立多事件兩兩獨立例如:拋一枚硬幣兩次,記A={第一次為正面},B={第二次為反面},C={兩次都為同一面}。分析知,A、B、C兩兩獨立,但不相互獨立。獨立事件的乘法定理:若相互獨立,則注意:具有非零概率的兩事件,互斥就不獨立,獨立就不互斥。例.若每人血清中有肝炎病毒的概率為0.4%,今混合100人的血清,求混合血清無肝炎病毒的概率?,F在是17頁\一共有86頁\編輯于星期六1.全概率公式:若構成互斥完備群,則對任意事件B,有全概率公式的意義:在較復雜情況下直接計算P(B)不易,借助于一個完備事件組,將復雜事件分解成若干個互不相容的簡單事件的和,再利用概率的加法公式求出復雜事件概率。例12.設藥房的某種藥品由三個不同的廠家生產。其中第一家藥廠生產的藥品占1/2,第二、三家分別占1/4,已知第一、二家藥廠生產的藥品有2%的次品,第三家藥品有4%的次品。試求:現從藥房任取一份,問拿到次品的概率?第四節全概率公式和逆概率公式現在是18頁\一共有86頁\編輯于星期六實際工作中還會遇到與全概率問題相逆的問題。如例12改成:設藥房的某種藥品由三個不同的廠家生產。其中第一家藥廠生產的藥品占1/2,第二、三家分別占1/4,已知第一、二家藥廠生產的藥品有2%的次品,第三家藥品有4%的次品。試求:拿到的藥品是次品時,該次品由各家藥廠生產的可能性為多大?2.逆概率公式(貝葉斯公式):設是互斥完備群,則對任意事件B,有現在是19頁\一共有86頁\編輯于星期六隨機變量的概率分布與數字特征第一節隨機變量與離散型隨機變量的概率分布引入隨機變量使得隨機事件可用隨機變量的關系式表示,從而使對隨機現象研究進一步深入、更數學化。1.隨機變量對于隨機試驗,若其試驗結果可用一個取值帶有隨機性的變量來表示,且變量取這些可能值的概率是確定的,則稱這種變量是隨機變量。
注意:隨機變量常用X,Y,Z表示,而表示隨機變量所取的值通常用x,y,z表示。
例如,從某一學校隨機選一學生,測量他的身高。我們可把可能的身高看作隨機變量X,然后提出關于X的各種問題。如P(X>1.7)=?P(X≤1.5)=?P(1.5<X<1.7)=?一旦我們實際選定了一個學生并量了他的身高之后,我們就得到X的一個具體的值,記作x。這時,要么x≥1.7米,要么x<1.7米,再去求P(x≥1.7米)就沒有什么意義。性質1:隨機變量取任何值的概率均為非負。性質2:隨機變量取所有可能值的概率之和為1?,F在是20頁\一共有86頁\編輯于星期六2.離散型隨機變量如果隨機變量只能取有限個或無限可列個數值,則稱它為離散型隨機變量。例如:小白鼠存活的只數,引體向上次數等。3.連續型隨機變量如果隨機變量的可能取值為某一區間的所有實數,無法一一列舉,則稱他為連續型隨機變量。例如:身高、體重等?,F在是21頁\一共有86頁\編輯于星期六4.離散型隨機變量的概率函數設離散型隨機變量X的所有可能取值為xi(i=1,2,…),相應的概率P(X=xi)=pi稱為離散型隨機變量X的概率函數或分布律。通常X的分布律可用表格表示:概率函數有如下性質性質:例.某籃球運動員投中籃圈概率是0.9,求他兩次獨立投籃投中次數X的概率分布。Xx1x2
…xi…
Pp1p2…pi…
現在是22頁\一共有86頁\編輯于星期六5.離散型隨機變量的分布函數設X是一個隨機變量(可以是離散型,也可以是連續型),x是任意實數,則函數F(x)=P(X≤x)稱為隨機變量X的分布函數。性質:(1)F(x)為非減函數;(2)0≤F(x)≤1(-∞<x<+∞);(3)F(-∞)=0,F(+∞)=1;(4)F(x)右連續,即
例.給青蛙按每單位體重注射一定數量的洋地黃,由以往的實驗知,致死的概率為0.6,存活的概率為0.4,現給兩只青蛙注射,求死亡只數的概率函數和分布函數。012xF(x)
現在是23頁\一共有86頁\編輯于星期六第二節常用的離散型隨機變量的概率分布1.二項分布伯努利試驗:許多試驗只有兩種互斥的結果,為了找到這些試驗結果的規律性,需要在相同條件下做n次獨立重復試驗,稱為n重伯努利試驗,簡稱伯努利試驗。二項分布
若在一次伯努利實驗中成功(事件A發生)的概率為p(0<p<1),獨立重復進行n次,這n次中實驗成功的次數(事件A發生的次數)X的分布列為:稱X所服從的分布為二項分布.記為X~B(n,p).例.某射手在相同條件下獨立地進行5次射擊,每次擊中目標的概率是0.6,求擊中目標次數X的概率分布.現在是24頁\一共有86頁\編輯于星期六在二項分布中,X取不同值k(k=0,1,2…,n)的概率是不同的,是P(X=k)取最大值的k(記為k0)稱為二項分布的最可能值。當k在(n+1)p附近時,P(X=k)達到最大值。即:若(n+1)p為整數,則k0為(n+1)p和(n+1)p-1;若(n+1)p為非整數時,則k0為int[(n+1)p]例4.設某種老鼠正常情況下,受某種病毒感染的概率為20%,試求正常情況下,25只健康老鼠受感染的最可能只數是多少?2.泊松分布(稀有事件模型)如果隨機變量X的概率函數為其中,λ>0,則稱X服從參數為λ的泊松分布,記為X~P(λ)。許多稀有事件都服從或近似服從泊松分布。λ=np?,F在是25頁\一共有86頁\編輯于星期六例5.已知某地區人群中患某種病的概率為0.001,試求在檢查的5000人中至少有2人患此病的概率。解:由于n=5000較大,p=0.001較小,取λ=np=5,設X=患此病人數,則X~P(5)若精確計算,則X~B(5000,0.001)
現在是26頁\一共有86頁\編輯于星期六第3節連續型隨機變量的概率分布1.連續型隨機變量的概率密度若對于隨機變量X的分布函數F(x),存在非負函數f(x),使得對于任意實數x,有:則稱X為連續型隨機變量,其中被積函數f(x)稱為X的概率密度函數(簡稱概率密度)性質:⑴f(x)≥0;⑵⑶對于任意實數a,b(a<b)
⑷若f(x)在點x處連續,則注意:⑴連續型隨機變量X的分布函數F(x)是連續函數.
⑵連續型隨機變量X取任一常數a的概率為0
⑶現在是27頁\一共有86頁\編輯于星期六2.正態分布定義:若隨機變量X的概率密度函數為其中,(>0)為常數,則稱X服從參數為,2的正態分布(或高斯分布),記為X~N(,2).特點:⑴曲線f(x)呈鐘形,關于直線x=μ對稱,在(-∞,μ]上遞增,在[μ,+∞)上遞減。⑵在x=μ處,f(x)取最大值
在x=μ±σ處有拐點,且以x軸水平漸近線?,F在是28頁\一共有86頁\編輯于星期六⑶當σ固定時,μ改變,則f(x)圖形的形狀不變,只改變其位置,μ確定圖形的中心位置,稱位置參數,μ增大,曲線向右移。⑷當μ固定時,σ越小圖形越陡峭,σ確定圖形峰的陡峭形狀,故稱形狀參數。現在是29頁\一共有86頁\編輯于星期六標準正態分布參數μ=0,σ=1的正態分布為標準正態分布,記為X~N(0,1)。標準正態分布的重要性在于,任何一個正態分布都可以通過線性變換轉化為標準正態分布。它的依據是下面的定理:根據定理,只要將標準正態分布的分布函數制成表,就可以解決一般正態分布的概率計算問題?,F在是30頁\一共有86頁\編輯于星期六正態分布是自然界及工程技術中最常見的分布之一,大量的隨機現象都是服從或近似服從正態分布的.正態分布是概率論中最重要的分布。均勻分布、對數正態分布等分布不做要求?,F在是31頁\一共有86頁\編輯于星期六第4節隨機變量的數字特征隨機變量數字特征,分兩類:⑴表示集中程度、平均水平數學期望、分位數、中位數、眾數等;⑵表示離散程度、變異大小方差、標準差、變異系數等。1.均數(數學期望)定義1:設離散型隨機變量X的分布律為P{X=xi}=pi,k=1,2,3...,則規定X
的均數定義2:設連續型隨機變量X的概率密度函數f(x),則規定X的均數為性質:(1)E(c)=c,c為常數(2)E(cX)=c*E(x)(3)E(X±Y)=E(X)±E(Y)(4)E(XY)=EX*EY,X與Y獨立現在是32頁\一共有86頁\編輯于星期六常見分布的數學期望二項分布:泊松分布:正態分布:E(X)=μ2.方差和標準差方差:設X是一個隨機變量,則稱E[(X-EX)2]為X的方差,記作DX,為標準差。注:隨機變量的方差反映了它的取值與其數學期望的偏離程度,它是衡量取值離散程度的一個尺度。對于離散型隨機變量:對于連續型隨機變量:性質:(1)D(c)=0,c為常數(2)D(cX)=c2*D(X)(3)D(X±Y)=DX+DY,X與Y相互獨立現在是33頁\一共有86頁\編輯于星期六常見分布的方差二項分布:泊松分布:正態分布:例7:設X~P(2),則下列結論中正確的是()A.EX=0.5,DX=0.5 B.EX=0.5,DX=0.25C.EX=2,DX=4 D.EX=2,DX=2例8:相互獨立的隨機變量X和Y的方差分別為4和2,則隨機變量3X-2Y的方差是?3.變異系數比較度量單位不同或均數相差懸殊的兩組(或多組)資料的變異程度。現在是34頁\一共有86頁\編輯于星期六第5節三種重要分布的漸進關系(略)當n→∞,二項分布B(k;n,p)以泊松分布P(k;λ)為極限分布;當n→∞,二項分布B(k;n,p)以正態分布N(np,npq)為極限分布;當n→∞,泊松分布P(k;λ)以正態分布N(λ;λ)為極限分布。例:現在是35頁\一共有86頁\編輯于星期六第3講隨機抽樣、抽樣分布和總體的參數估計第1節隨機抽樣1.總體與樣本總體:研究對象的全體,組成總體的每個單元稱為個體。樣本:在一個總體X中抽取n個個體X1,X2…Xn,這n個個體組成的集合稱為總體X的一個樣本。樣本中含有個體的數目稱為樣本容量,也稱樣本的大小。簡單隨機抽樣是指在抽取樣本單位時,總體的每一個可能的樣本被抽中的概率相同。簡單隨機樣本樣本X1,X2…Xn相互獨立且與總體X有相同的分布函數,這樣的樣本稱為簡單隨機樣本?,F在是36頁\一共有86頁\編輯于星期六第2節樣本的數字特征統計量:設X1,X2…Xn為總體X的一個樣本,g(X1,X2…Xn)為一個樣本函數,如果g中不含有任何未知參數,則稱g為一個統計量。特點:(1)統計量是樣本中n個隨機變量X1,X2,…,Xn的函數,它是完全由樣本決定的量,仍是一個隨機變量。(2)統計量不包含任何未知參數。例如:幾種常見統計量樣本均數現在是37頁\一共有86頁\編輯于星期六樣本方差、標準差、變異系數(相對標準差)注意:分母為n-1。由于樣本方差中的均數是樣本的,是總體的一部分,其離差平方和一定變小,所以若以n為分母,S2一般比總體方差小(有偏估計)。而分母改為n-1后,經數學證明,S2總在總體方差周圍波動(無偏估計),另外,S2的自由度正好是n-1。樣本的標準誤SD與SE的區別:SD是描述個體觀察值變異程度的大小,樣本標準差越小,樣本均數對一組樣本觀察值的代表性就越好;SE是描述樣本均數變異程度和抽樣誤差的大小,樣本標準誤越小,用樣本均數估計總體均數可靠性就越高。現在是38頁\一共有86頁\編輯于星期六在實際中,一般用樣本標準差與樣本均數結合,用于描述樣本觀察值的分布范圍;樣本標準誤與樣本均數結合,用于估計總體均數可能出現的范圍。第3節抽樣分布統計量是樣本隨機變量的函數,也是一個隨機變量,因而也有自己的概率分布,這種統計量的分布叫做抽樣分布。以下介紹幾種在已知總體為正態分布條件下,常見統計量的抽樣分布。1.樣本均數的u分布這說明樣本均數的期望與總體的期望相等,而方差為總體方差的1/n倍??梢?,用樣本均值估計總體均值無系統偏差,且n越大越精確。現在是39頁\一共有86頁\編輯于星期六樣本均值分布的應用:其標準化隨機變量u主要用于單正態總體、方差已知、小樣本條件下數學期望的u檢驗?,F在是40頁\一共有86頁\編輯于星期六2.2分布(卡方分布)設X1,X2,…,Xn相互獨立,都服從N(0,1),則稱隨機變量:所服從的分布為自由度為n的2分布,記為2~2(n)。自由度:指統計量中獨立變量的個數。計算公式為df=n-k,n為樣本容量,k為約束條件個數。如統計量,變量獨立無約束條件,所以自由度為n。而樣本方差,其中有n個變量,但這說明變量間有一個約束條件,所以其自由度為n-1.性質:(1)一種非對稱分布。當n較大時,曲線近似對稱,趨于正態分布。(2)一個以自由度n為參數的分布族,自由度n決定了分布的形狀,對于不同的n有不同的分布。(3)均值為n,方差為2n?,F在是41頁\一共有86頁\編輯于星期六定理:若X1,X2…Xn為正態總體的一個樣本,則有3.t分布設X~N(0,1),Y~2(n),且X與Y相互獨立,則稱隨機變量所服從的分布為自由度為n的t分布,記為t~t(n)。性質:(1)t分布是對稱分布,與標準正態分布相比,t分布的中心部分較低,2個尾部較高。(2)均值為0,方差為n/(n-2)。(3)當樣本容量n較小時,t分布的方差大于1;當n逐漸增大時,t分布的方差就接近1,t分布也就趨近于標準正態分布?,F在是42頁\一共有86頁\編輯于星期六t分布是統計學中十分重要的分布,應用最為廣泛,其應用的依據是下面2個定理:(1)設X1,X2…Xn為正態總體的一個樣本,則(2)設X1,X2…Xn1和Y1,Y2…Yn2分別是從同方差的總體和中所抽取的樣本,它們是相互獨立,則
其中,
S1和S2分別是這兩個樣本的標準差。現在是43頁\一共有86頁\編輯于星期六4.F分布設X~2(n1),Y~2(n2),X與Y相互獨立,則稱統計量為服從自由度n1和n2的F分布,記為F~F(n1,n2)。n1為分子隨機變量X的自由度,稱為分子自由度,n2為分母隨機變量Y的自由度,稱為分母自由度。性質:(1)非對稱偏左側的分布;當n較大時,曲線近似對稱,趨于正態分布。(2)是以自由度n1和n2為參數的分布族,不同自由度決定了F分布的形狀。概率分布的擬合及其應用不做要求。現在是44頁\一共有86頁\編輯于星期六第4節總體的參數估計統計推斷:用樣本的信息去推斷總體的信息。參數估計:用樣本統計量去估計總體參數的大小。假設檢驗:用樣本統計量大小去推斷總體參數是否有差異?,F在是45頁\一共有86頁\編輯于星期六1.參數點估計(略)直接用樣本統計量大小代替總體參數。同一總體參數可用多個統計量來估計,衡量其好壞的指標有三個:無偏性、有效性、一致性。(易出選擇題或填空題)缺陷:(1)點估計值不一定是參數的真值,即使與真值相等也無法肯定這種相等(總體參數本身是未知的)。(2)點估計值只是未知參數的一個近似值,沒有給出它與真值之間的誤差范圍(可靠程度),把握不大。實例:估計全省18歲女孩的平均身高。若根據實際樣本,通過點估計法可能得到女孩的平均身高估計值為162cm。而實際上,女孩的平均身高可能大于或小于162cm。若能給出一區間,能以較大概率相信這個區間包含身高的真值,將會更有價值?,F在是46頁\一共有86頁\編輯于星期六2、區間估計在給定可靠程度1-α下,用樣本值通過合適統計量,估計總體參數θ所在區間的方法。置信區間與置信度設θ是總體的未知參數,若由樣本X1,X2,…Xn確定的兩個統計量:對給定α(0<α<1),滿足則稱是θ在置信度(置信水平、置信概率)1-α下的置信區間(CI)。注意:置信區間的長度反映了估計的精度,長度越小,估計的精度越高。置信度則反映了估計的可靠程度,置信度越大,估計的可靠性越大。置信度與精確度是一對矛盾,如何處理?兩者矛盾時,應在保證可靠度條件下盡可能提高精度?,F在是47頁\一共有86頁\編輯于星期六3.正態總體期望值的區間估計σ已知設X1,X2,…,Xn是取自正態總體N(μ,σ2)的樣本,且σ2已知,求參數μ的置信度為1-α的置信區間。解:(1)選μ的點估計
(2)取函數
(3)對給定的置信度1-α,查正態分布表得Uα/2,
(4)變形所以μ在置信度1-α的置信區間為:簡記為α常取值0.05,而現在是48頁\一共有86頁\編輯于星期六例1.設正態總體X~N(μ,1),從中抽取樣本容量為16的樣本,且樣本均數為5.20,求μ的置信度為95%和99%的置信區間。解:由題意易得n=16,σ=1(總體方差已知)當1-α=0.95時,α=0.05;查表得u0.05/2=1.96當1-α=0.99時,α=0.01,查表得,u0.01/2=2.58則置信度為95%的置信區間為既為(4.71,5.69)。同樣計算方法可得99%的置信區間為(4.56,5.85)??梢钥吹?,99%的置信區間要比95%的置信區間寬,雖然可靠性更強,但是精確度更低?,F在是49頁\一共有86頁\編輯于星期六σ未知設X1,…,Xn是取自N(μ,σ2)的樣本,且σ2未知,求參數μ的置信度為1-α的置信區間。思考:應選擇何種分布函數?解:(1)選μ的點估計(2)取函數(3)對給定的置信度1-α,(4)所以μ在置信度1-α的置信區間為:簡記為現在是50頁\一共有86頁\編輯于星期六例2.隨機抽取6只貓,靜脈注射麻醉后,收集支氣管內分泌物,分泌量為4.8,7.92,1.2,12.72,9.6,13.68,若分泌量服從正態分布,求該批貓支氣管內平均分泌量的95%的置信區間。解:n=6,df=5,總體方差未知。當1-α=0.95時,α=0.05,查表得t0.05/2(5)=2.57195%的置信區間為,既為(3.33,13.31)。注意:在大樣本下,tα/2(n-1)≈uα/2,即t分布近似于標準正態分布,這時,μ的置信水平1-α的置信區間為大樣本:>50正態總體總體均數之差的區間估計、正態總體方差的區間估計(略)。離散型總體參數的區間估計不作要求。現在是51頁\一共有86頁\編輯于星期六第4講總體參數的假設檢驗第1節假設檢驗的基本思想問題的提出從吸煙人群和非吸煙人群中各抽取n=100的樣本,分別記為A樣本和B樣本。A樣本收縮壓為150mmHg,B樣本為130mmHg。原因有兩種可能:(1)兩個總體均數不相同(2)抽樣誤差(兩個總體均數相同)假設檢驗的基本思想(1)反證法(2)小概率原理:認為小概率事件在一次抽樣中是不可能發生的。先假定一個假設H0:μ1=μ2成立,如果由此導出一個不合理現象的發生(即出現一個小概率事件),就拒絕這個假設;如果沒有導出不合理的現象發生,就不能拒絕這個假設?,F在是52頁\一共有86頁\編輯于星期六假設檢驗的基本步驟(1)建立假設H0:μ1=μ2(原假設)H1:μ1≠μ2(備擇假設)注意:假設是針對總體,而不是樣本(2)確定檢驗水準顯著性水準,判定差別有無統計學意義的概率水準,確定了小概率事件的標準。通常取α=0.05。P≤α----小概率事件(3)選定檢驗方法,計算檢驗統計量根據研究目的、資料類型選用合適的檢驗方法;統計量都是在H0成立的前提下算出來的!(4)確定P值根據檢驗統計量確定P值?,F在是53頁\一共有86頁\編輯于星期六P值:H0成立的概率如果P≤0.05,即H0成立的概率小于0.05,可以認為H0成立是小概率事件,發生的可能性很小,就有理由懷疑H0不成立!(5)做出推斷結論推斷的結論=統計學結論+專業結論P>0.05,按α=0.05檢驗水準,不拒絕H0,差異無統計學意義,還不能認為……不同或不等。P≤0.05,按α=0.05檢驗水準,拒絕H0,接受H1,差異有統計學意義,可以認為……不同或不等。下結論時,對H0只能說拒絕/不拒絕;對H1只能說接受!不拒絕H0≠接受H0
現在是54頁\一共有86頁\編輯于星期六第2節單個正態總體的參數檢驗σ2已知時正態總體均值的u檢驗設總體X~N(μ,σ2),X1,X2,…,Xn為抽自總體X的樣本,方差σ2已知,則例1.某藥廠正常情況下生產的某藥膏含甘草酸量X~N(4.45,0.1082).現隨機抽查了5支藥膏,其含甘草酸量分別為:4.404.254.214.334.46,若方差不變,問此時藥膏的平均含甘草酸量μ是否有顯著變化?(=0.05)解:H0:μ=μ0,H1:μ≠μ0;α=0.05
根據顯著水平=0.05,查正態分布雙側臨界值,得u0.05/2=1.96|u|=2.485>u0.05/2,所以拒絕H0,接受H1??梢哉J為此藥膏的平均含甘草酸量有顯著性變化。現在是55頁\一共有86頁\編輯于星期六σ2未知時正態總體均值的u檢驗設總體X~N(μ,σ2),X1,X2,…,Xn為抽自總體X的樣本,方差σ2未知,則例2.正常人的脈搏平均為72(次/min),現測得20例慢性四乙基鉛中毒患者的脈搏(次/min)的均值是63.50,標準差是5.60,若四乙基鉛中毒患者的脈搏服從正態分布,問四乙基鉛中毒患者的脈搏是否與正常人不同?(=0.05)解:H0:μ=μ0,H1:μ≠μ0α=0.05查t分布臨界值表得:|t|=6.788>2.093,所以拒絕H0,接受H1可認為四乙基鉛中毒者的脈搏與正常人不同?,F在是56頁\一共有86頁\編輯于星期六第3節兩個正態總體的參數檢驗1.兩個正態總體的方差齊性檢驗(略)2.配對比較兩個正態總體均數的檢驗(略)3.成組比較兩個正態總體均數的檢驗(略)第4節方差分析在多組總體均數比較時如采用t檢驗會增大犯第一類錯誤概率。如三組之間的兩兩t檢驗,三組之間的兩兩t檢驗做完三次t檢驗,總的顯著性水平變為1-(1-0.05)3=0.14,要大于設定的α=0.05。而方差分析是將三組數據放在一起做一次比較,犯一類錯誤的概率仍為α=0.05?;靖拍钤囼炛笜耍汉饬吭囼灲Y果好壞的標準。因素:在試驗過程中,影響試驗結果的條件。水平:因素在試驗中可能處的狀態。現在是57頁\一共有86頁\編輯于星期六總體1.N(μ1,σ12)-----------樣本1(n1,,S1)
總體2.N(μ2,σ22)-----------樣本2(n2,,S2)
總體3.N(μ3,σ32)-----------樣本3(n3,,S3)已知:σ12=σ22=σ32,問:μ1=μ2=μ3?
總離差平方和(SS),所有觀察值之間的差異組內離差平方和(SSe),在因素的同一水平(同一個總體)內,樣本的各觀察值之間的差異組間利差平方和(SSA),在因素的不同水平(不同總體)下,各水平的均值之間的差異現在是58頁\一共有86頁\編輯于星期六組間變異(不同藥物效應引起+隨機誤差引起)總變異組內變異(隨機誤差引起)如不同藥物的作用相同(H0:均值相等),則:F=組間變異/組內變異→=1在H0條件下,F雖不會正好等于1(抽樣誤差),但應當和1相差不大。F越大,其概率越小,當F↑以致其對應的概率P<0.05,則可認為不同藥物的作用是不相同的。即樣本均數之間的差異有統計學意義。現在是59頁\一共有86頁\編輯于星期六方差分析的基本步驟(1)提出假設H0:三種藥物對小白鼠鎮咳作用相同H1:三種藥物鎮咳作用不完全相同(2)確定檢驗水準α=0.05(3)計算統計量SSe的自由度為N-k,即40-3=37,組內方差Se2=SSe/(N-k)SSA的自由度為k-1,即3-1=2,組間方差SA2=SSA/(k-1)統計量F=組間方差SA2
/組內方差Se2,將結果整理為方差分析表現在是60頁\一共有86頁\編輯于星期六(4)確定P值(5)作出推斷結論在α=0.05水平上,拒絕H0,接受H1,認為三種藥物平均推遲咳嗽時間不全相同。方差齊是方差分析的前提條件之一,因此先進行方差齊性檢驗(略)。方差分析中如果拒絕HO,接受H1,僅能認為多個水平間均數不全相等,但是哪些水平間差異顯著,哪些不顯著,方差分析不能作結論。因此需要進行兩兩間多重比較的檢驗法(略)。兩因素試驗的方差分析不作要求。第5節離散型變量總體參數的假設檢驗單個總體率的假設檢驗(略)兩個總體率的假設檢驗(略)現在是61頁\一共有86頁\編輯于星期六第6節列聯表中獨立性檢驗2×2列聯表(四格表)中的獨立性檢驗原理及步驟(1)建立假設H0:兩種藥物治療消化道潰瘍的療效相同H1:兩種藥物治療消化道潰瘍的療效不同(2)確立檢驗水準α=0.05(3)計算統計量
在H0成立的前提下,假設π1=π2=PC(合計率),計算理論頻數T兩種藥物治療消化道潰瘍4周后療效處理愈合未愈合合計愈合率(%)洛賽克64(E11)21(E12)8575.29雷尼替丁51(E21)33(E22)8460.71合計1155416968.05現在是62頁\一共有86頁\編輯于星期六合計愈合率=115/169,合計未愈合率=54/169,各個格子理論頻數應為:E11=85*115/169,E12=85*54/169,E21=84*115/169,E22=84*54/169統計學家Pearson提出對R×C列聯表使用統計量它服從自由度為f的2分布,其中f=(R-1)*(C-1)。(4)確定P值。20.05,1=3.84,得P<0.05。(5)做出推斷結論按=0.05水準,拒絕H0,接受H1,差異有統計學意義。可以認為洛賽克的愈合率高于雷尼替丁?,F在是63頁\一共有86頁\編輯于星期六配對四格表的獨立性檢驗、四格表的確切概率法不做要求。R×C列聯表(四格表)中的獨立性檢驗(略)參照單位法Ridit分析注意:等級資料應采用Ridit分析,不能采用2檢驗。用置信區間作顯著性檢驗不作要求?,F在是64頁\一共有86頁\編輯于星期六第5講相關與回歸在某一現象(過程)中變量間的關系可能是確定性關系,也可能是非確定關系。就兩個變量而言,如果對于一個變量的可能取值,另一個變量都有完全確定的值與之對應,則稱這兩個變量之間存在著函數關系。然而,像人的年齡與血壓,身高與體重之間,顯然不是函數關系。因為對于年齡相同的一個人群其血壓有高有低乃是一個隨機變量。我們稱這類非確定性關系為相關關系。相關與回歸分析的基本內容就是運用數學手段,在大量統計資料中找出這種相關性,并作定量分析。第1節相關散點圖簡單直觀研究兩變量間相關關系的方法,是將試驗或觀察得到的n對(x,y)的樣本數據:(x1,y1)、(x2,y2)、…、(xn,yn),作為平面直角坐標系上點的坐標,將它們在方格坐標紙上描出,得到散點圖,直觀地說明直線相關的性質。現在是65頁\一共有86頁\編輯于星期六相關系數總體相關系數如果變量X,Y的方差DX,DY存在且EX=μx,EY=μy,則定義為總體相關系數,分子稱為X和Y的協方差。ρ具有以下性質:(1)-1≤ρ≤1(2)如果X和Y存在著線性相關關系,則|ρ|=1(3)如果X和Y獨立,則ρ=0。注:性質(3)不可逆,當ρ=0時,應稱X和Y是不線性相關的。現在是66頁\一共有86頁\編輯于星期六樣本相關系數設(x1,y1),(x2,y2),…,(xn,yn)是成對出現的變量X和Y的n對樣本值,則定義為X和Y的樣本相關系數,簡稱相關系數,其中r與ρ性質相同,是ρ的點估計。相關系數沒有單位,取值范圍為-1≤r≤1。r的符號表示相關方向,r>0稱為正相關,r<0稱為負相關。r的絕對值表示兩個變量間直線關系的密切程度,r的絕對值為1表示完全相關。相關系數的絕對值接近1,表示兩個變量間的直線關系愈密切。相關系數愈接近0,直線關系愈不密切。r=0稱為零相關,是指非線性相關或無相關,并不一定表示兩個變量間不存在其他關系?,F在是67頁\一共有86頁\編輯于星期六相關系數的假設檢驗判斷x和y是否線性相關,需要檢驗r是否來自ρ=0的總體,稱為相關系數的假設檢驗。總體相關系數ρ=0,表示總體中兩變量x和y無直線相關關系。因ρ是一個客觀存在的理論值,一般無法獲得,在實際問題中,常用r推斷變量x和y有無直線相關關系。當r≠0時,因為存在抽樣誤差,不能認為ρ≠0,所以,判斷x和y是否線性相關,需要檢驗r是否來自ρ=0的總體.現在是68頁\一共有86頁\編輯于星期六方法1:可直接用r作檢驗統計量,用自由度df=n-2查相關系數r界值表,若│r│≥臨界值rα,則P≤α,可按α檢驗水準拒絕H0,認為x與y之間有直線相關關系,ρ≠0。反之,若│r│<rα,則P>α,不能按α檢驗水準拒絕H0,從而認為x、y之間無直線相關關系。方法2:在H0:ρ=0假設下,可用t檢驗判斷樣本相關系數r是否來自ρ=0的總體,即t=服從自由度df=n-2的t分布。第2節線性回歸方程一元線性模型對普通變量X的值x1,x2,…,xn,設隨機變量Y相應的觀察值為y1,y2,…,yn且諸點(x1,y1),(x2,y2),…,(xn,yn)排布成一條直線或接近一條直線,則可假定Y與X之間有如下關系:Y=a+bx+ε,其中,a,b為不依賴于X的位置參數,ε為隨機誤差且ε~N(0,σ2
)?,F在是69頁\一共有86頁\編輯于星期六由正態分布的性質有Y~N(a+bx,σ2
)。在X取某固定值x的前提下,Y的值并不固定,而是形成一個分布,稱為X等于x時的條件分布。顯然,條件分布的均數μy為一確定值,并且隨著X的取值x不同而不同,所以我們可以把μy看成是x的函數μy=a+bx,這個方程就稱為Y關于X的回歸方程,X叫回歸變量,b為回歸系數。為方便起見,將μy記為(為y的預測值),于是=a+bx。線性回歸方程回歸分析就是要確定變量a和b的大小,可采用最小二乘法。設給定n個點(x1,y1),(x2,y2),…,(xn,yn),那么,對于平面上任意一條直線L:y=a+bx;用數量[yi-(a+bxi)]2來刻劃散點到直線L的遠近程度。顯然,這個量是a,b的二元函數,記為Q(a,b)=[yi-(a+bxi)]2。問題歸結為求Q(a,b)的極小值?,F在是70頁\一共有86頁\編輯于星期六根據多元微分學中的極值原理,有:注:相關系數r與回歸系數b的聯系。故回歸系數b乘以X和Y變量的標準差之比結果為相關系數r。即b*σx/σy=r例1:在線性相關的條件下,自變量X的均方差(標準差)為2,因變量Y的均方差(標準差)為5,而相關系數為0.8時,其回歸系數為()A.8B.0.32C.2D.12.5兩者的取值范圍不一樣。現在是71頁\一共有86頁\編輯于星期六回歸方程的顯著性檢驗前面只說明了尋找回歸直線的方法,有該法可知任何一堆毫無相關的散點,都可找到最“接近”的一條直線,顯然有些直線毫無實用價值。因此,必須引入一個數量性指標來描述兩個變量線性關系的密切程度。選取統計量其中:U稱為回歸平方和,反映了總的變異中由于線性關系而引起的變化Q稱為殘差平方和,是由隨機誤差引起,Q越小越好。數學上可以證明,在假設H0:b=0下,統計量F服從自由度為1,n-2的F分布,當F>Fa時,則拒絕H0,即認為X與Y之間有顯著的線性關系。現在是72頁\一共有86頁\編輯于星期六第3節預測與控制建立了有統計學意義的回歸方程以后,X變量=x0時,Y變量為a+bx0,這個值是估計值,為提高可靠性,可以在進行區間估計,包括預測和控制(由x0推算y0稱為預測,由y0推算x0稱為控制)。(略)多元線性回歸與非線性回歸不做要求。第4節半數有效量(ED50)和半數致死量(LD50)估計概率單位法(略)序貫法不做要求?,F在是73頁\一共有86頁\編輯于星期六第6講正交試驗設計對于單因素或兩因素試驗,因其因素少,試驗的設計、實施與分析比較簡單。但在實際工作中,常常需要同時考察3個或3個以上的試驗因素,若進行全面試驗,則試驗的規模將很大,往往因試驗條件的限制而難于實施。正交試驗設計就是安排多因素試驗、尋求最優水平組合的一種高效率試驗設計方法。第1節正交表與交互作用基本原理正交試驗設計是利用正交表來安排與分析多因素試驗的一種設計方法。它是由試驗因素的全部水平組合中,挑選部分有代表性的水平組合進行試驗的,通過對這部分試驗結果的分析了解全面試驗的情況,找出最優的水平組合。例如,要考察乙醇濃度、溶劑用量和浸漬速度對姜黃素提取收率的影響。每個因素設置3個水平進行試驗?,F在是74頁\一共有86頁\編輯于星期六A因素是乙醇濃度,設A1、A2、A33個水平;B是溶劑用量,設B1、B2、B33個水平;C因素為浸漬速度,設C1、C2、C33個水平。這是一個3因素3水平的試驗,各因素的水平之間全部可能組合有27種。全面試驗:可以分析各因素的效應,交互作用,也可選出最優水平組合。但全面試驗包含的水平組合數較多,工作量大,在有些情況下無法完成。若試驗的主要目的是尋求最優水平組合,則可利用正交表來設計安排試驗。正交試驗設計的基本特點是:用部分試驗來代替全面試驗,通過對部分試驗結果的分析,了解全面試驗的情況。本例,3個因素的選優區可以用一個立方體表示(圖1),3個因素各取3個水平,把立方體劃分成27個格點,反映在圖上就是立方體內的27個“.”。若27個網格點都試驗,就是全面試驗,其試驗方案如表1所示?,F在是75頁\一共有86頁\編輯于星期六現在是76頁\一共有86頁\編輯于星期六正交設計就是從選優區全面試驗點(水平組合)中挑選出有代表性的部分試驗點(水平組合)來進行試驗。圖1中標有試驗號的九個“(·)”,就是利用正交表L9(34)從27個試驗點中挑選出來的9個試驗點。即:(1)A1B1C1(2)A2B1C2(3)A3B1C3(4)A1B2C2(5)A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 心理課目標管理制度
- 快遞員保安管理制度
- 怎樣做好群管理制度
- 總工辦現場管理制度
- 惠分期風險管理制度
- 戲曲排練廳管理制度
- 成都離退休管理制度
- 房地產賣場管理制度
- 換藥室無菌管理制度
- 推土機生產管理制度
- 生物高中-基于大數據分析的精準教學課件
- 工程結算審計實施方案(共8篇)
- 焊接熱處理工藝卡
- 信任五環(用友營銷技巧)課件
- 2022年廣東省深圳市中考化學真題試卷
- GB∕T 8110-2020 熔化極氣體保護電弧焊用非合金鋼及細晶粒鋼實心焊絲
- 公共政策學(第三版)-課件
- 齊魯醫學Lisfranc-損傷
- 大型鋼網架整體提升施工工法
- 干熄焦爐內固_氣流動與傳熱數值模擬畢業論文
- 公司股東變更登記申請書(一變一)
評論
0/150
提交評論