第12章 判別分析課件_第1頁
第12章 判別分析課件_第2頁
第12章 判別分析課件_第3頁
第12章 判別分析課件_第4頁
第12章 判別分析課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第12章判別分析DiscriminationAnalysis第12章判別分析判別分析:從反映個體性質各個側面的P個變量出發,通過定量分析,最終將其判歸某一已知總體,從而將對個體的研究置于更為廣泛的總體研究背景上。各種判別分析都是按照某種判別原則(視判別方法不同而不同),在P維空間R中建立一個劃分第12章判別分析Outline第一節距離判別分析第二節貝葉斯判別分析第三節費希爾判別分析第12章判別分析第一節距離判別一、距離判別的準則二、總體參數未知的距離判別三、兩個總體的距離判別四、關于錯判問題第12章判別分析一、距離判別的準則要對空間的某個已知點進行類屬判別,最易想到的方法是按該點在空間中與各已知總體的距離的遠近來進行判別,這就是判別分析中最常見的距離判別法的思想方法。距離判別中,要求距離的計算不受P個分量量綱的影響,因此多采用馬氏距離計算。第12章判別分析聚類分析Vs.判別分析聚類分析之前,我們對“所研究的事例(或樣品)應如

何分類”、“某一個事例(或樣品)屬于那一類”等問題是并不知曉;但在進行判別分析之前,必須有足夠數量的樣品(或

事例),并對它們歸屬于那一類有相當正確的認識。判別分析的作用在于將某個樣品歸到正確的類別。做法是:根據掌握的分類資料建立一個較優的判別函數,使判錯率最小,將欲判定的樣品值代入判別函數,從而判定它屬于已知類別中的哪一類。第12章判別分析第一節距離判別分析方法

DistanceDiscriminationAnalysis距離判別分析的基本思路:計算樣品到給定類別的距離,把它劃歸到距離最近的類別設X,Y是從均值向量為μ,協方差陣為Σ的總體G中抽取的兩個樣品,定義X,Y之間的馬氏距離平方為:定義X,與總體G之間的馬氏距離平方為:第12章判別分析距離判別的準則設有k個已知的類別(記為G1,G2,…,Gk),各類的

平均數分別為

μ1,

μ2,

…,

μk,方差協方差矩陣為Σ1,Σ2,

…,

Σk。欲將某個樣品x歸入到這

k

類中的一類,

其判別函數為馬氏距離,判別準則為x∈Gj,當d

(x,Gj)=Min

{d

(x,Gi)}

其中Min是對

i

=1,2,…,k

類的距離求極小值;d

(x,Gi

)=[(x-

)'Σi-1(x-)]1/2。計算時用作

μi的估計值,用

Si作Σi的估計值。第12章判別分析距離判別法的計算步驟1.計算出

k

個類別的方差協方差矩陣及其逆陣。2.計算出各訓練樣本到這

k

個類別的馬氏距離,比較這

k

個距離,把訓練樣本歸到距離最短的類中。計算第二步中的錯判率。如果錯判率太大,說明要么原來的分類不可靠;要么是盡管原來的分類是對的,但用距離判別得不到精確的結果。4.如果還有新的待判樣本,計算各個新樣本到這

k

個類別的馬氏距離,比較

k

個距離,把各個新樣本歸到距離最短的類中。第12章判別分析二、總體參數未知的距離判別第12章判別分析兩個總體的距離判別第12章判別分析第二節貝葉斯判別分析方法

BayesDiscriminationAnalysis貝葉斯判別分析:考慮到各個樣本出現在不同類別中的概率大小不同和樣本判錯以后造成的損失。設有k個已知的類別(記為G1,G2,…,Gk),它們具

有概率分布函數

f1(x),f2(x),…,fk(x)。又設某一樣品x=(x1,x2,…,xm)屬于各個類別的概率分別為q1,q2,…,qk。如果將某種劃分方式記為

R

={R1,R2,…,Rk},于是判別規則為:

x∈Gi,當x落在Ri(i

=1,2,…,k)第12章判別分析第二節貝葉斯判別分析方法

BayesDiscriminationAnalysis貝葉斯判別分析的基本思路:

如果已知將原應屬于Gi的樣品誤判為屬于Gj所造成

的損失為

C

(

j

|

i

),

造成這種誤判的可能性為概率

P(j

|

i,

R),則按這種劃分方式把原應屬于Gi的樣品誤判為屬于其它類別的平均損失為

ri

(R

)

=其中C

(i

|

i)

=0,即不誤判時損失為0。g

(R

)

(i,

j=1,

2,

…,

k)因為樣品x來自Gi的先驗概率為qi,所以通過這種劃分方式進行判別的總平均損失為

貝葉斯判別法的目的是尋找一種劃分方式

R

使總的平均損失g

(R

)達到最小。第12章判別分析第二節貝葉斯判別分析方法

BayesDiscriminationAnalysis統計學已證明:如果總體服從正態分布,并且各類別的方差協方差矩陣為Σ1=Σ2=…=Σk=Σ時,可以推導出對于樣品x的判別函數為

yij=x'Σ-1(μi-μj)-(μi-μj)'Σ-1(μi+μj)/2其中i,j=1,

2,…,k

i

j。計算時以合并的樣本方差協方差矩陣S=(Q1+Q2+…+Qk)/(n-k)作為總體

Σ的估計;n

n1+n2+…+nk為全部訓練樣本的數目;Q1,Q2,…,Qk為各類的類內離均差平方和。

判別準則為:

x∈Gi,當yij>log(qj/qi)(

j=1,2,…,k

且i

j

)

即如果所有

i

j

yij

都大于log(qj/qi)時,應將該樣本歸入第i

類。第12章判別分析第二節貝葉斯判別分析方法

BayesDiscriminationAnalysis

貝葉斯判別法的計算步驟:第一步、計算訓練樣本數據中各類的平均數向量;第二步、計算訓練樣本數據中各類的離均差平方和矩陣;第三步、將各類的離均差平方和矩陣相加得合并的離均差平方和矩陣,用合并的離均差平方和矩陣除以合并自由度(n-k)

得到方差協方差矩陣,并求出方差協方差矩陣的逆陣;第四步、求判別函數表達式。將所有訓練樣本回代進去,判別歸類,進行檢驗;第五步、如果有待判數據,將其代入,并判別歸類。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis與多元回歸分析相似,在進行判別分析時,并不是變量越多越好。有些變量對于類別的劃分有重要的意義,但有些變量卻對判別分類起了干擾的作用,把它們引進到分析中,反而使分類之后的類內差異增大。因此,仿照逐步回歸分析的思路,也開發了一種逐步判別分析方法。

逐步判別分析:對進行判別分析的變量逐步進行優劣選擇的方法。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis逐步判別分析的基本思路:設有k個已知的類別(記為G1,G2,…,Gk),它們分別服從平均向量為

μ1,

μ2,…,μk,方差協方差矩陣為Σ的m元正態分布。現在從它們中抽出大小分別為

n1,n2,…,nk的樣本。如果要使判別有意義,那么μ1,

μ2,…,μk之間應該有顯著的差異。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis按此思路,可以在m個變量中,先引進可以使分類

結果的類間差異最顯著的變量。又以此變量為基礎,

引進第二個可以使分類結果的類間差異更顯著的變

量。再看看已有的變量中,是否可以剔除某個變量,

使利用剩余的變量進行判別的分類結果的類間差異

更為顯著。如果有,便將它剔除。然后再考慮是否

可以再引進,再剔除,再引進,…,直至不能再剔除,

也不能再引進為止。使用最終選定的變量,建立判別函數(通常采用貝葉斯判別法的判別函數),按判別函數值的大小來對訓練樣本和待判樣本進行判別歸類。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis

對變量進行剔除和引進的方法Wilk’sΛ統計量|Qw||Qw|

=────=──|Qh+Qe|

|Qt|

其中分子是類內離均差平方和矩陣的行列式,分母是總離均差平方和矩陣的行列式。Qw(w表示類內

withingroup),Qt(t表示總的—total)。使設含

p

個變量時的

Wilk’s

統計量為

p,增加一個變量(xr)

后的

Wilk’s

統計量為

p+1,可以很容易在未作出判別結果之前算出這兩個的比值。利用這個比值,

可以進行測驗。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis在含p+1個變量的模型中,類內離均差平方和矩陣:

Qw=

使其中虛線左上部分便是只含

p

個變量的模型中的

類內離均差平方和矩陣Q,而整個矩陣則是含p+1

個變量的模型中的類內離均差平方和矩陣Q。

統計學已經證明:|Q|=|Q|

wrr

。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis在含p+1個變量的模型中,總的離均差平方和矩陣:

Qt=

使其中虛線左上部分便是只含

p

個變量的模型中的總的離均差平方和矩陣Q,而整個矩陣則是含p+1

個變量的模型中的總的離均差平方和矩陣Q。

統計學也已證明:|Q|=|Q|

trr

。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis記wrr/trr為Vr可見

Vr

是在原模型的基礎上加進變量

xr之后,

的增長率。我們稱

Vr

為部分

值或偏

值。用

F

測驗可以檢驗增長是否顯著。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis為了對偏

值進行統計測驗,應先指定一個考察能否將一個新變量引進模型的F值(稱引進F限)和一個考察能否將一個變量從模型中剔除的F值(稱剔除F

限)。然后計算統計量當

F

值大于引進

F

限時即可將變量引進模型;當

F

值小于剔除

F

限時即可將變量從模型剔除。

F

值的自由度:df1=k

-1,df2=n

-p-k。第12章判別分析第三節逐步判別分析方法

StepwiseDiscriminationAnalysis經剛才的

F

測驗僅僅表明某個變量是否可以引進或刪除,但引進或刪除后得到的新模型是否能使類間差異顯著地大于類內差異呢?還需進行測驗。如果差異顯著,說明分類有效;否則,用該模型分類無效。“模型是否有效”可以用單向分類資料的多元方差分析

F

測驗進行檢驗。

F

測驗:先利用關系

p+1=

p×Vr算出新模型的

計算轉換的

F

值、df1、df2,將算得的F

值進行檢驗。第12章判別分析第三節逐步判別分析方法

Ste

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論