




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學數據到結論第1頁,課件共70頁,創作于2023年2月第十二章判別分析
第2頁,課件共70頁,創作于2023年2月12.1判別分析
(discriminantanalysis)
某些昆蟲的性別只有通過解剖才能夠判別但雄性和雌性昆蟲在若干體表度量上有些綜合的差異。人們就根據已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預測變量)得到一個標準,并以此標準來判別其他未知性別的昆蟲。這樣雖非100%準確的判別至少大部分是對的,而且用不著殺生。此即判別分析第3頁,課件共70頁,創作于2023年2月判別分析(discriminantanalysis)判別分析和聚類分析有何不同?在聚類分析中,人們一般事先并不知道應該分成幾類及哪幾類,全根據數據確定。在判別分析中,至少有一個已經明確知道類別的“訓練樣本”,并利用該樣本來建立判別準則,并通過預測變量來為未知類別的觀測值進行判別了。第4頁,課件共70頁,創作于2023年2月判別分析例子數據disc.txt:企圖用一套打分體系來描繪企業的狀況。該體系對每個企業的一些指標(變量)進行評分。指標有:企業規模(is)、服務(se)、雇員工資比例(sa)、利潤增長(prr)、市場份額(ms)、市場份額增長(msr)、流動資金比例(cp)、資金周轉速度(cs)等.另外,有一些企業已經被某雜志劃分為上升企業、穩定企業和下降企業。第5頁,課件共70頁,創作于2023年2月判別分析例子希望根據這些企業的上述變量的打分及其已知的類別(三個類別之一:group-1代表上升,group-2代表穩定,group-3代表下降)找出一個分類標準,以對尚未被分類的企業進行分類。該數據有90個企業(90個觀測值),其中30個屬于上升型,30個屬于穩定型,30個屬于下降型。這個數據就是一個“訓練樣本”。第6頁,課件共70頁,創作于2023年2月Disc.sav數據
第7頁,課件共70頁,創作于2023年2月1.根據距離判別的思想Disc.txt數據有8個用來建立判別標準(或判別函數)的(預測)變量,另一個(group)是類別每一個企業的打分在這8個變量所構成的8維空間中是一個點。這個數據在8維空間有90個點,由于已知所有點的類別,可以求得每個類型的中心。這樣只要定義了距離,就可以得到任何給定的點(企業)到這三個中心的三個距離。第8頁,課件共70頁,創作于2023年2月1.根據距離判別的思想最簡單的辦法就是:某點離哪個中心距離最近,就屬于哪一類。一個常用距離是Mahalanobis距離。用來比較到各個中心距離的數學函數稱為判別函數(discriminantfunction).這種根據遠近判別的思想,原理簡單,直觀易懂。為判別分析的基礎第9頁,課件共70頁,創作于2023年2月2.Fisher判別法(先進行投影)Fisher判別法就是一種先投影的方法。考慮只有兩個(預測)變量的判別問題。假定只有兩類。數據中的每個觀測值是二維空間的一個點。見圖。這里只有兩種已知類型的訓練樣本。一類有38個點(用“o”表示),另一類有44個點(用“*”表示)。按原來變量(橫坐標和縱坐標),很難將這兩種點分開。第10頁,課件共70頁,創作于2023年2月第11頁,課件共70頁,創作于2023年2月2.Fisher判別法(先進行投影)于是就尋找一個方向,即圖上的虛線方向,沿該方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚。可以看出,如果向其他方向投影,判別效果不會比這個好。有了投影之后,再用前面講到的距離遠近的方法得到判別準則。這種先投影的判別方法就是Fisher判別法。第12頁,課件共70頁,創作于2023年2月Fisher判別法的數學第13頁,課件共70頁,創作于2023年2月3.逐步判別法
(僅僅是在前面的方法中加入變量選擇的功能)有時,一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。即,一邊判別,一邊選擇判別能力最強的變量,這個過程可以有進有出。一個變量的判別能力的判斷方法有很多種,主要利用各種檢驗,例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗。其細節這里就不贅述了;這些不同方法可由統計軟件的各種選項來實現。逐步判別的其他方面和前面的無異。第14頁,課件共70頁,創作于2023年2月Disc.txt例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動資金比例(cp),還剩下七個變量。用x1,x2,x3,x4,x5,x6,x7分別表示標準化后的變量is,se,sa,prr,ms,msr,cs,得到兩個典則判別函數(CanonicalDiscriminantFunctionCoefficients):這兩個函數實際上是由Fisher判別法得到的向兩個方向的投影。這兩個典則判別函數的系數是下面的SPSS輸出得到的:第15頁,課件共70頁,創作于2023年2月Disc.txt例子根據這兩個函數,從任何一個觀測值(每個觀測值都有7個變量值)都可以算出兩個數。把這兩個數目當成該觀測值的坐標,這樣數據中的150個觀測值就是二維平面上的150個點。它們的點圖在下面圖中。第16頁,課件共70頁,創作于2023年2月第17頁,課件共70頁,創作于2023年2月Disc.txt例子從上圖可以看出,第一個投影(相應于來自于第一個典則判別函數橫坐標值)已經能夠很好地分辨出三個企業類型了。這兩個典則判別函數并不是平等的。其實一個函數就已經能夠把這三類分清楚了。SPSS的一個輸出就給出了這些判別函數(投影)的重要程度:前面說過,投影的重要性是和特征值的貢獻率有關。該表說明第一個函數的貢獻率已經是99%了,而第二個只有1%。當然,二維圖要容易看一些。投影之后,再根據各點的位置遠近算出具體的判別公式(SPSS輸出):第18頁,課件共70頁,創作于2023年2月Disc.txt例子具體的判別公式(SPSS輸出),由一張分類函數表給出:該表給出了三個線性分類函數的系數。把每個觀測點帶入三個函數,就可以得到分別代表三類的三個值,哪個值最大,該點就屬于相應的那一類。當然,用不著自己去算,計算機軟件的選項可以把這些訓練數據的每一個點按照這里的分類法分到某一類。當然,我們一開始就知道這些訓練數據的各個觀測值的歸屬,但即使是這些訓練樣本的觀測值(企業)按照這里推導出的分類函數來分類,也不一定全都能夠正確劃分。第19頁,課件共70頁,創作于2023年2月Disc.txt例子下面就是對我們的訓練樣本的分類結果(SPSS):第20頁,課件共70頁,創作于2023年2月誤判和正確判別率從該表看,我們的分類能夠100%地把訓練數據的每一個觀測值分到其本來的類。該表分成兩部分;上面一半(Original)是用從全部數據得到的判別函數來判斷每一個點的結果(前面三行為判斷結果的數目,而后三行為相應的百分比)。下面一半(Crossvalidated)是對每一個觀測值,都用缺少該觀測的全部數據得到的判別函數來判斷的結果。這里結果是100%正確,但一般并不一定。
第21頁,課件共70頁,創作于2023年2月Disc.txt例子如果就用這個數據,但不用所有的變量,而只用4個變量進行判別:企業規模(is)、服務(se)、雇員工資比例(sa)、資金周轉速度(cs)。結果的圖形和判別的正確與否就不一樣了。下圖為兩個典則判別函數導出的150個企業的二維點圖。它不如前面的圖那么容易分清楚了原先的圖第22頁,課件共70頁,創作于2023年2月Disc.txt例子下面是基于4個變量時分類結果表:這個表的結果是有87個點(96.7%)得到正確劃分,有3個點被錯誤判別;其中第二類有兩個被誤判為第一類,有一個被誤判為第三類。第23頁,課件共70頁,創作于2023年2月12.2判別分析要注意什么?訓練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。
要選擇好可能用于判別的預測變量。這是最重要的。當然,在應用中,選擇余地不見得有多大。
要注意數據是否有不尋常的點或者模式存在。還要看預測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關分析來驗證。第24頁,課件共70頁,創作于2023年2月判別分析要注意什么?判別分析是為了正確地分類,但同時也要注意使用盡可能少的預測變量來達到這個目的。使用較少的變量意味著節省資源和易于對結果作解釋。
在計算中需要看關于各個類的有關變量的均值是否顯著不同的檢驗結果(在SPSS選項中選擇Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗的計算機輸出),以確定是否分類結果僅由于隨機因素。第25頁,課件共70頁,創作于2023年2月判別分析要注意什么?此外成員的權數(SPSS用priorprobability,即“先驗概率”,和貝葉斯統計的先驗概率有區別)需要考慮;一般來說,加權要按照各類觀測值的多少,觀測值少的就要按照比例多加權。對于多個判別函數,要弄清各自的重要性。注意訓練樣本的正確和錯誤分類率。研究被誤分類的觀測值,看是否能找出原因。
第26頁,課件共70頁,創作于2023年2月SPSS選項打開disc.sav數據。然后點擊Analyze-Classify-Discriminant,把group放入GroupingVariable,再定義范圍,即在DefineRange輸入1-3的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enterindependentstogether,而選擇Usestepwisemethod,在方法(Method)中選挑選變量的準則(檢驗方法;默認值為Wilks’Lambda)。為了輸出Fisher分類函數的結果可以在Statistics中的FunctionCoefficient選Fisher和Unstandardized
,在Matrices中選擇輸出所需要的相關陣;還可以在Classify中的Display選summarytable,Leave-one-outclassification;注意在Classify選項中默認的PriorProbability為Allgroupsequal表示所有的類都平等對待,而另一個選項為Computefromgroupsizes,即按照類的大小加權。在Plots可選Combined-groups,Territorialmap等。
第27頁,課件共70頁,創作于2023年2月附錄第28頁,課件共70頁,創作于2023年2月費歇(Fisher)判別法并未要求總體分布類型工作原理就是對原數據系統進行坐標變換,尋求能夠將總體盡可能分開的方向.點x在以a為法方向的投影為a’x各組數據的投影為
第29頁,課件共70頁,創作于2023年2月將Gm組中數據投影的均值記為有記k組數據投影的總均值為有第30頁,課件共70頁,創作于2023年2月組間離差平方和為:這里組內離差平方和為:這里第31頁,課件共70頁,創作于2023年2月注:L=|E|/|B+E|為有Wilks分布的檢驗零假設H0:m(1)=…=m(k)的似然比統計量.Wilks分布常用c2分布近似(Bartlett)第32頁,課件共70頁,創作于2023年2月希望尋找a使得SSG盡可能大而SSE盡可能小,即記方程|B-lE|=0的全部特征根為l1≥…≥lr>0,相應的特征向量為v1,…,vr.D(a)的大小可以估計判別函數yi(x)=vi’x(=a’x)的效果.記pi為判別能力(效率),有最大的值為方程|B-lE|=0的最大特征根l1.使第33頁,課件共70頁,創作于2023年2月m個判別函數的判別能力定義為據此來確定選擇多少判別函數。再看逐步判別法。第34頁,課件共70頁,創作于2023年2月判別分析
(DiscriminantAnalysis)
第35頁,課件共70頁,創作于2023年2月和聚類分析的關系判別分析和聚類分析都是分類.但判別分析是在已知對象有若干類型和一批已知樣品的觀測數據后的基礎上根據某些準則建立判別式.而做聚類分析時類型并不知道.可以先聚類以得知類型,再進行判別.第36頁,課件共70頁,創作于2023年2月距離判別法假設有兩個總體G1和G2,如果能夠定義點x到它們的距離D(x,G1)和D(x,G2),則如果D(x,G1)<D(x,G2)則x∈G1如果D(x,G2)<D(x,G1)則x∈G2如果D(x,G1)=D(x,G2)則待判第37頁,課件共70頁,創作于2023年2月Mahalanobis距離假設m(1),m(2),S(1),S(2)分別為G1和G2的均值向量和協差陣,則點x到Gi的馬氏距離定義為
D2(x,Gi)=(x-m(i))’(S(i))-1(x-m(i))
其他一些距離為馬氏距離的特殊情況,因此我們著重討論馬氏距離.馬氏距離的好處是可以克服變量之間的相關性干擾,并且消除各變量量綱的影響.第38頁,課件共70頁,創作于2023年2月線性判別函數:當S(1)=S(2)=S時記如果W(x)>0即D(x,G1)<D(x,G2)則x∈G1如果W(x)<0即D(x,G1)>D(x,G2)則x∈G2如果W(x)=0即D(x,G1)=D(x,G2)則待判第39頁,課件共70頁,創作于2023年2月當m(1),m(2),S
已知時,令a=S-1(m(1)-m(2))≡(a1,…,ap)’,則顯然W(x)為x1,…,xp的線性函數,稱為線性判別函數;a稱為判別系數.第40頁,課件共70頁,創作于2023年2月當m(1),m(2),S
未知時,可通過樣本來估計:判別函數為為來自Gi的樣本為(i=1,2)第41頁,課件共70頁,創作于2023年2月非線性判別函數:當S(1)≠S(2)時這是x的一個二次函數,按照距離最近原則,判別準則仍然為如果W(x)>0即D(x,G1)<D(x,G2)則x∈G1如果W(x)<0即D(x,G1)>D(x,G2)則x∈G2如果W(x)=0即D(x,G1)=D(x,G2)則待判第42頁,課件共70頁,創作于2023年2月多總體時的線性判別函數:當S(1)=…=S(k)=S時記相應的準則為:如果對一切j≠i,Wij(x)>0,則x∈Gi如果有某一個Wij(x)=0,則待判第43頁,課件共70頁,創作于2023年2月非線性判別函數:當S(1),…,S(k)不等時相應的準則為:如果對一切j≠i,Wij(x)>0,則x∈Gi如果有某一個Wij(x)=0,則待判.當m(i),S(i)
未知時,可通過樣本來估計第44頁,課件共70頁,創作于2023年2月m個判別函數的判別能力定義為下面以兩總體(k=2)為例來發現閾值.它們的均值的投影分別為當總體方差相等時閾值為第45頁,課件共70頁,創作于2023年2月總體方差不等時,注意到的樣本方差為類似地,第二組數據投影的樣本方差為于是閾值如判別規則為第46頁,課件共70頁,創作于2023年2月用m個線性判別函數yi(x)=vi’x,i=1,…,m,時,先將樣本點在L(vi,…,vm)空間投影再按照p>1情況的距離判別法來制定判別規則.判別能力為于秀林書上介紹了對用一個和m個判別函數的加權和不加權方法.記y(x)=v’x,其在Gi上的樣本均值和方差,以及總均值為第47頁,課件共70頁,創作于2023年2月m=1時,不加權法:m=1時,加權法:按大小排列Di,i+1可為相應兩類的分界點相應的標準差為令第48頁,課件共70頁,創作于2023年2月m>1時,不加權法:記對x=(x1,…,)’,yl(x)=v(l)’xm>1時,加權法:記則則第49頁,課件共70頁,創作于2023年2月Bayes判別法不用判別式,而用比較新給樣品屬于各個總體的條件概率P(l|x),l=1,…,k,的大小(將新樣品判歸為來自概率最大的總體).先給出對于k個總體的先驗概率q1,…,qk.如各總體密度為{fk(x)},則后驗概率為(g=1,…k):
P(g|x)=qgfg(x)/Siqifi(x)當且僅當P(h|x)=maxgP(g|x),判x來自第h總體.也可以用使錯判的損失最小來判別.如果c(i|j)為來自j總體的個體被錯判到第i總體的損失.定義平均錯判損失(ECM)為
ECM=Si=1qi[Sl≠iP(l|i)c(l|i)]第50頁,課件共70頁,創作于2023年2月逐步判別法前面判別用了所有變量.但是各變量所起作用并不一樣.要有進有出,引進“最重要的”并剔除不顯著的.根據是假設檢驗(比如似然比檢驗).檢驗的零假設是各組變量均值相等.Lambda(Wilks’Lambda統計量)接近0表示組均值不同,接近1表示組均值沒有不同.Chi-square是lambda的卡方轉換(Bartelett近似),用于確定其顯著性.第51頁,課件共70頁,創作于2023年2月鳶尾花數據(花瓣,花萼的長寬)
5個變量:花瓣長(slen),花瓣寬(swid),花萼長(plen),花萼寬(pwid),分類號(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第52頁,課件共70頁,創作于2023年2月Statistics→Classify→Discriminant:Variables:
independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)Classify:priorprobability(Allgroupequal)
usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)Statistics:Descriptive(Means)
FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)
Save:
(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)第53頁,課件共70頁,創作于2023年2月鳶尾花數據(數據分析過程簡明表)第54頁,課件共70頁,創作于2023年2月鳶尾花數據(原始數據的描述)第55頁,課件共70頁,創作于2023年2月鳶尾花數據(合并類內相關陣和協方差陣)第56頁,課件共70頁,創作于2023年2月鳶尾花數據(總協方差陣)第57頁,課件共70頁,創作于2023年2月鳶尾花數據(特征值表)
Eigenvalue:用于分析的前兩個典則判別函數的特征值,是組間平方和與組內平方和之比值.最大特征值與組均值最大的向量對應,第二大特征值對應著次大的組均值向量
典則相關系數(canonicalcorrelation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.第58頁,課件共70頁,創作于2023年2月鳶尾花數據(Wilks’Lambda統計量)
檢驗的零假設是各組變量均值相等.Lambda接近0表示組均值不同,接近1表示組均值沒有不同.Chi-square是lambda的卡方轉換,用于確定其顯著性.第59頁,課件共70頁,創作于2023年2月鳶尾花數據(有關判別函數的輸出)標準化的典則判別函數系數(使用時必須用標準化的自變量)第60頁,課件共70頁,創作于2023年2月鳶尾花數據(有關判別函數的輸出)典則判別函數系數第61頁,課件共70頁,創作于2023年2月鳶尾花數據(有關判別函數的輸出)
這是類均值(重心)處的典則判別函數值這是典則判別函數(前面兩個函數)在類均值(重心)處的值第62頁,課件共70頁,創作于2023年2月鳶尾花數據(用判別函數對觀測量分類結果)先驗概率(沒有給)費歇判別函數系數把自變量代入三個式子,哪個大歸誰.第63頁,課件共70頁,創作于2023年2月
TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*122312*231223122312231223-4.01223122312231223
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業管理合同范本一(34篇)
- 2025房屋租賃合同范本(20篇)3
- 2024年廣州銀行招聘筆試真題
- 2025植樹節活動總結報告(15篇)
- 電梯修理T練習試題及答案
- 企業出海專屬指南合集
- 大學畢業生自我鑒定500字總結(16篇)
- 捯短運輸合同短途運輸協議
- 歷史文獻閱讀試題匯編
- 物流配送專業試題
- 一般現在時和現在進行時經典練習題
- 水平螺旋輸送機設計計算及參數表
- 第七單元知識盤點(含字詞、佳句、感知、考點)五年級語文下冊 部編
- 2024年浙江1月首考高考英語試題重點詞匯積累
- 漁業產業鏈分析
- 針灸大成原文及翻譯
- 家具檢驗報告范本
- 混凝土結構按容許應力法計算基本原理課件
- 國家安全概論知到章節答案智慧樹2023年山東警察學院
- 《龍卷風暴》讀書筆記思維導圖
- 糞便常規檢驗 隱血試驗 隱血試驗
評論
0/150
提交評論