




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第14章聚類分析與判別分析介紹:1、聚類分析
2、判別分析
分類學是人類認識世界的基礎科學。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應用于自然科學、社會科學、工農業生產的各個領域。第14章聚類分析與判別分析14.1.1聚類分析根據事物本身的特性研究個體分類的方法,原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。根據分類對象的不同,分為樣品(觀測量)聚類和變量聚類兩種:樣品聚類:對觀測量(Case)進行聚類(不同的目的選用不同的指標作為分類的依據,如選拔運動員與分課外活動小組)變量聚類:找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。在生產活動中不乏有變量聚類的實例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產成為可能。第14章聚類分析與判別分析14.1.2判別分析判別分析是根據表明事物特點的變量值和它們所屬的類,求出判別函數。根據判別函數對未知所屬類別的事物進行分類的一種分析方法。在自然科學和社會科學的各個領域經常遇到需要對某個個體屬于哪一類進行判斷。如動物學家對動物如何分類的研究和某個動物屬于哪一類、目、綱的判斷。不同:判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數值變量的值,并且已知各個體的分類(訓練樣本)。第14章聚類分析與判別分析14.1.3聚類分析與判別分析的SPSS過程在AnalyzeClassify下:K-MeansCluster:觀測量快速聚類分析過程HierarchicalCluster:分層聚類(進行觀測量聚類和變量聚類的過程Discriminant:進行判別分析的過程第14章聚類分析與判別分析14.2快速樣本聚類過程(QuickCluster)使用k均值分類法對觀測量進行聚類可使用系統的默認選項或自己設置選項,如分為幾類、指定初始類中心、是否將聚類結果或中間數據數據存入數據文件等。快速聚類實例(P342,data14-01a):使用系統的默認值進行:對運動員的分類(分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4比較有用的結果:聚類結果形成的最后四類中心點(FinalClusterCenters)和每類的觀測量數目(NumberofCasesineachCluster)但不知每個運動員究竟屬于哪一類?這就要用到Save選項第14章聚類分析與判別分析14.2快速樣本聚類過程(QuickCluster)中的選項使用快速聚類的選擇項:類中心數據的輸入與輸出:Centers選項輸出數據選擇項:Save選項聚類方法選擇項:Method選項聚類何時停止選擇項:Iterate選項輸出統計量選擇項:Option選項第14章聚類分析與判別分析14.2指定初始類中心的聚類方法例題P343數據同上(data14-01a):以四個四類成績突出者的數據為初始聚類中心(種子)進行聚類。類中心數據文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。對運動員的分類(還是分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4Center:Readinitialfrom:data14-01bSave:Clustermembership和DistancefromClusterCenter比較有用的結果(可將結果與前面沒有初始類中心比較):聚類結果形成的最后四類中心點(FinalClusterCenters)每類的觀測量數目(NumberofCasesineachCluster)在數據文件中的兩個新變量qc1_1(每個觀測量最終被分配到哪一類)和qc1_2(觀測量與所屬類中心點的距離)第14章聚類分析與判別分析14.3分層聚類(HierarchicalCluster)分層聚類方法:分解法:先視為一大類,再分成幾類凝聚法:先視每個為一類,再合并為幾大類可用于觀測量(樣本)聚類(Q型)和變量聚類(R型)一般分為兩步(自動,可從Paste的語句知道,P359):Proximities:先對數據進行的預處理(標準化和計算距離等)Cluster:然后進行聚類分析兩種統計圖:樹形圖(Dendrogram)和冰柱圖(Icicle)各類型數據的標準化、距離和相似性計算P348-354定距變量、分類變量、二值變量標準化方法p353:ZScores、Range-1to1、Range0to1等第14章聚類分析與判別分析14.3.4用分層聚類法進行觀測量聚類實例P358對20種啤酒進行分類(data14-02),變量包括:Beername(啤酒名稱)、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、cost(價格)Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格LabelCaseBy:BeernameCluster:Case,Q聚類
Display:選中Statistics,單擊StatisticsAgglomerationSchedule凝聚狀態表Proximitymatrix:距離矩陣Clustermembership:Singlesolution:4顯示分為4類時,各觀測量所屬的類Method:
Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)
Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical縱向作圖)Save:ClusterMembership(Singlesolution[4])比較有用的結果:根據需要進行分類,在數據文件中的分類新變量clu4_1等第14章聚類分析與判別分析14.3.5用分層聚類法進行變量聚類變量聚類,是一種降維的方法,用于在變量眾多時尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時,損失信息很少。與進行觀測量聚類雷同,不同點在于:選擇Variable而非CaseSave選項失效,不建立的新變量第14章聚類分析與判別分析14.3.6變量聚類實例1P366上面啤酒分類問題data14-02。Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationTransformValues:ZScore(ByVariable)Plots:Dendrogram樹型圖Statistics:Proximitymatrix:相關矩陣比較有用的結果:根據相關矩陣和樹型圖,可知calorie(熱量)和alcohol(酒精含量)的相關系數最大,首先聚為一類。從整體上看,聚為三類是比較好的結果。至于熱量和酒精含量選擇哪個作為典型指標代替原來的兩個變量,可以根據專業知識或測度的難易程度決定。第14章聚類分析與判別分析14.3.6變量聚類實例2P368有10個測試項目,分別用變量X1-X10表示,50名學生參加測試。想從10個變量中選擇幾個典型指標。data14-03Analyze→Classify→HierarchicalCluster:Variables:
X1-X10Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationPlots:Dendrogram樹型圖Statistics:Proximitymatrix相關矩陣比較有用的結果:可以從樹型圖中看出聚類過程。具體聚為幾類最為合理,根據專業知識來定。而每類中的典型指標的選擇,可用p370的相關指數公式的計算,然后比較類中各個變量間的相關指數,哪個大,就選哪個變量作為此類的代表變量。第14章聚類分析與判別分析14.4判別分析P374判別分析的概念:是根據觀測到的若干變量值,判斷研究對象如何分類的方法。要先建立判別函數Y=a1x1+a2x2+...anxn,其中:Y為判別分數(判別值),x1x2...xn為反映研究對象特征的變量,a1a2...an為系數SPSS對于分為m類的研究對象,建立m個線性判別函數。對于每個個體進行判別時,把觀測量的各變量值代入判別函數,得出判別分數,從而確定該個體屬于哪一類,或計算屬于各類的概率,從而判別該個體屬于哪一類。還建立標準化和未標準化的典則判別函數。具體見下面吳喜之教授有關判別分析的講義第14章聚類分析與判別分析補充:聚類分析與判別分析以下的講義是吳喜之教授有關聚類分析與判別分析的講義,我覺得比書上講得清楚。先是聚類分析一章再是判別分析一章第14章聚類分析與判別分析聚類分析第14章聚類分析與判別分析分類俗語說,物以類聚、人以群分。但什么是分類的根據呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。第14章聚類分析與判別分析聚類分析對于一個數據,人們既可以對變量(指標)進行分類(相當于對數據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數據中的行分類)。比如學生成績數據就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數據本身的規律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數學上是對稱的,沒有什么不同。第14章聚類分析與判別分析飲料數據(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量第14章聚類分析與判別分析如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數學成績,則只好按照數學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數據中,每種飲料都有四個變量值。這就是四維空間點的問題了。第14章聚類分析與判別分析兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的選擇是通過統計軟件的選項實現的。不同的選擇的結果會不同,但一般不會差太多。第14章聚類分析與判別分析向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數:歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數1):cosinePearsoncorrelation(相似系數2):Chebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s為標準差,則標準化的數據為每個觀測值減去均值后再除以R或s.當觀測值大于0時,有人采用Lance和Williams的距離第14章聚類分析與判別分析類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi∈Gp和xj∈Gq之間的距離)最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時,有統一的遞推公式(假設Gr是從Gp和Gq合并而來):第14章聚類分析與判別分析Lance和Williams給出(對歐氏距離)統一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數而得:方法 ai(i=p,q) b
g最短距離 ? 0 -1/2最長距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0
0
離差平方和(ni+nk)/(nr+nk)
-nk/(nr+nk)
0
中間距離 1/2
-1/4
0
可變法 (1-b)/2
b(<1)
0
可變平均 (1-b)ni/nr
b(<1)
0
第14章聚類分析與判別分析有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個簡單的方法。第14章聚類分析與判別分析事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類。看起來有些主觀,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數據來做k-均值聚類。第14章聚類分析與判別分析假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點
第14章聚類分析與判別分析根據需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。第14章聚類分析與判別分析SPSS實現(聚類分析)K-均值聚類以數據drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在NumberofClusters處選擇3(想要分的類數),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數據陣進行轉置。第14章聚類分析與判別分析事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠。再對飲料例子來實施分層聚類。第14章聚類分析與判別分析對于我們的數據,SPSS輸出的樹型圖為第14章聚類分析與判別分析聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數量的類。但是,聚類的目的是要使各類距離盡可能的遠,而類中點的距離盡可能的近,而且分類結果還要有令人信服的解釋。這一點就不是數學可以解決的了。第14章聚類分析與判別分析SPSS實現(聚類分析)分層聚類對drink.sav數據在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在Cluster選Cases(這是Q型聚類:對觀測值聚類),如果要對變量聚類(R型聚類)則選Variables,為了畫出樹狀圖,選Plots,再點Dendrogram等。第14章聚類分析與判別分析啤酒成分和價格數據(data14-02)啤酒名 熱量 鈉含量 酒精 價格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47第14章聚類分析與判別分析Statistics→Classify→HierarchicalCluster:Variables:啤酒名和成分價格等Cluster(Case,Q型聚類)Display:(Statistics)(AgglomerationSchedule凝聚狀態表),(Proximitymatrix),Clustermembership(Singlesolution,[4])Method:
Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)
Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical)Save:ClusterMembership(Singlesolution[4])第14章聚類分析與判別分析啤酒例子下表(Proximitymatrix)中行列交叉點為兩種啤酒之間各變量的歐氏距離平方和第14章聚類分析與判別分析凝聚過程:Coefficients為不相似系數,由于是歐氏距離,小的先合并.第14章聚類分析與判別分析分為四類的聚類結果第14章聚類分析與判別分析冰柱圖(icicle)第14章聚類分析與判別分析聚類樹型圖第14章聚類分析與判別分析學生測驗數據(data14-03)50個學生,X1-X10個測驗項目要對這10個變量進行變量聚類(R型聚類),過程和Q型聚類(觀測量聚類,對cases)一樣第14章聚類分析與判別分析Statistics→Classify→HierarchicalCluster:Variables:x1-x10Cluster(Variable,R型聚類)Display:(Statistics)(Proximitymatrix),Clustermembership(Singlesolution,[2])Method:
Cluster(FurthestNeighbor),Measure-Interval(Pearsoncorrelation,用Pearson相關系數),Plots:Icicle(AllCluster)第14章聚類分析與判別分析學生測驗例子下表(Proximitymatrix)中行列交叉點為兩個變量之間變量的歐氏距離平方和第14章聚類分析與判別分析分為兩類的聚類結果第14章聚類分析與判別分析冰柱圖(icicle)第14章聚類分析與判別分析判別分析第14章聚類分析與判別分析判別有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統計學家就根據已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預測變量)得到一個標準,并且利用這個標準來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準確,但至少大部分判別都是對的,而且用不著殺死昆蟲來進行判別了。
第14章聚類分析與判別分析判別分析(discriminantanalysis)這就是本章要講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主要不同點就是,在聚類分析中一般人們事先并不知道或一定要明確應該分成幾類,完全根據數據來確定。而在判別分析中,至少有一個已經明確知道類別的“訓練樣本”,利用這個數據,就可以建立判別準則,并通過預測變量來為未知類別的觀測值進行判別了。第14章聚類分析與判別分析判別分析例子數據disc.sav:企圖用一套打分體系來描繪企業的狀況。該體系對每個企業的一些指標(變量)進行評分。這些指標包括:企業規模(is)、服務(se)、雇員工資比例(sa)、利潤增長(prr)、市場份額(ms)、市場份額增長(msr)、流動資金比例(cp)、資金周轉速度(cs)等等。另外,有一些企業已經被某雜志劃分為上升企業、穩定企業和下降企業。我們希望根據這些企業的上述變量的打分和它們已知的類別(三個類別之一:group-1代表上升,group-2代表穩定,group-3代表下降)找出一個分類標準,以對沒有被該刊物分類的企業進行分類。該數據有90個企業(90個觀測值),其中30個屬于上升型,30個屬于穩定型,30個屬于下降型。這個數據就是一個“訓練樣本”。第14章聚類分析與判別分析Disc.sav數據
第14章聚類分析與判別分析根據距離的判別(不用投影)
Disc.sav數據有8個用來建立判別標準(或判別函數)的(預測)變量,另一個(group)是類別。因此每一個企業的打分在這8個變量所構成的8維空間中是一個點。這個數據有90個點,由于已經知道所有點的類別了,所以可以求得每個類型的中心。這樣只要定義了如何計算距離,就可以得到任何給定的點(企業)到這三個中心的三個距離。顯然,最簡單的辦法就是離哪個中心距離最近,就屬于哪一類。通常使用的距離是所謂的Mahalanobis距離。用來比較到各個中心距離的數學函數稱為判別函數(discriminantfunction).這種根據遠近判別的方法,原理簡單,直觀易懂。第14章聚類分析與判別分析Fisher判別法(先進行投影)所謂Fisher判別法,就是一種先投影的方法。考慮只有兩個(預測)變量的判別分析問題。假定這里只有兩類。數據中的每個觀測值是二維空間的一個點。見圖(下一張幻燈片)。這里只有兩種已知類型的訓練樣本。其中一類有38個點(用“o”表示),另一類有44個點(用“*”表示)。按照原來的變量(橫坐標和縱坐標),很難將這兩種點分開。于是就尋找一個方向,也就是圖上的虛線方向,沿著這個方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚。可以看出,如果向其他方向投影,判別效果不會比這個好。有了投影之后,再用前面講到的距離遠近的方法來得到判別準則。這種首先進行投影的判別方法就是Fisher判別法。第14章聚類分析與判別分析第14章聚類分析與判別分析逐步判別法(僅僅是在前面的方法中加入變量選擇的功能)有時,一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進判別能力最強的變量,這個過程可以有進有出。一個變量的判別能力的判斷方法有很多種,主要利用各種檢驗,例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗。其細節這里就不贅述了;這些不同方法可由統計軟件的各種選項來實現。逐步判別的其他方面和前面的無異。第14章聚類分析與判別分析Disc.sav例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動資金比例(cp),還剩下七個變量is,se,sa,prr,ms,msr,cs,得到兩個典則判別函數(CanonicalDiscriminantFunctionCoefficients):0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
這兩個函數實際上是由Fisher判別法得到的向兩個方向的投影。這兩個典則判別函數的系數是下面的SPSS輸出得到的:第14章聚類分析與判別分析Disc.sav例子根據這兩個函數,從任何一個觀測值(每個觀測值都有7個變量值)都可以算出兩個數。把這兩個數目當成該觀測值的坐標,這樣數據中的150個觀測值就是二維平面上的150個點。它們的點圖在下面圖中。第14章聚類分析與判別分析第14章聚類分析與判別分析Disc.sav例子從上圖可以看出,第一個投影(相應于來自于第一個典則判別函數橫坐標值)已經能夠很好地分辨出三個企業類型了。這兩個典則判別函數并不是平等的。其實一個函數就已經能夠把這三類分清楚了。SPSS的一個輸出就給出了這些判別函數(投影)的重要程度:前面說過,投影的重要性是和特征值的貢獻率有關。該表說明第一個函數的貢獻率已經是99%了,而第二個只有1%。當然,二維圖要容易看一些。投影之后,再根據各點的位置遠近算出具體的判別公式(SPSS輸出):第14章聚類分析與判別分析Disc.sav例子具體的判別公式(SPSS輸出),由一張分類函數表給出:該表給出了三個線性分類函數的系數。把每個觀測點帶入三個函數,就可以得到分別代表三類的三個值,哪個值最大,該點就屬于相應的那一類。當然,用不著自己去算,計算機軟件的選項可以把這些訓練數據的每一個點按照這里的分類法分到某一類。當然,我們一開始就知道這些訓練數據的各個觀測值的歸屬,但即使是這些訓練樣本的觀測值(企業)按照這里推導出的分類函數來分類,也不一定全都能夠正確劃分。第14章聚類分析與判別分析Disc.sav例子下面就是對我們的訓練樣本的分類結果(SPSS):第14章聚類分析與判別分析誤判和正確判別率從這個表來看,我們的分類能夠100%地把訓練數據的每一個觀測值分到其本來的類。該表分成兩部分;上面一半(Original)是用從全部數據得到的判別函數來判斷每一個點的結果(前面三行為判斷結果的數目,而后三行為相應的百分比)。下面一半(Crossvalidated)是對每一個觀測值,都用缺少該觀測的全部數據得到的判別函數來判斷的結果。這里的判別結果是100%判別正確,但一般并不一定。
第14章聚類分析與判別分析Disc.sav例子如果就用這個數據,但不用所有的變量,而只用4個變量進行判別:企業規模(is)、服務(se)、雇員工資比例(sa)、資金周轉速度(cs)。結果的圖形和判別的正確與否就不一樣了。下圖為兩個典則判別函數導出的150個企業的二維點圖。它不如前面的圖那么容易分清楚了原先的圖第14章聚類分析與判別分析Disc.sav例子下面是基于4個變量時分類結果表:這個表的結果是有87個點(96.7%)得到正確劃分,有3個點被錯誤判別;其中第二類有兩個被誤判為第一類,有一個被誤判為第三類。第14章聚類分析與判別分析判別分析要注意什么?訓練樣本中必須有所有要判別的類型,分類必須清楚,不能有混雜。
要選擇好可能由于判別的預測變量。這是最重要的一步。當然,在應用中,選擇的余地不見得有多大。
要注意數據是否有不尋常的點或者模式存在。還要看預測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關分析來驗證。判別分析是為了正確地分類,但同時也要注意使用盡可能少的預測變量來達到這個目的。使用較少的變量意味著節省資源和易于對結果進行解釋。
第14章聚類分析與判別分析判別分析要注意什么?在計算中需要看關于各個類的有關變量的均值是否顯著不同的檢驗結果(在SPSS選項中選擇Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗的計算機輸出),以確定是否分類結果是僅僅由于隨機因素。此外成員的權數(SPSS用priorprobability,即“先驗概率”,和貝葉斯統計的先驗概率有區別)需要考慮;一般來說,加權要按照各類觀測值的多少,觀測值少的就要按照比例多加權。對于多個判別函數,要弄清各自的重要性。注意訓練樣本的正確和錯誤分類率。研究被誤分類的觀測值,看是否可以找出原因。
第14章聚類分析與判別分析SPSS選項打開disc.sav數據。然后點擊Analyze-Classify-Discriminant,把group放入GroupingVariable,再定義范圍,即在DefineRange輸入1-3的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enterindependentstogether,而選擇Usestepwisemethod,在方法(Method)中選挑選變量的準則(檢驗方法;默認值為Wilks’Lambda)。為了輸出Fisher分類函數的結果可以在Statistics中的FunctionCoefficient選Fisher和UnStandardized(點則判別函數系數)
,在Matrices中選擇輸出所需要的相關陣;還可以在Classify中的Display選summarytable,Leave-one-outclassification;注意在Classify選項中默認的PriorProbability為Allgroupsequal表示所有的類都平等對待,而另一個選項為Computefromgroupsizes,即按照類的大小加權。在Plots可選Combined-groups,Territorialmap等。
第14章聚類分析與判別分析14.4.3判別分析實例P379鳶尾花數據(花瓣,花萼的長寬)5個變量:花瓣長(slen),花瓣寬(swid),花萼長(plen),花萼寬(pwid),分類號(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第14章聚類分析與判別分析Statistics→Classify→Discriminant:Variables:
independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)Classify:priorprobability(Allgroupequal)
usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)Statistics:Descriptive(Means)
FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)
Save:
(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)第14章聚類分析與判別分析鳶尾花數據(數據分析過程簡明表)第14章聚類分析與判別分析鳶尾花數據(原始數據的描述)第14章聚類分析與判別分析鳶尾花數據(合并類內相關陣和協方差陣)第14章聚類分析與判別分析鳶尾花數據(總協方差陣)第14章聚類分析與判別分析鳶尾花數據(特征值表)
Eigenvalue:用于分析的前兩個典則判別函數的特征值,是組間平方和與組內平方和之比值.最大特征值與組均值最大的向量對應,第二大特征值對應著次大的組均值向量
典則相關系數(canonicalcorrelation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.第14章聚類分析與判別分析鳶尾花數據(Wilks’Lambda統計量)
檢驗的零假設是各組變量均值相等.Lambda接近0表示組均值不同,接近1表示組均值沒有不同.Chi-square是lambda的卡方轉換,用于確定其顯著性.第14章聚類分析與判別分析鳶尾花數據(有關判別函數的輸出)標準化的典則判別函數系數(使用時必須用標準化的自變量)第14章聚類分析與判別分析鳶尾花數據(有關判別函數的輸出)典則判別函數系數第14章聚類分析與判別分析鳶尾花數據(有關判別函數的輸出)
這是類均值(重心)處的典則判別函數值這是典則判別函數(前面兩個函數)在類均值(重心)處的值第14章聚類分析與判別分析鳶尾花數據(用判別函數對觀測量分類結果)先驗概率(沒有給)費歇判別函數系數把自變量代入三個式子,哪個大歸誰.第14章聚類分析與判別分析TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
12.01223122312231223122312238.01223122312231223122312234.01223122312231223122312
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學心理劇課程開發與實施中的心理健康教育課程評價體系構建論文
- 家長教育理念與學生學業表現的關系論文
- 現代商業化對高中生中秋節文化傳承的影響與對策研究論文
- 節能環保科管理制度
- 英語興趣組管理制度
- 茶館茶水間管理制度
- 大班語言育兒理論經驗幼兒教育教育專區
- 記賬實操-水泥廠賬務處理
- 山東省煙臺市2025年中考地理真題(含答案)
- 江蘇省宿遷市泗陽縣2024-2025學年七年級下學期期末練習生物試卷(含答案)
- 安全宣傳咨詢日活動知識手冊
- 宴會設計智慧樹知到答案章節測試2023年黑龍江旅游職業技術學院
- GB/T 19879-2005建筑結構用鋼板
- DB12-T 1179-2023 泥態固化土道路填筑技術規程
- GB 4706.10-2008家用和類似用途電器的安全按摩器具的特殊要求
- 綿陽市2023年學業考試暨高中階段招生考試(地理、生物試題)
- 少兒美術繪畫課件- 藝米中班 4歲-5歲 《荔枝》
- 托管班帶生源轉讓合同
- 第三方融資服務(FA)協議
- 畫冊設計制作報價單
- 借助數學實驗 促進思維發展
評論
0/150
提交評論