SPSS軟件培訓(第三單元)(精)_第1頁
SPSS軟件培訓(第三單元)(精)_第2頁
免費預覽已結束,剩余27頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、聚類分析意義O聚類分析是統計學中研究“物以類聚”問題的多元統 計分析方法。聚類分析在統計分析的應用領域己經得 到了極為廣泛的應用。O聚類分析是一種建立分類的多元統計分析方法,它能 夠將一批樣本(或變量)數據根據諸多特征,按照在 性質上的親疏程度在沒有先驗知識的情況下進行自動 分類,產生多個分類結果,類內部的個體在特征上具 有相似性,不同類間個體特征的差異較大。方法原理O按照個體(記錄)的特征將它們分類,使同一類別 內的個體具有盡可能高的同質性,而類別之間則具 有盡可能高的異質性。為了得到比較合理的分類,首先要采用適當的指標 來定量地描第八講聚類分析、判別分析述研究對象之間的聯系的緊密程度。直觀

2、的理解為按空間距離的遠近來劃分類別方法原理。假定研究對象均用所謂的“點”來表示。 在聚類分析中, 一般的規則是將“距離”較小的點 歸為同一類,將“距離”較大的點歸為不同的類。O常見的是對個體(Case)分類,也可以對變量(Variable)分類此時一般使用相似系數作為“距離”測量指標方法原理例:根據年齡將人 群分成適當的類,從右圖可見, 人群 被分為兩類是比較 合適的。方法原理。在右圖中可以看到五個樣品應當可能被分為兩組或 者三組,C/D組x和y的取 值均偏低,而另三個所在組x和y的取值均偏高分為 兩類或三類都是可接受的從圖中可1SQ 20.0 25J3SO 0-050.0 $.0 3* 0

3、*0.0 7S.0 800AG方法原理O當用于聚類的變量逐漸增多時,分析思路完全相同, 只是這樣簡單、清晰的圖示展現類別情況變得逐漸 不大可能多維空間屮的觀察O可能的解決方法放棄圖示化觀察,改用復雜的統計指標縮減維度,使得可以在低維度空間進行呈現聚類分析的特點聚類分析前所有個體所屬的類別是未知的,類別個能事先沒有任何有關類別的信息可參考。嚴格說來聚類分析并不是純粹的統計技術,它不像 其它多元分析法那樣,需要從樣本去推斷總體。一般都涉及不到有關統計量的分布,也不需要進行顯著性檢驗。般也是未知的,分析的依據就是原始數據,可O聚類分析更像是一種建立假設的方法,而對相關假 設的檢驗還需要借助其它統計方

4、法。聚類分析的用途O設計抽樣方案分層抽樣O預分析過程先通過聚類分析達到簡化數據的目的, 將眾多的個體先 聚集成比較好處理的幾個類別或子集,然后再進行后續 的多元分析。O細分市場、個體消費行為劃分先聚類,然后再利用判別分析進一步研究各個群體之間 的差異。聚類分析的步驟步驟1:確定研究問題簷擇研究目的:分類描述;數據簡化;揭示相互聯系選擇分類變O步驟2研究設計對個體聚類還是對變量聚類?分類變量是什么類型?選擇用“距離”還是“相似系數” ?是哪一種? 數據是否需要標準化?是否需要刪除奇異點?o步驟3考慮是否滿足基本假定樣本對總體是否有代表性? 聚類變量是否存在共線性? 共線性是否足以影響結果?聚類分

5、析步驟步驟4選擇聚類方法蓋龍鬻蠶為翳蹩寥爲荒耒霜譽合釆用。步驟5:解釋聚類分析的結果考察類別的中心是否存在顯著的差異?觀察樹形圖和冰柱圖是否可以根據分類變量給各個類別命名?步驟6:評價聚類分析結果的有效性利用適當的結果變量進行評價;利用其它描述性的變量描述各個類別的輪廓。評定聚類結果的標準o一個好的聚類分析是:O Efficient.盡可能少的分類數.o Effective.尋找到無論在統計上還是在商業上都重要 的分類比如,一個類中含有5個客戶,也許在統計上 是有意義的,但是在商業上卻沒有利用價值TwoSTEPCLUSTERO特點處理對象:分類變量和連續變量自動決定最佳分類數快速處理大數據集O

6、前提假設:變量間彼此獨立分類變量服從多項分布,連續變量服從正態分布模型穩健TwoSTEPCLUSTER。步驟:建立Cluster Features (CF) Tree確定最佳聚類數。分析實例:某汽車制造商為了了解整個汽車市場的形勢,希望根據汽 車的基本屬性和價錢對其進行分類,以有效地提高競爭力。o數據:car_sales.savcategorical variable : Vehicle type continuous variables:Price in thousands Fuel efficiencyHIERARCHICALCLUSTERO屬于系統聚類法的一種其聚類過程可以用樹形結構(t

7、reelike structure)來描 繪的方法。方法原理先將所有n個變量/觀測看成不同的n類然后將性質最接近(距離最近)的兩類合并為一類 再從這n l類中找到最接近的兩類加以合并依此類推,直到所有的變量/觀測被合為一類使用者再根據具體的問題和聚類結果來決定應當分為幾類rJj&rarehical CHusi&rXt話框o 即可進入Hierarchical Cluster主菜單,或KMeans Cluster主菜單。 下面對利用這兩 個過程進行聚類的步驟和主要選項加以介紹。o 1. Hierarchical Cluster。進行層次聚類有以下步驟:o (2)指定聚類對象要進行變

8、量聚類,Cluster逸項中選捧Variables”,要對案例 進行聚類,逸會Cases。o (1)指定參與聚類的變量將選定的變量放到“Variables”下的矩形框中。o (3)在“Method”子對話框中指定聚類方法、 相似測度的方法和標準化數據的方法在“ClusterMethod”對話框中選擇聚類方法,SPSS軟件提供了本章前面介紹的七種聚類 方法可供選擇。在“Measure”子對話框中選 擇不同變量類型的相似性測度方法,對于間距 測度變量在Interval-對話框中選擇,分類 變量在“Counts”中選擇,二分類變量在Binary中選擇。 在Transform Value”對話框中選擇

9、標準化數據的方海(4)選擇要輸出的統計量在“Statistic”對話框中可以選擇輸出聚類進度表、距離距陣和聚類結果(即每個案例屬于哪一類)。Single Solutions輸出 指定類數的聚類結果,Range of solutions指定類數范圍的聚類結果,比如指定類數范圍從2到4,則分別輸出聚為2、3。4類時的聚類結果。(5) )選擇要輸出的統計圖表在“not.-對話框中可以巒輸出樹狀結鶴嚟譜器聚鸚1圖鑒矍程Specified range過程。顯示指定范圍的聚類(6)生成新變量在“Saw”對話框中可以選擇把聚類 結果作為變量保存到數據文件中。HIERARCHICALCLUSTERO實例應用根

10、據購物環境、服務質量對5個商廈進行分類 31省市自治區小康和現代化指數的層次聚類個體聚類采用平方歐式距離,組間距離采用平均組間連 接距離HIERARCHICALCLUSTER。實例應用:O對變量進行聚類。裁判打分的聚類分析K MEANSCLUSTERO屬于非系統聚類法的一種。方法原理選擇(或人為指定)某些記錄作為凝聚點按就近原則將其余記錄向凝聚點凝集計算出各個初始分類的中心位置(均值)用計算出的中心位置重新進行聚類如此反復循環,直到凝聚點位置收斂為止K MEANSCLUSTERo方法特點要求已知類別數可人為指定初始位置 節省運算時間樣本量大于100時有必要考慮只能使用連續性變量K MEANSC

11、LUSTER。分析實例 31個省市自治區各類小康和現代化的數據 注意類別數、分類結果的實際應用。聚類分析應注意的問題0距離測量方法使用默認值即可。變量選擇無關變量有時會引起嚴重的錯分應當只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進行分析 。使用連續變量,將分類變量用于結果解釋o新的聚類方法可以同時使用這些變量聚類分析應注意的問題。共線性問題對記錄聚類結果有較大的影響相當于某個變量在聚類中的權重大于其它變量最好先進行預處理0變量的標準化變量量綱/變異程度相差非常大時需要進行數理統計算法上要求一律標準化 標準化后會削弱有用變量的作用聚類分析應注意的問題。異常值影響較大還沒有比較好的解

12、決辦法盡力避免分類數從實用角度講,28類比較合適。專業意義 一定要結合專業知識進行分析聚類分析應注意的問題。其他方面O聚類分析主要應用于探索性的研究,其分析的結果 可以提供多個可能的解,選擇最終的解需要研究者 的主觀判斷和后續的分析O聚類分析的解完全依賴于研究者所選擇的聚類變量, 增加或刪除一些變量對最終的解都可能產生實質性 的影響。不管實際數據中是否真正存在不同的類別,利用聚 類分析都能得到分成若干類別的解內容方法TwoStepK-MeansHierarchic al聚類對象記錄記錄記錄、變屋變竝類型連續變量、 分類變量連續變戰連續變戰、 分類變量樣木量人樣木(1000)人樣本(1000)小

13、樣本(100特點丫|動確定眾佳分類數保存每個樣 本到類中心供豐富的聚類方法和團形判別分析的基本原理O判別分析也是一種分類的學科,和聚類分析一樣, 它已成為高級統計分析不可缺少的一部分。究對象如何分類的方法。O這一點和聚類分析相似。但聚類分析和判別分析之 間有存在一些差別。聚類分析是在未知類別數目的 情況下對樣本數據進行分類,判別分析則是在一直 分類數目的情況下,根據判別函數對不知類別的樣 本進行分類, 同時對已經分類的樣本進行檢驗。判別分析是根據觀察或測量到的若干變量值判斷研總結判別分析判別分析產生于20世紀30年代,是利用己知類別的樣本建立判別模型,為未知類別的樣本判別的一種統計方法。近年來

14、,判別分析在自然科學、社會學 及經濟管理學科中都有廣泛的應用。判別分析的特點是根據已掌握的、歷史上每個類別的若干樣本的 數據信息,總結出客觀事物分類的規律性,建立判 別公式和判別準則。當遇到新的樣本點時,只要根 據總結出來的判別公式和判別準則,就能判別該樣本點所屬的類別。判別分析按照判別的組數來區分,可以分為兩組判別分析和多組判別分析。判別分析的概念判別分析是一種進行統計鑒別和分組的技術手段。它可以就 一定數量案例的一個分組變量和相應的其他多元變量的己知 信息,確定分組與其他多元變量之間的數量關系,建立判別 函數( (discriminant Function)。然后便可以利用這一數量關系對其

15、他己知多元變量信息、但未知分組類型所屬的案例進 行鑒別分組。沿用多元回歸模型的稱謂,在判別分析中稱分 組變量(grouping variable)為因變量,而用以分組的其他稱為判別變量( (discriminant variable)或自變量。特征變量判別分析技術曾經在許多領域得到成功的應用,包括對 兒童心理測驗。手術或藥品效果、地理區劃的經濟差異、 決策行為預測等結果的分類。判別分析。判別分析與聚類分析有所不同。聚類分析是一種純 統計技術,只要有多種指標存在,它就能根據各案 例的變量值近似程度排出順序來,只是描述性的統 計。但是判別分析則不同,在分析之前就根據理論 或實際的要求對于分組的意義

16、和分組類別數目加以 確定。并且,判別分析要以此為標準來建立判別函 數。最后,判別分析并不停留在描述分類類型與各 鑒別指標之間的關系上,還能夠對于未知分組類型 的案例進行鑒別分組。因此,它帶有“預測”的意 義。O判別分析包括兩個階段的工作:。第一階段是分析和解釋各組的指標特征之間存在的差異,并 建立判別函數。在這部分工作中,研究人員要處理的是已知 分組屬性的那些案例。這時需要確定是否能在特征變量數據 的基礎上鑒別出已知的分組來,以及分組能被鑒別的程度和 哪些特征變量是最有用的鑒別因素。另一個用途是為了分組 的目的推導一個或多個數學方程。這些方程稱為“判別函數”, 它們以某種數學形式將表示特征的判

17、別變量與分組屬 性結合起來,使我們能辨識一個案例所最近似的分組。第二階段所要處理的是未知分組屬性的案例,以第一 階段的分析結果為根據將這些案例進行鑒別分組。這 相當于根據以往經驗來“預測”案例的分組屬性。在 分組屬性能夠成為一種明確結果時(如分組代表的是 事物發展的不同結果),便可以作為事實來檢驗預測 的準確性。而有的時候,分組的內在屬性并不是顯性 的,如一個病人的病癥到底是哪一類的,那么判別分 析只是提供一種判斷。1=1判別變量的簡單線性組合。在各組協方差矩陣相等的假設條 件下,可以使用很簡單的公式來計算判別函數和進行顯著性 檢驗。判別分析的假設之三,是各判別變量之間具有多元正態分布即每個變

18、釋忑黠髒器算轟瞬瞬脫的概率。當這1 判別分析的假設條件判別分析最基本的要求是:分組類型(Group,用g表示)在兩種以上,即gM2;在第一階段工作時每 組案例的規模必須至少在一個以上,即刊1(下標j表示所在類型組);各判別變量的測度水平在間距 測度等級以上;各分組的案例在各判別變量的數值上能夠體現差別。O判別分析是用于研究兩個或多個組之間在一套判別變量上的 差別的方法。因為分組被定義為一個名義測度等級變量,所 以在本質上判別分析是一種將一個名義變量與多個間距等級 變量聯系起來的方法。2.判別分析的基本模型判別分析的基本模型就是判別函數,它表示為分組 變量與滿足假設的條件的判別變量的線性函數關系

19、, 其數學形式如下:y = bQ+blxl+b2x2+- + bkxk。計y是判別函數值;各判別變量;b,為相應的判別系 。從上述判別函數的方程式可以看出,它與一般多元線性回歸看成是回歸系數。但實際上鑒別模型與線性回歸有本質上的 區別。首先,判別函數中的y并不代表原來輸入的因變量的估 計。在判別分析中所輸入的因變量是一個定性的分組變量,模型的形式一致。所以,我們可以將判別函數值(dicriminant functionvalue)看成是因變量,而將判別系數熬隸艦般噩瓠蠶眾勰蠶作為編碼。而并且它并不直接與分組變量有數量聯系,只代表在某 一空間上的坐標。其次,回歸分析的方程式只有一個, 而判別分析

20、中的函數往往并不是只有一個,在判別變 量較多時,判別函數也往往有多個。c判別函數值y又常簡稱為判別值( (discTiminant score)。其判別系數( (discriminant coefficient or weight)表示各判別變量對于判別函數值的影響,其中是常數項。判別模型對應的幾何解釋是,各判別變量代表了k維空間。每個案例按其判別變量值成為這一k維空間中的一個點。如果各組案例就其判別變量值有明顯不同,就意味著每一 組將會在這一空間的某一部分形成明顯分離的蜂集點群。 即使這些組的點群在空間位置上有少量重疊,其各自的“領域”也大體可以分清。為了概括這個組的位置,我們 可以計算它的

21、領域的中心。中心的位置可以用這個組別中 各案例在每個變量上的組平均值作為其坐標值。0因為每個中心代表了所在組的基本位置,我們可以通過研 究它們來取得對于這些分組之間差別的理解。然而,僅看 單個變量會使我們只從單一方向觀察;當有很多變量時,這樣的信息也許會復雜得難于理解。可以證明,實際可能 用不著用這么多維度來完整地代表一個組的中心的相對位 置。因此,判別分析可以幫助我們精簡對鑒別用處不大的維度。總而言之,判別分析將這些空間分布特征與已知分組屬性之估計,并且對于整個模型和各參數估計進行評價和檢驗。別盡可能大,然后將其作為鑒別的第一維度。在這一維 度上可以代表或解釋原始變量組間方差中最大的部分。上述判別函數就表達了將原始數量值轉換至這一維度的 系數方程式。對應第一維度的判別函數稱為第一判別函 數。然后按照同一原則尋找第二維度,并建立第二判別 函數。如此下去,直至推導出所有判別函數。建立后續實際上這樣推導出的函數有min (k, g-1)個,即等 于判別變量個數或分組個數減1兩者中的較小者。其實, 這已經有可能將原來的k維加以精簡了。比如判別變量 有8個,而組型分為3種,實際上能夠得到的判別函數 只有2個,即我們只要從兩個維度來進行案例分組即可。如果判別變量的數目大于分組數目時,能推導的判別函數雖然還是k維,但這時所有案例的空間分布將最有利于識別分組。 得到的每一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論