



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、俗話說:“物以類聚,人以群分”在自然科學和社會科學中,存在著大量的分類問題。聚類(Cluster)分析是由若干模式(Pattern)組成的。通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。所以,聚類分析依賴于對觀測間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產生不同的聚類結果。所謂類,通俗地說,就是指相似元素的集合。聚類就是按照事物間的相似性進行區分和分類的過程。聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法。聚類分析起源
2、于分類學,聚類分析也可以作為其他分析算法的一個預處理步驟。Clustering中文翻譯作“聚類”,簡單地說就是把相似的東西分到一組,同Classification(分類)不同,理想情況下,一個classifier會從它得到的訓練集中進行“學習”,從而具備對未知數據進行分類的能力,這種提供訓練數據的過程通常叫做supervisedlearning(監督學習),而在聚類的時候,我們并不關心某一類是什么,我們需要實現的目標只是把相似的東西聚到一起,因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了,稱作unsupervisedlearning(無監督學習)。無監督分類最常用的方法之一是K
3、均值或ISODATA、模糊C均值和EM(Expectation-Maximization)。K-MEANS有其缺點:產生類的大小相差不會很大,對于臟數據很敏感。不得不承認這并不是很好的結果。不過其實大多數情況下k-means給出的結果都還是很令人滿意的,算是一種簡單高效應用廣泛的clustering方法。選定K個中心的這個過程通常是針對具體的問題有一些啟發式的選取方法,或者大多數情況下采用隨機選取的辦法。因為前面說過k-means并不能保證全局最優,而是否能收斂到全局最優解其實和初值的選取有很大的關系,所以有時候我們會多次選取初值跑k-means,并取其中最好的一次結果因為每迭代一次就需要遍歷
4、所有數據,盡量減少迭代次數,初值很重要,可先用K-Means求初始聚類中心。易于陷入局部最小,對初始值較敏感。K-means算法結束條件:1)給定一個迭代次數,達到這個次數就停止,這好像不是一個好建議。2)k個質心應該達到收斂,即第n次計算出的n個質心在第n+1次迭代時候位置不變。3)n個文檔達到收斂,即第n次計算出的n個文檔分類和在第n+1次迭代時候文檔分類結果相同。4)RSS值小于一個閥值,實際中往往把這個條件結合條件1使用模糊參數m可以取大于或等于1的任何值,但當m=2時,聚類結果最滿意(Equihua1990),所以一般取m=2。模糊C-均值聚類(Fuzzyc-meanscluster
5、ing)也叫模糊IS0-DATA聚類(Fuzzyiterativeself-orgnizingdataclustering)(Bezdek1981,1987;Equihua1990)。該方法的結果是用隸屬度(membership)表示,表明屬于某種類型的程度。它是目前唯一的重疊分類方法。1.設定聚類數號k,最大執行”一?很4啲容忍誤差wo-計算數據點厲于哪隈類(隸屬度矩陣沖二1.(C)計算收斂準則,若砂)=;成立則停止運轟r否血進行下一輕戢Et)=|G護)II_1.設定聚類數號疋最大執行步驟血,Y很4啲容忍誤豊丸決定聚類中心起始位置womfort=lf站氐vWvV(A)fi)rj=l!,N,-(i)計算各數據點到聚類中譏的距離必J|X廠二Largmin/;0.otherwise2.3.決定聚類中心起始位置q蝕0勺冬疋fort=(A)forj=lN計算隸屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 任務中心活動方案
- 企業五一活動方案
- 企業黨員活動日活動方案
- 企業公益類活動方案
- 企業助殘捐款活動方案
- 企業員工周年慶活動方案
- 企業困境活動方案
- 企業學校活動方案
- 企業展風采征集活動方案
- 企業建站活動方案
- 《蛇咬傷的急診處理》課件
- 中國地理概況(疆域、行政區、人口、民族)
- 2025屆高三統編版必修中外歷史綱要下冊一輪復習:世界古代史(一)+講義
- 麻醉科建設發展規劃
- 合作框架協議戰略
- 設備工程師招聘筆試題及解答(某大型國企)2025年
- 24秋國家開放大學《科學與技術》終結性考核大作業參考答案
- 肌力分級護理課件
- 國家職業技術技能標準 6-29-01-07 鄉村建設工匠 2024年版
- 舊水泥混凝土路面碎石化技術規程(山東省標準DB37T-1160-2009)
- 2024年中國南水北調集團水網智慧科技限公司秋季公開招聘高頻難、易錯點500題模擬試題附帶答案詳解
評論
0/150
提交評論