模式識別基礎課件:第六章 非監(jiān)督學習方法_第1頁
模式識別基礎課件:第六章 非監(jiān)督學習方法_第2頁
模式識別基礎課件:第六章 非監(jiān)督學習方法_第3頁
模式識別基礎課件:第六章 非監(jiān)督學習方法_第4頁
模式識別基礎課件:第六章 非監(jiān)督學習方法_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1第六章 非監(jiān)督學習方法6.1 引言6.2 動態(tài)聚類方法6.3 討論2引 言前面討論的各種方法都是首先利用已知類別標號的樣本集進行分類器設計,然后再進行分類如果樣本集沒有類別標號,怎么辦?這就引出了非監(jiān)督學習方法3引 言研究非監(jiān)督方法的必要性收集并標記大型樣本庫非常費時費力(如語音)原始數(shù)據(jù)沒有明顯的類別信息,或事先不知道待處理數(shù)據(jù)的具體情況,缺少形成模式類過程的知識(如衛(wèi)星遙感圖像、數(shù)據(jù)挖掘方面的大型應用)待分類模式的性質(zhì)會隨著時間發(fā)生緩慢的變化(如衛(wèi)星云圖)非監(jiān)督方法可以揭示觀測數(shù)據(jù)的一些內(nèi)部結(jié)構(gòu)和規(guī)律,便于有針對性地設計分類器可以用于預分類(多級分類)4引 言非監(jiān)督學習方法實際上是對數(shù)據(jù)

2、進行分組(grouping) 或聚類 (clustering) 的過程盡管得到的聚類算法沒有明顯的理論性,但它們確實是模式識別中非常有用的技術具體方法有很多,最常用的是動態(tài)聚類方法5動態(tài)聚類方法動態(tài)聚類方法是一種最常用的方法,要點:選定某種距離度量作為樣本間的相似性度量確定某個評價聚類結(jié)果質(zhì)量的準則函數(shù)給定某個初始分類,然后用迭代算法找出使準則函數(shù)取極值的最好聚類結(jié)果6動態(tài)聚類方法C均值算法(K均值算法)距離度量:歐式距離準則函數(shù):誤差平方和初始分類:先選一些代表點作為聚類的核心,然后把其余的樣本按某種方法分到各類中7動態(tài)聚類方法準則函數(shù) 若Ni是第i 個聚類Di中的樣本數(shù)目,mi是這些樣本的

3、均值,把Di中的各樣本x與均值mi間的誤差平方和對所有類相加后為 Je是誤差平方和聚類準則,度量了用C個聚類中心代表C個樣本子集時所產(chǎn)生的總的誤差平方。對于不同的聚類, Je的值是不同的,使Je極小的聚類就是誤差平方和準則下的最優(yōu)結(jié)果,這種類型的聚類通常稱為最小方差劃分。8動態(tài)聚類方法初始劃分代表點的選擇憑經(jīng)驗選代表點,根據(jù)問題的性質(zhì)、數(shù)據(jù)分布,選擇從直觀上看來比較合適的代表點將全部樣本隨機分成c類,計算每類重心,把這些重心作為每類的代表點用前c個樣本點作為代表點9動態(tài)聚類方法按“密度”選擇代表點 以每個樣本為球心,用某個正數(shù)d為半徑做一個球形鄰域,落在該球內(nèi)的樣本數(shù)稱為該點的“密度”。計算所

4、有樣本的密度后,按大小排序。首先選密度最大的作為第一個代表點。再考慮第二大密度點,若它距第一代表點的距離大于某個人為規(guī)定的正數(shù)d,則把它作為第二代表點,否則依次考慮其他點,以避免代表點可能集中在一起的問題。其余代表點的選擇以此類推。10動態(tài)聚類方法初始分類方法選擇一批代表點后,其余的點離哪個代表點最近就歸入那一類。從而得到初始分類選擇一批代表點后,每個代表點自成一類,將樣本依順序歸入與其距離最近的代表點的那一類,并立即重新計算該類的重心以代替原來的代表點。然后再計算下一個樣本的歸類,直至所有的樣本都歸到相應的類中為止每一個樣本自成一類,第二個樣本若離它小于某距離閾值則歸入此類,否則建新類11動

5、態(tài)聚類方法-均值聚類算法 12動態(tài)聚類方法算法步驟選初始聚類中心將樣本依近鄰規(guī)則分別歸入各個聚類計算新的聚類中心若聚類中心沒有發(fā)生變化,則算法結(jié)束,否則轉(zhuǎn)第二步13動態(tài)聚類方法 例:已知有20個樣本,每個樣本有2個特征,數(shù)據(jù)如下 樣本序號x1x2x3x4x5x6x7x8x9x10特征x10101212367特征x20011122266x11x12x13x14x15x16x17x18x19x20867897898967777888991415動態(tài)聚類方法第一步:令=2,選初始聚類中心為16第二步:171819第三步:根據(jù)新分成的兩類計算新的聚類中心20第四步: 轉(zhuǎn)第二步。重新計算 到z1(2) , z2(2) 的距離,把它們歸為最近聚類中心,重新分為兩類,21更新聚類中心22更新聚類中心23聚類結(jié)果聚類中心分別為24討論與監(jiān)督學習相比,非監(jiān)督學習方法具有更大的不確定性,主要原因在于沒有了已知類別的樣本集,甚至可能不知道類別數(shù),可以利用的信息量大大減少樣本數(shù)量、距離度量、聚類準則、聚類數(shù)等都會影響距離結(jié)果在實際應用中,應設法有效利用領域的專門知識,以彌補信息的不足最終所得聚類的實際含義往往依靠有關應用領域的知識來解釋和確定25練習已知十個樣本,每個樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論