安全統計學及其應用 課件 第8講 安全數據的聚類分析和判別分析_第1頁
安全統計學及其應用 課件 第8講 安全數據的聚類分析和判別分析_第2頁
安全統計學及其應用 課件 第8講 安全數據的聚類分析和判別分析_第3頁
安全統計學及其應用 課件 第8講 安全數據的聚類分析和判別分析_第4頁
安全統計學及其應用 課件 第8講 安全數據的聚類分析和判別分析_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八講

安全數據的聚類分析和判別分析1聚類分析和判別分析概述2安全數據的聚類分析3安全數據的判別分析提綱8.1.1聚類分析概述

Anintelligentbeingcannottreateveryobjectitseesasauniqueentityunlikeanythingelseintheuniverse.Ithastoputobjectsincategoriessothatitmayapplyitshard-wonknowledgeaboutsimilarobjectsinthepasttotheobjectathand.智者觀物,固非以一物視之,別之以類,格而致知,推而及其他者也。觀察個體的特征將群體中的個體歸為不同的群/簇(cluster)1.聚類分析的直觀理解8.1.1聚類分析概述

123在市場營銷中,基于消費者的歷史交易信息、消費者背景等對消費者進行劃分,從而對不同類型的消費者實施不同的營銷策略——精準營銷。在金融領域,為獲得較為平衡的投資組合,需要首先基于一系列金融表現變量(如回報率、波動率、市場資本等)對投資產品(如股票)進行歸類。這種歸類思想也可以應用于天文學、考古學、醫學、化學、教育學、心理學、語言學和社會學等。市場營銷其他科學領域金融市場營銷2.聚類分析應用場景8.1.1聚類分析概述聚類分析是根據“物以類聚”的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。3.聚類分析的含義8.1.1聚類分析概述

判別分析是在已將安全現象分成若干類、并已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然后對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。核心思想是根據已知的訓練數據(包含輸入特征及其類別標簽)來推測出一條或多條判別規則,從而對新的、未標記的樣本進行分類。這種分類過程通常依賴于數學模型,目標是最大化類別之間的差異,同時盡量減少類別內的差異。8.1.2判別分析概述

8.1.2判別分析概述

在安全統計學領域,判別分析能夠有效地對數據進行分類,從而幫助識別潛在的安全威脅和異常行為:風險預測與防范:分析大量歷史安全數據,識別潛在的安全威脅或風險。安全決策與政策制定:幫助不同領域之間進行跨界整合,對政策的效果進行分類和評估。公共安全與應急響應:快速識別事件的性質,合理安排救援資源和優先級。提綱1聚類分析和判別分析概述2安全數據的聚類分析3安全數據的判別分析8.2.1聚類與分類的區別

分類在分類分析中,個體的類別標簽固有存在,只是對于新觀測個體暫時未知,分類過程旨在根據其特征預測類別,后續可知是否預測準確,故屬于有監督學習。(supervisedlearning)聚類在聚類分析中,類別的個數及個體標簽本身并不存在,只是根據個體特征的相似性形成“合理”的聚集,并無“正確答案”參考,故其屬于無監督學習。(unsupervisedlearning)分類是有指導的學習,聚類是一種無指導的學習。通過一定的方法在逐步分類過程中將沒有類標志的安全統計數據聚集成有意義的類。名稱公式歐氏距離(EuclideanDistance)馬氏距離(MahalanobisDistance)切比雪夫距離(ChebyshevDistance)閔可夫斯基距離(MinkowskiDistance)8.1.3樣品相似性的度量

1.樣品相似度的度量——距離2.變量間相似系數的計算方法

8.2.2樣品相似性的度量名稱計算公式夾角余弦Pearson相關系數變量點的距離不同的距離公式的側重點和實際意義有所不同,因此在進行聚類分析時,應根據實際情況選擇合適的距離公式。在選擇距離公式時,應遵循以下三個基本原則:1要考慮所選擇的距離公式在實際應用中所具有的意義2要綜合考慮對安全統計樣本觀測數據的預處理與將要采用的聚類分析方法3要考慮安全現象的特點與計算的工作量3.距離選擇的原則8.2.2樣品相似性的度量1.系統聚類法

系統聚類又稱為層次聚類。在給出安全統計樣品之間、類與類之間的距離定義的基礎上,首先將每個安全統計樣品各當作一類,計算出各個類(即各個安全統計樣品)之間的距離;然后再將最近的兩類合并,距離較遠的安全統計樣品后聚成類,過程一直進行下去,每個安全統計樣品總能聚到合適的類中。簡單描述為:第一步:假設一個安全統計總體內有n個安全統計樣品,將每個樣品獨自

聚成一類,共有n類;第二步:根據所確定的樣品“距離”公式,把距離較近的兩個樣品聚成

為一類,其他的樣品仍各自聚成一類,共聚成n-1類;第三步:將“距離”最近的兩個類聚成一類,共聚成n-2類,……,一直

進行下去后,最終將所有的樣品聚成一類。8.2.3

聚類分析的方法2.分解法

分解法的基本思想與系統聚類法恰好相反,先將全部安全統計樣品當成一類,然后是將其分為兩類,再分為三類,……,直到最后將距離相近的樣品聚成一類。分解法與系統聚類法的計算量較大,需要大量的工作時間,通常適用于樣本量不大的樣品群使用。動態法是樣本量較大時的最佳使用方法,因此又稱為快速聚類法。其基本思想是:先確定若干個中心,然后將安全統計樣品逐個輸入,觀察樣品到底歸屬為哪類,如果可以歸屬到已有的某個類,則視為同類,并對該中心稍作調整,否則需要建立新類,并調整原有的歸屬類以及重新計算各新類的中心,如此進行下去,直到每個樣品皆有歸屬為止。3.動態法

8.2.3

聚類分析的方法8.2.3系統聚類法類別

完全連接法:以兩組中最遠個體之間的距離來定義族群之間的距離。質心連接法:兩族群的距離定義為兩族群各自的質心,即樣本均值向量,之間的歐式距離。平均連接法:兩族群之間的距離定義為nA個A集合點和nB個B集合點產生的所有nAnB個距離數值的平均。簡單連接法:定義族群間的距離為兩族群中間隔最近的兩個體間的距離。1.連接法

8.2.4系統聚類法通過最小化群體之間的平方差來確定樣本間相似性。每次合并時計算合并后的簇的內部方差,并選擇使該方差增加最小的兩個簇進行合并。定義其距離為:2.Ward法

8.2.4系統聚類法式中:|Ci|和|Cj|分別是簇Ci和Cj中的樣本數,μi和μj是它們的均值向量,

||μi-μj||是兩個簇中心之間的距離平方。8.2.5K-means聚類分析法

K-means聚類是建立在系統聚類的基礎上,又避免了系統聚類的缺點,是一種計算量相對較小、效率較高的聚類法,是動態法的一種,又稱快速聚類。具體步驟如下:第一步:確定要分類的數目K。第二步:確定K個類別的初始聚類中心。第三步:根據確定的K個初始聚類中心,依次計算每個安全統計樣本到K個

聚類中心的歐式距離,根據距離最近原則將所有的安全統計樣本

分派到事先確定的K個類中;第四步:根據已經分成的K個類,計算出各類中所有變量的均值,并以均

值點作為K個新類的中心。第五步:重復第四步的內容,直到滿足終止聚類的條件為止。直觀理解——K-means聚類法8.2.6DBSCAN聚類分析法

DBSCAN是一種基于密度的空間聚類算法,它通過考察數據點在空間中的密度來識別簇和噪聲點。與K-means模型不同,DBSCAN不需要預先指定簇的數量,并且能夠發現任意形狀的簇,尤其適用于處理具有噪聲和不規則形狀的復雜數據。DBSCAN的主要思想是通過數據點的密度來定義簇:1.核心點:如果某個點的鄰域內有足夠多的點(即在半徑ε內至少有

MinPts個),則該點被認為是核心點。2.邊界點:如果某個點的鄰域內點數不足MinPts,但它在某個核心點的

鄰域內,則它被稱為邊界點。3.噪聲點:如果某個點既不是核心點,也不是邊界點,則被視為噪聲點。8.2.6DBSCAN聚類分析法1.確定參數

確定鄰域半徑ε和最小點數(MinPts)這兩個關鍵參數。如果兩點之間的距離

小于ε,則它們是鄰居。MinPts

一般設置為數據維度加1。2.標記核心點

計算數據集中每個點的鄰域內的點數,如果一個點的鄰域內點數不少于

MinPts,就將這個點標記為核心點。3.擴展聚類

從任意一個未被訪問的核心點開始,找到其鄰域內的所有點,這些點和初

始核心點構成一個聚類。4.識別邊界點和噪聲點5.重復步驟3和步驟4方法名稱優點缺點適用范圍系統聚類法1.不需要預先指定簇數K2.對于非球形簇結構效果較好3.對于噪聲和離群點不敏感1.計算復雜度高2.合并過程中可能出現錯誤合并現象3.無法處理高維數據4.缺乏全局最優解適用于數據規模較小、數據結構復雜、需要探索不同層次聚類結果的情況。例如圖像分割。K-means法1.簡單易懂,易于實現2.計算速度快3.對于密集型數據集效果較好4.可擴展性強,能夠處理大量數據1.需要預先指定簇數K2.非球形簇結構效果不佳3.對于噪聲和離群點敏感4.對初始值敏感5.局部最優而非全局最優適用于數據集較大、簇結構較簡單、數據分布較密集的情況。例如:對于客戶消費行為的聚類分析、網絡流量監測。DBSCAN法1.不需要預先指定簇數K2.能夠識別任意形狀的簇3.能夠識別并處理噪聲和異常值1.對參數敏感(鄰域半徑、最小點數)2.高維數據表現不佳3.計算資源消耗大,計算復雜度較高適用于數據分布不均勻、存在不規則形狀聚類情況,應用于地理信息系統、數據處理、異常檢測。8.2.7方法總結與對比

提綱1聚類分析和判別分析概述2安全數據的聚類分析3安全數據的判別分析距離判別法是根據所觀測到的安全統計樣品的數量特征來對新的樣本進行識別,并判別新樣品歸屬類型的一種統計分析方法。

可以據此推廣到k個總體,若樣品x距k個總體中的Gi馬氏距離最近,則其歸屬于Gi。8.3.1距離判別法1、貝葉斯(Bayes)判別法的基本思想8.3.2貝葉斯(Bayes)判別法貝葉斯判別法是根據最大似然比與貝葉斯準則來進行判別分析的一種多元統計分析法。抽樣前有一定的認識用先驗分布來描述這種認識據安全統計樣本修正認識基于后驗分布進行統計推斷得到后驗分布2、多元正態的貝葉斯(Bayes)判別法8.3.2貝葉斯(Bayes)判別法根據相關數學理論,可以證明:在各統計總體服從“等協方差陣”多元正態分布假設下,判別關系可成立:

在均值向量與協方差矩陣取值未知的情況下,都可以通過樣本估計。1、基本思想8.3.3Fisher判別法通過將k組多元安全統計數據投影到某一個方向上(或某一低維空間中),使投影后的組與組之間盡可能地分開,借助一元方差分析的思想來構造一個線性判別函數,其系數是根據類與類之間距離最大、類內部距離最小的原則來確定,再根據所建立的線性判別函數結合相應的判別規則來判斷待判樣品的類別。高維向低維投影根據距離判別2、重要概念8.3.3Fisher判別法類內散度矩陣:衡量同類內樣本之間的分散程度,反映了每個類內部樣本的離散性。其中:xi是第k類中的樣本,μk是第k類的均值,(xi-μk)(xi-μk)T是每個樣本與該類均值的偏差的外積。類間散度矩陣:衡量不同類之間的分散程度,它反映了不同類之間的“可分性”。其中:Nk是第k類的樣本數,μk是第k類的均值,μ是所有數據點的全局均值(即所有類樣本的加權平均),(μk-μ)(μk-μ)T是類k均值與全局均值之間的偏差的外積。2、重要概念8.3.3Fisher判別法Fisher判別法通過計算類內散度矩陣和類間散度矩陣來優化投影方向。最優投影方向對應于以下目標函數(稱為判別準則)的最大化:式中:w為投影向量,SB、SW分別為類間散度矩陣和類內散度矩陣。計算類內散度矩陣Fisher判別法基本步驟計算類間散度矩陣計算散度矩陣的特征值和特征向量選擇特征值最大的特征向量8.3.4方法總結與對比方法優點缺點適用范圍距離判別法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論