




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
聚類分析1聚類分析1注意我們考核非常松盡可能全部高于80分。2注意我們考核非常松盡可能全部高于80分。2一個簡單的聚類例子這是按照顏色進行一維聚類。實踐中,維度經常多于一個。3一個簡單的聚類例子這是按照顏色進行一維聚類。3基本特點聚類(clustering)是指根據“物以類聚”原理,將本身尚未歸類的樣本根據多個維度(多個屬性)聚集成不同的組,這樣的一組數據對象的集合叫做簇或群組。怎樣聚類算成功呢?經過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應該足夠不相似。4基本特點聚類(clustering)是指根據“物以類聚”原理分類與聚類的區別分類(Classification)有訓練過程。分類是事先定義好類別,類別數不變。分類器需要由人工標注的分類訓練數據集訓練得到,屬于有指導學習范疇。而聚類則是沒有訓練過程。在進行聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類則沒有事先預定的類別,類別數不確定。聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成。5分類與聚類的區別分類(Classification)有訓練過聚類分析的主要應用領域作為獨立的工具來分析數據發現離群點為其他算法做數據預處理6聚類分析的主要應用領域作為獨立的工具來分析數據6聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
7聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
聚類的其他應用按照血型對學生進行分班確定婚禮客人如何排座位9聚類的其他應用按照血型對學生進行分班9離群點檢測離群點檢測和聚類是高度相關的。聚類是發現數據集中的主要群體,而離群點檢測則試圖識別那些顯著偏離多數實例的異常情況。離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信用卡欺詐檢測。這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數顧客。比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。10離群點檢測離群點檢測和聚類是高度相關的。10聚類算法的分類聚類算法主要包括:劃分方法(PartitioningMethod):包括K均值方法等層次方法(HierarchicalMethod)基于密度的方法(Density-based)基于網格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法最常用。11聚類算法的分類聚類算法主要包括:11K均值算法K-means算法是無可爭議的使用最多的算法。它是劃分方法的一種。它原理簡單,容易實現。它適合使用數值型屬性,而不是類別型屬性。它的一個不足之處是:對于離兩個群組的中心都很近的點,你會不知道該放到哪個群組中。這其實也是其他一些聚類算法的局限性。12K均值算法K-means算法是無可爭議的使用最多的算法。12K均值算法的步驟K均值算法,概括起來有五個步驟:設定一個數K,表明總共有幾個群簇(組);從所有實例中隨機選擇K個實例,分別代表一個群簇的初始中心;對剩余的每個實例,根據其與各個組的初始中心的距離,將它們分配到離自己最近的一個群簇中;然后,更新群簇中心,即:重新計算得出每個群簇的新的中心點;這個過程不斷重復(即:重復第3、4步),直到每個群簇中心不再變化,即直到所有實例在K組分布中都找到離自己最近的群簇。13K均值算法的步驟K均值算法,概括起來有五個步驟:13K均值算法——什么是中心值14K均值算法——什么是中心值14K均值算法的步驟注意看C點,它離上面的群的新的的距離中心比離下面那個群的新的中心更近,所以它被重新劃分到上面那個群了。15K均值算法的步驟注意看C點,它離上面的群的新的的距離中心比離K均值算法的步驟16K均值算法的步驟16K均值算法的應用:圖像壓縮群的個數越少,意味著圖像被轉化成顏色數量很少的圖像了。17K均值算法的應用:圖像壓縮群的個數越少,意味著圖像被轉化成顏K均值算法的應用:圖像壓縮原理和上面人物照片是一致的。18K均值算法的應用:圖像壓縮原理和上面人物照片是一致的。18K均值算法可以用于三個維度前面圖像壓縮的例子是基于一個維度。這里抽象展示了基于三個維度的聚類。19K均值算法可以用于三個維度前面圖像壓縮的例子是基于一個維度。如何在軟件中為K均值算法設定參數在軟件中,通常都要設定群的個數。還可以指定距離的度量方式。例如選擇歐幾里德距離或曼哈頓距離。大多數聚類分析都使用距離度量來衡量兩個實例之間的遠近。20如何在軟件中為K均值算法設定參數在軟件中,通常都要設定群的個如何在軟件中為K均值算法設定參數此外,還可以設定聚類時采用哪些屬性同時,數據標準化是聚類分析中最重要的一個數據預處理步驟。如果之前沒做過標準化,可以現在進行。21如何在軟件中為K均值算法設定參數此外,還可以設定聚類時采用哪如何評價聚類分析的結果?這方面和分類算法有一個顯著不同:分類算法的評判有訓練集、驗證集的客觀參照。而聚類結果的評判缺乏很明確、客觀的、統計學意義上的參照依據。對于聚類,業務專家從實踐角度的評估是最重要的評價層面。如果多數業務專家對于聚類的結果都看不懂,那么這個結果很可能是值得懷疑的。如果聚類的結果比較容易理解、解釋,業務人員會更能實施這個結果。22如何評價聚類分析的結果?這方面和分類算法有一個顯著不同:22聚類之前的預處理——特征篩選在實踐中,聚類中的輸入變量不能太多,尤其是在樣本數量有限的情況下。否則:運算耗時;更重要的是變量之間的相關性會損害聚類效果;變量太多會使人難以理解每個群的實際含義。因此,通常會采用相關性分析、結合業務知識進行變量篩選等方法來降維。然后根據少量幾個維度進行聚類。被篩掉的變量可以在聚類完成后再用于對每個群的進一步分析,比如描述性統計、分類算法。23聚類之前的預處理——特征篩選在實踐中,聚類中的輸入變量不能太聚類之前的預處理——異常值K-means對數據的噪聲和異常值比較敏感。這些個別數據對于平均值的影響非常大。為此,我們可以:直接刪除那些比其他任何數據點都要遠離聚類中心點的異常值。與此類似地,在聚類之后,有些群體內樣本數量太少、這種群體在實際應用中可以忽略不計。采用隨機抽樣。這樣,作為稀有事件的數據噪聲和異常值能被抽進樣本的概率會很小,這樣樣本就比較干凈。24聚類之前的預處理——異常值K-means對數據的噪聲和異常值聚類之前的預處理——標準化正如之前講到的,如果依據多個變量進行聚類,就需要確保對這些變量都做過標準化。25聚類之前的預處理——標準化正如之前講到的,如果依據多個變量進聚類算法小結K-means算法標準化26聚類算法小結K-means算法26聚類分析27聚類分析1注意我們考核非常松盡可能全部高于80分。28注意我們考核非常松盡可能全部高于80分。2一個簡單的聚類例子這是按照顏色進行一維聚類。實踐中,維度經常多于一個。29一個簡單的聚類例子這是按照顏色進行一維聚類。3基本特點聚類(clustering)是指根據“物以類聚”原理,將本身尚未歸類的樣本根據多個維度(多個屬性)聚集成不同的組,這樣的一組數據對象的集合叫做簇或群組。怎樣聚類算成功呢?經過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應該足夠不相似。30基本特點聚類(clustering)是指根據“物以類聚”原理分類與聚類的區別分類(Classification)有訓練過程。分類是事先定義好類別,類別數不變。分類器需要由人工標注的分類訓練數據集訓練得到,屬于有指導學習范疇。而聚類則是沒有訓練過程。在進行聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類則沒有事先預定的類別,類別數不確定。聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成。31分類與聚類的區別分類(Classification)有訓練過聚類分析的主要應用領域作為獨立的工具來分析數據發現離群點為其他算法做數據預處理32聚類分析的主要應用領域作為獨立的工具來分析數據6聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
33聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
例子:如圖,按照收入和年齡把客戶聚類為兩類34聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案
聚類的其他應用按照血型對學生進行分班確定婚禮客人如何排座位35聚類的其他應用按照血型對學生進行分班9離群點檢測離群點檢測和聚類是高度相關的。聚類是發現數據集中的主要群體,而離群點檢測則試圖識別那些顯著偏離多數實例的異常情況。離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信用卡欺詐檢測。這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數顧客。比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。36離群點檢測離群點檢測和聚類是高度相關的。10聚類算法的分類聚類算法主要包括:劃分方法(PartitioningMethod):包括K均值方法等層次方法(HierarchicalMethod)基于密度的方法(Density-based)基于網格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法最常用。37聚類算法的分類聚類算法主要包括:11K均值算法K-means算法是無可爭議的使用最多的算法。它是劃分方法的一種。它原理簡單,容易實現。它適合使用數值型屬性,而不是類別型屬性。它的一個不足之處是:對于離兩個群組的中心都很近的點,你會不知道該放到哪個群組中。這其實也是其他一些聚類算法的局限性。38K均值算法K-means算法是無可爭議的使用最多的算法。12K均值算法的步驟K均值算法,概括起來有五個步驟:設定一個數K,表明總共有幾個群簇(組);從所有實例中隨機選擇K個實例,分別代表一個群簇的初始中心;對剩余的每個實例,根據其與各個組的初始中心的距離,將它們分配到離自己最近的一個群簇中;然后,更新群簇中心,即:重新計算得出每個群簇的新的中心點;這個過程不斷重復(即:重復第3、4步),直到每個群簇中心不再變化,即直到所有實例在K組分布中都找到離自己最近的群簇。39K均值算法的步驟K均值算法,概括起來有五個步驟:13K均值算法——什么是中心值40K均值算法——什么是中心值14K均值算法的步驟注意看C點,它離上面的群的新的的距離中心比離下面那個群的新的中心更近,所以它被重新劃分到上面那個群了。41K均值算法的步驟注意看C點,它離上面的群的新的的距離中心比離K均值算法的步驟42K均值算法的步驟16K均值算法的應用:圖像壓縮群的個數越少,意味著圖像被轉化成顏色數量很少的圖像了。43K均值算法的應用:圖像壓縮群的個數越少,意味著圖像被轉化成顏K均值算法的應用:圖像壓縮原理和上面人物照片是一致的。44K均值算法的應用:圖像壓縮原理和上面人物照片是一致的。18K均值算法可以用于三個維度前面圖像壓縮的例子是基于一個維度。這里抽象展示了基于三個維度的聚類。45K均值算法可以用于三個維度前面圖像壓縮的例子是基于一個維度。如何在軟件中為K均值算法設定參數在軟件中,通常都要設定群的個數。還可以指定距離的度量方式。例如選擇歐幾里德距離或曼哈頓距離。大多數聚類分析都使用距離度量來衡量兩個實例之間的遠近。46如何在軟件中為K均值算法設定參數在軟件中,通常都要設定群的個如何在軟件中為K均值算法設定參數此外,還可以設定聚類時采用哪些屬性同時,數據標準化是聚類分析中最重要的一個數據預處理步驟。如果之前沒做過標準化,可以現在進行。47如何在軟件中為K均值算法設定參數此外,還可以設定聚類時采用哪如何評價聚類分析的結果?這方面和分類算法有一個顯著不同:分類算法的評判有訓練集、驗證集的客觀參照。而聚類結果的評判缺乏很明確、客觀的、統計學意義上的參照依據。對于聚類,業務專家從實踐角度的評估是最重要的評價層面。如果多數業務專家對于聚類的結果都看不懂,那么這個結果很可能是值得懷疑的。如果聚類的結果比較容易理解、解釋,業務人員會更
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州軟件職業技術學院《數字電子技術基礎A》2023-2024學年第二學期期末試卷
- 平頂山工業職業技術學院《普通話與教師語言規范》2023-2024學年第二學期期末試卷
- 杭州職業技術學院《民用建筑工程調研實訓》2023-2024學年第二學期期末試卷
- 煙臺城市科技職業學院《太極養生俱樂部》2023-2024學年第二學期期末試卷
- 石家莊鐵道大學《電路與電子基礎》2023-2024學年第二學期期末試卷
- 上海電機學院《數學教學與實踐》2023-2024學年第二學期期末試卷
- 上海第二工業大學《數據挖掘技能訓練》2023-2024學年第二學期期末試卷
- 遼寧商貿職業學院《地球科學概論》2023-2024學年第二學期期末試卷
- 廣東云浮中醫藥職業學院《系統節能》2023-2024學年第二學期期末試卷
- 廣州現代信息工程職業技術學院《早期接觸臨床》2023-2024學年第二學期期末試卷
- 2023年《移動式壓力容器充裝質量管理手冊》
- 向政府寫訴求書范文(精選12篇)
- 電視節目策劃學胡智峰
- 認識自我 悅納自我 課件- 高中生心理健康主題班會
- 科技成果-秸稈清潔制漿及其廢液肥料資源化利用技術
- 《社區治理研究國內外文獻綜述(1900字)》
- 煙花爆竹事故應急處置
- 《馬克思主義與社會科學方法論》課件第四講 社會矛盾研究方法
- 會寶嶺選礦廠集中控制技術方案
- 生產車間如何節能減耗(課堂PPT)
- 2021譯林版高中英語選擇性必修四單詞表
評論
0/150
提交評論