數據挖掘實驗五k-均值聚類算法_第1頁
數據挖掘實驗五k-均值聚類算法_第2頁
數據挖掘實驗五k-均值聚類算法_第3頁
數據挖掘實驗五k-均值聚類算法_第4頁
數據挖掘實驗五k-均值聚類算法_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實驗五、 k-均值聚類算法 學院 計算機科學與軟件學院 實驗目的:1. 熟悉 VC+編程工具和 k-均值聚類算法。2. 在訓練樣本集上用 VC+編程工具編寫用于 k-均值聚類的程序,對任務 相關數據運行 k-均值聚類算法,調試實驗。3. 掌握距離計算方法和聚類的評價準則。4. 寫出實驗報告。 實驗原理:1. k-均值聚類k-均值聚類是一種基于形心的劃分技術,具體迭代的計算步驟如下:1 在屬性向量空間隨機產生 k 個形心坐標。2 分別計算數據集 D 中的每個數據對象 T i (1 i n 到所有 k 個形心的距 離度量 Dist(i , j (1 i n, 1 j k ,并將數據對象 T i 聚

2、到最小距離度量的那 一簇中。3 按照形心的定義計算每一簇的形心坐標,形成下一代的 k 個形心坐標。4 如果不滿足終結條件,轉到 2 繼續迭代;否則結束。1. 終止條件終止條件可以是以下任何一個:1沒有(或最小數目對象被重新分配給不同的聚類。2沒有(或最小數目聚類中心再發生變化。3誤差平方和局部最小。 實驗內容1、主要代碼及解釋(1/將數據進行簇歸類void new_cluster(int i, j;double min;for(i = 0; i < k; i+ /初始化編號td.cluster_numi = 0;for(i = 0; i < size; i+int index =

3、0; /找出最小的歐幾里德距離編號min = datai.distance0;for(j = 1; j < k; j+ / 篩選到簇心歐幾里德最小的值if(datai.distancej < minmin = datai.distancej;index = j;/劃分簇集td.clusterindextd.cluster_numindex+ = i;實現過程:初始化各個簇類內的數據編號找出每組數據到 k 個質心的距離中的最小值找出最小距離后,便將其分到第 j(1K個簇中,并對其編號 跳至 2,直到所有數據組都實現(2/更新質心void new_center(int i, j, m;double sum;for(i = 0; i < k; i+for(j = 0; j < n; j+sum = 0;td.old_centeri.dj = td.centeri.dj;for(m = 0; m < td.cluster_numi; m+/ 第 i 個簇的第 j 維數的所有數據和sum += datatd.clusterim.dj;/ 取平均數得到新的簇中心td.centeri.dj = sum / td.c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論