（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdfVIP

上傳人：灰*** IP屬地：寧夏上傳時間：2020-01-09 格式：PDF 頁數：64 大小：3.30MB 積分：5.99 舉報 版權申訴

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdf_第1頁

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdf_第2頁

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdf_第3頁

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdf_第4頁

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdf_第5頁

已閱讀5頁，還剩59頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究摘要聚類分析作為數據挖掘的一個重要任務具有廣泛的應用領域這些不同的應用都對聚類分析算法提出了新的要求本文提出了基于網格的并行聚類分析算法p g m c l u 該算法的創新點主要包括定義了網格緊湊度網格密度連通網格特征值簇密度以及簇相似度的概念提出了基于網格單元劃分的數據分區方法基于網格密度連通概念的局部聚類方法以及基于簇相似度度量的局部聚類合并方法實現了對網格密度閾值參數m i n p t s 的自適應設置該算法可以較好地處理高維和海量數據集并具有識別不同形狀和密度簇的能力數據流是指潛在無限的持續而快速到達的具有時間順序的數據對象的集合數據流的實時性和潛在無限性決定了數據流聚類分析算法與傳統的基于靜態數據的聚類分析算法相比具有一些新的特性本文提出了基于網格的數據流聚類分析算法g c s t r e a m 該算法的創新點主要包括提出了描述網格單元概要信息的特征向量結構對s p t r e e 做了改進提出了基于l i s t 結構的l s p t r e e 空間索引結構提出了對網格單元信息的指數衰減策略以及對噪聲網格單元和過時網格單元的剪枝策略該算法較好地滿足了數據流聚類分析的實時性要求并對內存空間具有動態的適應性詳細而全面的實驗證明了p g m c l u 和g c s t r e a m 算法的正確性和有效性因此這些研究成果具有重要的理論價值和實際意義關鍵詞網格并行聚類分析多密度簇數據流聚類 l s p t r e e 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 a b s t r a c t c l u s t e r i n ga n a l y s i s a sa ni m p o r t a n tt a s ko fd a t am i m n g h a sw i d ea p p l i c a t i o n f i e l d s t h e s ed i f f e r e n ta p p l i c a t i o n sr a i s es o m en o v e lr e q u i r e m e n t sf o rc l u s t e r i n g a n a l y s i sa l g o r i t h m t h i st h e s i s p r o p o s e s an o v e lg r i d b a s e dp a r a l l e l c l u s t e r i n ga l g o r i t h m f o r m u l t i d e n s i t yd a t a s e t s c a l l e dp g m c l u t h ei n n o v a t i v ew o r k so fi ta r ea sf o l l o w s d e f i n et h ec o n c e p t s i n c l u d i n gg r dc o m p a c t n e s s g r i dd e n s i t y c o n n e c t e d g r i df e a t u r e c l u s t e rd e n s i t ya n dc l u s t e rs i m i l a r i t y p r o p o s et h em e t h o df o rd a t ap a r t i t i o nb a s e do n g r dp a r t i t i o n t h em e t h o df o rl o c a lc l u s t e r i n gb a s e do ng r i dd e n s i t y c o n n e c t e dc o n c e p t a n dt h em e t h o df o rm e r g i n gl o c a lc l u s t e r sb a s e do nc l u s t e rs i m i l a r i t ym e a s u r e r e a l i z e t h ea d a p t i v es e tf o rp a r a m e t e rm i n p t s p g m c l ua l g o r i t h mc a nb e t t e rh a n d l e h i g h d i m e n s i o n a la n dm a s s i v ed a t a s e t s a n dc a nb ec a p a b l eo fi d e n t i f y i n gc l u s t e r s w i t hd i s t i n g u i s h e ds h a p ea n dd e n s i t y d a t as t r e a mi sas e q u e n c ec o m p o s e do fas e r i e so fi n f i n i t e s u c c e s s i v e h i g h s p e e d a n dt i m e o r d e r e dd a t ao b j e c t s d a t as t r e a mh a st h ec h a r a c t e r i s t i c so f r e a l t i m ea n di n f i n i t y w h i c hd e t e r m i n e st h a tc l u s t e r i n ga l g o r i t h mf o rd a t as t r e a m c o m p a r e d w i t ht r a d i t i o n a l c l u s t e r i n ga l g o r i t h m f o rs t a t i cd a t a s e th a ss o m e d i s t i n g u i s h e dp r o p e r t i e s t h i st h e s i sp r o p o s e st h eg r i d b a s e dc l u s t e r i n ga l g o r i t h mf o rd a t as t r e a m s h o r t e n f o rg c s t r e a m t h ei n n o v a t i v ew o r k so fi ta r ea sf o l l o w s p r o p o s et h ec o n c e p to fg r i d f e a t u r ev e c t o rf o rd e s c r i b i n gt h eg r i ds u m m a r yi n f o r m a t i o n i m p r o v et h es p t r e e s t r u c t u r e a n dp r o p o s et h en o v e ls p a t i a li n d e xs t r u c t u r el s p t r e eb a s e do nl i s td a t a s t r u c t u r e p r o p o s et h ee x p o n e n t i a ld a m p e ds t r a t e g yf o rg r i di n f o r m a t i o n a n dt h e p r u n i n gs t r a t e g yf o rn o i s yg r i da n do u t d a t e dg r i d g c s t r e a ma l g o r i t h mc o nb e t t e r s a t i s f yt h er e a l t i m er e q u i r e m e n to fd a t as t r e a mc l u s t e r i n g a n dc a nb ea d a p t i v ef o r m e m o r ys i z e d e t a i l e da n dc o m p l e t e e x p e r i m e n t s h a v e p r o v e d t h ec o r r e c t n e s sa n d e f f e c t i v e n e s so fp g m c l ua n dg c s t r e a ma l g o r i t h m t h e r e f o r e t h e s en o v e l a l g o r i t h m sw i l lh a v es i g n i f i c a n tt h e o r e t i cv a l u ea n dp r a c t i c a lr o l e k e y w o r d s g r i d p a r a l l e l i s m c l u s t e r i n ga n a l y s i s m u l t i d e n s i t yc l u s t e r c l u s t e r i n g 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 a n a l y s i sf o rd a t as t r e a m s p a t i a lp a r t i t i o nt r e eb a s e do nl i s td a t as t r u c t u r e 原創性聲明本人鄭重聲明本人所呈交的學位論文是在導師的指導下獨立進行研究所取得的成果學位論文中凡引用他人已經發表或未發表的成果數據觀點等均已明確注明出處除文中已經注明引用的內容外不包含任何其他個人或集體已經發表或撰寫過的科研成果對本文的研究成果做出重要貢獻的個人和集體均己在文中以明確方式標明本聲明的法律責任由本人承擔論文作者簽名犟顯豸塾日期關于學位論文使用授權的聲明本人在導師指導下所完成的論文及相關的職務作品知識產權歸屬蘭州大學本人完全了解蘭州大學有關保存使用學位論文的規定同意學校保存或向國家有關部門或機構送交論文的紙質版和電子版允許論文被查閱和借閱本人授權蘭州大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索可以采用任何復制手段保存和匯編本學位論文本人離校后發表使用學位論文或與該論文直接相關的學術論文或成果時第一署名單位仍然為蘭州大學保密論文在解密后應遵守此規定論文作者簽名甾熟導師簽名圜日期型蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 1 1 研究背景及意義第一章緒論數據挖掘 d a t am i m n g 是指發現數據中蘊含的潛在有用的知識的過程知識包括規則模式及結構等數據挖掘涉及到多個學科包括數據庫和數據倉庫統計學信息檢索人工智能神經網絡模糊集粗糙集信號處理高性能計算等數據挖掘理論的應用領域廣泛包括圖像處理生物信息學氣象信息分析社會網絡分析圖挖掘入侵檢測數據流挖掘時問序列預測等基本的數據挖掘技術包括頻繁模式挖掘分類和預測以及聚類分析聚類分析 c l u s t e r i n ga n a l y s i s 是一項基本的數據挖掘任務聚類分析是將數據對象集合根據對象之間的相似度度量劃分為簇 c l u s t e r 的過程聚類分析的基本方法包括基于劃分的方法 p a r t i t i o n b a s e dm e t h o d s 基于層次的方法 h i e r a r c h y b a s e dm e t h o d s 基于密度的方法 d e n s i t y b a s e dm e t h o d s 基于網格的方法鰣d b a s e dm e t h o d s 和基于模型的方法 m o d e l b a s e dm e t h o d s 基于劃分的方法包括k m e a n s 1 p a m 2 c l a r a 2 和c l a r a n s 3 等基于層次的方法包括b i r c h 4 r o c k 5 c u r e 6 c h a m e l e o n 7 等基于密度的方法包括d b s c a n 8 o p t i c s 9 d e n c l u e 1 0 等基于網格的方法包括 c l i q u e 1 1 s t i n g 1 2 w a v e c l u s t e r 1 3 d c l u s t 1 4 p r o c l u s 1 5 等基于模型的方法包括s o m 1 6 和c o b w e b 1 7 等除了這些基本的聚類分析方法之外目前聚類分析的熱點研究領域包括基于約束的聚類數據流聚類子空間聚類增量聚類基于遺傳算法的聚類基于蟻群算法的聚類等基于網格的聚類分析算法是聚類分析中一種非常重要的方法在聚類高維和海量數據集時具有明顯的優勢基于網格的聚類算法將數據空間量化為有窮數目的網格單元然后將數據對象投影到這些網格單元中并保存網格單元的摘要信息 s u m m a r i z a t i o ni n f o r m a t i o n 所有的聚類操作都在這些網格單元上面進行不同的基于網格的聚類分析算法在如下方面存在差異包括網格劃分策略常見的包括靜態劃分和動態劃分兩種網格摘要信息結構網格單元集合索引結構噪聲數據的處理和簇的識別機制等目前最新的基于網格的聚類分析算法包括 l 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 g r i d b s c a n 18 1 g m d b s c a n 19 e d a c l u s t e r 2 0 g r i d b s c a n 21 g n n 2 2 s c i 2 3 m m n g 2 4 g d i l c 2 5 i g d c a 2 6 算法等這些算法中的部分算法將在2 3 節中詳細分析基本的基于網格的聚類分析算法的聚類過程的時間復雜度主要依賴于數據空間中包含的網格單元的數目具有近似線性的時間復雜度此外其還能夠較好地處理高維和海量數據集在增量聚類和子空間聚類等方面也體現出優勢因此它在聚類分析中得到了廣泛的研究和應用集群系統 2 7 2 8 1 1 2 9 p c sc l u s t e rs y s t e m 在近年來得到廣泛的應用集群系統是將一組高性能的計算機通過特定的網絡結構聯接起來在操作系統和并行環境的支撐下實現對系統資源的統一管理和協調調度它通過消息傳遞的機制為程序設計人員提供了一個整體的并行編程環境基于m p i m e s s a g ep a s s i n g i n t e r f a c e 的并行編程技術提高了集群系統環境下并行程序開發的效率由于集群系統具有高性能 h i i g hp e r f o r m a n c e 可擴展性 s c a l a b i l i t y 高可用性 a v a i l a b i l i t y 透明性 t r a n s p a r e n c y 可編程性 p r o g r a m m a b i l i t y 等典型特征因此集群系統在大規模數據處理圖像處理工程計算等領域得到越來越廣泛的應用數據的海量性和高維性都給聚類分析算法帶來了挑戰而集群系統的這些特征給研究集群系統下的并行的聚類分析算法帶來了機遇此外實際的數據集中經常包含密度不同的簇傳統的基于密度的聚類分析算法如d b s c a n 往往不能得到準確的聚類結果而針對多密度數據集的聚類分析算法如s n n 3 0 3 1 又存在算法時間復雜度高以及聚類結果精度差主要體現在對噪聲數據的處理方面等問題因此研究適合于多密度數據集的聚類分析算法也是一個熱門的研究方向數據流是指連續且具有時間順序的數據構成的集合數據流是伴隨著人們對實時數據的處理而產生的如電信通話數據銀行交易數據證券交易數據網絡流量監測數據網絡操作日志數據氣象監測數據傳感器數據等 3 2 3 3 3 4 3 5 數據流具有連續性按時間順序的潛在無限的快速變化的等特性這些特性給數據流聚類分析算法帶來了挑戰與傳統的基于靜態數據的聚類分析算法相比數據流聚類分析算法具有三個明顯的特性 1 它強調時間性數據流聚類分析算法必須能夠發現數據流的演變規律或任意時問段內的數據流聚類結果 2 單遍掃描由于受到內存空i 日j 的限制和數據流聚類分析算法實 2 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究時性的要求數據流聚類分析算法必須實現對數據對象的單遍掃描 3 強調對摘要數據結構 s u m m a r yd a t as t r u c t u r e 的設計數據流聚類分析算法必須將數據對象的信息以摘要數據結構的形式保存起來以方便聚類算法對摘要結構的分析目前典型的數據流聚類分析算法包括s t r e a m 3 6 c l u s t r e a m 3 7 h p s t r e a m 3 8 a i n s t r e a m 3 9 c e l lt r e e s 4 0 等針對數據流聚類分析算法的這些新的特性數據流聚類分析算法已經變成數據挖掘中的一個研究熱點 1 2 研究內容本文針對當前聚類分析算法存在的問題結合最新的研究成果主要開展了對基于網格的并行的聚類分析算法和基于網格的數據流聚類分析算法的研究具體的研究內容包括 1 維災難 d i m e n s i o nc u r s e 問題已經成為聚類分析算法處理高維數據集時的一個主要問題同時許多聚類分析算法如d b s c a n s n n 等在處理海量數據集時也面臨高的時問復雜度如o n 2 其中是數據對象的數目的困擾此外針對多密度數據集的聚類分析算法存在時間復雜度高及聚類結果精確度不高主要表現在對噪聲數據的處理方面等問題本文針對這些問題提出了基于網格的并行的聚類分析算法 g r i d b a s e dp a r a l l e lc l u s t e r i n ga n a l y s i s a l g o r i t h mf o rm u l t i d e n s i t yd a t a s e t s 簡稱p g m c l u p g m c l u 算法基于數據并行 d a t ap a r a l l e l i s m 的思想這是一種典型的分而治之的方法通過各個節點對數據的獨立聚類和最終聚類結果的合并實現了對整個數據集的聚類 p g m c l u 算法提出了網格緊湊度網格密度直接可達網格密度可達網格密度連通等概念其中網格緊湊度 g r i dc o m p a c t n e s s 度量較好地反映了網格中數據點之間的緊密程度提出了新的網格劃分方法以及基于參考維的數據分區策略實現了根據數據的分布特征自動確定m i n p t s 參數的值為了更好地適應分而治之的策略提出了利用網格特征向量來描述網格的摘要信息結構并建立了 s p t r e e 提高鄰居網格的查找效率提出了基于網格密度連通概念的聚類方法以及識別邊界網格中邊界數據點的方法提出了簇密度和簇相似性的概念并且基于它們提出了簇合并算法最后對該算法進行了性能分析和實驗驗證 2 針對如何設計有效的能夠對連續的數據流進行快速處理并能發現數蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究據流的演變規律的要求本文提出了基于網格的數據流聚類分析算法 g r i d b a s e d c l u s t e r i n ga n a l y s i sa l g o r i t h mf o rd a t as t r e a m 簡稱g c s t r e a m g c s t r e a m 算法采用了衰減窗h 模型 d a m p e dw i n d o wm o d e l 來發現數據流的演變規律 g c s t r e a m 算法提出了新的聚類模型l s p t r e e 提出了聚類模型維護策略以及聚類模型的剪枝策略較好地實現了模型對數據對象的快速處理以及適應了數據流聚類分析算法對內存空間的限制要求最后通過實驗驗證和評價了算法的正確性和性能 1 3 論文組織結構本文圍繞著基于網格的聚類分析算法的研究與實現從并行化基于網格的聚類分析算法和設計基于網格的數據流聚類分析算法兩個方面開展了研究工作論文內容按照以下結構組織第一章緒論主要介紹了課題研究的背景意義內容及論文組織結構引出了論文的主要研究內容為基于網格的并行的聚類分析算法以及基于網格的數據流聚類分析算法第二章基于網格的聚類分析算法概述首先介紹了聚類分析的概念及過程對聚類分析過程的每個步驟中涉及到的關鍵技術進行了詳細的闡釋其次分析了不同的應用對聚類分析算法提出的特定要求并給出了聚類分析算法面臨的挑戰最后闡釋了基于網格的聚類分析算法的基本原理及特點并詳細分析了四種典型的基于網格的聚類分析算法的原理及特性包括c l i q u e g r i d b s c a n g m d b s c a n 和g n n 算法第三章并行的基于網格的聚類分析算法 p g m c l u 首先描述了p g m c l u 算法的總體框架對算法中涉及到的幾個重要的過程進行了闡釋其次介紹了算法中涉及到的基本概念然后詳細描述了算法的實現過程包括數據分區構建s p t r e e 局部聚類和局部聚類合并這四個關鍵的步驟對步驟中涉及到的關鍵技術進行了具體闡釋接下來從時i 日j 復雜度和加速比方面分析了算法的性能最后從聚類準確性相對加速比以及效率三個方面對算法進行了實驗驗證和性能評價第四章基于網格的數據流聚類分析算法g c s t r e a m 首先介紹了數據流 4 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究的概念以及數據流聚類分析的特性窗口模型及典型算法其次描述了算法的總體框架然后從聚類模型模型維護更新和剪枝策略方面對算法進行了詳細的描述最后分析算法性能并給出實驗驗證和性能評價第五章總結與展望總結本文的研究工作并展望未來的研究方向蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究第二章基于網格的聚類分析算法概述 2 1 聚類分析概念及過程聚類分析 c l u s t e r i n ga n a l y s i s 是數據挖掘 d a t am i n i n g 技術的重要一種相對于分類算法而言聚類分析算法事先不知道類的標號因此其也被稱為無監督的學習 u n s u p e r v i s e dl e a r n i n g 聚類分析指的是將對象集合根據對象之間的相似度度量劃分為不同的簇 c l u s t e r 的過程對象之間的相似度通常通過計算它們之問的距離來度量距離的計算方式因聚類分析處理的數據類型的不同而異聚類分析源于統計學數據挖掘生物學以及機器學習等多個領域目前聚類分析已被廣泛地應用于信息檢索圖像處理模式識別 w e b 信息處理市場調研地理學醫學生物信息學空間數據分析等多個方面一個有實際價值的聚類分析算法通常包括5 個關鍵的處理步驟數據預處理相似度定義聚類聚類結果輸出聚類結果解釋 2 1 1 數據預處理數據預處理主要包括數據清理數據變換和數據規約功能數據清理包括補充缺失值光滑數據剔除噪聲數據等數據變換將數據轉換成適合于聚類分析的形式數據變換通常包括光滑聚集數據泛化規范化和屬性構造數據規約是在保持原數據集的完整性的同時得到數據集的規約表示聚類分析中經常用到的規約方法是屬性子集選擇或特征子集選擇尤其是聚類分析算法在處理高維數據集時屬性子集選擇方法通常需要從給定的屬性集中選取與聚類分析最相關的屬性子集這是由于隨著維度的增加數據的分布日趨稀疏而只有少數的維會影響最終簇的形成但是其它不相關的維的數據可能會以噪聲數據的形式影響真實的簇數據預處理不必是聚類分析過程的必需步驟但是數據預處理有助于提高聚類分析的結果質量 6 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 2 1 2 定義相似度度量相似度定義過程主要是定義數據對象之間的相似度度量指標常見的度量數據對象之間相似度的方法是計算數據對象之間的距離距離越短數據對象越相似目前出現了一些新的度量對象之間相似度的指標具體介紹如下 1 隨著圖在復雜結構建模中的廣泛應用圖挖掘已經變為數據挖掘中一個重要和活躍的課題其包括頻繁子圖挖掘頻繁結構模式圖分類圖聚類等在基于圖的聚類中結點是對象結點之間的邊表示對象之間的聯系簇被定義為連通分支 c o n n e c t e dc o m p o n e n t 即簇中的對象互相連通而不同簇中的對象之間不連通 2 在基于網格的聚類算法中鰣d b a s e dc l u s t e r i n g 我們將數據空間量化為有窮數目的網格所有的聚類分析操作都在網格集合上進行網格信息中通常保存了網格的密度值即網格中包含的數據點的數目網格c 和網格c 是相似的記作s i m i l a r c i c 則它們滿足式2 1 所示的條件型絲墮嬲卿d q n e i g h b o u f s e 2 n e l 2 h o o u r s 1 l 一夠 a n qcj l m a x c f d e n s i t y c d e n s i t y 一7 3 在s n n s h a r e dn e a r e s tn e i g h b o r s 算法中針對基于密度的聚類分析算法對不同密度簇的識別能力差的問題提出了s n n 相似度度量該度量首先計算每個數據對象的k 個最近鄰居然后將對象之間的相似度定義為共享近鄰數目對于數據點和工它們之間相似度s f 施腸h 鈔薯 x j 的計算公式如式2 2 所示如果誓和x 相互在對方的k 近鄰中貝 1 s i m i l a r i t y x i x 之間的相似度被定義為它們共享近鄰的數目否則相似度被定義為0 s n n 相似度較好考慮了對象周圍區域數據的分布情況提高了聚類分析算法對不同密度簇的識別能力共享最近鄰聚類算法為了計算每個數據對象的k 個最近鄰居其必須計算任意兩個數據對象的距離因此在一般情況下該聚類算法的時間復雜度是o n 2 在特殊情況下例如在處理低維數據時如果使用索引技術如基于區域劃分的r 樹可以將查找k 最近鄰的時間復雜度降低到o n l o g 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 t f x k n e a r e s t n e i g h b o r x j a n dx j k n e a r e s t n e i g h b o r x i t h e ns i m i l a r i t y x i x f k n e a r e s t n e i g h b o r x j nk n e a r e s t n e i g h b o r x i 2 2 e l s es i m i l a r i g y x i x 0 通常情況下數據對象之間的相似度可以通過相似度矩陣 s i m i l a r i t ym a t r i x 給出如式2 3 所示該結構是一個 x t 矩陣矗表示對象i 和對象之間的相似度 d r o 對象f 和對象 j 越相似以的取值越大 2 1 3 聚類 0 吐 d 2 10 d 2 以以 0 2 3 在數據預處理和定義相似度度量之后就可以進入聚類處理階段典型的聚類分析算法可以劃分為三種常見類型 1 以目標函數最優化為原則將數據對象進行分組如基于劃分的方法和基于模型的方法大部分都以優化目標函數為準則將數據對象劃分到不同的簇中 2 根據簇的特性將對象分組如在基于密度的簇中簇被定義為最大的密度相連 d e n s i t y c o n n e c t e d 對象的集合在基于網格的聚類分析算法中簇被定義為最大的密度連通網格形成的集合在s n n 算法中基于對象的k 最近鄰計算如果對象置和z 相互在對方的k 最近鄰中并且共享近鄰數目大于閾值力則將它們劃分在同一個簇中 3 依據簇之間的相似性將對象分組如在凝聚層次聚類算法中初始時將每個數據對象都視為一個子簇然后根據簇之間的相似度合并這些子簇直到用戶指定的條件滿足例如簇的數目達到了用戶規定的簇數目 2 1 4 聚類結果輸出聚類結果輸出是將代表最終簇的對象以某種方式輸出常見的輸出方式包括輸出簇中包含的數據點對象輸出能夠反映簇特征的代表性數據點以簇特征的 8 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究形式輸出簇結果如式2 4 所示利用x 和的取值范圍來描述簇e 輸出簇中包含的網格集合如式2 5 所示簇e 由網格q o l 2 露構成輸出簇的中心點如在處理城市規劃的選址問題時通常將該問題抽象為一個基于約束的聚類問題來解決此種聚類問題最終的輸出結果是簇的中心點這代表了最佳的選擇地點 c 薯 x x j y y 以 2 4 e g 1 g 2 g g 2 5 2 1 5 聚類結果解釋在獲得聚類分析形成的簇結果后對聚類結果的解釋也是聚類分析的一個重要步驟通過對結果的解釋可以發現實際問題中隱藏的潛在有用的模式例如對超市購物人群的特征進行聚類分析可以將顧客分為若干個目標顧客群通過對各個群體的特征進行分析可以為他們制定適當的營銷策略針對高維數據集的處理部分聚類分析算法采用了屬性子集選擇和維度規約方法這些方法一方面降低了數據集的維數為聚類分析算法得到高質量的聚類結果提供了保證另一方面也給聚類結果的解釋帶來了挑戰針對海量數據集的處理某些聚類分析算法利用統計學中的抽樣 s a m p l i n g 技術選取了數據集中的部分樣本數據這樣極大地減少了要處理的數據集的規模此種方法在提高算法效率的同時也為結果的解釋帶來了困難當數據集的維數較高時 d 3 聚類結果的可視化顯示也是一個問題目前常見的可視化顯示技術是空間變換技術該技術利用降維的方法將高維空問中的數據變換到低維空間中顯示但要達到無損變換也是一個難點 2 2 聚類分析算法的要求及挑戰隨著聚類分析算法理論的廣泛研究其應用領域也越來越廣泛各種應用都對聚類分析算法提出了特定的要求本節將從聚類分析算法處理的數據所擁有的數據特性簇特性以及聚類本身的限制條件三個方面束討論聚類分析算法所面臨的一些要求從數據特性的角度分析聚類分析算法的要求包括處理不同類型的 9 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究數據剔除噪聲支持對高維數據集的聚類從簇特性的角度來看聚類分析算法的要求主要是能夠處理任意形狀的簇從聚類分析算法本身的限制條件來看聚類分析算法的要求包括輸入參數少可伸縮性增量聚類支持基于約束的聚類 1 能夠處理不同類型的數據聚類分析算法必須具有處理不同數據類型的能力許多聚類分析算法只能夠處理數值類型的數據一個好的聚類分析算法應該能夠處理多種類型的數據如分類變量二元變量序數變量以及比例標度的變量等 2 剔除噪聲許多數據集中常常包含噪聲數據如果不能合理地處理這些噪聲數據將會嚴重影響聚類算法的效率及聚類結果質量如基于劃分的 k m e a n s 算法 1 對噪聲或孤立點數據就比較敏感它們將減緩簇均值的收斂速度增加了算法的時間復雜度而對于基于密度的d b s c a n 8 算法其需要兩個輸入參數占和m i n p t s s 表示鄰域半徑 m i n p t s 表示s 半徑內包含的最小數據點數目在聚類的過程中為了確定核心對象 c o r eo b j e c t 其需要計算每個對象的s 鄰域內包含的數據點的數目t o t a lp t s 如果t o t a lp t s 小于m i n p t s 則將該對象視為噪聲數據點進行處理形式化的描述如式2 6 所示在基于網格的聚類分析算法c l i q u e 1 1 q b 需要計算網格中包含的數據點的數目c o u n t s 如果c o u n t s 的值小于輸入參數m i n p t s m i n p t s 表示網格中包含的數據點的最少數目則將該網格定義為稀疏網格這樣也很好地剔除了噪聲的影響形式化的描述如式2 7 所示其中c i 表示尹網格 l j j l 2 d 表示網格c f 在琺維的索引 t 表示k 曲個數據點幻勉一p t s x j 2l 誓i 蕾占一r a d i u s i 2 6 i ft o t a l p t s x j m i n p t s t h e n x j i sn o i s e o ro u t l i e r s u p p o s ec 厶厶 c o u n t s c i l 吒i x k i x k 2 厶 l i 2 7 i fc o u n t s c i m i n p t s t h e nci ss p a r s e 鰣d 3 支持對高維數據集的聚類在高維數據集中通過傳統的歐幾旱得距離來度量對象之間的相似度變得不再可行這是因為隨著數據集維度的迅速增長數據點的分布越來越稀疏對象之i 習j 的歐幾里得距離趨于一致面對這種困難可以采取兩種方法來解決這些問題一種方法是采用屬性子集選擇或維規約蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究技術降低數據集的維度另一種方法是定義新的相似度度量指標如s n n 算法中的共享k 最近鄰等 4 能夠處理任意形狀的簇簇的形狀可以是球形的矩形的橢圓形的甚至是任意形狀的一個好的聚類分析算法應該能夠處理任意形狀的簇基于劃分的k m e a n s 算法和基于層次的b i r c h 算法都只能處理球形的簇真正能夠處理任意形狀簇的算法是基于密度的d b s c a n 算法該算法不再考慮使某個目標函數達到最優值而是將簇定義為由密度連通數據點構成的最大集合簇的形成是基于數據點之間的密度可達性來定義的由于較好地考慮了數據點之間的關系因此 d b s c a n 可以發現數據集中包含的最自然的簇其它的能夠處理任意形狀的簇的算法包括c h a m e l e o n 和c u r e 5 輸入參數少聚類分析算法通常要求用戶輸入聚類參數如k m e a n s 算法需要用戶輸入期望的簇的個數k d b s c a n 算法需要輸入占和m i n p t s s 表示鄰域半徑 m i n p t s 表示g 半徑內包含的最少數據點數目 c l i q u e 算法需要輸入網格的間隔長度以及網格中包含的最少數據點的個數m i n p t s 這些參數的確定對用戶來說是困難的此外聚類分析算法易受參數影響參數的差異將影響聚類效率及聚類結果質量例如對于d b s c a n 算法而言當數據集中包含的簇的密度不同時使用全局的閾值參數占和m i n p t s 在低密度區域對象的占鄰域內包含的數據點將可能小于m i n p t s 此時 d b s c a n 算法將會將這些數據點誤判為噪聲從而不能得到理想的聚類結果因此為了將參數對聚類算法的影響程度降到最低理想的方法應該是根據數據的分布特征自適應地設置關鍵參數 6 可伸縮性聚類分析經常要處理大型的數據集而許多聚類分析算法僅僅適合處理中小規模的數據集如對d b s c a n 算法而言為了確定對象x i 的占鄰域內包含的數據點數目必須首先計算出對象x i 到任意數據對象 x 歹 l 2 刀之i 日j 的距離因此 d b s c a n 算法的時間復雜度和空間復雜度都為o n 2 特殊地當建立了基于區域查詢的r 樹索引時其時間復雜度將降低到o nl o g 而對基于網格的聚類算法而言其將數據空間量化為有窮數目的網格所有的聚類分析操作都在網格上進行將數據對象指派到指定的網格并計算網格的密度所需的時間復雜度是o m m 是數據集中數據點的數目如果為鄰居網格的查找建立了空間索引結構如s p t r e e 樹則算法總的復雜度是蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究 o m l o g 在聚類分析算法處理大型數據集時算法時間復雜度為o 1 0 9 是合適的而o n 2 的時間復雜度就顯的不合實際解決聚類分析算法可伸縮性的重要方法包括數據抽樣和劃分等但是這些方法可能對最終聚類結果的精確性產生一定的影響在保證聚類結果質量的前提下可以考慮設計并行的聚類分析算法這將是提高聚類分析算法可伸縮性的一個重要途徑 7 增量聚類 i n c r e m e n t a lc l u s t e r i n g 增量聚類是指當有新的數據點到達時聚類分析方法能夠即時更新已有的聚類結構而無需重新運行聚類分析算法對于數據流聚類分析算法而言增量聚類這一特性顯的異常重要數據流聚類分析算法必須對潛在無限的數據做出即時的處理基于網格的聚類分析算法很好地支持了增量聚類的功能當有新的數據點薯到來時只需確定五所屬的網格單元并更新網格單元的密度c o u n t s c o u n t s 1 即可這樣實現了對新的數據點的快速處理針對經常有新的數據生成的數據集而言在實際應用中大部分數據集都是這種情況如電信數據網絡流量數據銀行交易數據等支持增量聚類功能的聚類分析算法是必需的因此研究增量聚類算法也是聚類分析的重要研究課題 8 基于約束的聚類在實際應用中可能需要處理基于約束的聚類分析根據約束條件約束的對象不同可以將約束條件大體上分為三類包括特征級或屬性級約束數據對象級約束和簇級約束特征級約束是對數據集中的屬性施加的約束條件如顧客信息構成的數據集中規定顧客的年齡范圍或收入范圍等數據對象級約束是指對數據對象本身或數據對象之間的關系施加的約束數據對象之間的約束常見的有兩種包括m u s t l i n k 關系和c a n n o t l i n k 關系這些約束關系可能來自于用戶對最終簇的期望也可能是通過一些背景知識轉換而來的簇級約束是對最終簇的特性施加的約束條件如規定每個簇中包含的數據對象的數目等針對約束條件的類型不同對約束條件的處理方式也不相同例如在基于障礙物的聚類分析中當采用基于網格的方法處理此類問題時針對數據對象級的約束基于網格的方法經常是將障礙物這種實際的數據對象首先抽象為抽象的空問對象如點線面等然后將障礙物形成的網格視為稀疏的網格從而達到處理障礙物的f 1 的當采用基于密度的方法時而對于數據對象之i 日j 的關系施加的約束條件可以在根據密度可達概念形成簇的過程中考慮到約束條件蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究從而達到處理數據對象之間約束條件的目的如何在考慮約束條件的情況下得到高質量的聚類結果也是聚類分析算法面臨的挑戰上面具體分析了實際的應用領域對聚類分析算法提出的一些特定要求而這些要求也就為聚類分析算法的設計提出了新的挑戰聚類分析算法面臨的挑戰包括可伸縮性包括數據規模的可伸縮性和數據維度的可伸縮性對多種數據類型的聚類確定聚類輸入參數對多密度數據集的聚類發現任意形狀的簇增量聚類基于約束的聚類等目前聚類分析的研究領域日益廣泛如數據流聚類分析文本聚類分析多媒體數據的聚類分析生物數據的聚類分析時序數據的聚類分析對圖的聚類分析等這些研究領域給聚類分析技術提出了更多的挑戰如相似度的度量距離的計算在線聚類數據的單次掃描數據對象索引結構數據對象的存儲結果的解釋等 2 3 基于網格的聚類分析算法基于網格的聚類分析算法 g r i d b a s e dc l u s t e r i n ga n a l y s i sa l g o r i t h m 的基本思想是對數據集的每一個維進行劃分這樣便可將數據空間量化為有窮數目的互不重疊的網格所有的聚類分析操作都在這些網格上進行基于網格的聚類算法的優點是聚類分析算法的時間復雜度獨立于數據對象的數目只與網格的數目有關極大地提高了聚類效率另外由于使用摘要數據結構來描述網格單元信息因此其也適合增量聚類基于網格的聚類分析算法的缺點是粗略地將稀疏網格 e c o u n t s r 中的數據點處理為噪聲降低了聚類結果的精確度此外基于網格的聚類分析算法的聚類結果過分地依賴于輸入參數f f 值的選擇對用戶來說是困難的 f 值過小則可能導致將不同密度的簇合并在一起 f 值過大則可能將低密度區域的數據點識別為噪聲因此可行的方法是根據數據的分布特征自動地確定f 在f 值的討4 算方面可以通過最大密度網格的密度來計算f 也可以在聚類的過程中采用密度閾值遞減技術選擇多個密度閾值f 這種方法將提高基于網格的聚類分析算法處理多密度數據集的能力通常情況下基于網格的聚類分析算法包含3 個基本的處理步驟 1 劃分網格單元即對數據空間的每一維進行劃分形成網格結構維的劃分策略常見的包括將每一個維劃分為等寬的問隔這樣如果每個維被劃分為m 個間隔則整個數據空間將被劃為為m d 蘭州大學碩士學位論文基于網格的并行聚類算法及數據流聚類算法研究個互不重疊

人人文庫> 全部分類> 畢業設計 > 畢業論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdfVIP

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

（計算機軟件與理論專業論文）基于網格的并行聚類算法及數據流聚類算法研究.pdfVIP

文檔簡介

溫馨提示

最新文檔

評論

相關文檔