


版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Web Service W架下的分布衣數(shù)據(jù)挖Sii要:提出一種基于動(dòng)態(tài)數(shù)據(jù)集劃分改進(jìn)的并行關(guān)聯(lián)規(guī)則挖掘 算法,它是先實(shí)時(shí)評(píng)估處理器的工作性能后動(dòng)態(tài)地分作量, 從而平衡負(fù)載。該算法能様大地實(shí)現(xiàn)分布式環(huán)境下的數(shù)據(jù)挖掘。關(guān)鍵詞:web service數(shù)據(jù)挖掘特點(diǎn)1引言価著廿算機(jī)在社會(huì)的各行各業(yè)中得到了廣泛而深入的應(yīng)用和信息技術(shù)的不斷的發(fā)展,各行各業(yè)特別是在商業(yè)、金融以汝數(shù)據(jù)分析 比較密集的領(lǐng)域中時(shí)刻那再產(chǎn)生出大量的廿算機(jī)數(shù)據(jù),再JU± web 及internet技術(shù)的迅速發(fā)展網(wǎng)絡(luò)中得各式各樣的信息和數(shù)據(jù)也越來(lái) 越豐富。特別是當(dāng)前的數(shù)據(jù)Q分布于不同地區(qū),在面對(duì)這種大量的 gb級(jí)、tb級(jí)甚至更
2、多的數(shù)據(jù)的情況下,如何處理數(shù)量日益增長(zhǎng)的 數(shù)據(jù)以及如何在這紛繁的信息數(shù)據(jù)中找到我們需要和精準(zhǔn)的有用 信息就顯得十分的重要。這樣廿算機(jī)數(shù)據(jù)挖掘這一個(gè)年輕的學(xué)科在 當(dāng)今的廿算機(jī)數(shù)據(jù)的處理和數(shù)據(jù)的挖掘中得到了越來(lái)越廣泛的關(guān) 注和應(yīng)用。所謂的數(shù)據(jù)挖掘,簡(jiǎn)單來(lái)說(shuō)就是應(yīng)用it算機(jī)的一系列算 法從海量的廿算機(jī)數(shù)據(jù)中提取或"挖掘”有用的信息。隨著廿算機(jī) 應(yīng)用和技術(shù)的不斷發(fā)展,人們?cè)跀?shù)據(jù)挖掘技術(shù)的研究也獲得了不錯(cuò) 的成績(jī),數(shù)據(jù)挖掘在這種背景下得到了很大的發(fā)展。web服務(wù)是基于分布式架構(gòu)并冃獨(dú)立的運(yùn)行于操作系貌的一種的 廿算機(jī)服務(wù)技術(shù),通過(guò)這個(gè)可互操作的應(yīng)用程序的平臺(tái)和標(biāo)準(zhǔn)的 web怵議就可以it程序訴
3、問(wèn)的應(yīng)用程序邏輯。它貝有更M廣闊的應(yīng) 用空同是由于web服務(wù)的分布式的技術(shù)特點(diǎn)使得它具有聘平臺(tái)和聘 internet的優(yōu)點(diǎn),這樣就能成助的使用網(wǎng)絡(luò)的強(qiáng)大的可伸縮性的特 自,完成很多用于重夏使用和互操作的目的的工作°web技術(shù)和數(shù) 據(jù)挖掘技術(shù)的良好切合就能避免傳統(tǒng)數(shù)據(jù)挖掘中大量轉(zhuǎn)儲(chǔ)和效率 低下的缺點(diǎn),提髙數(shù)據(jù)挖掘的效率和靈活性,為企業(yè)提髙效率和效 益提供了保障。2 web service 體系web service技術(shù)是面向服務(wù)的能昵給于服務(wù)的抽象定義和服務(wù) 的發(fā)布、貝體實(shí)現(xiàn)并給以服務(wù)査找、服務(wù)實(shí)例選擇并實(shí)現(xiàn)可交互操 作的一種體系結(jié)構(gòu)。web service體系結(jié)構(gòu)基干服務(wù)提供者(se
4、rvice provider )、服務(wù)注冊(cè)中 J& (service registry)和服務(wù)請(qǐng)求者(service requestor)之同的交互并依賴(lài)于依賴(lài)soap ( simple object access protocol). wsdl(web services description language)和 uddi(universal description discovery and integration)三者的技術(shù)。其中的交互包含了 發(fā)布(publish )、査找(find )和綁定(bind )操作。wsdl所提供的 服務(wù)描述是通11 web服務(wù)提供方送jj web
5、服務(wù)注冊(cè)中心后,注冊(cè) 中心基于wsdl所提供的服務(wù)描述,按照uddi的加議的要求更新 internet上的服務(wù)目錄并發(fā)布在internet上。用戶(hù)要與服務(wù)的提供商 取得通信就必須得到web服務(wù)提供者的服務(wù)接口和地址等信息,速 首先必須向注冊(cè)中心發(fā)出通信請(qǐng)求,然后通11 soap怵議與其進(jìn)行 連接和繃定服務(wù)后才能進(jìn)行通信。服務(wù)提供者是實(shí)現(xiàn)web service的 應(yīng)用平臺(tái),也同時(shí)是web service提供的最終供應(yīng)商。它既負(fù)有服務(wù) 的發(fā)布、更新和回收的責(zé)任,同時(shí)它是web service的擁有者,描述 web service的內(nèi)容并將這種描述發(fā)送到服務(wù)注冊(cè)中心或服務(wù)i青求 者;服務(wù)注冊(cè)中心集合
6、了大量在線的web service,在這個(gè)中心中對(duì) web service進(jìn)行注冊(cè)。按照一段舸程序來(lái)講,服務(wù)提供者在在線服 務(wù)器上安裝T web service之后后,會(huì)在服務(wù)注冊(cè)中心發(fā)布web service 服務(wù)。3 web service下的數(shù)據(jù)挖掘建立在分布式web service it算體系的這種數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的各 個(gè)局部子數(shù)據(jù)挖掘模塊是獨(dú)立存在并作為獨(dú)立的web服務(wù)進(jìn)行注 冊(cè)以及發(fā)布的。它能晞在各個(gè)不同的的系貌和平臺(tái)中移植,在實(shí)際 的操作中有相當(dāng)好的的可移植性,并冃很好的協(xié)調(diào)不同平臺(tái)的差異 以及不同數(shù)據(jù)結(jié)構(gòu)中的差異,并且在系貌的用戶(hù)透明性方面做得相 當(dāng)好,靈活的跨越防火晴和服務(wù)器
7、進(jìn)行通信和服務(wù)。這種體系結(jié)構(gòu) 主要包括如圖1所示的幾個(gè)結(jié)構(gòu)模挾:用戶(hù)guio它是作為與用戶(hù)之間起到交互作用的人性化界面, 這種界面根據(jù)不同的需求定別針對(duì)不同需求的用戶(hù)服務(wù),并作為結(jié) 果展現(xiàn)的界面。(2) 全局匯總模塊。它是分析處理模塊,該模塊將挖掘舸局部數(shù)摒 處理的結(jié)果數(shù)據(jù)進(jìn)行處理和分析,最終得到全局期望的知識(shí)表示。(3) 注冊(cè)中心模塊。它的主要功能是進(jìn)行服務(wù)的注冊(cè)和査詢(xún),從注 冊(cè)中心用戶(hù)可以獲取所需的相關(guān)服務(wù)和對(duì)自己的挖掘服務(wù)進(jìn)行發(fā) 布。(4) 對(duì)外服務(wù)模t夬。它是用來(lái)封裝上述服務(wù)的模塊,并向注冊(cè)中心 發(fā)起注冊(cè)命令,綁定服務(wù)的莆求。(5) 本地挖掘模塊。它的功能是對(duì)本地?cái)?shù)據(jù)源進(jìn)行數(shù)據(jù)的挖掘,
8、對(duì) 請(qǐng)求者提供服務(wù)。(6) 預(yù)處理模塊。它的功能基于一定規(guī)呱和定文對(duì)本地?cái)?shù)據(jù)溫進(jìn)行 轉(zhuǎn)換和抽取。4關(guān)取規(guī)朋|數(shù)據(jù)挖掘的兩種算法4.1關(guān)聯(lián)規(guī)則冋題的相關(guān)理論關(guān)聯(lián)規(guī)則被描述為:設(shè)ni (1,2,3., n)是指除了能通過(guò)計(jì)算 機(jī)網(wǎng)絡(luò)傳遞信息之外的其他介質(zhì)獨(dú)立的廿算機(jī)。dbi是ni上得分事 件數(shù)摒庫(kù),逆樣總的事件數(shù)摒庫(kù)的數(shù)目是db ( dbi 2和),總的事件 數(shù)就是。并行挖掘關(guān)朕規(guī)呱就是通agn個(gè)計(jì)算機(jī)同時(shí)完成數(shù)稠的 挖掘工作。各個(gè)計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)來(lái)通信,每個(gè)計(jì)算機(jī)這完成自己秋 有數(shù)據(jù)庫(kù)中的數(shù)據(jù)di,在這個(gè)數(shù)據(jù)庫(kù)中按照一定的規(guī)則進(jìn)行挖掘,規(guī) 呱就是x->y,并基于以下的兩個(gè)條件:sup(xuy
9、)minsupport和 sup(xuy)/sup(x) Mminconfidence。(其中 xny= , xy,xi)4.2關(guān)假規(guī)則數(shù)據(jù)挖掘的并行挖掘算法(1)基干分布式的cd算法。cd算法是基于apriori的一個(gè)簡(jiǎn)單并行 化算法,它的最大優(yōu)點(diǎn)是能在空閑的廿算機(jī)上通過(guò)并行冗余廿算的 方式來(lái)達(dá)到誠(chéng)小通信量的目的,同時(shí)在速度方面表現(xiàn)得也相當(dāng)?shù)?好,其速度能達(dá)到線性加速比的程度。cd算法是一種典型的基于分 布式關(guān)聯(lián)規(guī)呱挖掘算法,能夠在任意水平分區(qū)利用數(shù)據(jù)庫(kù)分劇的方 式來(lái)完成并行化和并行廿算。它的作用過(guò)程是毎個(gè)分區(qū)單獨(dú)掃描數(shù) 據(jù)庫(kù)并廿算出支持度,各支持度經(jīng)過(guò)加總?cè)魌 T minsupport呱認(rèn)
10、為 其是全局的。這種算法的每一次掃描結(jié)東后就建立一個(gè)同步自才能 掃描下一次分區(qū)。(2)基于動(dòng)態(tài)數(shù)據(jù)集劃分的并行挖掘算法。并行算法的重點(diǎn)就是在 于平衡處理器性能、處理器任務(wù)分配量以及網(wǎng)速等負(fù)我因素。cd算 法使得每個(gè)處理器獲得同等數(shù)目的數(shù)據(jù)集,但由于每f數(shù)據(jù)集的稠 密度不同,這就使得每個(gè)處理器實(shí)際得到的任務(wù)的多少是不同的, 并冃未顧及處理器性能和網(wǎng)速的因素。基于動(dòng)態(tài)數(shù)據(jù)集劃分的并行 挖掘算法就是先實(shí)時(shí)評(píng)估處理器的工作性能后動(dòng)態(tài)地分配給工作 量,從而平衡負(fù)載。5系統(tǒng)設(shè)廿基于web service的數(shù)稠并行挖掘平臺(tái)中數(shù)稠集的支持度廿數(shù)是由 web service完成的。如圖2中數(shù)據(jù)挖據(jù)客戶(hù)端主要是承
11、擔(dān)挖掘結(jié)果 的顯示、挖腎任務(wù)的分配和匯總以及數(shù)據(jù)的預(yù)處理等功能,還包括 用戶(hù)接口和web service本地代理。web service并行廿算網(wǎng)絡(luò)包含了 很多數(shù)量的處理數(shù)據(jù)挖掘子任務(wù)的web service端。毎個(gè)分布的web service端上那有一個(gè)數(shù)據(jù)挖據(jù)子任務(wù)處理功能模塊,他們負(fù)責(zé)對(duì)數(shù) 據(jù)子任務(wù)的挖掘工作,供web service調(diào)用者調(diào)用。中間連接兩端的 是internet網(wǎng)絡(luò)。在數(shù)據(jù)挖掘的客戶(hù)端中的挖掘任務(wù)的分配和匯總模塊的主要任 務(wù)是負(fù)責(zé)對(duì)各個(gè)數(shù)據(jù)挖掘web service端的廿算進(jìn)行加調(diào)工作并基 于web service端的挖掘廿算情況把數(shù)據(jù)動(dòng)態(tài)的分8!給各web servi
12、ce端。同時(shí)發(fā)送根稠多線程技術(shù)異步調(diào)用過(guò)的多個(gè)數(shù)摒挖掘 web service端發(fā)送數(shù)據(jù),其代碼是:pc = new dcd. localhost. dcdws ();pel = new dcd. localhostl. dcdws ();ac1 = new asynccallback (callback);ac2 = new asynccallback (callbackl);pc. begingetdb (db1 ,ac1 ,null);pel. begingetdb (db2 ,ac2 ,null);private void callback (iasyncresult assignha
13、ndle)start index+ = number;array. copy(db , start index, db1 , 0, number);pc. begingetdb (db1 ,ac1 ,null);private void callbackl (iasyncresult assignhandle)start index+ = number;array. copy(db , start index, db2,0 , number);pc. begingetdb (db2 ,ac2 ,null);這種算法就是根web service端的數(shù)據(jù)挖掘能力實(shí)現(xiàn)了數(shù)據(jù)集 的動(dòng)態(tài)分配,避免了數(shù)據(jù)的過(guò)負(fù)保證了負(fù)載平衡,提髙了數(shù)據(jù)的挖 掘效果。6結(jié)語(yǔ)網(wǎng)絡(luò)化、分布武并行舸數(shù)掘挖掘是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要的發(fā)展
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年壓瘡護(hù)理新進(jìn)展
- 客戶(hù)開(kāi)發(fā)工作總結(jié)案例
- 電梯安全培訓(xùn)
- 兒童財(cái)商教育課件
- 內(nèi)科護(hù)理10分鐘小講課
- 倉(cāng)儲(chǔ)物流中心廠房出租與倉(cāng)儲(chǔ)服務(wù)外包協(xié)議
- 心梗老人的護(hù)理
- 知識(shí)產(chǎn)權(quán)采購(gòu)合同范本:電子元器件行業(yè)
- 創(chuàng)新型企業(yè)廠房物業(yè)管理及創(chuàng)新解決方案合同范本
- 物業(yè)服務(wù)企業(yè)人力資源配置合同
- 2023年瀘州市文化和旅游系統(tǒng)事業(yè)單位招聘筆試模擬試題及答案
- 醫(yī)療器械行業(yè)市場(chǎng)部人員崗位職責(zé)
- (中醫(yī)內(nèi)科)高級(jí)、副高級(jí)職稱(chēng)考試模擬試題及答案
- 跌倒墜床原因分析預(yù)防措施
- 部編版小學(xué)道德與法治三年級(jí)下冊(cè)期末質(zhì)量檢測(cè)試卷【含答案】5套
- 弱電施工安全技術(shù)交底
- DB21T 3354-2020 遼寧省綠色建筑設(shè)計(jì)標(biāo)準(zhǔn)
- 安全生產(chǎn)知識(shí)應(yīng)知應(yīng)會(huì)
- 08S305-小型潛水泵選用及安裝圖集
- 體育器材采購(gòu)設(shè)備清單
- 二手車(chē)鑒定評(píng)估報(bào)告書(shū)最終
評(píng)論
0/150
提交評(píng)論