web數據挖掘技術分析與研究_第1頁
web數據挖掘技術分析與研究_第2頁
web數據挖掘技術分析與研究_第3頁
web數據挖掘技術分析與研究_第4頁
web數據挖掘技術分析與研究_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、漢口學院學士學位畢業論文論文題目: Web數據挖掘技術分析與研究學生姓名: 學 號: 專業名稱: 指導教師姓名: 指導教師職稱: 二0 年 月 日漢口學院學士學位論文原創性聲明本人鄭重聲明:所呈交的學位論文是本人在導師指導下獨立進行研究工作所取得的研究成果。除了文中特別加以標注引用的內容外,本論文不包含任何其他個人或集體已經發表或撰寫的成果作品。本人完全意識到本聲明的法律后果由本人承擔。學位論文作者簽名: 日期: 年 月 日學位論文版權使用授權書本學位論文作者完全了解學校有關保障、使用學位論文的規定,同意學校保留并向有關學位論文管理部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人

2、授權省級優秀學士學位論文評選機構將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。本學位論文屬于1、保密 ,在_年解密后適用本授權書。2、不保密 。(請在以上相應方框內打“”)學位論文作者簽名: 日期: 年 月 日 導師簽名: 日期: 年 月 日目錄內容摘要1關 鍵 詞1Abstract1Key words11Web數據挖掘的概念22Web數據挖掘的工作過程和分類22.1Web數據的特點22.2Web數據挖掘的工作過程32.3Web數據挖掘的分類43常用的Web數據挖掘技術研究53.1 路徑分析技術63.2分類聚類技術83.3關聯規則挖

3、掘技術94結束語10參考文獻11致 謝12Web數據挖掘技術分析與研究內容摘要:隨著互聯網的高速發展,web已成為了人們信息交流的一個重要工具,Web數據挖掘技術作為處理數據的專項技術,其優越性能在許多領域都有所體現。首先,本文介紹了web數據挖掘的概念、工作過程和分類,接著詳細闡述了路徑分析技術、分類聚類技術和關聯規則挖掘技術,對它們的研究現狀進行了分析,并指出了它們所存在的問題,提出了相應的改進意見。最后,對web數據挖掘技術進行了展望。關 鍵 詞:Web頁面 數據挖掘 路徑分析 分類 聚類 關聯規則Abstract:With the rapid development of the In

4、ternet, the web has become an important information exchange tool for many people. As a special processing data technology, the web data mining is used in many fields because of its many advantages. In the paper, firstly, the concept of web data mining, the working process and classification are int

5、roduced. Secondly, the path analysis technology, classification clustering and association rule mining techniques are described in detail, analyzing their current situation and existing problems, and proposed some improvement ideas. Finally, the futures of the web data mining technology are illustra

6、ted.Key words:Web page Data mining Path analysis Classification Clustering Association rules1.Web數據挖掘的概念隨著Internet的發展,Web中容納了新聞、廣告、消費、金融、教育、政府、電子商務等各種類型的原始數據,因此,它已經成為一個巨大的信息庫。如何能將這些信息從網頁中抽取出來,為客戶提供個性化、高效率的服務,為企業創造更多的利潤是網站經營者的值得高度關注的一個重要話題。在1996年,Web數據挖掘的概念首次被Oren Etzioni提出。經過人們不斷的研究發展,目前出現的“Web知識發現”

7、、“因特網的數據挖掘”、“Web信息挖掘”、“網絡信息挖掘”等提法都可以認為是它的同義詞。Web數據挖掘是從大量潛在的Web文檔和相關數據中發現、提取人們感興趣的、有用的規律或信息,是數據挖掘技術在Web環境下的應用。它所涉及的學科知識包括有網絡技術、信息統計學、計算機語言學、數據挖掘等,是一項具有很強綜合性的技術。目前,Web數據挖掘技術已廣泛應用到電子商務、網站設計和搜索引擎服務等方面,正成為人們研究的一個熱點。2Web數據挖掘的工作過程和分類2.1 Web數據的特點靜態網頁、Web數據庫、Web結構、用戶使用記錄等信息是Web數據挖掘所處理的對象。而這些數據有其自身的特點,主要表現在以下

8、幾點:(1)異構數據庫環境。在萬維網上,每一個站點都可以看成是一個數據源,它們的信息內容和組織結構都會彼此不同,這些異構的數據源可以構成一個巨大的異構數據庫。(2)分布式數據源。在世界各地的Web 服務器上都有Web,構成了分布式的數據源。(3)動態性強。Web是一個動態性極強的信息源。因為人們會經常對Web查詢,網頁提供者也會不定期地更新,所以各站點的鏈接信息和訪問記錄的更新非常頻繁,來自網頁的信息更新速度也很快, (4)半結構化。Web上的數據是一種非完全結構化的數據,沒有特定的模型描述。(5)多樣復雜性。Web上的信息資源比較復雜,因為它包含有文本數據、超文本數據、圖表圖像、音頻視頻等多

9、種數據。2.2 Web數據挖掘的工作過程典型Web挖掘的處理流程如圖1所示:資源發現信息選擇和預處理模式識別模式分析圖1 Web數據挖掘的工作流程(1)資源發現:是指從Web獲取并返回文本資源的過程。通過Web交易形成的數據、HTML文檔、新聞組、BBS、電子郵件、網站日志等都屬于文本資源。(2)信息選擇和預處理:在信息處理前,需要剔除Web資源中那些無用的信息,并進行必要的整理。比如,去除多余格式標記和廣告鏈接、自動識別段落,完成數據整理組成規整的邏輯形式或者形成關系表的任務。而預處理的任務是完成數據清洗、會話識別、用戶識別和事務識別等工作。(3)模式識別:借助統計分析、路徑分析、關聯規則、

10、序列模式以及分類聚類等方法和技術,從Web使用記錄中挖掘知識。(4)模式分析:運用成熟的技術和工具進行模式的分析,從而輔助分析人員的理解,通過解釋和可視化手段將發現的規則轉換為知識。2.3 Web數據挖掘的分類根據挖掘對象的不同,如圖2所示,可將Web數據挖掘分為:Web內容挖掘、Web使用挖掘和Web結構挖掘三類。Web挖掘結構挖掘內容挖掘使用挖掘超鏈結構挖掘文檔結構挖掘多媒體挖掘文本挖掘個性化頁面推薦商業智能站點修改系統改進圖2 Web數據挖掘的分類(1)Web內容挖掘:Web內容挖掘可分為文本挖掘和多媒體挖掘兩大類:Web文本挖掘的數據對象既可以是機構化的,也可以是非機構化的、半機構化的

11、,Web文本挖掘的結果既可以是對某個文本內容的概括,也可以是對整個文本集合的分類結果或聚類結果,還可以利用Web文檔進行趨勢預測等;而多媒體信息挖掘是通過對存在于網頁中的音頻、視頻數據和圖像進行預處理之后,再采用存儲和搜索技術與其他方法對其中潛在的、有意義的信息和模式進行挖掘的過程。它主要用于圖形和圖像處理和語音識別等領域。通過對Web文檔中非結構化數據集成、概化、分類,能夠得到某類信息所蘊含的知識模式,能夠自動查找和檢索那些對用戶感興趣的知識。(2)Web結構挖掘:Web結構挖掘可分為Web文檔結構挖掘和超鏈結構挖掘。Web結構包括了很多頁面之間的超鏈接結構和網頁內部用HTML,XML表示的

12、樹形結構,以及文檔URL中的目錄路徑結構等。對Web文檔的結構進行挖掘,挖掘Web潛在的鏈接結構模式,可以用來指導對頁面進行分類和聚類,找到權威頁面、中心頁面,從而提高檢索的性能。Web頁面之間的鏈接結構中包含了許多有用的信息。而超鏈結構挖掘主要依據SCI的科學引文分析理論。該理論認為如果兩篇文獻具有同被引和耦合等關系,則這兩篇文獻具有相互關系或相互聯系,我們利用這些關系,可以發現科學活動中許多隱蔽的和深層次的相關關系。(3)Web使用挖掘:用戶訪問Web時,用戶的請求信息以及訪問Web頁面的方式將在服務器中留下痕跡。這些訪問記錄包含了用戶訪問以及與系統交互的信息。Web使用挖掘就是對用戶訪問

13、Web時服務器方留下的訪問記錄進行挖掘,從中可以得出用戶的訪問模式和訪問興趣。分析這些數據有助于理解用戶的行為、改進站點結構、提供個性化服務等。3常用的Web數據挖掘技術研究常用的Web數據挖掘中技術有路徑分析技術、分類聚類技術和關聯規則技術等。3.1路徑分析技術1921年,遺傳學者Sewll Wright提出了路徑分析法,主要是用來解釋基因之于人類的因果關系。路徑分析主要用于分析變量間的因果關系,衡量兩變量之間的相關程度。這與我們通常說的相關系數不同,因為相關系數不能說明變量之間的因果關系。該方法假設在一系列變量中,如果變量在時間上先于,則我們可假設導致,圖示為,同時允許有一誤差項,所以路徑

14、圖可表示成: X2 X1 以線性模式可表示成: (1)式中X1為外源變數,為內源變數,且X1與不相關。如圖3所示,在處理一群變量時,要確定它們彼此之間因果關系,可以對每一個變量作路徑分析,找出其路徑系數,得到相應的路徑分析圖。圖3 路徑分析圖事實上,一般我們可以根據研究的對象之不同,畫出不同的路徑圖,求出它的路徑系數。路徑分析法是屬于“相關關系的研究”,只有在證據十分明確的情況下,才能得出因果關系的結論。說一個變量決定另一個某變量時,往往是依據數據的猜測或判斷而得出的。路徑分析法的一個貢獻是鼓勵研究者在進行研究之前,作理智的預測而非毫無方向漫無目的摸索,研究者也必須在不斷研究的過程中,不斷修正

15、其因果模式直到能正確說明該現象為止。在Web使用模式挖掘中使用路徑分析技術,常用的一個工具是網站結構圖。用一個有向圖來表示Web,記為G=(V,E),其中V是頁面的集合,E是頁面之間的超連接集合,圖的頂點代表頁面,圖中的有向邊代表頁面之間的超連接。對v的引用用頂點v的入邊來表示,v引用了其他的頁面則用出邊來表示,這樣就形成網站結構圖。借助它,可以判定哪條路徑是一個Web站點中最頻繁訪問的,還有一些其他有關路徑的信息通過路徑分析也能得出。比如:80%的用戶在訪問/source/mylink2時,是從/source開始,經過/source /new、/source/mylink、/source/m

16、ylink1最后才到/source/mylink2的。這條規則說明在/source/mylink1頁面上存有用的信息,但因為客戶對站點是迂回繞行訪問的,所以這個有用信息并不明顯。假如/source/mylink2這個頁面對網站來說比較重要,可以改進頁面及網站結構的設計,從使客戶更輕易地訪問到它。在做網站路徑分析的實際操作中可能會遇到很多的問題。一是網站訪問者身份的多樣性。訪問你網站的人可能是潛在客戶,可能是合作伙伴、競爭對手,還有可能是公司的內部員工。這樣,我們在網站路徑統計的數據中就包含了多種身份的訪問者。二是訪問者訪問目的多樣性。試想,你每次訪問淘寶網都是為了買東西嗎?盡管我們區分了訪問者

17、身份的多樣性,但是客戶每次訪問網站的目的也不盡相同。他們訪問網站的目的有可能是瀏覽商品,購買商品,獲取幫助,退換貨,查看物流等是。這也使得網站路徑統計數據中包含了不同訪問目的的訪問者。三是訪問者訪問路徑多樣性。即使是同一身份同一目的的訪問者,完成任務的方式也是不一樣的。拿查找某個特定商品信息來說吧,有的訪問者是通過站內搜索得到的,有的是在網站的分類導航中逐級篩選查找得到的,而有的則是直接通過外部搜索引擎直接訪問得到的。這就導致了在網站路徑統計數據中包含了復雜的入口和訪問路徑。基于這些原因,造成了網站路徑統計數據中的混亂和不準確。同時你也不能將不同身份和訪問目的的人混在一起進行路徑分析。更不能把

18、他們的匯總數據用來計算網站的轉化率和投資回報率。這種計算方法是有問題的,完全不符合邏輯。要避免前面提到的這些問題,我們在進行網站路徑分析前要進行細分。我們可以對訪問者進行細分,也可以對路徑中任務進行細分。3.2分類聚類技術數據分類技術就是從數據中挖掘出某些共同特征來實現對數據項的分類。在Web數據挖掘中,利用分類技術可以根據捕獲的Web訪問用戶的個人信息或共同的訪問模式得出訪問某一服務器文件的用戶特征。目前,Web所面對的用戶從總體上講具有不可知性和不確定性,從理論上講,任何能上網的Web用戶都可能成為任何網站的用戶。由于人數眾多,地域分散等因素的影響,決定了Web用戶的不可知性,從而決定了用

19、戶使用網站目的的不確定性;從另一方面講,雖然用戶眾多,但用戶還是可以按年齡、知識水平等因素區分成不同的類型,此外,網站在設計之初也必然規劃其受眾,所以,不存在滿足所有人的所有期望的網站服務,從而將不同的用戶分成不同的類型,只有這樣,挖掘出的結果才可能做到盡可能地滿足具體用戶的期望。有了準確的用戶類型劃分,就可以預測用戶的行為,從而達到盡可能地使用戶獲取滿意信息的目標。將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。聚類分析技術能對Web上的文檔進行分類,可以發現信息。常用的聚類算法可以分為:層次方法、劃分方法、基于網格的方法、基于密度的方法和基于模型的方法。這些算法雖然已經

20、被廣泛應用到數據挖掘領域中,但都存在著這樣或者那樣的不足。這些不足總起來說表現在:一是對初始參數敏感。在算法的初始輸入中,算法需要準備聚類的數據和一些相關的參數,而這些參數選擇對聚類結果有直接影響。對普通用戶來說,參數的選擇存在一定的困難。二是難以找到最優聚類。一個包含n個數據的數據集,如果把它聚成k類,有很多種可能,但目前還沒有一種能從這種聚類中發現最優聚類的算法。現在常常通過一種誘導算法,實現一個在完全空間的不完全搜索,而這些誘導算法往往會陷入局部最優解。三是聚類有效性問題。聚類是一種無導師學習算法,對數據集中數據的分布情況我們事先并不知道,這樣就會出現聚類結果的有效性問題。四是對噪音數據

21、的敏感性。由于噪音數據的存在,這些算法的使用范圍受到了嚴重的影響。3.3關聯規則挖掘技術實際上,用戶在瀏覽訪問一些頁面之間可能并不存在直接的引用關系。在Web挖掘中利用關聯規則,可以挖掘出用戶在一個訪問會話期間從服務器上訪問的頁面或文件之間的聯系。對購物籃分析就是一個非常典型的關聯規則應用,對顧客放入“購物籃”中不同商品之間的聯系進行分析,可以得出顧客的購買習慣。在Web教學中,利用關聯規則可以發現學習者對內容頁面之間的訪問關系,調整頁面之間的結構關系,預測學習者可能訪問的內容,使其能快捷地訪問到感興趣的內容。如果對學習課程應用關聯分析,則可以尋找各門課程之間的內在聯系,根據a課程與b課程在一起瀏覽的情況,推導出a和b在一起是起著積極作用還是負面影響,進而可以選定課程之間的關聯,及時制定策略建立或刪除a和b課程之間的關聯。4結束語Web數據挖掘技術是一個新興的研究領域,在實際應用當中仍存在許多尚未解決的問題,值得我們更加深入地去研究。我們相信在商業利益的強大驅動下,隨著人們對它研究的日益廣泛和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論