




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Web挖掘基礎提綱Web挖掘的概念Web內容挖掘Web結構挖掘Web日志挖掘知識WWWWeb 挖掘的挑戰Web數據量太龐大:Server Level Collection、Client Level Collection和 Proxy Level CollectionWeb數據的復雜性高于傳統的文本文檔Web是一個動態性極強的信息源Web面對的是一個廣泛的用戶群體Web上的信息只有很小的一部分是相關的或有用的Web挖掘與IRWeb上的IR是Web挖掘的一個方面,僅是對信息有序化。Web挖掘是智能化的IR,IR出現早,技術成熟。Web挖掘概念Web挖掘是從大量Web文檔的集合C中發現隱含的、有用的
2、模式P的過程:CP 。Web挖掘主要處理文本、圖形和圖像等半結構、非結構化的數據,這些數據分布在Web文檔、Web服務器的日志、用戶cookies等 。Web挖掘分類 Web挖掘類項目Web內容挖掘Web結構挖掘Web日志挖掘處理數據類型IR方法:無結構數據、半結構數據Web結構數據用戶訪問Web數據主要數據自由化文本、HTML標記的超文本Web文檔內及文檔間的超鏈Serverlog,Proxy serverlog,Client log表示方法詞集、段落、概念、IR的三種經典模型圖關系表、圖處理方法統計、機器學習、自然語言理解機器學習、專有算法統計、機器學習、關聯規則主要應用分類、聚類、模式發
3、現頁面權重分類聚類模式發現Web站點重建,商業決策Web內容挖掘 基于網頁內容或其描述中抽取知識的過程。Web內容挖掘主要包括文本挖掘和多媒體挖掘兩類,其挖掘對象包括文本、圖像、音頻、視頻和其他各種類型的數據。日志的預處理IP AddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GET Index.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET 1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET A.htm/ind
4、ex.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GET E.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GET Index.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET 1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET A.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GET B.htm/A.htmMozilla/4.0(IE4.0N
5、T)15:35:11/2-Jan-01GET C.htm/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘 Web文本挖掘針對包括Web頁面內容、頁面結構和用戶訪問信息等在內的各種Web數據,應用數據挖掘方法發現有用的知識幫助人們從大量Web文檔集中發現隱藏的模式。Web文本挖掘的方法 文本概括:從文本(集)中抽取關鍵信息,用簡潔的形式總結文本(集)的主題內容。例如搜索引擎在向用戶返回查詢結果時,通常需要給出文本摘要。文本分類 :把一些被標記的文本作為訓練集,找到文本屬性和文本類別之間的關系模型,然后利用這種關系模型判斷新文本的類別。召回率和精度。 文本聚類:根據文本的不同特
6、征劃分為不同的類。從大量文檔中發現一對詞語出現模式的關聯分析以及特定數據在未來的情況預測。 Web文本挖掘的應用 搜索引擎領域:利用Web文本挖掘可以更合理地組織搜索結果:按照頁面之間的相似程度分為若干簇。自然語言理解領域:結合自然語言處理技術和Web文本挖掘技術。文本挖掘在垃圾郵件過濾中的應用TF-IDF(1)TF-IDF(term frequencyinverse document frequency)是一種用于信息檢索與文本挖掘的常用加權技術,用以評估一字詞對于一個文件集的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數增加,但同時會隨著它在語料庫中出現的頻率成反比下降。如果
7、某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。,如果一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區別與其它類文檔。TF-IDF(2)Web多媒體挖掘 Web多媒體挖掘是從大量多媒體數據中通過綜合分析視聽特性和語義,發現隱含的、有價值的和可理解的模式,得出事件的趨向和關聯,為用戶提供決策支持。 多媒體挖掘包括圖像挖掘、視頻挖掘和音頻挖掘等類別。多媒體挖掘系統的結構多媒體挖掘的典型應用 視頻挖掘:從電影、監控錄像等視頻數據中
8、提取視頻場景內容和其中運動對象的特征及其時空位置變化,并在此基礎上發現場景的內容特征,運動對象的行為模式和事件模式等。在線診療系統:對新產生的醫學圖像進行分類,從而對病人進行疾病的診斷。Web結構挖掘 有用的知識不僅存在于Web頁面間的鏈接結構和Web頁面內部結構,而且也存在于URL中的目錄路徑結構(頁面之間的目錄結構關系)。Web結構挖掘是指挖掘Web鏈接結構模式,即通過分析頁面鏈接的數量和對象,從而建立Web的鏈接結構模式。Web結構挖掘主要方法PageRank算法HITS算法WebLogIndexSESpiderSpamFreshnessQuality results20M querie
9、s/dayBrowser800M pages?24x7SESEPageRank算法PRi :the PageRank value of page iPRj : the PageRank value of page jkj :number of the pages j refer tod:a parameter ranging 0,1.Web結構挖掘的應用 信息檢索 社區識別 網站優化 Web日志挖掘 Web日志挖掘是從用戶訪問日志(包括搜索引擎日志等)中獲取有價值的信息,即通過分析Web日志數據,發現訪問者存取Web頁面的模式。理解用戶的行為,改進站點結構,發現潛在用戶,為用戶提供個性化的服務
10、,增強網站的競爭力。 Web日志挖掘的應用 獲取用戶訪問模式信息,理解用戶的意圖和行為分析用戶的存取模式,為用戶提供個性化的服務確定網站的潛在客戶群,合理制訂網絡廣告策略等改進Web站點的結構,使網站點隨時間、用戶需求的變化而不斷調整對日志數據進行多種統計,包括頻繁訪問頁、單位時間訪問頻度、訪問量的時間分布等利用關聯規則確定相關Web查詢(查詢修正)隱私保護數據挖掘數據挖掘可能會違反用戶的隱私在原始數據庫中,類似于標識符、姓名、地址和喜好等數據作為用戶的隱私應該被保護。對用戶的敏感的原始數據進行變換,以便數據的使用者不能對用戶的原始數據進行查看,以此保護用戶的私有數據。病人原始病歷編號姓名性別年齡是否發熱呼吸困難淋巴細胞數(109/L)1張三男40是是1.22李四男25否是0.63王五女29是是0.8轉換后的病歷信息0086504692021245979200711648800153471795024892906000165286910000000012026762574400000
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 麻醉吸入性肺炎的護理
- 電子競技賽事商業贊助策略研究報告:2025年品牌合作案例深度解讀
- 2025年罕見病藥物研發激勵政策與罕見病藥物價格監管政策研究報告
- 2025年航空貨運市場結構優化與發展策略深度研究報告
- 物聯網技術概論 教學大綱和授課計劃
- 2025年房地產中介行業規范發展與服務質量提升實證分析報告
- 當前社會熱點難點分析
- 下周工作計劃模板范文(10篇)
- 公司財務及報銷管理制度
- 員工摩托車停放管理制度
- 2025年瀘州市中考數學試卷真題(含答案解析)
- 2025年四川省自貢市中考數學真題含答案
- 2025年安徽省醫師考核管理試題
- 胃管護理操作規范與管理要點
- 堆肥技術課件視頻
- 工廠計件考勤管理制度
- 人文關懷在護理工作中的意義
- 2024北京初三一模英語匯編:材料作文
- T/CCMA 0137-2022防撞緩沖車
- GB/T 20854-2025金屬和合金的腐蝕循環暴露在鹽霧、“干”和“濕”條件下的加速試驗
- 麻風病知識講座課件
評論
0/150
提交評論