



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Web挖掘個性化模型 摘 要 本文對個性化建模技術(shù)進行了研究,提出一個基于用戶興趣挖掘的個性化模型,并將其用于個性化元搜索引擎中,為個性化分析提供依據(jù)。該模型基于客戶端,將用戶的訪問頁面作為挖掘?qū)ο螅恍枰脩暨^多的參與,自動從用戶的隱式反饋中推導(dǎo)出用戶的興趣。模型中將用戶的興趣分時分段,分層分類的進行記錄、管理,并仿照人類記憶的遺忘規(guī)律對用戶興趣進行有選擇、非平等的遺忘,通過不斷的更新與優(yōu)化模型,使模型能準確反映用戶的興趣特征。 關(guān)鍵詞 個性化;用戶興趣挖掘 1
2、 引言 隨著互聯(lián)網(wǎng)內(nèi)容指數(shù)級的增長,如何滿足各種用戶不同的個性化需求等,是新的信息服務(wù)系統(tǒng)面臨的挑戰(zhàn)性課題。個性化服務(wù)是Internet信息增長的必然結(jié)果。一個好的個性化服務(wù)系統(tǒng),要能自動判斷哪些信息是用戶感興趣的,哪些是用戶不感興趣的,對于用戶不感興趣的信息則阻止反饋給用戶。作魴曰竦幕禿誦模沒偷鬧柿恐苯庸叵檔礁魴曰竦鬧柿俊?lt;/FONT> 2 相關(guān)技術(shù)研究 2.1 用
3、戶興趣挖掘技術(shù) 在Web挖掘系統(tǒng)中對用戶興趣的挖掘所采取的途徑主要有下面三種: 從表達用戶個性化的文件中獲取用戶的興趣。該文件可包括兩種信息:一種是用戶主動填寫的需求信息;另一種是用戶提交的背景信息、注冊信息等。 監(jiān)視用戶的信息搜索與瀏覽過程,分析用戶的興趣愛好,然后根據(jù)用戶的興趣愛好進行信息推薦(如letizia1 、WebWatch2等)。 從用戶的瀏覽行為中推斷出用戶的興趣,主要采用Web使用挖掘技術(shù),通過感知用戶的反應(yīng),分析用戶行為的意圖,獲取用戶感興趣的相關(guān)信息及其感興趣的感性程度。 2.2
4、0; 用戶建模技術(shù) 根據(jù)建模過程中用戶的參與程度,用戶建模技術(shù)可以分為:用戶手工定制建模、示例建模和自動用戶建模3。 用戶手工定制建模 用戶手工定制建模是指用戶模型由用戶自己手工輸入或選擇的用戶建模方法。用戶手工定制建模的典型代表是My Yahoo和WebWatcher。 示例建模 示例建模是指由用戶提供與自己興趣相關(guān)的示例及其類別屬性來建立用戶模型的建模方法。 示例建模對用戶的依賴很少,構(gòu)建的模型也更能全面地反映用戶的興趣愛好,但需要用戶在瀏覽的過程中標注頁面以得到示例,這就嚴重干擾了用戶的正常瀏覽。 自動用戶建模 自動用戶建模是指根據(jù)用戶的瀏
5、覽內(nèi)容和瀏覽行為構(gòu)建用戶模型。此方法改進了示例建模方法中的示例獲取途徑,將其轉(zhuǎn)化為無需用戶標注的自動示例獲取方法。這種方法容易引入噪聲,不利于構(gòu)建高質(zhì)量的模型。此外,對用戶訪問日志進行挖掘也是一條實現(xiàn)自動建模的途徑。通過日志挖掘可以發(fā)現(xiàn)用戶的訪問模式、購買習(xí)慣等特點,構(gòu)建用戶模型。 3 Web挖掘的個性化模型總體設(shè)計 Web挖掘個性化模型主要由四個模塊組成:頁面預(yù)處理模塊,頁面分類模塊,興趣生成模塊,更新與優(yōu)化模塊。它們之間的關(guān)系如圖1所示。 圖1 We
6、b挖掘個性化模型設(shè)計 頁面集合中存儲了用戶最近訪問的頁面,這些頁面隱含著用戶的興趣,是該模型挖掘的起點。首先清除無用數(shù)據(jù),只保留用戶感興趣的內(nèi)容頁面,并對這些內(nèi)容頁面進行特征提取等工作。隨后,頁面分類模塊根據(jù)用戶的個性化模型和分類參考模型將各個頁面歸類。興趣生成模塊負責(zé)統(tǒng)計各個興趣類中的頁面特征詞信息,綜合生成用戶興趣向量。更新與優(yōu)化模塊是模擬人類記憶的遺忘規(guī)律,對興趣類特征詞的權(quán)值、各個興趣類的興趣度進行調(diào)整、更新,并有選擇地將一些短期興趣轉(zhuǎn)化成長期興趣,逐步優(yōu)化模型。各個模塊的功能具體介紹如下: 頁面預(yù)處理模塊 該模塊主要完成兩部分工作:一、對WWW緩沖區(qū)中的數(shù)據(jù)進行凈化,清除與
7、用戶興趣挖掘無關(guān)的文件;二、對保留的內(nèi)容頁面進行格式轉(zhuǎn)換,切分出頁面中所有的特征詞,濾除詞條中判斷能力較差的停用詞、超高頻詞和超低頻詞,然后根據(jù)詞在頁面中出現(xiàn)的位置,分別乘以不同的加權(quán)系數(shù),得到最終的權(quán)值,構(gòu)成頁面特征向量。 頁面分類模塊 得到頁面特征向量后,可通過計算頁面與主題概念類之間的相似度來判斷頁面屬于哪一類。計算相似度時,我們綜合考慮了個性化模型中的用戶興趣向量和分類參考模型中的主題興趣類向量,將頁面與這兩者的相似度和的平均值作為頁面與主題概念類的相似度,然后將頁面歸類到相似度值最大的主題類。 興趣生成模塊 所有頁面處理完以后,參考興趣分類模型與分類詞表,逐類統(tǒng)計頁面信息與特征詞信息
8、,并根據(jù)TF-IDF方法計算出各個特征詞的權(quán)值,生成用戶興趣類向量,進而將用戶的興趣特征由關(guān)鍵詞抽象成概念主題,同時引入時間機制,突出用戶興趣的時效性。 更新與優(yōu)化模塊 更新與優(yōu)化模塊是對興趣類特征詞和興趣類信息進行有選擇的遺忘,調(diào)整用戶對各個興趣類的愛好程度,并周期性地將用戶短期興趣中的重要信息轉(zhuǎn)移到長期興趣中。通過不斷的更新與優(yōu)化,個性化模型能及時體現(xiàn)用戶興趣的變化,準確反應(yīng)用戶的真實興趣信息。 4 個性化模型分析設(shè)計 根據(jù)用戶的興趣需求信息建立個性化模型,首先要獲得用戶興趣信息;然后才能對用
9、戶的興趣特征進行形式化的描述,從中歸納出可計算的模型;并能跟隨用戶興趣的變化,不斷地對模型進行更新與維護。 4.1 用戶興趣類向量表示 更新與優(yōu)化模塊是對興趣類特征詞和興趣類信息進行有選擇的遺忘,調(diào)整用戶對各個興趣類的愛好程 用戶興趣類向量是用一個加權(quán)關(guān)鍵詞向量來表示,特征詞權(quán)值的計算過程如下: 1)統(tǒng)計興趣類中所有內(nèi)容頁面的數(shù)目N; 2)求出所有頁面的特征詞的并集KK1,K2,Km作為用戶興趣類向量的候選特征詞; 3)統(tǒng)計特征詞Ki在多少篇文檔中出現(xiàn),將其數(shù)目記為Ni; 4)利用TF-IDF方法計算各個特征詞的權(quán)值:
10、160; 其中,tfij(I =1,2,m; j =1,2,n)表示特征詞Ki在頁面Pj中的權(quán)值; 依次計算了各個特征詞的權(quán)值后,就可得用戶的興趣類向量。 定義:興趣類特征向量由一組特征詞及其權(quán)值構(gòu)成,表示為:uc(K1,W1),(Ki,Wi),(Km,Wm),其中Ki K(K為興趣類特征詞全集),Wi表示其對應(yīng)的權(quán)值。 4.2 用戶興趣存儲方式 為了區(qū)分用戶的不同興趣類別,我們將用戶的興趣表示成與興趣分類參考模型相一致的類似于樹的結(jié)構(gòu)形式,稱為用戶興趣樹。在大多情況下,用戶興趣樹只是興趣
11、分類參考模型的部分映射。這種樹形結(jié)構(gòu)可以保存用戶的興趣類型信息,也可以保存用戶興趣特征詞的信息,如圖2示: 樹中除虛擬根結(jié)點外,中間兩層表示用戶興趣類別的結(jié)點稱為興趣結(jié)點,最底層的結(jié)點稱為特征詞結(jié)點。為了適應(yīng)用戶興趣的變化,我們把用戶興趣分為長期興趣和短期興趣。用戶的兩棵興趣樹,可單獨用來進行個性化分析,也可綜合起來使用。 4.3 用戶個性化模型表示 在此提出的個性化模型仍然是使用傳統(tǒng)的詞頻法來衡量用戶的興趣,下面介紹一下個性化模型中對用戶興趣的各種描述方式。 定義:興趣類特征詞集T(ci)由類ci中的特征詞構(gòu)
12、成,表示為:t1,t2,tk,其中ti(1ik)表示特征詞名稱,k為特征詞總個數(shù)。 定義:用戶興趣集C由用戶所有的興趣類別構(gòu)成,表示為:c1,c2,cm,其中ci (1im)為用戶感興趣的興趣類別名稱,m表示用戶興趣類別總數(shù)。 用戶的長期興趣和短期興趣也可分別拿來使用,它們相對獨立,長期興趣比較穩(wěn)定,短期興趣則能體現(xiàn)用戶最近的興趣。將個性化模型用于個性化服務(wù)系統(tǒng)時,可以抽取不同層次的興趣類信息對用戶的興趣進行描述。第一層興趣結(jié)點的信息,可以粗略了解用戶的興趣方向,第二層結(jié)點的信息,可以更詳細的了解用戶的興趣,當(dāng)然也可以提取用戶興趣全集。 4.4
13、160; 用戶個性化模型更新 在基于內(nèi)容的興趣表示方式中,用戶的興趣大多采用加權(quán)關(guān)鍵詞向量表示,并沒有將用戶的興趣歸類分析,興趣更新的方法大致可分為以下兩種5。 興趣交集淘汰法 這種方法以用戶反饋的新文檔向量作為當(dāng)前的興趣向量,而興趣模型中存儲的向量則作為歷史興趣向量。做法為:將興趣模型中的興趣詞條與當(dāng)前興趣向量中的詞條作對比,若相同,則把該詞條在兩向量中的權(quán)值相加后得到的新權(quán)值賦予用戶當(dāng)前向量中的相同詞條;若不同,則保留當(dāng)前興趣向量中的詞條和權(quán)值。這種方法節(jié)省了存放用戶興趣信息的容量,在用戶興趣發(fā)生轉(zhuǎn)移時,能快速調(diào)整模型,及時獲得新
14、的興趣信息,但由于模型中只記錄了當(dāng)前興趣,并不保留歷史興趣,記錄的用戶興趣信息不全面,導(dǎo)致了用戶興趣淘汰太快,而且容易引起興趣反復(fù)變化。 興趣合集歸并法 這種方法同樣需要對用戶反饋的新文檔進行抽詞,得出文檔向量,然后進行詞條對比操作。詞條相同,則將其權(quán)值相加后得到的新權(quán)值作為模型中該詞條的權(quán)值;詞條不相同,就分別保留不作任何改動。這種方式,意在降低用戶興趣變化的影響力,但該方法獲取用戶興趣信息周期相對較長,而且隨著時間的積累,模型中存放的興趣信息越來越全面,將逐漸弱化用戶興趣之間的差別。 為了更好的監(jiān)測到用戶興趣的變化,更好的解決興趣交集淘汰法對興趣淘汰太快和興趣合集歸并法對興趣變化適應(yīng)太慢的
15、問題以及減小存儲空間的問題,我們嘗試了將用戶興趣分為短期興趣和長期興趣來分別對待。 短期興趣以用戶當(dāng)前的興趣為主,每個特征詞都添加了時間屬性,用以來區(qū)分新舊興趣。當(dāng)短期興趣中的信息積累到一定的程度,構(gòu)成穩(wěn)定興趣時,可將其轉(zhuǎn)化為長期興趣,因此長期興趣存儲了長期以來用戶的主要興趣,這樣可以更好地描述用戶的興趣特征。 另外,目前對用戶興趣的分析大都是基于關(guān)鍵詞,由于詞在語義上的多義性,一定程度上影響了用戶模型的準確度,所以,我們采取關(guān)鍵詞和主題概念相結(jié)合的方法來表示用戶的興趣特征,通過挖掘蘊含在文檔中的概念,建立加權(quán)概念層次的興趣模型,描述和捕捉用戶的興趣偏好。 人類記憶遵循自然遺忘的規(guī)律,我們假設(shè)
16、用戶興趣的遺忘也遵循這個規(guī)律,即用戶的興趣也隨著時間的流逝逐漸減弱。用戶最近多次訪問的詞條往往最能代表用戶最近的興趣,而長時間沒有更新的詞條,不再代表用戶的當(dāng)前興趣,可以通過讓其不斷“衰老”達到過濾的目的。 模型的更新過程分三步實現(xiàn): 短期興趣的更新,包括加入用戶的最新興趣和對舊興趣的遺忘。 短期興趣向長期興趣的轉(zhuǎn)化,將短期興趣中相對比較重要的特征詞及興趣度超過一定閾值的興趣類轉(zhuǎn)成長期興趣。 長期興趣的更新,隨著時間的推移,也需對用戶的長期興趣逐漸遺忘,逐漸淘汰用戶不感興趣的主題,重點突出用戶的主要興趣愛好。 這樣,個性化模型就能根據(jù)
17、用戶瀏覽的信息,動態(tài)地感知用戶興趣需求的變化,并通過不斷更新來逐步明確用戶的興趣需求。 5 結(jié)論及將來的工作 本文詳細描述了用戶模型的建立及更新過程。首先,根據(jù)用戶首次使用系統(tǒng)時的定制信息生成用戶長期興趣樹,利用第一次挖掘的用戶興趣生成初始的短期興趣樹;然后,分析、比較了兩種更新用戶興趣的方法和基于時間窗機制的遺忘方法,模擬人類記憶的遺忘規(guī)律,提出一種新的遺忘機制;最后,利用這種遺忘機制,不斷的更新、優(yōu)化模型, 目前,關(guān)于個性化服務(wù)方面的相關(guān)研究還有很多,本文只是關(guān)于個性化服務(wù)方面研究的一種方法。
18、我們相信,隨著個性化服務(wù)模式的發(fā)展,個性化建模技術(shù)將得到進一步的快速發(fā)展,并能得到廣泛應(yīng)用。 參考文獻 1 Pazzani M, Muramatsu J. and Billsus D. Syskill&Webert: Identifying Interesting Web Sites. Proceeding of the 13th National Conference on Artificial Intelligence, 1996:54-61. 2 Joachims T., Freitag D.and Mitchell T. WebWatcher: A Tour Guide for the World Wide Web. Proceeding of 15th International Joint Conference on Artificial Intelligence, August, 1997. 3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- abb仿真教學(xué)課件
- 王子的課件圖片大全
- 油罐附件行業(yè)深度研究分析報告(2024-2030版)
- 微電腦電熱開水壺項目投資可行性研究分析報告(2024-2030版)
- 中國高壓造影耗材市場運營態(tài)勢分析及投資前景預(yù)測報告
- 量子退相干抑制-洞察及研究
- 降壓藥演講講課件
- 王亞平的英文課件教學(xué)
- 湖北三峽職業(yè)技術(shù)學(xué)院《建筑工程造價》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國礦業(yè)大學(xué)徐海學(xué)院《大國之都北京的城市歷史與文化》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年冬季N0M世界青少年數(shù)學(xué)思維研學(xué)活動模擬題4年級
- 石材營銷渠道的數(shù)字化轉(zhuǎn)型
- 駕駛員雇傭協(xié)議書
- GB/T 44192-2024政務(wù)服務(wù)便民熱線數(shù)據(jù)應(yīng)用指南
- 安徽省池州市貴池區(qū)2023-2024學(xué)年七年級下學(xué)期末歷史試卷
- 酒店運營管理 智慧樹知到期末考試答案章節(jié)答案2024年山東青年政治學(xué)院
- (高清版)JTG 3810-2017 公路工程建設(shè)項目造價文件管理導(dǎo)則
- 一人出資一人出力合伙協(xié)議范本完整版
- 國家基層糖尿病神經(jīng)病變診治指南(2024版)
- 長安汽車使用說明書
- 肺栓塞診斷與治療指南
評論
0/150
提交評論