基于web數據挖掘的數字圖書館個性化服務模型研究_第1頁
基于web數據挖掘的數字圖書館個性化服務模型研究_第2頁
基于web數據挖掘的數字圖書館個性化服務模型研究_第3頁
基于web數據挖掘的數字圖書館個性化服務模型研究_第4頁
基于web數據挖掘的數字圖書館個性化服務模型研究_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于web數據挖掘的數字圖書館個性化服務模型研究

近年來,信息技術的成熟和完善迅速在多個領域普及,圖書館領域也不例外。圖書館作為信息資源收集、加工和服務的中心,隨著信息技術的不斷滲透,積累了豐富的數字信息資源,包括各種電子期刊、電子圖書、光盤數據庫、多媒體數據以及海量級的Web數據,也即產生了所謂的數字圖書館。如何才能使用戶方便、快捷地在如此眾多、各具特色的信息資源中找到目標,更好地為用戶提供個性化的服務是數字圖書館服務過程中面臨的一大難題。將Web數據挖掘技術應用于數字圖書館領域就是解決這一難題的有效途徑之一。1數字圖書館的個性化服務1.1國外數字圖書館個性化服務系統現狀1991年美國率先開始數字圖書館的研究,其后,英國、法國、日本、德國、意大利等國也相繼進行數字圖書館研究。在數字圖書館個性化信息服務方面,這些國家同樣也先行一步。目前,個性化數字圖書館在國外已經形成了初步成果,進入實際應用階段。比較完善的數字圖書館個性化服務系統主要有美國洛杉磯國際研究實驗室研究圖書館的MyLibrary@LANL系統、康納爾大學圖書館的MyLibrary@Cornell系統、多倫多大學圖書館的MyLi-brary系統等,并在一定范圍內得到推廣,取得很好的社會效益;英國南安普敦大學使用Ontology技術描述用戶個性化信息,并提出獲取用戶個性化信息的方法【1】。此外,美國華盛頓大學、北卡州立大學圖書館、加州數字圖書館、新加坡國立圖書館等都相繼采用信息定制和推送等方式開發了自己的網絡個性化服務系統,并收到了良好的應用效果【2】。(2)國內學界對數字圖書館個性化服務發展的觀點我國對數字圖書館個性化服務的研究起步較晚,但近年有了突飛猛進的發展,已成為當前圖書情報界研究的一個熱點。早在1999年底,國家科技部支持的“中國數字圖書館示范系統”項目【3】中就提到了數字圖書館的個性化服務問題;2000年初,由北京大學余錦風教授負責承擔的國家社會科學基金資助的“基于Web的數字圖書館定制服務系統”項目【4】開始研究開發實用的數字圖書館個性化定制系統。其后,因個性化服務對數字圖書館的重要性,研究者們更是給予了高度的關注,如李陽暉【5】等人從四個方面探討數字圖書館個性化服務的發展動因;彭駿【6】等人對基于本體的個性化知識檢索模型進行了研究,建立了基于本體的個性化知識檢索模型;熊擁軍【7】等人以關聯挖掘理論為技術基礎,設計出數字圖書館個性化推送服務模型;吳志強【8】等人對協同信息推薦應用于數字圖書館個性化服務領域進行了分析;王發社【9】利用SWOT分析法,具體分析了目前高校數字圖書館個性化服務的優勢、劣勢、機遇和威脅,并在此基礎上提出了數字圖書館個性化服務應該采取的發展策略等。目前,已有一些個性化服務系統投入使用,如深圳市圖書館開發的ILASⅡ圖書館自動化集成系統捆綁的個性化服務子系統,專門為圖書館用戶提供個性化的服務;中國科學院國家科學數字圖書館推出的個性化服務系統,是一個用戶驅動的個性化集成定制門戶;浙江大學圖書館的MyLibrary以及天津市圖書館的“網上家庭虛擬圖書館”等。總體看來這些系統雖然在一定范圍內得到了應用,但在智能性、靈活性、針對性等方面還有待進一步完善。1.2為用戶提供特色的信息服務所謂數字圖書館的個性化服務,是一種針對不同用戶提供不同的服務策略和服務內容的服務模式,其實質就是以用戶為中心,滿足用戶的個性特征和需求特征的服務。個性化服務是基于信息用戶的信息使用行為、習慣、愛好、特點及用戶特定的需要,向用戶提供滿足其個性化需求的信息內容和系統功能的一種服務。它既是一種能夠滿足數字圖書館用戶的個體需求的服務,即根據用戶提出的明確要求提供信息服務,或通過對用戶特征、使用習慣的分析而主動的向用戶提供其可能需要的信息服務,又是一種培養個性、引導需求的服務。個性化服務包括個性化和主動性兩個方面。個性化的實質是針對性,即對不同的用戶采用不同的服務策略,提供不同的服務內容;主動性則是指很少需要用戶做什么,系統自動按照用戶的信息需求提供相應的服務。個性化主動服務將使用戶通過盡可能小的努力獲得盡可能好的服務。1.3提供個人成長的和個性化的需求個人書架是數字圖書館為用戶建立個性化的信息資源庫,即私人數據庫。在為用戶提供個性化服務的過程中,以提供保存其私人信息的空間。用戶找到的符合自己需求的資源收藏在私人數據庫中,也稱其為個人收藏夾。(2)用戶興趣識別數字圖書館個性化服務系統中應該建立用戶的個人檔案,可依據歷史訪問信息等識別用戶興趣,為用戶分類。在不同類型的用戶輸入相同檢索條件時,根據不同用戶的興趣愛好,過濾無關信息,從而提高檢索結果的針對性,實現個性化檢索。(3)信息反算機服務功能信息分類定制是指用戶可以按照自己的目的和需求,設定所需信息資源的類型、表現形式、系統服務功能等。信息推送服務是運用推送技術來實現的一種個性化主動信息服務方式。推送技術又稱“Web廣播”,它是通過一定的標準和協議,在In-ternet上按照用戶的需求,主動傳送用戶感興趣的信息的一項計算機技術【10】。(4)智能代理技術的運用用戶在檢索信息時,有時很難清楚地知道自己的興趣愛好和需求,或者用戶知道自己的興趣和需求,但卻不知道如何貼切地表達出來。智能代理技術的運用很好地滿足了用戶的這一需要,它是一種能夠完成委托任務的智能計算機系統,能模仿人的行為執行一定的任務,不需要或很少需要用戶的干預和指導。智能代理通過跟蹤用戶在信息空間中的活動,自動捕捉用戶的興趣愛好,主動搜索并提供可能引起用戶興趣的信息【11】。2web挖掘技術Web挖掘是一項綜合技術,涉及Web、數據挖掘、計算機語言學、信息學等多個領域。Web挖掘就是從與WWW相關的資源和行為中抽取感興趣的、有用的模式和信息。Web挖掘從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似,都是在對大量的數據進行分析的基礎上,作出歸納性的推理,預測用戶的行為。一般地,Web挖掘可以分為三類:Web內容挖掘(Webcontentmin-ing)、Web結構挖掘(Webstructuremining)、和Web使用模式的挖掘(Webusagemining)。這三類Web挖掘都可應用于數字圖書館領域,為數字圖書館更好地滿足用戶個性化服務提供技術支持。通常,Web數據挖掘的流程分為四個階段:源數據的收集、數據預處理、進行挖掘、挖掘結果的分析。下面重點結合數字圖書館的特征分析源數據收集階段的關鍵內容,其他階段與普通領域基本相同,在此不再贅述。2.1記錄和存儲訪問記錄方式在Web挖掘中有一個很重要的步驟就是要為挖掘算法找到合適的數據。在數字圖書館領域進行Web數據挖掘的數據來源主要有以下兩個方面:(1)服務器端數據的收集(ServerLevelCollec-tion)。可以從數字圖書館的Web服務器、代理服務器的Web日志(Weblog)文件中收集數據,此部分信息是最簡單和最方便的數據來源,它記錄了每一次網頁請求信息。啟動數字圖書館Web服務器的日志記錄功能后,每當用戶通過瀏覽器請求一個網頁時,這個請求被記錄在訪問日志中。代理服務器就把所記錄的信息保存在文本文件中,通常以“.txt”或“.log”作為文件的擴展名。數字圖書館Web日志文件是由一條條記錄組成,一條記錄就記錄了用戶對Web頁面的一次訪問。Web服務器的日志記錄格式如表1所示:另外,數字圖書館Web服務器還可以存儲其他的Web使用信息,比如Cookie,以及用戶提交的查詢數據等。Cookie是由服務器產生的,用于記錄用戶的狀態或者訪問路徑。由于涉及到用戶的隱私問題,使用Cookie需要用戶的配合。查詢數據是用戶在查詢自己需要的信息時在服務器端產生的記錄。另外,服務器同時也記錄文件的有關信息,例如,文件創建者、修改時間等。此外,用戶的借閱數據也可用于進行個性化特征的分析。(2)包監測技術(packetsniffingtechnology)。包監測技術是指監視所有到達服務器的數據,提取其中的HTTP請求信息。此部分數據主要來自瀏覽者的點擊流(Click_stream),用于考察用戶的行為表現。網絡底層信息監聽過濾指監聽整個網絡的所有信息流量,并根據信息源主機、目標主機、服務協議端口等信息過濾掉不關心的垃圾數據,然后進行進一步的處理,如關鍵字的搜索等,最終將用戶感興趣的數據發送到給定的數據接受程序,存儲到數據庫中進行分析統計。其工作流程如圖1所示。2.2利用前訪問者的學習體驗將Web數據挖掘技術應用于數字圖書館,可以發現許多有用信息,如訪問者的興趣愛好,頻繁訪問路徑、用戶的期望位置、重要頁面等,從而為數字圖書館個性化服務提供了重要的信息基礎。(1)eb簽到訪問Web站點的設計一般遵循一種分類結構,即一個頁面下的子頁面的組織是根據其子頁面的類別來安排的。用戶對Web站點訪問,反映了用戶的興趣愛好。通常用戶瀏覽某Web頁面所用的時間與該Web頁中字符的數目的比值能有效地揭示用戶興趣。用戶在不感興趣的頁面的訪問時間較短,在感興趣的頁面停留的時間較長。我們可以利用用戶瀏覽路徑信息和時間信息挖掘用戶對頁面信息的感興趣程度,從而預測用戶的興趣愛好,為其定制個性化的訪問空間。(2)用戶訪問頁面的相關性對數字圖書館Web站點的鏈接結構的優化可以從兩方面來考慮:一方面,通過對Weblog的挖掘,發現用戶訪問頁面的相關性,從而對密切聯系的網頁之間增加鏈接,方便用戶使用;另一方面,通過對Weblog的挖掘,發現用戶的期望位置。如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導航鏈接,從而實現對數字圖書館Web站點的優化。(3)檢索所產生的利益以數字圖書館歷史訪問記錄為基礎,通過Web數據挖掘技術分析出各用戶所關注的重點領域及內容,從而使用戶輸入關鍵字后,只檢索出該用戶重點關注領域的內容或將該用戶重點關注領域的檢索結果排在前面,方便用戶使用,從而提高了信息檢索的個性化及智能性。(4)基于web數據挖掘的用戶群體分析通過Web數據挖掘對已知類別的個體進行歸納,找出各類的特征屬性,即分類模式。用戶分類研究包括用戶的分類、用戶的屬性和特征分析、用戶滿意度分析、學科交叉分析及學科發展方向預測等。數字圖書館可以應用Web數據挖掘技術對用戶群體按照年齡、學歷、學科等因素進行分類,將用戶進行群體細分。通過這種手段,可以更清楚地了解用戶,了解他們的特點,分析不同的群體借閱量,從而有針對性地提供不同的服務,以提高數字圖書館的服務質量。(5)利用資源優化服務通過對用戶借閱的文獻信息進行關聯分析,可以及時去除舊的、使用較少的信息,而不斷補充新的、需求較多的資源,包括書籍在內的其他資源都可以得到及時的優化。這樣既可以優化各類資源,減少冗余的空間以及節省開銷和成本,同時也提高了服務的效率。從而可以更加客觀、全面、智能地建立館藏資源,合理引導數字圖書館的館藏建設。(6)問的路徑及所使用的頁面通過Web數據挖掘技術,可識別出數字圖書館網站內頻繁訪問的路徑及所有頁面中的重要頁面(用戶訪問次數比較多的頁面),這樣就可將重要的分類信息及新書信息放在這些頁面或頻繁訪問路徑上,從而方便訪問者瀏覽閱讀,提高圖書利用率。3基于web數據庫的解用戶需求分析工具將Web數據挖掘技術應用于數字圖書館領域,可為用戶提供深層次的個性化服務,通過Web數據挖掘可從歷史數據中發現用戶的訪問模式、用戶興趣以及資源之間的關聯等信息。基于Web數據挖掘的數字圖書館個性化服務模型建立在數據倉庫、聯機分析和數據挖掘的基礎之上,該模型是數字圖書館了解用戶需求的綜合分析工具,運行在網站的WebLog數據庫、用戶數據庫或數據倉庫之上。主要包括以下幾部分(如圖2所示):(1)數據提取和凈化功能:用來根據挖掘目標從Web服務器日志數據庫或數據倉庫中抽取相關數據進行二義性分析,消除不一致性,為下一步挖掘提供優質的數據源。(2)數據挖掘功能:是一個挖掘驅動部件。它根據挖掘要求到Web數據挖掘算法庫中去選擇合適的挖掘方法,并且使用該方法去執行挖掘任務。(3)Web數據挖掘算法庫:是一個數據挖掘分析方法的綜合性算法庫。它以插件的方法來組織各種挖掘算法,使各種方法可以方便的插入,實現了可擴充性和易選擇性,同時它還可以不斷的融入新的挖掘方法,從而提高挖掘的效率。(4)評估界面:以一種直觀的方式來表現數據挖掘的結果,提供一個和分析人員交互的友好界面。(5)挖掘結果的輸出功能:將挖掘結果用最直觀的報表等形式輸出。利用挖掘出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論