


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、個性化搜索引擎關鍵技術及應用摘要:網絡中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先介紹了基于英特網的搜索引擎的系統結構,然后從網絡機器人、索引引擎、Web服務器3個方面進行說明,并從個性化搜索引擎的“個性化”進行探討。關鍵詞:搜索引擎;搜索器;索引器;個性化信息過濾0引言搜索引擎(searchengine是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。隨著WWW信息爆炸式生長和人們對搜索引擎關注點的轉變(從如何找到更多的信息轉移到如何找
2、到準確、有用的信息),現有搜索引擎越來越不能滿足人們的查詢要求,搜索引擎技術面臨著前所未有的挑戰。這就需要人們不斷鉆研新的快速、高效的搜索引擎。搜索引擎一般由信息搜集系統、索引數據庫、檢索器和用戶接口4個部分組成:信息搜集系統:信息搜集系統又稱為搜索器,即各種搜索引擎的蜘蛛、爬蟲,其功能是在互聯網中漫游,發現和搜集信息;索引數據庫有時稱索引器,其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器:其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,并能按用戶的查詢需求合理反饋信息;用戶接口:用戶接口即傳統的搜索框,其作用
3、是接納用戶查詢、顯示查詢結果、提供個性化查詢項。1搜索引擎的構成1.1網絡機器人網絡機器人也稱為“網絡蜘蛛”(Spider),是一個功能很強的Web掃描程序。它可以在掃描Web頁面的同時檢索其內的超鏈接并加入掃描隊列等待以后掃描。蜘蛛的工作職責是發現新的網頁并收集這些網頁的快照,然后分析該網頁。蜘蛛以抓取頁面為主,比如掃描網頁,所有的搜索引擎都能夠實現深層檢索和快速檢索。在深層檢索中,蜘蛛可以查找和掃描網頁內的所有內容;在快速檢索中,蜘蛛不遵循深層檢索的規則,只搜索重要的關鍵詞部分,而不檢查和掃描網頁里的所有內容。大家都知道網站最重要的是快照時間,也就是說蜘蛛爬行和收錄的網頁速度越快,就說明這
4、個網站在搜索引擎心中越重要,比如新華網和人民網,蜘蛛每小時爬4次以上,有的網站一個月也不見得能被蜘蛛爬一次??煺盏淖ト〕潭热Q于網站內容的流行度、更新速度與網站域名的新舊。在蜘蛛的爬行規則中,如果有許多外部鏈接指向這個網站,那就說明這個網站比較重要,所以抓取這個網站的頻率很高。當然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網站,這樣需要更多的時間和成本,才能得到更全面的搜索1.2索引與搜索網絡機器人將遍歷得到的頁面存放在臨時數據庫中,如果通過SQL直接查詢信息速度將會難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放,而且索引需要及時的更新。用戶輸入搜索條件后搜索程
5、序將通過索引數據庫進行檢索然后把符合查詢要求的數據庫按照一定的策略進行分級排列并且返回給用戶。1.3Web服務器客戶一般通過瀏覽器進行查詢,這就需要系統提供Web服務器并且與索引數據庫進行連接??蛻粼跒g覽器中輸入查詢條件,Web服務器接收到客戶的查詢條件后在索引數據庫中進行查詢、排列然后返回給客戶端。2搜索引擎的分類搜索引擎按其工作方式主要可分為3種,分別是全文搜索引擎(FullTextSearchEngine)、目錄索引類搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine。2.1全文搜索引擎全文索引引擎是名副其實的搜索引擎,國外代表有Goog
6、le,國內知名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。根據搜索結果來源的不同,全文搜索引擎可分為兩類:一類擁有自己的網頁抓取、索引、檢索系統(Indexer),有獨立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機器人”(Robot)程序(這三種稱法意義相同),能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,女口Lycos搜索引擎。2.2目錄搜索引擎實際上它們算不上是搜索引擎
7、,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo。其他著名的還有OpenDirectory(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬于這一類。2.3元搜索引擎元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。3搜索引擎技術的現狀目前的搜索引擎仍然存在不少的局限性。概括起來主要有信息丟失、檢索結果中存在著大量垃圾信息、對自然語言提問沒有理解能力、對多媒體內容的檢索尚不成熟等等。本文認為未來的搜索引擎應考慮這
8、樣幾個方向:智能化搜索、個性化搜索、結構化搜索、專業化搜索和本土化搜索等。4個性化搜索引擎的關鍵技術4.1個性化信息服務個性化信息服務主要包括兩個方面的含義:第一、個性化信息是反映人類個體特性的一切信息,這些信息包括了這個個體所具有的各種屬性的描述;第二、個性化信息是由人類個體特性所決定的其對信息的需求的一種信息組合,也就是由人類個性對信息需求的決定關系而產生的一系列對個體有用的信息。4.2Agent技術Agent的概念由Minsky在其1986年出版的思維的社會一書中提出。Minsky認為社會中的某些個體經過協商之后可求得問題的解,這些個體就是Agent。他還認為Agent應具有社會交互性和
9、智能性。從此,Agent的概念便被引入人工智能和計算機領域,并迅速成為研究熱點。在分布計算領域,人們通常把在分布式系統中持續自主發揮作用的、具有以下特征的活著的計算實體稱為Agent。一般認為Agent具有如下特征:自主性、交互性、反應性、主動性。5結束語目前,國人已經越來越關注中文個性化搜索引擎的開發,雖然現在已經有了一定的基礎,但它距離成為一個成熟的產品,道路還很漫長。搜索引擎的個性化服務使搜索引擎能夠分析檢索者的瀏覽行為來學習檢索者的需求,利用搜索引擎的現有服務,有選擇地為用戶提供個性化服務,達到向用戶推送他們真正感興趣的信息。而現在,飛速發展的智能代理技術以一種完全不同的方式提供智能化的信息獲取和處理手段,能夠滿足用戶的個性化需求。因此,搜索引擎的發展應是在實現個性化的同時,向智能化服務的方向發展。參考文獻:1 陳根栓,寇敏,宋文中Web搜索引擎技術及應用J.山西電子技術,2000(6).2 莊毅,黎浩宏.搜索引擎發展現狀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運輸垃圾清理合同
- 2025年內蒙古事業單位招聘考試綜合類無領導小組討論面試真題試卷
- 2025年美發師(高級)實操技能考核試卷:時尚發型創作實操考核總結
- 2025年美容師(高級)美容儀器使用知識考核試卷
- 舞蹈學校班級管理制度
- 船舶防撞橋梁管理制度
- 社區經費撥付管理制度
- 直播售后倉庫管理制度
- 種植藥材用工管理制度
- ktv領隊管理制度
- 顱腦CT影像課件
- 同濟大學論文答辯通用PPT模板
- AFC檢測技術規程
- 部編人教版二年級下學期數學期末學業質量監測復習課堂知識練習題
- 餐飲行業抖音代運營方案
- 《聰明人和傻子和奴才》 課件
- Fleischner指南解讀
- 建筑工地安全生產百日攻堅行動實施方案
- 電廠度電機維修技術規范書正式
- 年產40萬噸甲醇合成工藝設計
- 國家開放大學《管理英語3》章節測試參考答案
評論
0/150
提交評論