



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
捜索引華分類和原理“搜索引擎”這個術語一般統指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實他們是不一樣的,其區別主要在于返回的搜索結果列表是如何編排的。一、 搜索引擎的分類獲得網站網頁資料,能夠建立數據庫并提供查詢的系統,我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullTextSearchEngine)和分類目錄(Directory)。全文搜索引擎的數據庫是依靠一個叫“網絡機器人(Spider)”或叫“網絡蜘蛛(crawlers)”的軟件,通過網絡上的各種鏈接自動獲取大量網頁信息內容,并按以定的規則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統。分類目錄則是通過人工的方式收集整理網站資料形成數據庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄,比如“銀行之家”(/)。全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟件進行,所以數據庫的容量非常龐大,但是,它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站,能夠提供更為準確的查詢結果,但收集的內容卻非常有限。為了取長補短,現在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網站”或“全部網站”,比如Google的全文搜索(/intl/zh-CN/);把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網站”,比如新浪搜索(/)和雅虎中國搜索(/dirsrch/)。在網上,對這兩類搜索引擎進行整合,還產生了其它的搜索服務,在這里,我們權且也把它們稱作搜索引擎,主要有這兩類:1?元搜索引擎(METASearchEngine)。這類搜索引擎一般都沒有自己網絡機器人及數據庫,它們的搜索結果是通過調用、控制和優化其它多個獨立搜索引擎的搜索結果并以統一的格式在同一界面集中顯示。元搜索引擎雖沒有“網絡機器人”或“網絡蜘蛛”,也無獨立的索引數據庫,但在檢索請求提交、檢索接口代理和檢索結果顯示等方面,均有自己研發的特色元搜索技術。比如“metaFisher元搜索引擎”(),它就調用和整合了Google、Yahoo、AlltheWeb.百度和OpenFind等多家搜索引擎的數據。集成搜索引擎(All-in-OneSearchPage)。集成搜索引擎是通過網絡技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示,比如“網際瑞士軍刀”(/%7Efree/search1.htm)。二、 搜索引擎的工作原理全文搜索引擎的“網絡機器人”或“網絡蜘蛛”是一種網絡上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。它為保證釆集的資料最新,還會回訪己抓取過的網頁。網絡機器人或網絡蜘蛛釆集的網頁,還要有其它程序進行分析,根據一定的相關度算法進行大量的計算建立網頁索引,才能添
加到索引數據庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,并按一定的排名規則呈現給我們。不同的搜索引擎,網頁索引數據庫不同,排名規則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同?!觥?▼血H取r文如1 ■—*▼血H取r文如1 引曲訶v >1?■甲a和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網站的信息。隨著收錄站點的增多,現在一般都是由站點管理者遞交自己的網站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,并將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數據庫”中。用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟全文搜索引擎一樣,也是根據信息關聯程度排列網站。需要注意的是,分類目錄的關鍵詞查詢只能在網站的名稱、網址、簡介等內容中進行,它的查詢結果也只是被收錄網站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的詳細地址,一般還會提供各個網站的內容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注意:是相關的網站,而不是這個網站上某個網頁的內容,某一目錄中網站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的)。一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。1?提高搜索引擎對用戶檢索提問的理解。為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從兒個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。垂直主題搜索引擎有著極大的發展空間。網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而乂專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。元搜索引擎,能夠提供全面且較為準確的查詢結果。現在的許多搜索引擎,其收集信息的范圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(METASearchEngine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。三、 主要的搜索引擎介紹這里介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由于現在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。中文搜索引擎及目錄百度(/)<,百度是國內最早的商業化(早期為其它門戶網站提供搜索服務,現在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網絡機器人和索引數據庫,專注于中文的搜索引擎市場,除有網頁搜索外,白度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。白度公司是中國互聯網領先的軟件技術提供商和平臺運營商。中國提供搜索引擎的主要網站中,超過80%由百度提供。百度搜索引擎由四部分組成:蜘蛛程序、監控程序、索引數據庫、檢索程序。門戶網站只需將用戶查詢內容和一些相關參數傳遞到白度搜索引擎服務器上,后臺程序就會自動工作并將最終結果返回給網站。百度搜索引擎使用了高性能的“網絡蜘蛛”程序自動的在互聯網中搜索信息,可定制、高擴展性的調度算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息。百度在中國各地和美國均設有服務器,搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文信息庫,總量達到6000萬頁以上,并且還在以每天兒十萬頁的速度快速增長。百度搜索引擎的特點:基于字詞結合的信息處理方式。巧妙解決了中文信息的理解問題,極大地提高了搜索的準確性和查全率。支持主流的中文編碼標準。包括GBK(漢字內碼擴展規范)、GB2312(簡體)、BIG5(繁體),并且能夠在不同的編碼之間轉換。智能相關度算法。釆用了基于內容和基于超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的信息,從而最大限度保證了檢索結果相關性。檢索結果能標示豐富的網頁屬性(如標題、網址、時間、大小、編碼、摘要等),并突出用戶的查詢串,便于用戶判斷是否閱讀原文。白度搜索支持二次檢索(乂稱漸進檢索或逼進檢索)??稍谏洗螜z索結果中繼續檢索,逐步縮小查找范圍,直至達到最小、最準確的結果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內容。相關檢索詞智能推薦技術。在用戶第一次檢索后,會提示相關的檢索詞,幫助用戶查找更相關的結果,統計表明可以促進檢索量提升10-20%。運用多線程技術、高效的搜索算法、穩定的UNIX平臺、和本地化的服務器,保證了最快的響應速度。百度搜索引擎在中國境內提供搜索服務,可大大縮短檢索的響應時間(一個檢索的平均響應時間小于0.5秒)。&可以提供一周、二周、四周等多種服務方式??梢栽?天之內完成網頁的更新,是目前更新時間最快、數據量最大的中文搜索引擎。9.檢索結果輸出支持內容類聚、網站類聚、內容類聚十網站類聚等多種方式。支持用戶選擇時間范圍,提高用戶檢索效率。10?智能性、可擴展的搜索技術保證最快最多的收集互聯網信息。擁有目前世界上最大的中文信息庫,為用戶提供最準確、最廣泛、最具時效性的信息提供了堅實基礎。11?分布式結構、精心設計的優化算法、容錯設計保證系統在大訪問量下的高可用性、高擴展性、高性能和高穩定性。每個部分均采用N+1的冗余設計,1臺服務
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權轉讓合同-
- 農村土地使用權轉讓與承包合同
- 小學二年級數學100以內三數加減混合運算質量考核模擬題
- 農產品產地保護與品牌建設協議
- 市場開發及銷售戰略合作協議
- 供應鏈精準合作協議
- 車輛銷售與購買合同書
- 網絡文學傳播合作推廣協議
- 農村集體土地流轉服務合同
- 2025年中國熒光護腰帶行業市場發展前景及發展趨勢與投資戰略研究報告
- 2025年班組長個人職業素養知識競賽考試題庫500題(含答案)
- 網絡題庫財務會計知識競賽1000題(僅供自行學習使用)
- 2025海南中考:歷史必考知識點
- 鋁電解電容器
- GB/T 13912-2020金屬覆蓋層鋼鐵制件熱浸鍍鋅層技術要求及試驗方法
- 結構設計總說明(帶圖完整版)分解
- 第二外語(日語)試卷
- 食品營養標簽的解讀課件
- 二手新能源汽車充電安全承諾書
- 品質異常8D報告 (錯誤模板及錯誤說明)指導培訓
- 貴陽市建設工程消防整改驗收申請表
評論
0/150
提交評論