網絡信息檢索工具的比較研究.doc_第1頁
網絡信息檢索工具的比較研究.doc_第2頁
網絡信息檢索工具的比較研究.doc_第3頁
網絡信息檢索工具的比較研究.doc_第4頁
網絡信息檢索工具的比較研究.doc_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網絡信息檢索工具的比較研究摘要隨著Internet的迅速發展,網絡上的信息越來越多,但由于這些信息缺乏合理有效的組織,使得許多用戶面對浩瀚的信息顯得手足無措,無法準確地獲取自己所需要的信息。針對這種情況有些組織和個人開發出多種用以查找網絡信息的檢索工具.對目前廣為使用的網絡信息檢索工具進行功能比較,選擇其綜合性的網絡信息檢索工具。以便用戶能夠更快捷地找到所需信息。關鍵詞:檢索工具,搜索引擎,Google,百度NETWORK INFORMATION RETRIEVAL TOOLS FOR COMPARATIVE STUDAY ENGLISH AbstractAlong with Internet rapidly expand, In the network information are getting more and more But because these information lack the reasonable effective organization Causes many users appears helpless facing the vast information Is unable information which gains itself to need accurately Somewhat organizes in view of this kind of situation and develops personally many kinds of uses to search the network information the retrieval tool the current widely used by the network information retrieval search engine tools are compared functionally through comparing to found the respective merits and demerits users can more quickly find the information needed.Key words: Tool Of Retrieves, Search Engine, Google,Baidu目 錄摘要 IAbstractII緒論一網絡信息檢索工具概述 1(一)網絡信息檢索工具的概念1(二)網絡信息檢索工具的特點 2二 網絡信息檢索工具的分類.3(一)檢索型網絡信息檢索工具(二)目錄型檢索工具.(三) 元搜索引擎. .三、網絡信息檢索工具的比較6(一)檢索型網絡信息檢索工具與目錄型檢索工具的比較.6(二)目錄型網絡信息檢索工具與元搜索引擎的比較7(三)元搜索引擎檢索工具 .7結束語8參考文獻8謝辭8緒論隨著Internet的迅速發展,網絡上的信息越來越多,但由于這些信息缺乏合理有效的組織,使得許多用戶面對浩瀚的信息顯得手足無措,無法準確地獲取自己所需要的信息。針對這種情況有些組織和個人開發出多種用以查找網絡信息的檢索工具。對目前廣為使用的網絡信息檢索工具進行功能比較,通過比較找到各自的優點和缺點,以便用戶能夠快捷找到所需信息。了解網絡信息檢索工具,熟悉其功能,將大大提高我們的檢索效率。網絡檢索系統擁有全世界數量眾多的用戶,吸引了大量的廣告,為電子信息的增值服務提供了廣闊的空間。網絡檢索系統已成為新的投資熱點。網絡檢索系統不再僅僅是一種檢索工具,而且成為一項產業,它的商業利益成為推動系統完善和擴展的主要動力,網絡信息的檢索與利用由公用性轉向商業化。美國著名的數字媒體評估公司Jupiter Media Metrix日前發布研究報告稱,“搜索引擎公司推出的付費添加服務是一個正在興起的、前景光明的因特網領域,相對于目前低迷的在線廣告市場來說,它的發展潛力是非常巨大的。”網絡信息檢索工具是信息檢索效率的關鍵因素。傳統的檢索工具已不能適合新的網絡和信息發展的需要。目前開發的能在廣域網環境下運行的信息檢索工具,對于網絡的檢索者來說,最重要的是熟悉這些工具的性能,并且運用有效的檢索策略,只有這樣才能避免淹沒在大量的無關信息中。一、網絡信息檢索工具概述(一)網絡信息檢索工具的概念隨著Internet的迅速發展,網絡上的信息越來越多,但由于這些信息缺乏合理有效的組織,使得許多用戶面對浩瀚的信息顯得手足無措,無法準確地獲取自己所需要的信息。針對這種情況有些組織和個人開發出多種用以查找網絡信息的檢索工具。早期的Internet檢索工具有針對FTP資源的Archive,針對Gopher資源的Veronica和Jughead,以及針對整個Internet網上文本信息資源的WAIS等。隨著WWW的發展,針對WWW資源的各種檢索工具已成為網絡檢索工具中的主流,它們有Yahoo、AltaVista、Excite、HotBot、Lycos、OpenText、WebCrawler和MetaCrawler等.這些檢索工具大多是由非圖書館專業技術人員設計的,由于缺乏統一的網頁描述標準,所以在各自對自己的數據庫進行檢索時的方法各不相同,各有自身的優缺點。本文選擇了其中六種檢索工具,它們分別是Lycos、Alta Vista、Excite、Open Text、Yahoo和Magellan,分析了它們在信息收集方法、索引范圍與檢索方法和檢索結果格式三個方面的異同,并在此基礎上,從圖書館員的角度出發,對未來網絡檢索工具的改進進行了探討。(二)網絡信息檢索工具的特點1 交互式作業方式 所有的網絡信息檢索工具都具有交互式作業的特點,因此具有良好的信息反饋功能和瞬間反應功能。這兩個指標在傳輸信息檢索系統性能的最重要指標,在網絡環境下也具有同樣的意義。2 用戶透明度網絡信息檢索對用戶屏蔽了網絡的各種物理差異,使用戶在使用這些服務時感受到明顯的系統透明度。這里所指的物理差異包括主機的硬件平臺、操作系統等軟件上的差異、客戶程序和服務程序版本上的差異、主機的地理位置、信息的存儲方式甚至通信協議的差別(如WWW客戶程序可以通過多種協議使用各種不同的信息資源)等。這一特點對網絡環境下的信息檢索來說是十分關鍵的。3 信息檢索空間的拓寬信息檢索空間是衡量信息檢索工具的重要指標之一。網絡信息檢索在這方面具有傳統信息檢索和Internet基本信息服務所不具備的優勢。以FTP為例,盡管使用FTP可以檢索所有的FTP服務器,但是用戶必須預先知道這些服務器所在的主機地址,而且在某一時刻只能使用一個FTP服務器。網絡信息檢索工具的工作方式則與此不同,它們可以同時使用多個主機甚至是所有主機的某種資源而且用戶不必知道它們的具體地址。這一特點為用戶帶來的好處上顯而易見的。4 友好的用戶界面與Internet的三大基本信息服務相比,網絡信息檢索系統的用戶界面要友好得多,特別是一些商業化軟件(如Internet Explorer和Netscape Navigator)。即使是Internet上的一些免費軟件(如MS Windows和Unix下的各種服務程序和客戶程序)也設計得相當不錯。對于有一定微機使用經驗的人來說,學會使用這些軟件是輕而易舉的事情。Internet的普及在很大程度上是得益于這些設計精良的軟件。詳細描述文獻的內容特征,外表特征;每條文獻記錄必須有檢索標識;文獻條目按一定順序形成一個有機整體;能夠提供多種檢索途徑。二 網絡信息檢索工具的分類(一)檢索型網絡信息檢索工具在這里我們要向網絡用戶提供一些世界上有名的網絡搜索引擎。這些專業搜索引擎要比國內中文網站的搜索引擎起步早,更加完善。起初上網,我主要是利用百度、谷歌等的搜索引擎,但隨著對搜索引擎理解的深入,便發現我們自己的搜索引擎還有許多的問題。比如說百度網,其搜索引擎不夠精確,有時也不完全按照用戶的設定條件來完成搜索任務,形成了許多資源垃圾,為查閱增添了許多麻煩。國內其它搜索引擎也存在著這樣的問題,這說明我們的網上引擎服務正處在發展階段,還不夠完善。一些外國著名的搜索引擎服務公司看準了中國網絡市場這種缺陷,及時地打入中國的市場。目前,幾個著名的國際搜索引擎公司都有中文檢索搜尋功能,這極大地方便了我們獲取重要資料。這些有名的搜索引擎公司服務質量好、服務完善、精確匹配高,大大提高了文獻提取的效率。更為重要的是,我們要獲得國際上的資源,就更離不開它們了。前些日子,我和一位美國史學專家探討如何搜索到有用的中外資料時,他毫不猶豫地向我提供了GOOGLE搜索引擎。我打開一看,這真是一個方便、快捷而又個人化的搜索引擎。它的搜索功能和結果列表篩選是國內網站無法比擬的。因此,我建議大家在以后進行搜索時,應該使中外的搜索引擎兼顧使用,這樣才能達到預想的效果。 檢索型搜索引擎是提供給用戶輸入檢索式代替用戶在互聯網上進行網絡搜索查詢的工具。了解搜索引擎的基礎知識與使用技巧,可以大大提高搜索信息的效率。目前世界上最大的搜索引擎是Google、MSN和雅虎,MSN主要是美國商業目錄搜索引擎,主要為用戶提供教育、新聞、媒體及娛樂信息。中文綜合性搜索引擎有:百度、Google、中國搜索聯盟、新浪、搜狐、網易、雅虎、TOM、3721等,其中百度是目前最具影響力的中文搜索引擎。綜合性搜索引擎針對任何用戶,收錄各個方面、各個學科、各個行業的信息,包括不同媒體的、正式與非正式出版的、社會科學的和自然科學的、生活性的和娛樂性的、系統的和零散的信息,用起來非常方便,但其所涵蓋信息的內容比較寬泛,檢準率不高,一搜就是幾千甚至上萬條記錄,必須對這些記錄進行二次檢索,才能滿足一般用戶的瀏覽性檢索需要。專業性搜索引擎則不同,可以就某一專業進行專門檢索,其檢準率比較高,如專門用于搜索新聞的Deja News、搜索中國企業定制產品的中國制造網,搜索全球企業站點的陽光之路國際商務網,搜索中國建筑的中國砌體等等。 公認較好的搜索引擎有: 中文搜索引擎:網易、搜狐、網絡指南針、亞洲搜索、若比鄰、中文雅虎; 英文搜索引擎: YAHOO、EXCITE、INFOSEEK GUIDE、LYCOS。(二)目錄型檢索工具 目錄式搜索引擎是以人工或半人工方式收集信息,建立數據庫,由編輯人員在訪問了某個web站點后,對該站點進行描述,并根據站點的內容和性質將其歸為一個預先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準確度較高,導航質量也不錯。但因其人工的介入,維護量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內著名的新浪、搜狐、中文雅虎都屬于這種類型。一個網絡目錄包括許多層,最高層(一級)目錄頁總是將因特網資源分成最大范圍、最普通的主題范疇。這些主題范疇一般有1020個,主題鏈接到第二層目錄(另一個頁面),然后在第二層目錄再分出子目錄,一般到第四級。逐層點擊,它將會羅列出一層層的目錄清單,所有的選擇只用鼠標點擊鏈接來實現。網絡資源數不勝數,任何分類目錄都不可能包羅所有的網頁,多數網絡目錄都包括下列典型的一級類目,如商業貿易(business and commercial)、計算機和網絡(computer and Internet)、時事(current events)、娛樂和休閑(entertainment and recreation)、體育(sports)等等,遇到交叉的主題,網絡目錄會在相關的類目下顯示不同的路徑。(三)元搜索引擎檢索工具元搜索引擎是一種調用其他搜索引擎的引擎。它是通過一個統一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索。中文元搜索引擎開發較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。 元搜索引擎彌補了獨立搜索引擎不全的特點,提高了檢索的全面性。現開發出的中文元搜索引擎的數目很少,還有諸多缺陷,需在各方面進一步改進。 元搜索引擎要對各獨立的信息特色進行較細致的調查,以確定自己要收錄的范圍;在對目標搜索引擎的組織中突出獨立搜索引擎的檢索特色,并設計各搜索引擎之間的檢索方式的轉換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務。檢索界面要統一和友好,檢索方法的設置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結果的顯示中要開發出一個有效的檢索結果去重、選擇、排序和優化算法,這是中文搜索引擎開發中的一個重點和難點。 三 網絡信息檢索工具比較(一)檢索型網絡信息檢索工具與目錄型檢索工具的比較 檢索型檢索工具通過用戶直接輸入檢索詞,查找索引數據庫中用檢索詞標引的索引記錄來查找用戶所需要信息資源,檢索方便直接,而且可以使用布爾邏輯,短語或鄰近等基本檢索和模糊,自然語言,概念等高級檢索方式。可以限定檢索對象的地區,網絡范圍,數據類型,時間等,可以滿足特定條件的資源準確定位。以信息查詢、檢索為主,不太重視信息的整理,收錄的網站和網頁數量大,分類目錄為輔。用戶查找信息的時候比較麻煩,要先打開網頁還要輸入關鍵字才能查出自己想要的信息。浪費時間,但它的優點就是對某一問題分析的很透徹,輸關鍵字會有很多相關的文獻和信息,提供用戶查找和使用。而目錄型檢索工具支持多種語言,對包含關鍵詞的熱門搜索在最上方,其他的排序多采用相關性的排序,相關度很高。比如我們國家的百度。百度圖書搜索正式上線,其數據來源于圖書館(如北大圖書館、中科院圖書館、中山圖書館)、電子書數據庫(超星、方正等)和網上書店(如卓越、蔚藍等),所以數據量比GOOGLE大。由于GOOGLE容全文或部分預覽,考慮到圖書版權的問題,因此走的是出版商路線;而百度的目的是放在圖書書目數據上,而不提供圖書內容,因此在搜索結果數量大大超出GOOGLE搜索可以作為一個較好的導購平臺,但是在信息的整合(如加入圖書館藏書信息),仍有所欠缺。這方面,GOOGLE的較好,不僅學術搜索進行了很好的整合,而且還開展了圖書館鏈接計劃,讓所有的圖書館網上數據庫都可以加入到其中。目前,百度圖書搜索雖然僅限于書目搜索,但內容或者說全文掃描作為搜索引擎公司安身立命并確立壟斷性話語權的關鍵,必然會成為百度的下一個戰略目標。Google也是一個相對比較簡單的搜索引擎,但結果處理也有獨到之處。Google經過幾年的發展,現在已經成為登錄用戶較多、服務比較完備、比較簡潔實用的一個搜索引擎,我現在就一直用它。還有Google公司在2004年10月、11月分別推出了的“Google Scholar”和“Google Print”項目。“Google Scholar”項目主要是收集各學科領域內的連續出版物、預訂本、論文和專題報告等內容。“google print主要是用于提供與出版商的鏈接。2004年12月又推出的“Google Library”則主要側重于將一些大型圖書館的館藏進行數字化后納人到其檢索引擎中,方便讀者通過互聯網使用。這3個項目都繼承了Google檢索引擎一貫的頁面風格,可以方便快捷地為檢索者提供所需的相關鏈接。“Google Library”項目的一期計劃主要是與哈佛大學圖書館、牛津大學圖書館、斯坦福大學圖書館、密歇根大學圖書館以及紐約公共圖書館這5家頂級研究性圖書館合作并簽署協議,由圖書館提供其豐富的館藏,而Google負責提供經費與技術,將這些館的館藏掃描成電子版并鏈接到它的檢索引擎中。在www檢索工具當中,檢索型檢索工具的索引數據庫比分類檢索工具的索引數據庫要大點多,在檢索效果方面,檢索型檢索工具占很大的優勢,如果二者配合使用效果會更好。在檢索中高級檢索方式的應用有可能降低檢索效果,中文Yahoo覆蓋的中文信息量較大,查準率也比Cseek(英文檢索工具)高,網上中文信息資源太貧乏,現有的信息當中有學術價值的不多,網絡信息檢索工具還存在著許多不足,尤其是中文檢索工具還有待提高。(二)目錄型檢索工具與元搜索引擎的比較目錄型檢索工具通過用戶瀏覽層次型類別目錄來尋找符合需要的信息資源,目錄按一定的主題分類體系組織,并輔之以年代,地區等分類。用戶一般采取逐層瀏覽目錄,逐步細化來尋找合適的類別直至具體資源。常用的目錄型檢索工具有新浪,雅虎,搜狐等檢索工具。目錄式檢索工具給用戶的感覺就是清晰,打開網站各個方面的信息和知識都有,比檢索型工具更醒目。但也有它的不足。給出的各個信息不夠全面,沒有檢索型工具全面,透徹,解釋的清楚。以分類目錄導航為主,搜索引擎相輔或并重,類目精致且相對較深,收錄網站和網頁往往經過人工選擇,數量相對較少,質量相對較高。目錄型檢索工具與之元搜索引擎比較差別很大,元引擎是一種起檢索中介作用的搜索引擎 它是網絡開發者將網絡資源收集后,以某種分類法進行組織整理并和檢索集成法在一起的信息查詢方式,網絡資源目錄一般采用人工采集和存儲網絡信息,它通常按照網絡資源的主體性質進行分類。以某種分類體系為依據將信息資源分為若干領域的主體范疇,然后再細分為各學科專題目錄,形成一個有信息鏈組成的樹狀結構。網絡目錄的分類往往采用主題分類法,學科分類法,體系分類法,在這一切劃分基礎上,一個目錄包括許多層最高層將網絡資源分為若干范圍大,普通的主題。新浪網是面向全球華人的網上資源查詢系統,所收資源十分豐富,分類規范,細致。該目錄原分階段16大類,一萬多個細目和20余萬個網站。分類檢索是按照首頁的樹型分類主題逐層點擊來查找所需信息的。 網易提供多種語言檢索。其分類目錄是一種開放式管理目錄,業余編輯多。(三)元搜索引擎檢索工具 元引擎是一種起檢索中介作用的搜索引擎。多元引擎本身沒有存放網頁信息的數據庫。當用戶查詢一個關鍵詞時,它把查詢請求轉換成其他數個搜索引擎能夠接受的命令格式,并行地或者有選擇性地訪問這些搜索引擎并查詢這個關鍵詞,處理這些搜索引擎返回的結果,然后再返回給用戶。可以存取世界各地的超媒體文件,內容包括文字、圖形、聲音、動畫、資料庫、以及各式各樣的軟件。 多元搜索引擎是將多個搜索引擎集成在一起,并提供一個統一的檢索界面,且將一個檢索提問的同時發送給多個搜索引擎,同時檢索多個數據庫,再經過聚合,去重之后輸出檢索結果。其優點是省時,缺點是由于不同的搜索引擎的檢索機制,所支持的檢索算法,對提問式的接讀等均不相同,導致檢索結果的準確性差。常用的多元搜索引擎有Dogpile Inferen等。元搜索引擎以超連接的方式,實行對獨立搜索引擎的數據庫選擇,查詢,分析,提煉整合出相關的數據,并把這些搜索引擎返回的結果經過處理后再返回給用戶。元搜索引擎是建立于獨立搜索引擎之上的搜索引擎,可以靈活地選擇所要采用的獨立搜索引擎,充分發揮各個獨立搜索引擎在某個搜索領域的功能與優勢,彌補獨立搜索引擎信息覆蓋面上的局限性,保證了搜索結果的準確性和有效性,在查詢,檢索相關的信息或全文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論