




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
4.1網絡信息資源概述
4.2搜索引擎
4.3開放存取4.1網絡信息資源概述4.1.1網絡信息資源的定義和特點1.網絡信息資源的定義網絡信息資源是指通過計算機網絡可以利用的各種信息資源的總和,即以數字化形式記錄的,以多媒體形式表達的,分布式存儲在網絡計算機的存儲介質以及各類通信介質上,并通過計算機網絡通信方式進行傳遞的信息內容的集合。網絡信息資源將原本相互獨立、分布于世界各地的數據庫、信息中心、文獻中心等聯結在一起,形成一個內容與結構全新的信息整體。2.?InternetInternet是世界上規模最大、覆蓋面最廣、信息資源最為豐富的計算機信息資源網絡。它將遍布全球的各個國家和地區的計算機系統連接而成了一個計算機互聯網絡。從技術角度看,Internet是一個以TCP/IP作為通信協議連接各國、各地區、各機構計算機網絡的數據通信網絡;從資源角度來看,它是一個集各部門、各領域的各種信息資源為一體的,供網絡用戶共享的信息資源網絡。Internet最早起源于美國國防部高級研究計劃局建立的軍用計算機網絡ARPAnet。ARPAnet于1969年開通,它利用分組交換技術將斯坦福研究所、加州大學圣塔芭芭拉分校、加州大學洛杉磯分校和猶他大學連接起來。ARPA后改名為DefenseAdvancedResearchProjectAgency,簡稱DARPA,ARPAnet被稱為DARPAnetInternet,簡稱Internet。1974年提出的TCP/IP協議在ARPAnet上的應用使ARPAnet成為初期Internet的主干網。1985年,美國國家科學基金會籌建了互聯網中心,將位于新澤西州、加州、伊利諾伊州、紐約州、密歇根州和科羅拉多州的6臺超級計算機連接起來,形成NSFnet,并通過NSFnet資助建立了按地區劃分的近20個區域性的計算機廣域網。同時,NSF確定了Internet的TCP/IP通信協議,所有網絡都采用TCP/IP協議集并連接到ARPAnet,從而使各個NSFnet用戶都能享用所有用于Internet的服務。隨后,NSFnet又把各大學和學術團體的各種區域性網絡與全國學術網絡連接起來。1990年3月,ARPAnet停止運轉,NSFnet接替ARPAnet成為Internet新的主干網絡。1995年4月,NSFnet停止運行,由美國政府指定的PacificBell、AmeritechAdvancedDataServicesandBellcore和Sprint三家私營企業介入網絡的運作,網絡進入了商業化全盛發展時期。很快,Internet將遍布世界各地的大小不等的網絡連接成一個開放的計算機網絡體系。1997年6月,諾基亞、愛立信、摩托羅拉和無線星球(UnwiredPlanet)共同組成了WAP論壇。在WAP論壇成員的努力下,WAP(無線通信協議)誕生了。WAP是在數字移動電話、互聯網或其他個人數字助理機(PDA)、計算機乃至未來的信息家電之間進行通信的全球性開放標準。通過WAP技術,可以將Internet的大量信息及各種各樣的業務引入到移動電話、PALM等無線終端之中。無論何時何地,只需打開WAP手機,用戶就可享受無窮無盡的網上信息或者網上資源。1987年至1993年,以中國科學院高能物理研究所為首的一批科研院所與國外機構合作開展了一些與Internet聯網的科研課題,通過撥號方式使用Internet的電子郵件系統,并為國內一些科研機構提供Internet電子郵件服務。1990年10月,中國正式向國際互聯網絡信息中心(InterNIC)登記注冊了最高域名CN,從而開通了使用自己域名的Internet電子郵件。1994年4月,由中國科學院主持建設的中國國家計算與網絡設施(TheNationalComputingandNetworkingFacilityofChina,NCFC,又稱中關村地區教育科研示范網NCFCnet),以專線形式連入Internet,開通了Internet的全功能服務。幾十年來,中國互聯網蓬勃發展。據《中國互聯網發展狀況統計報告》統計,截至2023年6月底,我國上網用戶總人數達10.79億,其中手機網民規模達到10.76億,域名總數超過3000萬個。3.網絡信息資源的特點網絡信息資源是通過網絡生產和傳播的數字化資源。在Internet這個信息媒體和交流渠道的支持下,網絡信息資源日益成為人們獲取信息的首選。與傳統信息資源相比,網絡信息資源在數量、結構、分布、傳播范圍、類型、載體形態等方面都有顯著的差異。
1)信息量大、傳播廣泛Internet具有結構的開放性和信息發布的自由性。近20年來,人類生產的信息已超過過去5000年信息生產的總和。網絡信息資源又有著廣泛的可獲取性,通過Internet,用戶可以利用分布于世界各地的信息資源,遠遠突破了傳統檢索系統所能提供的信息資源范圍。2)信息類型多樣、內容豐富網絡信息資源是多媒體、多類型、集成式的信息混合體,覆蓋了人類生活、工作、學習等各個領域。從信息的類型來看,有文本、圖表、圖像以及多媒體信息;從存在的形式看,有文件、數據庫、超文本和超媒體等。3)信息時效性強、動態、不穩定網絡信息更新快、時效性很強。不但各種信息處在不斷生產、更新、淘汰的狀態,它所連接的網絡,其網站、網頁也都處在變化之中。網絡信息的快速變化和不可預測性,使得網絡信息的組織和管理難度大大增加。4)信息分散無序,但關聯程度高從宏觀上看,分散存儲在聯網計算機上的信息沒有統一的控制,網絡信息是分散、無序、不規范的。但從某個局部來看,如某個網站、網頁、數據庫,信息是有控制的,也是相對集中、有序和規范的。由于網絡信息資源是借助于Internet特有的超文本和超媒體鏈接技術組織在一起的,所以其內容之間具有較高的關聯程度。而這種局部有序、總體無序的特點,凸現了網絡信息組織與整合的重要性。5)信息價值差異大,難于管理網絡的共享性與開放性使得人人都可以通過網絡獲取和存放信息。由于缺乏質量控制和監管機制,很多信息沒有經過嚴格編輯和整理,導致大量不良和無用的信息充斥在網絡上,形成了一個紛繁復雜的信息世界,給用戶選擇和利用網絡信息帶來了障礙。4.1.2網絡信息資源的類型1.按網絡傳輸協議劃分1)?WWW信息資源WWW信息資源是建立在超文本、超媒體技術以及超文本傳輸協議(HyperTextTransferProtocol,HTTP)基礎上的集文本、圖形、圖像、聲音于一體,以直觀的圖形界面來展現和提供信息的網絡資源形式。WWW其實是Internet中一個特殊的網絡區域,這個區域是由網上所有超文本格式的文檔(網頁)集合而成的。超文本文檔里既有數據又有包含指向其他文檔的“鏈(Link)”,使得不同文檔里的相關信息連接在一起。通過這些“鏈”,用戶在WWW上查找信息時,可以從一個文檔跳到另一個文檔,而不必考慮這些文檔在網絡上的具體地點。WWW信息資源是Internet信息資源的最主要、最常見的形式。2)?TELNET信息資源TELNET信息資源是指在遠程登錄協議(TelecommunicationNetworkProtocol,TELNET)的支持下,用戶計算機經Internet登錄遠程計算機,使自己的本地計算機暫時成為遠程計算機的一個終端,進而可以實時訪問,并在權限允許的范圍內實時使用遠程計算機系統中的各種硬件資源和軟件資源。通過TELNET方式提供的信息資源主要有政府部門和研究機構的對外開放數據庫,圖書館的公共目錄系統及信息服務機構的綜合信息系統等。Dialog、OCLC等商用聯機信息檢索系統提供了TELNET形式的連接方式,付費取得賬號和口令后,可以檢索其數據庫資源。3)?FTP信息資源信息資源文件傳輸協議(FileTransferProtocol,FTP)的主要功能是利用網絡在本地與遠程計算機之間建立連接,從而使不同操作系統的計算機之間實現文件傳送。FTP不僅允許從遠程計算機獲取和下載文件(Download),也可將文件從本地機復制到遠程計算機(Upload),因此,FTP實質上相當于在網絡上兩個主機之間復制文件。FTP信息資源是指借助于FTP訪問Internet上各種FTP服務器,以文件方式在聯網計算機之間傳輸的信息資源。FTP一般在組織或機構內部比較常見,使用的網絡信息資源可為任何類型,不過目前以應用程序軟件和多媒體信息資源為主。目前,FTP仍是發布、共享、傳遞軟件和長文件的主要方法。4)新聞組信息資源新聞組是一種利用網絡環境提供專題討論服務的應用軟件,是Internet服務體系的一部分。在此體系中,有眾多的新聞組服務器,它們接收和存儲有關主題的消息供用戶查閱。新聞組實質上是由一組對某一特定主題有共同興趣的網絡用戶組成的電子論壇,用戶在自己的主機上運行新聞組閱讀程序,申請加入某個感興趣的新聞組,便可以從服務器中讀取新聞組信息。同時,用戶也可以將自己的見解發送到新聞組中,供其他用戶參考。新聞組信息資源是一種豐富、自由、開放的信息資源。5)電子郵件信息資源電子郵件是借助網絡傳遞信息的現代化通信方式。只要知道收件人的郵箱地址,就可以利用計算機網絡將郵件發送給對方。同時,也可以接收來自世界各地的郵件。用戶可向提供電子郵件服務的機構申請電子郵箱來利用該類信息資源。6)?Gopher信息資源Gopher是一種基于菜單的網絡服務程序,能為用戶提供廣泛、豐富的信息。通過Gopher,用戶無需知道信息的存放位置和掌握相關的操作命令就能快速找到并訪問所需的網絡資源。用戶在各級菜單的指引下,逐層展開菜單,在菜單中選擇項目和瀏覽相關內容,就能訪問因特網(Internet)上遠程聯機計算機信息系統。這是Gopher的一大優勢,即它可以跨越多個計算機系統,在本地計算機與遠程Gopher服務器之間實現連接與信息共享。此外,Gopher還設有工具轉換接口,可直接調用其他的信息資源檢索工具或轉入其他的服務器,如WWW、FTP、TELNET、WAIS、Archie服務器等。Gopher曾經以簡單、統一的界面,方便易用的特點和豐富的資源構成了Internet上的一種重要的資源類型,但隨著網絡的發展,只能提供文本信息的Gopher服務器已大多被Web服務器所取代。7)?WAIS信息資源信息資源廣域信息服務器(WideAreaInformationServer,WAIS)是一種雙層客戶機/服務器結構的網絡全文信息資源和檢索體系,允許用戶在不同結構的遠程數據庫之間傳輸和檢索信息。網上有數百個免費的WAIS數據庫,可通過訪問匿名服務器/pub.Directory-of-servers,了解所需信息存放的WAIS服務器后,再通過相應的WAIS服務器查詢所需的數據庫。2.按網絡信息資源的組織方式劃分信息組織是將無序狀態的特定信息,根據一定的原則和方法,使其成為有序狀態的過程。其目的在于將無序信息變為有序信息,方便人們有效利用和傳遞信息。面對紛繁、無序的網絡信息,人們采取了多種方式對其進行組織。目前使用較為普遍的方式主要有以下四種。1)文件方式文件(File)是一種較為古老的信息組織方式,適用于網絡信息資源。文件方式簡單方便,適合存儲文本、程序、圖形、圖像、圖表、音頻、視頻等非結構化信息。在Web中,網頁就屬于超文本文件,FTP類檢索工具也是用來幫助用戶利用那些以文件形式組織和保存的信息資源。但是文件方式對結構化信息的管理則顯得力不從心,因為文件系統只能涉及信息的簡單邏輯結構,當信息結構較為復雜時,就難以實現有效的控制和管理。而且,隨著網絡信息量的不斷增長,以文件為單位的信息資源共享和傳輸還會使網絡負載加大。因此,文件本身只能作為信息單位成為其他信息組織方式的管理對象。2)超文本/超媒體方式超文本/超媒體方式是一種新型的信息管理組織方式,不僅注重所要管理的信息本身,而且更加注重信息之間關系的建立與表達。超文本/超媒體方式是將網絡信息按照相互關系非線性存儲在許多的節點(Node)上,節點間以鏈路(Link)相連,形成一個可任意連接的、有層次的、復雜的網狀結構。超文本方式以線性和靜態的文本信息為處理對象;超媒體方式是超文本與多媒體技術的結合,將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織管理。超文本/超媒體方式不僅體現了信息的層次關系,而且也符合人們思維的聯想和跳躍性習慣。正是由于這個優點,超文本/超媒體方式已成為Internet上占主流地位的信息組織與檢索方式。但對于一些大型的超文本/超媒體檢索系統,由于涉及的節點和鏈路太多,用戶很容易出現信息迷航和知識認知過載的問題,很難迅速而準確地定位到真正需要的信息節點上。為了避免這些檢索瓶頸,需要設立導航工具,并輔以搜索查詢機制,以便用戶在任何位置都能到達想要去的節點。3)數據庫方式數據庫是對大量的規范化數據進行管理的技術。它將要處理的數據經合理分類和規范化處理后,以記錄形式存儲于計算機中,用戶通過關鍵詞及其組配查詢,就可以找到所需信息或其線索。利用數據庫技術組織信息資源可在很大程度上提高信息的有序性、完整性和安全性,提高對大量的結構化數據的處理效率。此外,數據庫以字段作為存取單位,用戶可根據需要靈活地改變查詢結果集的大小,從而大大降低網絡數據傳輸的負載。傳統數據庫方式對非結構化信息的處理難度較大,不能提供數據信息之間的知識關聯,無法處理結構日益復雜的信息單元,檢索界面也缺乏直觀性和人機交互性。但隨著信息處理技術的發展,集Web技術和數據庫技術于一體的Web數據庫已經成為Web信息資源的重要組成部分,其所存儲的都是經過人工嚴格收集、整理加工和組織的具有較高學術價值、科研價值的信息。由于各個數據庫后臺的異構性和復雜性,以及對其使用的限制,利用一般的網絡信息檢索工具已無法檢索其信息資源,因此必須利用各個數據庫的專用檢索系統進行檢索。4)網站網站(WebSite)一般綜合采用文件、超文本/超媒體和數據庫等方式將內容相關的信息組織到主頁和從屬頁面中。它們既是信息資源開發的要素,又是網絡中的實體。從網絡的組織結構可以看出,信息資源主要分布在網站上。作為網絡信息與網絡用戶之間的中介,網站集網絡信息提供、網絡信息組織和網絡信息服務于一體,其最終目的是將網絡信息有序化、整合化,向用戶提供優質的信息服務。3.按網絡信息資源的內容劃分1)網絡數據庫網絡數據庫是借助Internet,以Web為檢索平臺提供信息檢索服務的數據庫,它是數據庫技術和Web技術相結合的產物。除了傳統紙本工具書、聯機數據庫與光盤數據庫改造而成的網絡數據庫外,還出現了大量依托Web產生的商業網絡數據庫。這些網絡數據庫內容涉及各種不同的專業領域和文獻類型,如萬方知識服務系統、OCLC的數據庫系列、INSPEC網絡數據庫等。2)網絡出版物網絡出版物是以數字代碼形式將文字、圖像、聲音、視頻等信息存儲在磁、光、電介質上,通過Internet高速傳播,并通過計算機或者類似設備閱讀使用的出版物。信息技術和網絡技術為出版物的出版、發行和傳播創造了良好的條件,不僅大量的紙本文獻開始發行電子版本,很多出版物更完全以電子化、數字化形式進行編輯、制作、出版和發布,并以網絡化形式發行。3)社會信息社會信息是機構和個人發布的數據、資料、新聞和服務等多方面的信息。社會信息范圍廣泛、內容龐雜,主要包括政府機構部門的政策和服務信息、社會新聞、生活娛樂信息、機構名錄、產品目錄、廣告信息、商品信息、股市信息和專題評論等。4)軟件資源軟件資源主要是指通過網絡提供給用戶使用的各種應用程序。它們以文件形式存在,幫助用戶實現某些應用功能,如殺毒、解壓、聊天、系統維護、多媒體播放、文件傳輸、程序編輯等。5)其他類型的信息其他類型的信息包括網絡論壇交流信息、電子公告、網絡日志等存在于Internet上的信息。4.1.3網絡信息檢索的一般方法網絡信息資源存儲在連接到網絡的主機和服務器中,如果知道資源的地址,就可通過瀏覽器或其他方式利用這些信息。不管是哪一種檢索方法,都是以找到服務器在網上的地址(URL)為目標,再通過該地址去訪問服務器提供的信息。1.網上瀏覽網上瀏覽需要從一個相關網站或網頁出發,通過超文本文檔中的鏈接找到一批新的相關網站或網頁,在瀏覽這些網頁后,再從這些網站或網頁提供的鏈接找到下一批相關網站,如此循環下去,像滾雪球一樣不斷擴大搜索范圍。網上瀏覽類似于文獻檢索方法中的引文法,只是檢索對象不是普通文獻,而是網站。用網上瀏覽的方法,通常會有意外的發現,但耗費的時間較多,且需要預先收集網址。在研究課題時用這種方法收集信息,其效率相對較低,并且收集到的信息也不全面。2.網絡資源指南網絡資源指南是專業人員對網絡信息資源進行采集、評價、組織、過濾和控制,從而開發出的可供用戶瀏覽和檢索的多級主題分類體系。當用戶需要某一類信息資源的時候,通過逐級瀏覽網頁主題指南的分類體系,就可獲取相關信息。網絡資源指南的局限性在于管理和維護跟不上網絡信息的增長和更新,收錄范圍不夠全面,各網站的分類體系不統一。3.搜索引擎利用搜索引擎是較為普遍的網絡信息檢索方式。用戶以關鍵詞、詞組或自然語言構成檢索表達式,提出檢索要求,搜索引擎代替用戶在數據庫中檢索,并將檢索結果提供給用戶。利用搜索引擎檢索的優點是簡單方便,檢索速度快、范圍廣,能及時獲取新增信息。其缺點在于檢索準確性不理想。4.?RSS閱讀工具RSS是一種用于發布和獲取網絡內容的XML格式的工具。使用RSS閱讀工具,用戶可以輕松地訂閱所需信息。這些被稱做RSS閱讀工具的軟件,會自動將用戶訂閱的RSS源內容聚合成一個網頁,并不斷自主更新,使用戶無需一個個打開有關的目標網頁即可瀏覽所需內容。4.2搜索引擎4.2.1搜索引擎的概念搜索引擎是根據一定的策略,運用特定的計算機程序搜集互聯網上的信息,并對信息進行組織和處理后,為用戶提供檢索服務的系統。換句話說,搜索引擎是通過Internet接受用戶的查詢指令,并向用戶提供符合查詢要求的信息資源網址系統。它在Web中主動搜索信息(網頁上的單詞和特定的描述內容)并將其自動索引,存儲在可供檢索的大型數據庫中。當用戶輸入關鍵詞查詢時,搜索引擎會告訴用戶包含該關鍵詞信息的所有網址,并提供通向該網絡的鏈接。搜索引擎既是用于檢索的軟件,又是提供查詢、檢索的網站。所以,搜索引擎也可稱為Internet上具有檢索功能的網頁。4.2.2搜索引擎的基本工作原理看似簡單的搜索引擎背后涉及包括數據結構、索引、算法、知識表示、自然語言處理、信息檢索、人工智能、計算機網絡、分布式處理、數據庫、數據挖掘等多個方面的內容。通常,搜索引擎主要包括信息采集、信息加工、信息檢索與檢索結果提供這幾個部分。信息采集模塊(搜集器)以一定的策略在因特網等信息源中采集相關信息。大多數搜索引擎利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,并沿著網頁中的URL爬到其他網頁。不斷重復此過程,并把爬過的所有網頁收集回來。信息加工模塊是對收集到的網頁資源進行標引、建立索引、編制摘要、完成分類等過程,即由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其他網頁的鏈接關系等),并根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈接中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。信息檢索模塊根據用戶的檢索提問對檢索項與索引項進行匹配運算以獲取對應的檢索結果集。當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。
檢索結果提供是在進行必要的相關分析后以超鏈接形式給出檢索結果,即由頁面生成系統將搜索結果的鏈接地址和頁面內容、摘要等內容組織起來提供給用戶。搜索引擎基本工作原理如圖4-1所示。事實上,搜索引擎并不真正搜索互聯網,它搜索的是預先整理好的網頁索引數據庫。真正意義上的搜索引擎,通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法排序后,這些結果將按照與搜索關鍵詞相關度的高低,依次排列并呈現。現在的搜索引擎已普遍使用超鏈接分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL和AnchorText,甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中并沒有某個詞比如“信息素質”,但如果有別的網頁B用鏈接“信息素質”指向這個網頁A,那么用戶搜索“信息素質”時也能找到網頁A。如果有越多網頁(C、D、E、F…)用名為“信息素質”的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B、C、D、E、F…)越優秀,那么網頁A在用戶搜索“信息素質”時會被認為更相關,排序會越靠前。4.2.3搜索引擎的發展歷史一般認為搜索引擎的雛形是1990年加拿大麥吉爾大學開發的Archie系統,它通過定期搜集并分析FTP系統中的文件名信息,提供查找分布在各個FTP主機中的文件。1993年,美國內華達大學開發出功能更為全面的提供網頁檢索的Veronica系統。緊隨其后,搜索引擎開始采用網頁自動采集器,即網絡蜘蛛Spider來提高信息采集的性能。1994年初,美國華盛頓大學開發出了因特網上實現全文搜索的搜索引擎WebCrawler。同年7月,MichaelMauldin開發出基于Spider技術的搜索引擎Lycos。接著,美國斯坦福大學的大衛·菲勒(DavidFilo)和美籍華人楊致遠(GerryYang)共同開發出目錄索引式搜索引擎Yahoo。從此,搜索引擎進入了快速發展的新時期。1995年12月,DEC正式發布的AltaVista是第一個支持自然語言搜索的搜索引擎,也是第一個實現高級搜索語法(如AND、OR、NOT等)的搜索引擎。近年來,Google、百度等搜索引擎日益成熟,功能日趨完善。縱觀搜索引擎的發展歷史,一般來說,可根據其在不同時期的研發重點和性能的不同分為三代。第一代搜索引擎以早期的Yahoo、AltaVista和Infoseek等為代表,這類搜索引擎的特征是基于人工分類目錄搜索。以Google、DirectHit等為代表的搜索引擎一般稱為第二代搜索引擎。第二代搜索引擎的主要特征是運用“符號計算”,基于關鍵詞搜索以及以關鍵詞組合為基礎的全文搜索和模糊搜索。與第一代搜索引擎相比,基于關鍵詞搜索的優勢是使用方便,搜索速度快,直接搜索內容,這是第一代搜索引擎無法比擬的。目前,搜索引擎已進入了一個空前繁榮的時期。現今的搜索引擎不僅索引規模大,而且更多地結合了自然語言理解、個性化等智能化技術,有人亦稱這一時期的搜索引擎為第三代搜索引擎。4.2.4發展中的搜索引擎作為Internet必不可少的核心技術之一,搜索引擎技術是人們利用海量網絡資源的重要工具。Google中國原總裁李開復認為,目前的搜索引擎只是對海量的網頁進行簡單排序,事實上,最聰明的搜索引擎,并非要提供多元化信息,而是能夠為用戶提供所提出問題的答案,甚至解決問題。因此,隨著Internet的快速發展,未來的搜索引擎應該更能夠滿足用戶的信息查詢需求。整合搜索、社區搜索和移動搜索等正在成為今后發展的趨勢。1.整合搜索用戶通過網絡搜索并獲得海量信息是利用信息抓取技術實現的,屬于剛性搜索。如果搜索引擎能夠通過對用戶信息的整合,預知用戶搜索的目的,就能從海量信息中整理出用戶最需要、最實用的信息,并通過整合其他渠道幫助用戶解決實際問題,這就是剛性搜索的軟化處理。網絡實名、用戶注冊信息以及IP地址分析等是軟性搜索的必要條件。另外,整合搜索不是簡單地把搜索結果羅列在一起,而是經過頁面搜索、垂直搜索之后,在更高層次上為用戶提供最佳搜索結果,即通過將其他搜索產品的結果整合到網頁搜索中,使結果信息內容更加豐富、形式更為多媒體化。整合搜索的前提是基于對關鍵詞的智能分析判斷。但是,隨著用戶需求的提高,對整合搜索的要求也越來越高。如何美觀、簡潔地呈現多種類型的信息,如何提高信息查詢結果的精度、檢索的有效性與整合的質量,仍是搜索引擎不可回避的命題。2.社區搜索社區搜索代表一種理念,即把大眾的智慧匯集起來給需要的人(搜索)使用。比如通過百度旗下的“百度知道”,用戶可以用提問的形式將問題提交給搜索引擎,不同的人將會回答提出的問題,過一段時間后大多都能有滿意的答案。這些答案匯集起來,逐漸壯大,形成一個知識庫。當然,對于很多問題,用戶可以直接搜索得到答案。雖然大部分都還處于發展期,不過在不久的將來,社區搜索將會越來越完善。3.移動搜索隨著手機等移動終端的逐漸普及,移動搜索已經成為獲取信息資源的重要方式。移動搜索是基于移動網絡的搜索技術的總稱,用戶可以通過SMS、WAP、IVR等多種接入方式進行搜索,獲取互聯網信息、移動增值服務及本地信息等信息服務內容。移動搜索的核心是將搜索引擎與移動設備有機結合,生成符合產品和用戶特點的搜索結果。目前,知名的移動搜索引擎有百度、搜狗、360搜索、神馬搜索、Google、Bing、微信搜一搜、頭條搜索、中國搜索、夸克搜索等。Google已在全球范圍發布谷歌中文語音搜索,谷歌手機搜索已經加入中文語音搜索功能,用戶在手機上只需按下通話鍵即可進行語音搜索,這是手機搜索與PC互聯網搜索最大的不同之處。蘋果公司也推出了Siri語音控制功能。通過這個語音功能,可以把iPhone變成一個智能化的機器人,實現天氣查詢、搜索查詢等功能。未來的移動搜索將會變得更加個性化,移動的搜索結果也將基于搜索位置、搜索偏好以及個人的社交網絡信息等。4.垂直搜索垂直搜索引擎也常常被稱為專業搜索引擎、專題搜索引擎,是有針對性地為某一特定領域、某一特定人群或某一特定需求提供專門的信息檢索服務,以滿足用戶個性化的信息需求的搜索引擎。垂直搜索引擎是對特定領域或行業的內容進行專業和深入的分析挖掘、過濾篩選,對其信息定位更為精準的專業搜索,實際上是搜索引擎的細分和延伸。垂直搜索引擎的特點是“專、精、深”,且具有行業特色,即與綜合搜索引擎的海量信息無序化相比,垂直搜索引擎則更加專業、具體和深入。垂直搜索引擎的Spider更加專業化和可定制化,能夠定向采集與垂直搜索范圍相關的網頁,對內容相關的以及適于進一步處理的網頁進行優先采集。其信息采集可以通過人工設定網址和網頁分析等方式共同進行,在定向分字段抽取出所需要的數據并處理后再以某種形式返回給用戶。由于垂直搜索引擎在信息抓取的過程中已經進行了去重、分類、比較分析、數據挖掘等深度加工,因此垂直搜索引擎提供給我們的信息具有較高的價值。4.2.5搜索引擎的類型搜索引擎按不同的分類原則可以有多種分類方式。例如:按信息標引的方式,搜索引擎可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;按信息查詢的方式,搜索引擎可以分為瀏覽式搜索引擎、關鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種,搜索引擎又可以分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等;按工作方式或者檢索機制,搜索引擎可以分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎。目錄型搜索引擎層次結構清晰、易于查找,而且所收錄的網絡信息資源經過了專業信息人員的鑒別、選擇和組織,從而確保了檢索工具的質量和檢索的準確性。但目錄型搜索引擎的數據庫規模相對較小,某些分類主題收錄內容不夠全面,系統更新、維護的速度受到很大的制約,查全率不高。目錄型搜索引擎一般比較適合于查找綜合性、概括性的主題概念或類屬明確的課題。著名的目錄型搜索引擎有Yahoo、Galaxy、搜狐、新浪、OpenDirectory、Infoseek、TheWWWVirtualLibrary、BUBLLINK、AOLSearch和藍帆等。目前,只有數量很少的目錄型搜索引擎仍在提供服務。2.索引型搜索引擎基于關鍵詞檢索的索引型搜索引擎是名副其實的搜索引擎。索引型搜索引擎也稱為機器人搜索引擎或關鍵詞搜索引擎,它實際上是一個WWW網站。與普通網站不同的是,索引型搜索引擎網站的主要資源是包括WWW等眾多資源的索引數據庫。索引型搜索引擎主要使用“網絡機器人”或“網絡蜘蛛”等自動跟蹤索引軟件,通過自動分析網頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網頁信息內容,并采用自動搜索、自動標引、自動文摘等方式建立和維護索引數據庫,以Web形式提供用戶檢索界面,用戶輸入關鍵詞后,其后臺的檢索代理軟件代替用戶在索引數據庫中查找出與檢索提問匹配的記錄,并將檢索結果反饋給用戶。索引型搜索引擎的索引數據庫的容量非常龐大,收錄、加工信息的范圍廣、速度快,能向用戶及時提供最新信息。但由于標引過程缺乏人工干預,加之檢索代理軟件的智能化程度不是很高,導致其檢索準確性不是很高。索引型搜索引擎比較適合于檢索特定主題的信息以及較為專深、具體或類屬不明確的課題。3.元搜索引擎元搜索引擎是一種將多個獨立的搜索引擎集成到一起,提供統一的用戶查詢界面,將用戶的檢索提問同時提交給多個獨立搜索引擎,檢索其共享的獨立搜索引擎的資源庫,再經過聚合、去重和排序等處理,將最終檢索結果一并提供給用戶的網絡檢索工具。元搜索引擎是對搜索引擎進行搜索的搜索引擎,是對多個獨立搜索引擎的整合、調用、控制和優化利用。因此,元搜索引擎被稱為“搜索引擎之母”。相對于元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”或“成員搜索引擎”。元搜索引擎一般都沒有自己的網絡機器人及數據庫,但在檢索請求提交、檢索接口代理和檢索結果顯示等方面,通常都有自己研發的特色元搜索技術。在搜索引擎的發展進程中,元搜索引擎有一種初級形態,稱為集合式搜索引擎(All-In-OneSearchPage)。集合式搜索引擎曾以其方便、實用在網絡搜索工具家族中占據了一席之地。集合式搜索引擎通過網絡技術,在一個網頁上鏈接很多個獨立搜索引擎,檢索時,需點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同的頁面顯示,其實質是利用網站鏈接技術形成的搜索引擎集合,而并非真正意義上的搜索引擎。集合式搜索引擎無自建數據庫,不需研發支持技術,也不能控制和優化檢索結果。4.2.6常用搜索引擎1.索引型搜索引擎1)百度()百度是全球最大的中文搜索引擎,1999年底由李彥宏、徐勇創建于美國硅谷,2000年開始在中國發展。2000年5月,百度首次為門戶網站—硅谷動力提供搜索技術服務,之后迅速占領中國搜索引擎市場,成為最主要的搜索技術提供商。2001年8月,百度發布了B搜索引擎Beta版,從后臺服務轉向獨立提供搜索服務,并且在中國首創了競價排名的商業模式。2001年10月22日,百度正式發布Baidu搜索引擎。2005年8月5日,百度在美國納斯達克上市,成為2005年全球資本市場上最為引人注目的上市公司,百度由此進入一個嶄新的發展階段。百度主頁如圖4-2所示。百度運用了中文智能語言的處理方法,支持主流的中文編碼標準,包括漢字內碼擴展規范(GBK)、簡體(GB2312)、繁體(BIG5)等,并且能夠在不同的編碼之間轉換,極大地方便了來自全球各個國家的中文搜索請求。除網頁搜索外,百度還提供MP3音樂、新聞、地圖、影視等多樣化的搜索服務,創造了以貼吧、知道、百科、空間為代表的搜索社區。百度還為各類企業提供競價排名推廣業務,以及關聯廣告服務。隨著移動互聯網的發展,百度網頁搜索完成了由PC向移動的轉型,由連接人與信息擴展到連接人與服務,用戶可以在PC、Pad、手機上訪問百度主頁,通過文字、語音、圖像多種交互方式瞬間找到所需要的信息和服務。在提供同樣的海量應用、精準搜索外,百度移動應用客戶端還具備云推送、精準語音搜索等功能。(1)網頁搜索。
(2)視頻搜索。(3)圖片搜索。在圖片搜索框中輸入要搜索的關鍵字(黨的二十大),點擊“百度一下”按鈕,即可搜索出相關的圖片。搜索結果頁面支持圖片尺寸選擇、顏色選擇、圖片類型等篩選項,可以得到更為精確的結果,如圖4-3所示。(4)?MP3搜索。(5)新聞搜索。(6)地圖搜索。(7)常用搜索。(8)百度的搜索技巧。①
輸入多個詞語搜索(不同字詞之間用一個空格隔開,相當于邏輯“與”),可以縮小檢索范圍,獲得更精準的搜索結果。在百度查詢時不需要使用邏輯符號“AND”或“+”,百度會在空格隔開的詞語之間自動添加邏輯“與”運算符。②
減除無關資料(邏輯“非”)。有時候,搜索結果中某一方面的不相關內容特別多,這時可以利用“減除無關資料”功能,縮小查詢范圍,提高命中率。百度支持“-”功能,用于有目的地刪除某些無關網頁,但減號之前必須留一空格。③
并行搜索(邏輯“或”)。使用“A|B”來搜索“或者包含詞語A,或者包含詞語B”的網頁。例如,要查詢“歐債危機”或“次貸危機”的相關資料,無需分兩次查詢,只要輸入“歐債危機|次貸危機”搜索即可。④
相關檢索。百度的“相關搜索”,會列出一些和當前搜索很相似的一系列檢索詞。當搜索結果不理想時,用戶可以通過參考別人進行過的搜索來獲得一些啟發。如果無法確定輸入什么詞語才能找到滿意的資料,則可以使用百度相關搜索。可以先輸入一個關鍵詞搜索,百度搜索引擎會在搜索結果頁面的下方顯示“其他用戶搜索過的相關搜索詞語”作參考。點擊其中一個相關搜索詞,就能得到這個相關搜索詞的搜索結果,如圖4-4所示。⑤
百度快照。如果無法打開某個搜索結果,或者打開速度特別慢,可以使用“百度快照”。每個未被禁止搜索的網頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。當用戶遇到網站服務器暫時故障或網絡傳輸堵塞時,可以通過“百度快照”快速瀏覽頁面文本內容。百度快照只會臨時緩存網頁的文本內容,所以那些圖片、音樂等非文本信息,仍是存儲于原網頁。當原網頁修改、刪除或者屏蔽后,百度搜索引擎會自動修改、刪除或者屏蔽相應的網頁快照。⑥
專業文檔搜索。網上很多有價值的資料以Word、PowerPoint、PDF等格式存在,百度支持這些文檔的搜索。搜索時,在輸入的關鍵詞后面加一個“filetype:文檔類型”即可。“filetype:”后的文檔類型可以是DOC、XLS、PPT、PDF、RTF、ALL等文件格式。其中,ALL表示搜索所有以上文件類型。例如,查找交易費用方面的WORD文檔,可以輸入“交易費用filetype:doc”。在搜索結果頁面下,點擊結果標題,可下載文檔。⑦
在指定網站內搜索。百度默認搜索整個互聯網,利用“site:”命令可以限制只搜索某個具體網站、網站頻道或某域名內的網頁。例如,“植物生理site:”表示在蘭州大學網站內搜索與“植物生理”相關的資料;“intelsite:”表示在域名以“”結尾的網站內搜索與“intel”相關的資料;“甘肅site:cn”表示在域名以“cn”結尾的網站內搜索與“甘肅”相關的資料。需要注意的是,利用“site:”命令時,搜索關鍵詞在前,“site:”及網址在后;關鍵詞與“site:”之間需留一空格隔開;site后的冒號“:”可以是半角,也可以是全角,百度搜索引擎會自動辨認;“site:”后最好不要有“http://”前綴或“/”后綴;網站頻道只局限于“頻道名.域名”方式,不能是“域名/頻道名”方式。⑧
在標題中搜索。利用“intitle:”命令,可以限制只搜索網頁標題中含有某些關鍵詞的網頁。例如,“intitle:十九大”表示搜索標題中含有關鍵詞“十九大”的網頁;“intitle:搜索引擎
互聯網”表示搜索標題中含有關鍵詞“搜索引擎”和“互聯網”的網頁。
⑨
在url中搜索。利用“inurl:”命令,可以限制只搜索url中含有這些文字的網頁。例如:“inurl:mp3”表示搜索url中含有“mp3”的網頁;“inurl:網頁”表示搜索url中含有“網頁”的網頁;“inurl:chinanews”表示搜索url中含有“china”和“news”的網頁。
⑩
高級搜索。如果對百度各種查詢語法不熟悉,可以使用百度的高級搜索。例如,要查找題名中包含網絡數據庫PPT的課件,可以在高級搜索頁面中按圖4-5所示進行檢索,執行檢索后得到的檢索結果如圖4-6所示。2)?Google中文版(.hk)Google公司是由斯坦福大學拉里·佩奇(LarryPage)和謝爾蓋·布林(SergeyBrin)于1998年9月組建的,公司提供的核心服務就是搜索引擎。Google原是一個數學名詞,表示一個1后面跟著100個零,Google公司使用這一術語作為公司名體現了公司整合網上海量信息的遠大目標。自2000年開始商業運作以來,Google以其先進的技術、全面的檢索功能和簡單有效的服務,在全球范圍內擁有了大量的用戶。目前,Google已經發展成為世界范圍內最優秀的搜索引擎。Google搜索引擎的成功得益于其強大的功能和獨到的特點。Google采用超文本鏈接結構分析技術和大規模的數據挖掘技術,能根據Internet本身的鏈接結構對相關網站用自動方法進行分類,提供便捷的網上信息查詢方法,并為查詢提供快速準確的結果。Google使用PageRank技術檢查整個網絡鏈接結構,并確定哪些網頁重要性最高,然后進行超文本匹配分析,以確定哪些網頁與正在執行的特定搜索相關。在綜合考慮整體重要性以及與特定查詢的相關性之后,Google可以將最相關最可靠的搜索結果放在首位。PageRank并不計算直接鏈接的數量,而是將從網頁A指向網頁B的鏈接解釋為由網頁A對網頁B所投的一票。這樣,PageRank會根據網頁B所收到的投票數量來評估該頁的重要性。此外,PageRank還會評估每個投票網頁的重要性,因為某些網頁的投票被認為具有較高的價值,這樣,它所鏈接的網頁就能獲得較高的價值。重要網頁獲得的PageRank(網頁排名)較高,從而顯示在搜索結果的頂部。Google技術使用網上反饋的綜合信息來確定某個網頁的重要性。搜索結果沒有人工干預或操縱,這也是為什么Google會成為一個廣受用戶信賴、不受付費排名影響且公正客觀的信息來源。Google支持使用中、英、德、日、法等57種語言,支持新聞組的Web方式瀏覽和張貼、目錄服務、PDF文檔搜索、地圖搜索、工具條、搜索結果翻譯、搜索結果過濾等功能。Google不僅擁有自身的獨立搜索引擎網站,還將其搜索引擎技術出售給世界上許多公司,目前,包括美國在線(AOL)在內的全球150多家公司采用了Google搜索引擎技術。2010年3月,Google宣布停止了中國大陸地區的搜索服務。谷歌香港域名為.hk。(1)基本搜索(如圖4-7所示)。(2)高級搜索。單擊Google中文主頁中的“高級搜索”鏈接,進入高級搜索頁面,如圖4-8所示。在高級搜索方式下,用戶可以通過檢索文本框和下拉列表來確定搜索條件。除了可對關鍵詞的內容和匹配方式進行限制外,還可以從語言、文件格式、日期、字詞位置、網域、使用權限、搜索特定網頁和特定主題等方面進行檢索條件和檢索范圍的限定。此外,Google允許用戶按照個人愛好設置“使用偏好”,并可以保存以供將來使用。(3)搜索范圍限制功能。除了高級搜索提供的多種搜索條件選擇外,Google還提供按鏈接和網域等進行搜索范圍的限制。“site:”表示搜索結果局限于某個具體網站或者網站頻道,如“信息素質site:”表示在新浪網上搜索信息素質的有關資料。如果要排除某網站或者域名范圍內的頁面,則用“-site:網站/域名”即可。“filetype”是Google開發的非常實用的一個搜索語法。也就是說,Google不僅能搜索一般的文字頁面,還能對某些二進制文檔進行檢索。目前,Google已經能檢索?.xls、.ppt、.doc、.rtf、.pdf、.swf等多種文檔。如搜索資產負債表的Office文檔,可輸入“資產負債表filetype:docORfiletype:xlsORfiletype:ppt”。Google中可用“inurl”語法,使搜索的關鍵詞包含在URL鏈接中。“inurl”語法表示返回的網頁鏈接中一定包含第一個關鍵詞,后面的關鍵詞可出現在鏈接中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”“GALLARY”等,于是,就可以用“inurl”語法找到這些相關資源鏈接,然后,用第二個關鍵詞確定是否有某項具體資料。例如,查找MIDI曲“滄海一聲笑”,可以輸入“inurl:midi“滄海一聲笑””。“inurl”語法和基本搜索語法的最大區別在于,前者通常能提供非常精確的專題資料。Google中可使用“intitle”語法,使搜索的關鍵詞包含在網頁標題中。“intitle”的用法類似于上面的inurl,只是后者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題就是HTML標記語言title中間的部分。通常,網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,只查詢標題欄,通常也可以找到符合要求的專題頁面。Google可查找所有包含了某個指定URL的頁面列表。如果你擁有一個個人網站,估計很想知道有多少人對你的網站作了鏈接,而“link”語法就能迅速達到這個目的。例如,搜索所有含指向華軍軟件園“”鏈接的網頁,可輸入“link:”。需要注意的是,“link”不能與其他語法混合操作,所以“link:”后面即使有空格,也將被Google忽略。另外還要說明的是,link只列出了Google索引鏈接的很小一部分,而非全部,所以如果使用Google沒有搜到鏈接到你主頁的鏈接,也不必灰心喪氣。除了上述功能,link語法還有其他妙用。例如,做友情鏈接的網站都有相似地方。這樣,通過這些友情鏈接,可以找到一大批具有相似內容的網站。Google可使用“related”命令查找與某個頁面結構內容相似的頁面。例如,搜索所有與中文新浪網主頁相似的頁面,可輸入“related:”。Google中使用“cache”命令可搜索Google服務器上某頁面的緩存,查找某些已經被刪除的死鏈接網頁。也就是說,“cache”命令相當于使用普通搜索結果頁面中的“網頁快照”功能。(4)特色查詢功能。Google還提供一些特色的查詢功能,如手氣不錯、集成化工具條、網頁快照、類似網頁、網頁翻譯、單詞英文解釋和搜索結果過濾等。①
手氣不錯。如果在輸入關鍵詞后選擇“手氣不錯”按鈕,Google將帶你到它所推薦的網頁,省去許多麻煩。一般情況下,返回的網頁是符合檢索要求的第一個檢索結果的頁面。②
網頁快照。網頁快照是Google為網頁做的一份索引快照,用戶通過“網頁快照”功能,可以查看數據庫緩存中該網頁的存檔文件,而無須鏈接到網頁所在的網站。③
類似網頁。如果用戶對某一網站的內容很感興趣,但網頁資源卻有限,可以單擊“類似網頁”,Google會幫助找尋與這一網頁相關的網頁和資料。④
集成化工具條。為了方便用戶,Google提供了工具條,集成在IE瀏覽器中,用戶無需打開Google主頁,就可以在工具條內輸入關鍵字進行檢索。此外,利用Google工具條,用戶可以快捷地在Google主頁、目錄服務、新聞組搜索、字典、高級搜索和搜索設定之間進行切換。⑤
多元化服務。除了提供Web信息資源的檢索外,Google還推出了許多其他方面的服務,如計算器、天氣查詢、股票查詢、郵編區號、電子郵件等。另外,Google還提供圖片搜索、新聞搜索、文檔搜索、網上論壇搜索、博客搜索、學術搜索、快訊搜索和代碼搜索等功能。用戶可以根據自己的需求體驗Google更多產品,如圖4-9所示。3)雅虎()雅虎是美國著名的互聯網門戶網站,由楊致遠和大衛·費羅于1994年在美國創立。雅虎是20世紀末互聯網奇跡的創造者之一,雅虎是全球第一家提供因特網導航服務的網站,是最老的“分類目錄”搜索數據庫,也是最重要的搜索服務網站之一。2003年3月,雅虎完成對Inktomi的收購,成為Google的主要競爭對手之一。在過去的幾年中,雅虎公司又收購了Inktomi、Overtune、Fast、AltaVista、Kelkoo等五家可與Google匹敵的國際知名搜索服務商,打造出獨特的雅虎搜索技術。在美國,有400余名雅虎資深工程師組成的開發團隊在進行YST的核心技術開發。2014年9月,雅虎宣布關閉目錄搜索服務。雅虎主頁如圖4-10所示。4)?Lycos()Lycos是一個多功能搜索引擎,主頁如圖4-11所示。它于1994年8月開始在網上運行,目前是Lycos集團公司Lycosnetwork服務的成員之一。Lycos借助自動搜索軟件收集網頁、人名、企業名錄、多媒體、音樂/MP3、討論組、新聞、產品信息等多種類型的資源,搜索結果精確度較高,尤其是搜索圖像和音頻文件的功能很強。Lycos支持布爾邏輯運算符(AND、OR、NOT)、精確檢索符(雙引號),也可在檢索詞前加“+”表示該詞一定出現,檢索詞前加“-”表示該詞一定不出現。個人Lycos主頁可根據個人興趣和愛好設置相關的檢索參數。此外,Lycos還提供游戲、電子郵件、音樂、購物、個性化Lycos、新聞快訊等服務。5)?Excite(http://www.E)Excite是由斯坦福大學的幾個大學生于1993年8月創建的Architext擴展而成的萬維網搜索引擎,目前屬于AskJeeves公司。Excite提供網頁檢索、主題目錄檢索、新聞檢索、圖片檢索和視頻檢索等服務。Excite可以采用雙引號進行精確檢索,“+”表示其后的檢索詞一定出現,“-”表示其后的檢索詞不能出現。此外,Excite還提供個性化定制服務,用戶可以根據自己的興趣愛好設置個性化的界面格式、內容、布局或者顏色。2.元搜索引擎1)?MetaCrawler()MetaCrawler是最早的一個集合型搜索引擎,由華盛頓大學的EricSelberg和OrenEtzioni于1994年開發,曾被評為綜合性能最優良的集合搜索引擎。2000年MetaCrawler加入InfoSpaceNetwork服務,隸屬于InfoSpace公司。MetaCrawler沒有自己的網頁索引數據庫,只充當用戶的檢索代理,可調用Google、Yahoo!和Yandex等幾個搜索引擎來查找信息。在檢索過程中,MetaCrawler提供統一的檢索界面,將用戶檢索請求轉換成成員搜索引擎的檢索指令,然后對檢索結果進行轉換、查重和排序。MetaCrawler可檢索網頁、圖片、視頻、新聞、黃頁、白頁等多種信息資源,檢索界面簡潔、直觀,操作簡便,有基本檢索和高級檢索兩種方式。基本檢索無法構造復雜檢索式,不支持布爾邏輯運算符、精確檢索符(“”)、通配符(*)等。高級檢索提供了大量限制檢索條件的選項,用戶可以指定檢索式包含的檢索詞(組)式、不包含的檢索詞(組),運用布爾邏輯運算符構造檢索式,設置是否過濾相關的語種和網站。2)?Dogpile()Dogpile創建于1996年1月。早期的Dogpile只提供晨報新聞檢索,后來逐步發展成為最受歡迎的元搜索引擎之一。Dogpile是性能較好的元搜索引擎,可以調用包括Google、Yahoo!等搜索引擎來查找信息。Dogpile的搜索技術十分先進,可以使用“*”作為通配符,支持邏輯運算符NOT、AND、OR和括號。Dogpile具有智能化的檢索程序和簡單易用的界面,用戶只需輸入檢索詞,然后單擊“GoFetch!”即可,如圖4-12所示。3.垂直搜索引擎(專業性搜索引擎)1)圖像搜索引擎萬維網上的圖像信息有多種形式,如圖像、圖形、位圖和動畫等。對于這些信息的查找,既可以利用Yahoo!、百度、Google、Lycos和AltaVista等綜合性搜索引擎的圖片檢索功能,也可以訪問一些搜集各種圖像資料的專業資料庫和俱樂部網站。此外,還可利用一些專門的圖像搜索引擎,如。2)地圖搜索引擎地圖搜索引擎是面向公眾提供電子地圖服務的網站,是檢索全國乃至世界地圖信息的重要工具。常用的地圖搜索引擎主要有百度地圖()、谷歌地圖(/maps)、高德地圖()、搜狗地圖(https://map.)、360地圖()、騰訊地圖()等。3)視頻搜索引擎利用視頻搜索引擎可以搜索感興趣的視頻。常用的視頻搜索引擎有百度視頻()、搜狗視頻()、騰訊視頻()、愛奇藝()和360視頻()等。4)讀書搜索引擎利用讀書搜索引擎可以搜索圖書全文,查找感興趣的圖書。常用的讀書搜索引擎有豆瓣讀書()、百度閱讀()、網易云閱讀(http://yuedu.163.com/book)、多看閱讀()、超星讀書()和讀秀()等。5)論壇搜索引擎論壇搜索引擎專注于抓取論壇里的內容,是一種專業化的搜索引擎。論壇具有交互性和參與性等特點,很多時候,譬如想查找關于某人某事的評論,論壇搜索引擎是不錯的選擇。常用的論壇搜索引擎有搜狗知乎()、360問答(/)和百度知道()等。6)工作搜索引擎
以前,求職或者招聘信息通常通過紙媒、電視和廣播等途徑傳播。網絡興起以后,有許多專業招聘網站,如前程無憂()、智聯招聘()等開始提供招聘信息,通過網絡找工作成了流行的求職方法。后來,又出現了許多工作搜索引擎,如職友集()和C()等。
7)法律搜索引擎若想了解有關法律法規的內容,可以利用國家法律法規數據庫(https://flk.npc./xf.html)、法律教育網(/falvfagui/)、中國法律檢索系統(https://law./)、法律快搜(/)和法律之星(/)等。8)?P2P搜索引擎P2P(Peer-to-Peer)意為對等網絡,是與C/S相對應的網絡運作模式,其顯著特點是整個網絡不存在中心節點(或中心服務器),其中的每一個節點(Peer)同時具有信息消費者、信息提供者和信息通信等三方面的功能。P2P搜索引擎相對一般網站搜索引擎而言,傳播速度更快,獲取更方便,適用于大流量網絡信息資源的共享和獲取。目前,我國的P2P搜索主要在BT搜索領域,多用于軟件、電影、音樂、書籍和游戲的搜索和獲取。目前常用的P2P搜索引擎主要有P2PSearcher、BTDigg等。4.3開放存取4.3.1開放存取的含義開放存取(OpenAccess,OA)是國際科技界、學術界、出版界、圖書館界為推動科研成果自由傳播而發起的運動,其目的是促進科學信息的廣泛傳播,促進學術信息的交流與出版,提升科學研究的公共利用程度,保障科學信息的長期保存。開放存取是一種新的學術信息交流方法,作者提交作品不是為了得到直接的金錢回報,而是為了作品的傳播和利用。對于“開放存取”,國內外很多組織和研究者都分別按照自己的理解給出了不同的定義。2001年12月1~2日,開放社會研究所在匈牙利布達佩斯召集了一次有關OA的國際研討會,起草和發表了《布達佩斯開放存取計劃》。該計劃首次給出了開放存取的完整定義:“對于某文獻,存在多種不同級別和種類的、范圍更廣、更容易操作的存取方法。對某文獻的‘開放存取’意味著它在Internet公共領域里可以被免費獲取。2003年4月,來自德國、英國和美國的24位科學家在美國馬里蘭州的百斯達(Bethesda)HowardHughes醫學研究所召開了會議,達成并起草了會議聲明,以促進實現生物醫學原創科技文獻的開放存取。同年的6月20日正式發表的《關于開放存取出版的百斯達宣言》認為開放存取的作品必須滿足以下兩個條件:(1)文獻作者或著作權人授權世界范圍的所有用戶,可以合理地在任何數字媒體上免費、無條件地獲取他們的文獻。用戶可以公開地復制、利用、擴散、傳遞和演示這些文獻,可以創作和傳播基于這些文獻的新作品,可為個人使用打印出少量復本。(2)作品的完整版本、所有附件和上述授權聲明要以適當的標準電子格式,應立即存儲在至少一個網絡數據庫中。這些數據庫通常由某些研究機構、學術團體、政府部門或其他知名組織采用適當的技術標準建立和維護,旨在將其建設成為開放存取的、傳播不受限制的、可互操作的、長期保存的檔案。這一概念從開放存取作品的角度來定義開放存取,強調開放存取作品必須具備的兩個要素。美國研究圖書館協會將開放存取解釋為“在基于訂閱的傳統出版模式以外的另一種選擇”,即通過新的數字技術和網絡化通信,任何人都可以及時、免費、不受任何限制地通過網絡獲取各類文獻,包括經過同行評議過的期刊文章、參考文獻、技術報告、學位論文等全文信息,用于科研教育及其他活動,從而促進科學信息的廣泛傳播和學術信息的交流與出版,提升科學研究的被利用程度,保障科學信息的長期保存。4.3.2開放存取的特點1.學術信息交流方便快捷開放存取以因特網為信息交流平臺,主要有開放存取期刊和開放存取知識庫等形式。開放存取期刊以網絡期刊為主,作者網上投稿,專家網上審稿。開放存取知識庫以學科或機構為依托。開放存取模式注重信源、信宿之間交流的直接性和交互性,可以實現作者、編輯、讀者之間一對一、一對多、多對多的交互模式;開放存取注重學術交流的時效性,免去了傳統出版物漫長的評審與出版過程,縮短了出版周期,提高了信息交流的效率。2.學術信息易于獲取開放存取的宗旨是在網絡環境下實現學術信息的廣泛傳播和自由共享。開放存取不僅極大地方便了科研人員獲取研究所需的文獻資料,也增加了作者發表作品的機會,提高了作者的影響力和學術地位。3.開放存取內容豐富、形式多樣開放存取模式對學術信息的質量要求非常嚴格,而在內容和形式方面則沒有限制。開放存取作品形式多樣,不僅包括純文本的電子出版物,如電子學術論文、學位論文,還包括視頻、音頻等各種媒體形式的學術信息,如會議錄、會議文獻、技術報告、數據集、教學資料和講座等。4.學術信息可以自由傳播開放存取是基于網絡傳播學術信息的,科研人員可以隨時發布學術成果,可以在線與同行交流,也可以隨時修改已經發表的作品。因而,開放存取具有很高的靈活度。開放存取強調開放式傳播,同一文獻可以在多個網絡服務器上存儲,可以以多種途徑檢索和閱覽,交流范圍覆蓋整個因特網,各系統間具有良好的互操作性。4.3.3開放存取的主要實現途徑開放存取是基于開放存取理念,通過網絡向用戶免費提供信息所采用的各種方式和方法。一般認為,開放存取的途徑包括開放存取期刊、開放存取知識庫、個人Web站點、電子書、郵件列表服務、論壇、博客、維基、RSS種子、P2P的文檔共享網絡等多種形式。1.開放存取期刊開放存取期刊就是能在因特網上自由獲取的學術性網絡期刊。開放存取期刊允許用戶進行閱讀、下載、復制、分發、打印、檢索鏈接到全文,用于編制索引、作為軟件數據使用或者其他合法目的,除需要上網之外,沒有其他的經濟、法律以及技術障礙。但進行分發和復制的唯一限制和規定是允許文章作者對其作品完整性以及署名權和引用權進行控制。開放存取期刊之所以能夠為廣大網絡用戶免費使用,關鍵在于其獨特的付費模式即現在最流行的作者付費模式。作者付費模式是針對傳統讀者付費模式而言的,即作者為出版自己的研究成果需要支付一定的出版費用,并為讀者提供免費服務。開放存取的倡導者認為作者付費模式具有合理性并可以保證開放存取期刊出版的可持續發展,因為科研工作者具有天然發表自己的科研成果的愿望,而且,發表論文的作者大多數有來自基金項目或研究單位的經費支持。目前,已有越來越多的機構同意為通過開放存取這種方式發表論文支付費用。影響較大的開放存取期刊有科學公共圖書館期刊和生物醫學中心期刊等。2.開放存取知識庫開放存取知識庫包括基于學科的開放存取知識庫和基于機構的開放存取知識庫。arXive印本文庫是前者的代表,目前主要有物理學、數學、非線性科學、計算機科學以及計量生物學等學科。佛羅里達州立大學的D-Scholarship知識庫是后者的典型,主要為佛羅里達州立大學的各個院系及研究人員提供研究成果和教學資料等方面的自我存檔和自我管理的全面服務。從存儲對象來看,D-Scholarship知識庫不僅存儲論文的預印本,而且存儲包括工作文檔、技術報告、會議錄、實驗數據、電子演示文稿和多媒體文件等電子格式的學術內容。開放存取知識庫的資源不是依靠同行評審來保證質量的,而是主要通過限定學科范圍,并依靠機構和作者的水平來進行衡量的。開放存取知識庫的內容既包括預印本,也包括后印本。除了電子文本格式的資料外,開放存取還包括各種課件甚至多媒體聲像資料等數字化資源。開放存取知識庫的免費使用程度由作者控制。在預印本狀態,作者擁有版權,可以自由決定是否將文獻加入知識庫。如果后印本版權已經轉給了期刊出版機構,作者要將文獻加入知識庫就必須征得期刊出版機構的許可,當然大多數期刊(超過70%)還是允許這樣做的。開放存取知識庫最實用之處在于它們都遵循開放文檔創始計劃協議,即可以進行元數據收割以達到相互操作的目的,這就意味著用戶在檢索知識庫中的文獻時并不需要明確知道其準確的位置以及詳細內容。作為最主要的開放存取實現方式之一,開放存取知識庫的發展前景令人看好。其運行費用低廉,適用軟件眾多,操作使用方便,一般依靠大學或者研究機構,多方處于一種共贏的局面,確保了其良好的發展基礎。5.1數據庫概述
5.2綜合全文數據庫
5.3數字圖書
5.4著名的學術評價檢索系統搜索引擎搜索到的信息大約只占網絡信息資源的16%,其余84%的資源對于這些搜索工具是不可見的,稱為隱蔽網絡。這些“隱蔽網絡”中包含對學習科研極為重要的各類中外文網絡數據庫。中國知網(CNKI)、萬方數據庫資源系統、維普數據庫系統、EBSCOhost、ProQuest、SpringerLink、Elsevier和ISIWebofScience等均是國內影響力和利用率都很高的中外文數字資源。它們已經成為大多數高等院校、公共圖書館和科研機構文獻信息保障系統的重要組成部分,是科研人員進行科學研究、科技查新、論文寫作的重要信息來源,也是中外文學術信息的重要代表。5.1數據庫概述數據庫是對大量的規范化數據進行管理的技術,它將要處理的數據經合理分類和規范化處理后,以記錄形式存儲于計算機中,用戶通過關鍵詞及其組配查詢,就可以找到所需信息或其線索。利用數據庫技術進行網絡信息資源的組織可以很大程度地提高信息的有序性、完整性、可理解性和安全性,提高了對大量的結構化數據的處理效率。隨著網絡技術的發展,集網絡技術和數據庫技術于一體的網絡數據庫已經成為網絡資源的重要組成部分,其所存儲的都是經過人工嚴格收集、整理加工和組織的具有較高的學術價值和科研價值的信息。由于各個數據庫后臺的異構性和復雜性,以及對其使用的限制,利用一般性的網絡信息檢索工具,如搜索引擎等,無法檢索出其中的信息資源,因此必須利用各個數據庫的專用檢索系統。在海量信息的背景下,許多數據庫引入了知識發現技術,以幫助用戶更加高效、便捷地檢索到所需信息,避免用戶“迷失”在海量的信息中。按照收錄的信息類型不同,可將數據庫分為綜合全文數據庫、文摘題錄數據庫、引文數據庫、數字圖書數據庫等。5.2綜合全文數據庫5.2.1中國知網(CNKI)1.?CNKI概述CNKI即中國知識基礎設施工程(ChinaNationalKnowledgeInfrastructure,CNKI,網址為),又稱中國知網、中國知識資源總庫、中國學術文獻網絡出版總庫,由清華大學、清華同方光盤股份有限公司、中國學術期刊電子雜志社等單位共同研制開發,始建于1999年6月,是目前世界上信息量最大、信息內容最全的中文數字圖書館。其內容覆蓋各個學科領域,文獻類型包括學術期刊、博士學位論文、優秀碩士學位論文、工具書、重要會議論文、年鑒、專著、報紙、專利、標準、科技成果、知識元、哈佛商業評論數據庫、古籍等。中國知網已經與一些外文數據庫建立了合作關系,可與德國Springer公司期刊庫等外文資源進行統一檢索。CNKI所有資源都提供免費題錄檢索,檢索結果可顯示到文獻的題錄和文摘。但獲取全文需付費,用戶可通過3種方式使用該網站全文資源:(1)購買讀者卡。(2)包庫或鏡像。(3)通過銀行或網絡實時支付。對于包庫用戶,站點一般通過用戶的IP地址控制;對于個人用戶,站點只進行身份驗證。2.數據庫介紹CNKI數據庫中的期刊、學位論文、報紙、會議文獻、引文數據庫都按學科分為自然科學與工程技術、人文與社會科學兩大類十大專輯。自然科學與工程技術類包括基礎科學(數、理、化、天、地、生)、工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡借貸中的擔保機制研究考核試卷
- 2025演藝場所租賃合同模板
- 2025電力建設合同范本
- 2025標準代理商合同
- 二零二五版獨家代理協議書獨家授權代理協議
- 租賃期間房屋買賣合同書二零二五年
- 二零二五版混凝土工勞務承包合同
- 石場承包開采合同二零二五年
- 二零二五版食堂炊事員聘用合同范例
- 本商鋪租賃合同書范例
- 情緒心理學與情緒管理 課件
- 《民俗旅游學》教案-第九章 歲時節日民俗與旅游
- 軟件質量證明書
- 高考標準化考場建設方案詳細
- 人民醫院腫瘤科臨床技術操作規范2023版
- 高壓-引風機電機檢修文件包
- 2023屆物理高考二模考前指導
- GB/T 39486-2020化學試劑電感耦合等離子體質譜分析方法通則
- GB/T 11085-1989散裝液態石油產品損耗
- GXH-3011A1便攜式紅外線CO分析儀
- 2022年四川省阿壩州中考數學試卷及解析
評論
0/150
提交評論