第2章 網絡學術資源檢索的基本原理_第1頁
第2章 網絡學術資源檢索的基本原理_第2頁
第2章 網絡學術資源檢索的基本原理_第3頁
第2章 網絡學術資源檢索的基本原理_第4頁
第2章 網絡學術資源檢索的基本原理_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、11第2章 網絡學術資源檢索的基本原理2.1 信息檢索的基本歷程2.2 信息檢索的途徑與方法2.3 檢索語言2.4 信息檢索技術2.5 信息檢索的一般程序2信息檢索包括信息存儲和信息檢索兩個相互依存的過程。信息存儲過程就是按照檢索語言(主題詞或分類表)及其使用原則對原始信息進行處理,形成信息特征標識,為檢索提供經過整序(形成檢索圖形)的信息集合的過程。具體來說,信息的存儲包括對信息的著錄、標引以及編排正文和所附索引等。3信息檢索過程則是按照同樣的主題詞表(或分類表)及組配原則分析課題,形成檢索提問標識,根據信息存儲所提供的檢索途徑,從信息集合中查找與檢索提問標識相符的信息特征標識的過程。簡單地

2、講,就是將用戶的檢索提問標識與信息集合中存儲的信息標引標識進行比較,兩者一致或信息標引的標識包括著檢索提問標識則檢索命中。42.1 信息檢索的基本歷程1、涵義:信息檢索是指將信息按一定的方式組織起來,并根據信息用戶的需要查找出有關信息的過程。2、發展時期:手工檢索、機械檢索和計算機檢索三個發展時期。5手工信息檢索階段傳統式的手工檢索,是指通過手工操作,利用手工檢索系統獲取文獻信息的檢索方式,簡稱手檢。從檢索原理看,手工檢索與自動化檢索是基本一致的,而且自動化檢索就是在手工檢索的基礎上發展起來的。所以,目前世界上許多著名的檢索工具在出版發行時,印刷型、磁帶型和縮微型同時發行,有些還發行光盤型。前

3、者用于手工檢索,后者用于自動化檢索。6機械信息檢索階段機械檢索最初是從簡單的穿孔卡片逐步發展起來的,穿孔卡片又分手檢穿孔卡片與機檢穿孔卡片兩種。手檢穿孔卡計約出現于1904年,原意圖是用來避免卡片在卡片盒中誤放。機械信息檢索系統是手工檢索向現代信息檢索的過渡階段。7機械信息檢索主要包括兩種基本類型:機電信息檢索系統這是用諸如打孔機、驗孔機、分類機等機電設備記錄二次文獻,用電刷作為檢索元件的信息檢索系統。光電信息檢索系統這是用縮微照相記錄二次文獻,以膠卷或膠片邊緣部分若干黑白小方塊的不同組合做檢索標志,利用光電檢索元件查找文獻的系統。8優點:機械信息檢索系統利用當時先進的機械裝置改進了信息的存貯

4、和檢索方式,通過控制機械動作,借助機械信息處理機的數據識別功能部分代替人腦,促進了信息檢索的自動化。缺點:沒有發展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索,而且過分依賴于設備,檢索復雜,成本較高,檢索效率和質量都不理想。機械信息檢索系統很快被迅速發展的計算機信息檢索系統取代。9計算機檢索階段計算機信息檢索是在計算機技術和通信技術發展的基礎上建立起來的。它產生于20世紀50年代,整個發展歷程大體上經歷了脫機信息檢索、聯機信息檢索、光盤信息檢索、網絡信息檢索4個階段。101、脫機信息檢索階段:在這一時期使用的計算機檢索系統屬于脫機檢索系統,其主要工作方式是脫機批處理。(1)脫機批處

5、理檢索是指用戶與機器脫鉤,不直接參與檢索,不介人與機器的對話,由專職人員把許多用戶的檢索課題匯總,批處理檢索提問要求,然后將檢索結果提供給用戶。11(2)優點:可同時進行多項檢索可處理檢索關系相當復雜的檢索詞匯適用于長期跟蹤某專題的信息檢索服務12(3)缺點:用戶不能參與檢索過程,無法實時地修改檢索策略,查準率降低用戶不能及時瀏覽結果以及無法快速地獲取文獻。132、聯機信息檢索階段定義:聯機檢索是指用戶利用計算機終端設備,通過通信網絡與世界各地的信息檢索系統聯機,從檢索系統的數據庫中查找出所需信息的過程。它允許用戶以人機對話、聯機會話這樣交互的方式(Interactive)直接訪問檢索系統及數

6、據庫,檢索是實時(Real Time)、在線(Online)進行的。14優點:檢索速度快、檢索范圍廣、檢索途徑多、檢索精度高、檢索內容新、檢索輔助功能完善。缺點:檢索費用高;系統檢索指令復雜,多由掌握檢索技能、熟悉命令的有經驗的人員來操作。153、光盤信息檢索階段光盤是一種用激光記錄和讀取信息的盤片,具有信息存取密度高、容量大、讀取速度快、信息類型多、保存時間長、成本低等優點,倍受人們的青睞。光盤信息檢索系統的結構比較簡單,任何一臺安裝了光驅的計算機,只要放上光盤數據庫即可進行光盤檢索。16優點:光盤存儲信息容量大、耐用、復制費用低;光盤檢索系統比聯機檢索系統在設備支持上和通信使用費用方面要求

7、低,尤其適于那些信息服務預算少而且比較偏遠地區的單位使用;光盤檢索可以提供文本、圖形圖像、聲音及動畫等相結合的檢索界面,它使用菜單檢索方式,比傳統的聯機檢索界面友好。缺點:信息更新只能定期進行,檢索時效性差;檢索步驟多,需反復操作,檢索費時且開銷大。174、網絡信息檢索階段以網絡為平臺的計算機檢索被稱為網絡信息檢索,這種檢索方式下,用戶可同時使用網上多個主機,甚至所有主機的某種資源而并不需要預先知道他們的具體地址。這就極大地拓寬了檢索的空間和信息量。通過網絡檢索所需信息,已成為信息檢索的主導力量和發展方向。18與其他檢索方式相比,網絡信息檢索的特點是:信息檢索范圍廣,信息量大,信息檢索的時效性

8、強,但是其處理的信息類型復雜,信息載體形式多樣,尤其是通過搜索引擎進行網絡信息檢索的結果的檢準率較低,信息冗余大。192.2 信息檢索的途徑與方法信息檢索途徑定義:檢索途徑由提取信息源的外部與內部特征形成的,又稱為檢索點或檢索入口。根據文獻信息源所具有的物質屬性與價值內涵,可將信息源特征分為外表特征和內容特征。信息源的外表特征是從文獻信息源的載體、符號系統和記錄方式三要素中提取出的特征構成的,如出版時間、出版地、責任者、文獻題名及聲像與電子類型等,它們分別構成相應的檢索途徑。20信息源的內容特征是由分析構成文獻信息源的信息內容要素的特征與學科屬性形成的,主要形成分類、主題兩種途徑,主題途徑中運

9、用較廣的有主題詞途徑和關鍵詞途徑兩種。文獻信息源的外部特征與文獻是一一對應的關系,而文獻的內容特征與文獻源卻是多對多的關系。21外部特征的檢索途徑1、提名途徑:用書刊名稱或論文篇名編成的索引進行信息檢索的一種途徑。一般較多用于查找圖書、期刊、單篇文獻。2、責任者途徑根據已知文獻源著者直接或間接(利用著者索引實現)查找文獻源的途徑。著者索引包括個人著者索引和機關團體索引兩種。22特點:專業研究人員一般各有所長,尤其是某些領域的知名學者、專家,他們發表的作品具有相當的水平或代表該領域發展的方向,通過作者線索,可以系統地發現和掌握他們研究的進展,可以查找某一作者的最新論著。233、號碼途徑:指通過各

10、種專用符號代碼與專用號碼直接或間接(利用代碼索引實現)查找文獻的方法。專用號碼包括報告號、專利號、標準號,專用符號代碼如元素符號、分子式、結構式等。244、優點:它的排列與檢索方法以字順或數字為準,比較機械、單純,不易錯檢或漏檢。因而適用于查找已知篇名(書名、刊名)、作者姓名或序號代碼的文獻,可直接判斷該文獻的有或無。25內容特征的檢索途徑1、分類途徑分類法:按照信息內容的學科屬性,運用概念劃分與歸納的方法形成各級類,從而組織信息形成一種有序化的知識體系,以這種方式組織信息的方法叫分類法。分類途徑:用分類法組織的信息為用戶提供從學科屬性查找的途徑就是分類途徑。26特點:科學、系統,滿足“族性檢

11、索”,查全率高。但查找信息的其他屬性和查找知識的橫向聯系時,此途徑非常不便,分類途徑對用戶的要求較高,這些限制了此途徑的廣泛應用。利用此途徑來實現信息的查詢有三種情況:一是用戶首先通過查找各種分類法的分類詳表或類目索引獲得相關線索(類目或類號)再進一步檢索;二是通過選擇數據庫提供的輸人框的下拉菜單分類限制;三是通過瀏覽門戶網站和搜索引擎的分類類目來選擇。272、主題途徑定義:以規范化的詞匯來表達文獻內容的主題,這種詞匯叫主題詞,主題途徑是指用戶根據所確定的主題詞或關鍵詞,利用主題詞表和主題索引實施檢索的途徑。特點:通過主題途徑獲得的信息專指性強,但查全率較低,對用戶的檢索知識要求高。28多媒體

12、信息源的檢索途徑多媒體信息源既包括數字化的文本信息、圖形與圖像信息,又包括數字化的視頻與音頻信息,這些信息具有與文本信息不同的內容特征,從而形成的檢索途徑也不同。用于圖像檢索的途徑主要包括顏色、紋理、形狀和對象。29信息檢索方法信息檢索在實施過程中要受到很多客觀因素的影響,檢索方法有助于改善檢索,但同一檢索方法并非對各種用戶、各種檢索需求都適用,每一種方法都有其使用的范圍與優勢。要提高檢索的效率與質量,需要不同的檢索用戶在遵循一些基本檢索方法與技巧上養成良好的檢索習慣。在手工檢索和計算機檢索時經常用到的方法有常規法、引文法和綜合法等。301、常規法:是指直接利用檢索工具檢索文獻信息的方法,是文

13、獻檢索中最常用的一種方法,又分為以下幾種:順查法:按照時間的順序、由遠及近地利用檢索系統進行文獻信息檢索的方法。這種方法能收集到某一課題的系統的文獻,適用于較大課題的文獻檢索。31倒查法:由近及遠、從新到舊、逆著時間的順序利用檢索工具進行文獻檢索的方法。此法的重點是放在近期文獻上。使用這種方法可以最快地獲得最新資料。抽查法:是指針對項目的特點,選擇有關該項目的文獻信息最可能出現或最多出現的時間段,利用檢索工具進行重點檢索的方法。322、引文法:利用文獻后所附的參考文獻、相關書目查找相關文獻的方法就叫引文法。引文法的使用有兩種方式:追溯檢索法即從文獻信息密度較大的幾種期刊的最近兩三年論文中查出一

14、批與檢索課題有關的文獻,再以這批文獻所附的參考文獻作為線索,找到第二批相關文獻,以此類推獲得一批與主題相關的文獻,這種方法的出發點是從引用論文開始查找。33引文索引法即利用引文索引,從被引論文開始查找引用它的全部論文,通過此方法可得到與來源文獻同一主題的一批相關文獻。343、綜合法:又稱為循環法,它是把上述兩種方法加以綜合運用的方法。綜合法既要利用檢索工具進行常規檢索,又要利用文獻后所附的參考文獻進行追溯引文檢索,分期分段地交替使用這兩種方法。35綜合法的好處是能夠綜合常規法和引文法的優點。其依據主要有兩點:其一,任何檢索工具書,都有文獻收錄的范圍、主題報道的重點和傾向等,以引文法作為補充,可

15、以擴大文獻線索,發現更多有價值的文獻信息;其二,文獻引用現象有這樣的規律,凡是重要的文獻,一般在五年之內都會被其他文獻所引用。循環法是對常規法和引文法的綜合利用,檢索效率較高,并可克服檢索工具的不齊全的限制,進行連續的檢索,獲得更多、更切題的文獻信息,是實際中使用較多的方法。362.3 檢索語言檢索語言是根據文獻信息檢索需要而創造的一種人工語言,是信息檢索系統存貯與檢索所使用的共同語言。它是專門用來描述文獻的內容特征、外表特征和表達信息提問的一種人工語言。371、檢索語言的基本要求具有必要的語義和語法規則具有表達概念的單一性具有文獻檢索標識和提問特征進行比較和識別的方便性另外,檢索語言體系應科

16、學合理382、檢索語言的類型根據是否規范化,檢索語言可以分為規范化語言和非規范化語言。根據所包括的專業范圍,可以分為綜合性檢索語言和專業性檢索語言。根據描述文獻的特征,可以分為描述文獻外部特征的檢索語言和描述文獻內容特征的檢索語言。按標識組配方式,可分為先組式檢索語言和后組式檢索語言。39分類語言按表述信息的內容特征,可分為分類語言和主題語言。分類語言的概念:是以學科體系為基礎,將各種概念按照學科性質進行分類和系統排列,并按分類號編排組織成一個完整的體系。分類語言的特點:以學科為基礎的一種信息檢索語言,能較好地體現學科的系統性,符合人們認識事物的規律和處理事物的習慣,便于從學科和專業角度檢索文

17、獻,也便于組織文獻信息的排架,因此,容易為人們熟悉和使用。40采用的檢索標識,是國際上廣泛采用的拉丁字母和阿拉伯數字,通用性強。能較好地反映學科的縱向關系,而不容易反映學科間相互交叉滲透的橫向聯系,因而不易準確標引和檢索交叉學科的文獻。是一種先組式的信息檢索語言,即在檢索之前就已經固定好的標識系統。使用分類語言標引和檢索文獻信息時必須對學科的分類體系有較深刻的了解。41主題詞檢索語言1、定義:直接用代表信息主題概念的主題詞作為信息的標識的一種檢索語言。2、特點:可直接使用描述文獻內容特征的名詞性術語作為標識來揭示文獻的內容特征把這些標識按字母順序排列成主題詞表,以此作為標引、檢索文獻的工具。4

18、23、主題詞語言的分類標題詞語言敘詞語言關鍵詞語言引文索引語言4、用主題法查找文獻,要注意以下幾點:注意利用詞表選擇主題詞要把握概念的含義要利用概念之間的屬種關系和相關關系增加檢索線索432.4 信息檢索技術信息檢索技術是應用于用戶提問與所收集的文獻集合之間的匹配比較的技術。它經歷了手工檢索、脫機檢索、聯機檢索到基于Internet的網絡化檢索的過程,同時也從開始時基于關鍵詞的檢索,發展到基于概念的檢索,再到如今基于內容的檢索,這一演化過程反映了對某一文獻的檢索由對內容知識的檢索代替了對關鍵詞、概念知識的檢索。44布爾邏輯檢索技術邏輯檢索式一種開發較早、比較成熟、最為流行的經典檢索技術,它具有

19、簡單、易理解、容易在計算機上實現且檢索速度快等優點。布爾檢索就是采用布爾表達式來表示用戶提問,通過對文本標識與用戶給出的檢索式進行邏輯比較來檢索文檔。主要的布爾邏輯關系詞有:邏輯“或”(OR),邏輯“與”(AND),邏輯“非”(NOT)。45截詞檢索截詞:是指檢索者將檢索詞在他認為合適的地方截斷。截詞檢索:用所截斷的詞的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。截詞方式有多種,按截斷位置來分,截詞檢索有右截斷(前方一致)、左截斷(后方一致)、左右同時截斷(中間一致)、完全一致和指定位數一致5種,其中前方一致、后方一致和中間一致用的較多。前方一致:指將檢

20、索詞的詞尾部分截斷,要求比較被檢項的前面部分。后方一致:將檢索詞的詞頭部分截斷,要求比較被檢項的后面部分。中間一致:將字根左右詞頭、詞尾部分同是截斷。46全文檢索所謂全文檢索,就是以文本數據為主要對象,實現內容信息存儲與檢索的技術。全文檢索目前主要通過以下方式來實現:對文本內容中的每個檢索項進行位置掃描,然后排序,建立以每個檢索項的離散碼為目標的倒排文檔;采用自由指定的檢索項直接與全文文本的數據高速對照,進行檢索;采用超文本模型建立全文數據庫,實現超文本檢索。47其他檢索技術加權檢索限定檢索詞表檢索智能檢索48492.5 信息檢索的一般程序信息檢索工作是一項實踐性和經驗性很強的工作,對于不同的

21、待查課題,將采用不同的檢索程序。信息檢索的全過程大致可以分為分析檢索課題與確定檢索需求、選擇檢索工具、確定檢索途徑和方法、優化檢索提問與策略、原文獲取與 評價五個步驟。分析檢索課題與確定檢索需求1、在課題分析中,要明確以下幾個問題:(1)找出課題所涉及的主要內容和相關內容,從而形成主要概念和次要概念。(2)盡可能多地列出表達檢索概念的自然語言詞語的同義詞和近義詞。(3)多了解與檢索有關的背景情況,如該主題內容在學科中的發展狀況等。(4)明確課題需要的文獻類型、語種、出版年代等方面的要求。(5)了解課題對查全、查準、查新方面有無具體要求502、課題分析要從以下幾個方面進行:(1)課題的分類(2)分析“已知”和“欲知”信息(3)分析主題內容(4)指定文獻類型和年代51選擇檢索工具選擇檢索工具應考慮以下四個方面的因素:其一,學科、專業范圍其二,信息類型其三,文種其四,課題內容對類型相似

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論