信息檢索與檢索系統_第1頁
信息檢索與檢索系統_第2頁
信息檢索與檢索系統_第3頁
信息檢索與檢索系統_第4頁
信息檢索與檢索系統_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息檢索與檢索系統第一頁,共三十二頁,2022年,8月28日2.1信息檢索的含義和作用

1.信息檢索的含義

(1)“信息檢索”(InformationRetrieval)是指將信息按一定方式組織和存貯起來,并針對信息用戶的需求找出所需要的信息的過程。信息檢索的廣義概念包括兩個部分,即信息存儲和信息檢索,狹義則僅指該過程的后一部分,即信息的查找過程。信息檢索的目的是為了解決特定的信息需求和滿足信息用戶的需要。它根據檢索(查找)對象的不同,又可以分為文獻檢索、事實檢索和數據檢索。

信息檢索的本質是信息用戶的需求和一定的信息集合的比較和選擇的過程,即“匹配”的過程,也就是用戶需求的主題概念或提問表達式同一定信息系統的檢索語言相適應的過程。第二頁,共三十二頁,2022年,8月28日第三頁,共三十二頁,2022年,8月28日

(2)科技信息檢索

是應用現代信息檢索理論并借助一定的檢索工具和技術,從浩如煙海的科技信息資源中查找所需信息的過程。

(3)信息檢索方式

按照信息存儲手段和載體形式,可以分為手工檢索(手檢)和計算機檢索(機檢)。手工檢索是針對印刷型檢索工具的,計算機檢索使用的對象是計算機檢索系統(包括各種數據庫、檢索軟件及相關應用軟件、計算機硬件和通信設施等)。無論是手檢還是機檢,按檢索過程和最終結果的關系可分為直接檢索和間接檢索兩種方式。直接檢索是指查閱一次信息(或一次文獻)直接獲取所需信息的方法,其效率很低(手檢)。間接檢索主要是指利用各種檢索工具或檢索系統獲取信息線索的方法,再通過信息線索獲取原始信息,這種方式效率要高得多,因而是現代信息檢索的主要方式。

第四頁,共三十二頁,2022年,8月28日

(4)信息檢索入口

又稱檢索點或檢索標識,是指信息內部特征或外部特征的屬性值的集合。檢索標識是系統標引員和信息用戶所共同遵循的“接口”,是信息用戶檢索信息的出發點和依據。檢索標識主要包括主題詞、關鍵詞、分類號、著者、標題、機構名稱或代碼等。(5)信息檢索的類型

按檢索結果的內容來劃分,可以劃分為文獻檢索、數據檢索、事實檢索和概念檢索。

文獻檢索(DocumentsRetrieval)是目前信息檢索的主要類型,它是通過二次文獻查找所需的一次文獻或(和)三次文獻。

數據檢索(DataRetrieval)是滿足數據需求的檢索過程,如數理化等科學數據、經濟數據、歷史地理數據等。這里的數據指大量的數值、數字和相應的在邏輯層次結構上緊密相關的信息內容,它不等同于狹義的數學上的含義。

第五頁,共三十二頁,2022年,8月28日

事實檢索(FactRetrieval)是對特定事實或事件的檢索。事實內容包括大量的科學事件和社會事件,例如傳統的報刊檢索和現代的網絡新聞檢索就是查找“何時何地發生的具體事件”。

概念檢索(ConceptRetrieval)是查找特定概念的含義、作用、原理或使用范圍等解釋性內容或說明。最常見的概念檢索是查找各種參考工具書,例如字詞典、百科全書、名錄、手冊、指南等參考工具書。

2.信息檢索的作用(1)信息檢索是信息社會個人素質的一個重要組成部分(2)信息檢索是實現信息資源共享的重要途徑(3)信息檢索是科學研究和技術創新的重要組成部分(4)信息檢索是提高個人競爭力的重要因素第六頁,共三十二頁,2022年,8月28日2.2檢索工具的基本功能及類型1.檢索工具的基本功能

信息檢索工具的主要功能表現在存儲和檢索兩個方面。報道及時全面、存儲規范有序、檢索方便準確是對檢索工具的基本要求。因此,檢索工具應具備下列基本功能:

(1)報道功能

以高度壓縮的形式簡要揭示信息的內容特征(如標題、主題、摘要和分類等)和外部特征(如書刊名、著者和號碼等)。

第七頁,共三十二頁,2022年,8月28日

(2)標識功能

對著錄信息進行多種標識,如序號、代碼號、主題詞、關鍵詞、學科類目等。(3)輔助檢索功能

檢索工具須提供多種輔助檢索手段,如分類索引、主題索引、著者索引、機構索引和代碼索引等。輔助檢索功能的完善程度不僅是檢索工具的主要質量指標,而且也是影響信息用戶能否充分實現信息資源共享的一個關鍵因素。第八頁,共三十二頁,2022年,8月28日

2.檢索工具的基本類型

(1)按載體形式劃分①書刊型檢索工具,即以圖書或期刊形式出版的常用檢索工具。又可分為期刊式、單卷式和附錄式等形式。②卡片型檢索工具,將文獻的各種檢索標識著錄在卡片上并按一定方法排列組織而成的傳統檢索工具。③縮微型檢索工具,以縮微膠卷或平片的形式報道文獻線索的檢索工具,需要專用的縮微閱讀設備。④機讀型檢索工具,以計算機為主要手段進行信息存儲和信息檢索的工具。它是信息檢索工具(系統)發展的主導形式和方向。第九頁,共三十二頁,2022年,8月28日(2)按著錄信息的特征劃分①目錄(Contents)

以文獻的外部特征為著錄依據,記錄具體出版事項及其收藏信息的報道性檢索工具。按組織形式和范圍可劃分為國家書目、聯合目錄、館藏目錄、報刊目錄、聯機性和網絡性目錄等多種類型,按報道信息的學科范圍可將目錄劃分為專題目錄和綜合目錄。②索引(index)

將文獻的一些外部特征和內容特征作為著錄依據,并依此線索揭示文獻原始信息內容的檢索工具,如著者索引、主題索引、分類索引、關鍵詞索引等。第十頁,共三十二頁,2022年,8月28日③文摘(abstract)

在著錄文獻外部特征的基礎上,另外增加揭示內容特征的摘要部分,它是系統地報道、積累和檢索文獻信息的主要工具,是傳統檢索工具的核心。根據文摘揭示信息內容的深度,可以分為指示性文摘和報道性文摘。④參考工具書(reference)

是分析和著錄大量具體而常用的科學數據與事實、以備查用的各種常用工具書的總稱。⑤搜索引擎(searchingengine)

將網絡信息按一定分類方法組織起來,通過檢索網址的方式來檢索信息的檢索工具。如百度、Google、搜狐、yahoo等。第十一頁,共三十二頁,2022年,8月28日(3)檢索工具的其它分類方法

①按檢索手段可分為手工檢索工具和計算機檢索工具;

②按報道的信息來源可分為單一型和多類型檢索工具;

③按收錄信息的學科范圍可分為綜合型和專業型檢索工具;④按檢索的對象和結果可分為文獻信息和事實數據檢索工具。第十二頁,共三十二頁,2022年,8月28日2.3檢索系統的構成1.檢索系統的構成

信息檢索系統是由存儲在一定載體上的有序化信息集合,相應的檢索技術和設備,以及配套協調機制共同構成的具有信息存儲和檢索功能的共享信息環境。(1)檢索文檔

經過有序化處理并附有檢索標識的信息集合。如各種手檢工具和機檢數據庫。檢索文檔包括順排文檔和倒排文檔,順排文檔的檢索是對庫中主文檔的檢索,倒排文檔是抽取具有檢索意義的字段再重新組成的索引文檔(檢索屬性和信息地址的有序集合)。第十三頁,共三十二頁,2022年,8月28日(2)檢索設備

用以存儲信息和檢索標識、實現信息查詢及其結果傳遞的技術手段。如主機、終端及通信設施等。(3)系統規則

規范信息采集分析、標引著錄、組織管理、檢索與傳輸等過程的各種標準體系。(4)作用于系統的人

包括信息采集、分析和標引人員,系統管理和維護人員,信息用戶和信息檢索服務人員等。以上四要素是針對廣義的信息檢索系統而言的。狹義的檢索系統僅指軟件環境的核心部分,即:手工檢索系統由正文、輔助索引、分類表和主題詞表、說明、文獻來源目錄等5部分組成;計算機檢索系統由數據庫的字段、記錄、文檔、主題與分類索引、輔助咨詢等部分組成。

第十四頁,共三十二頁,2022年,8月28日良好的信息檢索系統須具備以下特征:①須有規范的檢索語言作環境支持(包括適宜的操作系統);②須有一部數據字典或詞表作后盾;③對信息特征的標引和著錄務求詳細準確;④須具備多種系統檢索標識;⑤全部檢索標識必須有序化并相互協調;⑥提供多種檢索方法和途徑;⑦檢索過程簡易高效,符合“用戶努力最小”原則;⑧準確的信息傳遞和信息輸出;⑨多種檢索系統之間須具有兼容性和通用性。第十五頁,共三十二頁,2022年,8月28日

2.檢索系統的基本原理信息源主題概念分析標引語言數據庫檢索詞主題概念分析信息需求用戶標引詞檢索工具存儲標識=檢索標識規范化詞檢索語言規范化詞?采集轉換信息存儲過程信息檢索過程錄入輸出信息檢索系統基本原理框圖第十六頁,共三十二頁,2022年,8月28日2.4檢索語言1.檢索語言的概念

檢索語言是用于描述信息系統中信息的內部特征和外部特征及其表達信息用戶需求提問的一種專門語言。或者說,檢索語言是信息存儲和信息檢索共同遵循的一種約定性語言。檢索語言又稱為標引語言、索引語言、存儲語言等。信息檢索的匹配過程就是通過檢索語言的匹配過程實現的。第十七頁,共三十二頁,2022年,8月28日2.檢索語言的基本要求和特點(1)易于標引和檢索:這是衡量檢索語言的首要指標。其基本因素有:①詞語或符號的含義必須明確,不能有歧義或交叉②語言概念豐富,概括面廣,讓各種文獻信息都能有類可歸(即有詞或有號)③標識的簡潔直觀性④檢索語言的語法必須嚴密規范;(2)檢索語言須具有實用性;(3)具有較高的查全率和查準率;(4)滿足多種檢索要求,提供多種檢索途徑;(5)檢索語言之間的通用性和兼容性。第十八頁,共三十二頁,2022年,8月28日3.檢索語言的類型(1)檢索語言按是否受控劃分為人工語言和自然語言①人工語言:對檢索語言的概念加以規范和控制,把各種同義詞、多義詞、同形異義詞等進行規范化處理,使每一個檢索詞只能表達一個概念,分類語言、標題詞和主題詞(敘詞)語言都屬于人工規范語言;②自然語言:對檢索語言中的同義詞、多義詞等不加處理,取其自然狀態,單元詞和關鍵詞屬于這一類。(2)按檢索時的組配實施狀況劃分為先組式和后組式檢索語言①先組式檢索語言:在檢索前,檢索詞已被預先組配好,檢索時用戶只能嚴格按照預先設定的檢索詞去查找信息而不能任意組配。如分類索引中的各級分類款目、標題索引中的標題詞都是如此。第十九頁,共三十二頁,2022年,8月28日②后組式檢索語言:在檢索前檢索詞沒有被預先組配,檢索時可以對檢索詞任意組配,構成所需要的檢索概念。其組配的基本原理是:具體概念可通過一般概念組配而成。單元詞、敘詞、關鍵詞都屬于這一類。(3)按內容性質劃分為分類語言和主題語言①分類語言:是用分類號和相應分類款目來表達各種概念,以學科體系為基礎,將各種概念按學科性質和邏輯層次結構進行分類和系統排序。其特點是能集中體現學科的系統性,反映事物的從屬派生關系,便于按學科門類進行族性檢索。按照分類方式的不同,又可分為體系分類語言、組配分類語言和混合分類語言。第二十頁,共三十二頁,2022年,8月28日②主題語言:是對信息主題內容特征的主題詞匯概念,經規范化處理所形成的檢索語言。由于主題詞表達概念準確,所以主題途徑是檢索信息的主要途徑。主題詞匯按一定規則構成主題詞表,詞表通過參照方式揭示詞匯之間的相互關系,用作信息標引和信息檢索的參考依據。主題語言按照主題性質的不同,可以分為標題詞(subjectheading)語言、單元詞(uniterm)語言、敘詞(descriptor)語言、關鍵詞(keyword)語言等。

第二十一頁,共三十二頁,2022年,8月28日4.體系分類語言

體系分類語言是目前世界上最流行的檢索語言,常見的有《杜威十進制分類法》(DDC)、《國際專利分類法》(IPC)、《美國國會圖書館分類法》(LC)、《英國國會圖書館分類法》(LCC)、《中國圖書館圖書分類法》(中圖法)、《中國科學院圖書館圖書分類法》(科圖法)等。體系分類語言的具體表現形式就是分類表及其輔助說明,一部完整的分類法由三個部分組成,即:分類表、輔助表和使用說明。現以《中圖法》和《科圖法》為例予以簡單說明。第二十二頁,共三十二頁,2022年,8月28日(1)《中圖法》分類表的構成

①分類表:是選擇、類分、組織和檢索信息的依據,分為:

編制說明:對類的設置與排序、標引和查閱方法等問題的說明。

基本部類:將全部知識劃分為馬列毛鄧、哲學、社會科學、自然科學和綜合性圖書五個部分。又稱基本序列。

大綱:也稱基本大類,構成分類表的一級類目。《中圖法》把知識體系分為22個基本大類。第二十三頁,共三十二頁,2022年,8月28日簡表:即基本類目表,是整個分類表的骨架。詳表:又稱主表,即分類表的正文,由類號、類目和注釋組成。復分表:是祥表的一系列標準子目表,用于對祥表中指定需要劃分的類目作進一步的細分。②輔助表:即《中國圖書館圖書分類法索引》,用于引導用戶從信息主題的角度迅速準確地確定分類號。③使用說明:是《中圖法》的配套使用手冊。圖2-2(P.34)列出了《中圖法》各級類目展開的示例。(2)《科圖法》簡介:中科院系統圖書情報機構幾乎全部采用《科圖法》。《科圖法》與《中圖法》都屬于體系分類語言,其編排體例與結構類似于《中圖法》,如圖2—3所示。第二十四頁,共三十二頁,2022年,8月28日第二十五頁,共三十二頁,2022年,8月28日第二十六頁,共三十二頁,2022年,8月28日5.主題詞語言

主題詞語言是以概念為基礎(包括正式主題詞和非正式主題詞)、經過規范化處理的具有檢索意義和組配性能的單詞或詞組的有機集合。主題詞是從主題途徑組織信息和檢索信息的依據。非正式主題詞是用來指引正式主題詞的一種措施,即引導詞,正式主題詞是用于主題標引和檢索的受控詞。主題詞語言的具體表現形式是主題詞表和主題索引,幾乎所有檢索系統或檢索工具均提供主題檢索途徑。常見的比較重要的主題詞表有《漢語主題詞表》和英國《科學文摘主題詞表》(INSPECThesaurus)。示例見教材P39—42。第二十七頁,共三十二頁,2022年,8月28日漢語拼音---Dianshixianxiangguan款目主題詞--電視顯象管[56CE]-----范疇號英文譯名---KinescopeTelevisiontube用項符號---Y顯象管------同義詞(正式主題詞)漢語拼音---Gaowenfa款目主題詞--高溫閥[67G]----范疇號含義注釋---(溫度>450℃)英文譯名---Hightemperaturevalves屬項符號---S閥門*-----族首詞符號廣義詞、族首詞《漢語主題詞表》的主表主題詞款目舉例1第二十八頁,共三十二頁,2022年,8月28日漢語拼音---Xianxiangguan

款目主題詞--顯像管[56E]-------范疇號

英文譯名---Kenescope

Picturetube代項符號---D電視顯像管<---------同義詞監視管(非正式主題詞)分項符號---F彩色顯像管--------狹義詞固體顯像管黑白顯像管屬項符號---S電子束管----------廣義詞族項符號---Z電子管*<--------族首詞符號族首詞參項符號---C顯示管<-----------相關詞指示管《漢語主題詞表》的主表主題詞款目舉例2第二十九頁,共三十二頁,2022年,8月28日acousticwavevelocity

UFacousticvelocity

NTultrasonicvelocity

BTvelocity

TTvelocity

RTacousticdispersionacousticimpedance

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論