信息檢索之檢索語言_第1頁
信息檢索之檢索語言_第2頁
信息檢索之檢索語言_第3頁
信息檢索之檢索語言_第4頁
信息檢索之檢索語言_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息檢索的原理l 4、分類語言的依據和特征,課題概念分、分類語言的依據和特征,課題概念分類的方法。類的方法。l 5主題檢索語言和關鍵詞檢索語言的主要主題檢索語言和關鍵詞檢索語言的主要區別是什么區別是什么?l 6、什么是數據庫?文獻型數據庫的結構、什么是數據庫?文獻型數據庫的結構l 7、布爾邏輯檢索有哪幾種,其功能是什、布爾邏輯檢索有哪幾種,其功能是什么么?分類語言的依據和特征,課題概念分類的方法。 檢索語言檢索語言分類語言關鍵詞敘詞主題語言 檢索語言檢索語言是應文獻信息的加工、存儲和檢索的共同需要而編制的專門語言,是表達一系列概括文獻信息內容和檢索課題內容的概念及其相互關系的一種概念標識系統。

2、 什么是什么是檢索語言檢索語言?什么是分類語言? 分類語言分類語言也稱分類法。用分類號和相應的分類款目來表達各種概念,以學科體系為基礎將各種概念按學科性質和邏輯層次結構進行分類和系統排序,能反映事物的從屬派生關系,便于按學科門類進行族性檢索。按照分類方式的不同,分類語言又分為體系分類語言、組配分類語言和混合分類語言。 分類語言的依據l中國分類法中國分類法l專利分類法專利分類法l標準分類法標準分類法中國分類法標準分類法A 綜合0009 標準化管理與一般規定1019 經濟、文化2039 基礎標準4049 基礎學科5064 計量6574 標準物質7579 測繪B 農業林業0009 農業、林業綜合10

3、14 土壤與肥料1519 植物保護2029 糧食與飼料作物3039 經濟作物4049 畜牧5059 水產、漁業分類語言的特征 1.表達文獻外部特征的檢索語言2.表達文獻內部特征的檢索語言(一)表達文獻外部特征的檢索(一)表達文獻外部特征的檢索語言語言 表達文獻外部特征的檢索語言主要是指文獻的篇名(題目)、作者姓名、出版者、報告號、專利號等。將不同的文獻按照篇名、作者名稱的字序進行排列,或者按照報告號、專利號的數序進行排列,所形成的以篇名、作者及號碼的檢索途徑來滿足用戶需求的檢索語言。描述文獻外表特征的檢索語言可簡要概述為:題名、著者、文獻編號等索引。(二)表達文獻內部特征的檢索語言 1. 分類

4、語言分類語言是指以數字、字母或字母與數字結合作為基本字符,采用字符直接連接并以圓點(或其他符號)作為分隔符的書寫法,以基本類目作為基本詞匯,以類目的從屬關系來表達復雜概念的一類檢索語言。以知識屬性來描述和表達信息內容的信息處理以知識屬性來描述和表達信息內容的信息處理方法稱為分類法方法稱為分類法。課題概念分類l單單概念概念課題課題l多概念課題多概念課題l上位類分類法上位類分類法主題檢索語言和關鍵詞檢索語言的主要區別是什么? 主題詞與關鍵詞最大的主題詞與關鍵詞最大的區別區別就是就是主題詞經過了規范主題詞經過了規范化處理化處理。 主題詞主題詞是規范化的檢索語言,它對文獻中出現的同義詞、近義詞、多義詞

5、以及同一概念的不同書寫形式等進行嚴格的控制和規范,使每個主題詞都含義明確,以便準確檢索,防止誤檢、漏檢。如:白介素2、白細胞介素2、IL2、IL-2等表達同一概念的不同書寫形式規范為“白細胞介素2”。 。 l 主題詞主題詞表是對主題詞進行規范化處理的依據,也是對主題詞進行規范化處理的依據,也是文獻處理者和檢索者共同參照的依據。文獻處理者和檢索者共同參照的依據。l 關鍵詞關鍵詞是屬于自然語言的范疇,未經規范化處理,屬于自然語言的范疇,未經規范化處理,也不受主題詞表的控制。也不受主題詞表的控制。如:對于“白細胞介素2”這一概念可有白介素2、白細胞介素2、IL2、IL-2等不同形式來表達。 因此,為

6、了達到較高的查準率和查全率,如果檢索工具提供了主題詞這一檢索途徑的話就應該選擇主題詞來進行檢索,而不應該選擇關鍵詞。 例如:利用MEDLINE光盤數據庫檢索有關“肝腫瘤”方面的文獻。 MEDLINE光盤數據庫既提供了主題詞途徑,也提供了自由詞(關鍵詞)途徑。如果選擇關鍵詞途徑來進行檢索,欲達到較高的查準率和查全率,就得查找“liver cancer”、“liver carcinoma”、“liver neoplasm”、“liver tumor”、“hepatic cancer”、“hepatic carcinoma”、“hepatic neoplasm”、“hepatic tumor”等詞,

7、另外還得考慮像cancer、carcinoma、neoplasm、tumor等詞還有復數形式;而如果選擇主題詞途徑進行檢索就只需查找“liver neoplasms”一詞就行了,這一詞就包括了以上所提及的不同的表達形式。由此可見,選用主題詞途徑檢索,既能滿足較高的查準率、查全率,又能提高檢索速度,何樂而不為呢?什么是數據庫?文獻數據庫的結構. 數據庫的定義數據庫的定義 數據庫數據庫是指至少由一種文檔組成,能滿足特定目的的或特定功能數據處理系統需要的數據集合。在計算機情報檢索系統中,多數數據庫為關系型數據庫。 數據庫的類型數據庫的類型 按照數據庫所含信息內容的不同,文獻數據庫可分為文字型、數值型

8、和多媒體型文字型、數值型和多媒體型 多媒體型數據庫多媒體型數據庫是指含有字符、聲音、圖像信息的數據庫。這種數據庫一般為超文本結構。他們既可以用于查找相文獻信息,也可以用于查找特定的屬性值、聲音和圖像。 文字型數據庫文字型數據庫是指以文字字符為主要記錄內容的數據庫,包括書目型、事實型、百科全書型、詞庫型和全文型數據庫。這類數據庫主要用于查找相關文獻信息。 數值型數據庫數值型數據庫包括來自科學研究,原始文獻或者調查研究的各種數值型或圖表型數據庫。這類數據庫主要用于查找確定對象的特定數值信息。數據庫的成數據庫的成 從使用者觀點觀察,數據庫主要由“-記錄-字段-”三個層次構成。 文檔文檔從數據庫的內部

9、來看,文檔的概念是指數據庫內容的組織形式。一般地說,一個數據庫至少包括一個順排文檔和一個倒排文檔 記錄記錄是文檔的基本單元。他是對某一實體的全部屬性進行描述的結果。在全文數據庫中,一個記錄相當于一篇完整的文獻:在書目數據庫中,一個記錄相當于一條文摘或題錄。 字段是記錄的基本單元。它是對實體的具體屬性進行描述的結果。在書目數據庫中,記錄含有的題名、作者、出版年、主題詞、文摘等字段。 根據與文獻內容相關與否,文獻數據庫的字段通常分為基本字段和輔助字段兩類。 基本字段包括題名、文摘、關鍵詞等,是與文獻內容相關的字段。輔助字段包括作者、著這單位和期刊名稱等,是與文獻內容基本相關的字段。 記錄實例 作者

10、: 趙少慶 篇名:信息技術對公共行政的影響論綱。 文章出處:國家行政管理學雜志,2005.12(5) : 345-347 內容摘要:社會信息化是當代社會的一種大趨勢,他正推動著公共行政現在化的進展。信息技術發展對諸如行政人員、行政決策、行政組織、行政方法、行政公文、行政管理模式等公共行政管理要素和過程產生著深遠影響。布爾邏輯檢索有哪幾種,其功能是什么? 常用的布爾邏輯算符有三種三種,分別是:邏輯“與與” ( “AND”、“*”)邏輯“或或”(“OR”、“+”)邏輯“非非”(“NOT”、“-”)1. 布爾邏輯算符:邏輯與 組配方式:AandB或者A*B,表示兩個概念的交叉和和限定關系。l作用作用:檢所包含所有關鍵字的數據。縮小檢索l結果結果:增加檢索專指,提高差準率。l實例:aspartame AND cancer布爾邏輯算符:邏輯或 組配方式:A OR B或者A+b,表示檢索結果含有A或含有B,或同時包含A,B兩個概念的文獻。它主要應用于概念之間的并列關系。 1作用作用:檢索“微量元素銅、鐵、鋅與兒童營養不良”的文獻(銅OP鐵OR鋅)AND(嬰兒OR幼兒OR兒童)AND營養不良 2 例如例如:aspartame O R saccharine

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論