科技信息檢索(第5版)教學課件-第2章匯編_第1頁
科技信息檢索(第5版)教學課件-第2章匯編_第2頁
科技信息檢索(第5版)教學課件-第2章匯編_第3頁
科技信息檢索(第5版)教學課件-第2章匯編_第4頁
科技信息檢索(第5版)教學課件-第2章匯編_第5頁
已閱讀5頁,還剩63頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文獻檢索課第2章信息的檢索技術與方法第2章信息的檢索技術與方法2.1信息檢索與數據庫的定義2.2信息檢索方法2.3信息檢索技術2.1信息檢索和數據庫定義2.1.1信息檢索定義

信息檢索通常是指從任何方式組成的信息集合中,查找特定用戶在特定時間和條件下所需信息的方法與過程。因此,完整的信息檢索應包括以下兩個方面:1.信息標引和存儲過程2.信息的檢索過程2.1.2信息檢索實質將描述特定用戶所需信息的提問特征,與信息存儲的檢索標識進行異同的比較,從中找出與提問特征一致或基本一致的信息。提問特征是指從欲檢索課題中選擇出能代表信息需求的主題詞、關鍵詞或分類號等。示例一研究課題名稱計算機輔助工藝設計系統提問特征:1.計算機2.輔助工藝3.設計系統2.1.3信息檢索的意義與作用充分利用信息資源,避免重復勞動為人們更新知識,實現終生學習提供門徑2.1.4信息檢索的類型和特點書目信息檢索全文信息檢索數據信息檢索事實信息檢索書目信息檢索

以標題、作者、原文來源、摘要及收藏地點為檢索對象,是一種相關性檢索。特點:檢索結果不直接解答課題用戶提出的技術問題,只提供與之相關的線索。一般以目錄、索引、文摘為檢索工具。

例如:查找有關“復雜環境下機器人研究”方面的國內外信息有哪些?

檢索工具:中文科技期刊數據庫、EI、SCI等。

全文信息檢索

以論文或專利說明書的全文為檢索對象,也是相關性檢索。特點:書目信息檢索基礎上更深層次的內容檢索。例如:檢索由陸小龍,趙世平,廖俊必,曹志華撰寫的,發表在四川大學學報(工程科學版),2010,(6)“電力鐵塔攀爬機器人夾持機構設計與分析”一文檢索工具:中國期刊全文數據庫

數據信息檢索以具有數量性質并以數值形式表示的數據為檢索對象,是一種確定性檢索。特點:檢索的結果是經過測試和評價過的各種數據,可用于比較分析和定量分析。一般以數據大全、手冊、年鑒等為檢索工具。例如:2010年全國行政區劃數據?檢索工具中國2011年統計年鑒事實信息檢索以事項為檢索對象,檢索結果是有關某一事物的具體答案,也是一種確定性檢索。一般利用字詞典、年鑒、百科全書、手冊、名錄等為檢索工具。綜述

書目信息檢索是利用各種目錄、題錄和文摘工具獲取有關信息的線索。例如:各種圖書目錄、期刊題錄、文摘國內外著名的題錄和文摘有《中國期刊全文數據庫》、《中文期刊數據庫》、《萬方數據》、《工程索引》(EI)、《科學引文索引》(SCI)等。

全文信息檢索是利用各種全文系統獲取有關的全文信息。例如:中國期刊全文數據庫數據和事實檢索是利用各種參考工具書獲取有關的確定性數據或事實信息。例如:各種百科全書、年鑒、手冊等。2.1.5信息檢索的原理信息檢索效率信息檢索系統信息檢索語言信息檢索效率

信息檢索效率是評價一個檢索系統性能優劣的質量標準,它貫穿于信息的存儲和檢索的全過程。其評價指標主要是:查全率查準率信息檢索系統

信息檢索系統是擁有一定的存儲、檢索技術裝備、存儲有各種信息,并能為用戶檢索所需信息的服務工作系統。目前常用的是手工檢索系統和計算機檢索系統。

手工檢索系統現在已經不在使用了!信息檢索系統

計算機檢索系統又稱現代化檢索系統,是用計算機技術、電子技術、遠程通信技術、光盤技術、網絡技術等構成的存儲和檢索信息的系統。存儲時,將大量的各種信息以一定的格式輸入到系統中,加工處理成可供檢索的

數據庫信息檢索系統

計算機檢索系統檢索時,將符合檢索需求的提問式輸入計算機,在數據庫中進行匹配運算,然后將檢索結果按要求的格式輸出。特點是:①檢索速度快,節省人力和時間;②便于進行多元概念檢索;③能提供遠程檢索。數據庫類型按所提供的信息內容,數據庫主要可分為參考數據庫、書目數據庫、指南數據庫、源數據庫。數據庫類型參考數據庫主要存儲一系列描述性信息內容,指引用戶到另一信息源以獲得完整的原始信息的一類數據庫,主要包括書目數據庫和指南數據庫。數據庫類型書目數據庫內容特征:存儲描述如目錄、題錄、文摘等書目線索的數據庫,又稱二次文獻信息數據庫。如各種圖書館目錄數據庫、題錄數據庫和文摘數據庫等屬于此類。

作用:指出了獲取原始信息的線索。數據庫類型指南數據庫內容特征:存儲描述關于機構、人物、產品、活動等對象的數據庫。作用:指引用戶從其它有關信息源獲取更詳細的信息。數據庫類型源數據庫主要存儲全文、數值、結構式等信息,能直接提供原始信息或具體數據,不必再轉查其它信息源的數據庫。主要包括:

全文數據庫和數值數據庫全文數據庫內容特征:存儲原始信息全文或主要部分的一種源數據庫。如期刊全文數據庫、專利全文數據庫、百科全書全文數據庫。作用:用戶使用某一詞匯或短語,便可直接檢索出含有該詞匯或短語的原始信息的全文。數值數據庫內容特征:存儲以數值表示信息為主的一種源數據庫,和它類似的有文本-數值數據庫。作用:數值數據庫是對信息進行深加工的產物,可以直接提供所需的數據信息,如:各種統計數據庫、科學技術數據庫等。數據庫結構書目數據庫的結構書目數據庫是以文檔形式組織一系列數據,這些數據被稱為記錄,一個記錄又包含若干字段。數據庫結構全文數據庫的結構全文數據庫的一個記錄就是一個全文文本,一個記錄分成若干字段。數據庫結構數值數據庫的結構數值數據庫的所有數據都可以用來運算、分析、生成圖形、重新組織排序,可以是單元式,也可以是表冊形式。數據庫結構指南數據庫的結構指南數據庫兼有書目數據庫、全文數據庫、數值數據庫的特點,是一種多元數據庫。信息檢索語言

檢索語言又稱標引語言,是系統存儲和檢索時共同使用的一種約定語言,以達到信息存儲和檢索的一致性,提高檢索效率。信息檢索語言的類型

體系分類語言分類語言組配分類語言混合分類語言標題詞語言主題語言關鍵詞語言

敘詞語言單元詞語言體系分類語言

體系分類語言是一種直接體現知識分類等級概念的標識檢索語言。它以科學分類為基礎,以文獻內容的學科性質為對象,運用概念的劃分與概括的方法,按照知識門類的邏輯次序,進行層次劃分,產生許多不同級別的類目。體系分類語言廣泛使用于圖書分類和檢索,世界上比較有影響的圖書分類法是杜威十進分類法、國際十進分類法、冒號分類法、中國科學院圖書館圖書分類法、中國圖書館分類法等。組配分類語言組配分類檢索語言是在體系分類檢索語言基礎上發展而來的,也叫組面分類語言。它是將若干概念單元組配起來表達一個復雜概念的分類語言,所以它打破了體系分類檢索語言的等級列舉式的局限性,概念分析深入,類目包羅能力較強,組配靈活,適于多維檢索。組配分類檢索語言,源于組配式文獻分類法。它的基本方法是按科學范疇分為若干組面,每個組面內列出相關技術術語,即類目,每個類目表達一個簡單的主題概念,用分類符號作為組面和類目的標記。檢索文獻時,按文獻的主題內容選擇相應的組面和術語(類目),然后將這些術語的符號,按一定的次序排列起來,構成檢索文獻的分類號。標題詞語言標題詞語言是主題語言中最早出現的一種檢索語言。標題詞一般是從科技工作者熟悉的大量科技名詞中,選出具有實質性意義的科技名詞術語,經過規范化處理,使之能夠直接地、準確地表達文獻的主題內容,使優選的標題詞詞義在表達概念上具有唯一性,即達到一個標題詞只對應一個概念。關鍵詞語言關鍵詞語言是一種主題語言,它是直接從原文的標題、摘要、全文和檢索課題中抽選出來的具有實質意義的、未經規范化處理的自然語言詞匯作為存儲和檢索依據的一種檢索語言。示例課題:光纖傳感器在測量中的應用關鍵詞:光纖、傳感器、測量光纖傳感器、測量敘詞語言敘詞是指從文獻內容中抽出來,能表達文獻內容基本概念并經過規范化的名詞和術語,特點是具有組配性,通過概念組配來表達主題。敘詞語言的基本成分是敘詞,它是一種規范化的檢索語言,屬于后組式語言。敘詞語言可用復合詞表達主題概念,在檢索時可由多個敘詞組成任意合乎邏輯的組配,形成多種檢索方式。概念組配在計算機檢索中常用“布爾邏輯提問式”來表達,即通過邏輯關系符號將有關敘詞組配成邏輯與、邏輯或、邏輯非等提問式,以表達檢索的主題內容。用敘詞語言編寫的詞表稱為敘詞表,通常是由主表和輔表組成。主表是敘詞表的主體,可獨立存在。輔表是為便于使用主表而編制的各種輔助索引。主表又稱敘詞字順表,它收錄全部敘詞與非敘詞,按詞的字順排列,并標注顯示詞間關系的參照系統。輔表一般由敘詞分類索引和敘詞等級索引組成。敘詞分類索引也稱為分類表或范疇索引,敘詞等級索引也稱為族系索引或詞族索引。常用的敘詞表有《INSPE詞表》(INSPEThesaurus)、《NASA詞表》(NASAThesaurus)、《Ei詞表》(EiThesaurus)及我國編輯出版的《漢語主題詞表》等。

2.2信息檢索方法信息檢索方法信息需求分析制定檢索策略實施檢索策略2.2.1信息需求分析信息需求是人們在客觀或主觀上就課題所需信息的要求,是人們檢索信息的基本出發點,也是評價檢索效果的依據。它包括兩個方面:

1.明確檢索的目的和要求

2.對主題進行分析課題:現代居室污染水平與裝飾材料關系研究一、檢索目的和要求目的:科技立項要求:國內外有無1.裝飾材料的污染性研究2.居室污染水平與裝飾材料關系研究示例二、主題分析第一層面:裝飾材料—木材、涂料、花崗石等第二層面:污染—放射污染、化學污染第三層面:居室、室內示例2.2.2制定檢索策略

檢索策略是為了達到檢索目標而制定的具體檢索方案。包括選擇檢索系統、確定檢索途徑或檢索詞、擬定檢索程序。按檢索手段分為手工檢索策略和上機檢索策略。手工檢索策略選擇檢索系統確定檢索途徑擬定檢索程序上機檢索策略選擇檢索系統確定檢索單元擬定檢索程序2.2.3實施檢索策略分獲取信息線索和索取原始信息兩步:

1、獲取信息線索實質上是實現書目信息檢索2、索取原始信息實質上是實現全文信息檢索2.3信息檢索技術信息檢索技術信息檢索技術是指利用現代信息檢索系統,如聯機數據庫、光盤數據庫和網絡數據庫檢索有關信息而采用的相關技術,主要有布爾檢索、詞位檢索、截詞檢索和限制檢索。2.3.1布爾檢索布爾檢索技術使用的邏輯算符及含義邏輯與邏輯或邏輯非邏輯與1.概念:邏輯與是一種具有概念交叉或概念限定關系的組配2.算符:“*”或“AND”或“并且”3.特點:增強專指度,提高查準率4.舉例:液壓機AND結構優化,表示兩個概念應同時包含在一條記錄中邏輯與

邏輯或1.概念:邏輯或是一種具有概念相同或概念相關關系的組配2.算符:“+”或“OR”或“或者”3.特點:擴大檢索范圍,提高查全率4.舉例:廢水OR污水,表示這兩個相關概念分別在一條記錄中出現或同時在一條記錄中出現邏輯或

邏輯非1.概念:邏輯非是一種具有概念排除關系的組配2.算符:“-”或“NOT”或“非”3.特點:提高查準率,影響查全率4.舉例:機器人NOT蛇形,表示檢索出的記錄中要排除含有“蛇形機器人”的記錄。邏輯非

特別注意

布爾邏輯運算符的運算次序一定要根據不同的情況進行運算!

特別是在不同的檢索系統中會出現不同的運算順序,要根據不同的檢索系統提示或幫助來操作。2.3.2詞位檢索詞位檢索是以數據庫原始記錄中檢索詞之間的特定位置關系為對象的運算,又稱全文檢索。詞位檢索是一種可以不依賴敘詞表而直接使用自由詞進行檢索的技術,具有限定檢索詞詞間位置關系功能的位置邏輯符進行組配運算,可彌補布爾邏輯算符只是定性規定檢索詞的范圍,但是容易降低查準率。常用的詞位檢索是:鄰位檢索

鄰近檢索鄰位檢索

常用的位置邏輯算符有(W)與(nW)、(N)與(nN)。1、(W)與(nW)算符:兩詞之間使用“W”,表示其相鄰關系,即詞與詞之間不允許有其他詞或字母插入,但允許有一個空格或標點符號,且詞序不能顛倒。2、(N)與(nN)算符:兩詞之間使用“N”,表示其相鄰關系,兩詞之間不能插入任何詞,但兩詞詞序可以顛倒。鄰近檢索

用于網絡數據庫,常用的位置邏輯算符有:同句、同段(中文系統);NERA、WITHINn、SAME等(英文系統)。NERA表示兩詞之間不得多于9個詞,詞前后位置任意;WITHINn表示兩個檢索詞之間可包含其他詞,兩詞間距最多“n-1”個詞,詞的順序任意;SAME要求檢索詞在同一個句子中,檢索詞在句子中的順序任意。例如:airNEARpollution、airWITHIN5pollution、airSAMEpollution。2.3.3截詞檢索

截詞檢索是預防漏檢提高查全率的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進行截斷,然后使用截詞符進行處理,可節省輸入的字符,又可達到較高的查全率。尤其在西文檢索系統中,使用截詞符處理自由詞,對提高查全率的效果非常顯著。在截詞檢索技術中,較常用的是后截詞和中截詞。按所截斷的字符數分,有無限截詞和有限截詞兩種,截詞算符在不同的系統中有不同的表達形式。使用截詞檢索具有隱含的布爾邏輯或(OR)運算的功能,可簡化檢索過程。后截詞后截詞,從檢索性質上,是滿足前方一致的檢索。(1)有限后截詞。主要用于詞的單、復數,動詞的詞尾變化等。如book用book$處理,表示截一個詞,可檢索出含有book和books的記錄,“$”為有限截詞符號。(2)無限后截詞。主要用于同根詞。如solubilit用solub*處理,可檢索出含有solubilize,solubilization,soluble等同根詞的記錄,“*”為無限截詞符號。中截詞中截詞也稱屏蔽詞。一般來說,中截詞僅允許有限截詞,主要用于英、美拼寫不同的詞和單復數拼寫不同的詞。如organi?ation可檢索出含有organisation和organization的記錄。由此可知,中截詞使用的符號為“?”,即用“?”代替那個不同拼寫的字符。2.3.4字段限制檢索為了確定檢索詞在數據庫記錄中出現的字段位置,可采用字段限制查找的范圍。常用的字段代碼有:標題(TI)、文摘(AB)、作者(AU)、語種(LA)、刊名(JN)、文獻類型(DT)、年代(PY)等。

限制檢索在網絡數據庫中一般使用下拉菜單進行選擇限制。限制篇名(標題)綜合實例檢索課題:高層建筑的優化設計

1.信息需求分析(1)明確檢索目的與要求

1、檢索目的:學位論文開題查新

2、檢索要求:文獻類型不限,語種不限

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論