信息檢索-第一章課件_第1頁
信息檢索-第一章課件_第2頁
信息檢索-第一章課件_第3頁
信息檢索-第一章課件_第4頁
信息檢索-第一章課件_第5頁
已閱讀5頁,還剩36頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

INFORMATIONRETRIEVAL信息檢索

主講人:朱末霞信息檢索-第一章第一節信息檢索及其類型第二節檢索語言第三節檢索技術第一章信息檢索基礎知識信息檢索-第一章第一節信息檢索及其類型一、信息檢索的必要性二、信息檢索的概念三、信息檢索的類型信息檢索-第一章一、信息(文獻)檢索必要性

科技人員必備的基本技能

知識更新的手段能力的培養一個科研人員的時間分配表查資料50%寫報告10%實驗研究30%計劃思考10%信息檢索-第一章二、信息檢索概念

信息檢索:是指將信息(主要指文獻信息)按一定的方式組織和存儲起來,并根據用戶的需要找出相關信息的過程。信息檢索存儲檢索存儲:是對信息進行著錄、標引、整序,編制檢索工具和建立檢索系統的過程。檢索:是指面向信息需求而進行高度選擇性的查找過程。信息檢索-第一章原始文獻加工整理數據庫提問檢索輸出存儲檢索信息檢索-第一章三、信息檢索的類型(一)按檢索對象和目的劃分1、數據檢索

是以數據為檢索對象,檢索的結果是經過測試、評價過的各種數據、可直接用于分析和研究。2、事實檢索

是以具體事項為檢索對象,檢索結果是有關某一事物的具體答案。LOGO信息檢索-第一章3、書目檢索以標題、作者、來源出處、專利號等為檢索對象,檢索結果是與課題相關的一系列書目信息線索,用戶通過這些線索決定取舍和進一步獲得的手段。4、全文信息檢索是以論文、著作、報告或專利說明書的全文為檢索對象,檢索結果是與課題相關的論文或專利說明書的全文文本。信息檢索-第一章(二)按信息檢索手段劃分1、傳統信息檢索

就是手工信息檢索,是利用各種印刷型檢索工具查找文獻的一種方法。2、現代信息檢索

現代信息檢索即計算機信息檢索,是指利用計算機和網絡來處理和查找文獻信息的檢索方式信息檢索-第一章

1、直接檢索

就是指利用一次文獻進行檢索,這是以前比較常用的一種查找方法。所花時間多和精力大,檢出文獻少。2、間接檢索就是指利用各種檢索工具獲得文獻線索,再根據線索去查找原始文獻的方法。(三)按是否使用檢索工具劃分信息檢索-第一章第二節信息檢索語言一、檢索語言的含義及作用二、檢索語言的類型信息檢索-第一章一、檢索語言的含義及作用檢索語言:是一種受控語言,它依據一定的規則對自然語言進行規范,將其編制成表,供信息標引以及檢索時使用。

作用:

1、保證不同標引人員表達信息概念的一致性

2、保證檢索提問與文獻標引的一致性

3、保證文獻存儲的集中化與系統化

4、為檢索系統提供多種檢索途徑信息檢索-第一章二、檢索語言的類型檢索語言的類型表述文獻外表特征的語言表述文獻內容特征的語言題名責任者號碼文獻類型分類語言主題語言標題詞語言敘詞語言單元詞語言關鍵詞語言引文語言信息檢索-第一章1、分類語言用分類號和相應的分類款目名稱來表達信息內容的主題概念,并按學科體系的邏輯次序將信息資源系統地加以劃分和組織的語言。

中國圖書館圖書分類法

國際十進分類法杜威十進位分類法

IPC國際專利分類法

新編管理信息系統/杜棟編著C931.6/7.1102信息檢索-第一章2、主題語言以名詞性術語作為概念標識,按字母順序編排的檢索語言。主題詞匯通過參照系統靈活揭示詞匯之間的關系。主題語言按照主題性質的不同,又分為標題詞語言、敘詞語言、單元詞語言、關鍵詞語言和引文語言。信息檢索-第一章主題詞語義參照系統參照項含義簡稱符號英文簡稱英文全稱用項同義詞(正式主題詞)用YUSEUse代項同義詞(非正式主題詞)代DUFUsedFor分項狹義詞分FNTNarrowerTerm屬項廣義詞屬SBTBroaderTerm族項族首詞族ZTTTopTerm參項相關詞參CRTRelatedTerm

Zábōgānr?o

雜波干擾[56MB]NoisejammingY噪聲干擾非正式款目主題詞漢語拼音范疇分類號英譯名關系詞參照符號

Zàoshēnggānr?o

噪聲干擾[56MB]NoisejammingD雜波干擾

F瞄準式干擾掃頻干擾阻塞式干擾

S通信干擾有源干擾

Z電子對抗*

C連續波干擾脈沖干擾調制干擾漢語拼音范疇分類號英譯名參照符號關系詞正式主題詞Diànz?duìkàng

電子對抗*

·通信對抗

··通信干擾

···脈沖干擾

···欺騙性干擾

···載波干擾

···噪聲干擾

····掃頻干擾

····阻塞式干擾

··通信抗干擾信息檢索-第一章標題詞語言

是從文獻的題目和內容中抽出來,經過規范化處理的主題語言。敘詞語言

是以表達文獻主題內容的概念單元為基礎,經過規范化處理,可以進行邏輯組配的一種主題語言。單元詞語言

從信息內容特征中抽取出來的,經過規范化處理且只表達唯一獨立概念的最基本的,不能再分的單元詞語。信息檢索-第一章關鍵詞語言直接從文獻信息的標題、摘要或內容本身抽取出來的用于揭示信息主題內容的自由詞。引文語言

就是利用文獻信息之間的相互引證關系作為文獻內容主題標識,并以此標引和檢索文獻而建立的檢索語言。信息檢索-第一章第三節檢索技術一、概念檢索二、布爾邏輯運算符組配檢索三、截詞檢索四、字段限制檢索五、位置運算符六、檢索策略與效果信息檢索-第一章一、概念檢索檢索標識是具體的檢索詞或詞組,每個檢索詞表達一個概念,具體檢索時,將檢索詞與數據庫中的文獻特征標識進行類比,兩者相同,則該記錄為命中文獻。信息檢索-第一章二、布爾邏輯算符組配檢索布爾邏輯組配運算是采用布爾代數中的邏輯“與”、邏輯“或”、邏輯“非”等算符,將檢索提問式轉換成邏輯表達式,限定檢索詞在記錄中必須存在的條件或不能出現的條件。凡符合布爾邏輯所規定條件的文獻,既為命中文獻。信息檢索-第一章

布爾邏輯運算符————————————1、邏輯“或”2、邏輯“與”3、邏輯“非”信息檢索-第一章

1、邏輯“或”—————————————————AB用符號“or”或“+”表示,其邏輯表達式為:

AorB或A+B

其意義為檢索記錄中凡含有檢索詞A或檢索詞B,或同時含有檢索詞A和B的,均為命中文獻。信息檢索-第一章

2、邏輯“與”————————————————AB用符號“and”或“*”表示,其邏輯表達式為:

A*B或AandB

其意義為檢索記錄中必須同時含有檢索詞A和B的文獻,才算命中文獻。信息檢索-第一章

3、邏輯“非”

————————————————AB用符號“not”或“-”,其邏輯表達式為:

AnotB或A-B

其意義為檢索記錄中含有檢索詞A,但不能含有檢索詞B的文獻,才算命中文獻。信息檢索-第一章布爾運算符優先級比較有括號時:括號內的先執行;無括號時:NOT>AND>OR例:檢索“唐宋詩”的有關信息。關鍵詞:唐、宋、詩;檢索表達式:(唐+宋)*詩;(唐*詩)+(宋*詩);錯誤表達式:唐+宋*詩;唐*宋*詩;唐+宋+詩;唐*宋+詩;作業:查找有關鯉魚或草魚生病的治療,但不包括“出血病”方面的文獻信息檢索-第一章三、截詞檢索

截詞檢索

又稱詞干檢索、模糊檢索。主要應用于西文數字資源的檢索,檢索系統不同,截詞符也不同,一般用“?”、“*”、“#”等表示。

1、后截詞

將截詞符放在詞根后面,前方一致,最常用的截詞方式。主要用在詞的單復數、年代、作者、查同根詞等情況。如:comput*將檢索出computer、computing、computerized、computerization等結果

2、前截詞

將截詞符放在詞根的前面,后方一致。多見于復合詞較多的文獻檢索。如:*physics就可檢索到physics、biophysics、geophysicschemicophysics等詞的結果。

信息檢索-第一章

3、中間截詞將截詞符置于檢索詞中間,詞的前后方一致。該方式能解決英美拼法不同單詞的書寫或有些詞在某個元音位置上出現的單復數的不同拼寫。如:organi?ation可檢索organisation、organization;defen?e可檢出defence和defense的結果;h?hai(可代替hehai,hohai)

截詞檢索在不同的計算機檢索系統中規定不同,請使用時注意。信息檢索-第一章四、字段限制檢索

為了縮小檢索范圍,可利用字段代碼來限制檢索詞出現的字段,以提高檢索速度和命中率。如:riceinti(表示只在題目字段中查找文獻)

riceinab(只在文摘中查找)

AU=Smith,J.C(查作者為Smith,J.C的文章)PY=1998(只查1998年的文章)LA=Chinese(只查語種為中文的文獻)信息檢索-第一章五、位置運算符(W)算符(W)是with(word)的縮寫,表示此算符兩側的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標點符號。如biological(W)control相當于檢索Biologicalcontrol;CD(W)ROM相當于檢索CDROM或CD-ROM。

(nW)算符

(nW)是nwords的縮寫,表示此算符兩側的檢索詞之間允許插入最多n個詞,且詞序不可變。如wear(1W)material相當于檢索wearmaterials、wearofmaterials等信息檢索-第一章(N)算符(N)是near的縮寫,表示此算符兩側的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標點符號。如:information(N)retrieval可檢出:informationretrieval和retrievalinformation。(nN)算符

(nN)表示兩詞間可插入最多n個詞,詞序可變。如檢索式environment(2N)protection就可檢索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”。五、位置運算符信息檢索-第一章1、檢索策略檢索策略是指為實現檢索目標制定的全盤計劃和方案,是在分析檢索信息需求的基礎上,選擇適當的數據庫并確定檢索途徑和檢索詞,確定各詞之間的邏輯關系與檢索步驟的一種計劃或思路,以制定出檢索表達式并在檢索過程中修改和完善檢索表達式。

LOGO六、檢索策略和檢索效果信息檢索-第一章2、信息檢索效果評價檢索效果(retrievaleffectiveness)是指檢索系統檢索的有效程度,它反映檢索系統的能力,也涉及實施檢索的人所能發揮檢索系統的最大能力包括6個方面:收錄范圍、查全率、查準率、響應時間、用戶負擔及輸出形式。其中兩個主要的衡量指標是查全率(Recallratio)和查準率(precisionratio),分別用R和P大寫字母表示。信息檢索-第一章

查全率指的是檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

檢出相關文獻量查全率=×100%

文獻庫內相關文獻總量查準率指的是檢出的相關文獻量與檢出文獻總量的比率,是衡量信息檢索系統檢出文獻準確度的尺度。

檢出的相關文獻篇數查準率=×100%

檢出的全部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論