信息檢索原理及檢索步驟_第1頁
信息檢索原理及檢索步驟_第2頁
信息檢索原理及檢索步驟_第3頁
信息檢索原理及檢索步驟_第4頁
信息檢索原理及檢索步驟_第5頁
已閱讀5頁,還剩66頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章 信息檢索原理及檢索步驟本章關鍵點:文件信息檢索基本概念文件信息普通檢索步驟檢索概念分析、提取和擴展檢索策略組成信息檢索原理及檢索步驟第1頁1. 信息檢索基本概念信息檢索定義文件信息內外部特征文件信息檢索普通原理文件信息檢索類型檢索效果評價信息檢索原理及檢索步驟第2頁1.1信息檢索定義狹義:從任何信息集合中查找所需信息活動、過程和方法。廣義:信息檢索包含信息存放。合并稱為信息存放與檢索.信息檢索原理及檢索步驟第3頁信息檢索(information retrieval) 信息檢索廣義上是指將雜亂無序信息按一定方式組織和存放起來,并依據信息用戶需求找出相關信息過程和技術,全稱是”信息存放與檢

2、索”(Information Storage and Retrieval).狹義信息檢索指是后一過程.信息檢索原理及檢索步驟第4頁1.2 檢索語言(Retrieval Language)是用來描述信息源特征和進行檢索人工語言。 作用:它是溝通信息存儲與信息檢索兩個過程橋梁。在信息存儲過程中,用它來描述信息內容和外部特征,從而形成信息標識;在檢索過程中,用它來描述檢索提問,從而形成檢索標識;當檢索標識與信息標識完全匹配或部分匹配時,結果即為命中文件。信息檢索原理及檢索步驟第5頁 檢索語言類型:按照表示文件特征劃分題名責任者代碼,如ISBN、ISSN等引文出版項出版年分類語言:分類法主題語言:關鍵

3、詞、敘詞等。表述文件外表特征語言(與文件一一對應關系)表述文件內容特征語言(與文件含糊對應關系)檢索語言類型信息檢索原理及檢索步驟第6頁文件信息內外部特征內容特征表示文件信息主題內容檢索標識內容特征 文件 含糊對應外表特征與文件主題內容沒相關系或關系不大信息外表特征 文件 一一對應信息檢索原理及檢索步驟第7頁1.3 文件信息檢索普通原理存放 選擇和搜集文件 提取文件信息內外部特征 標引,整理,形成檢索系統(工具) 檢索 分析信息需求 確定檢索課題 構建檢索提問式 從檢索系統中查獲所需信息 信息檢索原理及檢索步驟第8頁文獻源文件選擇搜集文件特征標識語言檢索系統數據庫檢索提問式匹配檢索結果用戶信息

4、需求檢索課題分析標引反 饋信息檢索原理及檢索步驟第9頁1.4文件信息檢索類型:按檢索內容文件檢索 (相關性檢索) 檢索結果為文件原文或線索 全文檢索 書目檢索數據檢索 (確定性檢索) 檢索結果為數值、數據事實檢索 (確定性檢索) 檢索結果為事實、概念信息檢索原理及檢索步驟第10頁 ,是以文件線索為檢索內容文件檢索。即檢索系統中存貯是書目、索引、文摘等二次文件,檢索結果取得是與檢索課題相關一系列文件線索。書目檢索(directory) ,是以文件所含全部信息作為檢索內容文件檢索。即檢索系統存貯是整篇文章或整部圖書全部內容。全文檢索(full article)信息檢索原理及檢索步驟第11頁 ,又稱

5、數值檢索,是以含有數量性質,并以數值形式表示數據為檢索內容信息檢索。即檢索系統中存放是大量數據,包含物質參數、電話號碼、觀察數據、統計數據等,也包含圖表、化學分子式、物質各種特征等非數字數據。數據檢索(data) ,是以詳細事項為檢索內容信息檢索,要求從檢索系統存放各種原始信息資源中查出專門事實材料。如,某一人物查找,某一事件查找等事實檢索(fact)信息檢索原理及檢索步驟第12頁1.4 文件信息檢索類型:按檢索伎倆手工檢索 與檢索工具直接“對話”,依靠檢索者手翻、眼看、腦子判斷而進行檢索。 特點:方便靈活,判別直觀,查準率高、檢索效率低,漏檢現象比較嚴重 計算機檢索 利用計算機和一定通信設備

6、查找文件信息檢索 特點:速度快,效率高,查全率較高、成本高, 回溯年份有限,查準率不盡如人意信息檢索原理及檢索步驟第13頁1.4 按檢索伎倆劃分傳統信息檢索當代信息檢索 即手工信息檢索,是利用各種印刷型檢索工具來查找文件一個方法。 即計算機信息檢索,是指利用計算機和網絡來處理和查找文件信息檢索方式。信息檢索原理及檢索步驟第14頁項目手工檢索計算機檢索總體特征手翻、眼看、大腦判斷檢索策略、機器查詢、數據匹配檢索速度較慢很快檢索功效簡單多樣、可鏈接全文、可打印結果、可進行定題服務等。檢索方式單一靈活方便、可進行各種組合檢索檢索路徑較少較多檢索范圍有限覆蓋多學科和各種文件類型,范圍較大檢索限制受時空

7、限制不受時空限制更新周期長短對用戶要求專業知識、工具書使使用方法專業知識、計算機檢索知識檢索效果查準率高查全率高,經過邏輯組配可提升查準率檢索費用低高綜合效率低高手工檢索與計算機檢索比較信息檢索原理及檢索步驟第15頁 1.5 檢索效果評價 檢索效果(Retrieval Effectiveness)是指檢索系統檢索有效程度,它反應了檢索系統能力。包含技術效果和經濟效果。 克蘭弗登(Cranfield)評價系統性能指標: 收錄范圍 查全率 查準率 響應時間 用戶負擔 輸出形式信息檢索原理及檢索步驟第16頁查全率 是指檢出相關文件量與檢索系統中相關文件總量比率,是衡量信息檢索系統檢出相關文件能力尺度

8、。可用下式表示: 查準率它是指檢出相關文件量與檢出文件總量比率,是衡量信息檢索系統檢出文件準確度尺度。可用下式表示: 查全率和查準率在一定程度上成反比關系。應依據詳細課題要求,合理調整查全率和查準率,確保檢索效果。信息檢索原理及檢索步驟第17頁ACDB9090504020604070PR查全率(R)和查準率(P)關系曲線圖理論上,C和D之間即檢索最正確效果信息檢索原理及檢索步驟第18頁2 信息檢索系統印刷型信息檢索系統: 目錄、題錄、文摘、索引 計算機信息檢索系統: 文件信息數據處理和維護子系統 詞表和標引子系統 檢索子系統信息檢索原理及檢索步驟第19頁信息檢索原理及檢索步驟第20頁3. 文件

9、信息普通檢索步驟分析研究課題,明確檢索要求選擇檢索工具或檢索系統確定檢索路徑實施檢索,統計和閱讀文件線索索取原始文件信息檢索原理及檢索步驟第21頁3.1 研究課題分析分清課題性質 前沿探索性 調查研究性 面象應用性課題背景知識獲取 利用網絡搜索引擎 查閱圖書館相關館藏,專著、工具書 問詢專業人員概念(檢索詞)提取 主要檢索詞、輔助檢索詞、禁用詞 比如:關于中國唐詩韻律研究 Study on the market management in China信息檢索原理及檢索步驟第22頁 3.1 課題分析 明確文件檢索目標; 明確課題要處理實責問題; 明確有哪些主題概念; 各主題概念之間關系; 明確課

10、題包括學科范圍; 明確課題所需文件信息語種、時間范圍等詳細要求。信息檢索原理及檢索步驟第23頁4 檢索工具(系統)選擇標準根椐檢索目標依據信息需求內容、專業范圍依據數據庫統計文件起源信息檢索原理及檢索步驟第24頁 4.選擇檢索系統選擇檢索工具時要考慮: 專業性,即選擇與學科專業相關工具,尤其注意跨學科領域內容。 權威性,盡可能選擇該學科權威性檢索工具。 了解檢索工具收錄范圍,包含時間跨度、地理范圍、文件語種、類型、揭示深度等。 了解檢索工具檢索方法和系統功效 漢字檢索系統可考慮CNKI、萬方、維普數據庫,外文數據庫可考慮使用Science Direct、Springer、John Wiley、

11、WOS等。信息檢索原理及檢索步驟第25頁5. 確定檢索路徑開始查找信息入口點題名路徑著者路徑序號路徑主題(分類)路徑信息檢索原理及檢索步驟第26頁選擇適當檢索路徑: 題名路徑(Title) 責任者路徑(Author) 機構路徑(Affiliation) 序號路徑(Code) 分類路徑(Classification) 主題路徑 關鍵詞路徑 其它路徑 文件檢索及檢索式調整依據課題已知條件和課題范圍和檢索效率要求,選擇適當檢索路徑。題名/關鍵詞/摘要/主題/全文信息檢索原理及檢索步驟第27頁 主題路徑分類檢索語言(分類法、分類表) 分類表,依據學科之間邏輯歸屬關系,采取樹型層次結構,列舉出人類全部知

12、識類別,并對每一知識分別標以相對固定類號代碼形成一個類表。通常是一個從總到分、從普通到詳細,層層劃分、逐層展開并含有某種符號代碼體系知識體系表。 特點:常落后于當前研究現實狀況,分類表相對呆板學科關系使得確定前沿概念、跨學科概念或非常詳細概念分類困難。主題檢索語言 關鍵詞 自然語言性質主題語言,自由詞,指從標題、文摘或正文中抽出能表示文件主題內容實意詞。自然性,隨意性。 主題詞(敘詞) 以正式、規范詞或詞組形式固定各種事物概念。從自然語言中優選出并經規范化處理名詞術語。信息檢索原理及檢索步驟第28頁 分類法就是按照文件信息內容,依據學科之間邏輯歸屬關系,將各種概念按學科性質進行分類和系統排列語

13、言,反應事物隸屬、派生關系,從總體到局部層層劃分展開,組成一個完整分類類目表。所以,分類法通常是指一個從總到分,從普通到詳細、層層劃分、逐層展開并配以某種符號代碼體系知識體系表,是一個等級體系。詳細表示為用分類號和類名來表示信息主題概念。 5.1 分類檢索語言(1)信息檢索原理及檢索步驟第29頁 分類語言檢索優點:能夠檢索到某學科或專業全部文件,含有較高查全率。 分類語言檢索缺點:分類語言落后于現實狀況,分類表學科關系呆板使得跨學科概念等都比較困難。 需要注意是:不一樣分類法設類標準和分類代碼形式是不一樣。 中國圖書館圖書分類法 美國國會圖書館分類法 杜威十進位分類法 IPC國際專利分類法 5

14、.1 分類檢索語言(2)信息檢索原理及檢索步驟第30頁 中圖法分 5個基本部類,將知識門類分為“哲學”、“社會科學”、“自然科學”三大部類。馬克思主義、列寧主義、毛澤東思想是指導我們思想理論基礎,作為一個基本部類,列于首位。另外,考慮到圖書本身特點,對于一些內容龐雜,類無專屬,無法按某一學科內容性質分類圖書,概括為“綜合性圖書”,作為一個基本部類,置于最終。在此基礎上擴展為 22個大類。 標識符號采取漢語拼音字母與阿拉伯數字相結合混合號碼制。中圖分類法(1)信息檢索原理及檢索步驟第31頁 在中圖法以及任何類似分類表中,被區分類稱為上位類, 被區分類稱為上位類,區分出來就是下位類,上下位類之間關

15、系反應了概念外延包含與隸屬關系。處于同一上位類下同一層次下位類稱為同位類。處于同位類關系類目在概念上是排斥。 為了,反應學科之間屬分關系,分類表類號每增加一位字母和數字就代表增加一級分類 在了解類目代表含義時,下位類所包含類目含義應該和它上位類號所包含含義結合起來。中圖分類法(2)信息檢索原理及檢索步驟第32頁信息檢索原理及檢索步驟第33頁 D9 法律 90 法理論(法學) 91 法學各部門 92 中國法律 920.0 理論 (類名含義:中國法律理論) 921 國家法、憲法 923 民法 . . .信息檢索原理及檢索步驟第34頁 包括二個或二個以上概念課題屬于多概念課題,對多概念課題缺點分類關

16、系時,應注意以下幾點:.并列概念課題:對于包括同一研究對象幾個方面或者包括幾個并列研究對象課題,凡是有主次關系,應取其重點或主要研究對象歸類。設計統一研究對象幾個方面都需要檢索時,應在所包括幾個類目中同時查找。 比如:“新聞宣傳研究”,假如側重于“新聞”就取“G212 新聞財富和報道”,假如側重宣傳,則取“G223 廣播電視宣傳和群眾工作”。假如設計二個方面時,“新聞”和“宣傳”都要查找。中圖分類法 (3)信息檢索原理及檢索步驟第35頁 包括二個或二個以上概念課題屬于多概念課題,對多概念課題缺點分類關系時,應注意以下幾點:.應用性課題:研究一個理論、方法等在某方面應用或對某方面影響課題,應在所

17、應用或受影響類目查找。比如:“計算機在人口預測方面應用”就歸入“人口預測”.上位類分類法:這種歸類法是一個特殊分類方法。它是指欲查課題在分類表中無符合要求專指類目時,能夠歸入它緊鄰上位類。中圖分類法 (4)信息檢索原理及檢索步驟第36頁主題語言:自然語言和人工語言自然語言:自然表示某一概念語言,沒有強制性要求。如在文件檢索中,關鍵詞(Key words)等用就是自然語言。人工語言:指是人為要求概念表示語言,通俗地說,就是某個概念你必須用要求語言來表示,如文件檢索中主題詞、敘詞等用就是人工語言。如:自行車(腳踏車、單車),西紅柿(番茄、洋柿子)、馬鈴薯(土豆)、玉米(包谷)信息檢索原理及檢索步驟

18、第37頁主題語言:自然語言(關鍵詞)(1)關鍵詞(Key words):是一個自然語言性質主題語言。詳細說,是指從文件題目、正文或摘要中抽出能表示文件主題內容含有實質意義語詞。關鍵詞基本上不對詞語加以控制,含有自然性和隨意性。因為關鍵詞這個特點,使得單一關鍵詞檢索輕易造成漏查。 信息檢索原理及檢索步驟第38頁主題語言:自然語言(關鍵詞)(2)確定課題關鍵詞步驟:分析課題,提取概念:對課題仔細進行分析,分析出課題包括事物名稱、研究主要伎倆、方法、目標,最主要事物名稱應作為首先考慮檢索概念。整理概念,擴充同一詞匯:將分析所得概念整理歸納,對每一個概念用同義次、近義詞、縮寫詞等給予擴展。利用分析所得

19、詞匯試查,確定課題適用關鍵詞。信息檢索原理及檢索步驟第39頁主題語言:人工語言(主題詞、敘詞)(1)主題詞(敘詞):指從自然語言中優選出來并經過規范化處理名詞術語。國內慣用有漢語主題詞表及個數據庫特定主題詞表。敘詞語言和分類語言不一樣是,主題詞表中全部正式主題詞能夠依據需要將它們組配起來,用一表示復雜概念。信息檢索原理及檢索步驟第40頁主題語言:人工語言(主題詞、敘詞)(2)確定主題詞步驟:.課題分析:依據課題包括主要對象,研究伎倆,使用方法、條件、研究目標、用途做深入分析,提取課題研究主要事物概念。.查表選詞:在分析出概念基礎上對課題做試標引。a.用相對應主題詞直接標引b.對多概念主題或復合

20、主題用組配和上位等方式進行標引:多概念主題指主題要素由不相容邏輯關系組成課題信息檢索原理及檢索步驟第41頁主題語言:人工語言(主題詞、敘詞)(3)確定主題詞步驟:.查表選詞:在分析出概念基礎上對課題做試標引。a.用相對應主題詞直接標引b.對多概念主題或復合主題用組配和上位等方式進行標引:多概念主題指主題要素由不相容邏輯關系組成課題,包含矛盾關系、反對關系,對這些多主題課題做標引時,應分別選取主題詞。信息檢索原理及檢索步驟第42頁主題語言:人工語言(主題詞、敘詞)(4)確定主題詞步驟:.復合主題課題指主題要素之間關系是相容關系課題。復合主題所分析出主題要素之間包含同一關系(比如微機和電腦),屬種

21、關系和全方面與某首先關系(比如中國歷史和清史,經濟運行指標和GDP),普通是上下位概念關系,以及交叉關系(比如中國人和學生)。各主題詞要使用適合課題專指性正式主題詞。 上位類標引是指當主題詞表中沒有對應主題詞時,又不能使用組配法標引時可采取最近一級上位類詞標引。信息檢索原理及檢索步驟第43頁主題語言:人工語言(主題詞、敘詞)(5)確定主題詞步驟:.試查定詞:使用主題詞表選擇主題詞,都必須經過主題索引試查,由實際檢索結果來確定終究哪些詞是可用,哪些詞不可用。信息檢索原理及檢索步驟第44頁 6 查找檢索詞:各類文件信息文件類型標識文件類型標識主要能夠參考:信息與文件 參考文件著錄規則 (國家標準

22、)分類標識可析出主題概念(檢索詞:關鍵詞和敘詞)信息檢索原理及檢索步驟第45頁 6 查找檢索詞:各類文件信息文件類型標識 經過對課題描述語句分析,將課題所包括 詞語分成主要檢索詞、輔助檢索詞和禁用詞三類。 主要檢索詞是指與課題研究對象、方法相關特指性事物名詞,輔助性檢索詞是指泛指性名詞,它們只在檢索結果過多需要限制時使用。禁用詞是指介詞、連詞等虛詞,普通不做檢索詞用。信息檢索原理及檢索步驟第46頁關鍵詞或敘詞、主題詞選詞特點(1)是能夠揭示主題內容語詞關鍵詞應該是表示最小概念語詞 虛詞(不可用):連詞、副詞、介詞、 助詞、語氣詞寬泛概念詞(不可用):研究、技術、 問題、方法 信息檢索原理及檢索

23、步驟第47頁關鍵詞或敘詞、主題詞選詞特點(2)信息檢索原理及檢索步驟第48頁方法:切分、去除、替補注意:(1)準確、專業。 不要將一些意義廣泛詞作為檢索詞,如研究等。 (2)全方面。考慮:a 基于概念上下位詞,如可再生能源與太陽能。b 同一檢索詞不一樣表示方式,如白血病與血癌。 c 基于檢索結果同義詞或近義詞。 6.1 提煉檢索詞信息檢索原理及檢索步驟第49頁6.2 概念(檢索詞)擴展(1)同一概念擴展查詢同一事物學名和俗名: 漢語與漢字查詢同一事物簡稱、全稱、音譯和意譯: 互聯網與因特網,上海與滬,中央電視臺與CCTV;查詢統一事物反義詞: 廉潔與腐敗查詢不一樣詞形: art與arts;co

24、lour與color;draw與drawing信息檢索原理及檢索步驟第50頁6.2 概念(檢索詞)擴展(2)基于內容分析概念擴展 上位概念擴展法是分析檢索對象學科歸屬。 下位概念擴展法又稱概念分析樹形展開法。 隱含主題(顯見主題)擴展法:所謂隱含主題,是文件或課題中,未用顯而易見表示方式: 抽象與詳細關系 不一樣角度觀察關系 概念上下位關系 專利與知識產權;唐詩與古詩 法規要求、條例;西部云南、貴州、四川等 上海圖書館書目數據庫系統公共圖書館,圖書館自動化系統信息檢索原理及檢索步驟第51頁6.2 概念(檢索詞)擴展(3)基于檢索結果概念擴展: 對初步檢索結果進行分析,往往能夠得到與課題 相關新

25、檢索概念,將這些概念經過重新組合,就能夠到達擴展檢索結果目標。 在實際檢索中,能夠依據需要,選取由上述方法得到檢索概念,從而擴展檢索所得。信息檢索原理及檢索步驟第52頁“應用語言學”課題概念擴展示例上位擴展概念下位擴展概念隱含擴展概念語言學語言學理論術語理論語言規劃翻譯理論語音識別語言合成漢字信息處理統計語言學數理語言學術語學形式語言學語言邏輯學敘詞關鍵詞信息檢索原理及檢索步驟第53頁關鍵詞外商投資管理外商 投資 管理獨資 合資 資本 股權 法規 要求 主題詞外資利用 + 管理信息檢索原理及檢索步驟第54頁6.3 選詞注意事項選詞要準確重視概念擴展,不遺漏表示同一概念相關詞防止選取使用頻率過高

26、詞,如技術、方法、研究等不要單獨使用多義詞,如china選詞要符合所用檢索工具(數據庫)要求,如不一樣數據庫所規范主題詞有時是不相同。信息檢索原理及檢索步驟第55頁檢索策略 又稱提問邏輯,即對多個檢索詞之間相互關系和檢索次序作出某種安排。 組成檢索策略,即構建檢索式7. 檢索策略組成方法信息檢索原理及檢索步驟第56頁 檢索式是檢索策略邏輯表示式,是用來表示用戶檢索提問,由基于檢索概念產生檢索詞和各種組配算符組成。 組配算符通常有布爾邏輯算符、截詞符(通配符)、位置算符、嵌套算符(優先算符)四種。 7.1 結構檢索式信息檢索原理及檢索步驟第57頁布爾 邏輯算符 優先算符 截詞算符 字段限制 詞組

27、或字符串7.2 計算機檢索算符主要包含信息檢索原理及檢索步驟第58頁 布爾邏輯組配運算是采取布爾代數中邏輯“與”邏輯“或”、邏輯“非”等算符,將檢索提問式轉換成邏輯表示式,限定檢索詞在統計中必須存在條件或不能出現條件。凡符合布爾邏輯所要求條件文件,即為命漢字獻。 布爾邏輯算符組配檢索信息檢索原理及檢索步驟第59頁布爾邏輯算符邏輯或(OR)運算符 用來組配含有并列關系、概念相同或相近詞,如同義詞、相關詞等。 擴大檢索范圍,提升查全率。 A+B 例:EBSCO S1 1834 enterprise S2 2022 company S3 3647 enterprise OR company AB信息

28、檢索原理及檢索步驟第60頁布爾邏輯算符邏輯與(AND)運算符 用來組配含有相互交叉限定關系概念。 縮小檢索范圍,提升查準率。 A*B 例:EBSCO S1 12940 Chinese S2 2173 literature S3 842 Chinese AND literatureAB信息檢索原理及檢索步驟第61頁布爾邏輯算符邏輯非(NOT)運算符 用來排除含有一些詞統計。 縮小檢索范圍,提升查準率。 有排除掉相關文件可能,慎用 A-B 例:COMPENDEX(1998) S1 110 patent S2 325 German S3 108 patent NOT German AB信息檢索原理及檢索步驟第62頁優先算符混合使用邏輯符,其運算次序為: NOT AND OR ()改變運算次序 例: S1 A OR B S2 C OR D S3 S1 AND S2 (A OR B) AND (C OR D)信息檢索原理及檢索步驟第63頁截詞算符 指在檢索詞某個局部截斷,利用一些檢索詞詞干或不完整詞形加上截詞符進行檢索。 查找某一詞干不一樣改變形式 預防漏檢,提升查全率 常見有: ?、*、$、% 例:manag*,可檢出 manage manager management managing manage

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論