




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章1.2信息檢索的原理就是將特定的信息需求與存儲在檢索系統(tǒng)的信息標識進行異同的比較與匹配,選取兩者相符或部分相符的信息予以輸出。無論是手工檢索還是計算機檢索,其基本原理都是一樣的。即檢索系統(tǒng)對所要存儲的信息,按照其外部特征和內部特征進行描述并賦予特征標識,然后進入系統(tǒng);檢索時,將所需信息特征標識與所存信息的特征標識進行比較。凡是兩邊標識一致的,就將具有這些標識的信息從檢索系統(tǒng)中輸出。包含信息存儲和信息獲取兩個環(huán)節(jié)。(書本上的P14)1.3 信息檢索系統(tǒng)(手繪P17)1.3.2 邏輯構成一個完整的信息檢索系統(tǒng)通常由以下幾個功能模塊組成:信息選擇子系統(tǒng)、標引子系統(tǒng)、建庫子系統(tǒng)、詞表管理子系統(tǒng)、
2、用戶接口子系統(tǒng)、提問處理子系統(tǒng)。1.信息選擇子系統(tǒng) 根據系統(tǒng)的目標和服務對象的需要,確定信息收集范圍,并廣泛地、定期地采集各種信息源,為系統(tǒng)提供充足而適用的信息。2.標引子系統(tǒng) 將收錄的信息源利用檢索語言表達和組織,并賦予檢索標識的過程。3.詞表管理子系統(tǒng)管理維護系統(tǒng)中已有的詞表,使它與標引、建庫等子系統(tǒng)相連接,支持用戶查詢操作,從提、對話或其他文本中采集新的詞匯信息,并輸出各種形式的詞匯數(shù)據或詞表產品。4.提問處理子系統(tǒng) 專門負責處理用戶輸入的提問式,將提問式中的檢索元和算符區(qū)分,并轉換成系統(tǒng)內部的可接受的命令方式。在對提問進行轉換后,與數(shù)據庫中存儲的數(shù)據進行比較運算,然后,把運算結果輸出給
3、用戶。5.用戶接口子系統(tǒng) 承擔用戶與系統(tǒng)之間的交流功能。通常由用戶模型、信息顯示、命令語言和反饋機制等部分構成。6.建庫子系統(tǒng) 建立和維護可直接用于檢索的數(shù)據庫,包括系統(tǒng)所用的各索引文檔。其工作流程主要包括數(shù)據錄入、錯誤檢查與處理、數(shù)據格式轉換、生成并定期更新各種文檔。1.4 信息檢索方法1)順查法:是指按照時間的順序,由遠及近地利用檢索系統(tǒng)進行信息檢索的方法。這種方法能收集到某一課題的系統(tǒng)信息,適用于較大課題的檢索。(查全率高)2)倒查法:是由近及遠,從新到舊,逆著時間的順序利用檢索工具進行檢索的方法。此法的重點是放在近期信息上。使用這種方法可以最快地獲得最新資料。(新)3)抽查法:是指針對
4、項目的特點,選擇有關該項目的信息最可能出現(xiàn)或最多出現(xiàn)的時間段,利用檢索工具進行重點檢索的方法。(準)3. 追溯法也稱為回溯檢索法、引文法、引證法,是跟蹤查找的方式,以信息后面所附的參考文獻為線索,逐一追溯查找相關信息的方法,此方法有助于對課題的主題背景和立論依據等內容有更深的理解。獲得的信息的針對性強,適合沒有檢索工具或檢索工具不齊備的情況。由于引證信息間關系的模糊性和非相關性所引起的“噪聲”,該方法的查全率不高。第二章(理解)2.1傳統(tǒng)的檢索語言:表達一系列概括文獻信息內容的概念及其相關關系的概念標識系統(tǒng)。檢索語言概念:由詞匯和語法組成。詞匯是登錄在類表、詞表中的全部標識,一個標識就是它的語
5、詞,分類表、詞表是它的詞典。語法是如何創(chuàng)造和運用那些登錄在類表、詞表中的標識來正確地表達信息內容和用戶信息需求,以有效地實現(xiàn)信息檢索的一整套規(guī)則。2.1.2 功能(1)對信息的內容及其形式特征(主題)加以標引,保證不同的標引人員表達信息的一致性;(2)對主題相同及主題相關的信息予以集中或揭示其相關性;(3)將大量信息系統(tǒng)化、組織化,便于檢索人員按照一定的排列次序進行有序化的管理;(4)方便標引語言和檢索用語的相符性比較,提高檢索效率。2.1.3.3 按標識組合的使用的方法不同先組式:表達信息主題概念的標識在編表時已固定組配好,例:體系分類法、標題詞法后組式:指在詞表編制和標引信息時不規(guī)定表達主
6、題標識的組配關系,在檢索時再根據需要將各個標識進行組配。例:敘詞語言、單元詞語言。散組式:指在詞表中不組配復雜的主題概念,在標引階段將表達主題概念的若干標識,根據一定的規(guī)則組配在一起。例:冒號分類法。2.2.1 概念邏輯2.2.1.2 概念邏輯的方法概念的劃分與概括(分類):利用概念內涵由反映事物本質屬性的概念因素構成,概念因素的增加或減少可以形成新的概念,概念內涵與外延成反變關系等性質,對概念進行劃分或概括,形成更為專指或更為泛指的新概念,用以區(qū)別事物。內涵(抽象)概念的分析與綜合(組配):利用在概念的交叉關系中兩個概念外延的相同部分形成一個新概念,其內涵等于原來兩個概念內涵之和,并且它與原
7、來兩個概念具有隸屬關系的這種性質,進一步發(fā)展為將一個內涵較深的概念分解為兩個或者兩個以上內涵較淺的概念,以及將兩個或兩個以上內涵較淺的概念合成為一個內涵較深的概念的一種方法。外延(側重個體)2.3.1 分類檢索語言概述分類檢索語言的概念指用標記符號(分類號)來揭示、表達信息內容,依據知識分類將主題概念組織、排列成類目體系,通過類目體系的自身結構顯示主題概念之間的關系的檢索語言。基本原理和特點1直接體現(xiàn)知識分類 2以學科、專業(yè)為中心是其最主要特點。體系分類法主要應用概念劃分與概括的方法,以學科為基礎,把概括信息內容與事物的各種類目組成一個層層隸屬、詳細列舉的等級結構體系。特點:一是對知識進行邏輯
8、的、系統(tǒng)的組織,因此稱為體系分類法或系統(tǒng)分類法;二是把知識分門別類地進行等級排列,因此也稱為等級分類法;三是把知識詳細地羅列、展開,因此又稱為列舉分類法或枚舉分類法。如:杜威十進分類法、美國國會圖書館分類法、中國圖書館分類法、中國人民大學圖書館圖書分類法 組配分類法又稱為分面分類法或分面組配分類法。是基于概念的可分析性和可綜合性,即復雜的主題概念可以分析為若干簡單的主題概念,若干簡單主題概念可綜合表達復雜的主題概念,將一個復雜的主題概念用若干表達簡單概念的標識組配來表達的一種檢索語言。主要應用概念分析與綜合的方法。體系分類法2.3.2.1 結構 微觀結構類目是表達信息內容或主題范圍的概念,是構
9、成分類法的細胞。一個類目是由類號、類名、類級、注釋和參照組成的。按照類目之間的關系建立起來的類目集合稱為類目體系,是分類法的核心。 類目是表達信息或主題范圍的概念,是構成分類法的細胞,一個類目是由類號、類名、類級、注釋和參照構成的。(5)類目之間的相互關系處理 從屬關系并列關系交替關系相關關系2.宏觀結構按功能分,一般分為以下幾個部分:類目體系,標記系統(tǒng),說明與注釋,類目索引。類目體系由主表和復分表組成。類目體系復分表(考復分表)n 有通用復分表和專用復分表。n 主要用途:一是可以縮小類表的篇幅,簡化分類表;二是增強主表中有關類目的細分程度,并規(guī)范同性質類目的細分。n 中圖法(第四版)的復分表
10、:總論表、世界地區(qū)表、中國地區(qū)表、國際時代表、中國時代表、世界種族和民族表、中國民族表、通用時間地點表共8個通用復分表和69個專用復分表(詳表中67個,總論表和中國地區(qū)表中各一個)。標記系統(tǒng)說明與注釋l 說明是對分類法結構原理和使用方法的揭示。 注釋是類名的補充。有些類目名稱不能準確表達類目的涵義,它要通過注釋來明確。注釋可進一步指明類目的內容范圍,指出類目之間的關系,規(guī)定如何進一步細分或用什么方式細分或者指出排列方法,規(guī)定某一類的特殊分類規(guī)則和方法等。類目索引-幫助使用者從類目名稱的字順或者音序來查找相應的分類號的輔助性工具。l 直接索引:把分類表中的類目及其注釋中的有關主題的概念,按照名字
11、字順排列。難以反映相關事項和復雜的專指主題。l 相關索引:在直接索引的基礎上,還集中反映在分類中被分散了的相關事項。l 主題分類對照索引:在主題詞表中的主題詞后面列出對應的分類法的類號,以便從主題詞字順查找相應分類號。是分類法和主題法溝通的橋梁,既是體系分類法的輔助工具,也是分類法和主題法相互轉換的工具。在一定程度上能緩解“集中分散”矛盾。(重點考)體系分類法主要特點:l 按照學科、專業(yè)屬性建立類目體系,形成按學科、專業(yè)集中信息的知識概念體系,滿足用戶從學科、專業(yè)出發(fā)的檢索課題,提高查全率l 采用等級列舉式的概念標識系統(tǒng)來揭示概念之間的關系,便于用戶“鳥瞰全貌”、“觸類旁通”地查找某一專業(yè)的信
12、息l 采用分類號作為標識,不受語種的限制l 分類標識是定組式的、固定的、不可分拆的、其中諸因素是不可變換位置的缺點:l 修訂不便,無法及時增加反映新知識的類目,對很狹窄的主題很難找到相應的類目和類號l 采用先組定組式標識,難以進行組配檢索,使得檢索途徑單一,檢準率低l 采用分類號作為主題的標識,缺乏直觀性l 按學科和專業(yè)集中信息以及線性的分類體系,難以反映多維的知識空間結構中國圖書館圖書分類法簡稱中圖法、中國人民大學圖書館圖書分類法簡稱人大法、中國科學院圖書館圖書分類法簡稱科圖法。杜威十進分類法(Dewey Decimal Classification)簡稱DC或DDC、國際十進分類法(Uni
13、versal Decimal Classification),簡稱UDC,美國國會圖書館分類法(Library of Congress Classification)簡稱LC。組配分類法:冒號分類法五個基本范疇:2.4主題檢索語言(主要理解記憶,敘詞語言集其他三家之長)專指度高、直觀性好、靈活性強。由于按字順(音序或者筆畫等)排列,同一學科的信息被分散在各處,在族檢索方面不及分類法1.標題詞語言標題詞的特點:直接性。直觀性。受控性(或稱規(guī)范性)標題只是選擇那些可能成為文獻主題的事物及其較為通用、準確、專指、檢索效果好的名稱,并設法實現(xiàn)名稱與概念的惟一對應。語義關聯(lián)性。先組性。示范性 標題詞的類
14、型(標題法的類型) 單級標題。即一個標題僅由一個名詞術語構成。帶說明語的單級標題。例如, “液壓傳動,用于機床的”;“期刊,化學的”;“期刊,信息密度,統(tǒng)計法”。多級標題。由兩個或兩個以上的標題詞采用組配符號“”連接起來的標題形式稱為多級標題。例如“腫瘤治療”。 “”后的標題稱為子標題。子標題、次子標題都必須是規(guī)范化的語詞這是區(qū)別于說明語的地方。倒置標題。將復詞標題中具有檢索意義的后置部分依次作為入口詞前置,并用逗號“,”與原入口詞連接的標題形式稱為倒置標題。“低速飛機” 與“ 飛機,低速”帶限定詞的標題。如“圖書館學(辭典)”、 “橘(樹)”“橘(水果)”。限定詞一般都置于括號中,用于作形式
15、復分,或區(qū)分兩個字面相同但無法用其他方式區(qū)分的標題。混合標題系統(tǒng)。特點 1.用受控的自然語言語詞作標識,直觀地表達主題概念,直接標引信息。2.以字順序列組織標識,提供直接的主題檢索途徑,以便利于進行特性檢索。3.主要用參照系統(tǒng)間接顯示標題所表達的主題極念之間的關系,形成語義網絡。它能為選用4.標題進行標引和檢索提供一定方便。5.按事物集中文獻,而不是按學科、專業(yè)集中。標題語言適合于從事物出發(fā)的檢索。6.提供先組式的主題標識,標識含義比較明確,選用標識比較容易。缺點:允許必要時自擬標題表達新的或沒有列出的主題概念,適應能力較強。多途徑檢索的可能性較小。按事物集中文獻,而不是按學科、專業(yè)集中。適合
16、于從事物出發(fā)的檢索,不適合于從學科出發(fā)的族性檢索。2.單元詞語言單元詞:也是一種受控的自然語言語詞,是指那些最基本的、在概念上不能再分解的詞匯單位。如:“大學”、“管理”、“教育”。單元詞語言是一種以單元詞為主題標識,通過字面組配的方式表達資源主題的標引語言。是一種后組式的主題語言。是對標題法的革新。采用的后組配的方式,在標引時不組配單元詞,在檢索時才對單元詞下所列的文獻號進行對比,號碼相同的就表示有組配關系。特點:1通過最基本的詞匯可以表達大量的專指概念和新概念,適合對專指主題進行標引。標引專指度高;適應性強。2標引結果不存在詞序問題,每個單元詞都可以作為檢索入口,從而提供更多的檢索途徑;檢
17、索時,可以通過單元詞的增減,較自由地擴大、縮小或改變檢索范圍。3詞表體積小;修訂容易。缺點:1字面拆分和字面組配容易造成語義失真。2缺乏參照系統(tǒng),難以滿足族性檢索的需求。3直觀性和系統(tǒng)性差。4只適用于標識單元方式的檢索系統(tǒng)。3.關鍵詞語言所謂關鍵詞,是指那些出現(xiàn)在文獻的標題(篇名、章節(jié)名)以至摘要、正文中,對描述信息主題內容具有實質意義的語詞,亦即對揭示和描述文獻主題內容來說是重要的、帶關鍵性的(可以作為檢索“入口”的)那些語詞。關鍵詞有點像單元詞。但單元詞是在同義詞和近義詞中作優(yōu)選的,而關鍵詞則不作優(yōu)選,甚至對同一個詞的單復數(shù)和變格等詞形變化也不加統(tǒng)一,而保持作者用詞原狀,同義詞、近義詞、一
18、個詞的不同形態(tài)并存。所有的關鍵詞是平等的,全部按字順排列。若干關鍵詞的結合構成一條索引款目,說明一簡文獻的主題內容;但全部關鍵詞在檢索系統(tǒng)中部是彼此孤立,沒有任何聯(lián)系。原理: 1直接抽取信息中或題名中的語詞作標識來表達信息資源主題內容的一種主題檢索語言,2對作為標識的詞不加規(guī)范或只作少量規(guī)范處理,不編制受控詞表來進行詞匯控制,不顯示詞間關系,只是編制禁用詞表(非關鍵詞)來控制抽詞。3每個關鍵詞是平等的,都可作為檢索標識,按照字順輪流排至檢索位置(入口詞位置), 提供多途徑的主題字順檢索。4是最早用于計算機信息檢索的自然語言形式。優(yōu)點: l 使用自然語言,表達主題比較直觀、專指,可以保證較高的檢
19、準率,符合用戶使用習慣。l 檢索途徑多。l 標引簡單,標引不需要查看詞表,降低對標引人員的要求,節(jié)省標引時間;同時,易于使用計算機編制,保證資源傳遞過程的及時性和生產過程的高效性和低成本;l 及時性:能及時更新詞匯。缺點: l 不揭示關鍵詞之間的等級關系和相關關系,不進行同義詞、相關詞的處理,用戶檢索很難靠自己的了解查全同一概念的不同詞形及進行相關詞的檢索,增加用戶負擔,漏檢的可能大,影響查全率。l 題名中不少語詞為通用概念,它們?yōu)闄z索入口建立的檢索款目沒有實際意義。l 難以進行族性檢索。關鍵詞索引的類型(要求區(qū)分)題內關鍵詞索引,題外關鍵詞索引,詞對式關鍵詞索引(P57)4敘詞語言原理(博采
20、眾家之長)l 以從自然語言中精選出來的、經過嚴格處理的表示單元概念的規(guī)范化語詞作為資源主題標識,通過概念組配方式表達主題的后組式檢索語言。l 敘詞的特點:直觀性、規(guī)范性、組配性。(集眾家之長)敘詞語言的編制主表:將敘詞按字順排列,并附標注事項和參照系統(tǒng)。分類索引:也稱為范疇索引,從學科或專業(yè)的角度來選用敘詞。詞組索引:即等級索引,具有屬分關系的一組敘詞稱為一族,構成從泛指到專指的敘詞等級系統(tǒng)輪排索引:將有相同單詞的詞組敘詞集中在一起,排列在這個單詞之下,方便從單詞出發(fā),查找某一個或全部含有該單詞的詞組敘詞。敘詞表編制的注意事項:(1)主題詞的選擇與規(guī)范:l 詞形規(guī)范:如:儲氣筒(敘詞)貯氣筒(
21、非敘詞); l 詞義規(guī)范:如:加限定詞:結構主義(心理學);加含義注釋,計算機分析 注:用計算機進行分析 l 詞類規(guī)范:對敘詞的選詞范圍進行規(guī)范l 先組度規(guī)范:適當?shù)南冉M度提高標引的一致性,如“環(huán)境工程”、“親屬語言”、“獵戶星云”。(3) 主題詞的組配:交叉關系( “:” )、限定關系( “-”或“,” )、聯(lián)結關系。敘詞語言的性能優(yōu)點: 結構完備,詞匯控制嚴格,可根據檢索系統(tǒng)的需要對詞匯進行有效控制; 組配準確,標引能力強,能夠準確、專指地標引和揭示各種主題內容; 檢索效率高,可通過靈活組配方式進行多途徑檢索,達到較好的檢索效果。 對檢索系統(tǒng)適應能力強,可同時適用于標識單元和文獻單元檢索方
22、式,既能較好適應計算機檢索系統(tǒng)的要求,又能適應手工檢索系統(tǒng)的需要。缺點:l 詞匯控制要求嚴格,詞表編制和管理的難度大,成本高;l 資源標引需在概念分析的基礎上進行,標引難度大,要求高。1969年,第一部分類主題一體化檢索語言的誕生。分面敘詞表是以英國艾奇遜主編的世界上第一部一體化詞表的名稱命名,可以說是最典型的一體化詞表 2.6.2 網絡環(huán)境下的分類檢索語言 (1)分類法的電子化提高標引和檢索的效率。DDC、UDC、LCC都有電子化版本。(考) (2)分類體系結構的多維化利用超文本技術,更好地揭示類目之間的多維關系。自由分類法(Folksonomy)在類目劃分標準、橫向關系揭示和類目設置方面表
23、現(xiàn)出明顯的多維性。打破傳統(tǒng)目錄按照唯一標準進行類目劃分的原則,輕松揭示多屬性主題、交叉學科、總論與專論、地區(qū)與主題、資源形式與主題等橫向關系。 (3)在內容上,聚類標準的主題化、類目劃分的隨意性、類目排列的非邏輯性和類名的通俗化等。(重點考)輔助詞表的應用l 后控詞表:即詞間關系表,是利用受控語言的基本原理和方法編制的自然語言檢索用詞表。是自然語言和受控語言結合的產物。(考)l 后控詞表的特點:(考)l (1)詞匯只用于檢索l (2)詞匯控制不如先控詞表嚴格l (3)收詞豐富,包括同義詞、近義詞、俗稱、縮寫、流行俚語等l (4)動態(tài)性強,及時更新和增補新主題概念l (5)有較強的靈活性和自由度
24、,標引簡單l (6)具有面向文獻和用戶的特點,文獻保障和用戶保障能力強第三章(記憶)著錄:在組織檢索系統(tǒng)時,對具體信息的各種形式特征、內容特征及物質形態(tài)等進行分析、選擇和記錄的過程。著錄的基本要求:準確化和規(guī)范化機讀目錄與元數(shù)據(P82)機讀目錄:簡稱MARC,指任何形式的計算機可以閱讀或識別的目錄,其格式規(guī)定書目在數(shù)據機讀介質上的表示和標識方法,包括機讀記錄的構成、各數(shù)據字段在機讀介質上的總體安排與內容結構機讀目錄格式特點(考)1)字段設置:在MARC記錄中字段的設置包含了書目數(shù)據的實際內容。主要特征表現(xiàn)在三個方面: 字段數(shù)量多,并有空白(子)字段供用戶擴充使用,共有001-999個字段,其
25、中第999字段為用戶自己規(guī)定字段含義; 字段內容著錄詳盡,字段下設子字段以及重復字段; 字段作用強化,可檢索的字段多。2)標記符號: 字段標識,用3位數(shù)字表示,從001-999。 子字段代碼,用兩個字符表示,第一個是定義符,表示為子字段(如$),第二個字符用小寫字母a,b,c表示子字段順序。 指示符號: 用以描述或指示可變長字段代碼。指示符號用兩個數(shù)字表示。在每個字段說明中都有指示符號的使用和表示的含義。如果某個字段指示符號不用,則用空白符號表示。 字段和記錄分隔符。CNMARC的樣例分析元數(shù)據元數(shù)據(Metadata):關于數(shù)據的數(shù)據,是關于數(shù)據的結構化的數(shù)據。在互聯(lián)網中,元數(shù)據是指描述任何
26、互聯(lián)網數(shù)據和資源,促進互聯(lián)網信息資源的組織和發(fā)現(xiàn)的數(shù)據,以協(xié)助對網絡資源的識別、描述、位置指示。(考)起源:起源于計算機科學,原先主要指網絡信息資源的描述,后逐步擴大到各種以電子形式存在的信息資源的描述。描述的對象:圖書、期刊、磁帶、錄像帶、縮微品、論文、科技報告及各種形式的網絡信息資源。描述的成分:通常從信息資源中抽取出來的用于說明其特征、內容的數(shù)據。如題名、版本、出版數(shù)據、相關說明等元數(shù)據作用 定位和檢索著錄和描述資源管理:權利管理、數(shù)字簽名、存取管理資源保護與長期保存都柏林核心與數(shù)據庫是一種跨領域的信息資源描述規(guī)范。這里的資源是“任何具有標識的東西”DC元素修飾詞(判斷)歸入三類(考)(
27、1)內容描述部分題名項Title:主題詞項Subject描述項Description來源項Source語言項Language關聯(lián)項Relation覆蓋范圍項Coverage(2)知識產權部分著者項Creator: 出版者項Publisher合作者項Contributor: 權限項Rights(3)外形描述部分日期項Date: 類型項Type:格式項Format 識別符IdentifierDC與marc二者比較(1)著錄的對象不同(2)數(shù)據的形式不同(3)著錄的主體不同(4)著錄的詳簡程度不同(5)標識的方法不同信息標引的含義(考)通過對信息資源的分析,選用確切的檢索標識,如分類號、主題詞、關鍵
28、詞、人名、地名等,用以反映該信息資源內容的過程。是內容的內容分析和用詞表達(轉換標識)兩個步驟的結合。2.標引的方式(考)(1)依內容單元選擇方式分整體標引、全面標引、對口標引、分析標引、互見標引(2)依信息單元選擇方式分綜合標引、分別標引(3)依所用標識與主題概念的對應性分專指標引、組配標引、上位標引、依附標引、暫定標引(4)依組配標識是否是成串分先組標引、后組標引(5)依標引實施的方式分:分散標引、集中標引、聯(lián)合標引、在版標引(6)依標引語言的原理分:分類標引、主題標引標引的質量控制:深度(查全率)、專指度(表達信息內容的精確程度)、一致性(表達文獻主題內容所需標引詞的一致程度)(考)分類
29、標引的基本原則:學科屬性原則(首要原則)、專指性原則、實用性原則、系統(tǒng)性原則、一致性原則(考)組配規(guī)則(簡單題)(1)必須是概念組配,而不是字面組配。(2)當有幾種組配形式可選擇時,優(yōu)先選擇交叉組配。(3)選用主題最直接相關的、最相鄰的主題進行組配,不用泛指詞和越級詞。(4)組配標引的結果必須概念清楚、明確,具有單義性。(5)組配次序一般按照“主體通用空間時間文獻類型”來。當有多個主體因素主題詞時,按照對象方法材料過程條件等次序排列。主題詞組配標引的形式(標題考)(1)交叉組配(2)限定組配(3)聯(lián)結關系組配自動標引方法(主考)1.詞頻統(tǒng)計法將文獻中詞的出現(xiàn)頻率按等級排列,以一定標準排除高頻詞
30、和低頻詞,剩下能代表文獻主題內容的詞。有絕對詞頻統(tǒng)計法和相對詞頻統(tǒng)計法兩種。2.加權標引法(1)逆文獻加權標引法(2)詞區(qū)分值加權標引法(4).統(tǒng)計學習標引法 (3).n-Gram標引法自動分類(區(qū)分自動歸類和自動聚類考)即聚類聚到多個類目,分類分到某一個類目中,且聚類沒有確定的分類體系第四、五章(注意第一,最)1四庫全書總目中國清代官修書目,是中國古代最大的解題書目。2國外人文社會科學核心期刊總覽是中國第一次大規(guī)模利用文獻計量學原理對國外人文社會科學期刊進行篩選的核心期刊工具。3烏利希國際期刊指南國際上收錄外文期刊最多的訂購目錄。4美國全國聯(lián)合目錄:累計作者索引世界上收錄圖書最多、質量上乘的
31、館藏聯(lián)合目錄。5美、加連續(xù)出版物聯(lián)合目錄與新連續(xù)出版物聯(lián)合目錄世界上收錄館藏連續(xù)出版物最多的聯(lián)合目錄之一。6全國報刊索引是中國有史以來連續(xù)出版時間最長、收錄報刊最多、最全面的報刊論文索引。7科學引文索引是目前世界上最權威的通過引文檢索和評價論文及其期刊的參考工具書。8化學文摘美國化學文摘服務社編輯,是世界上最著名的文摘刊物之一。9中國百科年鑒補充中國大百科全書的不足。中國解放后第一次按年出版的綜合性的百科年鑒。10世界知識年鑒我國出版時間最長的年鑒之一。11中國大百科全書是中國現(xiàn)代第一部大型綜合性百科全書。是世界上最大的百科全書。12. 中國第一部類書皇覽。中國歷史上規(guī)模最大的類書永樂大典。中
32、國現(xiàn)存的規(guī)模最大的綜合性類書古今圖書集成。附有多種索引。第六章根據計算機檢索服務形式分:定題檢索(SDI)、回溯檢索和日常檢索定題檢索:根據用戶檢索課題的內容,定期的從新到資料數(shù)據中為特定用戶提問進行進行的計算機情報檢索。具有定期性、新穎性和批處理式的特點。(考)計算機信息檢索策略(重點考 布爾邏輯練習)布爾邏輯局限:布爾檢索式的非友善性,即構造一個好的檢索式是不容易的易造成零輸出或輸出過量無差別的組配元,不能區(qū)分各組配元的重要程度匹配標準存在某些不合理的地方檢索結果不能按照任何用戶定義的重要性排序輸出。檢索表達式(書上P)是檢索策略的邏輯表達式和具體體現(xiàn),是指信息檢索中用來表達用戶檢索提問的邏輯表達式;由檢索詞和各種布爾邏輯算符、位置算符以及系統(tǒng)規(guī)定的其他組配連接符號組成。是計算機可以識別和執(zhí)行的命令形式。1邏輯表達式2加權表達式3位置檢索表達式4截詞檢索表達式(主要適用于英語環(huán)境)檢索策略的構造步
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 評分效率提升路徑-洞察及研究
- 高二物理學生成長反饋計劃
- 小學生閱讀能力提升計劃
- 水利工程施工環(huán)保措施
- 建筑工程項目質量控制風險管理措施
- 四年級下學期班主任班級心理疏導計劃
- 2025幼兒園工會職工生活關懷計劃
- 2025屆山南市物理高一下期末教學質量檢測試題含解析
- 小學二年級體育課程改進計劃
- 公立學校線上教學和返校復學教學銜接工作計劃
- 中國VTS船舶交通管理系統(tǒng)行業(yè)發(fā)展全景監(jiān)測及投資方向研究報告
- 企業(yè)安全生產隱患排查獎勵制度
- 2025年中國中信集團招聘筆試沖刺題2025
- 2025年北京市中考數(shù)學真題試卷及答案解析
- 酒店前臺服務禮儀與服務意識培訓
- 2025至2030免稅行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 農民參與鄉(xiāng)村建設的模式和政策研究
- 北京市海淀區(qū)2024-2025+學年七年級下學期期末模擬英語試卷(含答案)
- 溫州市2024-2025學年高一下學期期末英語測試卷
- AI+Agent與Agentic+AI的原理和應用洞察與未來展望
- 家具工藝培訓課件
評論
0/150
提交評論