信息檢索概論思考題答案_第1頁
信息檢索概論思考題答案_第2頁
信息檢索概論思考題答案_第3頁
信息檢索概論思考題答案_第4頁
信息檢索概論思考題答案_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章信息檢索概論思考題:什么是信息?簡述信息的特點和分類?我們認為,信息是事物或事物之間不確定性的量度,即負熵。掌握的信息越多,所需認識的事情的確定性 就會越少。信息由信源,信宿和信道(載體)構成。信息的特點:(1)客觀真實性:客觀、真實是信息的最重要的本質特性(2)普遍性:信息是物質的普遍屬性,物質是具有普遍性,所以信息也擁有該特性(3)針對性:信息的作用和價值可以隨著接受者的不同而不同(4)傳遞性:過程:信息源(信息的發出者)一一編碼一信道(載體)一譯碼一信宿(信息的接收者)信息源:是信息的發出者信宿:是信息的接收者信息的傳播是雙向的,多維的。信息源和信宿是相對的,也是可以相互轉換的。信

2、道:就是在傳播過程中,編碼經過的物理通道(5)時效性:指信息發出、接收到利用的時間間隔及效率,也包括信息的本身更新速度。客觀物質不斷 的變化,反映事務的運動狀態和運動方式的信息也會發展變化一般而言,隨著時間的推移,信息的價值會逐漸減少也有反例:如考古信息(恐龍、古錢幣),年代越久,使用價值越大衡量信息的時效性參數不只是時間參數,還有地理環境(6)可轉換性:信息可以從一種形態轉換成另一種形態(7)可處理性(可識別性):可以通過人們的感覺器官所感知,也可以通過儀表、器械來檢測進而予以 識別。(8)可共享性:指同一內容的信息可以在同一時間里被若干個用戶使用,此時信息載體本身的信息量不 會被磨損、消失

3、信息的類型:(1)按信息表現形式劃分,可分為文字信息,圖象信息,數值數據信息,語音信息。文字信息:文字是人們為了實現信息交流、通信聯系所創造的一種約定的形象符號。圖象信息:圖象(形)是一種視角信息,它比文本信息直接,易于理解。如,一幅畫、一 部電影。數值數據信息:數值數據是“信息的數字形式”或“數字化的信息形式。語音信息:人講話實際是大腦的某種編碼形式的信息轉換成的語言信息的輸出,是一種最 普遍的信息表現形式。按信息的出版類型劃分,可分為圖書,期刊,會議文獻,科技文獻,專利文獻,標準文獻,學位論文, 產品資料,技術檔案,政府出版物。(3)按信息的加工程度劃分,可分為零次信息,一次信息,二次信息

4、,三次信息。零次信息:是指未經正式發行的或未進入社會交流的最原始的信息。如私人筆記、文章草 稿等。一次信息:是人們研究或創造性活動成果的直接記錄,一般指公開出版的圖書、期刊論文、 科技報告、會議文獻、學位論文、發明專利等。二次信息:是對一次信息加工、整理而成的。如目錄、文摘、索引等各種書目數據庫是二 次信息的核心。三次信息:對一次信息所載內容進行單元層次(如一條消息、一個定義、一種觀點等)的 選擇,經過匯集、綜合、分析、評述等深度加工而成的產物。如評論、進展報告、述評、百科全 書、年鑒、指南、期刊書目等。信息還可以這樣劃分按信息內容劃分,分為社會信息、自然信息、機器信息。按時間劃分,分為歷史信

5、息、未來信息。按行業劃分,分為工業信息、農業信息、商業信息、金融信息、軍事信息。按性質劃分,分為定量和定性信息。什么是信息檢索?信息檢索與情報檢索、文獻檢索的區別是什么?廣義的信息檢索,是指將信息按一定的方式組織和存儲起來,并根據信息用戶的信息需求查找所需信息的 過程和技術,所以信息檢索的全稱又叫“信息存儲與檢索”,狹義的信息檢索,僅指從信息集合中找出所需 信息的過程,也是利用信息系統、檢索工具或數據庫查找所需信息的過程。信息檢索信息的存儲過程信息源信息選擇概念分析概念轉換信息數據庫系統詞表檢索匹配信息用戶信息提問概念分析概念轉換檢索表達式卜信息的檢索過程三個概念的區別信息檢索:存在于檢索的整

6、個過程.情報檢索:戶.文獻檢索:是一種方法,研究檢索結果的形式,其最終結果仍然只是載體.簡述文獻與信息、知識、情報的區別。情報:情報是人們為一定目的搜集的有使用價值的新知識或新信息。知識:辭海解釋說:“知識是人類認識的成果或結晶,包括經驗知識和理論知識,又說:知識 借助于一定的語言形式,或物化為某種勞動產品的形式,可以交流和傳遞給下一代,成為人類共 同的精神財富”。文獻:我國頒布的中華人民共和國國家標準文獻著錄總則(GB3792183)對文獻的定義為: “文獻是記錄有知識的一切載體。”信息、文獻、知識和情報四者關系信息是起源,是基礎,它包含了知識和情報,是它們共同的本質聯系的紐帶。文獻則是信息

7、、知 識、情報的存儲載體和重要的傳播工具,是重要的知識源、情報信息源,它是信息、知識、情報 存儲的重要方式。信息可以成為情報,但是一般要經過選擇、綜合、研究、分析等加工過程,也 就是要經過去粗取精、去偽存真、由此及彼、由表及里的提煉過程;信息是知識的重要組成部分, 但不是全部,只有提高、深化、系統的信息才能稱作知識;信息、知識、情報的主要部分被包含 在文獻之中。簡述信息檢索的方法、途徑和程序。檢索方法可分為兩大類:手工檢索和計算機檢索。(1)手工檢索是指人們通過手工的方式來存儲和檢索信息。(多利用各種檢索工具的印刷版如目錄、文獻等來實現)I常用法順查法:適用于全面掌握學科或技術發展的全過程。逆

8、查法:適用于了解某一學科最新動向。抽查法:選擇某學科領域發展較迅速的時間進行查找的方法。II追溯法即利用原始文獻所附的參考文獻進行追溯查找的方法。III循環法(交替法):結合以上兩種方法。計算機檢索是指人們利用數據庫、計算機軟件技術、計算機網絡以及通信系統進行的信息存儲和檢索,其檢索過程 是在人機的協同作用下完成的。I定題服務II回溯檢索服務I隨機問答服務IV聯機定購服務檢索途徑是根據文獻信息的不同特征,從各個不同角度來查找文獻信息的途徑,可分為分類途徑、主題途 徑、著者途徑、關鍵詞途徑和序號途徑等。分類途徑檢索是一種按學科體系來查找信息的途徑。目前我國通用的分類法主要有:中國圖書館圖書分類法

9、、 中國科學院圖書館圖書分類法和中國人民大學圖書館圖書分類法。其中中國圖書館圖書分類法 是國家推薦統一使用的分類法。主題途徑檢索是以代表信息主題內容的實質性詞匯作為檢索標識進行檢索的一種途徑。關鍵詞途徑檢索是以代表信息主題內容具有實質意義的或對揭示信息內容來說是重要的、關鍵的詞匯作為檢索 標識進行檢索的一種途徑。責任者途徑檢索是根據已知信息作者姓名或機構名稱來查找信息的途徑序號途徑檢索是一種按序號來查找信息的途徑。序號包括:報告號、專利號、標準號等。檢索程序分析研究課題、明確檢索目的和要求;選擇數據庫(檢索工具);選擇檢索途徑和檢索方法;確定檢索詞、實施查找;索取原始文獻,進行反饋調整第二章信

10、息檢索語言思考題信息檢索語言的基本概念?檢索語言,又稱為標引語言、索引語言、文獻檢索語言、信息存儲與檢索語言等。它是用于描述信息系 統中信息的內部特征和外部特征及表達信息用戶需求提問的一種專門語言。簡述分類檢索語言和主題檢索語言?分類語言建立在科學分類的基礎上,運用概念劃分與概括的方法.將大大小的概念進行層層劃分,逐級劃分 就產生許多不同級別的類目。所有不同級別的類目,層層隸屬,形成了一個嚴格有序、層次分明的知識門 類等級制體系。每一類目分別以不同符號作標志,每個分類號都是表達特定知識概念的的語詞,這種標志就是分類語言。分為等級體系型分類檢索語言,分面組配型分類檢索語言主題語言是使用詞語標識的

11、一類信息檢索語言,又稱主題法。主題語言是一種描述語言,即用自然語言 中的名詞、名詞性詞組描述事物概念的中心語義。也就是說,它以語言文字為基礎,以反映特定事物為中 心,不論學科分類和科學技術的邏輯序列,直接借助于自然語言的形式,作為信息內容的標識和檢索依據, 是一種以主題字順體系為基本結構的檢索語言。它給人以直觀的感覺。主題語言的構成原理:(1)主題語言利用自然語言中的名詞術語,經過一定程度的規范化處理,作為表達文獻和提問內容的 主題標識,即主題詞。(2)主題語言利用主題詞的字順序列,按事物的名稱排列與檢索文獻信息。(3)主題語言利用各種參照系統等手段,顯示主題標識之間的各種關系,并以此把主題詞

12、表中的眾多 主題詞相互聯系起來,構成多維的主題詞體系。主題語言的符號:與分類語言有所不同,主題語言的顯著特點是直接利用自然語言的詞語作為主題標識,標引文獻 或檢索信息時都必須使用主題詞。主題語言的語法:先組式檢索語言:直線序列標識,簡單明了,適合手工操作的檢索系統。如標題語言后組式檢索語言:多維性序列標識,多元揭示復合主題,適合計算機信息檢索系統,如敘詞語言 主題語言的種類主題語言可以按照主題詞性質的不同,分為標題語言、元詞語言、敘詞語言、關鍵詞語言4種。第三章檢索工具及檢索系統思考題檢索工具和檢索系統分別是什么?檢索工具和檢索系統的類型有哪些?檢索工具(Retrieval Device)是指

13、用于報道、存儲和查找文獻的工具。它具有存儲(編制過程)和檢 索(查找過程)兩大功能。檢索系統由一定檢索設備和加工整理并存儲在相應的數據庫(文獻集合)及其它必要的設備共同構成的, 具有存儲和檢索文獻的信息服務設施檢索工具和檢索系統的類型按信息處理手段劃分手工檢索工具或系統:用手工方式查找和處理文獻的工具和系統。如卡片目錄機械檢索工具或系統:用簡單的機械裝置來處理和檢索文獻。如穿孔卡片計算機檢索系統:用計算機處理和查找信息的電子信息檢索系統。通常包括計算機、數據庫、檢 索終端等組成。簡述檢索工具/系統的質量評價?收錄范圍:系統收錄范圍是否明確、全面(首要標準)。報道量:指某一檢索刊物每期或每年所報

14、道的文摘或題錄或全文的條數。如果是計算機系統的話,就是單位時間內收錄文獻的條數。摘錄質量:是否能夠準確摘錄文獻的內部特征和外部特征。如果在全文檢索系統,就不存在這個 問題。報道速度:從一次文獻發表到相應的二次文獻之間文獻滯留時間。在全文檢索系統中,是指文獻 的第一次發表,到收錄到全文檢索系統中的間隔時間。檢索功能:包括正文編排是否科學、索引是否完備、版面設置是否合理。第四章信息檢索方法途徑和信息檢索步驟思考題利用中國林業文摘,通過各種途徑查找以下課題(選一種或兩種途徑均可),需要寫清楚整個檢索過程:(1)查找有關“草坪栽培”的相關文獻。(2)查找有關“森林病蟲害防治”的相關文獻。簡述信息檢索的

15、方法、途徑和步驟。手工檢索的方法I直接法:是指一般不使用檢索工具(系統)檢索信息的方法,它大致可分為瀏覽法和追溯法。瀏覽法是指直接通過瀏覽、查閱文獻原文而獲取所需文獻信息的方法。此法比較適合查找新近發表 還沒被各檢索工具收錄的文獻。優點:能最快地獲取信息;能直接閱讀原文內容;基本能了解本學科發展的動態和水平。缺點:需事先知道本學科的核心系的載體;檢索的范疇不夠寬、漏檢率大。追溯法又稱回溯法、擴展法、追蹤法。它是指一種跟蹤查找的方法。根據文獻著者在文獻末尾所附 的參考文獻、有關注釋、輔助索引、附錄等的指引追蹤查找文獻。分為傳統追溯法和引文追溯法。優點:不需要利用檢索工具,查找方法簡單。缺點:檢索

16、效率不高,漏檢率和誤檢率較大。II常用法(或稱常規法、工具法):它是利用檢索工具查找信息的方法,以主題、分類、著者等 為檢索點,通過檢索工具獲得所需文獻信息的一種方法,是一種常用的科學檢索方式。由于檢索要求不同,常用法可分為順查法、逆查法、抽查法和分段法順查法它是根據檢索課題的時間范圍、按由遠及近,從過去到現在,從舊到新的順序逐年逐卷地查 找文獻信息的一種方法。優點:查全率、查準率較高、漏查率較小。缺點:費時費力、檢索工作量大。逆查法(倒查法)它是指與順查法相反,按照檢索課題的時間范圍,利用一定的檢索工具由近到遠、由現在到 過去、由近期向早期回溯查找文獻信息的一種方法。優點:省時省力,靈活性大

17、,效率高。缺點:容易產生漏查的現象,查全率查準率低。抽查法它是指針對某學科的發展特點和發展階段,抓住該學科發展較快、文獻信息發表較多的年代, 抽出這段時間進行檢索的一種方法。優點:能獲得一批具有代表性、反映學科發展水平的文獻,檢索效果和效率較高。難點:必須了解和熟悉學科發展的特點及歷史背景,才可以達到滿意的檢索效果。分段法又稱循環法或綜合法,是交替使用“追溯法”和“常規法”來進行檢索的綜合方法。即首先 利用檢索工具查出一批信息,再利用這些信息所附的參考文獻追溯查找相關信息。如此交替、循 環使用常規法和追溯法,不斷擴檢,直到滿足檢索要求為止。優點:當檢索工具缺期,缺卷時,也能連續獲得所需年限以內

18、的情報資料,漏檢率低,檢索效率 高。計算機檢索方法I定題服務(SDI,Selective Dissemination of Information):針對用戶的需求,定期地提供 各種新信息,使用戶能及時地掌握與自己研究工作有關地最新資料。II回溯檢索服務(Retrospective Searching):根據用戶的需求,對現有的文獻進行徹底詳盡的 追溯,把與課題有關的一切文獻全部查出來,提供給用戶。III聯機訂購服務(On-line Ordering):通過聯機檢索得到二次文獻,如果用戶需要相對應的一 次文獻,可通過終端聯機定購原始文獻的復印件或原文。IV隨機問答服務:由用戶直接利用終端進行檢

19、索。檢索系統即時提供所需文獻的信息,一般由數 值型數據庫、事實型數據庫提供各種科學數據庫和事實數據。檢索途徑的分類按照檢索途徑與信息內容相關程度劃分反應信息內容特征的途徑分類途徑:是一種按學科分類體系來查找信息的途徑,以分類檢索語言為依托。使用“分類目 錄”、“分類索引”等進行查找。當研究課題較大,需要全面了解某一學科及其相關知識的時候,或者難于判定研究課題所屬主題 范圍的時候,常通過分類途徑查找信息。主題途徑:是以代表信息主題內容的實質性的詞匯作為檢索標識進行檢索的一種途徑,以主題 檢索語言為依托,使用“主題索引”、“關鍵詞索引”、“敘詞索引”等進行查找。這種途徑有利于將分散的各學科的有關信

20、息集中于同一主題詞之下,表達概念準確靈活,便于特 性檢索。反應信息外部特征的途徑著者途徑:是根據已知信息作者姓名或機構名稱來查找信息的途徑。利用著者途徑查找信息的優點是可以滿足對個人及團體著者的學術水平進行評價時的信息查找。 缺點是不能滿足全面檢索某一課題文獻的需要。題名途徑:包括書名、刊名和篇名等途徑。使用“書名索引”、“刊名索引”、“會議資料索引”。序號途徑:序號包括報告號、標準號、專利號、登記號等。使用“報告號索引”、“標準號索引”、 “專利號索引”、“登記號索引”等進行查找;其他途徑分子式途徑:是以化學物質的分子式作為檢索標識等查找文獻的途徑。通過“分子式索引”進行 查找,主要為美國化

21、學文摘所用。信息檢索的步驟分析研究(檢索)課題,明確檢索要求。分析課題,是實施檢索中最重要的一步,也是檢索效率高低或成敗的關鍵。在課題分析中,要考慮以下幾個問題:分析主題內容分析問題類型;分析查找年代;課題需要的主語種;了解課題對查新、查準、查全諸方面有無具體要求。(2)選擇檢索工具或檢索系統檢索工具或檢索系統的選擇是否恰當,將直接影響檢索質量。(3)確定檢索方法選擇檢索方法的目的在于尋求一種花時少、檢索效果好的有效方法。檢索方法主要根據檢 索條件、檢索要求和學科特點而定。(4)確定檢索途徑和檢索策略根據已知條件,選取最易查獲所需信息的途徑。檢索策略是檢索前制定的概念組配和執行順序的方案。(5

22、)實施檢索并調整檢索策略利用描述信息外表特征的途徑進行檢索,簡便快捷。而利用分類途徑或主題途徑檢索 時,可能會出現檢索提問標識和信息存儲標識不一致的情況,所以應反復修改檢索提問標識,直 到恰當為止。(6)記錄和閱讀文獻線索記錄檢索結果閱讀文獻線索過程中應注意的問題正確識別文獻類型:國內檢索工具的著錄款目,一般均在文獻篇名之后用一個漢字(方括號內) 注明原始文獻的類型。(7)索取原始文獻當文獻類型和出版物全稱明確以后,就可以索取原始文獻了。簡述信息檢索的效果評價。熟悉查全率、查準率、漏檢率、誤檢率等評價指標的計算。常用的信息檢索效果的評價指標有:收錄范圍、查全率、查準率、漏檢率、誤檢率、 響應時

23、間、用戶負擔和輸出形式等。其中主要指標是查全率和查準率、漏檢率、誤檢率。查全率:系統檢索出的相關文獻量占系統文獻庫中的相關文獻總量的比率,是衡量信息檢索系統 檢出相關文獻能力的尺度。查準率:系統檢索出的相關文獻量占檢索出的文獻總量的比率,是衡量信息檢索系統精確度的尺 度。查準率和查全率的計算與課題相關文獻數非相關的文獻數總計被檢索出的文獻ABA+B沒被檢索出的文獻CDC+D總計 A + CB + D A + B+C+D計算:查全率 R: =A/(A+C)*100% 查準率 P: =A/(A+B)*100%一般來說,查全率與查準率之間存在互逆關系,即當某一系統的查全率與查準率處于最佳比例關 系時

24、,繼續提高查全率,檢出的相關文獻量增加,查全率提高,卻導致不相關文獻檢出反而降低 查準率,反之亦然。漏檢率:它是指漏檢相關信息量與在檢索系統中相關信息總量的比率,是衡量信息檢索系統漏檢 信息的尺度。誤檢率:它是指誤檢(檢出不相關)信息總量的比率,是衡量信息檢索系統誤檢信息程度的尺度。 漏檢率和誤檢率的計算被檢索出的文獻與課題相關文獻數AB非相關的文獻數A+B總計沒被檢索出的文獻總計A+CB+DC + DA+B+C+D計算:漏檢率 O: =C/(A+C)*100% 誤檢率 E: =B/(A+B)*100%第五章事實與數據檢索思考題1簡述參考工具書的結構?參考工具書的定義:事實與數據檢索使用的主要

25、工具是參考工具書,參考工具書是根據一定的社會需要, 以特定的編排形式和檢索方法,為人們迅速提供某方面的基本知識或文獻資料線索,專供查詢的特定類型 的圖書。參考工具書的結構一部結構完備的參考工具書,通常由序、跋、凡例說明、目次、正文內容、附錄、補遺等幾部分組成。 序、跋一般是對編者閱歷的介紹,常識的推崇,對內容的評論,編撰的說明,版本演變的交代。凡例說明說明編書的目的、意圖、適用對象、取材多少及起止年限、編排體列及使用方法等。目次全書主要標題的順序排列,并指示所在的頁次正文內容工具書的主體。正文內容的思想性、科學性、資料性、知識性、易檢性是衡量一本工具書質量高 低的主要標準,也是選擇使用工具書的

26、主要依據。輔助索引彌補正文內容編排的缺陷,擴大多種檢索途徑,方便使用。附錄包括是有關的圖表、統計方法等。作用是擴大工具書的使用范圍,提高科學價值。補遺對正文內容的補充,單獨列出。2簡述中文工具書的主要排檢法?中文工具書的主要排檢法中文工具書的排檢方法相當多,目前比較常用的排檢方法主要有字順法、主題法、分類法、時序法和地序法。1.字順法字順法也稱字序法,是按照一定順序排檢單字或復詞的一種方法,是工具書的一種重要排檢方法。一般的 字典、詞典、索引和百科全書都采用這種方法。字順排檢法的形式主要有形序法和音序法、號碼法三種。(1)形序法根據漢字的形體結構,按其共同特點加以排列,以便人們查檢其讀音和字義

27、。主要有部首法、筆畫、筆順 法。部首法:根據漢字的字形結構,按部首偏旁的相同部分歸類的方法。筆畫法:筆畫檢字法是按漢字筆畫數目多少為排列次序的檢字法。筆順法:又稱筆形法,是按起筆筆形順序確定漢字排列先后的檢字法,起源于清代宮廷文書檔案 整理和保管的方法。起筆順序有按點(、)、橫(一)、豎(|)、撇、折;或橫、豎、撇、點、折等為序現在 廣泛采用后者。筆畫法與筆順法可結合使用,成為筆畫筆順法,如崎、崖、圈。(2)號碼法該法是形序法的一種變型。它把漢字的各種筆形用號碼表示,再按各個漢字代號的大小順序編排。主要有 四角號碼法、中國庋擷字、起筆筆形代碼法等。四角號碼法:它是根據漢字方塊形狀的特點,以漢字

28、字角的各種筆型配一個阿拉伯數字代號。四角號碼法一般的方式是:先根據單字的四角號碼排列其先后順序,四角號碼相同的單字,再按附角號碼 依次排列。四角號碼法把所有漢字四個角上出現的筆形概括為10種類型,每一種類型用個號碼代替。歌訣:橫一垂二三點捺叉四插五方框六七角八八九是小點下有橫變零頭(3)音序法這是一種按字音排列漢字的方法。主要有韻部順序法(聲韻法)、注音字母順序法(注音法)和漢語拼音字 母順序法(拼音法)。韻部順序法(聲韻法):它是古代按字音排列漢字的一種方法?,F代為陰平、陽平、上、去四聲;古代是平上去入四聲,它是先將漢字按聲調分為上平聲、下平聲、上聲、 去聲、入聲五類,在每一聲類下,再將韻母

29、相同的漢字歸在一起,組成一韻部,并取其一字作為這一韻部 的代表字,稱為“韻目”,古代許多韻書都用此法。韻部的劃分,各個歷史時期有所不同。注音字母順序法:以注音字母為標記,拼寫漢字的拼音,并按注音字母及其拼讀音節的順序編排漢字的方 法。50年代后,漢語拼音方案公布,此法即被取代。漢語拼音字母順序法:按1958年公布漢語拼音方案字母表的順序排列漢字的方法。在26個字母中, 除去I、U、V3個字母外,共23個部。如現代漢語詞典。分類法這是將文獻按學科或按事物性質系統排列的一種排檢方法。(1)事物性質排檢法,如年鑒、手冊。(2)學科體系排檢法,如百科全書。我國現代分類法目前我國圖書文獻信息機構使用較普

30、遍的圖書分類法有如下三種:(1)中國圖書館分類法簡稱中圖法,是一部大型的綜合性圖書分類法。于1975年正式出版,1980年出版第二版,1990年出版 第三版,1999年出版第四版,2010年出版第五版。(2)中國科學院圖書館圖書分類法簡稱科圖法,由中國科學院圖書館編輯,1958年正式出版。使用單位除中國科學院系統的圖書館外, 還有部分其他系統的圖書館??茍D法采用純數字作標記符號,其分類體系是5大部類25個基本大類。(3)中國人民大學圖書館圖書分類法簡稱人大法,由中國人民大學圖書館編輯,1 9 5 4年正式出版,至今已修改出版了5版。人大法將圖書文獻分為四大部類,十七個大類,采用純數字作標記符號

31、,號碼采用嚴格的層累編 號制。主題法它是以表達文獻內容的主題作標識,以字順為主要檢索途徑,并且通過參照系統等方法,顯示它們之間聯系的 標引和檢索方法。簡單說,它是一種以規范化的自然語言作為文獻的主題標識和查找文獻依據的方法。表 達文獻主題的語詞稱為“主題詞”,通常分為標題詞、元詞、關鍵詞、敘詞。(1)標題詞法標題詞又稱標題,來自通用語言中比較獨立定型的事物名稱,經過規范化處理,用來表達文獻主題概念的 詞、詞組或詞語。如:“圖書”、“信息資源”、“信息組織”、“信息存儲與檢索”(2)元詞法元詞又稱單元詞,指那些從文獻中抽取出來,能表達文獻主題的最小和最基本概念的詞匯單位,即字面上 不能再拆分的詞

32、。元詞法是以元詞作為文獻主題標識的主題詞法,它是在標題詞法的基礎上發展起來的后 組式標引方法。如:“物理”、“貿易”,而“知識組織”、“主題標引”等不是元詞。(3)關鍵詞法關鍵詞是指從文獻(主要是篇名)中抽出來的、能確切地描述和揭示文獻主題內容的關鍵性語詞。如:計算機在人口普查中的應用關鍵詞法是將關鍵詞作為文獻主題標識的主題詞法,屬非規范化主題詞法,一般沒有固定的主題詞表。(4)敘詞法敘詞是選自自然語言,經過規范化處理的單元詞或詞組。敘詞法是以敘詞作為文獻主題標識的主題詞法。如漢語主題詞表 中國分類主題詞表4.時序法這種是按事物發生發展的時間順序或人物的生卒年月、生平經歷的先后順序編排的方法。

33、如出版書目、個 人著述目錄、標準文獻目錄、會議錄文件、學科發展史料和人物傳記、年譜、年表、歷表等都采用此法。5.地序法這是按事物的行政區劃或自然地理性質排檢知識材料的一種方法。多用于地理學、生物科學、農業及一些 行政管理學科。用這種方法編排的工具書主要有地圖集、地方志。中文工具書常用排檢法形序法中文參考二具書排檢法時序法號碼法3常用參考工具書簡介。參考工具書的種類繁多,按其文種來說,有中文工具書和外文工具書;按其編撰時代 來說,有古代工具書和現代工具書;按其刊印形式來說,有期刊、書籍和單幅圖片;按其功 能特點來說,有字典、詞典、百科全書、年鑒、手冊、名錄、圖錄、表譜之分;本課按最后 這種分類方

34、法,并有側重點對參考工具書作簡單介紹。分類:按文種,可分為中文工具書和外文工具書。按學科內容,可分為社會科學工具書和自然科學工具書按編撰時代來說,有古代工具書和現代工具書之分。按刊印形式,有書籍、期刊和單幅圖片之分。按其功用特點,分為字典、詞典、百科全書、年鑒、手冊、名錄、圖錄、表譜等。參考工具書指南:工具書指南是向人們介紹那些比較重要的工具書,因此,它通常還被 人們稱為“工具書的工具書”。字典、詞典定義字典是解釋字的形體、讀音、意義和用法的工具書;詞典(辭典)是解釋詞的概念、意 義及其用法的工具書。類型按其收錄的語種分:可為為單語詞典、雙語對譯和多語對照詞典。按其收錄的內容及其用途:可分為語

35、言詞典、知識詞典、綜合性詞典和專門性詞典。年鑒(Year Book或Annual)是匯集一年內的重要時事文獻、學科時事與各項統計資料,并 按年度出版的連續性出版物。一般可分為綜合性和??菩詢深?。綜合性年鑒主要是綜合評述,報道內容廣泛,反映政 治、經濟、文化、教育等各方面的進展情況;專科性年鑒只報道某一特定的專業領域或某一 行業的情況和統計數字。手冊特點小型、專題明確具體,取材新穎,論述簡要,類型分明,注意實際演算或操作方法。常 以公式、數據、規格、條例、圖表作為表述方式,使用便查。手冊類型根據其收選內容的不同,可分為綜合性和??菩?種類型。(1)綜合性手冊(2)??菩允謨园倏迫珪x百科全書(

36、Encyclopaedia)一詞出于古希臘文enkyklios (各方面的)和paideia (教育) 合為“全面教育”“百科知識”的意思。它是知識的系統總結,是百科知識的總匯。其基本特點是知識門類齊全,內容包羅萬象,不但可供讀者查檢必要的知識和事實資料, 釋疑解難,而且還能擴大讀者知識視野和系統求知。百科全書依其收錄的內容范圍,可分為綜合性百科全書和??菩园倏迫珪C浢浭巧婕胺秶軓V的一種工具書,包括人名錄、地名錄、機構名錄等。人們在從事科 學研究、外事活動以及讀書看報過程中,經常會遇到有關國內外某機構組織、某人物生平、 某報刊資料的簡介和國內收藏等情況。名錄類型(1)人名錄(2)機構名

37、錄圖錄圖錄是匯集某一學科某一方面的事物,用圖象形式繪錄或攝制下來,加以分類編排的一種直 觀性的特種工具書.圖錄包括地圖集和圖譜。(1)地圖集地圖是運用制圖法則和符號、圖形、文字等,在平面上表示地表的自然狀況和社會、經 濟等現象的空間分布及相互關系的文獻。地圖集則是將多幅地圖按一定的主題和順序匯集而 成的圖冊。(2)圖譜圖譜是指一系列有內在聯系的圖象資料,這些圖象有一定的分工和客觀的次序。圖譜又 稱圖鑒,是以圖為主,文字為輔,用以對照實物,辯明種類??萍紙D譜一般都具有內容的科 學性,文字的通俗性,圖象的藝術性,表達的準確性,能形象地揭示復雜的自然科學現象、 原理、技術等,為科學技術研究提供豐富的

38、直觀材料。表譜表譜,包括年表、歷表及其他歷史表譜。年表、歷表是查考歷史年、月、日的工具書。其中:年表是查考歷史年代和檢查歷史大 事的工具書;歷表是查考和換算不同歷法年、月、日的工具書。第六章圖書和期刊信息的檢索實踐:請在讀秀學術搜索查找書名為三國演義的圖書,共查到多少本圖書?請打開一本閱讀。第七章特種文獻檢索1、什么是特種文獻?它都包括什么類型?特種文獻:人們通常把書刊之外的出版物稱作特種文獻。特種文獻包括:專利文獻、標準文 獻、會議文獻、科技報告、學位論文等。2、什么是專利?專利的三性是什么?專利的種類有哪些?英文:Patent狹義:指國家專利主管機關授予申請人在一定時間內享有的不準他人任意

39、制造、使用或銷售 其專利產品或者使用其專利方法的專有排他權。廣義:專利權一一法律角度專利技術一技術角度專利文獻一文獻角度種類:發明專利、實用新型專利、外觀設計專利特點:獨占性、地域性、時間性三性:新穎性(Novelty)倉 0造性(Inventiveness)實用性(Practical Applicability)3、什么是標準文獻?標準文獻有什么特點?標準文獻:一般是由技術標準、管理標準及其他具有標準性質的類似文件所組成的特種科技 文獻體系。標準文獻的特點標準文獻它數量龐大,發展迅速與其他文獻相比有以下幾個特點:強制性(指令性、指導性兼有)自成體系(自成體系,獨立完成)重復交叉(種類繁多,重

40、復交叉)新陳代謝(更新迅速,修訂頻繁)4、什么是學位論文?學位論文(Thesis或Dissertation)是大學生或研究生為取得學位資格而提交的,介紹其發現 與某種結論的調查或研究的學術論文。各級學位一般由高等院?;蚩蒲性核谟琛,F代大多數國家學位有學士、碩士和博士三個等級,學位論文是學位授予的主要依據文 件。學位論文包括學士、碩士和博士學位論文,學位論文是反映學術水平的重要文獻資料, 可分為技術應用性研究論文和理論探討性研究論文兩類。學位論文的特點觀點新穎論據充分水平較高學位論文的目的只是供審查答辯之用,不是為了出版銷售。一般只打印若干份,在市場 上無法獲得。學位論文是非賣品也不公開發行,

41、通常只在學位授予單位的圖書館和按國家規 定接受呈繳本的圖書館保存有副本,故學位論文的收集與利用不如其它類型的文獻方便。5、什么是會議文獻?會議文獻有什么特點?會議文獻(conference document):是指在各種會議上宣讀的論文、產生的記錄及發言、論 述、總結等形成的文獻。按會議文獻出版的時間分會前文獻會間文獻會后文獻按會議規模國際性會議文獻地區性會議文獻國家性會議文獻基層會議文獻會議文獻的特點(1)內容新穎,水平較高。科技學術文獻的內容新穎豐富,學術水平高,信息量大,可靠性 高,觀點可能不成熟,是了解某學科水平動態的重要信息源。(2)信息及時,針對性強。傳遞信息比較及時,出版發行方式

42、較多速度快,專業性強。(3)形式多樣,檢索困難。會議類型較多,文獻收藏分散,難以檢索。其重要性和利用率 僅次于科技期刊。6、科技報告的特點是什么?美國四大科技報告的簡介?GRA&I的檢索方法是什么?科技報告是描述一項科學技術研究的結果或進展或一項技術研制試驗和評價的結果;或 是論述某項科學技術問題的現狀和發展的文件,它是一種重要的特種文獻信息源??萍紙蟾?報道研究工作和開發、調查工作成果或進展情況的一種文獻類別,一般都編號碼(識別報告 本身或發行機構)。科技報告的特點專一的告知性明確的目的性嚴格的保密性快速的時效性廣泛的實用性美國四大報告簡介(1)PB報告(行政系統)1 9 4 6年,美國為了

43、整理在第二次世界大戰中從戰敗國獲得的內部科技資 料,成立了美國商務部出版局負責整理、公布這批資料,因每件資料都冠以美國商 務出版局的英文名稱Publication Board的自首“?”作為標識,因而稱為“PB報告”。PB報告的編號PB報告的編號原來采用PB代碼加上流水號,1 9 8 0年開始使用新的編號 系統,即PB+年代+順序號。PB報告報告內容:開始是收錄戰敗國的科技資料9后來是收錄國家解密的報告或公開 的報告等9現在側重于民用工程方面,如:土木建筑、城市規劃、生物醫學等。AD報告(軍事系統)AD報告產生于19 5 1年,由原美國軍事技術情報局(簡稱ASTIA)收集、整 理、出版的科技報

44、告。該報告因由ASTIA統一編號,稱ASTIA Document,簡稱AD報 告。AD報告文獻來源:與國防有關的各個領域,主要是源自海陸空三軍下屬的研 究所、大學等報告。現在AD報告的文獻來源非常廣泛,報告范圍不僅包括了與國 防有關的各個領域,也涉及許多民用技術領域。就其數量和質量而言,AD報告比其它三種報告更重要。AD報告的密級有4種:機密(Secret)、秘密(Confidential)、內部限制發行(Restricted Limited)、非密公開發行(Unclassified。NASA報告(宇航系統)NASA 報告是美國 國家 航空和航天局(National Aeronautics a

45、nd space administration)簡稱NASA出版的科技報告,現也簡稱N報告。NASA報告主要是航空航天領域,年報告量約1萬件左右。NASA報告的報告號采用“NASA+報告出版類型+順序號”的表示方法。DE報告(能源系統)DE報告原稱DOE報告,該報告因出版單位多次變化,先后由美國原子能委 員會(department of energy); (AEC)、能源研究與發展署(ERDA )和美國能 源部(DOE )出版,報告名稱也從AEC、ERDA、DOE到DE多次變化。1981年開始,能源部發行報告都采用“ DE+年代+順序號”的形式。如 “DE95009428”內容:主要是原子能方

46、面美國政府報告通報及索引(GRA&I)是由美國商務部技術情報所主編的美國政府科技 報告出版物的檢索工具。1946年創刊,是美國商務部國家技術情報服務局NTIS編輯出版,半月刊。報道方式: 摘錄。出版形式:印刷性縮微性、網絡版、磁帶版。編排:1987年以后按NTIS的主題法:22個大類,178個小類。GRA&I報道全部的PB報告、公開發行和解密的AD報告、部分NASA報告和 DE報告,還有一部分美國專利申請說明書的摘要。其每期報道2 5 0 0多件報告, 每年2 4期。GRA&I的檢索途徑:分類途徑主題途徑著者途徑追溯檢索實踐:1請在中國知識產權局或中國專利信 息網查找申請人為“西南林業大學”(

47、西南林學院)的專利, 你在此系統中能查到多少篇與西南林大學相關的專利,請摘 錄篇。2請在CNKI中檢索有關作者單位是西南林業大學(西南林學院)的學位論文,請摘錄一篇。第八章電子檢索工具概論思考題數據庫的定義及構成數據庫的定義國際標準ISO/DIS5127規定,數據庫的定義為:“至少由一種文檔組成,能滿足特定目的或特 定功能數據處理系統需要的數據集合?!睌祿斓谋举|是可以提供共享的有一定組織方式的 相關數據。數據庫的構成數據庫是以文檔的形式組織起來的,文檔的基本組成單位是記錄,而記錄又是以若干字段組 織而成,因此,數據庫主要由文檔、記錄、字段三個層次構成。文檔(File):若干個邏輯記錄構成的信

48、息集合稱為文檔。它是書目數據庫和文獻檢索 系統中數據組織的基本形式。記錄(record):是作為一個單位來處理的有關數據的集合,是對某一實體的屬性進行描 述的結果,是文檔的基本單元,在全文數據庫中,一個記錄就是一則完整的信息;在題錄數 據庫中,一個記錄就是一條文摘或題錄。字段(Field):是記錄的基本單元,用來描述實體的某一屬性。在書目數據庫的記錄中, 字段的劃分與文獻著錄事項的劃分相一致,一個字段與一個著錄項目相對應,所以,一個記 錄中通常含有文獻號字段、題名字段、作者字段、出版字段、語種字段、主題詞字段、分類 號字段等各種必要的字段。每個字段的具體內容稱為字段值或屬性值。子字段:是字段的

49、下一級數據單位。在有些字段中,它們的值往往由多個子項構成。例如: 作者字段可能含有多個作者,出版字段含有出版者,出版地和出版年等等。簡述檢索技術。常用的布爾邏輯算符有哪些?布爾邏輯檢索技術布爾檢索利用布爾邏輯算符將用戶的每一步簡單概念組配成一個具有復雜概念的檢 索提問式,用以表達用戶的檢索需求,計算機將根據提問式與系統中的記錄進行檢索詞或代 碼的邏輯組配,當兩者相符時則命中,并自動輸出該文獻記錄。是目前使用最廣的檢索方式。 布爾邏輯算符常用的布爾邏輯算符有3種,分別是邏輯或OR、邏輯與AND、邏輯非NOT(1)邏輯或“OR”是用來組配具有同義或同族概念的詞,如同義詞、相關詞等,其含義是,檢出的

50、記錄中,至 少含有兩個檢索詞中的一個。也可用+”代替,檢索詞A和檢索詞B若用“OR”組配,則提問式可寫為A OR B 或者 A+B(2)邏輯與“AND”用來檢索不同檢索概念。其含義是檢出的記錄必須同時含有所有的檢索詞。也可用“*”代替,檢索詞A和檢索詞B若用“AND”組配,則提問式可寫為A AND B 或者 A*B對于提問式A AND B,假設檢索詞A的所有命中文獻有M篇,檢索詞B的所有命中文獻有N篇,提問式的所有命中文獻有Q篇,則:當A與B有一定相關性時,MQ0或NQ0;當A與B密切相關時,Q=min(M,N);當A與B不相關時,Q=0。使用邏輯與,可以縮小檢索范圍,提高檢索結果的查準率。(

51、3)邏輯非“NOT”該算符的應用可以用以排除含有某些詞的記錄,即檢出的記錄中只能含有NOT算符前的檢 索詞,但不能同時含有其后的詞。也可用“-”代替,檢索詞A和檢索詞B若用“NOT”組配,則提問式可寫為A NOT B 或者 A-B對于提問式A NOT B,假設檢索詞A的所有命中文獻有M篇,檢索詞B的所有命中文獻有N篇,提問式的所有命中文獻有Q篇,則:當A與B有一定相關性時,QN時,Q=M-N;當 MN 時,Q=0。當A與B不相關時,Q=M。使用邏輯非,用于排除不希望出現的檢索詞,提高檢索結果的準確性。(4)除以上三種布爾算符外,還有一種異或邏輯算符XOR。檢索詞A和檢索詞B若用異或XOR組配,

52、可寫為:A XOR B檢索結果為:含有檢索詞A的文獻命中,含有檢索詞B的文獻命中,但同時含有A和B的 文獻不命中。簡述檢索策略。廣義上的檢索策略:是在充分掌握用戶需求的基礎上對整個檢索過程的通盤考 慮與科學安排。狹義上的檢索策略:是檢索標識的確定與檢索表達式的擬定。檢索策略的制定(1)明確用戶的信息需求:要求明確用戶檢索的學科專業范圍、主題內容與檢 索目標。(2)選擇檢索方式和檢索方法。(3)選擇檢索系統或檢索工具:一般選擇權威的信息密度高的檢索系統或工具, 并據此確定合適的檢索途徑。(4)確定檢索項目:對用戶提問進行標引形成與所選擇檢索系統使用一致的檢 索項目。(5)擬定檢索表達:根據檢索提

53、問的概念邏輯關系,把各組面用相應的邏輯符 號聯接起來,并確定各檢索詞的權值,以及輸出閾值。(6)制定具體的檢索程序。(7)判斷檢索結果的相關性,必要時進行反饋檢索,獲取原始信息單元。以上步驟中,二、三步是支持性的,四、五步是關鍵與核心,狹義上理解的檢 索策略就是指相應的檢索表達式的制定。要檢索中東糧食生產問題的文獻,請用布爾檢索算符給出檢索表達式。要檢索賴茂生所著的計算機情報檢索方面的文獻,請利用各種可能的算符給出檢索式。第九章因特網信息檢索簡述搜索引擎。搜索引擎概述簡單地說,“搜索引擎”是INTERNET上查找準確信息的工具。引擎是英文“Engine”的音譯 詞,代表發動機。搜索引擎是“Se

54、arch Engine”意為查找信息的發動機。它是一種用于幫助 INTERNET用戶查詢信息的搜索工具,它以一定的策略在INTERNET中搜集、發現信息。對信 息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎的構成搜索引擎通常由搜索器(又稱為網絡蜘蛛一一Web Spider,爬行者一一Crawlers,機器人 Robots等)和檢索程序兩部分組成。網絡蜘蛛在網絡間則負責對搜索到的信息進行整 理、分類和索引,并對檢索者提出的各種檢索要求作出響應。搜索引擎的運行速度一般都非 ???。每次檢索只要幾秒鐘即可完成。搜索引擎基本類型目前,Internet中的搜索引擎主要

55、有三種基本類型,1)以分類目錄為主的搜索引擎;2) 以全文搜索為主的搜索引擎;3)建立在獨立搜索引擎之上的多元搜索引擎(Meta-Search Engine)。其中,前兩類搜索引擎的功能是相互借鑒和互為補充的,兩者的界限也漸趨模糊。,1)以分類目錄為主的搜索引擎這類搜索引擎又稱為目錄服務,著名的Yahoo是其代表。檢索系統將搜集到的Internet中的所有資源按其主題分為若干大類。每個大類下面又分 設若干二級類目、三級類目等。每個類目下面列出屬于這一類目的網站名稱的網址鏈接。2)以全文檢索為主的搜索引擎這類搜索引擎通常稱為索引服務,它們與分類目錄為主的搜索引擎中的網站查詢功能相 似,著名的AL

56、TA VISTA就是這方面的代表。以全文檢索為主的搜索引擎,它們的搜索對象是Internet所有網站中每個網頁的全部內 容。檢索得到的結果,通常是一個個網頁的地址和一段文字。3)多元搜索引擎Internet龐大的信息,使得獨立的搜索引擎都無法單獨覆蓋,而建立在搜索引擎之上的 搜索引擎,通常稱之為多元搜索引擎。原理:當向一個多元搜索引擎發出檢索要求之后,該引擎會將檢索要求迅速發送給其他 獨立的搜索引擎,并將它們反饋的結果集中顯示。多元搜索引擎具有同時查詢多個數據庫的優勢,至于其本身是否擁有數據庫則無關緊要。按其工作方式,又可具體分為串行處理和并行處理兩種;串行處理是將檢索要求先發送給某一個搜索引

57、擎,然后將其檢索結果經處理后,傳遞給 下一個搜索引擎,依次進行下去,直至最終將結果反饋給系統。并行處理則是將檢索要求同時發送給所有要調用的搜索引擎。4)AllinOne集成搜索All-in-One是指只要通過一個網站,即可選擇多個搜索引擎依次進行搜索。在很多場合,多元搜索引擎被視為All-in-One集成搜索的一部分。All-in-One搜索公司的“All-in-One Search Page”可以看作是All-in-One集成或搜索的代表。5)特殊用途的搜索引擎科學信息的搜索引擎Scirus;全球華人尋人搜索引擎一一Look 4 U;軟件搜索引擎Soft Seek, Download Pow

58、er Search;圖形、圖像搜索引擎Image Surfer;支持自然語言的搜索引擎一一Ask Jeeves;搜索引擎的一般檢索步驟第一步,選擇合適的搜索引擎。一般而言,選擇搜索引擎應從以下幾個方面考慮:(1)收錄范圍。(2)數據庫容量。(3)檢索界面。(4)更新周期。(5)準確性。(6)全面性。第二步,選擇合適的檢索入口實施檢索。搜索引擎的檢索途徑通常由分類和關鍵詞兩種。一般形式是,以分類目錄為主的搜索引 擎幾乎都有一個關鍵詞檢索框,而以全文檢索為主的搜索引擎,除極個別外,也都有一個分 類目錄索引。(1)以分類為檢索入口的搜索引擎的使用。這種方式主要用于檢索者使用搜索引擎只是 想大致了解某

59、個方面的信息。(2)以關鍵詞為檢索入口的搜索引擎的使用。關鍵詞索引是搜索引擎的基本組成部分。一個搜索引擎可以沒有分類目錄,但卻很少沒 有關鍵詞檢索,只不過有的搜索引擎關鍵詞檢索的對象是網頁,有的則是網站而已。過程:進入搜索引擎可見一個關鍵詞檢索框在檢索框中輸入檢索表達式按檢索鍵簡述Google的使用方法。Google簡介Google是由Larry page與Sergey Brin于1998年9月在美國硅谷設計的搜索引擎。目前, 已有Yahoo, AOL,網景和中國的網易等知名網站在內的全球150多家公司采用了 Google的 搜索引擎技術。Google中文搜索引擎技術在某種程度上可以說是目前收錄范圍最廣、功能 最強、精確度最高的搜索引擎之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論