信息檢索筆記_第1頁
信息檢索筆記_第2頁
信息檢索筆記_第3頁
信息檢索筆記_第4頁
信息檢索筆記_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一章信息資源的概述傳統(tǒng)信息資源的概述概念與特征類型:一類文獻(xiàn):原始文獻(xiàn)二類文獻(xiàn):對一類文獻(xiàn)的加工整理,報道揭示一類文獻(xiàn),提供的是一類文獻(xiàn)的線索和地址(書目,索引,文獻(xiàn))三類文獻(xiàn):來源于一類文獻(xiàn),有豐富的權(quán)威的資料,可以解決各種問題。如:百科全書,字典,詞典,手冊,年鑒,名錄數(shù)字信息資源與傳統(tǒng)信息資源相比具有的特征:以多媒體為內(nèi)容特征內(nèi)容復(fù)雜多樣更新速度快,時效性強利用不受時空限制具備檢索系統(tǒng)具備全方位的動態(tài)的信息服務(wù)功能數(shù)字信息資源的類型:按性質(zhì)和功能劃分:一次文獻(xiàn):原始文獻(xiàn)二次文獻(xiàn):參考數(shù)據(jù)庫,搜素引擎,網(wǎng)資,導(dǎo)航等。三次文獻(xiàn):元搜素引擎(關(guān)于搜素引擎的搜素引擎)按載體劃分:光盤,網(wǎng)絡(luò)數(shù)據(jù)

2、庫,聯(lián)機檢索系統(tǒng)(三)主要數(shù)字信息資源.參考型數(shù)據(jù)庫:包含各種數(shù)據(jù)信息的來源和屬性的數(shù)據(jù)庫。包括:書目數(shù)據(jù)庫,索引數(shù)據(jù)庫,文獻(xiàn)數(shù)據(jù)庫.全文數(shù)據(jù)庫:收錄有原始文獻(xiàn)全文的數(shù)據(jù)庫.事實數(shù)據(jù)庫;直接提供原始文獻(xiàn)的數(shù)據(jù)庫,分為數(shù)值數(shù)據(jù)庫,指南數(shù)據(jù)庫,術(shù)語數(shù)據(jù)庫.電子圖書5電子報紙.搜索引擎/分類指南.網(wǎng)絡(luò)學(xué)術(shù)資源學(xué)科導(dǎo)航:對各類信息資源進(jìn)行篩選整理之后,按學(xué)科屬性對其進(jìn)行分類、組織。第二章信息檢索概述一信息檢索:信息檢索就是利用一定的檢索工具,運用一定的檢索技術(shù)和方法查找信息的過程。二信息檢索的原理.利用計算機進(jìn)行信息檢索的前提和基礎(chǔ)是信息的組織和貯存。沒有貯存就沒有檢索對象。.信息的組織與貯存就是數(shù)據(jù)

3、庫的建立過程。在這一過程中,系統(tǒng)對收集到的信息進(jìn)行概念分析(即找出能夠表達(dá)主題的關(guān)鍵詞),然后賦予其特征標(biāo)識(這一過程也叫對信息內(nèi)容進(jìn)行標(biāo)引),并按特定的編排方法將其組織起來,形成有序的具有可檢性特征的數(shù)據(jù)庫。.計算機進(jìn)行信息檢索的原理就是指用戶和檢索人員將能夠表達(dá)其信息需求的檢索式提交給檢索系統(tǒng),檢索系統(tǒng)即自動將檢索式與系統(tǒng)中的信息進(jìn)行匹配,凡是信息特征標(biāo)識和邏輯組配關(guān)系與用戶檢索式一致的,既未命中內(nèi)容。這種“匹配”實際上就是一種字符串的類比運算。三信息檢索語言(也即標(biāo)識)1.檢索語言的概念與作用(1)檢索語言是信息存儲與檢索過程中用于描述信息特征和表達(dá)用戶信息(3)標(biāo)引過程:主題分析標(biāo)引標(biāo)

4、引結(jié)果記錄狹義的對文章的標(biāo)引:從上圖可知,信息檢索語言的作用:對文獻(xiàn)的外部特征和內(nèi)容進(jìn)行多維描述,提供多種檢索過程,以便用戶從不同角度進(jìn)行檢索。.檢索語言的類型:分類檢索語言人工語言主題檢索語言代碼檢索語言分類檢索語言:將各種概念按學(xué)科類型進(jìn)行系統(tǒng)排列,并用分類號表示。主題檢索語言:用于描述、存儲、檢索信息主題的受控詞(規(guī)法化的詞),按字母順序排列。其選取依據(jù)為出現(xiàn)頻率、標(biāo)引頻率、查找頻率。標(biāo)題詞語言主題檢索語言單元詞語言敘詞語言敘詞:經(jīng)過詞匯控制后,在信息組織中顯示文獻(xiàn)主題,在信息檢索中構(gòu)造檢索提問式的一種檢索詞匯。它以語詞的概念組配而不是字面組配為特征。又稱為描述詞、敘述詞、主題詞。敘詞法

5、就是以敘詞為標(biāo)識符號,標(biāo)引和檢索信息的方法,可用復(fù)合詞來表達(dá)主題概念,檢索式是由多個敘詞組成復(fù)合邏輯的組配,形成多種組合方式。自然語言檢索詞:是從信息內(nèi)容中直接抽取的,主要依賴計算機自動抽詞完成。其中標(biāo)識詞包括:關(guān)鍵詞、題名,作者,全文、引文、摘要。限制性自然語言:對自然語言進(jìn)行限制,只保留其中的重要詞。.索引(也即標(biāo)引)檢索語言就是索引語言,索引是信息標(biāo)引的過程;索引是表明文獻(xiàn)特征的信息。(1)概念:索引就是對信息組織的過程。它包括分析信息內(nèi)容和用索引語言或檢索語言對信息內(nèi)容進(jìn)行描述。部分索引結(jié)構(gòu)舉例:索引標(biāo)目出處項Informationretrizevalp4,p10,p18(內(nèi)容分析檢索

6、)音樂檢索與利用/李四情報學(xué)報,2008(5),85-89(題名索引)新華文摘2008(1),118架,189位(定位位置檢索)索引的類型:按對象劃分:機構(gòu)索引、姓名索引、圖書索引、論文索引、專利索引、報刊索引按標(biāo)目所使用的提示符號劃分:語言檢索、代碼檢索、圖形檢索、數(shù)據(jù)檢索自動索引:自動索引就是指計算機在沒有人工干預(yù)的前提下,根據(jù)一定的自動分析算法對信息內(nèi)容進(jìn)行分析與描述。索引的目的:通過主題詞確定文件地址分析文件的分布狀態(tài)決定文件和查詢之間的關(guān)系最終目的:進(jìn)行信息檢索自動索引的作用:避免不一致性,節(jié)約檢索時間(這里的一致性指用戶輸入檢索系統(tǒng)的檢索式與檢索系統(tǒng)中對信息特征進(jìn)行描述的標(biāo)識詞相匹

7、配)自動索引的過程:輸入全文通過空格、標(biāo)點來分析分解全文,作為結(jié)果把有用和無用的詞放入詞庫把有用詞(最能表達(dá)文章主題的詞)和無用詞分開給有用詞賦予權(quán)重(相關(guān)性)如何把有用詞和無用詞分開,找出最能表達(dá)文章主題的標(biāo)識詞,從而有效進(jìn)行檢索:停用詞表法:停用詞:通用的表達(dá)語法關(guān)系、以及其他的相關(guān)詞,當(dāng)他們離開上下文后就不再具有任何的語義。(停用詞是相對的,在某些特定環(huán)境下也是有用的)停用詞表:由在信息處理過程中可以被忽視或者過濾的詞組成。停用詞的缺陷:無法識別索引詞的重要性,無法給實義詞賦予權(quán)值;無法對短語做出索引,過濾掉某些虛詞之后短語就不再具有原來的含義,或者整個短語都會被過濾掉,無法有效進(jìn)行檢索

8、。原始詞頻法:一個詞在文章中出現(xiàn)的頻率越高,它越能夠表達(dá)文章的主題思想。因此,出現(xiàn)頻率越高的詞就會被留下來作為索引。反之,低頻詞就會被去除。通常在原始詞頻法中有一個底線,如果一個詞出現(xiàn)的次數(shù)超出或者等于這個底線,那么它就會被選出來作為索引詞底線發(fā)生變化,索引詞也發(fā)生變化原始詞頻法的缺陷:未考慮到文章的長短,底線的設(shè)定無法適應(yīng)任何文章。標(biāo)準(zhǔn)詞頻法:(詞頻=一個詞在文章中出現(xiàn)的次數(shù)/一篇文獻(xiàn)中包含的所有詞的數(shù)量)0WWl,f即頻率k即關(guān)鍵詞:關(guān)鍵詞在一個句子中并不是獨立的,該方法為考慮到一個詞在整個數(shù)據(jù)庫中的影響力其作為鑒別詞的鑒別力就越強,精度就越大。反向詞頻法:的頻率,N指數(shù)據(jù)庫中包含文件的個

9、數(shù),指數(shù)據(jù)庫中包含關(guān)鍵詞k的文件的數(shù)量。在信息檢索領(lǐng)域,log一般默認(rèn)為以2為底,此處用log是為了弱化k對權(quán)重的影響,因為影響權(quán)重的因素還有其他的。反向詞頻法一種計算詞在文章中權(quán)重的方法。反向就是指詞k在數(shù)據(jù)庫中出現(xiàn)的頻率越低,鑒別能力就越。其他影響權(quán)重的因素:詞在文章中的位置,如:標(biāo)題、摘要、結(jié)論斜體字句子形式:提出了,討論了,顯示了d.用and和or等連接起來的詞通常具有相同的含義。自動摘要:非全文摘取,摘取關(guān)鍵句子,刪除無用的句子頻率,N指一個文件中句子的數(shù)量,K的句子的個數(shù)。通過將一個句子中所包含的各個詞的權(quán)值相加得出一個句子的權(quán)重根據(jù)各個句子權(quán)重的大小按降序?qū)⑽募兴芯渥舆M(jìn)行排序

10、選出具有最高權(quán)重的句子將所選出的句子整理成文摘四.信息組織的結(jié)構(gòu).從信息檢索的視角來看,數(shù)據(jù)組織的兩個重要方面是:他所描述的概念和關(guān)系,以及它是如何支持檢索運行的。.數(shù)據(jù)庫的構(gòu)成:文檔一記錄一字段(1)文檔是由若干條記錄構(gòu)成的信息集合。文檔是書目數(shù)據(jù)庫和檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。(2)根據(jù)數(shù)據(jù)庫的內(nèi)部形式,一個數(shù)據(jù)庫最少包含一個順排文檔和一個倒排文檔(其實是一個索引數(shù)據(jù)庫,它可以使用戶在順排文檔中快速有效實現(xiàn)檢索)。順排文檔:概念:按文獻(xiàn)記錄的輸入順序(文獻(xiàn)序號)排列的文檔。順排文檔相當(dāng)于印刷型檢索工具的正文部分。在順排文檔中,記錄按順序一個接一個存放,一個序號代表一條記錄,存取號越大對應(yīng)

11、的記錄就越新。由于順排文檔存取的是最完整的信息,所以通常又把它成為主文檔。這種貯存方法決定了,在對信息進(jìn)行檢索時,需要對記錄按順序一一進(jìn)行掃描,存取的記錄越多,檢索的速度越慢。優(yōu)點:易于存儲、操作和貯存缺點:很難更新和插入一個新的記錄,需要移動大量的數(shù)據(jù)信息。隨機存取一篇文獻(xiàn)太難。不能表達(dá)文獻(xiàn)中復(fù)雜的多層次的關(guān)系。倒排文檔概念:它是一種指南結(jié)構(gòu),在倒排文檔中每款關(guān)鍵詞都與包含該關(guān)鍵詞的文件地址相連。(所以,它類似于C語言中的指針,指向的是地址)對于信息檢索而言,這就意味著每給出一個關(guān)鍵詞就能迅速找出包含關(guān)鍵詞的文件地址。倒排文檔要求文件地址按文件編號順序編排。倒排文檔是把順排文檔中的標(biāo)引詞抽出

12、,按字母順序依次排列倒排文檔中的倒排是相對于順排文檔而言的。其實在計算機處理器中,倒排文檔也是按順排文檔的存取方式存取的。二者的區(qū)別在于:順排文檔是以完整的記錄作為處理和檢索單元,而倒排文檔則是以字段作為處理和檢索單元。倒排文檔相對于印刷檢索系統(tǒng)中的輔助索引。6)可以按不同的字段分別組織不同的倒排文檔(如:按主題詞、作者)也可以把不同的字段組成一個混排文檔。倒排文檔(表一)標(biāo)識詞輸入輸記錄的數(shù)量命中文獻(xiàn)的記錄地址檢索時倒排文檔對應(yīng)的順排文檔(表二)標(biāo)識詞(在順排文檔中的地址)在順排文檔中的記錄號81317456(注:該表相當(dāng)于關(guān)系型數(shù)據(jù)庫中表關(guān)鍵詞即主鍵不同的兩表的對應(yīng)關(guān)系)五信息檢索工具.概

13、念:指具有檢索性、資料性功能的所有文獻(xiàn)資料、數(shù)據(jù)庫和信息檢索系統(tǒng)。檢索性:具備完備的檢索系統(tǒng),是有序建立的索引。資料性:必須具有權(quán)威性、可靠性。注:具備檢索性但不具備資料性的可以是檢索工具(例如:搜索引擎),但反之就不是檢索工具。.類型:(1)按功能劃分:線性型,資料型,綜合型線性型:提供的是信息的出處、來源和地址,如:書目,索引,文摘。資料性:有豐富的資料,如:工具書綜合型:電子版的,如:電子數(shù)據(jù)庫、大型聯(lián)機系統(tǒng)等(2)從檢索手段、方式上劃分:手工檢索工具和計算機檢索工具五信息檢索的步驟與方法(一)步驟:1.課題分析2選擇相關(guān)檢索工具.構(gòu)選檢索式.調(diào)整檢索策略.評價檢索結(jié)果(二)信息檢索的方

14、法.瀏覽.簡單檢索(用于信息量比較小、檢索手段缺乏的時候).復(fù)雜檢索(高級、專家、指南檢索).自然語言檢索.指令檢索:又稱命令檢索,它是由檢索者自行輸入檢索指令,系統(tǒng)即按該指令進(jìn)行相應(yīng)的運行,查出所需結(jié)果).二次檢索六信息檢索方法/功能/技術(shù)(一)布爾檢索法布爾檢索法就是指利用布爾運算符連接各個檢索詞,然后由計算機進(jìn)行相應(yīng)的邏輯運算,以找出信息的方法。布爾運算符Booleanlogic(布爾邏輯)【1】AND邏輯與它要求用其連接的兩個檢索詞必須出現(xiàn)在檢索到的文件中【2】OR邏輯或它要求用其連接的兩個檢索詞必須有一個出現(xiàn)在檢索文件中【3】NOT邏輯非它要求用其連接的兩個檢索詞中,其后面的詞不能出

15、現(xiàn)在檢索到的文件中【4】復(fù)合使用【5】布爾邏輯運算符的優(yōu)先使用級別圓括號中的檢索式優(yōu)先執(zhí)行()notandor在同意級別中按從左到右的順序進(jìn)行操作【6】規(guī)則:not(AandB)=notAornotBNot(AorB)=notAandnotB布爾邏輯的局限性:關(guān)鍵詞的重要性不能按權(quán)重體現(xiàn)出來查詢到的文件不能按查詢相關(guān)度進(jìn)行排序用戶必須嚴(yán)格遵循算法并且必須理解每個運算的含義“非”運算對檢索查詢結(jié)果影響很大布爾邏輯和布爾查詢并不完全相同缺乏有效反饋信息來支持用戶調(diào)整檢索、查詢(二)詞位檢索法(課本P109)利用位置運算符號連接各個檢索詞,讓計算機進(jìn)行相應(yīng)的位置邏輯運算,從而查找出所需信息的檢索方法

16、。其中,位置連接運算符是用于規(guī)定檢索詞在文獻(xiàn)記錄中的位置關(guān)系的符號。在實際檢索中,利用位置連接運算符可有效提高查全率和查準(zhǔn)率常用運算符:課本(P109)A(notW)B查詢檢索詞B不能直接跟在A后的文獻(xiàn)A(notnW)B查詢檢索詞B能在A后,但AB兩詞之間的間隔詞大于n的文獻(xiàn)A(notN)B查詢檢索詞B不出現(xiàn)在檢索詞A附近的文獻(xiàn)(三)字段檢索法(課本P110)(四)截詞檢索法(課本P110)(五)加權(quán)檢索所謂加權(quán)檢索即是賦予特定的檢索詞以特定的權(quán)值,以查找所需信息的方法。現(xiàn)在常用的,用“可表示某個檢索詞必須出現(xiàn)在檢索結(jié)果中,-表示某個檢索詞一定不出現(xiàn)在檢索結(jié)果中。加權(quán)檢索側(cè)重點不在于判斷檢索詞

17、后字符串在不在數(shù)據(jù)庫中、與別的檢索詞或字符串是什么關(guān)系,而在于判定檢索詞或字符串在滿足檢索邏輯后對文獻(xiàn)命中與否的影響程度。加權(quán)檢索的基本方法:在每個提問檢索詞后面給定一個權(quán)值設(shè)定一個各個檢索詞權(quán)值相加后得到的閾值作為命中記錄的條件。檢索時先查找這些檢索詞在數(shù)據(jù)庫記錄是否存在,然后計算存在的權(quán)值,權(quán)值之和達(dá)到閾值的即為命中內(nèi)容。(六)概念檢索一一與語義、字面有關(guān)(概念檢索是對模糊檢索的進(jìn)一步深入和明確)所謂概念檢索,是指用戶輸入一個檢索詞后,檢索工具不僅能檢索出包含這個檢索詞匯的結(jié)果,還能檢索出于這個檢索詞同屬一類概念的詞匯的結(jié)果。檢索原理:計算機概念描述元素都統(tǒng)一對概念意義進(jìn)行分類對所有標(biāo)識編

18、制索引,形成相應(yīng)的倒排文檔文件當(dāng)用戶鍵入一個檢索請求時,也同樣對其進(jìn)行概念意義分類標(biāo)注,并將其作為檢索入口,查找標(biāo)識符索引文件,便可得到檢索結(jié)果。概念檢索包含兩個方面:同義檢索,相關(guān)概念聯(lián)想檢索(七)模糊檢索觀點一:系統(tǒng)允許被檢索信息和檢索提問式之間存在差異觀點二:實質(zhì)上是檢索系統(tǒng)自動進(jìn)行的同義詞檢索,同義詞又系統(tǒng)的管理界面配置。(八)區(qū)分大小寫檢索:指系統(tǒng)對用戶檢索時包含的大小寫處理方式。不同的系統(tǒng)其處理方式不同。(九)限制檢索:指在檢索時,利用一些限制來縮小檢索面和檢索結(jié)果。常見的限定都是用文獻(xiàn)的外部特征:包括出版時間,出版語種,文獻(xiàn)類型,文獻(xiàn)出處。七信息檢索的類型(一)傳統(tǒng)載體信息檢索。

19、例如:字典、詞典(二)聯(lián)機數(shù)據(jù)庫檢索.概念:是指用戶利用計算機終端設(shè)備通過通信線路或網(wǎng)絡(luò),在聯(lián)機檢索中心的數(shù)據(jù)庫進(jìn)行檢索并獲取信息的過程。(2)數(shù)據(jù)跟新快(4)安全性能好(6)檢索界面單一2特點:(1)數(shù)據(jù)量大(3)檢索功能強(5)檢索費用高3構(gòu)成:終端設(shè)備、聯(lián)機信息檢索中心、數(shù)據(jù)通信網(wǎng)絡(luò)(具體解釋見課本P125)(三)光盤數(shù)據(jù)庫特點:1.數(shù)據(jù)含量有限,數(shù)據(jù)跟新速度慢.檢索功能強.檢索環(huán)境寬松.用戶界面比較友好,較為直觀。第三章網(wǎng)絡(luò)信息檢索一.信息網(wǎng)絡(luò)檢索工具的構(gòu)成搜索器,檢索器,索引器,用戶檢索界面搜索引擎是一種設(shè)計出來用于人們搜索萬維網(wǎng)網(wǎng)站中的信息的計算機軟件。查詢方法是通過選擇瀏覽網(wǎng)站上

20、的目錄或輸入恰當(dāng)?shù)年P(guān)鍵詞或短語的方式進(jìn)行。搜索器:它是軟件程序,專門用于智能查詢?nèi)f維網(wǎng)上的信息及網(wǎng)頁,其方式是該軟件按照超鏈接方式、根據(jù)事先設(shè)定好的主題范圍從一個服務(wù)器爬到另一個服務(wù)器,來獲取相關(guān)信息及網(wǎng)頁。Crawlingtheweb:最常用的算法是從一組urls(統(tǒng)一資源定位器)開始查詢,然后按照廣度優(yōu)先或者深度優(yōu)先的方法從其中分析出它的urls。廣度優(yōu)先:這種方法即是讓robots查看與當(dāng)前網(wǎng)頁相連接的所有網(wǎng)頁,這種方法能找到與主題相關(guān)的網(wǎng)站。深度優(yōu)先:使用這種方法,robots首先跟蹤頁面中的第一個連接點并以此類推,知道其再也沒有可再往下鏈接的點為止,或者達(dá)到一個認(rèn)為連接的點為止。【1

21、】最開始的urls應(yīng)該是很普遍的【2】不同的crawler應(yīng)該避免多次訪問相同的頁面【3】用國家代碼來區(qū)分網(wǎng)站,分別用不同的robot來指向不同的網(wǎng)站【4】提及索引的每個網(wǎng)站的日期【5】有些搜索引擎是按照網(wǎng)頁的更新頻率去定期訪問該網(wǎng)頁的。索引器檢索器:分析布爾檢索請求,將檢索詞和索引詞在索引庫中進(jìn)行匹配,對檢索結(jié)果進(jìn)行排序用戶檢索界面:用戶檢索界面器分為簡單和復(fù)雜兩種。檢索界面只提供用戶輸入檢索式的文本搜索框,復(fù)雜界面還提供多種檢索限制以及各種信息瀏覽功能。二網(wǎng)絡(luò)信息檢索工具的類型布爾檢索截詞檢索詞位檢索字段檢索短語概念模糊區(qū)分大小寫網(wǎng)路信息檢索工具的布爾檢索布爾檢索法是網(wǎng)絡(luò)中使用最廣泛的一種

22、檢索方法。幾乎所有的檢索工具都具備,但在實現(xiàn)方式上各有不同,可以分為以下類型:按嚴(yán)格意義上的布爾檢索法操作,可分為3種:用戶必須親自在搜索框中輸入檢索詞和運算符用戶只需在搜索框附近的菜單中點擊選擇使用運算符支持部分布爾檢索功能用其他符號代替布爾運算符+與and-與notor與“缺省值”與圓括號結(jié)合使用網(wǎng)絡(luò)信息檢索工具的詞位檢索法功能使用near指令利用雙引號進(jìn)行短語檢索限定短語默認(rèn)檢索將用戶輸入的兩個詞自動視為一個詞組進(jìn)行檢索網(wǎng)絡(luò)檢索工具的截詞檢索其實現(xiàn)方式有兩種類型利用通配符*,*代表了詞干后可能的一切詞形單純利用詞干或菜單選項網(wǎng)絡(luò)檢索工具的字段檢索功能主題字段限定非主題字段限定其他限定四網(wǎng)

23、路信息檢索工具的檢索方法.瀏覽、目錄檢索.簡單檢索.高級檢索五元搜索引擎1.概念:它是一種網(wǎng)絡(luò)服務(wù)器,它能將查詢請求同時發(fā)送給多個搜索引擎、網(wǎng)絡(luò)指南以及其他數(shù)據(jù)庫,然后將答案集中整理。2結(jié)構(gòu)用戶元搜素引擎網(wǎng)絡(luò)各個獨立搜索引擎優(yōu)點類型all-in-on類型(集中羅列,單獨檢索類)特點:檢索界面不統(tǒng)一一次只能使用一個檢索工具對各個獨立檢索工具的界面復(fù)制可能是部分的或者全面的直接用所選的檢索工具的顯示格式呈現(xiàn)給用戶并行檢索,結(jié)果綜合類即以唯一確定的檢索界面,實現(xiàn)對多個獨立型檢索工具索引庫的檢索,并將檢索結(jié)果以統(tǒng)一格式顯示的搜索引擎特點:統(tǒng)一的檢索界面檢索指令轉(zhuǎn)換統(tǒng)一檢索結(jié)果集的組織與轉(zhuǎn)換第四章聯(lián)機系

24、統(tǒng)數(shù)據(jù)庫檢索一.聯(lián)機數(shù)據(jù)庫結(jié)構(gòu)(課本P125-126)二.聯(lián)機系統(tǒng)的利用檢索步驟(P127-128)三.Dialog系統(tǒng)檢索l.dialog系統(tǒng)的連入方法1)專線聯(lián)入2)利用telnet3)利用www瀏覽器聯(lián)入2.檢索指令(課本P134136)Begincommand選擇文檔指令Selectcommand檢詞指令Typecommand打印指令Displaycommand顯示指令Currentcommand當(dāng)前指令Expendcommand擴(kuò)詞指令.基本索引字段.輔助索引字段.范疇查詢Eg:SPD=20010115:20080131從2001年一月15號到2008年一月31號的記錄的集合.數(shù)值查

25、詢=,=,=100000銷售額大于等于100000的公司縮寫:KTHOUSANDMMILLIONBBILLIONTTRILLION%PERCENT.聯(lián)機詞表:toviewanonlinethesauris,entertheexpendcommand.特殊指令Sortcommand:對最后檢索結(jié)果進(jìn)行排序Eg:sorts1/all/au,at將si中的所有文獻(xiàn)按作者和標(biāo)題排序.一攬子檢索:允許用戶用一個檢索式同時在多個數(shù)據(jù)庫中進(jìn)行檢索,同元搜索引擎相似Eg:begin516,531打開第516和531個文檔Beginscitechnot77打開自然類數(shù)據(jù)庫不包括第77個文檔Setdetailon

26、使用該指令讓系統(tǒng)分別展示所檢索的每一個數(shù)據(jù)庫中所看到的文獻(xiàn)個數(shù)Removeduplicaterecord去掉重復(fù)指令Commandformat:RDSnFROM文件10.dialindexFill411,dialindexisacentralindexformostofthedialogdatabase.indialindexyoucancomparethenumberofrecordsretrievedbyyourstrategyamongagroupofdatabases.?sf:用于顯示包含主題詞的數(shù)據(jù)個數(shù)?savetemp:臨時文件存儲指令?rankfiles把獲得的文檔按包含的文獻(xiàn)數(shù)量排序第五章綜合型信息檢索工具及其利用一.全國報刊索引數(shù)據(jù)庫二.中國人民大學(xué)書報資源中心復(fù)印報刊資料索引總匯三.Calis(chinaacademiclibraryandinformationsystem)高等教育文獻(xiàn)資源保障系統(tǒng)四.Oclc聯(lián)機計算機圖書館中心(具體功能及使用規(guī)則見數(shù)據(jù)庫網(wǎng)站)五萬方數(shù)據(jù)資源系統(tǒng)六.Cnki工程數(shù)據(jù)庫(一)概述:中國基礎(chǔ)設(shè)施工程,chinanationalknowledgeinformationstructure.是以實現(xiàn)全社會知識信息資源共享為目的的國家信息化重點工程。(二)檢索工程:可以進(jìn)行跨庫檢索(三)cnki數(shù)據(jù)庫檢索.初級檢索.高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論