第五章計算機檢索技術與數據庫檢索方式_第1頁
第五章計算機檢索技術與數據庫檢索方式_第2頁
第五章計算機檢索技術與數據庫檢索方式_第3頁
第五章計算機檢索技術與數據庫檢索方式_第4頁
第五章計算機檢索技術與數據庫檢索方式_第5頁
已閱讀5頁,還剩99頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第五章計算機信息檢索的基本技術與方法一、計算機信息檢索的基本技術:一、計算機信息檢索的基本技術: 布爾邏輯、截詞檢索、字段檢索,位置算符等布爾邏輯、截詞檢索、字段檢索,位置算符等。在進行計算機檢索時,有時有一些比較復雜的課在進行計算機檢索時,有時有一些比較復雜的課題,如:題,如:“GPSGPS在建筑中的應用在建筑中的應用”,既涉及,既涉及GPSGPS,又涉及建筑,還有又涉及建筑,還有“應用應用”,這時候就要編制出滿足,這時候就要編制出滿足要求的計算機檢索式,它是機檢的基礎。要求的計算機檢索式,它是機檢的基礎。1 1布爾邏輯檢索布爾邏輯檢索(Boolean Logic Boolean Logic

2、 RetrievalRetrieval) 邏輯檢索的基礎是邏輯運算,邏輯運算中最邏輯檢索的基礎是邏輯運算,邏輯運算中最常用的是布爾邏輯運算符(常用的是布爾邏輯運算符(Boolean Logic Boolean Logic OperatorsOperators), ,即與、或、非三種運算符號,即與、或、非三種運算符號,用用它們可以表示概念之間的邏輯關系。它們可以表示概念之間的邏輯關系。檢 索 要求邏輯檢索 課題 表達式 檢 索 結果概念相交、限定 AND與* 計算機用于制圖 A BA AND BA * B 縮小檢索范圍提高查準率 概念平行、并列 OR或+ 土地管理與土地利用 A B A OR B

3、 A+B擴大檢索范圍提高查全率 某一主題去掉一部分相關主題 NOT非- 除光電測距以外的 A 電磁波測距 BB NOT AB-A提高查準率 布爾邏輯(Boolean Logic)“與”(“AND”)、“或”(“OR”)、“非”(“NOT”)A and B and CA or B or CA and B not C2 2 位置算符位置算符( (Proximity Operators)Proximity Operators) 位置算符是表示檢索詞之間位置關系的一種運算位置算符是表示檢索詞之間位置關系的一種運算符。由于英文對一句話有多種表達方法,寫法可能符。由于英文對一句話有多種表達方法,寫法可能不

4、同。如:不同。如:“GPSGPS在鐵路橋研究中的應用在鐵路橋研究中的應用”這個課這個課題,用英文表達可能是題,用英文表達可能是“Using of GPS in Railway Using of GPS in Railway Bridge”, Bridge”, 也可能是也可能是“Using of GPS in Bridge of Railway”Using of GPS in Bridge of Railway”,因而可能編制出這樣的檢索式,因而可能編制出這樣的檢索式,GPS AND (Railway (2N)Bridge)我們可以通過位置檢索提高檢索的準確率(1 1) ( (W)W)算符與算符

5、與( (nW)nW)算符算符 W W 是是wordword與與 withwith的縮的縮寫。寫。 特點:特點:WW詞序不變,中間不可插詞,但兩詞間詞序不變,中間不可插詞,但兩詞間可有一個標點,連字符或空格。可有一個標點,連字符或空格。 nWnW詞序不變,中間可插入詞序不變,中間可插入N N 個詞。個詞。 如:如:potential (w) energypotential (w) energy可能檢出可能檢出potential potential energy energy , potential potential - -energy energy 或者或者potential potentia

6、l , ,energy energy 又如:又如:gone (2w)wind 可能檢出可能檢出gone with the wind (2 2) ( (N)N)與與( (nN)nN)算符算符 N N是是nearnear的縮寫的縮寫 特點:特點:N N詞序不限,中間不可插詞,但兩詞間可詞序不限,中間不可插詞,但兩詞間可有一個標點,連字符或空格。有一個標點,連字符或空格。 nNnN詞序不限,中間可插入詞序不限,中間可插入N N 個詞。個詞。 如:如:econom? (2N)recoveryeconom? (2N)recovery可能檢出可能檢出economic economic recovery,r

7、ecovery of the economy,recovery,recovery of the economy,(3 3)同字段檢索)同字段檢索A(F)BA(F)B,F F是是fieldfield的縮寫。的縮寫。 特點:特點:A A、B B兩詞必須出現在同一字段中,詞序兩詞必須出現在同一字段中,詞序與詞量不限。與詞量不限。 如:如:environment (F)impact/DE,environment (F)impact/DE,表示兩個詞必須同表示兩個詞必須同時出現在敘詞字段內。時出現在敘詞字段內。(4 4) 同句檢索同句檢索A(S)BA(S)B,S S是是sentencesentence的

8、縮寫的縮寫。 特點:特點:A A、B B出現在同一自然句中(子字段),出現在同一自然句中(子字段),其詞序與詞量不受限制。其詞序與詞量不受限制。 如:如:electric (S)plantelectric (S)plant可檢出可檢出electric power plantselectric power plants如:如:EI EI中的中的NEAR;PQDDNEAR;PQDD中的中的W/n (W/n (兩詞間距小于兩詞間距小于n n個單詞,且前后位置任意個單詞,且前后位置任意) ),Pre/n (Pre/n (兩詞間距小于兩詞間距小于n n個單詞,且前后位置一定個單詞,且前后位置一定) )3

9、 3截詞算符截詞算符( (Truncating operators)Truncating operators) 在英語詞匯中,一個詞可能有多種形態,在英語詞匯中,一個詞可能有多種形態,如詞的單、復數形式的不同,英美拼寫方法如詞的單、復數形式的不同,英美拼寫方法不同、詞性不同等。如果檢索時將這類詞全不同、詞性不同等。如果檢索時將這類詞全部輸入進去,會增加檢索時間和費用,采用部輸入進去,會增加檢索時間和費用,采用截詞法可解決這一問題。截詞法可解決這一問題。 所謂截詞檢索,是指在檢索標識中保留相所謂截詞檢索,是指在檢索標識中保留相同的部分,用相應的截詞符代替可變化部同的部分,用相應的截詞符代替可變化

10、部分。檢索中計算機會將所有含有相同部分分。檢索中計算機會將所有含有相同部分標識的記錄全部檢索出來。常用標識的記錄全部檢索出來。常用“?”、“* *”符號表示。符號表示。(1 1)有限截斷)有限截斷。即在檢索詞后后截幾個有限的字母,。即在檢索詞后后截幾個有限的字母,如名詞的單復數,動詞的詞尾變化等。如名詞的單復數,動詞的詞尾變化等。如輸入如輸入computer? ?computer? ?表示有表示有0-10-1個字母變化,可檢出個字母變化,可檢出computercomputer和和puters. 輸入輸入stud?stud?表示截斷處有表示截斷處有0-30-3個字母變化,可檢出個字母變化,可檢出

11、study,studies,studied,studing.study,studies,studied,studing.(2 2)無限截斷)無限截斷:在檢索詞后加一個:在檢索詞后加一個“* *“,表,表示該詞后可加任意個字符。使用無限截詞,所示該詞后可加任意個字符。使用無限截詞,所截詞根不能太短,否則會輸出許多無關文獻,截詞根不能太短,否則會輸出許多無關文獻,造成誤檢。造成誤檢。 如:如:computercomputer* *可檢出可檢出computers,computering,computered,computerizatcomputers,computering,computered,c

12、omputerization.ion. (3 3)中間截斷)中間截斷:在檢索詞中間加一個或:在檢索詞中間加一個或幾個?號,主要解決一些英美拼寫不同,幾個?號,主要解決一些英美拼寫不同,單復數形式的不同的詞的輸入,可簡化單復數形式的不同的詞的輸入,可簡化輸入。輸入。 如:輸入如:輸入wom?nwom?n可檢出可檢出 woman,womenwoman,women各種算符在數據庫中的實際應用各種算符在數據庫中的實際應用位置算符位置算符1)EI NEAR Bridge NEAR Piling*表示這兩個詞要彼此接近,前后順序不限。W/n Pig*W/2pine*表示兩個詞的距離不能超過n個單詞Adj

13、Channel adj tunnel表示含有這兩個詞,兩個詞相鄰,位置一定2)ISI Proceedings 用同句算符(SAME):如如Channel same Channel same tunneltunnel,表示,表示channel channel 和和tunnel tunnel 出現在同一句子中才符出現在同一句子中才符合檢索條件。合檢索條件。3)CSA:within X“ 表示兩詞之間不得多于x個詞,前后位置任意 如“women within 8 movement” (順序不定)4)Elsevier: ADJ表示兩詞相鄰,前后順序固定,與詞檢索的結果相同;NEAR或NEAR(N),表

14、示兩詞相鄰,中間可插入少于或等于n個單詞,前后順序可以發生變化,如果不使用(N),系統默認值為10 5)PQDD W/n (兩詞間距小于兩詞間距小于n個單詞,且前后位置任意個單詞,且前后位置任意),Pre/n (兩詞間距小兩詞間距小于于n個單詞,且前后位置一定個單詞,且前后位置一定)6 6)ProQuestProQuest W/nW/n(表示連接兩個詞之間可以插入(表示連接兩個詞之間可以插入n n個詞個詞 ,前后位置可顛倒),前后位置可顛倒) 如:如:Education w/5 intenet Education w/5 intenet 表示表示educationeducation和和inte

15、rnetinternet之間可以插入之間可以插入5 5個詞個詞 ,并且前后,并且前后位置可以顛倒。位置可以顛倒。Pre/nPre/n(表示前后兩詞之間最多插入(表示前后兩詞之間最多插入n n個詞,前后位置一定個詞,前后位置一定 ) 如:如:U.S pre/n economic policyU.S pre/n economic policy可檢出可檢出U.S aidU.S aideconomic policy,or U.S wartime economic policy,or U.S wartime economiceconomic policy policy 。截詞符或通配符如:如:CSAIS

16、I ProceedingsProQuestCAISI ProceedingsProQuestCA用用通配符通配符“?”和截詞符和截詞符“* * ” 輸入輸入 “patentpatent* *”,可以檢索到,可以檢索到 patentpatent、patents、 patentedpatented等,等,(無限截斷)(無限截斷) 輸入輸入 wom?nwom?n,可以檢索到,可以檢索到womanwoman和和womenwomen。 輸入輸入“fib?fib?”,可檢索到,可檢索到fiberfiber和和 fibrefibre。(有限截斷)。(有限截斷) EIEI用用“* * ” 和和“$ $”( (

17、詞根算符詞根算符) ) 如:OpticOptic* *檢索結果中包括以檢索結果中包括以optic optic 開頭后面加任意開頭后面加任意多個字母的詞例如多個字母的詞例如optic, optics,optical optic, optics,optical 等等 $ $managermanager(強調語義)檢索出與該詞根具有同(強調語義)檢索出與該詞根具有同樣語意的詞如樣語意的詞如 $ $manage manage 將檢出將檢出managers, managerialmanagers, managerial 和和management management 等詞等詞 通配符不能用在檢索詞的最前

18、面通配符不能用在檢索詞的最前面4 4括號檢索(括號檢索(ParenthesesParentheses)用于改變運算的先后次序,括號內的內容做優先運用于改變運算的先后次序,括號內的內容做優先運算。算。用用“( () )”可以表示優先級。如比較可以表示優先級。如比較 (GPSGPSORORGISGIS)ANDANDChinaChina GPS GPSORORGIS ANDGIS ANDChinaChinaEI EI 中的表示方法:中的表示方法:Relevance AND( Aalbersberg WN AU)OR (cool WN AU)5 5、字段限制檢索字段限制檢索 組成數據庫的最小單位是記錄

19、,一條完整記錄中的每一個組成數據庫的最小單位是記錄,一條完整記錄中的每一個著錄事項為字段。獻書目型數據庫的記錄基本包括下列字段:著錄事項為字段。獻書目型數據庫的記錄基本包括下列字段:(1 1) 存取號字段(存取號字段(AN, Access NumberAN, Access Number)這是計算機檢索)這是計算機檢索系統為每個數據庫的每篇記錄規定的能被計算機識別的特定系統為每個數據庫的每篇記錄規定的能被計算機識別的特定號碼。在同一數據庫中,每篇文獻記錄只有一個存取號;號碼。在同一數據庫中,每篇文獻記錄只有一個存取號;(2 2) 篇(題)名字段(篇(題)名字段(Title Field, /TIT

20、itle Field, /TI)(3 3) 文摘字段(文摘字段(Abstract Field, /AB)Abstract Field, /AB)(4 4) 敘詞字段或受控詞字段(敘詞字段或受控詞字段(Destriptor Field, Destriptor Field, /DE; /DE; 或或 Controlled term Field-SU) Controlled term Field-SU) 這一字段是標這一字段是標引人員給文獻標引的反映其主題概念的詞,這些引人員給文獻標引的反映其主題概念的詞,這些詞來自規范化的詞表。也稱主題詞。詞來自規范化的詞表。也稱主題詞。 (5 5)自由詞字段或非

21、受控詞字段(自由詞字段或非受控詞字段(Identified Field, /ID; Keyword Field , / /KW ;Uncontrolled term Field) 這一字段也是標引人員給文獻標引這一字段也是標引人員給文獻標引反映其主題概念的詞,但這些詞不是規范化詞表反映其主題概念的詞,但這些詞不是規范化詞表中的詞。中的詞。(6) (6) 著者機構子段(著者機構子段(corporate source,CScorporate source,CS或或AFAF)(7) (7) 刊名字段(刊名字段(journal,JNjournal,JN或或STST)(8) (8) 出版年子段(出版年子

22、段(publication,year,PYpublication,year,PY)(9) (9) 文獻類型子段(文獻類型子段(ducument type,DTducument type,DT或或TYTY)(10) (10) 語種子段(語種子段(language,LAlanguage,LA)(11) (11) 分類號子段(分類號子段(classification,CCclassification,CC):作者檢索的縮寫形式:作者檢索的縮寫形式: :在在SCISCI中中, , 姓姓 (全稱)空格(全稱)空格 名(首字母并且名(首字母并且連寫)如:連寫)如:LI DRLI DR;GONG JYGON

23、G JY在在EI EI中中, , 姓名就比較復雜,一般有以下幾種姓名就比較復雜,一般有以下幾種情況:姓名都用全稱(姓前名后);姓全稱情況:姓名都用全稱(姓前名后);姓全稱名縮寫(或名之間用連字符);名前姓后全名縮寫(或名之間用連字符);名前姓后全稱稱機構檢索中機構檢索中 SCISCI中有多個作者單位中有多個作者單位, , 在同一在同一字段中字段中 EI EI 只收入第一作者的單位只收入第一作者的單位多字段檢索時要選所有字段多字段檢索時要選所有字段( (all field)all field)使用作者檢索時應注意姓名的書寫形式:使用作者檢索時應注意姓名的書寫形式: 在在ISTP中,姓前(全稱)中

24、,姓前(全稱) 名后(縮寫)名后(縮寫):E,DC 在在SCI中中, (1)姓)姓 (全稱)空格(全稱)空格 名(首字母并且連寫)如:名(首字母并且連寫)如:LI DR;GONG JY; (2)名前(全稱),姓后)名前(全稱),姓后 如:如:dongchen,e; e,DC 在在EI中中, 姓名就比較復雜,一般有以下幾種情況:姓姓名就比較復雜,一般有以下幾種情況:姓 名都用全稱(姓前名后);名都用全稱(姓前名后);姓全稱名縮寫(或名之間用連字符);名前姓后全稱姓全稱名縮寫(或名之間用連字符);名前姓后全稱 如如 ke hengyu=ke heng-yu=ke,hengyu ke,h.y.=ke

25、,h-y;e,d.c. hengyu ke;dongchen,e 基本索引子段和輔助索引子段基本索引子段和輔助索引子段一篇記錄中主要用來表達文獻內容的一篇記錄中主要用來表達文獻內容的子段稱為基本索引子段(子段稱為基本索引子段(basic index basic index fields),fields),如篇名子段、文摘子段、敘詞如篇名子段、文摘子段、敘詞子段、自由詞子段。子段、自由詞子段。 表達文獻外部特征的子段稱為輔助索引子表達文獻外部特征的子段稱為輔助索引子段(段(additional index fields),additional index fields),包括著者子段、著包括著者

26、子段、著者機構子段、文獻類型子段、語種子段等。者機構子段、文獻類型子段、語種子段等。6 6短語檢索(短語檢索(phrase search)phrase search)即精確檢索即精確檢索短語用短語用“”“”表示,檢索出與表示,檢索出與“”“”內形式完全內形式完全相同的的短語,以提高檢索的精確度和準確相同的的短語,以提高檢索的精確度和準確度度7 7自然語言檢索(自然語言檢索(natural language search)natural language search)直接采用自然語言中的字、詞、句進行提問式檢直接采用自然語言中的字、詞、句進行提問式檢索,同一般口語一樣。這種基于自然語言的檢索索

27、,同一般口語一樣。這種基于自然語言的檢索方式又被稱為方式又被稱為“智能檢索智能檢索”,適合不太熟悉網絡,適合不太熟悉網絡信息技術的人員使用。支持自然語言檢索的有中信息技術的人員使用。支持自然語言檢索的有中文的悠游,英文的文的悠游,英文的AltaVista, AltaVista, Excite,Infoseek,HotBot,AskJeevesExcite,Infoseek,HotBot,AskJeeves等等8 8多種語言檢索多種語言檢索multilingual search)multilingual search)提供多種語言的檢索環境供用戶選擇,提供多種語言的檢索環境供用戶選擇,系統按用戶

28、選定的語種進行檢索并反系統按用戶選定的語種進行檢索并反饋結果,支持多語種檢索的饋結果,支持多語種檢索的 如:中文如:中文天網,英文天網,英文AltaVista,GoogleAltaVista,Google等。等。9 9模糊檢索(模糊檢索(fuzzy search)fuzzy search)又稱概念檢索。當我們輸入一個檢索詞時,搜索引稱概念檢索。當我們輸入一個檢索詞時,搜索引擎不僅反饋包括了該關鍵詞的網址,同時也發來與擎不僅反饋包括了該關鍵詞的網址,同時也發來與關鍵詞意義相近的內容。比如:我們查找關鍵詞意義相近的內容。比如:我們查找“查詢查詢”一詞時,模糊檢索會反饋來包含了一詞時,模糊檢索會反饋

29、來包含了“查詢查詢”、“查查找找”“”“查一查查一查”、“尋找尋找”、“搜索搜索”等內容的網等內容的網址。反饋網址的排列,一般是完全符合關鍵詞的在址。反饋網址的排列,一般是完全符合關鍵詞的在最前邊,其次是相近的。現在大多數搜索引擎都有最前邊,其次是相近的。現在大多數搜索引擎都有這種功能,只是模糊的程度不同。這種功能,只是模糊的程度不同。10 字母大小寫檢索字母大小寫檢索如果用戶的檢索式用小寫字母表示,搜索工具既如果用戶的檢索式用小寫字母表示,搜索工具既匹配大寫又匹配小寫,如:匹配大寫又匹配小寫,如:china(瓷器),瓷器),china(中國);如果用大寫字母表示,搜索工具中國);如果用大寫字

30、母表示,搜索工具認為用戶指定了只要大寫,就只會查找那些與用認為用戶指定了只要大寫,就只會查找那些與用戶鍵入的輸入形式完全相同的結果,如:戶鍵入的輸入形式完全相同的結果,如:china,只檢索出只檢索出china。Alta Vista等搜索引擎支持區分大等搜索引擎支持區分大小寫的檢索小寫的檢索 注意注意自然語言檢索、模糊檢索、多種語言檢索自然語言檢索、模糊檢索、多種語言檢索和區分大小寫的檢索是網絡檢索所特有的和區分大小寫的檢索是網絡檢索所特有的在在實際檢索中,往往將多種檢索技術混合使實際檢索中,往往將多種檢索技術混合使用。如:查找標題中含有用。如:查找標題中含有“網絡營銷網絡營銷”的的資料,它的

31、計算機檢索提問式(表達式)資料,它的計算機檢索提問式(表達式)可以是:可以是:TI TI(Web OR WWW) AND marketWeb OR WWW) AND market* *又如:又如: (城市(城市 OR 都市都市 OR 城區)城區) AND (TI=生活污染生活污染 OR 生活垃圾生活垃圾 OR 生活污生活污水水 OR 電磁輻射污染)電磁輻射污染)CPCI中的綜合表示方法中的綜合表示方法TS=(nanotub* SAME carbon) NOT AU=Smalley RE示例示例: :有關有關“企業知識產權研究企業知識產權研究”檢索式檢索式 檢索結果檢索結果 (*表示表示AND,

32、+表示表示OR,限定篇名字段),限定篇名字段) (2004-2006)1 企業知識產權企業知識產權 191篇(準確度最高漏檢大)篇(準確度最高漏檢大)2 企業企業*知識產權知識產權 404 (漏檢率較高(漏檢率較高 ) 3 (企業(企業+集團集團+公司)公司)* 知識產權知識產權 466 (適合綜述性文獻)(適合綜述性文獻)4 (企業(企業+集團集團+公司)公司)* (知識產權(知識產權+專利權專利權 520 (查全率查準率較高)(查全率查準率較高)+商標權商標權+著作權著作權+名稱權)名稱權)5 (企業(企業+集團集團+公司)公司)* (知識產權(知識產權+專利權專利權 137 (縮小范圍效

33、果最佳)(縮小范圍效果最佳)+商標權商標權+著作權著作權+名稱權)名稱權)* 保護保護 檢索結果表明:檢索結果表明:檢索詞的選擇、邏輯算符的使用、同義詞近義詞的擴展、檢索字段的檢索詞的選擇、邏輯算符的使用、同義詞近義詞的擴展、檢索字段的選擇等變化,對檢索結果數量的多少、檢索的查全和查準有很大影響選擇等變化,對檢索結果數量的多少、檢索的查全和查準有很大影響二、數據庫的檢索方法二、數據庫的檢索方法 檢索界面瀏覽方式( Browse )檢索方式 ( Search ) 瀏覽方式瀏覽方式 ( Browse ) 一般包括作者、作者單位、出版物名稱及出版社索引或者按學科一般包括作者、作者單位、出版物名稱及出

34、版社索引或者按學科劃分的分類索引劃分的分類索引 如:如:EI Elsevier CSA PROQUEST IEEEIEE 重慶維普以及中國期刊網重慶維普以及中國期刊網等等都提供了各種不同的瀏覽方式等等都提供了各種不同的瀏覽方式檢索方式檢索方式 ( ( Search )Search ) 基本檢索基本檢索 (basicquicksimpleeasy) 屬于一般性的檢索,它是根據自己的檢索需要,輸入字、詞或簡單的屬于一般性的檢索,它是根據自己的檢索需要,輸入字、詞或簡單的檢索式(不能使用位置檢索)來完成檢索的,是一種初級性的檢索方檢索式(不能使用位置檢索)來完成檢索的,是一種初級性的檢索方式。式。

35、高級檢索高級檢索 ( (advanceexpendfullexpert)advanceexpendfullexpert) 屬于專家性的檢索,可以根據自己屬于專家性的檢索,可以根據自己的檢索需要,構件比較復雜的檢索式的檢索需要,構件比較復雜的檢索式(可以使用邏輯、括號、截詞以及位(可以使用邏輯、括號、截詞以及位置算符)來完成高層次、高質量的檢置算符)來完成高層次、高質量的檢索,檢索結果快速、準確。索,檢索結果快速、準確。高級檢索菜單式檢索和命令式檢索菜單命令三、三、 檢索效果的評價檢索效果的評價 查全率與查準率是檢索質量的兩個重要的評價指標。查全率與查準率是檢索質量的兩個重要的評價指標。 查全率

36、查全率(recall ratio)=檢出的相關文獻量檢出的相關文獻量/檢索系統中相關文獻總量檢索系統中相關文獻總量即檢出文獻中合乎需要的文獻數量占數據庫中存在的合乎該需要的所即檢出文獻中合乎需要的文獻數量占數據庫中存在的合乎該需要的所有文獻的比例。查全率高說明有用的東西都被你檢中了,但對于數量有文獻的比例。查全率高說明有用的東西都被你檢中了,但對于數量巨大的數據庫而言,要達到巨大的數據庫而言,要達到100%的查全率是不可能的,在網絡條件下的查全率是不可能的,在網絡條件下尤其如此。尤其如此。查準率查準率(precision ratio)=檢出的相關文獻量檢出的相關文獻量/檢出的文獻總檢出的文獻總

37、量。指檢出文獻中合乎需要的文獻數量占檢出文獻全部量。指檢出文獻中合乎需要的文獻數量占檢出文獻全部數量的比例。數量的比例。 準確率高說明你檢出的東西都是有用的東西。一般地說,準確率高說明你檢出的東西都是有用的東西。一般地說,很少能達到很少能達到100%的查準率。的查準率。在查全與查準兩個方面一般難以兩全,為了獲得很多有在查全與查準兩個方面一般難以兩全,為了獲得很多有用的東西(達到高的查全率),需要較少的限制檢索條用的東西(達到高的查全率),需要較少的限制檢索條件,但這樣檢出的無用的東西就會很多(查準率不高),件,但這樣檢出的無用的東西就會很多(查準率不高),反之亦然。在計算機檢索中,一般認為查準

38、率為反之亦然。在計算機檢索中,一般認為查準率為6070、查全率為、查全率為4060是較為理想的。是較為理想的。 n n為檢索系統中文獻總量,為檢索系統中文獻總量,m m為檢索輸出的文獻量,為檢索輸出的文獻量,a a為為n n中中與檢索課題有關的文獻量,與檢索課題有關的文獻量,b b為為m m中與檢索課題有關的文獻量中與檢索課題有關的文獻量( (檢準文獻量檢準文獻量) ),則,則n n、m m、a a、b b之間的關系如圖所示。之間的關系如圖所示。 圖1.4 文獻總量與檢出文獻之間的關系 文獻總量與檢出文獻之間的關系文獻總量與檢出文獻之間的關系 令令R R表示查全率、表示查全率、P P表示查準率

39、、表示查準率、M M表示漏檢率、表示漏檢率、N N表示誤檢率,則表示誤檢率,則R R、P P、M M、N N定義如下:定義如下:R=b/aR=b/a* *100100 P=b/mP=b/m* *100100 M=(1-b/a)M=(1-b/a)* *100100=100=100-R -R N=(1-b/m)N=(1-b/m)* *100100=100=100-P-P 在一個具有在一個具有10001000篇文獻的試驗性機檢系統中檢索某課題,用一特定檢篇文獻的試驗性機檢系統中檢索某課題,用一特定檢索策略查該課題時輸出文獻索策略查該課題時輸出文獻6060篇。經分析評估,發現該系統中共有該篇。經分析評

40、估,發現該系統中共有該課題相關文獻課題相關文獻5050篇,檢出的文獻中實際相關文獻只有篇,檢出的文獻中實際相關文獻只有3030篇,求查全率、篇,求查全率、查準率、誤檢率和漏檢率。查準率、誤檢率和漏檢率。 查全率查全率=30/50=30/50* *100%=60%100%=60% 查準率查準率=30/60=30/60* *100%=50%100%=50% 誤檢率誤檢率=(60-30)/60=(60-30)/60* *100%=50%100%=50% 漏檢率漏檢率=(50-30)/50=(50-30)/50* *100%=40%100%=40%四、四、 檢索策略的實施技巧檢索策略的實施技巧檢索策略

41、檢索策略:為實現檢索目標而實施的方法。:為實現檢索目標而實施的方法。 計算機信息檢索,實質上由計算機將輸入的計算機信息檢索,實質上由計算機將輸入的檢索檢索策略策略與系統中存貯的文獻特征標識及其邏輯組配關與系統中存貯的文獻特征標識及其邏輯組配關系進行類比、匹配的過程。由于系進行類比、匹配的過程。由于信息需求信息需求本身具有本身具有不確定性,加之對數據庫中的文獻特征標識不能充不確定性,加之對數據庫中的文獻特征標識不能充分了解,以及系統功能的某些限制,都會不同程度分了解,以及系統功能的某些限制,都會不同程度地影響檢索效果。但是只要遵循一定的檢索步驟,地影響檢索效果。但是只要遵循一定的檢索步驟,制定良

42、好的制定良好的檢索策略檢索策略,便可以減少各種不利因素的,便可以減少各種不利因素的影響,盡可能地使檢索提問標識與信息需求和檢索影響,盡可能地使檢索提問標識與信息需求和檢索系統保持良好的一致性,從而在系統中檢索出滿足系統保持良好的一致性,從而在系統中檢索出滿足用戶需求的信息。用戶需求的信息。 信息需求信息需求是人們客觀上或主觀上對各種情報信息的是人們客觀上或主觀上對各種情報信息的一種需求。這種需求是人們索取情報信息的出發點,一種需求。這種需求是人們索取情報信息的出發點,也是計算機信息檢索時選擇數據庫、確定檢索策略也是計算機信息檢索時選擇數據庫、確定檢索策略以及評價檢索效果的依據。以及評價檢索效果

43、的依據。不同類型的課題,其信息需求的范圍和程度也不盡不同類型的課題,其信息需求的范圍和程度也不盡相同。例如,申請發明、申報成果獎勵、鑒定及立相同。例如,申請發明、申報成果獎勵、鑒定及立項類的查新課題,往往需要全面地收集某一主題范項類的查新課題,往往需要全面地收集某一主題范圍的文獻信息,這類課題具有普查、追溯的特點,圍的文獻信息,這類課題具有普查、追溯的特點,應著眼于應著眼于查全查全;而對于科研、生產中為解決某一特;而對于科研、生產中為解決某一特定問題的攻關課題,往往只要求檢出的信息對自己定問題的攻關課題,往往只要求檢出的信息對自己的研究有所幫助,而對查找的文獻范圍不需要很廣。的研究有所幫助,而

44、對查找的文獻范圍不需要很廣。因此,這類課題則要求因此,這類課題則要求查準查準。 檢索策略制定的原則檢索策略制定的原則: (1)快,即從檢索請求的提出到檢索結果的提交要快速:快,即從檢索請求的提出到檢索結果的提交要快速: (2 2)準,即檢索結果要準確,避免檢索出過多無關內容;)準,即檢索結果要準確,避免檢索出過多無關內容; (3 3)全,檢索結果全面,滿足用戶的需求;)全,檢索結果全面,滿足用戶的需求; (4 4)效益原則,即以最低的費用獲取所佳的信息。)效益原則,即以最低的費用獲取所佳的信息。五、五、 計算機信息檢索的具體步驟計算機信息檢索的具體步驟 1 1 分析檢索課題,制定切實可行的檢索

45、策略分析檢索課題,制定切實可行的檢索策略 ( (這是檢索的出發點,依據這是檢索的出發點,依據) )2 2 利用檢索系統特定的指令正確實施檢索利用檢索系統特定的指令正確實施檢索3 3 通過人通過人- -機對話的方式不斷調整、修改、機對話的方式不斷調整、修改、檢索策略檢索策略4 4 根據查找的文獻線索獲取原始文獻根據查找的文獻線索獲取原始文獻(實例分析與說明實例分析與說明 課題一課題一 GISGIS技術的可視化研究技術的可視化研究課題分析:課題分析: 二十一世紀是一個信息大爆炸的時代,隨著二十一世紀是一個信息大爆炸的時代,隨著“信息論信息論”,“控制論控制論”及及“認知論認知論”等理論的產等理論的

46、產生,作為一門古老的學科的地圖學也在這些新興理生,作為一門古老的學科的地圖學也在這些新興理論的指導下,在這個信息時代產生了新的發展點,論的指導下,在這個信息時代產生了新的發展點,“數字地球數字地球”的提出為地圖科學提出了更新更高的的提出為地圖科學提出了更新更高的要求,要求,GIS作為處理地理信息的一種技術,應運而作為處理地理信息的一種技術,應運而生。生。 GIS GIS是一種采集,加工,分析,訪問及是一種采集,加工,分析,訪問及表達空間數據的信息系統。作為數據本身表達空間數據的信息系統。作為數據本身是抽象的,不易直觀接受的信息,因此研是抽象的,不易直觀接受的信息,因此研究如何對數據進行加工和究

47、如何對數據進行加工和可視化可視化表達,對表達,對于用戶來說是十分必要的。于用戶來說是十分必要的。目前的目前的GISGIS可視化的研究正方興未艾,對可視化的研究正方興未艾,對DEMDEM,DTMDTM和和DLGDLG等數據模型特別是等數據模型特別是DEMDEM的研究進展飛速,而的研究進展飛速,而三三維維可視化的表達方式又成為其中最熱門的方向,通可視化的表達方式又成為其中最熱門的方向,通過過DEMDEM生成的等高線,地貌暈渲土,三維透視景象,生成的等高線,地貌暈渲土,三維透視景象,三維地形漫游及交互式三維可視系統在地圖學界開三維地形漫游及交互式三維可視系統在地圖學界開始發揮其強大的效用,并將在始發

48、揮其強大的效用,并將在GISGIS技術中占有三分天。技術中占有三分天。 數字高程模型數字高程模型( (DEM)DEM)作為數字地形模擬的重作為數字地形模擬的重要成果已經成為國家空間數據基礎設施要成果已經成為國家空間數據基礎設施( (NSDI)NSDI)的基本內容之一,其相關學科有數據庫,軟件的基本內容之一,其相關學科有數據庫,軟件工程,遙感與航測等。在不久的將來,隨著工程,遙感與航測等。在不久的將來,隨著虛虛擬現實擬現實技術與技術與GISGIS的融合,必然為地理信息學科的融合,必然為地理信息學科帶來翻天覆地的變化。帶來翻天覆地的變化。檢索關鍵詞與表達式中文關鍵詞:地理信息系統或GIS(上位)數

49、字高程模型,可視化,三維,虛擬現實(下位)基本表達式:關鍵詞=(地理信息系統OR GIS)AND (可視化)AND (三維 OR 虛擬現實)英文Topic Words:GIS or Geography Information System3D,DEM,VR,visualizationBoolean Expression:kw= GIS AND visualization AND (3D OR DEM)城市生活污染研究城市生活污染研究 關鍵詞:城市(都市、城區)關鍵詞:城市(都市、城區) 生活污染(生活污水、生活垃圾、電磁輻射污染等)生活污染(生活污水、生活垃圾、電磁輻射污染等) 檢索式檢索式(

50、城市城市 or 都市都市 or 城區)城區)and(生活污染(生活污染 or 生活污水生活污水 or 生活垃生活垃圾圾 or 電磁輻射污染)電磁輻射污染)了解有關國內近十年來室內裝修污染方面的研究了解有關國內近十年來室內裝修污染方面的研究 關鍵詞:室內、裝修、污染關鍵詞:室內、裝修、污染 同義詞或近義詞:同義詞或近義詞: 室內(住宅、居室、房屋)室內(住宅、居室、房屋) 污染(放射性、化學、氡氣、甲醛、苯等)污染(放射性、化學、氡氣、甲醛、苯等) 確定學科范疇等輔助信息:環境科學。中文庫為主,十年期限。確定學科范疇等輔助信息:環境科學。中文庫為主,十年期限。 以室內環境污染檢測,危害和處理等方面研究為主以室內環境污染檢測,危害和處理等方面研究為主 選擇專業數據庫選擇專業數據庫 和各類型綜合數據庫為主,以和各類型綜合數據庫為主,以google等網絡資源為輔等網絡資源為輔 計算機檢索邏輯表達式舉例計算機檢索邏輯表達式舉例:例例1 1:GPSGPS在建筑事業中的應用在建筑事業中的應用 主題詞主題詞:A A:全球定位系統;:全球定位系統;B B:建筑測量;組:建筑測量;組配詞:配詞: C C:應用:應用 表達式表達式:A AND B AND CA AND B AND C例例2 2:加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論