文件檢索與利用:2-計算機醫(yī)學信息檢索基礎_第1頁
文件檢索與利用:2-計算機醫(yī)學信息檢索基礎_第2頁
文件檢索與利用:2-計算機醫(yī)學信息檢索基礎_第3頁
文件檢索與利用:2-計算機醫(yī)學信息檢索基礎_第4頁
文件檢索與利用:2-計算機醫(yī)學信息檢索基礎_第5頁
已閱讀5頁,還剩124頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章

計算機醫(yī)學信息檢索基礎本章主要內容§2.1數據庫的類型和結構§2.2計算機醫(yī)學檢索的途徑與步驟§2.3編寫檢索式與調整檢索策略§2.4網絡信息檢索2§2.1數據庫的類型和結構數據庫的定義計算機把大量相關的數據項有機地集中起來存放在數據文件中,構成一個存放數據的整體,即數據庫。3一、數據庫類型(按內容分型)(一)書目數據庫(BibliographicDatabases):存儲文摘、題錄、目錄等書目數據的一類數據庫,又稱為二次文獻數據庫。(二)數值數據庫(FactDatabases):為用戶提供能夠直接使用的數值類信息,無需再追查原文。(三)事實數據庫(NumericDatabases)

:存儲描述人物、機構、事物的等非文獻信息源的數據庫。4(四)全文數據庫(FullTextDatabases)

:存儲文獻全文或節(jié)選其中主要部分的數據庫。可以直接獲取原始資料。(五)圖像數據庫(ImageDatabases):以圖像為信息主體,配有文字解釋。56字段1字段2字段3記錄1記錄2記錄3文檔1文檔2文檔3數據庫二、數據庫結構

若干個記錄構成的信息集合稱為文檔。大型的數據庫分割成若干文檔。組成記錄的數據項目,描述實體的某一屬性記錄是構成數據庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內部特征。7順序文檔(Sequentialfile)以文獻記錄作為信息存儲單元,按文獻記錄入藏的存取號從小到大順序排列而形成的目錄式文檔,由于它存儲有關于每篇文獻的最完整信息,所以通常又把它稱為主文檔(MasterFile),相當于印刷型檢索工具的正文部分。倒排文檔(Invertedfile)就是把記錄中一切可檢字段或屬性值抽出,按某種順序重新加以組織后所得到的一種文檔.倒排檔從主文檔中派生出來,所以,又叫做輔助文檔.8001專家系統(tǒng)在情報檢索中的應用

(標引詞:專家系統(tǒng);智能檢索系統(tǒng))002一種新的倒排檔溢出處理算法

(標引詞:倒排檔;溢出處理)003情報檢索專家系統(tǒng)的特點與發(fā)展

(標引詞:專家系統(tǒng);智能檢索系統(tǒng))004提問式中的位置算符

(標引詞:提問邏輯式;位置算符)005提問式準波蘭變換算法的研究

(標引詞:提問邏輯式;準波蘭變換)006智能檢索系統(tǒng)的設計與開發(fā)

(標引詞:智能檢索系統(tǒng))9001專家系統(tǒng)在情報檢索中的應用#002一種新的倒排檔溢出處理算法#003情報檢索專家系統(tǒng)的特點與發(fā)展#004提問式中的位置算符#005提問式準波蘭變換算法的研究#006智能檢索系統(tǒng)的設計與開發(fā)#倒排檔002提問邏輯式004,005位置算符004溢出處理002智能檢索系統(tǒng)001,003,006專家系統(tǒng)001,003準波蘭變換005

主文檔倒排檔倒排文檔的存儲結構,直接決定了搜索引擎系統(tǒng)的檢索速度§2.2計算機醫(yī)學檢索的途徑與工具

信息檢索的原理是將描述特定用戶所需信息的提問特征,與信息存儲的檢索表示進行一同的比較,從中找出與提問特征一致或基本一致的信息。1112文獻的情報內容主題概念檢索者的情報需要信息檢索語言

標識檢索系統(tǒng)檢索結果主題分析主題分析標引標引輸入檢索輸出情報存貯情報檢索主題概念

標識存儲過程檢索過程標引是在文獻內容分析的基礎上,按學科屬性或主題概念用合適的檢索語言(分類符號或規(guī)范化的科學名詞、詞組)對文獻進行描述,形成反映文獻內容特征和外表特征的各種標識,按照一定的規(guī)則編排成嚴格有序的排檢序列,輸入文獻檢索系統(tǒng)。一、檢索途徑(一)常規(guī)劃分為10種途徑1.自由詞檢索自由詞:來自于文獻的標題、文摘或正文,是一種沒有規(guī)范化的自然語言。

如:醫(yī)學詞匯的簡稱(乙肝、惡性瘧、心衰),生活常用語(打擺子、拉肚子)。特點:沒有嚴格的語法規(guī)范,個人使用的愛好不同自由詞選擇不同(乙肝、乙型肝炎,病毒性乙型肝炎、HB等)缺點:要查出所有的有關乙肝的文獻,需要把各種可能的用詞都列出來分別查詢。142.主題詞檢索

主題詞:是以自然語言為基礎,以概念組配為基本原理,并經過規(guī)范化處理,表達主題的最小概念單元,作為信息存儲和檢索依據的一種檢索語言。特點:a.詞義、詞類、詞形規(guī)范保證詞語與概念的唯一對應關系,具有直觀性、專指性;15b.采用參照系統(tǒng)顯示詞語之間的相關關系用代參照:用——see代——X?如:腦溢血用腦血管意外腦血管意外代腦溢血CancerseeNeoplasmsNeoplasmsXCancer指引檢索者將非正式主題詞用正式主題詞。通過用代參照處理,從若干同義關系的詞或詞組中,選定一個科學而通用的名稱作為主題詞,供檢索文獻用。

相關參照:參——seerelated被參——XR如:檢索Alopecia(脫發(fā))這一概念時,要把它的相關參照AlopeciaMucinosa(斑禿)、Baidness(脫發(fā))、HairDiseases(毛發(fā)疾病)Hypotrichosis(毛發(fā)稀少)等4個相關參照詞下的內容看清楚。目的是指引檢索者從一個主題詞去參考有關的其他主題詞,以擴大選詞范圍,達到查全的目的。。

17c.采用主題詞分類索引(范疇表或樹狀結構)顯示詞語之間的等級(從屬)關系,增強了族性檢索能力。

為了使主題詞具有系統(tǒng)性,MESH引入范疇表(CategoriesandSubcategories)的概念。范疇表又稱樹形結構(TreeStructure),是將字順表中的主題詞(主要敘詞)、次要敘詞按其學科性質、詞義范圍的上下類屬及派生關系,分別劃為15大類。在15個類目中,有9類又分若干子類目,子類目下面又分若干更小的類目,這就是通常供檢索使用的主題詞,共一萬六千多個,都按其醫(yī)學概念的性質分別列入各自所屬的類目之下。18GASTROINTESTINALNEOPLASMS胃腸道腫瘤

INTESTIINALNEOPLASMS腸腫瘤

CECALNEOPLASMS盲腸腫瘤APPENDICEALNEOPLASMS闌尾腫瘤

COLONICNEOPLASMS結腸腫瘤

COLONICPOLYPS結腸息肉

......

......

DUODENALNEOPLASMS十二指腸腫瘤

ILEALNEOPLASMS回腸腫瘤

......

......

如:MetebolicDiseases(代謝疾病)Achlorhydria(胃酸缺乏)Acidosis(酸中毒)Acidosis,Lactic(乳酸中毒)19在這段樹狀結構表中,腸腫瘤是胃腸道腫瘤的下位詞,盲腸腫瘤、闌尾腫瘤、結腸腫瘤、十二指腸腫瘤、回腸腫瘤是腸腫瘤的下位詞,以此類推

d.組成主題詞表:如<MedicalSubjectHeadings>簡稱(MeSH)

《醫(yī)學主題詞表》(MedicalSubjectHeadings,簡稱MeSH),是美國國立醫(yī)學圖書館編制的權威性主題詞表。它是一部規(guī)范化的可擴充的動態(tài)性敘詞表。美國國立醫(yī)學圖書館以它作為生物醫(yī)學標引的依據,編制《醫(yī)學索引》(IndexMedicus)及建立計算機文獻聯機檢索系統(tǒng)MEDLINE數據庫。《MeSH》匯集約18,000多個醫(yī)學主題詞。

《漢語主題詞表》CMeSH20e.具有組配(組合)功能:概念相交組配:

胃潰瘍+消化性潰瘍出血出血性胃潰瘍

概念限定組配:

卡托普利/治療應用概念并列組配:

胃潰瘍+十二脂腸潰瘍消化道潰瘍

21檢索舉例:冠心病的治療自由詞22冠心病冠狀動脈疾病冠狀動脈粥樣硬化性心臟病冠狀動脈心臟病冠狀動脈疾病主題詞文獻治療治療3.分類檢索根據文獻內容在學科分類體系中的位置作為文獻信息的檢索途徑,它的檢索標識是分類號,是一種族性檢索。我國按《中國圖書資料分類法》進行分類。如,R醫(yī)藥衛(wèi)生、R28中藥學、R5內科學、R9藥學國外有《國際十進分類法,UDC》;

《杜威法,DDC》。2324《中國圖書資料分類法》將人類全部知識分為五大部類(馬列主義、毛澤東思想;哲學;社會科學;自然科學;綜合性圖書),其中社會科學部類分為9個基本大類,自然科學部類分為10個基本大類。自然科學部類的10個基本大類的序列如右圖:N自然科學總論O數理科學和化學P天文學、地球科學Q生物科學R醫(yī)藥、衛(wèi)生S農業(yè)科學T工業(yè)技術U交通運輸V航空、航天X環(huán)境科學、安全科學Z綜合性圖書R1預防醫(yī)學、衛(wèi)生學

2中國醫(yī)學3基礎醫(yī)學4臨床醫(yī)學5內科學6外科學71婦產科學72兒科學73腫瘤學R74神經病學與精神病學75皮膚病學與性病學76耳鼻咽喉科學77眼科學78口腔科學79外國民族醫(yī)學8特種醫(yī)學

9藥學R醫(yī)藥、衛(wèi)生2627學科分類(正文部分)

是依分類目次的類目次序編排的題錄部分,是檢索工具的主題。4.著者檢索用文獻的著者、編者、譯者的姓名或機構團體名稱編制而成的索引按著者姓名字順編排書寫格式姓前(全稱)、名后(縮寫,即用首字母)如:WillianHenryHarrison

→HarrisonWHRenShuMin→RenSM285.引文檢索是以被引用文獻為檢索起點來查找引用文獻的過程。6.機構檢索以機構名稱為檢索詞,來查該機構學者發(fā)表的文獻。7.刊名檢索檢索制定刊物上發(fā)表的文獻,可用刊名全稱或縮寫。298.默認檢索

又稱缺省檢索、隱含檢索,是指在檢索系統(tǒng)預先設定的多個字段中進行檢索。9.限定檢索

常用的有語種(LA)、文獻類型(PT)、出版日期(PD)、僅要含全文的記錄(fulltextonly)等。10.其他檢索途徑專利號檢索、化學物質登記號檢索、分子式檢索30(二)計算機檢索途徑的另一種劃分:1.

分類瀏覽2.

簡單檢索3.

高級檢索4.

專家檢索34(一)主要中文檢索工具

(二)主要英文檢索工具二、主要檢索工具一、題錄《全國報刊索引》(科技版)、上海圖書館編輯出版,月刊。《中文科技資料目錄》醫(yī)藥衛(wèi)生,中國醫(yī)學科學院醫(yī)學信息研究所編,月刊。《國外科技資料目錄》醫(yī)學衛(wèi)生,中國醫(yī)學科學院醫(yī)學情報研究所編,月刊。(一)主要中文檢索工具二、文摘《中國生物學文摘》,中國科學院《國外醫(yī)學》護理學,吉林省醫(yī)學情報所。《中國醫(yī)學文摘》護理學,武漢醫(yī)科所。《中國藥學文摘》,《中國藥學文摘》編輯部《中國現代醫(yī)學文獻摘編》,浙大《中藥研究文獻摘要》,劉壽山主編(一)主要中文檢索工具三、目錄全國總書目,年刊,國家版本圖書館編輯出版。全國新書目,月刊,國家版本圖書館編輯出版。科技新書目,半月刊,新華書店總店編輯出版。(一)主要中文檢索工具1.BiologicalAbstract,BA美國生物科學情報社(BIOSIS:BiosciencesInformationService)編輯。特點:歷史長,范圍廣(收錄20多種文字的9000余種期刊的論文)。90%以上的引用具有文摘。文摘質量高,由專家或作者本人寫。時差短,3-5個月。有光盤,能計算機檢索。(二)主要英文檢索工具2.ChemicalAbstracts,CA美國化學會化學文摘社(ChemicalAbstractsService,簡稱CAS)編輯。收錄14,000多種期刊。年報道文獻量30余萬篇,除化學外、生物學、生物化學、生理學、營養(yǎng)學、微生物學和藥物學方面的文獻相當豐富。3.ExcerptaMedica,EM阿姆斯特丹的醫(yī)學文摘基金會編輯;英文出版的大型醫(yī)學文摘,共42個分冊;收錄5400種期刊;年報道量25萬篇左右,80%以上有英文摘要,內容涉及醫(yī)學的各個方面。4.IndexMedicus,IM由美國國立醫(yī)學圖書館編輯出版;收錄四十多種語種的三千多種生物醫(yī)學期刊;報道速度快,涉及美國的期刊時差僅一個月,一般時差3-6個月;編制簡單,查找方便,IM主體部分和輔助索引著者索引按字順排,而且還有累積索引。5.CurrentContents/LifeScience,CC/LifeScience美國科學情報研究所編輯,周刊。收錄一千多種生命科學期刊,最新出版的有關生命科學的圖書目次。該刊的特點是出版快、報道及時、信息量大。6.ScienceCitaionIndex,SCI美國科學情報所(InstituteofScientificInformation,ISI)編輯。SCI、工程索引EI、科學技術會議錄索引ISTP是三大有重要影響的檢索系統(tǒng)。SCI收錄的期刊有四千多種,以英美期刊為主。影響因子ImpactfactorIF:?

某刊兩年內發(fā)表論文被引用的總次數,除以文章總數。即時指數(ImmediacyIndex):某刊當年發(fā)表論文被引用的總次數除以文章總數。

1997年SCI收錄4964種期刊,中國28種(包括臺灣8種),其中影響因子最高的是中國科學B輯(0.513)檢索式是檢索策略的邏輯表達式,也稱檢索提問式。是指計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符以及系統(tǒng)規(guī)定的其他組配連接符號組成46§2.3編寫檢索式與調整檢索策略一、運算符二、檢索式編寫三、對文獻查新的建議

一、運算符又稱邏輯算符,是表達檢索詞之間邏輯關系和限制關系的運算符號,是復合檢索式不可缺少的構件。47(一)布爾算符

1.“and”稱為邏輯“與”,文字表示為“and”,符號表示為“*”。檢索詞A與檢索詞B用and組配,提問式可寫為:

AandB或者A*B表示:檢索結果中每條記錄必須同時含有A和B檢索詞,增強檢索的專指性,縮小檢索范圍,提高了查全率。48舉例:邏輯運算AND49insulin(胰島素)anddiabetes(糖尿病)。表示檢索結果中每條記錄必須同時含有A和B檢索詞,增強檢索的專指性,縮小檢索范圍,提高了查準率。如:查找“胰島素治療糖尿病”的檢索式為

2.“or”

稱為邏輯“或”,文字表示為“or”,用符號表示為“+”。檢索詞A與B用or組配,提問式可寫為:

AorB或者A+B

表示包含檢索詞A的文獻或包含檢索詞B的文獻或同時包含檢索詞A和檢索詞B的文獻均為命中文獻,邏輯“或”擴大了檢索范圍,提高查全率。52舉例:邏輯運算OR53問:查找“腫瘤”的檢索式為?cancer(癌)

ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。3.“not”

稱為邏輯“非”,用文字表示為“not”,用符號表示為“-”。

檢索詞A與檢索詞B用not組配,提問式可寫為:

AnotB或者A–B

表示檢索結果中每條記錄必須包含檢索詞A,但不包含檢索詞B。排除了不希望出現的檢索詞,縮小了檢索范圍,提高查準率。56舉例:邏輯運算NOT57(二)位置算符

near

with位置算符:表示所連接的各個檢索詞之間位置關系的符號,在不同的系統(tǒng)中往往以不同的符號表示。常用的位置算符有near、with等。near算符

表示此算符兩側的檢索詞的距離最近。

Anear(n)B表示命中記錄中左右兩個檢索詞出現在同一句子中。相對于“with”更接近。此外,在使用“near”運算符時,還可以在該運算符后添加一個數字以便進一步限定兩個詞之間的鄰近程度,如“near3”設定需檢索的兩個詞或詞組在同一句子中且相隔不超過3個單詞。

60with算符表示此算符兩側的檢索詞在命中記錄中必須出現在同一字段中。Awith(n)B表示同時出現于篇名或文摘中,但前后位置可以顛倒。以上運算符的優(yōu)先次序是?and,or,not,near,withNOT>NEAR>WITH>AND>OR

如果有(),則先運行()61(三)字段限制符“in”、“=”

檢索系統(tǒng)中,縮小或約束檢索結果的方法成為限制檢索。常用的有特定字段的限制檢索,限制符為“in”和“=”。例如:“in”對某一指定數據項進行檢索如:hepatitisinTI(表示只在題目字段中查找文獻)riceinde(只在主題詞中查找)

riceinab(只在文摘中查找)62(三)字段限制符“in”、“=”“=”用于限定性字段的檢索

au=Smith,J.C

(查作者為Smith,J.C的文章)py=1998

(只查1998年的文章)la=Chinese

(只查語種為中文的文獻)限制符還有其他形式:

py<2000

表示檢索2000年前發(fā)表的文獻記錄。63(四)截詞算符

截詞算符用符號取代檢索詞中的部分字母,從而檢出同類詞所代表的文獻。

根據被截部分,可分為“后截斷”、“前截斷”和“中間截斷”三種形式,

截詞符號有“*”、“?”、“#”等。

不同數據庫檢索系統(tǒng)采用的符號并不完全一樣。

641.后截斷,將截詞符號放在一個字符串的右方,以表示其右的有限或無限個字符不影響該字符串的檢索。可分為有限截斷和無限截斷。(1)無限截斷,在詞干后加“*”,即允許詞干后可添加多個字符。如:immun*

得到immune,immunity,immunization,immunology

65(2)有限截斷,在詞干后加“?”,即允許詞干后最多可添加一個字符,也可以在檢索詞后面加上一個以上(最多4個)的“?”,空一格,再加一個“?”。如:“part?”

可檢出part、parts。如:信息?

則表示在數據庫中含有信息、信息技術、信息檢索等方面的文獻記錄均為命中文獻。如:

Comput????

Computer,Computers,Computing使用最為廣泛,涉及到詞的單復數、作者、年代、同根詞等方面的檢索時,選用后截斷技術。662.前截斷,將截詞符號放在一個字符串的左方,以表示其左的有限或無限個字符不影響該字符串的檢索。如:*sighted可查到farsighted與nearsighted。如:?經濟則數據庫中含有經濟、工業(yè)經濟、農業(yè)經濟等方面的文獻均為命中文獻。如:“*mycin”,

可檢出Garamycin(慶大霉素),Karamycin(卡那霉素)等。

前截斷只檢索后綴相同的一類詞,常用于檢索化學化工文獻與復合詞較多的文獻。673、中間截詞如:“Wom?n”,可檢出Woman和Women。“Colo?r”可檢出Colour和Color68

截詞檢索在不同的計算機檢索系統(tǒng)中規(guī)定不同,請使用時注意。4.中間一致(支持的檢索系統(tǒng)較少)詞頭詞尾都可變化如:?

?wave?

可檢出wave、waves、microwave

注意:由于文字結構方面的原因,中文檢索系統(tǒng)極少使用截詞檢索和位置算符檢索。但在中文檢索系統(tǒng)中為了擴大檢索范圍,有時也用截詞檢索,如:為了查找張姓作者,可用張*(五)完全匹配引號:表示要完全匹配如:使用引號:“肝癌病人的護理”

70不使用引號使用引號使用引號和?或*網頁最好保存為Web檔案.mht格式MHT是MIMEHTML的縮寫,是一種用來保存HTML文件的格式,與HTML不同,它可以將HTML頁面以及頁面中連接的圖片文件保存到一個單一的文件中,非常便于使用和保存。7576777879二、檢索式編寫檢索式的定義概括地說,檢索式是檢索策略的邏輯表達式,是指計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符以及系統(tǒng)規(guī)定的其他組配連接符號組成。801、檢索策略

計算機檢索,實際上是由計算機將用戶輸入的檢索策略與系統(tǒng)中存儲的文獻特征標識及邏輯組配關系進行類比、匹配,并把完全匹配的文獻輸出的過程。檢索策略是科學地運用檢索詞和邏輯運算符正確地構造邏輯提問式的原則和方法。其核心內容在于檢索策略的構造與檢索的步驟。2023/10/581醫(yī)學檢索步驟(1)分析檢索課題,明確檢索要求

用戶的檢索需求大致分為3類:新:及時獲得最新的內容,對查全沒有過高要求。準:要解決研究中的具體問題,要求檢出的文獻有針對性,對查準要求較高。全:要全面了解某一特定領域的發(fā)生、發(fā)展和現狀,是一種回溯性檢索,對查全有較高要求。(2)選擇數據庫和檢索途徑根據課題的學科專業(yè)范圍、主題內容,選擇合適的數據庫,確定檢索途徑。(3)確定檢索標識,構筑檢索提問式根據數據庫的詞表,把主題內容轉換成檢索系統(tǒng)采用的檢索標識和檢索詞,并準備若干自由詞。(4)編寫檢索式表達課題的檢索要求,然后輸入計算機檢索(5)瀏覽檢索結果,獲取全文83檢索步驟圖示:84分析課題,明確檢索需求選擇數據庫和檢索途徑確定檢索標識,構筑檢索提問式輸入計算機瀏覽檢索結果選出滿意的結果獲取全文查找有關腫瘤引起的貧血的非英文文獻首先確定檢索詞:

neoplasms/complications(并發(fā)癥)anemia/etiology(病因學)English#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(LA=English)#420(#1and#2)not#385例如,對“微藻生長因子”這一課題來說,檢索策略可編為:(海藻+藻類+微藻)*生長()因子??

(algae+algal+microalgal)*growth()factor??實檢后調整(考慮提高檢準率)、優(yōu)化(低頻詞和關鍵詞前置)為:(microalgal+algae+algal)(s)growth()factor??

(microalgal+algae+algal)(3n)growth()factor??2023/10/586s:select

n:Requestthatsearchtermsbeadjacent,butinanyorder又如,對“圖象理解專家系統(tǒng)”這一課題,檢索策略可編制為:

IMAGE()UNDERSTAND???*(EXPERT()SYSTEM??+ARTIFICIAL()INTELLIGEN??2023/10/587A、擴大檢索范圍2、檢索技巧和方法*概念的擴大。*范圍的擴大。*增加同義詞、近義詞、相關詞和縮略詞。*用“or”、”?”、敘詞表*年代的擴大。*去掉連字符可擴大檢索范圍。*換另外的數據庫或是另外的光盤繼續(xù)進行檢索。B、縮小檢索范圍的方法*核心概念的限定。*核心期刊的限定。*語種的限定。*用布爾邏輯算符“and”或者“not”組配檢索詞。*使用位置算符“near”和字段算符“in”提高查準率。*使用“Index”和敘詞表,選擇確切的檢索詞縮小檢索范圍2023/10/5883.描述檢索效果的參數主要有:查全率(recallfactor)、查準率(也稱適中率,Pertinencyfactor)、漏檢率(omissionfactor)、誤檢率(也叫檢索噪音,noisefactor)以及新穎率、檢索速度等。2023/10/5892023/10/590

文獻總量與檢出文獻之間的關系則n、m、a、b之間的關系如圖所示。nbma漏檢誤檢設n為檢索系統(tǒng)中文獻總量,m為檢索輸出的文獻量,a為n中與檢索課題有關的文獻量,b為m中與檢索課題有關的文獻量(檢準文獻量),令R表示查全率、P表示查準率、M表示漏檢率、N表示誤檢率,則R、P、M、N定義如下:

R=b/a*100%

P=b/m*100%

M=(1-b/a)*100%=100%-R

N=(1-b/m)*100%=100%-P

最理想的檢索效果是M、N均為0,即R、P均為100%,但實際上這是不可能的。2023/10/5912023/10/592

檢索特性曲線

實驗表明:R和P之間存在相反的相互依賴關系,即提高R會降低P,反之亦然,如圖檢索特性曲線所示。R--查全率、P--查準率

調整檢索策略提高查全率和查準率

提高查全率的方法:降低檢索詞的專指度,選出一些上位詞和相關詞補充到檢索式中。調節(jié)檢索式的網羅度,減少邏輯“與”的組配面。進行族性檢索,可采用分類檢索,或用一組同義詞、近義詞和相關詞,用“或”連接在檢索式中。采用截詞技術,取消某些限制過嚴的限制符。93

提高查準率的方法:提高檢索詞的專指度,換用專指度較強的規(guī)范詞或自由詞。增加“與”連接,進一步限定主題概念。限定檢索詞所在的可檢字段,用位置算符控制檢索詞的詞間順序與位置。限制輸出文獻的外部特征,如限制年限、語種、文獻類型等。用邏輯“非”限制與提問不相關的文獻的輸出。用主題詞檢索,不用或少用自由詞檢索。94有人認為:在物理、技術科學信息檢索范圍內,P提高1%將導致R降低3%。實踐經驗證明:在現代科技信息檢索系統(tǒng)中,R為60-70%,P為40-50%。檢索特性曲線還與文獻專業(yè)特點有關,例如在具體概念為主、對象描寫明確的化學等專業(yè)中,產生誤檢較少,特性曲線向右移(說明查的較準);而在抽象概念多的心理學等領域中,特性曲線則向左移(說明查全率較高,漏檢率小)。此外特性曲線還與對查出的文獻適用性的評價有關,若評價標準嚴格,則曲線編左;反之,曲線偏右。2023/10/595R--查全率、P--查準率對于檢索來說,漏檢是影響檢索質量的最主要因素,故必須將M降低到最低限度;誤檢會降低檢索的效率,也會影響檢索質量。因此,任何檢索工具和檢索系統(tǒng)必須力爭克服漏檢(必要條件),同時盡量避免誤檢(充分條件)。至于新穎率和檢索速度,則可定義如下:2023/10/596

能檢出的最近單位時間內發(fā)表的文獻量新穎率

=×100%

最近單位時間內發(fā)表的文獻總量檢索輸出的文獻量(m)檢索速度=檢索所用時間(t)4.機檢與手檢的異同項目手檢機檢總體特征手翻、眼看、大腦判斷策略、查尋、機器匹配標引及索引特點檢索點較少檢索點較多檢索時間較慢較快檢索要求專業(yè)知識、外語知識、檢索工具知識專業(yè)知識、外語知識、機檢系統(tǒng)知識查全查準率查準率較高查全率較高綜合效率較低較高2023/10/597三、對文獻查新的建議:(1)用Medline檢索改為用PubMed檢索;(2)檢索PubMed與CBMdisc數據庫時,除了用主題詞檢索外,用自由詞檢索進行補充,因為一部分最新入庫的文獻尚未進行主題詞標引;(3)借用Update字段限定檢索最近入庫的文獻;(4)顯示檢索結果時將最新文獻排序在前;(5)進行引文檢索;(6)檢索和收集最新召開的學術會議論文。98§2.4網絡信息檢索獲取網絡信息資源的主要工具1.電子郵件2.FTP3.Archie(網絡文件搜索系統(tǒng),在Internet中尋找文件常常猶如"大海撈針"。Archie能夠幫助你從Internet分布在世界各地計算機上浩如煙海的文件中找到所需文件,或者至少對你提供這種文件的信息。基于WWW的搜索引擎已逐步取代了它的功能)4.Telnet(Telnet協(xié)議是TCP/IP協(xié)議族中的一員,是Internet遠程登陸服務的標準協(xié)議和主要方式。它的基本功能是,允許用戶登錄進入遠程主機系統(tǒng)。Telnet的應用不僅方便了我們進行遠程登錄,也給黑客們提供了又一種入侵手段和后門。)99§2.4網絡信息檢索獲取網絡信息資源的主要工具5.Gopher

(Gopher是Internet上一個非常有名的信息查找系統(tǒng),它將Internet上的文件組織成某種索引,很方便地將用戶從Internet的一處帶到另一處。在WWW出現之前,Gopher是Internet上最主要的信息檢索工具,Gopher站點也是最主要的站點。)6.Us

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論