計算機檢索第二章網絡信息資源檢索與利用_第1頁
計算機檢索第二章網絡信息資源檢索與利用_第2頁
計算機檢索第二章網絡信息資源檢索與利用_第3頁
計算機檢索第二章網絡信息資源檢索與利用_第4頁
計算機檢索第二章網絡信息資源檢索與利用_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章網絡信息資源檢索與利用

第一節網絡信息資源檢索的概念和發展歷程

第二節網絡信息資源檢索的基本技術

第三節網絡信息資源檢索策略的制定及調整

第一節網絡信息資源檢索的概念和發展歷程

網絡信息資源檢索:是利用計算機通過網絡來查找、

利用各種信息資源。

包括圖書館的公共書目(OPAC-Online

PublicAccessCatalogue)、各種聯機數據庫、

Internet上的信息資源等。

信息的特征

■一篇文章、一本書、一份報告等一般都有以下特征:

■外表特征:題目、作者、作者工作單位,專利和科技報告

還有專利號或報告號等,這些可以表征一篇特定文獻的特

征可以在文獻的封面或扉頁,即不打開書本,或不看文獻

的具體內容就可以確定一篇文獻。

■內部特征:假如我們深入到文獻內容中間,則可以發現還

可用另外兩種方法來表征它:

a.一般,一篇文獻都是論及某一方面的特定問題的,也就是

說,與論題相關的詞出現的頻率較大。以前的研究表明,

無論哪一種類型的文獻,若對文獻中出現的詞進行頻率統

計的話,會發現所有的詞可分為三類:

■文獻中出現頻率最高的詞是冠詞、介詞和連詞等,即其本

身沒有具體含義的詞,如a、an、the>this>that>or、

and>in>on、wVh等;

■絕大部分詞在文獻中出現的頻率較低;

■在文獻中出現的頻率既不高也不低的詞,在文獻中約3-20

個之間,這些詞恰恰是與文獻的主題相關度較大的詞,我

們稱之為文獻的主題詞或關鍵詞。

b.另外,一篇文獻還可以按照各種自然科學和社會

科學的分類方法進行歸類,如《中圖法》:

■0數、理、化

■01數學

■012初等數學

■0123初等幾何

檢索點:又稱檢索途徑或檢索標目,每條文

獻記錄均有內部特征,即信息內容,也有

與其相關的外部特征,即進行檢索時的檢

索點或途徑。

檢索點:

關鍵詞檢索:從文章作者所列出的、反映自己文獻主題內爸的關

鍵詞為出發點,來查找、林索文獻信息的,關鍵詞為檢賽點。

題名檢索:是以各種事物的名稱為出發點來檢索文獻信息,題名

為檢索點。

主題檢索:是以反映文獻內容的有關主題詞作為檢索點,主題詞

是表達一定概念主題的規范化的名詞術語。主題標引須有專門

的主題詞表。

分會檢索:把文獻信息由卷所述的學科類別作為檢索點,從計算

機系薪的文獻數搪庫審檢索文獻信息。

作者檢索:包括司體作者,都是從文獻的作者姓名出發來檢索其

文獻信息的,鳥索點是作者姓名。

號碼檢索:以文獻信息的號碼特征為檢索點來檢索文獻信息的,

包括文獻的編號(number)、代碼(code)莓。

國冰懷/住中虧:弱際逋行的出版物代碼,由13位阿拉伯數字

組成,ISBN號具有專指性,唯一代表某種書的某一版本,

2007年1月1日起正式使用13位ISBN號。

■前綴號:國際物品編碼協會(ENA)為圖書分配的商品代碼。目前

使用978,預留979。

■組號:端號由國家、地區、語言或其他組織集團的代號。由國際書號

中心(InternationalISBNagency)負責分配。申府組號為一位數

字“7”

■出版社號:由國家標準書號中心負責分配,其位數視申請出版社圖書

出版量夕少而異。

■書序號:由出版社負責管理分配,每個出版社所出各種圖書的序號

■校驗號:是校驗ISBN編號是否合法。

■國際標準刊號:由以ISSN為前綴的8位數字

組成,

■前7位數字為單純的數字序號,無任何特殊

含義,

■最后一位為計算機校驗碼。

■其結構形式是:

□ISSNXXXX-XXXX,如ISSN1002-

1027

網絡信息資源檢索的發展歷程

脫機檢索

聯機檢索

國際聯機檢索

單機光盤檢索

光盤網絡檢索

Web信息資源檢索

■1.脫機檢索(50年代末~60年代中期)

三這時是計算機檢索的原始時期。

三只能進行簡單的檢索。

b為滿足專業檢索人員定期批量處理用戶的

情報要求。

三用戶不能立刻獲得檢索結果O

■2.聯機檢索(60年代末~70年代初)

行1963年-1964年間,美國洛克希德導彈與宇航公

司的情報實驗室建立了”人一機“對話的聯機情

報檢索系統(DIALOG的前身),此后在60年代

末到70年代初聯機檢索系統得以快速發展。國際

著名的DIALOG系統、ORBIT系統、MEDLINE系

統都是從這個時期發展起來的。

k用戶可隨時瀏覽檢索結果

m由于這個階段的計算機網絡主要是通過電話線聯

接,因而聯機檢索受到地區的限制

■3.國際聯機檢索(70年代中期一)

三衛星通訊技術的出現,使得聯機檢索系統

打破了地域限制。而數據庫生產的迅速發

展及微機大量的涌現,更使得國際聯機檢

索蓬勃發展。

三聯機檢索系統進入發展的黃金時期。實現

了人類情報資源的共享。

■4.單機光盤檢索(80年代■■)

三CD-ROM技術促使計算機檢索成本迅速下

降(一張光盤可存貯600〔MB)兆字節機

讀數據、成本價格便宜,而一張DVD光盤

的容量最少可達4.7G)

■5.光盤網絡檢索(90年代一)

三光盤網絡是一種計算機網絡,如圖書館局

域網

三實現多用戶光盤資源共享

■6.Web信息資源檢索(90年代末一)

-進入90年代后,隨著網絡技術的發展,尤

其是互聯網的迅猛發展,使計算機檢索進

入一個嶄新的時期。

宅檢索方法更簡單,檢索結果更全面

網絡信息資源檢索的特點

■檢索速度快

■檢索途徑多

■更新快

■濟源共享

■檢索更方便靈活

■檢索結果可以直接輸出

網絡信息檢索系統的構成

■從物理構成來說,包括計算機硬件、軟件和

數據庫、通訊線路附3檢索終端五部分

第二節網絡信息資源檢索的基本技術

計算機檢索式(邏輯表達式):

檢索詞+有關算符

1、布爾邏輯算符

2、截詞算符

3、位置算符

4、字段限定符

1、布爾邏輯檢索(booleanlogic):

是當今檢索理論中最成熟的理論之一,也是

構造檢索表達式最基本、最簡單的匹配模式。布

爾邏輯檢索是通過布爾邏輯算符來實現的,這些

運算符能把一些具有簡單概念的檢索詞(或檢索

項)組配成為一個具有復雜概念的檢索式,用以

表達用戶的檢索要求。

布爾邏輯運算符:邏輯與(AND)、邏輯或

(OR)、邏輯非(NOT)

邏輯與:AND

常用表示,檢索時,命中信息同時含有兩

個概念,專指性強。可以縮小檢索范圍,提高查

準率。

例如:查找“胰島素治療糖尿病”的檢索式為:

胰島素and糖尿病

邏輯或:OR

B

檢索提問式:A+B或A?rB

常用“+”表示,檢索時,命中信息包含所有關于A

或B或同時有A和B的,可以擴大檢索范圍,提高查

全率。

例如:高清晰電視+HDTV

邏輯非:NOT

常用“一”表示,命中信息包含A、不包含B或同

時有A和B的,排除了不需要的檢索詞,可以排除不

必要的信息,提高查準率。

例如:能源-太陽能

使用邏輯算符時應注意的事項:

①邏輯算符的優先級為:NOT、AND、OR,可用括號

來改變優先順序。

()>NOT>AND>OR

②在邏輯組配時,算符的兩側必須各留有一個空格。

2、截詞檢索(truncation)—截詞符

截詞是指將檢索詞在適當的地方截斷,截詞

檢索是用截斷詞的一個局部進行的檢索,凡是滿

足這個截詞所有字符(串)的記錄,系統都為命中。

截詞檢索在西文數據庫中廣泛使用。是在詞

干后可能變化的位置加上截詞符號。檢索詞的單

復數形式,同一詞英、美不同拼法,詞根相同的

詞都可用截詞檢索。這樣既可減少檢索詞的輸入

量,又可擴大查找范圍,提高查全率。

按截詞的位置劃分

■前截斷:又稱左截斷,截詞符在詞的左邊,例如:

.magnetic

■中截斷:截詞符在詞的中間,例如:organi?ation,

可以檢索organisation、organization

■后截斷:是前方一致檢索,又稱右截斷,截詞符

放在被截詞的右邊,是最常用的檢索技術,例如:

librar*

根據截斷的數量不同

■無限截斷:是在檢索詞詞干后面加一個截詞符,

表示不限制詞尾可變化的字符位數,即查找詞干

相同的所有詞。

例如:comput?,可以檢索compute、

computed>computes>computing、computer、

computers>computerize...

■有限截斷:是在檢索詞詞干后面加若干個截詞符,

表示限制可變化的字符數。

例如:educat**,可以檢索educator、educated...

鼠?均可以表示截詞的截斷符號,各

檢索系統有不同的規定,沒有統一標準。

使用截詞應注意的幾個問題

一是截詞符要緊接在詞干后面,截詞符和詞干之間

不能有空格。

二是避免將檢索詞的詞干截得過短,一般應在三個

字母以上。

三是截詞應該使用得合理。一般不可能出現詞尾變

化的單詞,其后不必再使用截詞。

四是從希望出現的單詞中取盡可能多的公共字母作

為詞干,以提高查準率

3、位置算符

用來規定檢索詞之間的位置關系的算符。

位置運算符的使用,進一步強化了對概念的限

制,比布爾邏輯運算符更能表達復雜的概念,并

避免AND邏輯組配產生的詞義含糊或誤檢。

(1)W-With

?W算符是W此的縮寫,表示在此算符兩側的檢索詞必須按

輸入時的前后順序排列,不能顛倒。所連接的詞之間除可

以有一個空格、標點或連接號外不得夾有任何其他單詞或

字母。

例:solarwenergy

?Wn(或nW)表示在此算符兩側的檢索詞必須按輸入時的前

后順序排、歹必、不能顛倒。但允許在連接的兩個詞之間最多

插入n個單兀詞。

例:solar3wenergy

(2)N-Near

?N算符是Near的縮寫,表示此算符兩側的檢索詞必須

緊密相連,所連接的詞之間不允許插入任何其他單詞或字

母。但詞序可以顛倒。

例:intelligentNrobot

?Nn(或nN)表示在兩個檢索詞之間最多可插入n個單詞,

且兩詞的詞序任意。

例:intelligent3Nrobot

(3)F-Field

同字段鄰接

例:environmentFprotection

(4)P-Paragraph

同自然段鄰接

例:environmentPprotection

(5)S-Sentence

同句鄰接詞序可以顛倒,兩詞必須出現在同一

句子中

例:environmentSprotection

使用位置算符時應注意的事項:

1、以上是計算機檢索中常用的位置算符,但并非所

有的系統都可用,不同的檢索系統有其自己的規

2、位置算符優先于邏輯算符。

3、位置算符的執行順序是按語句中位置算符的輸入

次序從左至右執行的。如有括號,則優先執行括

號內的位置算符。

4.字段檢索(rangesearching)

字段檢索即指定檢索詞出現的字段,被指定的

字段也稱檢索入口,檢索時,系統只對指定字段

進行匹配運算,提高了效率和查準率。西文數據

庫,字段檢索常用代碼來表示,如下表所示。

西文數據庫常用字段

中文數據庫常用字段

字段名稱字段代碼

AbstractsAB文摘

AuthorAU作者

CotporateSource、Organization、CompanyCS機構名稱

Descriptor^SubjectDE敘詞/主題詞

DocumentTypeDT文獻類型

Full-textFT全文

ISBNISBN國際標準書號

ISSNISSN國際標準連續出版物號

JoumalName、PublicationTitleJN期刊名稱

Keyword、TopicKW關鍵詞

LanguageLA語言

PublicationYearPY出版年

TitileTI題名

■常用字段:

篇(題)名字段TI=Title

文摘字段AB=Abstract

敘詞字段DE=Descriptor

自由詞字段ID=ldentified

著者字段AU=Author

著者機構字段CS=CorporateSource

刊名字段JN=Journal

出版年字段PY=publicationYear

文獻類型字段DT=DocumentType

語種字段LA=Language

分類號字段CC=Classification

注意:目前各個檢索系統所設立的字段是各不相同的,

即同一字段,也可能采用不同的字段代碼表示。

如題名字段:EiCPXWeb中,用highway

transport*withinTI來表示;

OCLCFirstsearch中,用TI:highway

transport*來表示。

在進行字段檢索時,為了避免出現檢索誤差,應先看

一下該數據庫的使用指南或說明。

禁用詞

■在西文數據庫中,系統對信息進行標引時,不能

做標引詞或檢索詞的詞

■包括介詞、冠詞、代詞、連接詞、某些形容詞或

副詞等

■如a、and、for>in>she>should>the>well>

only

從課題名中確定檢索詞

六大方法:

■切分

■刪除

■替換

■聚類

■補充

■限定

從課題名中確定檢索詞

切分:將課題語句分割為一個一個詞。

例如:

“計算機情報檢索方法”

可切分為:I計算機I情報I檢索I方法I

從課題名中確定檢索詞

刪除從語句切分出來的詞中刪除那些

(1)不具有檢索意義的虛詞(包括介詞、連詞、助

詞、副詞等)及其他非關鍵詞;

(2)過分寬泛和過分具體的不必要的限定詞,過分

寬泛難以觸及問題實質,太狹義具體的限制詞則

會掛一漏方;

(3)存在蘊涵關系的可合并詞。

例如:

“基于Web的數據庫”,經刪除后,Web|數據庫

稀土材料的研究現狀及發展趨勢少稀土材料

稀土材料欽鐵硼的研究少鉉鐵硼

從課題名中確定檢索詞

■替換從課題語句中得來的詞也許偏于模糊、寬

泛、狹窄或不可行,不能取得所希望的結果,這

時可以引入更明確、更具體、更本質、更可行的

概念詞來替換原詞。

例如:

稀土材料的研制少鉞(Tb)鎮(Er)(用戶實際上是研

究餓餌材料)

空氣中細菌的計算方法少空氣污染的計算方法

從課題名中確定檢索詞

聚類即把切分、刪除、替換后所得出的單元詞

按語義概念進行同類合并,將那些可以相互等效、

相互替換、相互補充的同(近)義詞、相關詞歸

成一組。聚類的實質是進行組面分析,將語句和

詞轉換成概念(組面)的集合。

從課題名中確定檢索詞

補充包括:

(1)補充來源詞,即找出縮略詞的來源詞組,

將兩者一并作為檢索詞;

(2)補充同義詞和相關詞(包括上位詞、下位

詞和同位詞等)。

模擬計算機可以表示為:

高清電視HDTV:HDTVorHighDefinitionTelevision

模擬計算機+模擬系統*計算機

“毫米波”:“millimeterwave"or“millimetrewave”

從課題名中確定檢索詞

限定:

針對一詞多義導致誤檢的問題,需采取限定措施,

即增加"限定詞

具體方法有兩種:

一是邏輯與*

二是邏輯非-

線路少線路*(電子+無線電+……)

線路少線路-(道路+車輛+……)

檢索策略的制定及調整

1.概念的選取

(1)核心概念的選取:

變溫條件下煤層損傷與瓦斯運移的熱流固耦合模型

(2)發掘隱含概念:并購一剝離、拍賣;石質文物的保護

(3)考慮同義詞包括術語和俗稱:

保護conservation,preservation,protection

自行車■單車■腳踏車

(4)排除不必要的概念:使用專業數據庫或通用詞

(5)使用準確的代碼:標準號、專利號、產品代碼

2.數據庫的選擇

(1)合適的主題范疇(社科、工程技術、化學、

醫學…)

(2)合適的數據庫類型、年度范圍(專利、標準、

期刊、書…)

3.檢索策略的制定及調整

(1)擬定檢索式:變溫條件下煤層損傷與瓦斯運移的熱流固耦

合模型

(非等溫or變溫)and(煤層and(損傷or破壞or損壞)or

煤巖體and(損傷or破壞or損樂and(尤斯or摩層攵

or燎氣)and(運移or漂移or如動)and熱流固

(2)如果檢索結果太少,適當調整策略,以擴大檢索范圍(增

加同義詞或隱含概念)a.熱流固有沒有同義詞勢-流-固;b.

去掉熱流固;c..去掉第一個檢索詞(非等溫or變溫)

(3)如果檢索結果太多,也要適當調整策略,以縮小檢索范圍

(增加概念(檢索詞)或用字段、年代等限制)。

(非等溫or變溫)and(煤層/標題and(損傷or破壞or損壞)

or煤巖禰and1損傷or破斥。匚談壞))and(應斯or煤層氣

or煤氣)and佟移or漂移or運動)and熱流周and(藕合

模型or數學模型。r數值模擬)

第一檢索式結果為0

1索結果頁

瑞就奈激諼策數字出懶踴的蔣亞鑄函書醺亨麗藕聞藪手薛麗麗音畫出版合作單而藤肄的萄原中心1購買知網卡I充值中心I奔闔藉西

當前位置:數字出版物超市>>中國學術貢獻網絡出版總庫>>文獻檢索

簡單檢索標推檢索專業檢索引文檢索學者檢索科研基金檢索句子檢索工具書及知識元搜索文獻出版來源

首先詰選擇學科象域:

口到

二|發表時間具體日期V從

檢索箭選歷史:_________

《主題V排等溫枝溫_______1田1或含5|精確V)

本次檢索條件:□□

_________困1或含.腰隔j由上精確vb

「主題=中英文擴展:串行)并且主并含7(主題7________

并含V《主題_________[用或含W恤壞|用精確V)

查看檢索歷史我收藏的檢索式y損傷H螂

按學科類別分期;或含M假氣」圖畫切

-II并含V(主題V瓦斯+煤層氣

分俎詞按文獻篇數倒序排序________1由國含闖南I對1精確5b

并含V(1主題—v運移+漂移

123

口圉并含V二J圖耦確R

用自動化技術(577)并含V(主題V熱流固

,計菖機硬件技術(H6)

□僅限優先出版文獻0中英文擴展檢索g1在結果中檢索Igg檢索加1

0電力工業Q43)

電信技術“31》

,計算機軟件及計算機應用(1的檜索結果分擔菊選:(僅對前,萬篇文獻分組.取前的個分姐詞,檢索結果不錯,生成檢索報告定制或收藏本次檢索式

無線電電子學(62)

分組分析方法:學科類別中文關犍詞研究層次文獻作者作者單位文獻出版來源研究獲得資助發表年度來源數據庫不分組

回汽車工業⑸)

C儀器儀表工業(45)

排序:相關度發表時間被引頻次下載頻次顯示方式題圖|摘要顯示記錄數:10圖]50

0金屬學及金屬工藝Q5)

「航空航天科學與工程■

Q0)全選共有記錄136膝

「互聯網技術(20)TindovsInternetExplorer區]’

「生物醫學工程(20)序號文獻來源發表時間被引頻吹下載頻次

匚;船舶工業(H)!\沒檢索到符合條件的結果,諳檢三乏您設定的導航或檢索條件.

【碩士】吉林大2010-05*

不建筑科學與工程U3)兇口1學018OQ8

,工業通用技術及設備(11)

檢索司在工具書中的解葬:定I科技【期刊】電子與2010-03-X

EI口2封裝2026

詳細

基于嵌入式系統的CAN總統與基于嵌入?L一如由丹抵+…【碩士】華中科2009-0S1

國口3式系統的以太網的網關設計越,硫十甲機、大,技大學0154

詳細

母腔

><《

s

w

畫g

£器

-&-

?

煤?

黑s

2

i善

i

g五

E

?點

墨i

s

^—一

@

A變

s

起*喧

-

r

(

:三

亙葉i今

8

蒸i一

蹙%

轅n

)

+f

慧母司s鈔

l好

―鈔

f”魯

毒.

罌K需居

孽?

Qet

i

S

w業

'

一s一

的口一E〕,

再去掉(變溫+非等溫)條件:89條。

第6條為煤層變形與瓦斯運移耦合系統動力學研究

孔海陵中國礦業大學【博士】中國礦業大學2009-

06-01

■可以看出變形也可以做為損傷的同義詞,把

變形加進去

檢索結果156條,太多,再把非等溫”加上

嗦結果貞儉,£3

登錄注明

@PKI血卻何

不登瑞技線數字出版物超市I學科專業數字圖書館I數字圖書館超市[數字化學習研兗平臺“I網絡出版合作單位服務平臺,客服中心上|購買知網卡I充值中心I手機版I雜志訂閱I

當前位置:數字出版物超市>>中國學術攵獻網絡出版總庫>>文獻檢索

簡單檢索標準檢索[J專業檢索引文檢索學者檢索科班基金檢索句子檢索工具書及知識元搜索文獻出版來源

首先請選擇學科銀垓:

發表時間具體日期閶

檢索帝選歷史二::I>L____|?L

(主題▼

本次檢素條件:田日11幅川或含511卜*1精確

|并含y

(■f主題=中英文擴展;:煤層:或者(主題”煤層i同|或含闋隰*JE3[精確V)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論