




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、索引典與資訊檢索參考資料:黃慕萱,Chap.8蔡明月,Chap. 10 黃惠株 。淺談索引典。佛教圖書館館訊第五期(民85年 3月)(2004年5月10日) 。張嘉彬。 索引典及其於資訊檢索上之探討。書苑季刊36期( 民87年4月)(2005年5月23日) 。1簡介分類法v.s.索引典Thesaurus其希臘與拉丁的字源本義為寶典( A treasury)1947年到1950年間Mooers提出描述語、資訊檢索與資訊檢索系統等專門術語1957年Brownson第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典2 國際標準的定義國際標準組織(ISO 2788)
2、一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。 美國國家標準(ANSI Z39.19-1980) 索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。聯合國科教文組織全球科技資訊系統(UNISIST, UNESCO) 索引典可以其功能或結構定義之。就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的系統語言(文獻工作語言,資訊語言)。就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。
3、 3學術界不同階段的定義索引典的主要功能是將詞彙依字母順序排列索引典編纂詞彙並顯示詞彙間之同義關係、階層關係或其他關係,藉以提供資訊儲存與檢索一套標準詞彙。索引典應該依據詞彙的意義排列,而不是像字典一樣依據字母順序排列索引典的主要功能是列舉可表達同一概念所有詞彙,藉以協助使用者找出最適合貼切的詞彙來表達他們心中的概念。索引典可以當成人類思路歷程的類比索引典的構造最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。4綜合各家定義收集足以表示知識概念的字或詞,以特定結構加以排列控制同義詞,區別同形異義詞,顯現各相關詞彙間階層及語意互屬上的各種關係做為索引者在分
4、析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙提供資訊儲存與檢索標準化的用語5索引典之目的在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵義。在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指 引。詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能,可作為使用者選擇正確詞彙的指引。當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小
5、檢索主題的詞彙範圍。最好能成為該學科的標準用語。6索引典之功能資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致Dagobert Soergel認為:索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處索引典將同義詞聚集亦有詞彙控制(terminological control)的功能7索引典編製基本程序準備工作詞彙蒐集定詞建立詞間關係編排與展示測試與修正維護與更新8準備工作 學科範圍確定資料量及類型詳盡性(exhaustivity)與專指性(speci-ficity) 作業表格內容設計9詞彙蒐集 經驗法(empi
6、rical approach)蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。亦稱石筍式法(stalagmitic)小組匯編法(committee approach)匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。又稱為“鐘乳石法”(stalactitic)10定詞1/2 按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定語加以說明。採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選用詞(preferred term),
7、亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作11定詞2/2選詞原則採用名詞複合名詞形容詞名詞的單數與複數單數特定過程、特性及唯一或不可數的事與物,如painting 、conductivity、earth、water複數具實體可數的事與物,如starts、teeth、records若單複數意義不同又必須同時存在,則於其後加上限定語(qualifiers) ,如painting (entity) 、 painting (process) 選擇直接款目
8、或間接款目Radar antenna v.s. antenna, radar統一特殊符號Gamma rays v.s. r rays.控制敘述語的縮寫或頭字語COM v.s Computer Output Microform釐定敘述語的不同拼法Theater v.s. theatre12建立詞間關係1/3等同關係 又稱用代關係,參照符號是USE及UF同義(synonyms)指意義完全相同,可互相取代的詞準同義(near-synonyms)指意義相近 意義不同但為了標引目的視為同義的詞 組代關係標引時以數詞組合代表另一概念 描述詞 V.S.非描述詞 範圍註與解說註例如Storage batter
9、ies UF Secondary batteriesSecondary batteries USE Storage batteries 13建立詞間關係2/3層級關係 又稱屬分、上下或等級關係,參照符號是BT及NT類別屬種(genus-species)集元(set-element)整部(whole-part)多層級(polyhierarchical)判定公式 屬種關係 一些(鳥類)是(鸚鵡),所有(鸚鵡)全都是(鳥類) 整部關係 (臺灣)的一部分是(臺北),(臺北)是(臺灣)的一部分 集元關係 有的(河流)是(長江、黃河),(長江、黃河 )一定是(河流)14建立詞間關係3/3聯想關係 又稱親緣
10、、類緣或相關關係,參照符號是RT 判定參考原則同一範疇:屬性涵義有部分重疊但非同義的詞可互為RT,如ships和boats 。不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係,如學科及對象(林學和森林) 。15編排與展示依字順排序依分類排序 依層級排序 依敘述語交替式排序依圖形排序 16測試與修正 從最近出版的相關刊物上隨機取樣列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述詞標引人員和編製人員根據前述工作單的資料,評斷索引典的詳盡度及專指度,並依此修正檢測詞群架構及詞間關係 17維護與更新 索引及檢索人員須記錄詞彙使用頻率
11、,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係 18利用索引典檢索資料之過程- 1/2檢索晤談 對提問進行分析,確定讀者的真正需求 分析的結果轉成索引典詞彙提問主題分析 將概念轉換成索引典中的描述語進行檢索組配 廣義詞檢索 狹義詞檢索 近義詞檢索 19利用索引典檢索資料之過程- 2/2目的recall ratio v.s. precision ratio 利用索引典的詞間關係檢索 擴檢(Broader Term Search,即廣義詞檢索) 縮檢(Narrower Term Search,即狹義詞檢索) 聯檢(Related Term Se
12、arch,即關係詞檢索) 族檢(Term Family Search) 群檢(Narrower Block Search) 邏輯運算 20索引典應用於資訊檢索上之優點 使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。採用前組合的方式編製索引,解決概念錯誤的連結的問題。控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索求全率(recall ratio)與求準率(precision ratio)。容易從事有階層附屬關係的檢索。用語明確一致、清楚固定。可利用參互見結構,得知
13、相關的詞彙。採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。21索引典應用於資訊檢索上之缺點必須由專業人員製作索引,花費較大。必須隨時檢查索引的品質及錯誤。索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。使用的標準詞彙易於過時,必須隨時更新,維護經費較高。無法隨時增添新的或複雜的概念,更新較困難。索引人員須具備相當的學科背景與訓練,故製作速度較慢。使用者亦必須經過訓練,方會使用。用語受限於索引典,有時稍嫌僵化,不具彈性。用語的表示受到極大的限制。較不具詳盡性。22利用索引典檢索資料之評
14、估 結構評價詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等詞彙評價 詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等 使用上的評價 求全率與求準率 23以索引典為主的系統設計考慮要素主題範圍資料類型資料量資訊系統類型誰是系統使用者系統使用人數及頻率問題類型詞彙組合方式資訊系統的資源考慮資訊檢索效率24應用於資訊檢索上之發展趨勢1/2 索引典編製標準化第一個具有權威性的標準 1970年UNESCO編製單語科技索引典編製與發展準則ISO 2788:1974單語索引典編製和發展準則的基礎ISO 2788:1
15、986 Documentation - Guidelines for the establishment and development of monolingual thesauri 中國大陸1979年漢語主題詞表GB13190-91漢語敘詞表編製規則GB/T3680-1995 臺灣82年6月25日公布西文單一語文索引典編製標準(CNS 13224) 分類主題一體化語言Hyper-thesaurus 25應用於資訊檢索上之發展趨勢2/2個人化之索引典(personalized thesaurus)讀者自建索引典(user-constructed thesaurus)將Fuzzy的觀念加入索引典的檢索中 Relevance FeedbackRanking將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2025年材料員之材料員專業管理實務高分通關題庫A4可打印版
- 傳統散打教學課件
- 七上生物教學課件
- 典型工作任務飽和器工崗位13課件
- 第六章電氣安全與靜電防護技術化工安全技術10課件
- 怎樣描述力教學課件
- 內科護理教學比賽課件
- 口腔知識科普課件下載
- 小學生科普課件知識
- 口腔助理技能操作課件
- 2023年四川甘孜州遴選(考調)公務員考試真題
- 高等教育研究項目指南(3篇模板)
- 辦公樓維修改造施工方案
- 中國人工智能應用現狀及未來發展趨勢分析
- 多重耐藥菌感染預防與控制
- 半結構化結構化面試題目
- 2023年農村土地承包經營權確權登記頒證項目作業指導書
- 節日氛圍營造投標方案(技術方案)
- 安全注射完整
- 樂高大顆粒搭建課件:救護車
- 領會《護士條例》課件
評論
0/150
提交評論