文獻檢索與論文寫作2_第1頁
文獻檢索與論文寫作2_第2頁
文獻檢索與論文寫作2_第3頁
文獻檢索與論文寫作2_第4頁
文獻檢索與論文寫作2_第5頁
已閱讀5頁,還剩338頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章緒論第一節信息一、信息的概念哈特萊:信息是選擇通信符號的方式申農:信息是使不確定性消除的某種東西維納:信息是我們適應外部世界,并把適應反作用于外部世界的過程中同外部世界進行相互聯系、相互作用、相互交換的一種內容當前1頁,總共343頁。第一章緒論《中國大百科全書》:狹義:用來消除對客觀事物認識的不定性的東西,是符號、信號或消息所包含的內容。廣義:本體意義說,信息泛指一切事物(物質的、精神的)運動的狀態和方式,包括事物內部的狀態和方式以及與外部聯系的狀態和方式。認識論意義說,信息是關于事物運動狀態和運動方式的反映,它可以用來消除人們認識上相應的不確定性。當前2頁,總共343頁。第一章緒論二、信息的特點

1、依附性2、傳遞性3、共享性4、價值不確定性5、可開發性6、可存儲性7、時效性當前3頁,總共343頁。第一章緒論三、相關概念1、數據是未經整理,可判讀的描述事物特征的符號序列,記錄或載荷信息。如:圖書館2011年上半年電子期刊利用人數2203004566117238311月2月3月4月5月6月信息:在特定背景下,經過整理,能夠表達一定意義的一組數據。當前4頁,總共343頁。第一章緒論2、知識是人們對客觀事物存在和運動規律的認識。如:一個蘋果+一個蘋果=二個蘋果一間教室+一間教室=二間教室

……1+1=2

知識是信息的一部分,即反映客觀世界規律性認識的那部分信息才是知識當前5頁,總共343頁。第一章緒論3、情報《辭海》《辭源》:“戰時關于敵情之報告”情——情況報——報道、交流、傳遞通常的解釋:為解決特定問題,傳遞給特定對象的有用知識,具有知識性、針對性、傳遞性、及時性。情報是特定的知識,是知識的一部分。當前6頁,總共343頁。第一章緒論4、文獻《論語》“八佾”古代:文——典籍獻——賢者現代:記錄有知識的一切載體。具體講,用文字、圖形、符號、聲頻、視頻等手段記錄下來的人類知識的一切物質載體。兩個要素:知識物質載體當前7頁,總共343頁。第一章緒論5、資料廣義上,對人有幫助的物質材料。狹義上,是對生產、科研、教學、管理決策起參考借鑒作用的文獻。如:寫論文查找的相關資料當前8頁,總共343頁。第一章緒論請思考:信息、數據、知識、情報、文獻和資料這六者之間的關系是什么?當前9頁,總共343頁。第一章緒論第二節信息源與信息資源一信息源

1、概念產生信息的事物,信息的生成源。當前10頁,總共343頁。第一章緒論2、分類按照來源形式分:

1)個人信息源

2)實物信息源

3)文獻信息源

4)數據庫信息源

5)組織機構當前11頁,總共343頁。第一章緒論按照生產過程分一次信息源二次信息源三次信息源當前12頁,總共343頁。第一章緒論一次信息:一次文獻是人們直接以自己的生產、科研、社會活動等實踐經驗為依據生產出來的文獻,也常被稱為原始文獻(或叫一級文獻),其所記載的知識、信息比較新穎、具體、詳盡。當前13頁,總共343頁。第一章緒論一次文獻的特點:一是內容具有獨創性。二是內容敘述具體、詳盡,有參考學習利用價值。三是一次文獻數量龐大、分散在期刊、論文集、圖書、會議論文、學文論文等等各種文獻中,檢索困難。當前14頁,總共343頁。第一章緒論二次文獻:二次文獻又稱二級次文獻,是對一次文獻進行加工整理后的產物,即對無序的一次文獻的外部特征如題名、作者、出處等進行著錄,或將其內容壓縮成簡介、提要或文摘,并按照一定的學科或專業加以有序化而形成的文獻形式,如目錄、文摘雜志(包括簡介式檢索刊物)等當前15頁,總共343頁。第一章緒論二次文獻的特點:1.濃縮性,是對原始文獻內容的濃縮,是情報工作的重要工具,成為一種信息文體;2.匯集性,二次文獻經過情報工作者加工,把有關內容匯集在一起,能比較全面地反映某個學科、專業或專題在一定時空范圍內的文獻線索;

3.系統性,由于二次文獻是經過情報工作者加工,所以它能系統地反映某個學科、專業或專題在一定時空范圍內的最新研究成果當前16頁,總共343頁。第一章緒論三次文獻:指對有關的一次文獻、二次文獻進行廣泛深入的分析研究之后綜合概括而成的產物,人們常把這類文獻稱為“情報研究”的成果,包括綜述、專題述評、學科年度總結、進展報告、數據手冊、以及文獻指南等。當前17頁,總共343頁。第一章緒論注:一次文獻和三次文獻都融入了作者的智力勞動,是信息分析的過程。而二次文獻只是信息有序化的過程,是信息加工的過程。當前18頁,總共343頁。第一章緒論二信息資源的概念狹義:指信息本身。廣義:指信息及其相關因素的集合。具體講:即信息及信息的收集、加工、存貯、處理、傳輸和利用相關的技術、設施、資金和人。當前19頁,總共343頁。第一章緒論

三信息源與信息資源信息源包括信息資源,信息資源是其中的一種信息源。但是,信息資源是有用的并且經過組織、有序的、可存取的信息的集合,并非所有的信息源都是信息資源。因此,信息資源一定是信息源,信息源不一定是信息資源。當前20頁,總共343頁。第一章緒論第三節信息素質一、信息素質概念這一概念是1974年由美國信息產業協會的主席保羅·澤考斯基首次提出。“利用大量的信息工具及主要信息源使問題得到解決的技能”當前21頁,總共343頁。第一章緒論內涵:一是解決問題需要信息。二是具有利用信息的技能。三是利用信息能夠解決問題。舉例:要買房子的問題???當前22頁,總共343頁。第一章緒論信息素質不僅蘊含著客觀性發掘和利用信息的基本技能,還包括主觀性認識和判斷信息的基本品質。主要包括信息意識、信息能力和信息道德

當前23頁,總共343頁。第一章緒論二、信息意識

對信息具有特殊的、敏銳的感受力和長久的注意力,是人對各種信息的自覺心理反應。舉例:就業信息敏銳的感受力科學研究長久的注意力當前24頁,總共343頁。第一章緒論三、信息能力具體包括信息獲取能力、信息評價能力、信息組織能力、信息利用能力和信息交流能力。

信息獲取能力:利用現有信息資源和檢索工具,查找并獲取所需信息的能力。當前25頁,總共343頁。第一章緒論信息評價能力:對信息進行篩選、判斷、甄別和評價的能力。信息組織能力:對無序的信息,根據一定的規則和方法,使其成為有序的信息。信息利用能力:對掌握的信息進行深層次的加工,從中獲取所需的特定信息,進而產生新的信息的能力。信息交流能力:交換信息和傳遞信息的能力。當前26頁,總共343頁。第一章緒論四、信息道德人們在信息活動中應遵守的行為規范,如保護知識產權、尊重個人隱私、抵制不良信息等。當前27頁,總共343頁。第一章緒論1、處理好信息產權和信息共享的關系。2、處理好信息準確性和信息自由的關系。3、抵制信息犯罪,信息竊取和盜用、信息敲詐和勒索、信息攻擊和破壞、信息污染和濫用等等。當前28頁,總共343頁。第一章緒論五、信息素質評價標準:美國:《美國高等教育信息素養能力標準》英國:“信息素養的7個支柱模型”澳大利亞:《澳大利亞信息素養標準》當前29頁,總共343頁。第一章緒論六、信息素質教育指為啟發人的信息意識、提高人的信息能力、提升人的信息道德水平所進行的一系列社會教育和培訓活動。

目的不僅是培養人們的信息檢索技能和計算機應用技術,更重要的是培養人們對現代信息環境的理解能力、應變能力以及運用信息的自覺性、預見性和獨立性,從而提高人們的綜合素質。

當前30頁,總共343頁。第一章緒論1、教學內容基礎層次:圖書館入館教育、計算機網絡基本知識等普通層次:信息檢索、信息加工等高級層次:信息分析、知識管理等當前31頁,總共343頁。第一章緒論2、教學模式(1)基于資源的協作式教學模式(2)基于問題的情景教學模式(3)自主學習模式(4)參與式教學模式當前32頁,總共343頁。第一章緒論練習:以小組為單位,依據《美國高等教育信息素養能力標準》的評價指標,設計《常州大學大學生信息素質》的調查問卷。當前33頁,總共343頁。第二章信息檢索基礎原理第一節信息資源檢索概述一概念與類型1、概念廣義和狹義當前34頁,總共343頁。第二章信息檢索基礎原理

從廣義上講,信息資源檢索包括兩個過程,一是信息資源的存儲,既是對有關信息進行選擇,并對信息特征進行著錄、標引和組織,建立信息數據庫的過程。二是信息資源的檢索,既是根據提問制定檢索策略和表達式,利用數據庫查找信息資源的過程。從狹義上講,信息資源檢索指后部分。當前35頁,總共343頁。第二章信息檢索基礎原理2、類型按檢索結果內容劃分:文獻信息檢索,數據信息檢索,事實信息檢索。當前36頁,總共343頁。第二章信息檢索基礎原理文獻信息檢索:以文獻原文為檢索對象的一種檢索。通常通過目錄、索引、文摘等二次文獻,以原始文獻的出處為檢索目的,可以向用戶提供原文獻的信息。舉例:圖書館的書目查詢系統當前37頁,總共343頁。第二章信息檢索基礎原理數據檢索:以文獻中的數據為對象的一種檢索。這種檢索將經過選擇、整理、鑒定的數據存入數據庫中,根據需要查詢處理,以回答某一問題。這些數據包括物理性能常數、國民生產總值統計數據、外匯之處等等。常用的工具書有年鑒、地方志等。舉例:1996年廣州人口和面積狀況當前38頁,總共343頁。第二章信息檢索基礎原理事實檢索:以文獻中的事實為對象,檢索某一事件發生的時間、地點或過程。主要使用的工具書有年鑒、大事記、百科全書、史料匯編等。例如:“安史之亂”的相關材料。當前39頁,總共343頁。第二章信息檢索基礎原理3、信息檢索示意圖信息源主題概念數據庫檢索標識命中文獻信息需求主題概念信息檢索語言檢索提問當前40頁,總共343頁。第二章信息檢索基礎原理二、信息檢索的發展階段1、脫機檢索階段(1954-1964)2、聯機檢索階段(1965-1991)3、網絡化聯機檢索(1991至今)當前41頁,總共343頁。第二章信息檢索基礎原理

1946年世界上第一臺計算機問世后,在50年代初就應用在信息檢索的領域。脫機檢索是用戶不與檢索系統發生直接聯系,只需把檢索要求送往檢索中心,由檢索人員進行文獻檢索的一種檢索方式。當前42頁,總共343頁。第二章信息檢索基礎原理1965年美國系統發展公司研制成功聯機情報檢索軟件ORBIT,開始了聯機檢索階段。與此同時,美國洛克希德公司研制成功了Dialog檢索系統,至今,任然為世界上最著名的信息檢索系統。當前43頁,總共343頁。第二章信息檢索基礎原理第二節信息檢索方法和策略一、傳統信息檢索的一般方法1、常規檢索方法又稱直接法,是直接利用檢索系統檢索文獻信息的方法。又分為順查法、倒查法和抽查法。當前44頁,總共343頁。第二章信息檢索基礎原理(1)順查法按照時間的順序,由遠而近檢索文獻的方法。這種方法能收集到某一課題的系統文獻,適用于較大課題的文獻檢索。例如:已知某課題的起始年代,現在需要了解其發展的全過程,就可以用順查法從最初的年代開始,逐漸向近期查。當前45頁,總共343頁。第二章信息檢索基礎原理(2)倒查法由近及遠,從新到舊,逆著時間的順序進行文獻檢索的方法。此法的重點是放在近期的文獻上。當前46頁,總共343頁。第二章信息檢索基礎原理(3)抽查法針對項目的特點,選擇有關項目的文獻信息最可能出現或者最多出現的時間段,進行重點檢索的方法。這種方法較少的時間獲得最多文獻。當前47頁,總共343頁。第二章信息檢索基礎原理2、回溯檢索法又稱引文法,是利用已有文獻末尾所附的參考文獻進行追溯查找的方法,是一種跟蹤查找的方法。當前48頁,總共343頁。第二章信息檢索基礎原理3、循環檢索法又稱交替法,是交替使用常規檢索方法和追溯檢索方法的方法。注意:在實際檢索中,要視條件的可能和課題的需要來選擇相應的檢索方法當前49頁,總共343頁。第二章信息檢索基礎原理二、計算機信息檢索的策略1、最專指面優先策略是指檢索時首先查找所有概念組面中最專指的一個概念組面,然后依據用戶需求及初步檢索結果,決定是否需要加入以及怎樣加入其他的概念組面。當前50頁,總共343頁。第二章信息檢索基礎原理

如果命中文獻數量遠遠大于用戶期望值,或者初步檢索的范圍過于寬泛,則要用AND或NOT加入其他的概念組面,或者條件更加嚴格。如果命中文獻數量小于用戶期望值,或者初步檢索的范圍過于狹窄,則用OR加入其他的概念組面,或者條件更為寬松。如果命中文獻數量接近用戶期望值,且結果也滿意,就結束本次檢索;倘若結果不理想,要調整檢索。當前51頁,總共343頁。第二章信息檢索基礎原理2、積木式策略是指檢索時首先逐一查找各個概念組面,然后將各個組面組配起來,得到最終的檢索結果。

缺點:檢索結果不理想時,不知問題出在哪里。當前52頁,總共343頁。第二章信息檢索基礎原理3、引文珠形增長策略是指首先以一個較為核心的概念組面進行試檢驗,并仔細瀏覽初步的檢索結果,尤其是特別符合用戶需要的文獻記錄,從中選擇更多、更合適的檢索詞再進行檢索,然后再瀏覽命中文獻,從中選擇檢索詞,接著檢索,如此反復操作,直至得到理想檢索結果。當前53頁,總共343頁。第二章信息檢索基礎原理4、連續分割策略是指檢索時首先建立較大的初始文獻集,然后利用各種檢索的限制,逐步縮小檢索范圍,直至符合用戶需要為止。當前54頁,總共343頁。第二章信息檢索基礎原理三、信息檢索的操作步驟1、分析檢索任務2、選擇檢索工具3、確定檢索途徑4、選擇檢索方法5、制定檢索策略6、獲取檢索結果分析研究課題的主題內容、學科范圍,然后分析出所需要信息的主題概念及其特征,提取關鍵詞、涉及語種、分布地域、年代范圍、有關著者和機構等作為檢索詞,再確定課題對查新、查準、查全的指標要求。(1)目錄:著錄一批相關圖書或其他類型的出版物,并按照一定次序編排而成的一種檢索工具。(2)索引:記錄一批圖書、報刊等所載的文章篇名、著者、主題、人名等,并表明出處,按一定次序組織起來的一種檢索工具。(3)文摘:以提供文獻內容梗概為目的,不加評論和補充解釋,簡明記述文獻內容的短文,并按一定的方法編排的檢索工具。(4)百科全書:概述人類一切門類或某一門類知識的完備工具書。(5)年鑒:按年度匯集一定范圍的重大事件工具書。(6)手冊、名錄:手冊是匯集專業知識的工具書;名錄是提供有關(人名、地名、機構名)等信息的工具書。(7)詞典(字典)(8)表譜、圖錄:表譜是采用圖表、譜系形式編寫的工具書;圖錄就是地圖目錄。(9)類書、政書:類書是一種古典文獻工具書,使中國古代特有的工具書;政書是中國古代記述典章制度的圖書。確定檢索詞選用主題詞選用專業術語選用同義詞或相關詞當前55頁,總共343頁。第二章信息檢索基礎原理第三節信息檢索效果一、信息檢索的評價指標1、查全率2、查準率

查全率和查準率是美國學者佩里和肯特在20世紀50年代最先提出的。是信息檢索效果評價的兩個指標。當前56頁,總共343頁。第二章信息檢索基礎原理相關文獻非相關文獻檢出文獻未檢出文獻abcd當前57頁,總共343頁。第二章信息檢索基礎原理查全率=a/a+c*100%查準率=a/a+b*100%注意:理論上,利用公式對每一次信息檢索,都可計算出查全率和查準率,對檢索效率做出定量化的評價。但在實際量化的操作中,根本不可能瀏覽所有的文獻信息,未被檢出的相關文獻數量和文獻總量等都很難統計。當前58頁,總共343頁。第二章信息檢索基礎原理查全率和查準率的相互關系一個理想的檢索系統,應是R=1、P=1。

但實際上是不可能的。一般說來,二者之間存在著反變關系,即:

若要提高查全率,查準率往往就會下降;若要提高查準率,查全率又就會下降。

(二者相互制約)當前59頁,總共343頁。第二章信息檢索基礎原理R與P的關系可由下圖描述:(稱為R-P圖)當前60頁,總共343頁。第二章信息檢索基礎原理提高查全率的方法:擴大檢索課題的目標,使用主要概念,排除次要概念跨庫檢索逐步擴大檢索途徑的檢索范圍取消限定條件降低檢索詞的專指度,使用上位詞或相關詞補充到檢索式外文單詞使用截詞檢索,中文使用更簡短的檢索詞當前61頁,總共343頁。第二章信息檢索基礎原理提高查準率的方法:精確確定檢索課題的目標,使用專業詞匯選擇專業性檢索工具逐步縮小檢索途徑的檢索范圍使用限定條件提高檢索詞的專指度當前62頁,總共343頁。第二章信息檢索基礎原理同時兼顧查全率和查準率的方法(1)跨庫檢索(2)分類途徑和主題途徑等結合使用(3)嘗試多次檢索(4)預防操作錯誤當前63頁,總共343頁。第二章信息檢索基礎原理影響查全率的注意事項:(1)對課題分析不要望文生義(2)檢索工具收錄范圍有缺漏(3)正確的常規檢索方法也有疏漏(4)檢索工具選擇有誤(5)遺漏隱含概念(6)遺漏同義詞西部地區社會發展狀況西部地區指哪些地區?社會發展狀況是哪些狀況?文化教育、醫療衛生、工業水平、農業水平等某教授在1994-2002年發表的論文有20篇被印刷型檢索工具收錄,而CNKI只收錄16篇。A有些數據庫沒有提煉主題詞,功能有缺陷B有些數據錄入錯誤導致檢索失敗C有些作者故意隱藏真實身份D網絡上的垃圾信息、欺騙性網站等利用谷歌檢索專利白靈菇多糖(阿魏蘑多糖)檢索著名作品《飄》亂世佳人,隨風而逝,Gonewiththewind,gonewiththewind當前64頁,總共343頁。第二章信息檢索基礎原理影響查準率的注意事項:(1)檢索詞的專指度要高(2)增加限定字段(3)增加檢索詞(4)檢索工具的檢索精度差檢索關于啤酒及其生產的中文專利

生產的概念表達為“配制”、“生產方法”、“釀造”等關鍵詞先查“啤酒釀造”,命中300多條記錄,再用關鍵詞縮小檢索范圍。用搜索引擎檢索含有研究生考試的文件的網頁首先輸入“研究生考試”查到500多萬條網頁,限制站點,縮小為2800多個網頁有人發明了一種可以用在公用浴缸上的一次性薄膜罩,以防交叉感染,需檢索相關專利。浴缸or浴盆or澡盆1659條膜or罩or套471條一次性66條權威的專利和期刊數據庫的查準率較高,網絡搜索引擎、中文圖書數據庫精度較差當前65頁,總共343頁。第二章信息檢索基礎原理3、響應時間

對任何計算機應用系統,響應時間都是一個重要指標。信息檢索的響應時間可分為兩種情形:(1)委托檢索,表示從用戶送交提問到收到檢索結果所花的時間;(2)非委托檢索,表示用戶實際的檢索時間。計算響應時間一般都是針對某一個提問而言,不同的提問對應的響應時間不同。(因提問式長短、復雜程度而不同)

當前66頁,總共343頁。第二章信息檢索基礎原理有時給出平均響應時間T,ti表示對第i個提問的響應時間,k為提問個數當前67頁,總共343頁。第二章信息檢索基礎原理問題:檢索響應時間與哪些因素有關?當前68頁,總共343頁。第二章信息檢索基礎原理通過對檢索響應時間的分析,我們可歸納出影響該指標的因素:

(1)文獻庫規模規模越大,檢索時間越長,響應時間值也就越大。

(2)機器速度主機運行速度越快,響應時間越短。

(3)檢索軟件檢索軟件是關鍵,其性能越好,檢索時間就越短。當前69頁,總共343頁。第二章信息檢索基礎原理(4)存儲設備類型和數據的存貯結構存儲設備的訪問速度越快,數據的存貯結構(外存貯)越合理,檢索越容易,響應時間也就越短。(5)提問組配形式檢索式的構造需要有一定的專業技能和檢索經驗,是一個不斷修改和完善的過程。(6)信息中心與檢索者的距離通信傳輸時間與距離有關。當前70頁,總共343頁。第二章信息檢索基礎原理二、網絡信息檢索效果評價指標體系1、索引數據庫的評價指標(1)索引數據庫的規模和內容(2)標引深度和標引準確率(3)數據庫更新頻率思考:人際關系數據庫的索引設計。當前71頁,總共343頁。第二章信息檢索基礎原理2、檢索功能的評價指標網絡檢索工具一般都提供布爾檢索、截詞檢索、限制范圍檢索等基本檢索功能。除此之外,有的工具還提供高級檢索功能,如多語種檢索等。當前72頁,總共343頁。第二章信息檢索基礎原理3、相關性排序相關度的計算是相關性排序優劣的基礎,一般是通過計算檢索詞在每個結果中的出現次數和出現位置來計算相關度的。

一個檢索詞在網頁中出現的次數越多、出現的位置越重要,則網頁的相關度越高。當前73頁,總共343頁。第二章信息檢索基礎原理典型的相關度排序方法:(1)按頻次排序(2)按網頁被訪問度排序(3)基于超鏈接的排序按頻次排序的思想是:如果一個網頁包含了越多的關鍵詞,其搜索目標的相關性越好。這是一種非常合乎常理的方法在這種方法中,搜索引擎會記錄所搜索到的網頁的被搜索次數,從而判斷該頁面被訪問的頻率,被訪問較多的網頁,應該包含信息較多。網頁之間的鏈接反映了某種引用關系,通過構造網頁引用圖,綜合考慮頁面的被引用次數以及所引用頁面的相關度來判斷本頁面的相關度。當前74頁,總共343頁。第二章信息檢索基礎原理4、重復鏈接和死鏈接率如果在檢索結果中同一結果重復出現,特別是那些網頁標題或描述不同的重復結果所占比例很大時,尤其是當這種情況出現在最前面的10個結果中是,會浪費用戶的時間和精力,甚至影響用戶對檢索工具的印象。死鏈接率是檢索結果中死鏈接的結果數占全部檢索結果的比例。死鏈接找不到原始文獻,即使命中記錄再多也沒有用。當前75頁,總共343頁。第二章信息檢索基礎原理5、用戶滿意度主要指標:(1)用戶界面的設計(2)具有信息過濾功能(3)具有靈活的輸出格式(4)提供靈活的輸出格式(5)提供多種內容顯示格式當前76頁,總共343頁。第三章檢索語言第一節檢索語言概述一、概念傳統意義上的檢索語言,是應文獻信息的加工、存貯和檢索的共同需要而編制的專門語言,它是表達概括文獻信息內容的概念及相互關系的一種概念標識系統。廣義上的檢索語言,指信息檢索過程中涉及的人工語言和自然語言。人工語言是根據一定的規則人為編制而成的檢索語言,有嚴格的使用規則,可用于表述文獻主要內容,建立信息檢索系統。自然語言是人類交流時使用的語言,不受任何限制,未經加工和規范。狹義上的檢索語言,僅指根據信息檢索的需要,按照一定的規則對自然語言進行規范,并專門用于信息標引和用戶檢索的人工語言。當前77頁,總共343頁。第三章檢索語言檢索語言又稱情報語言、情報存儲與檢索語言、文獻語言、索引語言、標引語言、標示系統等。1.從自然語言中精選出來并加以規范化的詞匯;2.代表某種分類體系的一套分類號碼;3.代表類事物特征的一套代碼;當前78頁,總共343頁。第三章檢索語言世界常見的檢索語言主要有:《杜威十進制分類法》《國際十進制分類法》《冒號分類法》《中國圖書館分類法》《中國人民大學圖書館分類法》《漢語主題詞表》當前79頁,總共343頁。第三章檢索語言

二、檢索語言所具備的功能(1)對文獻的信息內容及其外表特征加以規范化的標引;(2)對內容相同及相關的文獻信息加以集中或揭示其相關性;(3)可使文獻信息的存貯集中化、系統化、組織化,便于檢索者按一定的排列次序進行有序化檢索;(4)便于將標引用語和檢索用語進行相符性比較。當前80頁,總共343頁。第三章檢索語言

三、檢索語言的類型按不同的標準,檢索語言劃分為:(1)描述文獻的特征(2)結構或原理(3)信息標識的組配方式(4)語言的規范程度當前81頁,總共343頁。第三章檢索語言(1)描述文獻的特征描述文獻外表特征的檢索語言

文獻外表特征:文獻的篇名、作者姓名、出版者、合同號、報告號、引文等;據此作為文獻標識和檢索依據而形成的檢索語言。描述文獻內容特征的檢索語言

是檢索語言研究的核心內容主要包括:分類語言:體系分類語言、組配分類語言主題語言:標題詞語言、關鍵詞語言、單元詞語言、敘詞語言代碼語言:分子式索引、結構式索引、專利號索引例如:題名索引、著者索引、合同號索引、報告號索引、引文索引等當前82頁,總共343頁。第三章檢索語言(2)結構或原理分類語言:用分類號表達各種概念,將各種概念按學科性質進行分類和系統編排。體系分類語言(等級體系分類語言)、組配分類語言(分析-綜合分類語言)主題語言:采用表達某一事物或概念的名詞術語,用于標引、存儲、檢索的一種檢索語言。標題詞語言、關鍵詞語言、單元詞語言、敘詞語言代碼語言:一般只是就事物的某一方面特征,用某種代碼系統來加以標引和排列。分子式索引、結構式索引、專利號索引引文語言:利用文獻之間的相互關系而建立的一種自然語言,其標引詞來自于文獻的主要著錄項目。特點:選詞方便、詞匯豐富,往往看作檢索語言的一種特殊類型。當前83頁,總共343頁。第三章檢索語言(3)信息標識的組配方式先組式檢索語言:

表述文獻主題概念的標識在檢索之前就已固定的檢索語言。后組式檢索語言:

表述文獻主題概念的標識在檢索之前未固定組配,而是在檢索時根據實際需要按組配規則臨時組配的檢索語言。散組式語言:

對于復雜的主題標識,在此表中不組配,而在標引階段將表達主題概念的若干標識,根據規則組配在一起的檢索語言。優點:語言標識明確,系統性較好,適用于傳統的文獻單元方式的目錄索引,是檢索用戶比較習慣的形式。缺點:表達專指概念和新概念較困難,靈活性較差,檢索途徑少,詞表體積龐大。優點:語言采用概念分析和綜合的原理,可實行多途徑、多因素檢索乃至精確檢索,相當靈活,檢索效率較高。缺點:標識明確性不強,造成檢索用戶使用不習慣。當前84頁,總共343頁。第三章檢索語言(4)語言的規范程度人工語言:主題法(標題詞、單元詞、敘詞、關鍵詞)、分類法(體系分類法、組配分類法)和(語義代碼、化學代碼)等種類。自然語言:直接取自文獻信息本身,不經過加工或規范的詞語或句子。當前85頁,總共343頁。第三章檢索語言第二節檢索語言的理論基礎一、概念邏輯

通過明確各種概念及其相互關系而揭示事物的本質屬性及事物之間的聯系與區別,是一種科學思維方法。概念包含內涵(本質屬性)與外延(反映范圍)。當前86頁,總共343頁。第三章檢索語言1、概念間的關系(1)相容關系:同一關系;屬種關系;交叉關系;整體與部分關系;全面與某一部分關系、不相排斥的并列關系。(2)不相容關系:相排斥的并列關系;矛盾關系;對立關系例如:計算機與電腦;酒精與乙醇例如:自然科學是化學的屬概念,化學是自然科學的種概念部分外延相重合,如“團員”與“黨員”例如:汽車與汽車發動機例如:文學家、書法家、軍事家例如:公共圖書館這個屬概念下,省圖書館、市圖書館具有不相容的并列關系例如:金屬材料和非金屬材料例如:17世紀哲學和18世紀哲學,其上位類是“近代哲學”當前87頁,總共343頁。第三章檢索語言2.概念邏輯的關系(1)概念的劃分與概括(分類)通過概念劃分與概括形成概念等級體系。利用劃分和概括過程中所產生的概念隸屬關系和并列關系,構成檢索語言結構體系。(2)概念的分析與綜合(組配)通過概念分析與綜合形成概念組配體系。提供多途徑的信息檢索功能,可以根據需要擴大、縮小或改變檢索的范圍。當前88頁,總共343頁。第三章檢索語言二、知識分類1.知識分類的實質是劃分知識單元、組織知識體系2.知識分類主要包括學科分類:以信息的學科屬性為分類標準,根據各門學科的研究對象的區別和聯系對學科進行區分和組織,確定學科在科學整體中的位置,揭示科學的內部結構,建立符合科學發展規律的分類體系。事物分類:根據事物屬性的異同將事物劃分成類,構成事物的分類體系。3.知識分類遵循的原則:客觀性和發展性4.如果說概念邏輯是檢索語言的基礎,知識分類便是概念邏輯的基礎當前89頁,總共343頁。第三章檢索語言三、術語學術語學:研究概念、概念定義和概念命名規律的學科。術語是傳播知識、技能,進行社會文化、經濟交流等的重要工具。檢索語言是概念標識系統組成的,而概念是術語來表達的,因此,術語是分類表、詞表的基本組成要素。當前90頁,總共343頁。第三章檢索語言第三節分類檢索語言一、分類檢索語言的概念分類檢索語言也稱分類法,是將許多類目根據一定的原則組織起來,通過標記符號來代表各級類目和固定其先后次序的分類體系。當前91頁,總共343頁。第三章檢索語言分類檢索語言主要包括:1、體系分類法

指將文獻信息的類目按等級層層展開并詳盡列舉的一種分類法。2、組配分類法根據概念的分析和綜合原理編制的文獻分類法,它是將主題概念分解為簡單概念或概念因素,按照它們所屬的方面或范疇,分別編列成表;標引時用兩個或多個簡單概念的分類號的組合來表達一個復雜的主題概念。《中國圖書館分類法》《杜威十進分類法》《美國國會圖書館分類法》《中國人民大學圖書館圖書分類法》組配法可分為全面分類法和半面分類法兩種。全面分類法一般僅僅應用較小學科或專業范圍。半面分類法是全面分類法與體系分類法相結合的混合式分類法,如《冒號分類法》當前92頁,總共343頁。第三章檢索語言二、體系分類法1、體系分類法的結構(1)微觀結構

是指分類法中類目的構成結構。

類目體系是分類法的核心。當前93頁,總共343頁。第三章檢索語言A、類目劃分類目劃分的過程通常是由大到小、由屬到種、由整體到部分、由總論到分論、由全面到各方面。被分的類目是上位類,分出來的類目是下位類。當前94頁,總共343頁。第三章檢索語言B、引用次序

是在體系分類法中表現為分類標準的使用次序,當某一類事物連續劃分需要采用幾種分類標準時,分類標準的使用次序是否合理,直接影響分類體系,決定著類目體系展開方式。合理的引用次序應該滿足邏輯性原則、符合檢索需要的原則和表達性原則。當前95頁,總共343頁。第三章檢索語言C、類目的排列

同位類是由一個上位類直接劃分出的各個下位類,它們之間不從屬,相互排斥,處于同等地位。同位類的排列主要采用的序列方法,有按照邏輯順序排列,按照客觀事物發展順序、按照時間發展順序、按照空間排列順序。當前96頁,總共343頁。第三章檢索語言D、類名的確定

堅持科學性、確定性、簡潔性。

注意:如有必要,可將同義詞、俗稱、舊稱等用括號加注在類目名稱之后,如《中國圖書館分類法》中的B82倫理學(道德學)當前97頁,總共343頁。第三章檢索語言E、類目之間的相互關系處理第一從屬關系第二并列關系第三交替關系

使用類目和交替類目之間的關系。有的學科或事物分別屬于兩個門類,編制時確定歸入一個門類,同時在另一個門類設交替類目,以適應學科的交叉關系。交替類目不用來類分文獻。第四相關關系有些類目之間密切相關,而這些類目又不屬于同一個類系,這種類目之間的關系稱為相關關系。例如:【B035】國家理論宜入D03(“政治理論”下的“國家理論”類)O212數理統計參見C8(統計學)當前98頁,總共343頁。第三章檢索語言(2)宏觀結構A、類目體系大多數體系分類法由主表和復分表組成。

主表有基本部類、基本大類、簡表、祥表組成。

復分表又稱為輔助表或者附表,是將祥表中按相同標準劃分某些類所產生的一系列相同子目抽出來,配以特定號碼,單獨編列,供主表有關類目進一步細分的類目表。可分為通用復分表和專用復分表。當前99頁,總共343頁。第三章檢索語言B、標記系統可分為順序制、層累制、混合制、分面標記制。特殊標記法:第一,八分法第二,雙位法第三,借號法第四,組配法第五,空號法當前100頁,總共343頁。第三章檢索語言C、說明與注釋主要包括編制說明、大類說明和類目注釋。類目注釋是對類目的性質或類名的補充說明文字。例如:D631.42戶籍管理流動人口管理入此.

參見C921.3當前101頁,總共343頁。第三章檢索語言D、類目索引主要作用是幫助不熟悉分類表的使用者從主題名稱迅速找到相應類目。注意:類目索引不能用來分類標引,只能是輔助工具。當前102頁,總共343頁。第三章檢索語言2、體系分類法的特點(1)提高查全率。以科學分類為基礎,以邏輯方式進行劃分,體系比較嚴密,強調知識的系統化組織,便于按學科或專業檢索有關文獻。(2)便于瀏覽領域內的相關信息。采用等級列舉式的概念標識系統來揭示概念間的相互關系。(3)不受語種的限制。采用分類號作為主題的標識,避免了語種的限制。體系分類法的不足:(1)修訂不便。無法及時增加反映新知識主題的類目(2)采用先組式標識,難以進行組配檢索。(3)缺乏直觀性。以分類號作為主題的標識。(4)學科交叉滲透的困難。當前103頁,總共343頁。第三章檢索語言三、組配分類法組配分類表:一般由編制說明、基本類表、分面類表目次和分面公式、索引等組成。世界上最重要的組配分類法詞表是阮崗納贊創立的ColonClassification。組配分類表由兩個層面結構組成。第一層是分面結構是對整個知識領域進行分面所形成的基本分面結構;第二層面的分面結構是以第一層次的分面結構為依據,對某一知識領域進一步進行分解形成的分面結構。《冒號分類法》第一層次的分面是:本體、物質、能量、空間、時間。教育類的第二層次的分面結構:受教育者、課程、教學方法、教師、教育環境、共同操作及施動者、理論觀點、地點和時間、通用復分等當前104頁,總共343頁。第三章檢索語言組配分類法的特點:(1)類目較少,但標引文獻的能力較強;(2)多種途徑檢索文獻。可以自由地擴大或縮小檢索范圍,能從多種途徑檢索文獻,還能進行較精確的組配檢索和輪排檢索,在檢索性能、檢索效率和檢索靈活性方面都優于體系分類法;(3)分類表增補和修訂方便靈活。采用分段標記制度,便于分類表的增補和修訂新的主題概念。當前105頁,總共343頁。第三章檢索語言《冒號分類法》冒號分類法(Colonclassification),印度圖書館學家阮岡納贊1933年創制的圖書分類法。它是通用而不是專用的分類法,可通過使用“分面”或“冒號”來建立復雜的新范疇。計108個大類(原33類)和10個概括性的類目(大致于人文科學與自然科學之間分類),其類號由阿拉伯數字、拉丁字母,希臘字母的混合標記所組成。例如牙醫外科的編號為L124:4:7,它用字母L代表醫學,數碼124為牙齒,數字4表示疾病,數字7即外科等一系列字母與數字組配而成。當前106頁,總共343頁。第三章檢索語言第四節主題檢索語言一、概述主題檢索語言又稱主題法,采用語詞直接作為文獻主題標識,按子順排列主題標識,提供各種檢索語詞途徑。類型:1、標題詞語言2、單元詞語言3、敘詞語言4、關鍵詞語言當前107頁,總共343頁。第三章檢索語言二、關鍵詞語言關鍵詞語言的原理是:運用關鍵詞語言編制關鍵詞索引,關鍵詞按子順排列構成索引款目,所抽選的關鍵詞都可以作為標引詞在索引中進行輪排,最為檢索“入口詞”進行檢索。當前108頁,總共343頁。第三章檢索語言關鍵詞索引的類型:1、題內關鍵詞索引2、題外關鍵詞索引3、詞對式關鍵詞索引當前109頁,總共343頁。第三章檢索語言

題內關鍵詞索引(簡稱KWIC),又稱上下文關鍵詞索引。是最早出現的機編索引,首先應用于1960年美國化學文摘社創辦的《化學題錄》。題內關鍵詞索引的標目在款目的中部,左右均為該標目的上下文;索引款目按位于款目中部作為標目的關鍵詞的字順排列。格式如:

KWIC的設計思想是:①文獻題名通常具有揭示文獻主題內容的作用,從題名中抽取的關鍵詞能有效地將用戶指向相關主題的文獻;②保留題名中關鍵詞前后的上下文,有助于說明關鍵詞的含義,可用作限定標目含義的說明語。

KWIC的編制步驟包括:①把經過人工處理的文獻題名(包括增補的關鍵詞)輸入計算機。②計算機用“非用詞表”剔除題名中的介詞、連詞、冠詞等,篩選出有檢索意義的關鍵詞。③將每個關鍵詞依次輪流用作索引標目,同時保留其上下文。若題名過長,可以截斷或移位。④編成索引款目,并進行編排加工,最后交付印刷。上述工序除第一步由人工完成外,其余皆由計算機完成。上文關鍵詞下文文獻地址當前110頁,總共343頁。第三章檢索語言例如,一篇題為Playtherapyformaladjustedchildren(《孤僻兒童的游戲療法》)的論文,輸入計算機后可產生以下幾條索引款目:上文關鍵詞下文文獻地址maladjustedchildrenPlaytherapyfor3000therapymaladjustedChildren/Play3000childrenPlaytherapyformaladjusted3000Playtherapymaladjustedchildren3000當前111頁,總共343頁。第三章檢索語言題外關鍵詞索引(簡稱KWOC)。最早出現的KWIC改進形式。與KWIC相比,其標目的位置不在款目的中部而是在款目的左端或提行至左上方,標目之后(或之下)仍保留完整的文獻題名。其款目格式為:編制時依次輪流將題名中的每個關鍵詞置于標目的位置,原題名中的關鍵詞也可用一符號(如星號)代替,題名之后注明文獻地址,最后款目按關鍵詞的字順排列起來。上例如按KWOC編制,可產生以下幾條款目:或者

關鍵詞標題文獻地址關鍵詞標題文獻地址當前112頁,總共343頁。第三章檢索語言children

playtherapyformaladjusted*3000maladjusted

playtherapyfor*children3000play*therapyformaladjustedchildren3000therapy

play*formaladjustedchildren3000當前113頁,總共343頁。第三章檢索語言詞對式關鍵詞索引

由一對關鍵詞組成的索引。其原理與雙重關鍵詞索引相似,只是不帶上下文。由于款目輪排時采用數學中的排列原理,因此又稱為輪排主題索引。1967年美國費城科學情報研究所(ISI)首創,最先用于編制《科學引文索引》的主題索引。格式如:如第一例編成詞對式關鍵詞索引,可以產生以下6條款目(款目按標目的字順排列):

第一關鍵詞第二關鍵詞文獻地址當前114頁,總共343頁。第三章檢索語言children

maladjusted3000children

playtherapy3000maladjusted

children3000maladjusted

playtherapy3000playtherapy

children3000play

maladjusted3000當前115頁,總共343頁。第三章檢索語言三、敘詞語言敘詞語言是以單元概念的規范化語詞為基礎,以概念組配為基本原理,對文獻主題進行描述的后組式檢索語言。

例如:如何培育香蕉蘋果香蕉口味的水果蘋果當前116頁,總共343頁。第三章檢索語言1、敘詞表一般由主表和若干個附表組成。主表是敘詞字順表,該表將敘詞完全按字順排列,并有標注事項和參照系統。附表主要包括:敘詞分類索引、詞族索引、輪排索引、雙語種對照索引、專有敘詞索引等。也稱分類表或者范疇索引,便于從學科或者專業分類的角度選詞。也稱等級索引,具有屬分關系的一組稱為一族,構成一個從泛指敘詞到專指敘詞的等級系統例如:廣播系統電視廣播系統多伴音樂無線電廣播系統也稱輪排表,將有相同單詞的詞組敘詞集中在一起,排列這個單詞之下如地區索引、人名索引、機構索引等當前117頁,總共343頁。第三章檢索語言2、主題詞之間的關系顯示同義關系用“用(Y)”“代(D)”來表示屬分關系用“屬(S)”“分(F)”來表示相關關系用“參(C)”來表示當前118頁,總共343頁。第三章檢索語言《漢語主題詞表》我國第一部大型的綜合性的敘詞表,由中國科技信息研究所和北京圖書館負責主持,1975年開始編制,1980年正式出版。分為社會科學、自然科學和附表3卷,共10個分冊,全表收錄主題詞108568個。其中正式主題詞91158個,非正式主題詞17410個,詞族數3707個,一級范疇數58個,二級674個,三級1080個。當前119頁,總共343頁。第三章檢索語言

Xianxiangguan——漢語拼音

顯像管【56E】——敘詞和范疇號

Kenescope——英譯名PicturetubeD電視顯像管——非敘詞(代項)監視管

F彩色顯像管——下位詞(分項)固體顯像管黑白顯像管

S電子塑管——上位詞(屬項)Z電子管——族詞首(族項)C顯示管——相關詞(參項)指示管當前120頁,總共343頁。第三章檢索語言第五節分類主題一體化檢索語言一、分類主題一體化檢索語言概念分類主題一體化檢索語言又稱為分類主題一體化詞表,指在一個檢索語言系統中,對他們的分類表部分和敘詞表部分的術語、標識及索引實施統一的控制,使二者有機地融合為一體,從而能夠同時滿足分類和主題標引、檢索的需要,發揮其最佳的整體效應。分類語言與主題語言是兩種不同類型的檢索語言,二者各有優勢和不足。分類檢索語言是按學科、專業集中信息或文獻,以分類號作為主題概念的標識,經過類目的層層劃分與排列,形成了等級式的學科與邏輯體系。主題檢索語言:是按照事物來集中信息或文獻,以受控的主題詞直接作為主題概念的標識,通過參照系統和范疇索引、詞族索引來揭示主題詞相互關系的系統。當前121頁,總共343頁。第三章檢索語言二、分類主題一體化檢索語言的原理分類主題一體化檢索語言是建立在分類檢索語言與主題檢索語言相通的原理基礎上的。1.理論基礎相同。建立在概念邏輯、知識分類、術語學理論基礎上,都使用了概念劃分、概念分析與綜合的方法。2.標識在本質上是相同的。所采用表達信息或文獻主題概念的標識在本質上是相同的,只是表達形式不同,(分類檢索語言用分類號作標識,而主題檢索語言用主題詞作標識)3.分類檢索語言和主題檢索語言處理對象都是語義單元,表達的都是主題概念。當前122頁,總共343頁。第四章信息著錄和標引第一節信息著錄的含義和標準一、信息著錄的含義是指在組織檢索系統時對文獻內容和形式特征進行選擇和記錄的過程。信息著錄的結果是款目。款目是有許多著錄項目組成。當前123頁,總共343頁。第四章信息著錄和標引如:我國國家標準《文獻著錄總則》規定了9大著錄項目,題名和責任者項、版本項、文獻特殊細節項、出版發行項、載體形態項、從編項、附注項、文獻標準編號及有關記載項、提要項。都柏林核心元數據涵蓋15元素:題名、創作者、主題及關鍵詞、描述、出版者、其他貢獻者、時間、類型、格式、標識、來源、語言、關聯、范圍、版權。當前124頁,總共343頁。第四章信息著錄和標引二、信息著錄的作用1.信息著錄是揭示文獻內容特征及相關信息的有效方法2.信息著錄是編制目錄和建立數據庫的基礎3.信息著錄結果是信息檢索的主要依據當前125頁,總共343頁。第四章信息著錄和標引第二節機讀目錄與元數據一、機讀目錄機讀目錄(MARC)即機器可讀目錄的簡稱,來自英文Machine-ReadableCataloging,利用計算機識讀和處理的目錄。它是文獻編目內容(數據)經過計算機處理,以代碼形式記載在一定載體上而形成的一種目錄。機讀目錄是描述文獻著錄項目的國際標準格式,是實現計算機處理書目信息及資源共享的基礎。當前126頁,總共343頁。第四章信息著錄和標引1963年,美國G.W.金等人發表關于美國國會圖書館書目系統自動化的報告,1965年1月提交了關于機讀目錄的初步報告。1966年1月,美國國會圖書館開始實施MARC試驗計劃,吸收了16個圖書館參加,制訂了MARCⅠ格式;試編了機讀目錄,同年9月,生產出機讀目錄試驗磁帶。參加館用這種磁帶試驗生產目錄卡片、書本目錄、新書通報等,取得了較好的效果。經過兩年多的試驗,又設計了適合書目信息交換用的MARCⅡ格式,擴充了字符集,調整和改進了加工系統,1968年7月開始了正式的MARC計劃。1969年3月向全國發行MARCⅡ格式的英文圖書機讀目錄磁帶。機讀目錄的出現,有力地推動了圖書館技術的自動化和標準化。到80年代末,已有英國、聯邦德國、法國、加拿大、丹麥、意大利、挪威、瑞典、澳大利亞、日本以及拉丁美洲和非洲共20多個國家和地區進行了機讀目錄的研究和開發,建立了機讀目錄系統,生產和發行機讀目錄產品。1977年國際圖書館協會和機構聯合會還主持制定了《國際機讀目錄格式》(UNIMARC)。中國國家圖書館即北京圖書館于1987年開始了中國機讀目錄的開發工作,1991年1月正式發行機讀目錄《中國機讀目錄通訊格式》,即CNMACK。當前127頁,總共343頁。第四章信息著錄和標引二、元數據元數據的英文為Metadata,意為關于數據的數據。在因特網中,元數據是指描述任何因特網數據和資源,促進因特網信息資源的組織和發現的數據,可協助對網絡資源進行識別、描述并指示其位置。當前128頁,總共343頁。第四章信息著錄和標引三、都柏林核心元數據和機讀目錄的比較

1.著錄的對象不同2.數據的形式不同3.著錄的主體不同4.著錄的詳簡程度不同5.標識的方法不同當前129頁,總共343頁。第四章信息著錄和標引第三節信息標引的含義與步驟一、信息標引的含義與類型標引是對信息的內容進行分析,并運用一定的語言和方法,根據信息內容的學科屬性等特征給予標識(如主題詞,分類號),并因此作為信息組織、存貯和檢索依據的過程。當前130頁,總共343頁。第四章信息著錄和標引標引的種類標引可分為分類標引(分類法)和主題標引(主題法)兩大類。以分類符號作為描述信息的檢索標識的一類標引稱為分類標引;以語詞符號作為描述信息的檢索表示的一類標引稱為主題標引。當前131頁,總共343頁。第四章信息著錄和標引從另一角度,標引還可以分為受控標引和自由標引。在標引過程中所使用的檢索標識若必須按檢索詞典及相應的標引規則來規范,則這類標引為受控標引,如敘詞法,否則成為自由標引,如關鍵詞法。另外,按是否有機器介入分人工標引、半自動標引和自動標引;按標引的深度分為淺標引和深標引;按標引的信息類型分為概括標引和分析標引。當前132頁,總共343頁。第四章信息著錄和標引二、

標引的過程一般而言,標引分為三大步。(1)主題分析(2)標引(3)標引結果記錄當前133頁,總共343頁。第四章信息著錄和標引主題類型可以從不同角度劃分:1、依據主題數量的多少可以分為:單主題和多主題。2、依據主題的顯露程度可分為:顯性主題和隱性主題。《加壓素治療休克引起冠心病》這一文章,除了休克、加壓素和冠心病這些直接的主題概念外,還隱藏著致病化學因素和藥物副作用等主題概念當前134頁,總共343頁。第四章信息著錄和標引第四節分類標引和主題標引一、分類標引分類標引工作是以標引對象的特征分析為基礎、以分類標引工具為依據、為標引對象賦予類別標識的工作。它是信息組織統計分析、存貯和檢索不可缺少的加工處理程序。當前135頁,總共343頁。第四章信息著錄和標引基本原則(1)學科屬性原則圖書分類應以圖書內容的學科性質作為主要標淮,必要時再以圖書的其它屬性作為輔助標準。如《農村醫生手冊》,首先按其內容性質分入“R醫藥、衛生”類。當前136頁,總共343頁。第四章信息著錄和標引(2)專指性原則要將文獻分入最恰當的類,而不能分入范圍大于或小于文獻實際內容的類目。例如:《信號處理》是論述信號處理的一般原理的著作,入TN911.7;《防火墻與網絡安全:防止黑客侵入》應入TP393.08,而不是泛指的類TP309。當前137頁,總共343頁。第四章信息著錄和標引(3)實用性原則要根據讀者的需要將文獻分如最大用圖的類。例如:《莫泊桑短篇小說選》是法漢對照讀物,根據“最大用圖”如法漢對照讀物H392.4:I565.44。當前138頁,總共343頁。第四章信息著錄和標引(4)系統性原則凡是歸入下位類的文獻必須具有上位類的屬性,體現他們之間的從屬關系。例如:《神經網絡》從人體生理角度論述神經網絡原理,如R383;《神經原理原理》從科學計算角度論述人工神經網絡原理,入TP183當前139頁,總共343頁。第四章信息著錄和標引(5)一致性原則要將內容相同的文獻集中歸入同一個類目,而不是分散在有關各類。例如:《老年經濟學》入F069.9,不入C913.6當前140頁,總共343頁。第四章信息著錄和標引具體規則:1.不同主題圖書的分類

(1)單主題的書①只論述該主題一個方面的書。單主題只論述該主題一個方面的書,按該方面的學科性質歸類。②論述該主題二個方面的書。單主題論述該主題二個方面的書,按著者的寫作目的歸類。③論述該主題三個或三個以上方面的書。單主題論述該主題三個或王個以上方面的書,按主題的學科性質歸類。當前141頁,總共343頁。第四章信息著錄和標引(2)多主題的書①并列關系各主題是并列關系的圖書,如屬不同類列的,有重點的依重點主題歸類,無重點的依在前的或篇幅較多的主題歸類。如屬于同一類列的,則歸入其上位類。當前142頁,總共343頁。第四章信息著錄和標引②從屬關系各主題是從屬關系的圖書,內容涉及的學科是上下位類的關系,一般應歸入其上位類。如圖書內容重點是論述較小主題的,則按較小主題的性質歸類。當前143頁,總共343頁。第四章信息著錄和標引③因果關系各主題是因果關系的圖書,一般按結果的主題歸類。如果一個原因的主題產生幾個結果主題的書,則按原因的主題歸類。當前144頁,總共343頁。第四章信息著錄和標引④影響關系各主題是影響關系的圖書,一般依受影響的主題歸類。但如論及一個主題在各方面影響的書,則依發生影響的主題歸類。當前145頁,總共343頁。第四章信息著錄和標引⑤應用關系各主題是應用關系的圖書,一般按被應用的主題歸類。但一個主題綜合闡述在各方面應用的書,則按該主題的學科性質歸類。當前146頁,總共343頁。第四章信息著錄和標引⑥對立或比較關系各主題是對立或比較關系的圖書,一般按著者所要闡明的或贊同的主題歸類。當前147頁,總共343頁。第四章信息著錄和標引二、主題標引主題標引是依據一定的主題詞表或主題標引規則,將信息資源中具有檢索意義的特征轉換成相應的主題詞,賦予信息資源語詞標識的過程。按照是否使用詞表,主題標引可以分為受控標引和自由標引兩類,依據特定詞表賦予檢索標識的,稱為受控標引;直接采用自然語言語詞進行標引的,稱為自由標引。前者在手工系統中使用較多,后者在計算機系統中使用較多。當前148頁,總共343頁。第四章信息著錄和標引基本規則:1.主題標引的查詞規則(1)采用正式敘詞標引。即用來標引文獻主題概念的敘詞必須是《漢表》中的正式敘詞其書寫形式必須與詞表中的詞形一致。非敘詞不得直接用來進行標引。采用最專指的敘詞標引。當詞表中沒有相應專指敘詞時,可選用詞表中最接近、最直接關聯的兩個或兩個以上的敘詞進行組配標引。當前149頁,總共343頁。第四章信息著錄和標引(2)上位敘詞標引。當詞表中沒有最專指的敘詞,也無法以詞表中最接近、最直接關聯的敘詞進行組配標引時,可選用上位敘詞標引。(3)增詞標引。如待標引的主題概念為未收入詞表的新概念,不適宜采用上述任何方法標引,同時本身又具有較大研究價值和檢索意義時,可采用增詞標引。增詞標引一般包括下述情況:詞表中明顯漏收的主題概念的詞。當前150頁,總共343頁。第四章信息著錄和標引2.主題標引的組配規則為了保證在組配標引時盡可能取得一致,避免出現標引誤差,在應用《漢表》進行組配標引時,一般應遵循下述組配規則:(1)敘詞的組配必須是概念組配,而不是字面組配。參加組配的敘詞之間必須符合一定的邏輯關系,而不是簡單的字面分拆或語詞組合。當前151頁,總共343頁。第四章信息著錄和標引

(2)敘詞的組配應優先采用交叉組配,當不能用相應敘詞進行交叉組配時,才選用限定組配。(3)敘詞的組配必須選用與文獻主題關系最密切、最鄰近的敘詞進行。當前152頁,總共343頁。第四章信息著錄和標引第五節自動標引一、自動標引概況自動標引指直接通過計算機的操作處理,賦予檢索標識的活動。自動標引是根據檢索的需要發展起來的,是電子環境下出現的一種新的標引形式。當前153頁,總共343頁。第四章信息著錄和標引自動標引的意義:1.適應信息資源快速增長的需要加利福尼亞大學伯克利分校研究人員發現,僅1999-2002年的三年中,全球新生產出的信息量就翻了一番。新產生的信息中92%記錄在硬盤等磁存儲介質上。信息資源的快速增長,造成信息相對過剩。只有提高信息組織的效率,才能擺脫信息相對過剩帶來的困惑,因此信息標引顯得非常重要。自動標引適應了這一需要。當前154頁,總共343頁。第四章信息著錄和標引2.相對手工標引存在很大優勢,克服了手工標引難以克服的缺點。與熟練標引人員相比,自動標引的準確性不如手工標引,但在其他指標方面自動標引具有無可比擬的優勢:處理能力強處理速度快成本低一致性好,穩定性好當前155頁,總共343頁。第四章信息著錄和標引美國的Cleverton曾作過一些試驗,結果:兩組人員為同一主題編出的敘詞表中詞的同一率僅60%;兩位有經驗的標引員用同一敘詞表對同一篇文獻進行標引,其標引詞的同一率僅有30%左右;兩個在同一數據庫中用同一檢索系統檢索同一問題的用戶,檢索出的結果同一率僅40%;兩位科研人員根據同一提問判斷一組指定文獻的相關性,其同一率不會超過60%。當前156頁,總共343頁。第四章信息著錄和標引自動標引不受標引人員狀態和情緒的影響,穩定性好。美國學者倫茲作過兩個試驗,6名標引人員在不同時間標引同一文獻,一致率為15.8%;由同一標引人員在不同時間標引同一文獻,一致率為16.19%。采用計算機自動標引,無論何時對同一篇文獻總能標引出相同的主題詞。當前157頁,總共343頁。第四章信息著錄和標引

美國學者Salton對受控人工標引系統MEDLARS和自動標引系統SMART做了一些比較,結論是:相對簡單的自動文本分析系統在文獻檢索環境中產生的檢索結果,其質量不亞于受控標引通常所能達到的水平。當前158頁,總共343頁。第四章信息著錄和標引自動標引的流程:機讀文獻語句分析語詞加權確定閾值選出標引詞概念轉換受控詞停用詞處理抽詞關鍵詞文檔與索引生成手檢或機檢用戶相關性判斷反饋當前159頁,總共343頁。二、自動標引方法統計標引法(課堂只講這種方法)概率標引法:根據文獻滿足提問的概率來估計句法分析標引法語義分析標引法人工智能標引法當前160頁,總共343頁。第四章信息著錄和標引Zipf’sLaw齊普夫定律是由美國學者G.K.齊普夫于上世紀40年代提出的詞頻分布定律。

它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在后的遞減順序排列,并用自然數在這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,,頻次最小的詞等級為D。若用f表示頻次,r表示序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。

當前161頁,總共343頁。第四章信息著錄和標引與文獻標引的關系把所有的詞分高頻詞、中頻詞和低頻詞。高頻詞:傳遞信息能小,多為虛詞,標引能力低。中頻詞:傳遞信息能大,多為常用的術語。為標引時選詞的最佳對象,專指度適中。低頻詞:傳遞信息能力極強。產生的原因較復雜。可能是冷僻詞,也可能是新引進的概念。可以選中頻詞和個別低頻詞標引作為文獻標引的候選詞。當前162頁,總共343頁。第四章信息著錄和標引1、絕對頻率加權法20世紀50年代Luhn在Zipf定律基礎上提出主要步驟給定m篇文獻組成的一個集合,設第k個詞在第i篇文獻中發生的頻率fik。決定該詞在整個文獻集上的發生頻率:fk=∑fik按照fk的大小將詞降序排列,用試錯法確定高頻詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論