




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息組織《信息組織》內容簡介
《信息組織》是信息管理專業的核心課程之一。它系統地闡述了信息資源描述與組織的理論和方法。本課程主要內容有:第一部分:引論(1章)第二部分:信息組織分類語言與主題描述語言(2-3章)第三部分:置標語言工具(4章)第四部分:信息資源描述與組織的元數據方法(5章)第五部分:信息資源組織的數據庫方法(6章)第六部分:網絡信息資源組織(7章)第七部分:索引數據庫與搜索引擎(8章)第八部分:信息組織在各行業應用(9章)第九部分:發展趨勢1《信息組織》馬張華編著清華大學出版社,20072《信息組織》戴維民主編高等教育出版社,20043《信息組織概論》冷伏海主編,科學版社,20034《信息組織的分類法與主題法》曹樹金,羅春榮著北京圖書館出版社,2000年5《情報語言學基礎》張琪玉著武漢大學出版社,1998年6《漢語敘詞標引規則》中華人民共和國國家標準(GB13190—91)推薦書目主要內容:
本章對信息組織以及與信息組織有關的一些基本問題做一分析,并簡要評析信息組織中幾種重要的組織方式與方法。
第一章信息組織概論失去控制和無組織的信息不再是一種資源.我們淹沒在信息中,但是卻渴求知識.--(美國)奈斯比特《大趨勢》一是知識和信息的海量性與人的精力、時間的有限性形成了尖銳的對立;二是知識和信息的無序性和污染性與人類使用的選擇性也形成尖銳的矛盾。一、信息與信息組織1、信息與信息社會信息的含義:泛指通過指令、數據、符號發出的對接受者來說在此之前還沒有獲知的信息。信息社會:是高度信息化、知識化的社會。它的主要特點是在社會生活中廣泛應用信息技術、信息獲取與傳遞十分方便、信息生產發達、信息消費旺盛,促進了社會快速發展、人民生活質量迅速提高。信息社會的發展歷程一、信息與信息組織1、信息與信息社會信息的含義:泛指通過指令、數據、符號發出的對接受者來說在此之前還沒有獲知的信息。信息社會:是高度信息化、知識化的社會。它的主要特點是在社會生活中廣泛應用信息技術、信息獲取與傳遞十分方便、信息生產發達、信息消費旺盛,促進了社會快速發展、人民生活質量迅速提高。信息社會的發展歷程2、信息組織的誕生與發展信息組織:是對信息資源對象進行收集、加工、整合、存儲使之有序化、系統化的過程。信息組織的目的是為了檢索信息、利用信息。傳統的信息組織的場所如圖書館、情報所、檔案館等。數據庫和互聯網是新興的信息組織空間。信息組織的目的:實現無序信息向有序信息的轉換
(1)減少社會信息流的混亂程度;
(2)提高信息產品的質量和價值;
(3)建立信息產品與用戶的聯系;
(4)節省社會信息活動的總成本。
●信息組織的一般定義:信息組織是以文本及其它類型的信息資源為對象,通過對其內容特征及形式特征的分析、選擇、標引和處理,使之成為有序化的信息集合的過程。這個定義有以下幾點:●信息組織的對象(資源):用文字符號寫作的文本或文件(紙質的、電子的等)、圖象、圖形、聲頻、視頻等?!裥畔⒔M織的依據:內容特征與形式特征——★1)內容特征:文件(資源)論述的主題、論題或研究的問題?!?)形式特征:文件的外部特征,如文件的著者、寫作形式、地區、時間等。●信息組織的方法:分析、選擇、標引和處理★分析:分析文件(資源)的主題范圍題、內容特征、學科性質及形式等;★選擇:在許多符號中選取并確定一個或一組能表達資源主要特征的符號代表該資源。★標引:用選取的符號代表該資源,有時學要確定一個主要符號和次要的符號?!锇逊柊匆欢ㄔ瓌t(規則)組成一個次序。●信息組織的目標:資源有序化:建立存?。╝ccess)秩序,以便檢索(retrieval,search查找)和利用(usageandreuse)?!裼行蚧姆椒ǎ骸锱判颍▋热莼蛑黝}排序、形式排序、應用排序等);★優化:資源精選、內容聯系、邏輯關聯、應用關聯、混搭(mashup)、個性化或個人化組織等等。2、信息組織的誕生與發展1)、信息組織的三個發展階段(按職能劃分)
(1).清冊時期主要工作是記錄和登載信息書目型的有序化成果,手工方式
(2).查檢職能時期主要職能是查檢信息,文摘型和索引型有序化成果,開始導入如穿孔卡片系統和縮微膠片系統等機械化和半機械化手段
(3).組織職能時期融信息收集、信息分析、信息描述、信息揭示、信息存儲于一體,信息組織產品商品化,使用以計算機技術、通訊技術、網絡技術為代表的現代信息技術2、信息組織的誕生與發展2)、信息組織的三個發展階段(按組織對象劃分)
(1).文獻組織時期是伴隨著文獻量的激增而誕生的主要工作以圖書情報領域的信息組織工作為主流。
(2).信息組織時期轉向網絡信息資源和電子介質,特別是轉向自動化功能全速度快的信息資源組織方法。(3).知識組織時期知識組織最早由英國著名的圖書館學家布里斯提出來。是指為促進或實現主觀知識客觀化和客觀知識主觀化而對知識客體所進行的諸如加工、整理、引導、揭示、控制等一系列組織化過程及其方法。3.信息組織的特性1)信息組織的滲透性。信息組織的滲透性指信息組織存在于各種信息揭示、存貯和檢索活動之中。2)信息組織的依附性。信息組織的依附性指信息組織無法獨立存在,它要以信息的識別、揭示等活動為前提。3)信息組織的增效性。信息組織的增效性是指信息組織可以增加信息傳播、檢索、利用的效率。
二信息組織的理論方法1、信息組織的理論基礎1)系統科學理論:系統是指為達到某種共同的目的,若干構成要素相互有機地結合的復合體。信息組織使系統的信息有序化,使有組織的信息整體功能大于各個信息單元的功能之和。2)耗散結構理論:一種遠高平衡態的非平衡系統在其外參數變化到某一值時,通過系統與外界連續不斷地交換能量和物質,系統可以從原來無序狀態轉變為空間、時間和功能上都有序的結構。1.信息組織的理論基礎3)協同學理論:研究協同系統在外參量的驅動下和在子系統之間的相互作用下,以自組織的方式在宏觀尺度上形成空間、時間或功能有序結構的條件、特點及其演化規律。4)突變理論:突變理論主要以拓撲學為工具,以結構穩定性理論為基礎,提出了一條新的判別突變、飛躍的原則:在嚴格控制條件下,如果質變中經歷的中間過渡態是穩定的,那么它就是一個漸變過程。5)知識組織理論:知識組織是指對知識客體進行整理、加工、揭示、控制等一系列組織化過程。(6)信息自組織理論:信息自組織是指作為信息系統組成要素的信息,由于人與人之間、人與系統其它要素之間存在的相關性、協同性或默契性而形成特定結構、功能的過程,也就是信息系統無須外界指令而能自行組織信息、自我走向有序化和優化的過程。
2.信息組織發展的方法學基礎語言學:語言是人類最重要的交流符號系統,是信息的載體,包括語詞、詞匯和語法。邏輯學:邏輯學是關于思維規律的科學。進行信息組織工作必然用到形式邏輯的一些方法。知識分類學:知識分類是一門研究知識體系結構的學問。信息組織活動必須建立在人們對知識體系認識的基礎之上。3.信息組織的基本方法方法1)、基于傳統印刷型載體信息的組織方法長期以來,以紙張為記錄載體的文獻組織方法是以分類組織法和主題組織法為主要形式。(1)所謂“類”,是指具有某種共同屬性的一組事物的集合。分類步驟①查重即利用題名目錄或機讀目錄,查明待標的文獻與已入藏文獻的關系,并根據不同情況進行相應的處理。②分析首先從信息論述的問題及其所涉及的各個方面進行分析入手,概括信息的主題。
其次對構成主題的基本要素,要素對主題的作用以及要素之間的關系進行分析,明確主題結構。
最后對主題類型進行分析。(2)主題法的含義主題是指信息所論述的主要對象,包括事物、問題、對象等。用來表述信息主題的詞語,稱為主題詞。主題法是直接以表達主題內容的詞語作檢索標識、以字順為主要檢索途徑,并通過詳盡的參照系統等方法揭示詞間關系的標引和檢索方法。
標題法。單元詞法。關鍵詞法。敘詞法。
2)網絡環境下信息資源的組織方法(1)網絡對傳統信息組織方式的沖擊體現在幾個方面①信息量劇增及傳遞速度的加快②信息種類增多,數據庫成分復雜化③用戶成分發生很大變化,要求信息組織方式的透明化、易用化④網絡信息資源共享要求信息組織標準化、兼容化網絡信息資源的組織方法網絡一次信息資源的組織方法
(1)超文本方法利用超文本技術,將信息組織為網狀結構,非順序性瀏覽方式,信息表達方式多樣,除文字外,還可以是圖形、聲音、動畫等多媒體形式
(2)自由文本方法根據文獻全文的自然狀況直接設置檢索點,通過計算機自動進行文獻信息處理和組織,主要用于全文數據庫的組織
(3)主頁方式類似于檔案卷宗的組織方式網絡二次信息的組織方法
(1)搜索引擎方法按關鍵詞查詢的Web頁索引數據庫
(2)主題樹方法將信息資源按照某種事先確定的概念體系分門別類地逐層加以組織,用戶先通過瀏覽的方式層層遍歷,直至找到所需要的信息線索,再通過信息線索連接到相應的網絡信息資源<HTML>
<HEAD><TITLE>文檔標題(網頁標題)</TITLE>
</HEAD>
<BODY>
文檔主體,正文內容(網頁內容),很多標記都作用于此
</BODY>
</HTML>三、信息組織的技術基礎信息組織的四大基本技術
計算機技術
通信技術
控制技術
傳感技術三、信息組織的技術基礎信息組織中的高新技術
自動分類標引技術:由計算機代替人工對文獻信息進行分類,賦予 其分類標識,以描述文獻主題內容的活動
自動主題標引技術:由計算機自動確定語詞標識來表達信息資源主 題的過程
漢語自動分詞技術:把漢語句子用計算機自動切分成詞的技術
字符識別技術
語音識別與語音合成技術三、信息組織研究的主要內容1、信息資源描述1)文獻著錄標準化著錄是指在編制文獻目錄時,對文獻內容和形式特征進行分析、選擇和記錄的過程著錄的結果是款目,它是反映文獻內容和形式特征的著錄項目的組合
著錄的標準化文獻著錄標準化是指在國家或國際范圍內,對文獻著錄的原則、內容、格式等作出具有一定約束力的規范。
1971年,國際圖書館協會聯合會(IFLA)編目委員會,單行著作國際標準書目著錄(ISBD(M))
。1976年,國際標準書目著錄總則(ISBD-(G))1978年,AACR2。我國的著錄標準化
《文獻著錄總則》(GB37921-83)(1983,7月)《普通圖書著錄規則》《連續出版物著錄規則》《非書資料著錄規則》《地圖資料著錄規則》《檔案著錄規則》《古籍著錄規則》《檢索期刊條目著錄規則》《文后參考文獻著錄規則》2)網絡信息資源描述的相關標準
《文本編碼倡議》(TextEncodedInitiative,簡稱TEI)《都柏林核心集》(DublinCore,簡稱DC)《政府信息定位服務》(GovernmentInformationLocatorService,簡稱GILS)《聯合地理數據委員會的數字地球空間元數據》(ContentStandardDigitalGeospatialMetadata,簡稱CSDGM)《可視資源核心范疇》(CoreCategoriesforVisualResources,簡稱CCVR)《編碼檔案描述》(EncodedArchivalDescription,簡稱EDA)《博物館信息的計算機交換》(ComputerInterchangeofMuseumInformation,簡稱CIMI)
其他標準
MARC(美國的USMARC、國際標準UNIMARC、中國的CNMARC、日本的JMARC、英國的UKMARC、加拿大的CANMARC、東南亞的SEAMARC)
都柏林核心數據(DublinCore)
VRA核心類目(VRACoreCategory)
藝術作品著錄類目(CategoriesfortheDescriptionofWorksofArts)CDWA
REACH著錄單元集合(REACHelementset)
PICS、WebCollections、CDF、MCF、RDF等。(1)MARC標準
MARC(MAchineReadableCatalogue)機器可讀目錄起源于美國國會圖書館于1965年1月提出的“標準機器可讀目錄記錄款式的建議”(即MARCⅠ)。1967年MARCⅡ格式問世。
MARC格式的主要特點:①共包括001~999個字段,其中999字段為用戶自定義的字段;②字段內容著錄詳盡,字段下又設子字段以及重復字段;③字段作用強化,可檢索的字段多;④每條MARC記錄可分為頭標區、目次區、數據區。①USMARC(美國國會圖書館機讀目錄通信格式)
USMARC的前身為MARCⅡ格式,它完全與ISO-2709規定一致,只在其字段標識和內容項目上不同。每條USNARC記錄由頭標區、目錄區、數據區三部分組成。USMARC格式的主要字段有:目錄控制區、主要款目(如個人作者、團體機關、會議或者集會、通用書名標目)、書名出版項、稽核項、叢書項、附注項、主題附加款目、其他附加款目(如個人姓名附加款目)、叢書附加等。
USMARC的改進“電子資源地址與存取”字段(856字段)主要記錄被著錄的數字對象或與之相關的其他電子資源的存儲地址和存取方式,為可重復字段,包含27個子字段。增加部分“本館用”字段以彌補不足。題名字段(245字段)、電子資源地址與存取字段(856字段)為必備字段。盡可能使用責任者字段(1××)、主題字段(6××)、注釋字段(5××)。②UNIMARC(國際機讀目錄通信格式)
該標準是IFLA于1976年在USMARC基礎上主持制訂的。UNIMARC主要特點:UNIMARC將內容標識符標準化,克服以往各國使用本國MARC系統中標識符的專指性。編排字段不是按卡片目錄的著錄順序,而是按字段的內在聯系組織數據,并把相同性質的字段編排在一起,組成字段的功能塊。重視書目文獻庫中相關文獻之間的關系如平行關系、層次關系、從屬關系。③CNMARC(中國機讀目錄格式)
CNMARC是我國國家書目機構依據UNIMARC制訂的《中國機讀目錄格式》(ChinaMARCFormat),作為中華人民共和國文化行業標準WH/T050396推出,它與ISO2709的規定相一致,以UNIMARC為依據,并補充了中國出版物特有的字段定義。它增加了以下字段和子字段:091統一書刊號;092訂購號;093專利號;094標準號;690中國圖書館分類法;692中國科學院圖書分類法;905館藏信息。一條CNMARC記錄的記錄頭標由24個字符構成地址目次區由三位數字表示的字段號、四位數字表示的字段長度和五位數字表示的字段起始字符位置構成。數據字段的長度可變,每個字段之間由字段分隔符隔開。數據字段的結構根據字段號的不同有不同的結構。記錄結構和地址目次區的結構(2).DublinCore(都柏林核心集)
都柏林核心集(DublinCoreElementSet,簡稱為DublinCore)是描述網絡信息資源的一種簡單元數據,是文獻鏈接的客體,它包括15個數據單元。
DublinCore的主要優點有:簡單易懂:15個標記元素通俗易懂。運用靈活:它既可以用于規范的資源描述領域,也可以用于非專業領域。國際通用:已有德語、日語、葡語、西語等10余種不同語種的版本??蓴U展性:不僅15個標記元素和子元素可擴展,DublinCore還可以與其他元數據元素連接使用。都柏林核心元數據探索項目及設置的限定詞
(DublinCoreMetadataInitiative,簡稱DCMI)序號(No.)描述項目(Element)限定(Elementefinements)編碼規則(EncodingSchemes)1題名選擇題目2描述目次、文摘3主題和關鍵詞LCSH、MeSH
DCC、LCC、UDC4資源類型DCMIType、Vocabulary5來源URI序號(No.)描述項目(Element)限定(Elementefinements)編碼規則(EncodingSchemes)6與其他資源的關系版本、代替關系、需求關系、參考與被參考、格式7
范圍空間DCMIPoint、ISO3166|、DCMIBox、TGN、DCMIPeriod、W3C-DTF時間8創作者9其他責任者10出版者序號(No.)描述項目(Element)限定(Elementefinements)編碼規則(EncodingSchemes)11權限管理12日期創建、有效、可獲取、發表、修改DCMIPeriod、W3C-DTF13格式擴展格式媒介IMT14語言ISO639-2、RFC176615資源標識URNs、PURL、URI、ISBN(3).VRA核心類目格式
VRA(VRACoreCategoriesforVisualResources)”格式的著錄類目可以分為兩類:視覺文獻所記載的原始作品著錄的類目為三維作品19個數據單元;記載某一種作品實體的視覺文獻特征的視覺文獻著錄類目9個數據單元:視覺文獻類型、視覺文獻格式、視覺文獻尺寸、視覺文獻出版日期、視覺文獻收藏者、視覺文獻收藏號碼、視覺文獻視點描述、視覺文獻主題、視覺文獻來源。
(4).元數據規范
PICSPICS(ThePlatformforInternet“ContentSelection”),W3C(WWWConsortium)于1995年組織開發的一種元數據標準。引入內容分類定級機制.對Internet上的資源進行分類定級。
WebCollectionsWebCollections是較早利用XML應用環境建立起來的一個元數據框架。它采用了與HTML語言相似的樣式風格,其數據可以緊緊地嵌入到HTML文檔中,便于用戶使用,它還引入了一種表示元數據的層次結構的方法,可用于Web頁面、WebMap、E—mail、內容標引、分布式創作等多種應用場合。CDFCDF頻道定義格式(ChannelDefinitionFormat),是Microsoft提出的一種元數據規范。CDF借助于HTML語法來對其頻道內容進行描述,當瀏覽者接入到該頻道后,這些元數據就會展現出來。MCF
MCF元數據框架(MetaContentFramework),是1997年Netscape公司向W3C提交的一種元數據方案。MCF力求實現一種“單一的數據模式和相應的互換格式”的元數據框架。其兼容性和包容性好,并允許動態地擴展新的數據類型。
RDFRDF資源描述框架(ResourceDescriptionFramework),是為解決現存的各種元數據之間的互操作性,由W3C主導、結合多個元數據團體(如DublinCore等)發展而成的一個框架體系。RDF是一個能對結構化的元數據進行編碼、交換、再利用的體系框架,它為元數據提供了一個可操作的載體,提供了在各種不同的元數據體系之間的互操作性。
2.標引1)標引的基本概念信息標引(文獻標引):分析文獻的內容屬性(特征)及相關外表屬性,并用特定語言表達分析出的屬性或特征,從而賦予文獻檢索標識的過程。標引語言是表達文獻主題概念和檢索需求主題概念的簡明性、單義性和關聯性的概念標識系統,是根據標引和檢索需要而編制的人工語言。文獻標引過程一般包括兩個環節:
主題分析轉換標識
2)標引語言的基本概念:表達信息主題概念和檢索需求主題概念的簡明性、單義性和關聯性的概念標識系統。
3)標引語言的類型依據構成原理可將標引語言分為分類語言、主題語言、代碼語言。分類語言可細分為體系分類語言、組配分類語言、體系—組配分類語言。主題語言可進一步劃分為標題語言、單元詞語言、敘詞語言、關鍵詞語言。
依標識組合時間的分類先組式語言先組式語言是指標識在編表時(標引前)就已組合好,標引和檢索時不必或較少進行組配的標引語言。
后組式語言后組式語言是指標識主要供組配使用,而且標引時不將標識組配在一起,到檢索時才將標識組配起來的標引語言。散組式語言散組式語言是指標識主要供組配使用,而且標引時就要將表達主題概念的若干個標識組配在一起的標引語言。
4)、標引的種類
標引的種類最主要的是分類標引和主題標引。分類標引是指對文獻進行主題分析,用分類語言表達分析出的主題,賦予文獻分類檢索標識(分類號)的過程。文獻分類是指根據文獻內容及其他相關屬性,以分類語言(分類法)為工具,分門別類地系統揭示和組織文獻的過程和方法。主題標引是指對文獻進行主題分析,用主題語言(主題法)表達分析出的主題,賦予文獻主題檢索標識(標題詞、敘詞等)的過程。3、信息資源的整序與存儲1)CNKICNKI有光盤、鏡像和網絡三種服務方式。主要數據庫中國期刊全文數據庫中國期刊全文數據庫(CJFD)報道1979年以來國內公開出版的7000多種核心期刊與專業特色期刊的全文內容,分理工A、B、C,農業、醫藥衛生,文史哲,政治經濟法律,教育與社會信息綜合,電子技術與信息科學九大專輯,126個專題文獻數據庫。
中國優秀博碩論文全文數據庫報道國內300家博士培養單位的優秀博碩論文全文,收錄數據從2000開始,中心站日更新數據。中國重要報紙全文數據庫收錄2000年以來近千種重要報紙刊載的學術性、資料性文獻,年報道80萬篇。數據日更新。
檢索途徑與方法(1)選擇檢索用數據庫與專輯(2)檢索途徑:
A.檢索式途徑
a初級檢索
b高級檢索
c專業檢索
B.導航檢索:專輯導航、中圖分類法、期刊導航3、信息資源的整序與存儲1)CNKI2)百度(1)搜索器其主要功能是在互聯網中漫游,發現和搜集信息。它通常是一個遵循一定協議的計算機程序,即蜘蛛程序(Spider)。它日夜不停地運轉,要盡可能多、盡可能快地抓取網頁,搜集各類信息。在Internet中信息是用HTML語言描述的,不同的HTML頁面通過其中所包含的超級鏈接互相聯接,這些超級鏈接以URL(UniformResourceLocator,信息資源的標準通用地址)的方式被表示出來。Spider程序從一個起始的URL集開始,順著URL中的超鏈接(Hyper
Link)以寬度優先、深度優先或啟發式方式循環地在互聯網中搜集信息。索引器索引器將生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(Inversion
List),即由索引項查找相應的URL。索引表也可能要記
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《成本與管理會計(英文)》課件-3.1Cost flows in manufacturing business
- 音樂課介紹課件
- 高效節能電機項目招投標方案(模板)
- 2025年果酒及配制酒項目發展計劃
- 2025年鋼結構用H型鋼項目發展計劃
- 2025年太陽能電池用多晶硅、非晶硅項目合作計劃書
- 2025年互聯網醫療平臺在線問診服務質量優化報告
- 2025年工業互聯網平臺漏洞掃描技術在物聯網安全防護中的應用研究
- 時尚零售行業快時尚模式下的品牌合作與聯合營銷報告
- 智慧城市的公共交通數據分析報告
- 合同公司變更協議書范本
- 文學概論考試要點試題及答案
- 2024–2025年中國數據標注產業深度分析報告
- 學校粉刷門窗協議書
- 2025-2031年中國材料預浸料行業市場深度研究及發展趨勢預測報告
- 法人更換免責協議書
- 2025-2030年中國鄉村振興戰略行業市場發展分析及前景趨勢與投融資發展研究報告
- 小球彈簧(蹦極、蹦床)模型-高考物理一輪復習模型及解題技巧(解析版)
- 氫能分解與轉化技術創新-全面剖析
- 2025-2030天文望遠鏡行業市場深度調研及發展趨勢與投資戰略研究報告
- 2025年小學教師資格考試《綜合素質》邏輯推理能力測評題庫(附答案)
評論
0/150
提交評論