古籍文獻數據庫存在的問題與突破的方向――試論計算機技術在古典文獻研究中的若干問題_第1頁
古籍文獻數據庫存在的問題與突破的方向――試論計算機技術在古典文獻研究中的若干問題_第2頁
古籍文獻數據庫存在的問題與突破的方向――試論計算機技術在古典文獻研究中的若干問題_第3頁
免費預覽已結束,剩余7頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

古籍文獻數據庫存在的問題與突破的方向――試論計算機技術在古典文獻研究中的若干問題

內容提要:計算機技術在古典文獻整理與研究中的貢獻是極大的,但目前存在著缺乏統一領導與規劃;開發商嗜利忘義;熱門文獻數據重復,冷門文獻數據罕見;技術關卡重重,難以互相兼容;功能單調,難以真正為科研服務;學術圈地,使人心有余而力難用等問題。解決這一問題的關鍵在于建立公共古典文獻數據庫和開發個性化文獻檢索服務系統兩個方面。具體說來是加強總體規劃,建立公共古典文獻數據庫;數據庫內容與文獻檢索服務系統分離;加速確定字庫方案;徹底解決古典文獻版權問題;建立公平的交易平臺和發展新興學科,培養專業人才。

關鍵詞:古典文獻數據庫公共古典文獻數據庫文獻檢索服務系統

計算機技術的飛速發展,為古典文獻研究的現代化提供了堅實的基礎,其貢獻是有目共睹的。然而,計算機技術在古典文獻研究中的運用仍然存在著極為嚴重的缺陷也是不容回避的。筆者近幾年來主持并直接參加設計“e書庫”數據庫的過程中,感到有必要將自己的一些想法提供給正在設計有關軟件的計算機專業人員、愿意使用該類軟件的專家學者們參考。一、我國古典文獻數據庫建設的歷程

自古以來,歷代學者對古典文獻整理與研究一直沿襲手工操作的方式,然而自上世紀80年代后,計算機技術開始涉入到古典文獻研究中,對傳統的古典文獻整理與研究方法(自然也對一切需要使用古典文獻資料的專業研究)起到了極大沖擊。

首先簡單回顧一下計算機技術在古典文獻研究領域內發展的歷程。上世紀80年代初,我國一些圖書館、大專院校及科研機構陸續開始大規模地利用計算機設計并建立數據庫。大致說來有兩類數據庫,一類是書目數據庫,一類是文獻數據庫。南京圖書館于90年代初率先建立書目數據庫,對讀者檢索有關書目起到了極大的幫助。之后,各地圖書館紛紛效尤,類似的書目數據庫很快就普及了。雖說至今各地圖書館的書目數據庫的檢索方式,仍存在機讀編碼格式不統一的問題,然而書目數據庫提供的方便快捷的查詢功能,對讀者來說無疑是一件大好事,具體到學術研究來說,至少為研究者提供了一個比較方便的查找有關古典文獻的實用工具。

在建立書目數據庫的同時,一些大專院校與科研機構開始研發各自的文獻數據庫。從數據制作格式來說,大致可以區分為兩類,一類是圖像格式,即將按原著內容掃描成PDF圖像文本,另一類是元數據格式,即錄入文獻文本內容(或掃描并轉化為電子文本)導入數據庫,并轉換成可閱讀與檢索的數據庫機讀格式。一般說來,無論是PDF格式還是元數據格式,它們數據庫容量都較大,也提供了較為原始的檢索方式,為學術研究提供了不小的幫助。從上述兩類制作格式的數據庫來說,PDF圖像文本可以直接閱讀圖像文字,但總體說來不太適應古典文獻整理與研究的需要。而元數據格式較為精致,初步具備了較為方便的常用的功能,可以檢索、作卡片等等。

古典文獻數據庫從收錄的文獻內容來說,大致可以分為兩類:一類是類目數據庫,即按“類”收錄有關圖籍,如經學類、史學類、文學類以及甲骨文、金文或出土文獻資料、石刻資料等等,另一類是綜合數據庫,如《四庫全書》、《四部叢刊》、《國學寶典》之類數據庫。

大陸最早的古典文獻數據庫是河南大學的《宋人筆記檢索系統南宋主要歷史文獻》,建立于1987年。之后,各種數據庫紛紛涌現,比較重要的有南京大學、河南大學、蘇州大學聯合研制的《計算機甲骨文信息處理系統》、中國社會科學院《全唐詩》、《先秦魏晉南北朝詩》、《全上古三代秦漢三國六朝文》、《十三經》、《全唐文》、《諸子集成》等數據庫、北京大學《全宋詩》數據庫、南京師范大學《全唐五代宋詞》數據庫、四川大學《宋會要輯稿》數據庫(與海外合作)等等。港臺古籍數字化起步較早,均采用繁體字形式。1984年臺灣中央研究院歷史語言研究所開始研發《漢籍全文資料庫》,香港中文大學則有《漢及以前全部傳世文獻》、《魏晉南北朝全部傳世文獻》、《竹簡帛書出土文獻》數據庫等等。其中《竹簡帛書出土文獻》收錄《馬王堆漢墓帛書》、《武威漢簡》、《睡虎地秦墓漢簡》、《銀雀山漢簡》、《居延漢簡釋文合校》及其它散見簡牘共140多萬字的竹簡帛書出土文獻,價值頗高。

值得注意的是,這些數據庫主要是提供給本單位研究人員使用的,當然也有部分數據庫對外開放,為其他研究者提供一定幫助。雖然這些數據庫有種種限制,但它們無疑為古典文獻的研究(當然包括其它專業的學術研究)提供了方便。之后,隨著網絡技術的發展,各科研機構、大專院校、各地方的圖書館、以及其它數以百計的網站向用戶提供收費或不收費的古籍文獻檢索服務,甚至還提供古籍文獻的下載服務。顯然,這些工作的開展,為學術研究的現代化提供了極為有力的支持。至今為止,據筆者所查索到的除科研機構、大專院校、各地圖書館數據庫之外,提供各種文獻下載的中文網站至少在200個以上,其中就有不少古籍文獻下載的網站。這些古典文獻數據庫或有關網站的建立,確實為古典文獻整理與研究乃至其它學術研究提供了極有價值的幫助。二、目前存在的問題

當然,我們也應該清醒地看到,在古典文獻數據庫大量涌現的同時,一些潛在的問題與數據庫本身的缺陷嚴重地制約著古典文獻數據庫的正常發展。

從古典文獻數據庫技術發展角度來說,筆者認為大致經過三個發展階段。第一階段是PDF圖像文本數據庫,其數據來源主要是以掃描方式獲得,形成PDF圖像文本。這種圖像文本優點是直觀,與原書分毫不差,但它的缺點是功能極其單一,僅可供瀏覽圖像和簡單地檢索書目。雖然第一階段的數據庫功能極少,但畢竟能方便而直觀地閱讀文獻了,因此引起了學者們廣泛的興趣。必須指出的是,由于功能太少,這類數據庫難以進一步發展。

第二階段是元數據數據庫,以香港迪志公司投資、書同文數字化技術有限公司設計、上海人民出版社出版的《四庫全書》、書同文數字化技術有限公司設計、萬方數據電子出版社的《四部叢刊》、尹小林《國學寶典》、南開大學永川公司的《二十四史》,以及大陸、港臺等大專院校或科研機構制作的較大型的數據庫為代表。它們的優點是具有較多的基本功能,如檢索、卡片、打印等功能,有些還附加了日歷查詢、字典、音樂背景等附加功能。然而,它們都不允許對數據庫內的文本錯誤進行修訂、沒有圖表處理能力、不提供功能升級服務(某些軟件提供所謂新版本,實際上只是增加一些文獻文本,并未真正提升軟件服務功能)。而且由于各自為政,開發者大都采取自定義方法來自造非常用的生僻詞,因此各種數據庫之間字庫不能相互兼容。這一階段的古典文獻數據庫也有吸收第一階段數據庫有圖像的優點,如上述提及的《四庫全書》就附有圖像,以利研究者核對文字。該階段絕大多數數據庫注意到版權問題,但仍有一些數據庫在版權上出現較大問題,乃至引起法律糾紛。

計算機技術廣泛地涉入文科研究領域,各種古典文獻數據庫紛紛建立,當然給古典文獻整理與研究的現代化提供了極其有利的幫助,然而,在筆者看來,目前計算機技術在這一領域中的運用形成紛亂無序的“戰國時代”,有許多亟待解決的問題,否則將會影響或說削弱計算機技術在古典文獻研究(乃至其它學術研究)中巨大作用。對此弊病,筆者擬作一概述,企望引起有關部門、數據庫開發者及使用者的重視,以期真正使計算機技術對古典文獻整理與研究起到更大的促進作用。大致說來,主要問題有以下幾個方面:

其一,缺乏整體領導與規劃,國家投資與收益不對稱。當然,首先應該看到,國家有關部門已經著手做了一些規劃,也實施建立一些比較大的古典文獻數據庫,如2002年10月,國家科技圖書文獻中心受科技部的委托,牽頭聯合中國科技信息研究所、國家圖書館、上海圖書館、中科院圖書館、北京大學圖書館等單位,啟動了我國數字圖書館標準規范建設項目。這一項目的目的就是力圖建立我國比較統一和規范的數字圖書館標準,自然也會對建立古典文獻數據庫有較大的借鑒與參考的價值。又如北京大學《中國基本古籍庫》、上海圖書館《古籍影像光盤制作及檢索系統》等等,也由國家有關部門投入大量資金,而且已經啟動并完成了部分內容。不過也應該強調,由于國家沒有制定出一個比較符合國內數據庫發展狀況的真正有價值的規范體系,因此這些項目的承擔者仍是各自為政,數據庫之間并不能兼容,不可能形成技術“合力”。再從所取得的社會效益或說實際使用價值來看,也不盡人意。因為至今為止建立的各種數據庫仍人為地設置許多障礙,無法使它們實現較大的使用價值。數據庫由國家投資,收益自然應該歸國家,或者成為不收費的公益數據庫,但目前收益既不歸國家,又未能成為公益數據庫,這不能不說是個極大的遺憾。實際上,數據庫制作者無償利用國家投資進行了開發,制作完成后卻獲得相當豐厚的收益,使人感到有“國家投資,個別單位圖利”的印象。筆者不反對交納一定使用費用,但收費單位一定應該說明收費后去向,絕不允許產生國家投資而由個別單位乃至某些個人得利的情況。

其二,開發商嗜利忘義,數據庫錯誤嚴重。除上述由國家投資開發的古典文獻數據庫外,還有一些有一定技術實力的軟件開發商加入到古典文獻數據庫的開發中來了。比較而言,各科研機構、大專院校及各地圖書館建立的古典文獻數據庫質量較高,而開發商則很少關注數據庫中的文獻質量。我們承認確有少量開發商制作的數據庫質量較高,如迪志公司開發的《四庫全書》之類,然而象《四庫全書》這樣的數據庫確實鳳毛麟角,難以尋覓。我們發現,甚至有些開發商僅僅是把文本進行文字掃描導入,疏于校對,因此文本錯誤百出,難以卒讀。由于利益驅使,絕大多數開發商都以“獨自開發”為己任,數據庫設計相互保密,互不兼容,使用戶深感不便。這些問題已嚴重地影響到古典文獻數據庫的正常發展了。

其三,熱門文獻數據重復,冷門文獻數據罕見。雖說目前數據庫品種繁多,但由于考慮到使用者對文獻內容的需求,因此許多開發者熱衷于開發那些熱門數據,而一些比較冷門的文獻則鮮有人問津。實際上,冷門的文獻并非是沒有學術價值的文獻,只是使用人較少而已。因而,目前不但數據庫中文獻內容重復現象極為普遍,甚至同名同姓的數據庫也有不少,如《四庫全書》就出現了武漢大學版、上海人民出版社版等數種不同版本。且不說那些數量繁多、質量也不甚高的數據庫浪費了多少人力物力,其實也使用戶陷入無可適從、欲舍不能的境地。用戶往往為了某些少量文獻內容不得不購買和安裝整個數據庫操作系統,而且這些龐大的數據庫大量占據硬盤空間,導致計算機運行速度大為減慢。而那些允許網上檢索的文獻數據庫又往往容量極大,上網檢索者多,導致“交通阻塞”!

其四,技術關卡重重,難以互相兼容。各開發者既鑒于不同開發目的與技術條件,又為防止他人解密,因此在開發過程中在數據庫某些程序中人為設置技術障礙,以保障自己利益不受損害。自然,開發者需要投入大量人力物力,保障本身利益不受損害是無可非議的。然而也由于人為地設置了障礙,卻使各種文獻數據庫之間不能兼容,無法形成合力,先進的技術反而成為技術壁壘。實際上,這一情況大大浪費了寶貴的人力資源與財力,對古典文獻的開發與利用有百害而無一利。另外,由于技術壁壘,在古典文獻數據庫的文字方面更導致許多問題。我國古籍常用漢字大約為4萬余個,這還不包括超過2萬個異體字及數千甲骨文、金文等古文字。然而我國目前在計算機上采納的國標字庫(GB)和擴展字庫(GBK),兩者相加也只有27000余字,這與我國古籍常用漢字數量相比,實在差距太大。因此,如此小的字庫與需求相比確實是捉襟見肘。為了彌補這一缺陷,一些軟件設計者就采取在自定義區自造字(乃至占據字庫中擴展B的位置)、有些也用圖片方式來填字。而這些自造字、圖片字,拷貝到WORD文本之后,由于內碼位置的差異就變成其它字了,從而導致文本錯誤。

其五,功能單調,難以真正為科研服務。建立較早的古典文獻數據庫功能比較單調,只能做些簡單檢索、拷貝,沒有更為先進的功能,不能適應學術研究的需要。后來的一些古典文獻數據庫也存在類似問題,例如《四庫全書》的檢索功能,雖說可以采用添加“作者”、“書名”等限定條件,但檢索結果只是羅列一排出處,無法直觀地了解檢索到的具體內容。而且《四庫全書》也沒有提供更多的功能給用戶,因此這一巨大的工程仍遠遠不能滿足用戶的需求。況且這一數據庫目前已經“定型”,不再繼續開發,使用戶對此深感遺憾。而其它古典文獻數據庫設計者的思維大多仍停留在“文本之爭”當中,重復著原來設計思想的錯誤,沒有更多地開發為科研服務的有效功能,因此在筆者看來,這一做法顯然不可能真正擺脫古典文獻數據庫目前面臨著的困境。

其六,學術圈地,使人心有余而力難用。解放后,一些國家級出版社化費了極大的精力,組織專家點校了不少重要古籍,為學術研究的發展作出了極大貢獻。然而時至計算機時代的來臨,卻出現了“版權”的問題。一些制作者忽視了國家有關版權法規,直接利用了一些出版社的成果來牟取經濟利益,理所當然地會產生版權糾紛。筆者以為,保護版權是每個學者乃至每個公民應盡的責任,根本毫無討價還價的余地。然而問題是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論