大數據庫下電子資源的有效利用_第1頁
大數據庫下電子資源的有效利用_第2頁
大數據庫下電子資源的有效利用_第3頁
大數據庫下電子資源的有效利用_第4頁
大數據庫下電子資源的有效利用_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據庫下電子資源的有效利用物理科學與技術學院2014級物理學基地班劉竹友0141121776目錄大數據庫下電子資源的有效利用 11、 研究依據 21.1、 問題背景 21.2、 研究意義 21.3、 研究現狀 32、 研究手段 42.1、關鍵理論技術 42.2、研究基本思路 92.3、研究框架 92.4、具體方案 113、 預期成果 123.1、理論成果 123.2、模型 124、 參考文獻 12

研究依據問題背景大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。云計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。如今的數據已經成為一種重要的戰略資產,它就像新時代的石油一樣,極富開采價值。如果能夠看清大數據的價值并且迅速行動起來,那么在未來的商業競爭中占據會占得先機。大數據市場機會一部分集中在集中在各實體企業對海量數據處理、挖掘的應用上,而這些應用必然帶動“數據存儲設備和提供解決方案”,“大數據的分析、挖掘和加工類企業”等環節的爆發性發展。雖然目前國內數據庫、服務器、存儲設備等領域,仍是國際巨頭占絕對領先優勢,大數據應用也還處在起步階段,但發展前景可以期待。而另一部分集中在各大高校圖書館電子資源的利用方面。目前信息量大、共享性強、不受空限制、更新及時、使用方便、檢索快捷的電子資源。已成為高校廣大師生教學、科研活動中普遍使用的信息資源。目前,各高校圖書館為了滿足各學科、多層次讀者的信息需求,都購買或自建了多個甚至幾十個網絡數據庫,各高校圖書館電子資源占館藏文獻的比例逐年增加,使得圖書館信息資源形成由單一型的紙質圖書與電子文獻資源共存的局面。隨著數字圖書館的不斷發展,電子資源的建設與利用逐漸成為衡量一個圖書館實力的重要指標。充分開發利用高校圖書館的電子信息資源,滿足廣大師生信息需求已成為圖書館文獻信息服務的重要形式。本文將以圖書館電子資源的有效利用為例,主要運用文獻分析法,其中部分實例采用內蒙古大學圖書館的實例及數據,探究大數據庫下電子資源的有效利用。研究意義根據目前一份來自南京郵電大學的對讀者就“電子資源建設與利用的情況”進行問卷調查,在對收回的問卷調查分析時發現,讀者認為目前圖書館已購買的電子資源比較豐富的達53.8%.不夠豐富的達30.6%.96.2%的讀者認為有必要申請各類數據庫的免費試用。讀者經常利用圖書館電子資源的達38.7%,不常利用的占53.5%,未利用過的占9.8%。不利用或不常利用電子資源的主要原因是不了解。33.7%的讀者認為是校外訪問權限問題.30.1%的讀者認為缺少必備的數據庫.27.6%的人是由于缺乏檢索知識,還有一部分讀者是因為不r解數據資源內容以及獲取原文的問題。而影響電子資源利用的因素主要有以下幾個方面:電子資源種類繁多質量不高。不同的電子資源數據庫之問有重復和交叉等現象,造成讀者很難了解自己到底需要哪些電子資源:一些數據庫存在內容少且不具備獨特性.數據來源的權威不高.數據更新不及時,其檢索軟件功能較差等問題。由此造成讀者對電子資源信賴度降低。不愿意使用數據庫。、讀者的文獻檢索技能欠缺。近年來,雖然院校都開設了文獻檢索課,但文獻檢索與利用的教學多偏蓐于理論,缺乏實際操作,讀者的檢索技能往往得不到真正的提高,再加再加電子資源的使用較為復雜,每種電子資源都有其不同的使用規則和方法,包括不同的邏輯算符、位置算符、截詞符以及不同的檢索方法等。影響了讀者對電子資源的使用。電子資源的使用受到網絡環境的限翩。高校圖書館斥巨資購買大量的電子資源.由于數據庫供應商為保護自己的知識產權。一般都要求高校圖書館只向校園網IP地址范圍之內開放;其次,由于學校設有分校區。不少分校的IP地址因跨網段不在校園網范圍之內;再著,大多數的專家學者和教師在校外居住,經常外出講學和參加會議學術交流,這些合法用戶由于IP地址限制無法使用學校的電子資源,勢必會對其學習、教學和科研造成一些的影響。所以,針對以上限制電子資源的有效使用的因素,我們從大數據庫的角度來分析,以提高電子資源的有效使用具有極大的研究意義。研究現狀從20世紀70年代初開始.歐美發達國家相繼開始建立文獻數據庫.發行數據庫磁帶,或者通過計算機聯機開展服務。例如著名的Derwent專利數據庫和《化學文摘》(CA)的檢索數據庫磁帶,DIALOG聯機檢索數據庫、OCLC聯機書目數據庫等。80年代末,新的載體CD—ROM出現了,大量的檢索類期刊《生物學文摘》(BA)、《工程索引》(EI)、《化學文摘》(cA)、《科學文摘》(SA)等都出版了光盤版.許多著名的國際出版商Blackwell科學出版公司、Elsever出版集團、wrlnger國際出版集團將他們旗下的學術期刊制成CD—ROM.至于光盤版的圖書更是不計其數。繼光盤之后是數據庫鏡像,它的數據容量比光盤更大,服務能力更強。90年代中期,隨著互聯網的普及,大量的電子文獻轉為網絡出版.DIALOG、OCLC等專線聯機數據庫都轉向網絡服務。與此同時,便攜式的電子圖書也誕生了。為此,圖書館的電子資源有光盤、數據庫鏡像和網絡版三大存在形式。國外的電子期刊和檢索數據庫較多采用網絡版的方式.例如Blackwell、EL-sever,springer等全文期刊數據庫,MEDLIN、DIALOG等大型檢索數據庫;有些大型檢索數據庫和國內的大型電子書刊庫使用鏡像站方式,例如《生物學文摘》(BA)、《工程索引》(EI)、《化學文摘》(CA)數據庫,維普、萬方、清華同方全文期刊數據庫,超星電子圖書數據庫;小型檢索數據庫和電子圖書采用光盤形式。90年代后期網絡的發展.大大推進了圖書館電子資源的使用,在局域網的支持下.無論網絡版、鏡像點或者光盤塔的電子文獻都能便捷地傳送到網絡的每個信息終端,讀者可以在自己的桌面上瀏覽電子文獻和檢索數據庫。與此同時,圖書館的公共網絡服務也發展起來了,把電子資源掛到圖書館網頁上,向公眾開放,任何人可以隨時隨地上網瀏覽和檢索。圖書館電子資源服務朝著更加開放和更加方便的方向發展,贏得了廣大讀者的青睞。以內蒙古大學圖書館為例,目前內蒙古大學圖書館獨立建成了館藏漢文、英文、蒙古文等書目數據庫,特別是館內的蒙古文特色數據庫、生命科學導航庫的建設成果和聯機編目數量在全國高校圖書館中排名前25名、45名和13名;共引進購入了ISI數據庫、SpringerLink數據庫、Apabi數字圖書館系統等18個數據庫,自建數據庫10個,極大地豐富了圖書館的網絡文獻信息資源,成為內蒙古自治區規模最大的網絡信息中心。伴隨著圖書館局域網的建成,圖書館絕大部分工作已經基本上擺脫了傳統的手工作業方式,實現了網絡化的計算機管理。文獻采編工作由最初的單機管理到館內局域網的運行,進而發展到互聯網上聯機編目,閱覽室采用了藏、借、閱一體化的布局模式,師生共用,絕大多數文獻資料在閱覽室實行了全開架的開放式管理;圖書文獻的查詢、讀者借閱文獻的管理、業務統計等工作也已實現了計算機自動化管理,有效地提高了圖書館館藏文獻的利用率和讀者服務工作的科學管理水平。另外在我校開展的圖書館特舉辦數據庫系列講座,旨在介紹期刊、報紙、圖書、數據、視頻等多種形式的電子資源的使用方法,助力科研和教學。截止目前,已舉辦的數據庫講座有萬方數據庫、阿帕比電子教參書、阿帕比報紙全文庫、月旦知識庫、EBSCOhost數據庫、Emerald全文數據庫講座、Elsevier期刊數據庫。講座均由各文獻資源出版集團培訓講師講授,講授內容含如何合理規劃時間進行快速文獻調研,如何有序管理海量文獻信息,如何查找文獻信息之外的包括詞條概念、圖片等多角度的信息,講授內容專業、精深、新穎。極大的提高了師生對數據庫電子資源的有效利用。研究手段2.1、關鍵理論技術技術是大數據價值體現的手段和前進的基石。關鍵技術包括云計算、分布式處理技術、存儲技術和感知技術,處理過程包括采集、處理、存儲到形成結果。具體包括以下幾個方面:2.1.1、大數據系統的架構大數據處理系統不管結構如何復雜,采用的技術千差萬別,但是總體上總可以分為以下的幾個重要部分。大數據系統結構如圖l所示。從數據處理的一般流程可以看到,在大數據環境下需要的關鍵技術主要針對海量數據的存儲和海量數據的運算。傳統的關系數據庫經過40年的發展已經成為了一門成熟同時仍在不斷演進的數據管理和分析技術,結構化查詢語言(sQL)作為存取關系數據庫的語言得到了標準化,其功能和表達能力也得到的不斷增強。但是,關系數據管理系統的擴展性在互聯網環境下遇到了前所未有的障礙,不能勝任大數據分析的要求。關系數據管理模型追求的是高度的一致性和正確性。縱向擴展系統,通過增加或者更換CPU、內存、硬盤以擴展單個節點的能力,終會遇到“瓶頸”。大數據的研究主要來源于依靠數據獲取商業利益的大公司。G009le公司作為全球最大的信息檢索公司,其走在了大數據研究的前沿。面對呈現爆炸式增加的因特網信息,僅僅依靠提高服務器性能已經遠遠不能滿足業務的需求。如果將各種大數據應用比作“汽車”,支撐起這些“汽車”運行的“高速公路”就是云計算。正是云計算技術在數據存儲、管理與分析等方面的支持,才使得大數據有用武之地。G009le公司從橫向進行擴展,通過采用廉價的計算機節點集群,改寫軟件,使之能夠在集群上并行執行,解決海量數據的存儲和檢索功能。2006年Google首先提出云計算的概念。支撐Goo甜e公司各種大數據應用的關鍵正是其自行研發的一系列云計算技術和工具。G00de公司大數據處理的三大關鍵技術為:Go091e文件系統GFs{”、M印Reduc一和Bigtabl一。Google的技術方案為其他的公司提供了一個很好的參考方案,各大公司紛紛提出了自己的大數據處理平臺,采用的技術也都大同小異。下面將從支持大數據系統所需要的分布式文件系統、分布式數據處理技術、分布式數據庫系統和開源的大數據系統Had00p等方面介紹大數據系統的關鍵技術。2.1.2分布式文件系統文件系統是支持大數據應用的基礎。G00l!le是有史以來唯一需要處理如此海量數據的大公司。對于G009le而言,現有的方案已經難以滿足其如此大的數據量的存儲,為此G009le提出了一種分布式的文件管理系統——GFS。GFs與傳統的分布式文件系統有很多相同的目標,比如,性能、可伸縮性、可靠性以及可用性。但是,GFS的成功之處在于其與傳統文件系統的不同。GFS的設計思路主要基于以下的假設:對于系統而言,組件失敗是一種常態而不是異常。GFS是構建于大量廉價的服務器之上的可擴展的分布式文件系統,采用主從結構。通過數據分塊、追加更新等方式實現了海量數據的高效存儲,如圖2所示給出了GFS體系結構。但是隨著業務量的進一步變化,GFS逐漸無法適應需求。Google對GFS進行了設計,實現了Colosuss系統,該系統能夠很好地解決GFS單點故障和海量小文件存儲的問題。除了G00—e的GFS,眾多的企業和學者也從不同的方面對滿足大數據存儲需求的文件系統進行了詳細的研究。微軟開發的cosmospl支撐其搜索、廣告業務。。類GFS的分布式文件系統主要針對大文件而設計,但是在圖片存儲等應用場景中,文件系統主要存儲海量小文件,Facebook為此推出了專門針對海量小文件的文件系統Haystac妒l,通過多個邏輯文件共享同一個物理文件,增加緩存層、部分元數據加載到內存等方式有效地解決了海量小文件存儲的問題。是一種大規模、安全可靠的,具備高可靠性的集群文件系統,由suN公司開發和維護。該項目主要的目的就是開發下一代的集群文件系統,可以支持超過10000個節點,數以拍字節的數量存儲系統。2.1.3、分布式數據處理系統大數據的處理模式分為流處理和批處理兩種”。“l。流處理是直接處理,批處理采用先存儲再處理。流處理將數據視為流,源源不斷的數據形成數據流。當新的數據到來即立即處理并返回所需的結果。大數據的實時處理是一個極具挑戰性的工作,數據具有大規模、持續到達的特點。因此,如果要求實時的處理大數據,必然要求采用分布式的方式,在這種情況下,除了應該考慮分布式系統的一致性問題,還將涉及到分布式系統網絡時延的影響,這都增加了大數據流處理的復雜性。目前比較有代表性的開源流處理系統主要有:Twiner的stom,coogle公司2004年提出的MapReduce編程模型是最具代表性的批處理模型。MapReduce架構的程序能夠在大量的普通配置的計算機上實現并行化處理。這個系統在運行時只關心如何分割輸入數據,在大量計算機組成的集度,集群中計算機的錯誤處理,管理集群中的計算機之間必要的通信。對于有些計算,由于輸入數據量的巨大,想要在可接受的時間內完成運算,只有將這些計算分布在成百上千的主機上。這種計算模式對于如何處理并行計算、如何分發數據、如何處理錯誤需要大規模的代碼處理,使得原本簡單的運算變得難以處理。MapReduce就是針對上述問題的一種新的設計模型。M印Reduce模型的主要貢獻就是通過簡單的接口來實現自動的并行化和大規模的分布式計算,通過使用MapReduce模型接口實現在大量普通的Pc上的高性能計算。MapReduce編程模型的原理:利用一個輸入鍵一值(Key廠value)對集合來產生一個輸出的ke丫/value對集合。MapReduce庫的用戶用兩個函數表達這個計算:Map和Reduce。用戶自定義的Map函數接受一個輸入的key,value值,然后產生一個中間key/value對集合。MapReduce庫把所有具有相同中間key值的value值集合在一起傳遞給Reduce函數。用戶自定義的Reduce函數接收一個中間kev的值和相關的一個value值的集合。Reduce函數合并這些value值,形成一個較小的value值集合,如圖3所示。MapReduce的提出曾經遭到過一系列的指責和詬病。數據專家Stonebmker就認為MapReduce是一個巨大的倒退,指出其存取沒有優化、依靠蠻力進行數據處理等問題。但是隨著M印Reduce在應用上的不斷成功,以其為代表的大數據處理技術還是得到了廣泛的關注。研究人員針對M印Reduce進行了深入的研究,目前針對MapReduce性能提升研究主要有以下幾個方面:多核硬件與GPu上的性能提高;索引技術與連接技術的優化;調度技術優化等。在MapReduce的易用性的研究上,研究人員正在研究更為高層的、表達能力更強的語言和系統,包括Yalloo的Pig、Micmsoft的LINQ、Hive等。除了G00de的M印Reduce,YurdlongGu等人設計實現了SectorandSphere云計算平臺””,包括Sector和sphere兩部分。sector是部署在廣域網的分布式系統,sphere是建立在Sector上的計算服務。sphere是以sector為基礎構建的計算云,提供大規模數據的分布式處理。sphere的基本數據處理模型如圖4所示。針對不同的應用會有不同的數;Sphere統一地將它們以數據流的形式輸入。為了便于大規模地并行計算,首先需要對數據進行分割,分割后的數據交給SPE執行。sPE是Sphere處理引擎,是Sphere的基本運算單元。除了進行數據處理外sPE還能起到負載平衡的作用,因為一般情況下數據量遠大于sPE數量,當前負載較重的SPE能繼續處理的數據就較少,反之則較多,如此就實現了系統的負載平衡。2.1.4、分布式數據庫系統傳統的關系模型分布式數據庫難以適應大數據時代的要求,主要的原因有以下幾點:規模效應帶來的壓力。大數據時代的數據遠遠超出單機處理能力,分布式技術是必然的選擇。傳統的數據庫傾向于采用縱向擴展的方式,這種方式下性能的增加遠低于數據的增加速度。大數據采用數據庫系統應該是橫向發展的,這種方式具有更好的擴展性。數據類型的多樣性和低價值密度性。傳統的數據庫適合結構清晰,有明確應用目的的數據,數據的價值密度相對較高。在大數據時代數據的存在的形式是多樣的,各種半結構化、非結構化的數據是大數據的重要組成部分。如何利用如此多樣、海量的低價值密度的數據是大數據時代數據庫面臨的重要挑戰之一。設計理念的沖突。關系數據庫追求的是“一種尺寸適用所有”,但在大數據時代不同的應用領域在數據理性、數據處理方式以及數據處理時間的要求上千差萬別。實際處理中,不可能存在一種統一的數據存儲方式適應所有場景。2.1.5大數據系統的開源實現平臺除了商業化的大數據處理方案,還有一些開源的項目也在積極的加入到大數據的研究當中。Hadoop瞄’是一個開源分布式計算平臺,它是MapReduce計算機模型的載體。借助于Hadoop,軟件開發者可以輕松地編出分布式并行程序,從而在計算機集群上完成海量數據的計算。Intel公司給出了一種Hadoop的開源實現方案,如圖6所示。在該系統中HDFs是與GFS類似的分布式文件系統,它可以構建從幾臺到幾千臺常規服務器組成的集群,并提供高聚合輸入輸出的文件讀寫訪問。Bigtable類似的分布式、按列存儲的、多維表結構的實時分布式數據庫。可以提供大數據量結構化和非結構化數據的高度讀寫操作。Hive㈣是基于Hadoop的大數據分布式數據倉庫引擎。它可以將數據存放在分布式文件系統或分布式數據庫中,并使用sQL語言進行海量信息的統計、查詢和分析操作。zooKeepe嚴1是針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。它可以維護系統配置、群組用戶和命名等信息。sqoop㈣提供高效在Had00p和結構化數據源之間雙向傳送數據的連接器組件。它將數據傳輸任務轉換為分布式Map任務實現,在傳輸過程中還可以實現數據轉換等功能。Flume田I是分布式、高可靠的和高可用的日志采集系統,它用來從不同源的系統中采集、匯總和搬移大量日志數據到一個集中式的數據存儲中。2.2、研究基本思路以往談及大的數據通常用來形容一個公司創造的大量非結構化和半結構化的數據。如今把“大數據”作為一個專有名詞提及,通常指的是解決問題的一種方法,即通過收集和整理生產生活中方方面面的數據,然后對其進行整理、挖掘、分析、處理,進而從中獲得有用的價值信息。雖然通常意義上的大數據解決方案描述了一種通常的行為,但要實現這種通常的行為,往往會遇到諸多技術和硬件上的問題。一個顯而易見的問題就是:大數據包絡萬象,而且像音頻、文本信息、視頻、圖片等非結構化數據正以突飛猛進的速度增長,加上移動互聯網的普及所帶來的如位置、生活信息等富含價值的數據,現有的,或者傳統的對數據的處理手段和硬件配置已越來越跟不上數據發展的步伐。在電子資源的利用中,這種問題就顯得尤為明顯,其具體表現在以下幾方面:數據庫來源需要擴展。雖然現在例如阿帕比電子教參書、阿帕比報紙全文庫、月旦知識庫、EBSCOhost數據庫、Emerald全文數據庫講座、Elsevier期刊數據庫等大型數據庫均可利用,但部分外文網數據庫國內還不可以閱覽,或有償閱覽或閱覽后無法下載。這都使得數據庫內容受限。數據庫限制較多。現在大部分高校的文獻閱覽都是在校內ID才可以,但如果學生或老師回到家,或者有事急需論文的查找,這時就顯得尤為不便。另外下載的權限也有很多限制,例如內蒙古大學圖書館的部分期刊圖書就僅提供在線閱讀,而且一次申請的頁數也有限制。搜索內容不明確,不細致化。數據缺少權威化。搜索方法較為復雜,缺少智能化,針對所需要的文獻需要較長時間才能的到想要的論文。數據需要存儲,存儲需要設備,存儲設備的容量和可擴展性以及讀取的速度成為了一大問題(容量問題)2.3、研究框架來源更加廣泛化,發表論文周期縮短2、數據分類詳細化,改變搜索方式3、限制減少化,提供可在指定ID范圍之外的信息檢索2.4、具體方案大數據的解決方案不同于純粹云計算的解決方案,雖然云計算帶來了看上去更便宜的處理能力和存儲能力,但對于往往都有相當數量級規模的大數據應用而言,在基礎架構上巧妙地整合和部分的集中,反而能更好地解決安全性、可靠性、穩定性和綠色環保的需要。針對研究思路中提出的問題,我們提出如下解決方案:1、對現有電子資源的進行整合。電子信息資源的整合,可有效促進電子資源的有序化。有序化的方式表現在兩個方面,一是加強分散在不同數據庫之中、具有某種關聯的電子信息資源的有序化。按照全文電子期刊的期刊名稱字母順序排列或數據庫按學科內容分類進行重新整合,整合成一個互動、互連的有機整體。建立跨庫的一站式檢索平臺,實現異構數據庫的跨庫榆索。從而提高檢索效率和資源的利用率。二足加強對分散在網絡之中的。原本雜亂無序的零散電子信息資源的數據整合.將分布在各網站上的有關符合本院校某一科研專題的信息進行查找、篩選、分類和整理,然后以專題導航的形式放在一個網站上為讀者提供服務。2、利用VPN技術實現圖書館電子資源遠程訪問。開設校外訪問電子資源的有效途徑。方便家住校外的師生使用.而利用VPN(虛擬專用網)技術可以實現讀者在校外對校內圖書館信息資源的遠程訪問,它是一種安全可靠、切實可行的解決方案。如采用SSLVPN技術,管理員可以根據遠程用戶的身份和權限為其分配可訪問的各種電了源.通過行為跟蹤引擎.可以查看遠程接入用戶的所有訪問記錄,進一步了解電子資源的訪問情況,實時地掌握流量信息,避免下載超量等問題。從而實現了對訪問的實時監控和有效管理。另外,數據庫有并發用戶數限制,讀者往往很難順暢地登錄和使用,需要加強對讀者的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論