搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第1頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第2頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第3頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第4頁
搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用    姚銀杰摘 要:本文對搜索引擎的工作原理進行了探討,分析了搜索引擎技術(shù)在圖書館智能搜索中的應(yīng)用及改進措施,希望通過本文的研究,有助于促進搜索引擎技術(shù)在圖書館搜索中的應(yīng)用,為加強對搜索引擎技術(shù)的研究起到拋磚引玉的作用。關(guān)鍵詞:搜索引擎;智能搜索引擎;圖書館一、圖書館建立智能搜索引擎的必要性分析隨著各個高校規(guī)模的不斷擴大,高校收藏的圖書、文獻資料的量越來越龐大,但是其傳統(tǒng)的搜索引擎所具有的功能是比較簡單的,僅僅只能對書名、作者、年份等信息來進行搜索,讀者往往需要從成千上萬條搜索結(jié)果中去挑選自己所想要的結(jié)果

2、,搜索體驗較低。因此,運用智能搜索引擎,能夠為讀者提供專業(yè)性強、針對性強的搜索服務(wù),同時還能夠在內(nèi)容上進行分類,對搜索結(jié)果根據(jù)檢索的關(guān)鍵詞進行相關(guān)性排序,能夠大大節(jié)約讀者檢索的時間,提升高校圖書館的利用效率。二、智能搜索引擎的優(yōu)勢智能搜索引擎具有很多傳統(tǒng)搜索引擎不具備的優(yōu)勢:其一,與互聯(lián)網(wǎng)的網(wǎng)頁數(shù)量相比,圖書館的書籍文獻資料要少得多,因此將每一本書當(dāng)做一個頁面來采取pagerank算法來進行搜索,能夠大大減少檢索的時間。其二,圖書館中的信息一般都是由圖書館的工作人員通過手動錄入的,每一本書的相關(guān)信息是比較全面的,因此在搜索結(jié)果中不會出現(xiàn)作弊的現(xiàn)象,例如重復(fù)關(guān)鍵詞。在這種情況下,能夠減少一些不必

3、要的設(shè)計,建立起搜索引擎是相對簡單的。其三,圖書館用戶對信息的檢索要求并不復(fù)雜,所給出的關(guān)鍵詞的集中度比較高,搜索引擎的接受度比較高。三、搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用(一)圖書館智能搜索的pagerank算法的設(shè)計1、個性化pagerank算法設(shè)計的基本思路pagerank在互聯(lián)網(wǎng)網(wǎng)頁的搜索應(yīng)用中,是通過蜘蛛(spider)從互聯(lián)網(wǎng)中獲得網(wǎng)頁,再以不同網(wǎng)頁之間相互鏈接的次數(shù)作為依據(jù),來對一個網(wǎng)頁的相關(guān)性進行評價。pagerank在互聯(lián)網(wǎng)網(wǎng)頁搜索中的核心,是先把所有與關(guān)鍵詞相關(guān)的網(wǎng)頁進行初始化評分,再根據(jù)不同網(wǎng)頁間鏈接次數(shù)的多少,把整體pagerank值在不同頁面間流動,在經(jīng)過多次的

4、迭代和多次的反復(fù)之后達到一個平衡的位置,再以pagerank值的高低來排序。在這種模式下,與關(guān)鍵詞相關(guān)性最高的結(jié)果一般會呈現(xiàn)在搜索界面上,但是pagerank值在分配的過程中沒有考慮用戶的個人喜愛以及歷史瀏覽。因此,在圖書館搜索引擎的設(shè)計中使用pagerank技術(shù),要充分考慮用戶的個人信息、喜好,來進行pagerank評分,這種pagerank評分不僅要和書籍相關(guān)聯(lián),還要和用戶的個性化需求相互匹配,在具體的算法設(shè)計中可以參考傳統(tǒng)的pagerank算法,再將用戶個性化的要求加入進來,進行pagerank迭代,并對搜索結(jié)構(gòu)進行個性化的排序。2、歷史評價及分類pagerank的計算歷史評價和網(wǎng)頁的人

5、氣值具有非常高的相似度,很容易計算出來,一般情況下,只是需要以用戶瀏覽此書籍的次數(shù)為依據(jù),就可以給出附加pagerank值。在這種算法下,是將所有的用戶看成了一個整體。而分類pagerank的計算過程是相對復(fù)雜的,她需要對專業(yè)書籍專業(yè)分類的情況進行評價,可以采取與上述用戶瀏覽書籍次數(shù)的多少來進行給出個性化的pagerank值。由于每一本書都有自己獨特的分類方式,在處理分類中相關(guān)分類間的關(guān)系,可以通過pagerank值來傳遞。以用戶所選定的分類特征為依據(jù),將其作為pagerank源,再在各個分類之間讓pagerank值迭代,再以用戶的需求選擇來匹配相關(guān)性最高的分類圖書,可以聘請學(xué)校各個專業(yè)的學(xué)科

6、人士來處理,以他們的專業(yè)意見為標(biāo)準(zhǔn),來分配比較合理的阻尼系數(shù),同時,這些阻尼系數(shù)還可以根據(jù)用戶的歷史瀏覽記錄來進行一定的優(yōu)化,進而使得所搜索的結(jié)果能夠更好地滿足用戶的需求。3、建立數(shù)組型pagerank不同的用戶有不同的需求,因此,在設(shè)計過程中,不能將pagerank值作為一個單一的情況來處理,而要注重搜索引擎的分類化與搜索引擎的個性化。將pagerank值進行優(yōu)化處理,建立一個數(shù)組,當(dāng)然,這個數(shù)組是可以設(shè)計成一個多維的數(shù)組,其中包含有傳統(tǒng)的pagerank值、個性化的pagerank值、歷史評價的pagerank值、分類化的pagerank值等。圖書館智能搜索引擎,需要以用戶的需求為依據(jù),對

7、這一多維數(shù)組中的各項pagerank值進行加權(quán)組合處理。用戶在進行信息搜索的時候,可以根據(jù)自己的需求來進行有優(yōu)先原則的搜索,使得所返回的搜索結(jié)果能夠體現(xiàn)用戶的不同特征的需求,進而使得用戶在最短的時間獲得自己所需要的信息。(二)高校圖書館系統(tǒng)采用智能搜索引擎的改進措施1、圖書館數(shù)據(jù)庫的改進措施目前,各個高校的圖書信息查詢系統(tǒng)還需要對現(xiàn)有的數(shù)據(jù)庫進行完善。需要增加一些新的數(shù)據(jù)庫,來保存書籍文獻資料的檢索相關(guān)性信息,這里面包含了現(xiàn)代書籍資料的電子化,學(xué)科分類、參考文獻、出版社、發(fā)表時間等信息的錄入。另外,還需要在圖書館傳統(tǒng)數(shù)據(jù)庫中添加一些新的字段來保存相關(guān)的pagerank值,建立和用戶相關(guān)的數(shù)據(jù)庫

8、用來保存用戶的個性化需求及用戶的瀏覽歷史記錄,進而為對書籍文獻資料的相關(guān)性統(tǒng)計分析奠定基礎(chǔ),進而得出關(guān)鍵詞的相關(guān)性結(jié)果。2、圖書館搜索引擎的改進措施在傳統(tǒng)搜索中,用戶通過書名、作者、發(fā)表時間、出版社等信息來進行檢索,搜索的結(jié)果需要sql語句作為支持,而要實現(xiàn)前文所述的智能搜索,便需要對這種搜索引擎進行改進。首先,搜索引擎要對用戶檢索時所輸入的關(guān)鍵詞或關(guān)鍵字進行自然語言分析,進而更加準(zhǔn)確地理解用戶所需要的信息,甚至,還要對用戶的語言習(xí)慣偏好進行深入分析,例如,繁體字以及少數(shù)民族的文字等。同時,要加入對pagerank值進行迭代的功能,這樣使得搜索引擎可以根據(jù)用戶所提供的關(guān)鍵詞來以pagerank

9、值為依據(jù)來對返回的搜索結(jié)果進行排序,使得搜索結(jié)果更加符合使用者的需求。3、構(gòu)建用戶信息反饋系統(tǒng)傳統(tǒng)搜索僅僅是對用戶的信息搜索結(jié)果的簡單羅列,即用戶向搜索引擎提供所需要檢索的關(guān)鍵詞,搜索引擎在其數(shù)據(jù)庫中檢索相應(yīng)的信息,并呈現(xiàn)給用戶。而智能搜索引擎在圖書館的應(yīng)用,需要對搜索結(jié)果頁面的搜索結(jié)果進行排序,而要使得這種排序更加滿足用戶的需求,就需要根據(jù)用戶的習(xí)慣、愛好、知識背景等信息,來重新分配pagerank值,提升用戶檢索的便捷性與有效性。四、結(jié)束語目前,我國很多高校在數(shù)字圖書館的建設(shè)還處于起步階段,而智能搜索引擎技術(shù)具有人機接口智能化、信息服務(wù)功能個性化、跨平臺多文檔處理等諸多傳統(tǒng)搜索不具備的優(yōu)勢。將其應(yīng)用于數(shù)字圖書館的建設(shè),具有重要的現(xiàn)實意義。隨著搜索引擎技術(shù)的不斷發(fā)展以及人們對信息檢索的需求的發(fā)展,搜索引擎的更新迭代速度將會更快,有必要加強對搜索引擎技術(shù)的研究。(作者單位:西安思源學(xué)院)參考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論