




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于lucene的校園網搜索引擎提要現代網絡信息化水平日益提高,網頁信息量急劇增加,搜索引擎已經成為人們獲取所需知識的必要工具之一。本文結合校園網搜索引擎的具體需求,介紹校園網搜索引擎的整體框架。其中,lucene作為開源的檢索框架,具有很好的應用性。關鍵詞:搜索引擎;lucene;網絡爬蟲;站內搜索一、引言21世紀是網絡信息化的時代,網絡信息已經成為人們工作與學習中不可或缺的東西。網絡在世界范圍內向用戶提供信息服務及其所擁有的信息資源,但隨著網絡的蓬勃發展,信息數量的快速增長,當今網絡上的這些海量信息形態各異,且分散在網絡中的各個角落。因此,如何從網絡上的海量信息中檢索出用戶所需要的信息,成
2、為了我們關注的一個重要問題。目前,雖然有了像google、百度這樣的通用搜索引擎,但是它們并不能適合人們所有的情況和需要,也沒有哪個最大最好的搜索引擎可以覆蓋所有的搜索范圍,因為不同的人群范圍所需求的信息資源也是不盡相同的。人們習慣在互聯網上查找信息,往往在同一個網站內擁有豐富的信息資源,如何在網站內部快速查找用戶所要的信息,也成為了人們當前關注的一個焦點。二、搜索引擎搜索引擎是一個為用戶提供信息檢索功能的網絡工具。搜索引擎是隨著互聯網絡信息的快速增長,開始逐步發展起來的技術。在互聯網發展的最初階段,網站的數量相對較少,信息查找比較容易。但隨著互聯網技術爆炸性的發展,網絡上面的信息越來越多,并
3、且以各種各樣的形態存在,這時用戶便很難找到所需要的信息,一些為滿足大眾信息檢索需求的專業搜索網站就應運而出了。如今,google的巨大成功讓整個世界都把眼光投入到搜索引擎這個領域中,并且google在一定程度上起到了引導作用。google公司在2007年決定向小型網站提供專門的搜索服務。這些都表明小型專用的搜索引擎將在人們獲取互聯網信息中發揮著想當重要的作用。三、lucenelucene是apache軟件基金會jakarta項目組的子項目,它是一個開放源碼的全文檢索工具。lucene在起初是基于java開發的,在網站建設中扮演的是一個全文索引工具的角色。與傳統的直接從數據庫中搜索記錄相比較,使
4、用lucene可以大大增加搜索引擎的性能。lucene的搜索機制是基于文件索引的,所以性能要比從數據庫中檢索更快,尤其當數據量大的時候區別更加明顯。lucene可以及時索引所有需要的內容,并更新和刪除它們。lucene的系統結構具有良好的二次開發性能。首先它的索引格式與平臺無關,其次它將各個組成部分封裝成抽象類,具體的實現定義為抽象類的實現過程,并且具有強烈的面向對象的特征。(圖1)四、校園網的搜索引擎框架現代網絡信息化水平迅速提高,校園網作為一個信息核心領域,所涉及到的內容也是形態各異的。本文就如何搭建一個校園網內的搜索引擎,以方便在校師生快速準確地查找各自所需信息的整體流程,給出詳細的介紹
5、。搜索引擎首先根據網站的需求選擇合適的網絡爬蟲,對網絡上的信息進行爬取,爬取到信息之后,對其中的有用信息進行提取,并利用lucene對所提取到的有用信息進行索引,最終輸出與用戶查詢結果匹配度最大的信息。本文研究的校園網搜索引擎有三個功能模塊:信息采集模塊、信息處理模塊和信息檢索模塊。信息采集模塊,顧名思義,就是對網絡上的信息進行采集,這是整個搜索引擎系統一項最初始的準備工作,也是最基礎的工作。該搜索系統針對的目標群體主要是在校師生,也就是說,要捕獲的信息主要來源于校園網絡。信息處理模塊,主要負責對采集到的信息進行提取,提取到所需的有價值的信息之后并為其建立索引,為后續的信息檢索模塊構建好索引數
6、據庫。信息檢索模塊主要負責在已構建好的索引數據庫中查找包含用戶查詢關鍵字在內的文本內容,并負責用戶從搜索界面接收關鍵字以及查詢結果信息的返回工作。校園網的搜索引擎系統組織結構圖如圖2所示。(圖2)(一)信息采集模塊。信息采集模塊是校園網搜索系統最基礎的組成部分,它的作用是對指定網站的頁面信息進行采集,并將采集到的信息保存到數據庫中。這一部分主要依靠網絡爬蟲程序來實現。網絡爬蟲是一個自動獲取網頁內容的程序,它為搜索引擎從internet網上下載網頁,是搜索引擎的重要組成部分。它從一個或一組初始網頁的url開始,獲取初始網頁上的url,在抓取網頁的過程中,不斷從當前頁面上抽取新的url放入隊列,直
7、到滿足系統的一定停止條件。本文利用網絡爬蟲從校園網上抓取網頁url、網頁標題和網頁文本內容,并保存到已構建好的本地頁面數據庫中。信息處理模塊從頁面數據庫中讀取頁面信息,分析信息內容并為其建立索引。一個好的網頁爬蟲應該具有很好的靈活性和健壯性,并且易于管理員操作管理。靈活性旨在爬蟲能夠盡可能多的適用于各種不同的場合。健壯性則要求爬蟲在面對各種奇怪的規則或者鏈接時具有很好的處理策略,以保證系統能夠正常運作。人性化管理界面是爬蟲網絡是否受歡迎的一個重要評判標準,越簡單清晰越高效的管理系統會更加受到人們的歡迎。(二)信息處理模塊。lucene開源檢索框架是基于文件索引機制的,只能對文本文件進行索引。信
8、息處理模塊主要包含3個步驟:讀取頁面內容、頁面內容解析和構建索引。結構圖如3所示。(圖3)1、讀取頁面內容。首先,該模塊從已構建好的頁面數據庫中提取網頁標題和網頁文本內容;然后將提取到的信息傳遞給下一步驟處理。2、頁面內容解析。讀取到從頁面數據庫傳送過來的文本內容之后,就要對其進行解析處理了。解析就是對文本內容進行解釋和分析。分析在lucene中是指將文本轉換為最基本的索引項的一個過程。所謂的分析器就是對分析操作的封裝類。對于不同的語言,分析器所要完成的功能是不一樣的。比如,對英語來說,要將文檔字母從大寫轉換成小寫、過濾忽略詞等。校園網搜索引擎面對的語言主要是中文,分析器需要實現的就是對完整的
9、語句進行分詞。分詞,顧名思義,就是將一段文本拆分成多個詞。在建立索引的時候,寫入索引庫中并能夠被用戶檢索的是一個個的詞條。所謂詞條就是通過分析器進行分詞和相關處理后的文本單元項,只有通過分詞才可能讓搜索系統理解用戶的檢索請求,進而為其搜索相關的內容。對于一個工作性能良好的搜索引擎來說,分詞是必不可少的一個核心模塊。分詞的質量將直接決定搜索引擎的搜索精度,分詞的速度也將影響搜索的速度。所以,選擇一個合適的分詞器對整個系統的性能是至關重要的。je分詞,這是lucene中自帶的工具之一,可以很好地完成系統的分詞工作。je分詞的下載地址為http:/3、構建索引。事實上,常用的索引方式有3種,分別是倒
10、排索引、后綴數組索引和簽名文檔索引。lucene采用的是倒排索引結構。倒排索引非常符合人們的思維習慣,同時它對關鍵字檢索特別有效。倒排是一種面向單詞項的索引機制。通常,由詞項(關鍵字)和出現情況兩部分組成。對于索引中的每個詞項(關鍵字),都跟隨一個列表(位置表),用來跟蹤記錄單詞在所有文檔中出現過的位置。lucene中涉及兩個非常重要的概念,分別是document和field。document,解釋為文檔,在lucene中,它代表一種邏輯文件。lucene本身無法對物理文件建立索引,而只能識別并處理document類型的文件。document作為一種數據源的集合,lucene會從其中取出相關的
11、數據源內容,并根據屬性配置進行相應的處理。field,我們可以理解為字段,在lucene中,是用field來表示一個一個的document數據源的。在用戶構建完document、并為其添加如合適的field后,便可以按照lucene的索引格式將數據寫入索引文件,構成索引文件庫。(三)用戶檢索模塊。在建立好索引庫之后,用戶就可以根據索引進行檢索了。在lucene中,搜索引擎在接收到用戶檢索關鍵字后,首先會對關鍵字進行分析,然后在已建立好的索引庫中進行搜索,搜索完畢后,將與關鍵字最相關的內容返回給用戶。搜索的具體步驟如下:第一步:初始化檢索工具indexsearcher,設置索引存放路徑。inde
12、xsearcher searcher=new indexsearcher(index_store_path);第二步:構建一個query對象。term t=new term(”a”,”b”);query q=new query(t);其總a是document文檔,b是用戶要檢索的關鍵字。第三步:檢索并返回查詢結果。執行完這三個步驟,用戶將會得到所輸入關鍵字的相關結果。五、結束語本文對校園網的搜索引擎框架做了一個整體的介紹?,F代網絡信息以多樣化的形式快速增長,互聯網用戶想要得到自己所需要的信息,搜索引擎起著至關重要的作用。當代社會分工不同,人們所關注的信息產業范圍也不盡相同,所需要的信息也越發的呈現出模塊化,分屬于不同的站。站內搜索將越來越受到人們的關注,具有很好的研究價值和前景。主要參考文獻:1車東.lucene:基于java的全文檢索引擎簡介ol.2008-11-24.http:/2薛宇星.基于heritrix和lucene的web站內搜索系統d.西安:西安電子科技大學,2008.3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航標器材的海洋數據信息處理技術考核試卷
- 錫冶煉中的產品質量穩定性控制考核試卷
- 社區醫療資源整合與服務考核試卷
- 錫礦選礦廠生產數據分析與決策支持考核試卷
- 裝潢印刷的清潔能源設備考核試卷
- 肉制品加工業的標準化與質量管理考核試卷
- 夏季急救知識趣味科普
- 學校應急救護技能培訓體系
- 因數與倍數教學設計
- 甘肅省酒泉市四校聯考2024-2025學年高一下學期期中考試 物理 PDF版含解析【KS5U 高考】
- 大學生戀愛與性健康(中國性學會) 超星爾雅學習通章節測試答案
- XXX有限公司化工裝置開、停車方案
- 中國不寧腿綜合征的診斷與治療指南
- 中醫醫院中醫護理工作指南2024
- 綠植租賃維護擺放服務實施方案
- “四史”(改革開放史)學習通超星期末考試答案章節答案2024年
- 高考英語讀后續寫練習03:女兒離家又回家+講義
- 期末考試卷-模擬測試卷市場營銷王永貴試卷4
- 鹵菜店供貨合同協議書
- 《積極心理學(第3版)》 課件 第5章 希望
- 華為云:2024年EMS彈性內存存儲技術白皮書
評論
0/150
提交評論