移動搜索引擎_第1頁
移動搜索引擎_第2頁
移動搜索引擎_第3頁
移動搜索引擎_第4頁
移動搜索引擎_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1、 歷史:(選擇)搜索技術的歷史萌芽階段:Archie 、Gopher搜索技術的歷史起步階段:Robot 、Spider搜索技術的歷史發展階段: Excite 、Galaxy、Yahoo搜索技術的歷史繁榮階段: Infoseek 、Alta Vista、Google、Baidu2、 搜索技術應用現狀采用分布式體系結構提高規模與性能搜索技術應用現狀支持目錄式分類結構和全文搜索現在的搜索引擎都在3代,4代的在發展中其中,第一代搜索引擎以早期 Yahoo 為代表,第二代以 Google 的創立為標志,之后Google 經過改進 Pagerank 和一系列技術,演化至第三代,而第四代搜索引擎有大量公

2、司如Cuil,Quora 探索,但還未形成成熟的產品。3、 將信息分割成一個個關鍵字,并輔以關鍵字所在位置(例如第幾頁),從而構成一個倒排基本單位。是根據關鍵字查相應位置1.收集待建索引的原文檔(Document) 2.將原文檔傳給詞條化工具(Tokenizer)進行文本詞條化 3.將第二步得到的詞條(Token)傳給語言分析工具(Linguistic modules)進行語言學預處理,得到詞項(Term) 4.將得到的詞項(Term)傳給索引組件(Indexer),建立倒排索引4、信息檢索系統的基本知識評價信息檢索系統的標準信息檢索系統的評價,主要是用戶對所獲取的結果進行評價。比如,是否喜歡

3、系統,系統界面是否友好,是否能夠找到用戶所需要的信息。以下是評價信息檢索系統的5個指標: 信息是否完全 信息檢索的響應時間 召回率 精度 自然程度5、索引創建過程6、 文檔(Document)與域(Field)是Lucene中的重要概念,事實上任何與索引文檔相關的操作,都是在document類與field類的基礎上實現的。 Document在lucene中是一種邏輯文件,Lucene本身無法對物理文件建立索引,只能識別處理Document類型的文件。 Document和物理文件沒有關系,是一種數據源的集合,負責向lucene提供原始的要索引的文本內容。 NOTE:Document是負責收集數據

4、,甚至可以不使用物理文件來構建,一段文本、幾個數字甚至是鏈接都可以作為構建Document的數據源。7、Field的屬性一般分為3類1. 是否存儲2. 是否索引3. 是否分詞8、Lucene所以創建過程一般分為三個主要步驟:1. 將原始文檔轉為文本(Denormalization)2. 分析文本3. 將分析好的文本保存到索引中9、刪除索引中的文檔:deleteDocuments(Term) 刪除包含特定項的所有文檔deleteDocuments(Term ) 刪除包含數組任一元素的所有文檔deleteDocuments(Query) 刪除匹配查詢語句的所有文檔deleteDocuments(Q

5、uery ) 刪除匹配查詢語句數組任一元素的所有文檔deleteAll()刪除索引全部文檔,與writer先關閉在用參數create=true重新打開登記,deleteAll()方法好處是不用關閉writer10、使用IndexReader類的UndeleteALL()方法,可以恢復不是優化方式(物理)刪除的文檔。 File indexDir = new File(“D:luceneIndex"); IndexReader ir = IndexReader.open(indexDir); ir.undeleteAll(); ir.close(); 11、加權是指對文檔和域的重要性通過

6、加權因子進行人為地干預。 加權操作可以在索引期間完成,也可以在搜索期間完成。搜索期間的加權操作會更加動態化, 每次搜索操作都可以根據不通的加權因子獨立選擇加權或者不加權,但這個策略也可能要稍微多消耗點CPUX效率。NOTE:無論在什么時候進行加權都需要小心,過多的加權操作,特別是在用戶界面沒有提示的相應文檔已經被加權操作的情況下。這可能會使用戶搜索到很多用戶不關心的東西(如百度的競價排名)。文檔的加權操作:doc.setBoots(float) 域的加權操作: Field subjectField =new Field("author", author,Field.Stor

7、e.YES,Field.Index.ANALYZED); subjectField. setBoots(1.2F);默認的加權因子是1.0 12、(簡答題)實現簡單的搜索Lucene的搜索流程初始化Lucene的檢索工具類-IndexSearch類,這是Lucene中最基本的檢索工具,使用它之前要對IndexReader進行初始化 (需要傳入一個保存索引文件的目錄參數到其構造方法 ), IndexReader實例對象就可以使用對應的API與存儲在索引中的文檔document進行交互,在接受Query對象以用于搜索后,并返回TopDocs對象展現搜索結果。13、由上述的構造方法可以看出,Inde

8、xReader實例對象的構建一般有2種方式:其中指定到索引給出了兩種方式:1.給出索引的Directory;2.給出索引的IndexReader;14、近實時搜索 一種減少索引&搜索翻轉時間的方案(填空)近實時搜索:可以使用一個打開的IndexWriter快速搜索索引的變更內容,而不必首先關閉writer,或者向該writer提交;這是2.9版本之后推出的新功能。應用這種技術意味著不需要調用writer中的commit方法,然后再重新打開reader,這樣可以節省大量的系統資源,因為調用commit方法必須對索引中的所有文件進行同步,這個同步操作對某些操作系統和文件系統來說通常是負擔很

9、重的。近實時搜索其實就是提供了一種方案允許用戶對新創建但還未完成提交的段進行搜索。15、Lucene評分機制 Lucene如何評分16、Lucene多樣化查詢 Query類前面的例子我們已經知道,Lucene查詢操作最終需要調用IndexSearch類的search方法,同時傳入Query實例對象作為參數。要獲取Query實例對象,可以通過Query的子類可以直接實例化,也可以使用用后面介紹的解析查詢表達式類QueryParser來得到。Lucene內置的Query類型有: TermQuery TermRangeQuery NumericRangeQuery PrefixQuery Boole

10、anQuery WildcardQuery FuzzyQuery MatchAllQuery17、(填空題)lucene分析器一般會在下面三種時刻起作用: 1、建立索引期間 2、使用QueryParser對象解析查詢表達式進行搜索時 3、搜索結果中高亮顯示被搜索內容時(即結果摘要-Snippets的生成),也可能會用到分析操作18、一個語匯單元由文本值(即單詞本身)和元數據組成。 元數據包括:原始文本從起點與終點的偏移量、語匯單元的類型以及位置增量。上例中,語匯單元the起點偏移量為0,終點偏移量為3,類型為Word,與另外一個語匯單元quick的位置增量為1 。19、使用分析器Lucene內

11、置分析器簡介 (簡答題)1、WhitespaceAnalyzer 僅僅是去除空格,對字符沒有lowcase化,不支持中文;并且不對生成的詞匯單元進行其他的規范化處理。2、SimpleAnalyzer 功能強于WhitespaceAnalyzer, 首先會通過非字母字符來分割文本信息,然后將詞匯單元統一為小寫形式。該分析器會去掉數字類型的字符。3、StopAnalyzer StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基礎上增加了去除英文中的常用單詞(如the,a等),也可以更加自己的需要設置常用單詞;不支持中文。4、StandardAnaly

12、zer 英文的處理能力同于StopAnalyzer.支持中文采用的方法為單字切分。他會將詞匯單元轉換成小寫形式,并去除停用詞和標點符號。20、21、lucene默認根據匹配度對搜索結果降序排,如果對某個域進行排序。 對搜索產生的結果可以進行如下的排序操作: 1、按照相關性進行排序(默認) 2、根據域值進行排序 3、根據文檔索引順序進行排序4、通過多個域進行排序5、自定義排序22、跨度查詢 Lucene允許按照詞在文本中的距離或者查詢幾個相鄰詞的查詢。打個比方:如“中華人民共和國” 用“中國“做為搜索條件,經過分析器處理得到語匯單元為”中、國”, 跨度為某個值,如5。跨度代表 中 和國之間的長度。 Lucene是使用SpanQuery類來實現跨度查詢功能。其有6個子類,分別表示各種跨度查詢: SpanTermQuery

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論