


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于企業深度挖掘型的新型垂直搜索引擎設計,搜索引擎論文目錄式搜索的用戶界面基本上都是分級構造,提供幾個大類入口,用戶一級一級地向下查詢,經過若干人工搜索后找到需要查詢的結果.它固然能夠找到需要的信息,但是其死鏈接較多,要依靠手工操作,根據分類逐層的搜索才能找到,檢索速度非常慢,有失搜索的功能.搜索引擎是一種信息檢索工具,要極大縮短人們查找信息的時間,來最大化地提升了人們的工作效率.(2)全文搜索引擎的缺陷是檢索功能有限全文搜索引擎它擁有詞命中率不高,范疇檢索功能有限,沒有截詞檢索功能.它的效率好不好得根據各站的技術斷定.(3)本文關鍵詞語搜索的缺陷是信息量大,良莠不齊本文關鍵詞語搜索返回的信息太多,需要用戶明確知道自個要找什么,然后理出一個清楚明晰的本文關鍵詞語進行搜索,否則會搜索出很多無關信息,這些信息良莠不齊,魚龍混雜,需要用戶必須從結果中逐一進行挑選識別后才能使用.假如輸入多個本文關鍵詞語進行查找,那么搜出的信息才可能相對減少,這樣就使得人們感到浪費時間很是不方便.同時本文關鍵詞語搜索不能把多方面的內容融為一體自動過濾提取最有價值的內容.(4)模糊搜索的缺陷是準確率低模糊搜索是建立在本文關鍵詞語搜索理論基礎上的同義詞搜索,只要輸入本文關鍵詞語,該本文關鍵詞語的所有同義詞信息都被搜索出來,留給用戶的就是成千上萬的信息.由于輸入的搜索請求是模糊的,所以也無法在最短的時間內,幫助用戶最快地找到所需要的準確信息.用戶假如要找到準確的信息就得一次次地輸入多個本文關鍵詞語才可能找到,這樣就顯得比擬費事了.2基于企業深度挖掘型的新型垂直搜索引擎2.1深度挖掘型搜索的優點通過對元數據信息進入深度加工,提供用戶專業性、功能性、關聯性、用戶信息管理以及信息發布互動等功能的網頁搜索,能很好地知足用戶高要求的搜索信息的需求.專業的元數據屬性構造背后需要一個強大專業人士組成的團隊.這些專業人士對該領域的元數據模型進行專業的分析、關聯整合,再通過搜索技術按這些元數據模型把這些信息組織呈現給用戶.2.2垂直搜索引擎的體系構造搜索引擎[1]系統一般由網頁抓取模塊、信息抽取和索引模塊、界面及檢索模塊3大模塊組成,華而不實網頁抓取模塊包括網頁信息采集和網頁預處理;信息抽取和索引模塊包括Web信息抽取和建立倒排索引;界面及檢索模塊包括查詢界面.搜索引擎的體系構造如此圖1所示.網絡信息采集:主要是指通過Web頁面之間的鏈接關系,從Web上自動地獲取頁面信息,并且隨著鏈接不斷向所需要的Web頁面擴展的經過.實現這一經過主要是由Web信息采集器(WebCrawler)來完成的.網頁預處理:在數據進入數據倉庫之前,對數據進行抽取、轉化和清理.從外圍系統或源系統中把數據導入,轉化一般指對數據的進行統一(包括數據格式和數據編碼的統一),然后把一些垃圾數據清理掉,保存有用數據.Web信息抽取:是設計Wrapper包裝器和抽取規則抽取主題相關信息.建立倒排索引:利用垂直搜索的相關技術如中文分詞技術、索引排序技術等技術建立索引規則.界面及檢索模塊:界面提供用戶接口接收用戶查詢請求、反應查詢結果.搜索引擎為用戶提供通過輸入本文關鍵詞語來得到結果的輸入輸出的可視化界面.用戶在本文關鍵詞語輸入界面中,輸入檢索關鍵語句、本文關鍵詞語以及各種檢索的關鍵條件;在查詢結果輸出界面,搜索引擎將檢索到的結果按一定規則輸出顯示.2.3構建良好深度挖掘型垂直搜索引擎的要求(1)高效的可擴展的信息檢索器作為垂直搜索引擎的最基本環節,信息檢索器(Crawler)為了知足垂直搜索的后續要求,信息檢索器必須能夠智能地獲取制定網絡數據,并且返回具體報告,作為后續分析提供參數,另外檢索器必須實現良好的擴展性,提供各種規則過濾接口,以便于知足垂直搜索針對特定域的檢索要求.(2)模板智能生成匹配,元數據抽取做為垂直搜索引擎的一個重要環節,利用現有的智能學習方式方法和算法,進行改良,研究智能模板生成,以及人工訓練方式方法,研究網頁元數據抽取,實現分散的元數據復原、聚集.(3)基于語義網,超鏈接的文本分類,定向采集對于宏大信息量的網頁庫,即使是指定域的網頁,仍然存在大量的不關聯和極少關聯的網頁,利用現有的超鏈接辨別,信息提取判定,結合對網頁文本特征提取,獲取文本的權重,主體相關性,實現快速定向采集,過濾掉不相關的超鏈和文檔,為檢索器實現快速定向采集提供支持.(4)數據的后期分析提取,提供查詢在大量構造化數據提取后,面對這些原始的數據集,怎樣通過研究一些智能方式方法,進行數據重組過濾提取,獲取原來不存在,但是卻對用戶很有意義用處的數據信息,并且智能化建立相關索引提供應用戶查詢.3核心技術3.1信息采集天天互聯網上傳輸的信息內容相當于3億頁的文本[3],要從中針對定制的目的數據源,通過人工設定網址和網頁分析url方式進行數據采集.垂直搜索對信息源的穩定、抓取的成本問題及對用戶體驗改善程度有著很高的要求.3.2網頁信息抽取整個經過中,數據由非構造化數據抽取成構造化數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以構造化數據為最小單位,然后將這些數據存儲到數據庫,經過深度加工處理后以非構造化的方式和構造化的方式返回給用戶.3.3信息處理信息處理的范圍主要包括去重、聚類、分析,在這里扼要講講聚類技術和中文分詞技術.聚類技術指根據物以類聚原理,對之前無任何類別標注的樣本信息,不需要人工標注和預先訓練分類器,利用樣本間的類似性和差異性等各種相關性,類別在聚類經過中自動生成的一種無指導的計算機學習經過叫做聚類[4](Clustering).簡單來講,聚類是指事先沒有標簽而通過某種成團分析找出事物之間存在聚集性原因的經過.聚類不同于分類,聚類劃分的類是未知的,且聚類中的分類在經過中自動生成.而分類是事先定義好類別,類別數不變的.搜索引擎中利用聚類思想對用戶輸入的本文關鍵詞語檢索結果進行分類,可想而知聚類思想的應用給搜索引擎的用戶帶來很好的鋪墊.對于中文信息處理中各種分詞方式方法當前有很多,大致能夠分為:機械分詞法、基于理解的分詞以及基于統計的分詞3類,而華而不實文分詞[5](ChineseWordSegmentation)技術是一個重要的基礎,中文分詞應用廣泛,且是中文搜索引擎的核心技術之一.3.4元數據管理元數據管理是數據中心信息資源標準管理,通過該系統來規范管理數據資源的規范定義、命名、分類等,同時也將幫助從技術的角度梳理所有的信息系統,理解每一個數據的來龍去脈.元數據管理功能包含元模型管理、元數據的維護及查詢、元數據批量加載、元數據自動獲取、元數據的分析及應用、元數據版本管理以及元數據的同步檢查等.3.5索引排序索引排序是根據索引的關鍵字的順序建立一個新的、與原索引文件同樣大小、構造一樣的物理文件,改變了物理順序.當前常用的排序算法有兩種,PageRank算法和HITS算法[6].4企業垂直搜索引擎系統設計4.1需求分析由于企業信息的不斷發展和累積,一直以來好多企業領導對企業的運營情況只能通過各個部門的人工報表進行了解分析,這樣運營指標缺乏統一、直觀、準確、快速的展現方式,同時對經營存在的問題也缺乏深層次的了解[8].因而,需要搭建一個能夠對企業數據進行搜索挖掘,進而能夠對過濾出的數據進行高效分析,從多個角度以多種方式把握和展現企業的經營情況,深層次地搜索開掘數據信息進而進行數據服務的系統.4.2總體架構基于企業深度挖掘型垂直搜索引擎的數據服務的系統架構如此圖2所示,包括4個部分:數據采集、數據挖掘、元數據管理和數據服務.(1)數據采集數據源是整個系統的運行的根本,其包括企業的內部數據和外部數據及一號工程數據等,該模塊是采集數據任何爬蟲都不可或缺的通用模塊,該模塊負責協調超鏈接分析模塊和頁面相關度分析模塊的工作.首先,爬蟲采集模塊從待爬行URL隊列中取出鏈接相關度較高的URL,將該URL相應的網頁采集到本地,然后,將該頁面交由頁面相關度分析模塊處理.在整個爬行經過中,爬行的次序和爬行策略都有鏈接分析模塊提供.(2)數據挖掘Web數據挖掘建立在對大量的網絡數據進行分析的基礎上,采用相應的數據挖掘算法,在詳細的應用模型上進行數據的提取、數據挑選、數據轉換、數據挖掘和形式分析,通過存儲數據字典、根據一定的數據轉換規則、對數據進行自動加載頻率等組織相應的元數據,對那些需要重點分析的元數據進行有效整理統計分析,進而根據所獲得的相關數據進行應用.(3)元數據管理系統根據煙草數據中心元數據管理規范對元數據進行定義,支持煙草元數據的分類管理.系統提供包括獲取層元數據維護、存儲層元數據維護、訪問層元數據維護、交換層元數據維護以及元數據的檢索、閱讀、打印等功能.(4)數據服務數據服務讓使用者無需去訪問或者更新多個數據源,更重要的是,當使用者需要操作多個數據源時,數據服務有助于維持數據的完好性.除此之外,它們還能夠幫助構建可被多個項目和創新利用的可重用數據服務.數據服務還能夠執行關鍵的治理職能它們有助于度量指標的集中化、監視、版本管理、數據類型的重用,以及執行數據可視化和訪問規則.數據服務的范圍包括:數據實體上的各種操作,聚合多個不同數據源的數據,使用多種協議簡化使用多個平臺的數據接口,邏輯接口和物理提供者接口之間的映射.4.3系統架構基于企業垂直搜索引擎的數據服務的系統是建立挖掘型垂直搜索引擎進行元數據分析整理,改變一般搜索引擎只將網頁為最小單位存儲到數據庫中,此系統將網頁的非構造化數據抽取成特定的構造化信息數據,對行業領域內的信息模型和用戶模型構造化的搜集或再組織,提供更多、更專業、個性化的行業相關服務.數據源層主要包括:互聯網、企業內部報送、一號工程等;數據采集層主要包括:行業專題爬蟲、企業應用開發接口等;數據加工層主要包括網頁解析、索引建立、數據過濾等;數據存儲中心主要包括:關系數據庫、網頁索引庫、本體庫等;信息檢索層、展現層實現不再累述.4.4人機交互界面(1)不同工作分工的人員有不同的權限訪問系統進行相應的操作.(2)能同時顯示不同種類的信息,用戶可在幾個工作環境中切換而不丟失幾個工作之間的聯絡.(3)引用圖標、下拉式菜單、按鈕等技術使那些不太精于打字的用戶和系統之間有很高的交互.(4)系統提供自動通知,用戶能夠及時知道需要處理哪些工作.(5)系統為方便用戶了解分析數據提供了報表和圖形的方式.(6)系統提供良好的人機交互.(7)提供一定的幫助系統.以下為參考文獻[1]趙杰.搜索引擎技術[M].哈爾濱:哈爾濱工程大學出版社,2007.[2]盧亮,張博文.搜索引擎原理實踐與應用[M].北京:電子工業出版社,2018.[3]陳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農村土地流轉規范化管理中的土地流轉糾紛調解機制研究及實踐報告
- 租賃類公司安全管理制度
- 日間手術分級管理制度
- 學校個別咨詢室管理制度
- 公司小食堂就餐管理制度
- 化妝品公司制度管理制度
- 公司瓶裝水接待管理制度
- 乳品化驗室設備管理制度
- 暫扣罰沒物資管理制度
- 公司水電氣使用管理制度
- 農村抗震農房裝配式施工安全監理合同
- 鋁粉加工合同協議書
- 大學語文試題及答案安徽
- 近七年寧夏中考化學真題及答案2024
- 2025至2030中國芳綸纖維行業需求預測及發展前景趨勢研究報告
- 十一學校小升初入學測試數學真題及詳細解答
- Braden 壓力性損傷評分表詳解
- 婚內賭博欠債協議書范本
- 造價咨詢項目管理制度
- 徐圩港區疏港航道整治工程報告書
- XX公司事故隱患內部報告獎勵制度1
評論
0/150
提交評論