網(wǎng)站全文檢索方案_第1頁(yè)
網(wǎng)站全文檢索方案_第2頁(yè)
網(wǎng)站全文檢索方案_第3頁(yè)
網(wǎng)站全文檢索方案_第4頁(yè)
網(wǎng)站全文檢索方案_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

...wd......wd......wd...浙江天宇信息技術(shù)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)浙江天宇信息技術(shù)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)技術(shù)方案第一局部對(duì)系統(tǒng)需求的理解1.1前言互聯(lián)網(wǎng)作為“第四媒體〞已成為人們生活或工作中不可或缺的信息獲取的手段。各級(jí)政府機(jī)關(guān)紛紛構(gòu)建了內(nèi)容豐富的政府門戶網(wǎng)站與內(nèi)部辦公網(wǎng),方便公眾網(wǎng)上辦事,提高了政府機(jī)關(guān)的辦事效率。但是,隨著網(wǎng)站內(nèi)容的不斷豐富,網(wǎng)頁(yè)數(shù)量也呈幾何式增長(zhǎng),由此也帶來(lái)了一個(gè)問題:政府門戶網(wǎng)站或網(wǎng)站群信息量巨大,缺乏一條有效的信息快速獲取的途徑,導(dǎo)致公眾在相關(guān)的政府門戶網(wǎng)站上不知道若何在短時(shí)間內(nèi)找到自己需要或最感興趣的內(nèi)容,查詢所需要的信息卻變得越來(lái)越困難,于是很快就失去耐心,離開這個(gè)網(wǎng)站。借鑒門戶網(wǎng)站的經(jīng)歷,通過搜索引擎的方式,建設(shè)基于網(wǎng)站內(nèi)部頁(yè)面的導(dǎo)航系統(tǒng)——網(wǎng)站全文檢索系統(tǒng),就成為解決以上問題的主要措施。然而,政務(wù)公眾網(wǎng)全文檢索系統(tǒng)還不同于一般的搜索引擎系統(tǒng),它需要對(duì)網(wǎng)站上幾乎所有的內(nèi)容都需要采集下來(lái),包括各種格式的頁(yè)面信息,采全率越高就越能表達(dá)導(dǎo)航系統(tǒng)的優(yōu)勢(shì)。目前常用的互聯(lián)網(wǎng)搜索引擎系統(tǒng),考慮到應(yīng)用的需要,沒有對(duì)動(dòng)態(tài)數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)展采集〔是否具備此類功能是未知的〕。而許多政府網(wǎng)站的頁(yè)面,很多是通過程序動(dòng)態(tài)生成的,或者是存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中的,格式多樣。浙江天宇的采集系統(tǒng)考慮到實(shí)際的應(yīng)用需要,除了具備搜索引擎系統(tǒng)具備的采集功能外,還實(shí)現(xiàn)了對(duì)動(dòng)態(tài)數(shù)據(jù)庫(kù)里的頁(yè)面及由程序動(dòng)態(tài)生成的頁(yè)面進(jìn)展實(shí)時(shí)采集。本方案中采用浙江天宇信息技術(shù)開發(fā)的新一代智能化的互聯(lián)網(wǎng)天信息采集系統(tǒng)作為應(yīng)用核心,海量非構(gòu)造化全文數(shù)據(jù)庫(kù)系統(tǒng)作為后臺(tái)WEB頁(yè)面的管理平臺(tái),提供一站式的全文檢索服務(wù)。這將有效地解決上述問題。1.2需求分析1.2.1應(yīng)用目標(biāo)通過建設(shè)政務(wù)公眾網(wǎng)全文檢索系統(tǒng),實(shí)現(xiàn)對(duì)以XX市政務(wù)網(wǎng)為核心,涉及到所有XX各級(jí)政府部門的門戶網(wǎng)站W(wǎng)EB頁(yè)面內(nèi)容的批量采集,建設(shè)搜索引擎庫(kù),在XX政務(wù)網(wǎng)門戶網(wǎng)站上建設(shè)政務(wù)網(wǎng)站導(dǎo)航功能的政務(wù)公眾網(wǎng)全文檢索系統(tǒng),公眾只需要登錄到XX政務(wù)網(wǎng),通過檢索系統(tǒng),便可以查詢到所有XX各級(jí)政府部門的門戶網(wǎng)站上所需要的政務(wù)信息,提高公眾的查詢與使用政務(wù)信息的效率,從而真正表達(dá)XX市政府部門便民服務(wù)的核心與宗旨。1.2.2功能需求根據(jù)應(yīng)用目標(biāo)和招標(biāo)書建設(shè)內(nèi)容的要求,在認(rèn)真閱讀分析招標(biāo)書和了解XX市政務(wù)網(wǎng)應(yīng)用現(xiàn)狀根基上,我們理解,XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的建設(shè)的核心可以分解為三個(gè)子系統(tǒng)的建設(shè):采集子系統(tǒng)、管理子系統(tǒng)、檢索子系統(tǒng)。采集子系統(tǒng):實(shí)現(xiàn)對(duì)各級(jí)政務(wù)網(wǎng)站W(wǎng)EB頁(yè)面的批量采集的系統(tǒng)工具,支持對(duì)各類格式信息的采集。管理子系統(tǒng):實(shí)現(xiàn)對(duì)采集的內(nèi)容的管理、采集管理、各類詞典與詞表的管理、用戶管理、日志管理、檢索管理等應(yīng)用功能。檢索子系統(tǒng):實(shí)現(xiàn)對(duì)采集的WEB頁(yè)面的智能化全文檢索,支持各類檢索方式。另外,系統(tǒng)應(yīng)具備良好的穩(wěn)定性與安全性,保證系統(tǒng)與采集的數(shù)據(jù)內(nèi)容的安全。1.3方案綜述1.3.1內(nèi)容安排與概要首先,對(duì)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的需求進(jìn)展了分析,明確了建設(shè)目標(biāo)和內(nèi)容;然后進(jìn)展了總體技術(shù)方案的功能設(shè)計(jì),從應(yīng)用軟件的選擇、系統(tǒng)功能模塊等方面進(jìn)展了設(shè)計(jì);在系統(tǒng)功能模塊的設(shè)計(jì)和實(shí)現(xiàn)方面,對(duì)采集子系統(tǒng)、管理子系統(tǒng)與檢索子系統(tǒng)等關(guān)鍵點(diǎn)進(jìn)展了詳細(xì)的功能描述及技術(shù)特點(diǎn)描述。再次,就應(yīng)用系統(tǒng)的安全方面進(jìn)展了詳細(xì)的描述及功能設(shè)計(jì)。最后,就招標(biāo)書中應(yīng)用系統(tǒng)功能需求條款進(jìn)展逐個(gè)應(yīng)答。1.3.2方案特點(diǎn)采用了業(yè)界主流和開放的技術(shù)標(biāo)準(zhǔn)和設(shè)計(jì)模式,提供開放的、平臺(tái)級(jí)的應(yīng)用編程接口和管理工具,可根據(jù)業(yè)務(wù)需要進(jìn)展擴(kuò)展;系統(tǒng)采用國(guó)內(nèi)領(lǐng)先的智能化互聯(lián)網(wǎng)采集系統(tǒng)與非構(gòu)造化海量全文數(shù)據(jù)庫(kù)系統(tǒng)作為政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的采集、管理與檢索平臺(tái),保證了系統(tǒng)具備了先進(jìn)性與良好的開放性。智能化采集系統(tǒng)具備強(qiáng)大的采集功能,能夠采集幾乎所有類型的數(shù)據(jù)內(nèi)容,支持ROBOTS協(xié)議。采用統(tǒng)一身份認(rèn)證、權(quán)限控制、用戶操作審計(jì)等安全措施,使得整個(gè)系統(tǒng)具有較強(qiáng)的安全性。第二局部技術(shù)方案2.1方案設(shè)計(jì)2.1.1軟件平臺(tái)選擇浙江天宇信息技術(shù)憑借在信息服務(wù)、網(wǎng)站建設(shè)等建設(shè)領(lǐng)域多年的工程實(shí)施經(jīng)歷及1000多家成功應(yīng)用案例,針對(duì)XX市政府政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的實(shí)際需求及未來(lái)的開展需要,提供一整套解決方案與成熟的具有自主知識(shí)產(chǎn)權(quán)的系列軟件產(chǎn)品——政務(wù)公眾網(wǎng)全文檢索系統(tǒng)。從應(yīng)用實(shí)現(xiàn)的角度,政務(wù)公眾網(wǎng)全文檢索系統(tǒng)選擇基于:瀏覽器與客戶端相結(jié)合來(lái)實(shí)現(xiàn)目標(biāo)系統(tǒng)的應(yīng)用功能。基于用戶方的硬件環(huán)境及操作系統(tǒng)環(huán)境,我們的方案選擇相應(yīng)數(shù)據(jù)庫(kù)平臺(tái)及應(yīng)用系統(tǒng)軟件來(lái)具體實(shí)現(xiàn)政務(wù)公眾網(wǎng)全文檢索系統(tǒng)的建設(shè)目標(biāo)。XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)應(yīng)用軟件平臺(tái)XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)應(yīng)用軟件平臺(tái)網(wǎng)站搜索引擎系統(tǒng)全文檢索系統(tǒng)CGRS5.1網(wǎng)站搜索引擎系統(tǒng)全文檢索系統(tǒng)CGRS5.1智能互聯(lián)網(wǎng)信息采集系統(tǒng)CGRS搜索引擎庫(kù)……CGRS全文數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)平臺(tái)CGRS搜索引擎庫(kù)……CGRS全文數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)平臺(tái)UNIX/LINUX/WINDOWS2000/2003操作系統(tǒng)UNIX/LINUX/WINDOWS2000/2003操作系統(tǒng)2.1.2系統(tǒng)功能構(gòu)造政務(wù)公眾網(wǎng)全文檢索系統(tǒng)主要是以CGRS全文數(shù)據(jù)庫(kù)為應(yīng)用支撐平臺(tái),以智能化網(wǎng)絡(luò)機(jī)器人技術(shù)及全文檢索技術(shù)作為應(yīng)用核心,通過政務(wù)公眾網(wǎng)全文檢索系統(tǒng)將采集到搜索引擎庫(kù)中的WEB頁(yè)面信息對(duì)公眾提供智能化的高效的全文檢索服務(wù)。系統(tǒng)圍繞政務(wù)門戶網(wǎng)站上各種信息資源的采集與聚類、信息過濾和管理、信息的智能檢索,構(gòu)建XX市政務(wù)公眾網(wǎng)全文檢索系統(tǒng)。2.2系統(tǒng)功能及技術(shù)指標(biāo)2.2.1采集子系統(tǒng)功能及技術(shù)指標(biāo)采集子系統(tǒng)工作流程采集子系統(tǒng)主要完成對(duì)目標(biāo)網(wǎng)站或網(wǎng)站群上WEB頁(yè)面及其他附件信息的批量采集,通過內(nèi)容過濾,加載到CGRS搜索引擎庫(kù),進(jìn)展管理與提供網(wǎng)站全文檢索服務(wù)。采集子系統(tǒng)的工作流程主要包含以下幾個(gè)局部:1、確定采集目標(biāo)網(wǎng)站,建設(shè)采集工程;2、對(duì)采集工程進(jìn)展搜索策略的定義及過濾條件等內(nèi)容的設(shè)定;3、根據(jù)URL特征進(jìn)展網(wǎng)站頻道的分類采集、過濾及內(nèi)容自動(dòng)去重;4、采集的內(nèi)容自動(dòng)加載到CGRS搜索引擎庫(kù),交由CGRS全文數(shù)據(jù)庫(kù)管理系統(tǒng)進(jìn)展統(tǒng)一管理。采集子系統(tǒng)工作流程圖功能描述〔1〕建設(shè)采集工程在本方案中以“XX政務(wù)網(wǎng)〞為實(shí)例進(jìn)展采集子系統(tǒng)的功能介紹及采集子系統(tǒng)界面描述。政務(wù)網(wǎng)采集工程://XX政務(wù)網(wǎng).定義采集的入口,可以自行根據(jù)需要進(jìn)展設(shè)定。完成采集工程新建工作后,可以立即進(jìn)入工程的參數(shù)配置政務(wù)網(wǎng)采集工程://XX政務(wù)網(wǎng).定義采集的入口,可以自行根據(jù)需要進(jìn)展設(shè)定。完成采集工程新建工作后,可以立即進(jìn)入工程的參數(shù)配置起始URL中可以含有日期通配符,如${year}、${month}、${day}或是循環(huán)變量loop,對(duì)于帶有日期信息的入口網(wǎng)站地址URL,可以使用日期通配符;對(duì)于一些數(shù)字或字符串的URL,則可以使用LOOP循環(huán)變量進(jìn)展設(shè)置。通過這些通配符,可以方便地設(shè)定具有一定規(guī)則的URL的多個(gè)采集入口,方便地進(jìn)展多入口分類進(jìn)展采集。提高采集效率與采集質(zhì)量。對(duì)于“XX政務(wù)網(wǎng)〞網(wǎng)站,需要分頻道分欄目檢索功能,系統(tǒng)采用建設(shè)多個(gè)采集工程的方式,實(shí)現(xiàn)分欄目分頻道采集,統(tǒng)一的全文檢索的目標(biāo)。對(duì)于一些不需要分頻道檢索的其他網(wǎng)站,則可以通過建設(shè)一個(gè)采集工程的方式實(shí)現(xiàn)整個(gè)網(wǎng)站信息的的全部采集。〔2〕采集工程參數(shù)設(shè)置URL選項(xiàng)對(duì)于主機(jī)地址的限定,系統(tǒng)提供四種參數(shù)設(shè)置規(guī)則:①地址不限。用戶選中后,系統(tǒng)會(huì)無(wú)限制進(jìn)展采集,可以通過XX政務(wù)網(wǎng)內(nèi)的所有鏈接,進(jìn)展WEB頁(yè)面的采集。②本站內(nèi)。對(duì)本站內(nèi)搜索的WEB頁(yè)面進(jìn)展批量采集,對(duì)于其他網(wǎng)站上的友情連接網(wǎng)站,則不進(jìn)展采集。③本站內(nèi)限定的目錄。通過對(duì)采集路徑進(jìn)展限定,實(shí)現(xiàn)了分欄目分頻道進(jìn)展采集,為分頻道進(jìn)展全文檢索奠定根基。通過這個(gè)參數(shù)的設(shè)定,可以定位到某個(gè)欄目或某幾個(gè)欄目的批量采集。④自定義。用戶可以根據(jù)需要,自己定義采集的范圍,這個(gè)設(shè)置的靈活性非常高,自由度大。對(duì)于“XX政務(wù)網(wǎng)〞自身的頁(yè)面內(nèi)容的采集,則選擇通過限定目錄的方式進(jìn)展采集,便于進(jìn)展分頻道檢索;對(duì)于采集其他網(wǎng)站群,則選擇自定義方式在目標(biāo)網(wǎng)站群中進(jìn)展無(wú)限制采集。URL過濾。對(duì)于采集的頁(yè)面,可以允許采集那些帶有一定URL規(guī)則的頁(yè)面,也可以排除某些帶有一定URL規(guī)則的頁(yè)面,提高采集的效率。采集“XX政務(wù)網(wǎng)〞自身,需要考慮使用URL過濾方式,便于準(zhǔn)確采集頻道內(nèi)容,其他的網(wǎng)站采集則無(wú)須考慮URL過濾。搜索限定支持robots協(xié)議,另外,系統(tǒng)也可以不遵循此協(xié)議支持腳本語(yǔ)言解析,采集通過程序動(dòng)態(tài)生成的頁(yè)面。搜索限定主要是設(shè)置定義采集目標(biāo)網(wǎng)站的深度和文件類型。支持robots協(xié)議,另外,系統(tǒng)也可以不遵循此協(xié)議支持腳本語(yǔ)言解析,采集通過程序動(dòng)態(tài)生成的頁(yè)面。采集目標(biāo)網(wǎng)站的深度設(shè)置,通過層的方式進(jìn)展控制。采集“XX政務(wù)網(wǎng)〞時(shí),根據(jù)前面URL采集規(guī)則的設(shè)定,需要進(jìn)展分頻道分欄目進(jìn)展采集,那么在這里層數(shù)設(shè)置為“1〞,也就是對(duì)目標(biāo)URL下面的頁(yè)面進(jìn)展采集,這樣就可以準(zhǔn)確的采集到某個(gè)或某些頻道或欄目下的頁(yè)面了,不會(huì)出現(xiàn)采集其他信息的可能。對(duì)于采集其他網(wǎng)站群,則選擇“-1〞,表示無(wú)限制采集URL規(guī)則下面的所有WEB頁(yè)面。當(dāng)然,用戶可以根據(jù)實(shí)際需要,采集需要的層數(shù)。對(duì)于有些網(wǎng)站的層數(shù)是通過腳本語(yǔ)言控制動(dòng)態(tài)生成的,我們可以選擇本系統(tǒng)中“腳本語(yǔ)言解析器〞進(jìn)展腳本解析,這將有效地解決通過腳本語(yǔ)言動(dòng)態(tài)生成的頁(yè)面,做到100%的目標(biāo)網(wǎng)頁(yè)內(nèi)容的采集。采集的文件類型。系統(tǒng)支持對(duì)頁(yè)面內(nèi)容〔htm、html、xml、shtml、asp、php、jsp、notes等〕、網(wǎng)頁(yè)附件〔doc、xls、ppt、txt、pdf等〕、圖片〔jpg、gif、jpeg、bmp等〕、音頻〔MP3等〕、視頻〔AVI、RM、MPEG等〕、JAVA〔由JAVASCRIPT程序生成的頁(yè)面〕等內(nèi)容的采集。對(duì)于頁(yè)面內(nèi)聯(lián)圖片的采集,可以做到保持原樣不變的進(jìn)展采集。根據(jù)本工程的實(shí)際需要,我們選擇“總是下載內(nèi)聯(lián)圖片、全部格式〞進(jìn)展頁(yè)面內(nèi)容的批量采集,這樣就能有效地保證采集各類靜、動(dòng)態(tài)網(wǎng)頁(yè)、網(wǎng)頁(yè)附件、由JAVASCRIPT生成的頁(yè)面等內(nèi)容的采集,實(shí)現(xiàn)用戶方的功能需求,其他設(shè)置參數(shù)可以不需要考慮。數(shù)據(jù)處理數(shù)據(jù)處理主要是執(zhí)行下載的網(wǎng)頁(yè)數(shù)據(jù)上載到數(shù)據(jù)庫(kù),并在網(wǎng)頁(yè)入庫(kù)前做一些預(yù)處理的操作流程:選擇數(shù)據(jù)庫(kù)、數(shù)據(jù)預(yù)處理、網(wǎng)頁(yè)內(nèi)容提取。支持各類碼集及各類碼集的轉(zhuǎn)換支持各類碼集及各類碼集的轉(zhuǎn)換可以設(shè)定過濾條件,過濾含有黃色信息的頁(yè)面發(fā)送數(shù)據(jù)庫(kù),是將采集下來(lái)的頁(yè)面分類分頻道地發(fā)送到指定的CGRS搜索引擎數(shù)據(jù)庫(kù)中進(jìn)展統(tǒng)一的管理。數(shù)據(jù)預(yù)備處理,可以支持各類字符集編碼,如GBK、GB2312、BIG5等,并可以實(shí)現(xiàn)采集頁(yè)面內(nèi)容的時(shí)候,自動(dòng)進(jìn)展識(shí)別,將BIG5碼集的內(nèi)容轉(zhuǎn)換為GB2312碼集。自動(dòng)分類,主要是實(shí)現(xiàn)對(duì)采集的內(nèi)容按需要進(jìn)展分頻道分類采集,便于用戶分頻道進(jìn)展檢索。排除URL是根據(jù)分頻道采集的時(shí)候進(jìn)展URL上載到數(shù)據(jù)庫(kù)前的二次過濾,提高分頻道采集的準(zhǔn)確性〔后面進(jìn)展若何進(jìn)展分類進(jìn)展詳細(xì)的描述〕。網(wǎng)頁(yè)內(nèi)容過濾是在采集的時(shí)候,可以設(shè)置過濾條件,將含有黃色信息的頁(yè)面進(jìn)展采集過濾。在本工程中,數(shù)據(jù)預(yù)處理各類參數(shù)我們都需要進(jìn)展細(xì)致的設(shè)置,便可到達(dá)用戶的功能需求。網(wǎng)頁(yè)內(nèi)容提取,是實(shí)現(xiàn)對(duì)采集的WEB頁(yè)面進(jìn)展內(nèi)容的過濾提取,并進(jìn)展格式化。在本工程中根據(jù)實(shí)際情況,可以不需對(duì)這項(xiàng)參數(shù)進(jìn)展具體的設(shè)置。分類規(guī)則及實(shí)現(xiàn)根據(jù)青島政務(wù)網(wǎng)的欄目,設(shè)置分類規(guī)則分類采集主要是根據(jù)網(wǎng)站欄目的URL特征進(jìn)展采集的分類根據(jù)青島政務(wù)網(wǎng)的欄目,設(shè)置分類規(guī)則分類采集主要是根據(jù)網(wǎng)站欄目的URL特征進(jìn)展采集的分類分析青島政務(wù)網(wǎng)的欄目的URL特征,生成匹配規(guī)則只要采集的頁(yè)面URL滿足匹配規(guī)則,則歸到相關(guān)的分類高級(jí)屬性設(shè)置配置網(wǎng)頁(yè)下載的一些高級(jí)屬性,主要包括建庫(kù)方式、是否啟用代理、下載的配置以及對(duì)要身份驗(yàn)證的網(wǎng)站,可以預(yù)先填入用戶名和密碼來(lái)訪問該網(wǎng)站等功能。支持采集客戶端通過代理服務(wù)器進(jìn)展采集,選中進(jìn)展通用配置支持采集客戶端通過代理服務(wù)器進(jìn)展采集,選中進(jìn)展通用配置支持對(duì)需要身份校驗(yàn)的網(wǎng)站進(jìn)展采集配置代理服務(wù)器支持對(duì)硬盤進(jìn)展管理,用戶可以設(shè)定硬盤資源缺乏停頓下載及警告根據(jù)目標(biāo)網(wǎng)站的實(shí)際情況,用戶可以設(shè)置掃描間隔建庫(kù)方式:選擇脫機(jī)瀏覽還是上載入庫(kù)方式。應(yīng)選擇上載入庫(kù)的方式。代理服務(wù)器:如果用戶需要通過代理,才能上網(wǎng),就需要在通用配置里設(shè)置代理服務(wù)器的信息。系統(tǒng)支持通過代理服務(wù)器進(jìn)展采集。下載配置:用戶可以自行配置掃描與下載的時(shí)間間隔,以到達(dá)最正確的采集效果。用戶根據(jù)需要設(shè)定采集掃描間隔,進(jìn)展增量式采集。系統(tǒng)會(huì)根據(jù)設(shè)定,自動(dòng)進(jìn)展掃描與采集。在通用配置里,用戶可以設(shè)置硬盤資源缺乏的時(shí)候進(jìn)展警告及停頓頁(yè)面的下載。至此,完成這個(gè)采集子系統(tǒng)的配置工作,可以通過天宇的下載調(diào)度中心自動(dòng)控制工程進(jìn)展增量式下載更新。用戶根據(jù)需要設(shè)定采集掃描間隔,進(jìn)展增量式采集。系統(tǒng)會(huì)根據(jù)設(shè)定,自動(dòng)進(jìn)展掃描與采集。技術(shù)參數(shù)指標(biāo)頁(yè)面采集內(nèi)容的完整性。適應(yīng)網(wǎng)站內(nèi)容格式的多變性,能完整地獲取需要采集的頁(yè)面。提取內(nèi)容的深度與準(zhǔn)確性。能方便將網(wǎng)頁(yè)中的構(gòu)造化字段信息提取出來(lái),如日期,標(biāo)題,作者,欄目等等內(nèi)容,過濾網(wǎng)頁(yè)中如廣告等無(wú)用信息。內(nèi)容自動(dòng)去重。用戶選擇幾種去重標(biāo)準(zhǔn):如標(biāo)題、作者一樣,正文字節(jié)數(shù)一樣即認(rèn)為是重稿,或者內(nèi)容一模一樣,認(rèn)為是重稿;或者80%、90%相似認(rèn)為是重稿等標(biāo)準(zhǔn),可供用戶選擇。網(wǎng)站采集范圍的準(zhǔn)確定義。通過起始URL地址、URL范圍表達(dá)式〔可包含正則表達(dá)式〕、搜索深度、文件類型控制的定義來(lái)準(zhǔn)確描述需要采集的網(wǎng)站范圍,可以準(zhǔn)確到整個(gè)網(wǎng)站、特定欄目、特定頁(yè)面;過濾掉無(wú)用的鏈接。主題詞過濾網(wǎng)頁(yè)。在采集過程中,可以定義主題詞的邏輯關(guān)系(與、或、非),對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)展過濾,準(zhǔn)確地獲取與采集主題相關(guān)的網(wǎng)頁(yè)內(nèi)容。網(wǎng)站動(dòng)態(tài)數(shù)據(jù)庫(kù)抓取。能方便抓取網(wǎng)站上后臺(tái)數(shù)據(jù)庫(kù)的內(nèi)容(JSP,ASP,CGI),和抓取需要通過用戶身份校驗(yàn)的網(wǎng)站內(nèi)容。網(wǎng)站歷史數(shù)據(jù)的批量下載。方便地成批抓取網(wǎng)站上的歷史數(shù)據(jù)。對(duì)于URL中帶日期變量的網(wǎng)站,只需要設(shè)定一個(gè)規(guī)則,就可以任意下載指定一段時(shí)間范圍內(nèi)的網(wǎng)站歷史數(shù)據(jù)。自動(dòng)分類和個(gè)性化分類的結(jié)合。即可以通過計(jì)算機(jī)學(xué)習(xí)的自動(dòng)分類規(guī)則,對(duì)獲取的內(nèi)容進(jìn)展自動(dòng)分類;也可以使用主題詞分類方法,對(duì)下載的內(nèi)容進(jìn)展人工批量分類〔機(jī)檢分類〕。支持簡(jiǎn)繁體網(wǎng)站、中英文網(wǎng)站的搜索。可靠的下載中心調(diào)度,可以設(shè)置采集間隔,支持多個(gè)下載任務(wù)同時(shí)高速下載,每個(gè)任務(wù)可以設(shè)定多個(gè)線程同時(shí)下載。2.2.2管理子系統(tǒng)功能及技術(shù)指標(biāo)管理子系統(tǒng)主要是實(shí)現(xiàn)對(duì)采集下來(lái)的各類WEB頁(yè)面、附件等非構(gòu)造化資源通過CGRS全文數(shù)據(jù)庫(kù)進(jìn)展統(tǒng)一管理。另外,實(shí)現(xiàn)對(duì)采集過程及用戶進(jìn)展有效地管理。管管理子系統(tǒng)操作系統(tǒng)UNIX/LINUX/WINDOWSNT/2000內(nèi)容管理多碼集:GBK、BIG5、GB2312CGRS全文數(shù)據(jù)庫(kù)WEB頁(yè)面、附件等數(shù)據(jù)庫(kù)新建、維護(hù)等采集工程管理超鏈接收理系統(tǒng)運(yùn)行管理系統(tǒng)管理員、數(shù)據(jù)庫(kù)管理員與一般檢索用戶三級(jí)用戶管理用戶使用及操作權(quán)限管理,用戶使用檢索統(tǒng)計(jì)分析等采集管理用戶管理CGRS全文數(shù)據(jù)庫(kù)采集系統(tǒng)參數(shù)配置等用戶身份認(rèn)證同義詞典、過濾詞典管理、日志管理管理子系統(tǒng)構(gòu)造示意圖內(nèi)容管理〔1〕功能概述①內(nèi)容管理是以CGRS全文數(shù)據(jù)庫(kù)作為后臺(tái)管理系統(tǒng),是對(duì)WEB頁(yè)面、文本、電子文檔、圖像、聲音、映像等頁(yè)面附件提供強(qiáng)大的數(shù)據(jù)庫(kù)管理和檢索功能的全文數(shù)據(jù)庫(kù)平臺(tái)。②系統(tǒng)內(nèi)嵌高可用性的索引機(jī)制,可以使用文中的任意字、詞、短語(yǔ)、句和片段進(jìn)展檢索。③系統(tǒng)具有強(qiáng)大數(shù)據(jù)庫(kù)管理及維護(hù)功能,如搜索引擎數(shù)據(jù)庫(kù)定義、建設(shè)、備份、恢復(fù)、邏輯刪除、物理刪除、重組、增量備份、記錄查重等功能。④管理子系統(tǒng)支持對(duì)整個(gè)系統(tǒng)〔采集子系統(tǒng)、管理子系統(tǒng)、檢索子系統(tǒng)〕進(jìn)展總體的控制,包括采集系統(tǒng)的啟動(dòng)、檢索子系統(tǒng)的啟動(dòng)與停頓,已經(jīng)對(duì)這兩個(gè)子系統(tǒng)的運(yùn)行狀態(tài)進(jìn)展有效的監(jiān)視。如采集子系統(tǒng)的采集狀況、完成比率等,檢索子系統(tǒng)檢索用戶情況等。⑤系統(tǒng)支持對(duì)采集的站點(diǎn)進(jìn)展定義,如配置站點(diǎn)的起始URL、URL過濾規(guī)則、抓取深度、設(shè)置掃描間隔、采集頻道分類等。關(guān)于采集管理,詳見采集子系統(tǒng)功能概述。用戶可以選擇一定的時(shí)間段〔日、周、月〕來(lái)統(tǒng)計(jì)檢索量和關(guān)鍵詞檢索頻度⑥系統(tǒng)具備用戶分析統(tǒng)計(jì)功能,用戶可以根據(jù)需要進(jìn)展用戶檢索情況統(tǒng)計(jì),用戶檢索用詞統(tǒng)計(jì),按天、周、月、年等進(jìn)展用戶使用情況統(tǒng)計(jì),用戶詞頻統(tǒng)計(jì)等等。用戶可以選擇一定的時(shí)間段〔日、周、月〕來(lái)統(tǒng)計(jì)檢索量和關(guān)鍵詞檢索頻度⑦系統(tǒng)具有獨(dú)立于操作系統(tǒng)的身份驗(yàn)證機(jī)制;用戶使用信息資源的授權(quán)機(jī)制;用戶使用操作限制等。⑧同義詞典的管理與維護(hù)。用戶可以在記事本里編輯同義詞典,也可以直接在管理子系統(tǒng)中編輯同義詞典,并可以對(duì)編輯好的同義詞典進(jìn)展修改、刪除與維護(hù)等操作。直接編輯同義詞典,并方便進(jìn)展維護(hù)與管理直接編輯同義詞典,并方便進(jìn)展維護(hù)與管理⑨API接口。系統(tǒng)提供標(biāo)準(zhǔn)的二次開發(fā)接口API,用戶可以根據(jù)實(shí)際需要,定制個(gè)性化的應(yīng)用系統(tǒng)。具體接口包括:標(biāo)準(zhǔn)的C++管理與檢索接口〔支持Windows和Unix下的通用開發(fā)工具〕;Javabeans類庫(kù)應(yīng)用程序開發(fā)接口(支持J2EE環(huán)境下的開發(fā)工具);C#類庫(kù)應(yīng)用程序開發(fā)接口〔支持.NET平臺(tái)下的開發(fā)工具〕。通過這些接口,可以和其他系統(tǒng)集成。〔2〕技術(shù)指標(biāo)①開放和可擴(kuò)展的體系構(gòu)造分布式體系架構(gòu),支持多域分布和集群分布;支持所有主流的操作系統(tǒng)和各種Web應(yīng)用服務(wù)器及Web服務(wù)器;支持J2EE及.NET體系架構(gòu);32位平臺(tái)支持64位數(shù)據(jù)庫(kù)文件,即支持大于4G的數(shù)據(jù)庫(kù);支持OFFICE文檔和PDF文檔的自動(dòng)過濾索引;支持Web自動(dòng)提取內(nèi)容的管理和檢索。②中文自然語(yǔ)言處理功能字元檢索策略,在保證檢索性能的同時(shí)到達(dá)100%查全率,保障了查準(zhǔn)率;提供自動(dòng)分類技術(shù)、自動(dòng)摘要功能、文本相似性對(duì)比功能;支持按詞索引、按字索引、字詞混合索引;支持文本自動(dòng)提取和模式提取;字段重復(fù)內(nèi)容自動(dòng)去重和計(jì)數(shù)。③完備的數(shù)據(jù)管理支持中英文、多語(yǔ)種混合檢索;支持GBK、GB2312、BIG5內(nèi)碼集,內(nèi)核支持unicode碼集;支持多種數(shù)據(jù)類型〔日期、數(shù)值、大數(shù)值、文本、二進(jìn)制〕;并行索引技術(shù),對(duì)于多CPU機(jī)器能大幅度提高索引性能;支持唯一性字段;支持字段內(nèi)容自動(dòng)去重;支持?jǐn)?shù)據(jù)庫(kù)記錄的增刪改操作;支持多媒體數(shù)據(jù)的關(guān)聯(lián)管理和檢索;支持?jǐn)?shù)據(jù)批量標(biāo)引;基于主題詞表的批量分類;支持對(duì)檢索數(shù)據(jù)集進(jìn)展批量管理的功能;數(shù)據(jù)庫(kù)優(yōu)化重組;支持Web站點(diǎn)鏡像檢索和內(nèi)容自動(dòng)提取;數(shù)據(jù)庫(kù)分類導(dǎo)航樹的管理。④開放性系統(tǒng)支持XML標(biāo)準(zhǔn)交換協(xié)議,保證了系統(tǒng)具有良好的開放性。〔3〕性能指標(biāo)數(shù)據(jù)庫(kù)容量:每個(gè)搜索引擎數(shù)據(jù)庫(kù)最多可存貯存42億篇文獻(xiàn);每個(gè)服務(wù)器允許建設(shè)數(shù)據(jù)庫(kù)可達(dá)936個(gè);采集管理對(duì)采集進(jìn)展管理主要包括:采集工程管理、運(yùn)行管理、超鏈接收理等幾個(gè)局部。采集工程管理,包括采集工程定義、工程參數(shù)設(shè)置管理等,詳細(xì)的采集工程定義與管理見采集子系統(tǒng)的功能概述局部。運(yùn)行管理,包括對(duì)系統(tǒng)的啟動(dòng)、停頓及運(yùn)行狀態(tài)的監(jiān)視等運(yùn)行管理。對(duì)于采集系統(tǒng)的啟動(dòng)無(wú)須手工進(jìn)展啟動(dòng)或停頓,可以通過下載中心自動(dòng)設(shè)置運(yùn)行時(shí)間間隔進(jìn)展自動(dòng)運(yùn)行或停頓,同時(shí)進(jìn)展運(yùn)行狀態(tài)的監(jiān)視,系統(tǒng)出現(xiàn)運(yùn)行故障,會(huì)自動(dòng)進(jìn)展提示。詳細(xì)的運(yùn)行管理見采集子系統(tǒng)相關(guān)的功能概述局部。超鏈接收理,主要是對(duì)一些網(wǎng)頁(yè)死鏈或過期的網(wǎng)頁(yè)鏈接進(jìn)展管理,包括死鏈的刪除、修改等管理。在管理子系統(tǒng)中可以直接進(jìn)展相關(guān)操作。直接刪除或修復(fù)死鏈直接刪除或修復(fù)死鏈過濾詞典的管理與維護(hù):用戶定義過濾詞典,可以直接通過記事本進(jìn)展編輯,編輯完成后直接導(dǎo)入采集子系統(tǒng)中,用戶在設(shè)定采集工程時(shí)調(diào)用過濾詞典,系統(tǒng)會(huì)自動(dòng)根據(jù)過濾詞典進(jìn)展采集頁(yè)面過濾,如過濾含有黃色信息、反動(dòng)信息的頁(yè)面。用戶管理〔1〕功能設(shè)計(jì)用戶管理。系統(tǒng)提供獨(dú)立于操作系統(tǒng)的用戶權(quán)限管理,用戶操作審計(jì)、分析與統(tǒng)計(jì),日志分析與統(tǒng)計(jì)等功能。系統(tǒng)允許最多管理30000個(gè)用戶,用戶根據(jù)實(shí)際需要可以自定義用戶數(shù)。對(duì)于無(wú)須通過身份驗(yàn)證的普通檢索用戶,則通過訪客用戶可以直接訪問,共用一個(gè)檢索帳號(hào)。用戶權(quán)限管理。系統(tǒng)允許用戶對(duì)不同的操作用戶定義不同的操作權(quán)限,并對(duì)用戶的操作進(jìn)展審計(jì),提高系統(tǒng)的安全性。〔2〕技術(shù)指標(biāo)內(nèi)置的用戶權(quán)限管理體系、多級(jí)用戶管理;靈活的用戶-數(shù)據(jù)庫(kù)授權(quán)機(jī)制;數(shù)據(jù)庫(kù)管理、數(shù)據(jù)維護(hù)、系統(tǒng)管理、檢索各種權(quán)限分開,可以按需分配;用戶分組管理;數(shù)據(jù)庫(kù)檢索頻度統(tǒng)計(jì)、檢索詞頻統(tǒng)計(jì);檢索日志和數(shù)據(jù)庫(kù)維護(hù)日志的管理。2.2.3檢索子系統(tǒng)功能及技術(shù)指標(biāo)功能描述〔1〕通用全文檢索功能。系統(tǒng)提供全方位的全文檢索手段,支持多種檢索運(yùn)算符,包括外部特征與正文內(nèi)容的各種邏輯組合檢索,邏輯或、與非的檢索,符合通用搜索引擎使用習(xí)慣;多字段復(fù)合檢索、歷史檢索、相關(guān)詞擴(kuò)展檢索、分類導(dǎo)航檢索、中英文〔字符〕混合檢索,支持前方一致檢索、短語(yǔ)與句子檢索功能等。檢索子系統(tǒng)符合通用搜索引擎的使用習(xí)慣,支持搜索引擎搜索的絕大局部功能,并更適合與貼切政府部門政務(wù)內(nèi)網(wǎng)、政務(wù)公眾網(wǎng)檢索的需要。系統(tǒng)實(shí)現(xiàn)了采集與檢索分頻道處理,網(wǎng)頁(yè)標(biāo)題與內(nèi)容摘要的自動(dòng)提取與動(dòng)態(tài)生成,用戶通過關(guān)鍵詞檢索后,會(huì)在標(biāo)題和摘要中以高亮顯示,搜索結(jié)果分別按照標(biāo)題、摘要、內(nèi)容進(jìn)展類聚,并剔除重復(fù)性的內(nèi)容,并支持對(duì)檢索結(jié)果按模版顯示及網(wǎng)頁(yè)原樣進(jìn)展顯示;用戶需要查看所檢索的信息在網(wǎng)頁(yè)中所在的位置,可以通過存儲(chǔ)在搜索引擎庫(kù)中的網(wǎng)頁(yè)快照進(jìn)展瀏覽;對(duì)于網(wǎng)頁(yè)附件〔DOC、XLS、TXT、PDF〕,存儲(chǔ)在網(wǎng)頁(yè)的可查詢附件字段中,系統(tǒng)自動(dòng)建設(shè)索引,可以進(jìn)展全文檢索;系統(tǒng)實(shí)現(xiàn)了對(duì)中文、英文、中英文、德文、法文等西文進(jìn)展單獨(dú)檢索與混合檢索,并具有100%的查全率與極高的查準(zhǔn)率。支持邏輯組合檢索,符合搜索引擎使用習(xí)慣支持邏輯組合檢索,符合搜索引擎使用習(xí)慣檢索關(guān)鍵詞在標(biāo)題和摘要中高亮顯示網(wǎng)頁(yè)檢索動(dòng)態(tài)摘要自動(dòng)生成檢索結(jié)果按標(biāo)題、內(nèi)容進(jìn)展類聚,網(wǎng)頁(yè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論