




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
資源數據采集技術方案公司名稱O一一年七月目錄\l“_TOC_250011“第1局部概述 3\l“_TOC_250010“工程概況 3\l“_TOC_250009“系統建設目標 3\l“_TOC_250008“建設的原則 4\l“_TOC_250007“建設原則 4\l“_TOC_250006“參考資料和標準 5\l“_TOC_250005“第2局部系統總體框架與技術路線 5\l“_TOC_250004“系統應用架構 6\l“_TOC_250003“系統層次架構 6\l“_TOC_250002“關鍵技術與路線 7\l“_TOC_250001“第3局部系統設計標準 9\l“_TOC_250000“第4局部系統具體設計 91工程概況Internet已經進展成為當今世界上最大的信息庫和全球范圍內傳播學問的主要渠道,站是企業競爭力的提升都越來越多地依靠對網上信息資源的利用。現在是信息時代,信息是一種重要的資源,它在人們的生活和工作中起著重要的作用。計算機和現代信息技術的快速進展,使Internet成為人們傳遞信息的一個重要的橋梁。網絡的我們今后建設在線預訂類旅游網重要的組成局部。因此,在當今高度信息化的社會里,信息的獵取和信息的準時性。而Web數據采集可以大大減輕用戶的信息過載和信息迷失。系統建設目標游、購、娛等多方面的綜合資訊信息、全方位的旅行信息和預訂效勞的網站。信息。然后再將之復制粘貼到Excel文檔或已有資源系統中。這種做法不僅費時費力,而且網信息自動采集的系統可以實現數據采集的高效化和自動化。建設的原則建設原則特點。因此,在進展工程建設的過程中,應當遵循以下原則:可擴大性增加一些的功能,你可以將開發的類和文件依據Bundle進展組織,然后直接扔到運行時環境下,這些功能就可以用了。因此系統不會受技術改造而重做出調整。創性軟件的投資要考慮到今后的進展,不能使用落后的產品與技術,避開投資的鋪張;在系統軟件選型、開發技術上,到達國內外先進水平。標準性和標準性標準,符合國家有關標準標準的。低耦合性采集系統與其它系統彼此間相對獨立,直接進展數據庫入庫、sql同步或者基于txt/xml的數據交換,保證整體系統的低耦合性。高效性在底層的技術實現上承受java語言,跨平臺,跨數據庫,運行效率卓越。安全、穩定、準確、準時性技術先進,易于擴展,既能滿足當前的業務數據處理要求,又能符合長期進展的需要。易操作和易維護原則WEB方式完成,降低維護的技術難度,也削減了人為隱患的發生。參考資料和標準主要參閱并依據以下一些參考資料及標準:《中國工程治理學問體系〔C-PMBO,2023.5GB/T1526-1989《信息處理數據流程圖、程序流程圖、系統流程圖、程序網絡圖、系統資源圖的文件編制符號及商定》《信息技術軟件生存期過程》GB/T8567-1988《計算機軟件產品開發文件編制指南》GB/T9385-1988《計算機軟件需求說明編制指南》GB/T13702-1992《計算機件分類與代碼》GB/T11457-1995《軟件工程術語》2網絡信息資源采集系統是一套功能強大的網絡信息資源開發利用與整合系統BLOG,以多種形式供給應最終用戶使用。數據流掌握流采集應用效勞互聯網數據流掌握流采集應用效勞互聯網網絡蜘蛛數據庫數據分析數據解析 分組分析網絡蜘蛛資源公布系統客戶端網絡蜘蛛:依據指定規章抓取網站數據。數據分析:分析從網絡蜘蛛來的數據,過濾掉我們不需要的信息。數據解析:依據指定資源格式(字段)的定義,進展數據庫字段級別的解析。分組分析:依據不同的網絡資源類型進展分類,并以多種存儲方式進展存儲。系統層次架構掃瞄器掃瞄器表現層網絡資源采集網絡資源采集數據轉換數據導出數據公布網絡懇求應用層采集監控數據分析消息通知登錄驗證數據處理任務打算常用腳本庫認證碼識別WEB效勞器應用效勞器標準接口其他支撐層關系數據文本文件數據圖片視頻數據數據層整個系統分為四層,分別為:數據層:數據層負責存儲抓取來的各種信息及數據,這里面包括網頁、文檔、關系型數據、多媒體數據等。WEB效勞器、標準接口等標準支撐系統。應用層:在應用層主要供給網絡資源采集、數據轉換、分析、處理、導出、公布、采集監控、消息通知、登錄驗證、任務打算、認證碼識別等效勞。表現層:表現層通過掃瞄器等方式,為用戶供給多樣化的信息效勞。關鍵技術與路線為了充分滿足本工程的建設:我們承受先進、主流、牢靠、有用、性價比好的三層架構體系,充分考慮今后縱向、橫向擴張力量。承受構件化和面對對象技術,使系統具有敏捷的擴展性和良好的移植性。J2EE標準體系從軟件層次上看,我們承受了典型的J2EE三層架構體系,即應用—支撐—數據三層。簡潔地說,J2EE〔Java[tm]2PlatformEnterpriseEdition〕是一個標準中間件體系構造,旨在表達應用的商業規律和表示規律,至于其他系統問題,如內存治理,多線程圾收集等,都將由J2EE自動完成。J2EE已經被證明是一個穩定的、可擴展的、成熟的平臺,在國內外擁有眾多成功的應用實例。J2EE應用效勞器〔ApplicationServer〕承受目前國際最先進的開發理念、擁有很多適合基于Internet應用需求的特點:三層構造體系——最適合Internet環境,可以使系統有很強的可擴展性和可治理性。面對對象、組件化設計——2EE是一種組件技術,已完成的模塊能便利的移植到其它地方,可以提高開發速度,降低開發本錢。基于JAVA完全跨平臺特性——與平臺無關,適應Internet需要,并能得到大多數廠商支持,用戶可依據需要選擇適宜的效勞器硬件和數據庫。并且假設需要更換系統平臺時,J2EE也能便利的進展移植。把J2EE三層架構軟件體系引用到資源采集系統,將大大提高系統的可移植性、可伸縮性和可擴展性。XML技術XML〔eXtensibleMarkupLanguage,可擴展標記語言被稱為“其次代Web全部大公司的支持。XML具有卓越的性能,它具有四大特點:優良的數據存儲格式可擴展性高度構造化便利的網絡傳輸以XML技術作為支持,為用戶自定義應用界面和業務數據構造,并將其與底層數據庫數據交換。我們將在本工程中主要以XML為存儲方式,便利擴展和數據分析。WEB2.0技術Web2.0Web1.0〔2023年以前的互聯網模式〕的的一類互聯網應用的統稱,是一次從核心內容到外部應用的革命,是依據“六度分隔”(注:由美國哈佛大學社會心理學教授斯坦利·米爾格蘭姆覺察的,你和任何一個生疏人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠生疏任何一個生疏人。)、XML、AJAX等理論和技術實現的互聯網一代模式Web1.0單純通過網絡掃瞄器掃瞄html網頁模式向內容更豐富、聯系性更強、工具性更強的Web2.0互聯網模式的進展已經成為互聯網的進展趨勢。Web1.0Web2.0的轉變,具體的說,從模式上是單純的“讀”向“寫”、“共同建設”進展;由被動地接收互聯網信息向主動制造網絡信息邁進。運行機制上,由“ClientServer”向“WebServices”“滑稽”的應用向全面大量應用進展。承受創的Ajax技術,同等網絡環境下,頁面響應時間最高削減90%。APIXML文檔構造在很多方面可以便利地反映對象的構造,這也是其適合面對對象的軟件技術的一個關鍵點。使用XML對數據源的數據進展處理,它起著接口層或者封裝的作用,XML作為數據交換工具還可以解決異構數據庫之間的集成。承受XML技術作為數據交換的頁面描述標準。XStream是一個JavaXML具體一個Java對象和XML之間問題了。34應用功能設計資源采集我們可以使用采集,對網絡上的各種資源進展挖掘。采集工程:采集工作的具體設置文件,包含了要采集的資源鏈接。準確:依據指定資源格式(字段)的定義,進展數據庫字段級別的采集。蜘蛛/爬蟲:依據指定的文件匹配表達式,自動對指定網站的資源進展全面分析和采集。能包含以下字段:作者、標題、日期、內容等。自動把多個分頁的內容合并到內容字段。可以為內容自動設置跟蹤屬性,自動獵取最終的內容。整個網站、每個鏈接甚至每個資源單獨定義登錄驗證以滿足具體需求。參數:這是模擬登錄需要的參數,譬如用戶名、密碼等。/值,自動獵取登錄參數的值。可以使用自定義的登錄腳原來實現相應的登錄認證。數據處理:臟字過濾:對符合國家規定的敏感字符的過濾,還可以自定義要過濾的字符,以確保采集到的內容符合相關法律法規。內容,您可以自行對各種垃圾內容進展過濾。內容嗅探:對于Flash/Silverlight播放器,會在頁面加載之后才從后臺獵取實際的文件(.FLV/MP3/.XAP等),您可以使用內容嗅探實現對這些實際內容的采集。關鍵字/標簽(Tag)自動分析:利用全文分詞對采集的內容進展分析,自動獵取內容的關鍵字/標簽列表。文件格式批量轉換:對大量文件的快速轉換,轉變圖片或視頻的大小/添加水印/轉變格式,抽取壓縮文件,Office系列文檔轉換為HTML,以多種方式修寫編碼互轉,文本切分合并,網頁文本互轉,不良圖片過濾,數據轉換等。圖片轉換:轉變圖片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。壓縮文檔:抽取/轉換/生成壓縮文檔,支持zip、rar等。Office文檔支持:支持doc、docx、xls、xlsx、xml、pdf、rtf等。文本排版:段落智能修正、去掉干擾符、修正段落首尾空格、修正標點符號,支持txt,htm,eml。txt,htm,eml。不良圖片過濾:識別并過濾不良圖片,支持全部圖片。件。快速下載:鏈接分析:復制要下載各種資源(如圖片等)的鏈接或網頁內容,全自動分析并下載到本地磁盤。視頻網站。通過多線程并行采集,加快采集速度。數據導出導出數據庫:把采集后的數據導出到各大數據庫/數據文件中。Excel、XML等文件形式導出。可以把文件導出到FTP。自定義導出腳本。資源信息公布采集后的數據:可以把采集后的數據,公布到指定網站或系統。網絡懇求:可以自定義懇求,譬如網絡投票等。任務打算可以指定采集、轉換、導出、公布、懇求等各種任務定時執行。可啟用多個線程來完成同一個采集任務。可自由設定采集網頁數和暫停的時間,此功能主要解決采集過快而被屏閉或制止訪問等問題。可以在采集當中隨身暫停、啟動或停頓任務。消息通知能夠自動通過多種方式〔郵件、系統日志、系統聲音等〕通知采集公布狀況。在各種任務完成之后,如采集,公布,打算任務等。監控指定網站并在數據轉變時。監控設置當網絡資源更或采集到的資源信息時,通過各種通知方式,隨時提示。腳本定義腳本是對各種功能的自定義擴展,支持JavaScript語言編寫。時候,可以通過腳原來進展自定義的采集。公布腳本:可以針對特別的網站進展發送懇求。常用腳本:系統內置的常用的腳本,如對專用鏈的解釋/編碼、條形碼的生成、敏感字符的過濾、中文分詞/TagRSS解釋與生成、消息通知等。認證碼識別系統自動識別各種登錄頁面的認證碼、驗證碼等。默生疏別:全自動識別各種常見的認證碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基層醫療綜合改革的策略及實施路徑
- 歷史故事:近代中國政治制度變遷探究
- 現代漢語知識入門:漢字筆畫與字形演變
- 秋天的公園寫景類作文10篇
- 正方形、長方形面積計算方法講解
- 《孟德爾遺傳定律的解析與應用:高中生物教案》
- 高一語文課例:《文學之美與文言句式鑒賞》
- 音樂英語:歌曲欣賞與詞匯學習教案
- 2022學年上海交大附中高一(下)期末政治試題及答案
- 如何通過英語語法教學培養學生的學習興趣
- 《未來三年個人規劃》課件
- 《癌痛與癌痛治療》課件
- 湖北省華中師大第一附中2024屆物理高二第二學期期末達標檢測試題含解析
- 經空氣傳播疾病醫院感染預防與控制規范課件
- 2024年四川廣安愛眾股份有限公司招聘筆試參考題庫含答案解析
- 冠心病合并糖尿病血脂管理
- PDCA循環在我院靜脈用藥調配中心用藥錯誤管理中的應用靜配中心質量持續改進案例
- 精神病患者攻擊行為預防
- 《議程設置理論》課件
- 二單元稅率利率復習課
- GB/Z 43281-2023即時檢驗(POCT)設備監督員和操作員指南
評論
0/150
提交評論