【基于scrapy的分布式網絡爬蟲系統設計】10000字(論文)_第1頁
【基于scrapy的分布式網絡爬蟲系統設計】10000字(論文)_第2頁
【基于scrapy的分布式網絡爬蟲系統設計】10000字(論文)_第3頁
【基于scrapy的分布式網絡爬蟲系統設計】10000字(論文)_第4頁
【基于scrapy的分布式網絡爬蟲系統設計】10000字(論文)_第5頁
已閱讀5頁,還剩21頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章緒論II第五章系統測試與展示5.1測試環境本系統的測試環境為一臺惠普筆記本電腦和一個服務器,其中惠普筆記本電腦為從節點,服務器為主節點。(一)從節點運行環境硬件環境處理器英特爾Corei5-10200H@2.40GHZ四核內存兩個三星DDR43200MHz8GB顯卡NvidiaGeForceGTX1650Ti主板惠普87AE硬盤三星MZVLB512HBJQ(固態)512GB網卡英特爾Wi-Fi6AX201160MHz軟件環境操作系統Windows10PythonPython3.7.9ScrapyScrapy2.4.0瀏覽器GoogleChromeMYSQLMySQL8.0.12主節點運行環境硬件環境Cpu1核內存2G軟件環境操作系統CentOSScrapyScrapy2.4.0MYSQLMySQL系統功能測試本節將通過模擬用戶操作來進行一次完整的爬蟲操作,首先打開三個cmd,分別輸入scrapyd、logparser、scrapydweb啟動服務,打開瀏覽器輸入:5000進入到爬蟲管理頁面。 圖5-1爬蟲管理頁面點擊database旁邊的+號進行發布任務,也可以修改run_scrapy.py來達到一鍵發布任務。圖5-2發布任務頁面添加任務成功后爬蟲開始運行,pages是記錄我們爬取的頁面個數,item記錄了我們爬取的數據量,可以看到我們爬取頁面的url只用了10幾秒,在10分鐘爬取了將近1萬條數據圖5-3任務爬取情況頁面此時數據已經都存入了redis中,然后運行p_start.py運行數據庫存儲代碼,新聞數據將會從redis中存入MySQL中。圖5-4操作數據庫的控制臺打印信息此時數據已經全部存入數據庫中圖5-5數據庫信息可以看到數據庫中存入了1萬條數據,到此一個爬蟲任務就結束了。

第六章總結與展望第六章總結與展望本系統基于scrapy框架和redis中間件實現了一個分布式爬蟲系統,該系統的主要采用了主從架構,主節點用來配置redis數據庫和mysql數據庫,從節點用來執行爬蟲任務以及數據清洗。從節點使用了scrapydweb進行任務的發布與管理,可以很明顯的看出爬蟲的任務狀況,也可以發布很多個任務共同爬取同一個網站,在實現了分布式爬蟲的基礎上,實現了多進程爬蟲,使爬蟲效率更加高效。在繞過反爬蟲上,本文主要采用了限制速度、設置隨機請求頭和代理ip的方法,同時采用這三種方法,在一些反爬蟲措施不強的網站上基本能完全模擬成人為訪問。該系統還有待完善,在實際抓取的過程中,業務場景很復雜,還需要實現負載均衡和數據庫分庫分表等策略,爬蟲的信息也應該有優先級,把我們優先想爬取的內容優先級設計高一點,使得爬蟲系統優先爬取我們想要的信息。日后將對此系統不斷完善。致謝參考文獻[1]杜超.基于Python的聚焦爬蟲的初步設計與實現[J].現代制造技術與裝備,2020,56(12):30-31.[2]AllanHeydon,MarcNajork.Mercator:Ascalable,extensibleWebcrawler[J].WorldWideWeb,1999,2(4).[3]XingChen,WeiJiangLi,TieJunZhao,XingHaiPiao.DesignoftheDistributedWebCrawler[J].AdvancedMaterialsResearch,2011,1158.[4]QuocDL,FetzerC,FelberP,etal.UniCrawl:APracticalGeographicallyDistributedWebCrawler[J].2015:389-396.[5]石恩名,肖曉軍,盧宇.基于云平臺的分布式高性能網絡爬蟲的研究與設計[J].電信科學,2017,33(08):180-186.[6]楊建.分布式網絡爬蟲技術及對其安全防御研究[J].網絡安全技術與應用,2018(04):6-7.[7]方宇浩,倪勝巧.網頁監控分布式爬蟲[J].現代計算機(專業版),2015(11):62-64.[8]付志輝.分布式爬蟲的動態負載均衡方法研究fDl.哈爾濱工業大學,2014.[9]陳宇倫,周奎.分布式爬蟲系統中URL去重的設計與實現[J].現代信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論