使用CrawlSpider實現雙向爬取_第1頁
使用CrawlSpider實現雙向爬取_第2頁
使用CrawlSpider實現雙向爬取_第3頁
使用CrawlSpider實現雙向爬取_第4頁
使用CrawlSpider實現雙向爬取_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

使用CrawlSpider實現雙向爬取CrawlSpider介紹應用案例CrawlSpider介紹/01CrawlSpider是Spider的派生類(一個子類),Spider類的設計原則是只爬取start_url列表中的網頁,而CrawlSpider類定義了一些規則(rule)來提供跟進link的方便的機制,從爬取的網頁中獲取link并繼續爬取的工作更適合。CrawlSpider介紹應用案例/021、創建項目scrapystartproject+項目名稱2、模版創建:scrapygenspider-tcrawl項目名稱+域crawlspider繼承與Spider類,除了繼承的屬性(name,allow_domains)應用案例3、編寫代碼:#-*-coding:utf-8-*-importscrapy#導入CrawlSpider相關模塊fromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,Rule應用案例3、編寫代碼:#表示該爬蟲程序是基于CrawlSpider類的classCrawldemoSpider(CrawlSpider):name='crawlDemo'#爬蟲文件名稱#allowed_domains=['']start_urls=['/']應用案例3、編寫代碼:#連接提取器:會去起始url響應回來的頁面中提取指定的urllink=LinkExtractor(allow=r'/8hr/page/\d+')#rules元組中存放的是不同的規則解析器(封裝好了某種解析規則)rules=(#規則解析器:可以將連接提取器提取到的所有連接表示的頁面進行指定規則(回調函數)的解析

Rule(link,callback='parse_item',follow=True),)應用案例3、編寫代碼:#解析方法defparse_item(self,response):divs=response.xpath('//div[@id="content-left"]/div')fordivindivs:author=div.xpath('./div[@class="authorclearfix"]/a[2]/h2/text()').extract_first()print(author)應用案例

<!--CrawlSpider類和Spider類的最大不同是CrawlSpider多了一個rules屬性,其作用是定義”提取動作“。在rules中可以包含一個或多個Rule對象,在Rule對象中包含了LinkExtractor對象。生成的爬蟲文件參數介紹:①LinkExtractor:顧名思義,鏈接提取器。②Rule:規則解析器。根據鏈接提取器中提取到的鏈接,根據指定規則提取解析器鏈接網頁中的內容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論