第2章數(shù)據(jù)獲取_第1頁(yè)
第2章數(shù)據(jù)獲取_第2頁(yè)
第2章數(shù)據(jù)獲取_第3頁(yè)
第2章數(shù)據(jù)獲取_第4頁(yè)
第2章數(shù)據(jù)獲取_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)》21世紀(jì)高等院校“云計(jì)算和大數(shù)據(jù)”人才培養(yǎng)規(guī)劃教材第2章數(shù)據(jù)獲取人民郵電出版社能力CAPACITY要求熟悉網(wǎng)絡(luò)爬蟲。了解爬蟲常用的方法,掌握爬蟲環(huán)境的搭建。具有良好的職業(yè)道德。爬蟲項(xiàng)目創(chuàng)建Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行一、Scrapy環(huán)境搭建所需環(huán)境: python2.7 lxml-3.5.0 pyOpenSSL-0.13.1 pywin32-219 setuptools-0.7 twisted-15.4.0 erface-4.1.3 Scrapy-1.0搭建時(shí),應(yīng)先搭建python和其他幾個(gè)環(huán)境,最后安裝Scrapy環(huán)境。Scrapy環(huán)境搭建爬蟲項(xiàng)目創(chuàng)建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行二、爬蟲項(xiàng)目創(chuàng)建scrapystartprojectSinanewsSpider在windows命令行操作模式下:其中,SinanewsSpider為所創(chuàng)建的爬蟲項(xiàng)目的名稱。此時(shí)在相應(yīng)的目錄下出現(xiàn)SinanewsSpider爬蟲項(xiàng)目。二、爬蟲項(xiàng)目創(chuàng)建我們建立一個(gè)自己的爬蟲,文件名為SinanewsSpider.py,爬蟲代碼則主要是在所建的爬蟲文件中在項(xiàng)目路徑下:在SinanewsSpider→SinanewsSpider路徑下,文件items.py、pipelines.py以及settings.py也是后續(xù)需要使用的到的文件。Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義1、根據(jù)需要定義數(shù)據(jù)項(xiàng)(標(biāo)題,內(nèi)容,時(shí)間,圖片鏈接地址,網(wǎng)頁(yè)鏈接地址,發(fā)表時(shí)間)爬蟲實(shí)例的實(shí)現(xiàn)過程:(以采集新浪本地新聞為例)2、將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)在MySQL數(shù)據(jù)庫(kù)中建立數(shù)據(jù)表三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義3、根據(jù)以上數(shù)據(jù)編寫代碼:爬蟲實(shí)例的實(shí)現(xiàn)過程:(以采集新浪本地新聞為例)importscrappyclassSinanewsspiderItem(scrapy.Item):#定義數(shù)據(jù)項(xiàng)類,從crapy.Item 繼承

#definethefieldsforyouritemherelike:title=scrapy.Field()#定義標(biāo)題項(xiàng)

content=scrapy.Field()#定義內(nèi)容項(xiàng)

pubtime=scrapy.Field()#定義發(fā)表時(shí)間

imageUrl=scrapy.Field()#定義圖片鏈接地址

Url=scrapy.Field()#定義頁(yè)面鏈接地址定義好之后,就可以在寫爬蟲代碼時(shí),來(lái)定義屬于這個(gè)數(shù)item類型的item對(duì)象了。Scrapy環(huán)境搭建爬蟲核心實(shí)現(xiàn)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行四、爬蟲核心實(shí)現(xiàn)#-*-coding:utf-8-*-

1fromscrapy.spidersimportSpider

2fromscrapy.selectorimportSelector

3fromscrapyimportsignals

4fromscrapy.crawlerimportCrawlerRunner

5fromjectimportget_project_settings

6fromscrapy.utils.logimportconfigure_logging

7fromscrapy.xlib.pydispatchimportdispatcher

8fromernetimportreactor

9fromtimeimportctime,sleep

10fromscrapy.spidersimportSpider

11

fromscrapy.selectorimportSelector

12fromscrapyimportsignals

13fromscrapy.crawlerimportCrawlerRunner

14fromjectimportget_project_settings

15fromscrapy.xlib.pydispatchimportdispatcher

16fromernetimportreactor

17fromitemsimportSinanewsspiderItem

18fromscrapy.httpimportRequest

19importlogging

20importMySQLdb

21importscrapy

22fromscrapy.utils.responseimportget_base_url

22fromscrapy.utils.urlimporturljoin_rfc

#以上是一些依賴包的導(dǎo)入

23classWikiSpider(scrapy.Spider):

/24

name="SinanewsSpider"

25

start_urls=[]

26

def__init__(self):

Scrapy框架已經(jīng)幫我們定義好了基礎(chǔ)爬蟲,只需要從scrapy.spider繼承,并重寫相應(yīng)的解析函數(shù)即可。27self.start_urls=["/news/gnxw/gdxw1/index.shtml"]

28defparse(self,response):

29forurlinresponse.xpath('//ul/li/a/@href').extract():

30yieldscrapy.Request(url,callback=self.parse_detail)

31nextLink=[]

32nextLink=response.xpath('//div[@class="pagebox"]///span[last()-1]/a/@href').extract()

33ifnextLink:

34nextLink=nextLink[0]

35nextpage=nextLink.split('./')[1]

36yieldRequest(/news/gnxw/gdxw1//+nextpage,callback=self.parse)

37defparse_detail(self,response):

38item=SinanewsspiderItem()

39item['title']=response.xpath('//h1[@id="artibodyTitle"]/text()')//.extract()[0].encode('utf-8')

40content=''

41forconinresponse.xpath('//div[@id="artibody"]/p/text()').extract():

42content=content+con

43item['content']=content.encode('utf-8')

44item['pubtime']=response.xpath('//span[@id="navtimeSource"]/text()')//.extract()[0].encode('utf-8')

45imageurl=''

46forimginresponse.xpath('//div[@id="artibody"]///div[@class="img_wrapper"]/img/@src').extract():

47imageurl=imageurl+img+'|'

48item['imageUrl']=imageurl.encode('utf-8')

49item['Url']=response.url.encode('utf-8')

50yielditem四、爬蟲核心實(shí)現(xiàn)分段了解代碼第1~22行為引入一些相關(guān)的依賴包;第23行定義一個(gè)爬蟲類,繼承自scrapy.spider類;第26~27行代碼為構(gòu)造函數(shù);在第27行中,對(duì)start_urls進(jìn)行了初始化賦值操作,將即將需要爬取的新聞列表頁(yè)地址賦值給start_urls。代碼第28~36行定義了parse方法;第37~50行詳細(xì)說(shuō)明上文中提到的parse_detail;最后第50行代碼yielditem會(huì)將保存了值的item自動(dòng)推送到pipelines管道中,在pipelines管道中,我們可以對(duì)數(shù)據(jù)進(jìn)行處理或者進(jìn)行存儲(chǔ)操作。Scrapy環(huán)境搭建數(shù)據(jù)存儲(chǔ)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)爬蟲項(xiàng)目創(chuàng)建爬蟲運(yùn)行五、數(shù)據(jù)存儲(chǔ)在這一節(jié)中,我們對(duì)pipelines進(jìn)行介紹。我們希望將數(shù)據(jù)存儲(chǔ)到2.2節(jié)所定義的數(shù)據(jù)庫(kù)表中,其主要需要在pipelines.py文件中進(jìn)行代碼的實(shí)現(xiàn),如下所示:1importMySQLdb

2classSinanewsspiderPipeline(object):

3con=MySQLdb.connect(host='localhost',port=3306,user='root',//passwd='123456',db='sinanews',charset='utf8')

4cur=con.cursor()

5defprocess_item(self,item,spider):

6query="INSERTINTOSinaLocalNews(title,content,imageUrl,Url,pubtime)//VALUES('%s','%s','%s','%s',//trim(replace(replace(replace(left('%s',16),'年','-'),'月','-'),'日','')))"http://%(item['title'],item['content'],item['imageUrl'],item['Url'],item['pubtime'])

7self.cur.execute(query)

8mit()五、數(shù)據(jù)存儲(chǔ)分段了解代碼第1行中,導(dǎo)入MySQL相應(yīng)的包。第2行代碼定義當(dāng)前pipeline的類名。第3行用MySQLdb.connect建立一個(gè)數(shù)據(jù)庫(kù)連接。第4行代碼則獲取數(shù)據(jù)庫(kù)鏈接的游標(biāo)。第6行,定義一條數(shù)據(jù)庫(kù)插入語(yǔ)句的字符串,其中%s表示接收參數(shù)值。第7,8行,做一個(gè)字符串的處理操作,因?yàn)閿?shù)據(jù)庫(kù)表中定義的是日期時(shí)間型,不支持?jǐn)?shù)據(jù)項(xiàng)提取的原始數(shù)據(jù)。寫好pipeline管道后,我們還需要將當(dāng)前這個(gè)pipeline激活使用。此時(shí),我們需要到爬蟲項(xiàng)目的settings.py文件中進(jìn)行激活。五、數(shù)據(jù)存儲(chǔ)settings中主要代碼如下所示:1BOT_NAME='SinanewsSpider'

2SPIDER_MODULES=['SinanewsSpider.spiders']

3NEWSPIDER_MODULE='SinanewsSpider.spiders'

4ITEM_PIPELINES={

'SinanewsSpider.pipelines.SinanewsspiderPipeline':300,

}以上代碼中第四行括號(hào)內(nèi)的參數(shù)一定要替換成在pipeline中的自己定義的pipeline類名,才能夠進(jìn)行激活并使用。至此,我們已經(jīng)利用Scrapy

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論