第2章數(shù)據(jù)獲取

上傳人：落*** IP屬地：天津上傳時(shí)間：2023-03-09 格式：PPTX 頁(yè)數(shù)：20 大小：490.57KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩15頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)》21世紀(jì)高等院校“云計(jì)算和大數(shù)據(jù)”人才培養(yǎng)規(guī)劃教材第2章數(shù)據(jù)獲取人民郵電出版社能力CAPACITY要求熟悉網(wǎng)絡(luò)爬蟲。了解爬蟲常用的方法，掌握爬蟲環(huán)境的搭建。具有良好的職業(yè)道德。爬蟲項(xiàng)目創(chuàng)建Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行一、Scrapy環(huán)境搭建所需環(huán)境： python2.7 lxml-3.5.0 pyOpenSSL-0.13.1 pywin32-219 setuptools-0.7 twisted-15.4.0 erface-4.1.3 Scrapy-1.0搭建時(shí)，應(yīng)先搭建python和其他幾個(gè)環(huán)境，最后安裝Scrapy環(huán)境。Scrapy環(huán)境搭建爬蟲項(xiàng)目創(chuàng)建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行二、爬蟲項(xiàng)目創(chuàng)建scrapystartprojectSinanewsSpider在windows命令行操作模式下：其中，SinanewsSpider為所創(chuàng)建的爬蟲項(xiàng)目的名稱。此時(shí)在相應(yīng)的目錄下出現(xiàn)SinanewsSpider爬蟲項(xiàng)目。二、爬蟲項(xiàng)目創(chuàng)建我們建立一個(gè)自己的爬蟲，文件名為SinanewsSpider.py，爬蟲代碼則主要是在所建的爬蟲文件中在項(xiàng)目路徑下：在SinanewsSpider→SinanewsSpider路徑下，文件items.py、pipelines.py以及settings.py也是后續(xù)需要使用的到的文件。Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義1、根據(jù)需要定義數(shù)據(jù)項(xiàng)（標(biāo)題，內(nèi)容，時(shí)間，圖片鏈接地址，網(wǎng)頁(yè)鏈接地址，發(fā)表時(shí)間）爬蟲實(shí)例的實(shí)現(xiàn)過程：（以采集新浪本地新聞為例）2、將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)在MySQL數(shù)據(jù)庫(kù)中建立數(shù)據(jù)表三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義3、根據(jù)以上數(shù)據(jù)編寫代碼：爬蟲實(shí)例的實(shí)現(xiàn)過程：（以采集新浪本地新聞為例）importscrappyclassSinanewsspiderItem(scrapy.Item):#定義數(shù)據(jù)項(xiàng)類，從crapy.Item 繼承

#definethefieldsforyouritemherelike:title=scrapy.Field()#定義標(biāo)題項(xiàng)

content=scrapy.Field()#定義內(nèi)容項(xiàng)

pubtime=scrapy.Field()#定義發(fā)表時(shí)間

imageUrl=scrapy.Field()#定義圖片鏈接地址

Url=scrapy.Field()#定義頁(yè)面鏈接地址定義好之后，就可以在寫爬蟲代碼時(shí)，來(lái)定義屬于這個(gè)數(shù)item類型的item對(duì)象了。Scrapy環(huán)境搭建爬蟲核心實(shí)現(xiàn)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行四、爬蟲核心實(shí)現(xiàn)#-*-coding:utf-8-*-

1fromscrapy.spidersimportSpider

2fromscrapy.selectorimportSelector

3fromscrapyimportsignals

4fromscrapy.crawlerimportCrawlerRunner

5fromjectimportget_project_settings

6fromscrapy.utils.logimportconfigure_logging

7fromscrapy.xlib.pydispatchimportdispatcher

8fromernetimportreactor

9fromtimeimportctime,sleep

10fromscrapy.spidersimportSpider

fromscrapy.selectorimportSelector

12fromscrapyimportsignals

13fromscrapy.crawlerimportCrawlerRunner

14fromjectimportget_project_settings

15fromscrapy.xlib.pydispatchimportdispatcher

16fromernetimportreactor

17fromitemsimportSinanewsspiderItem

18fromscrapy.httpimportRequest

19importlogging

20importMySQLdb

21importscrapy

22fromscrapy.utils.responseimportget_base_url

22fromscrapy.utils.urlimporturljoin_rfc

#以上是一些依賴包的導(dǎo)入

23classWikiSpider(scrapy.Spider):

/24

name="SinanewsSpider"

start_urls=[]

def__init__(self):

Scrapy框架已經(jīng)幫我們定義好了基礎(chǔ)爬蟲，只需要從scrapy.spider繼承，并重寫相應(yīng)的解析函數(shù)即可。27self.start_urls=["/news/gnxw/gdxw1/index.shtml"]

28defparse(self,response):

29forurlinresponse.xpath('//ul/li/a/@href').extract():

30yieldscrapy.Request(url,callback=self.parse_detail)

31nextLink=[]

32nextLink=response.xpath('//div[@class="pagebox"]///span[last()-1]/a/@href').extract()

33ifnextLink:

34nextLink=nextLink[0]

35nextpage=nextLink.split('./')[1]

36yieldRequest(/news/gnxw/gdxw1//+nextpage,callback=self.parse)

37defparse_detail(self,response):

38item=SinanewsspiderItem()

39item['title']=response.xpath('//h1[@id="artibodyTitle"]/text()')//.extract()[0].encode('utf-8')

40content=''

41forconinresponse.xpath('//div[@id="artibody"]/p/text()').extract():

42content=content+con

43item['content']=content.encode('utf-8')

44item['pubtime']=response.xpath('//span[@id="navtimeSource"]/text()')//.extract()[0].encode('utf-8')

45imageurl=''

46forimginresponse.xpath('//div[@id="artibody"]///div[@class="img_wrapper"]/img/@src').extract():

47imageurl=imageurl+img+'|'

48item['imageUrl']=imageurl.encode('utf-8')

49item['Url']=response.url.encode('utf-8')

50yielditem四、爬蟲核心實(shí)現(xiàn)分段了解代碼第1~22行為引入一些相關(guān)的依賴包；第23行定義一個(gè)爬蟲類，繼承自scrapy.spider類；第26~27行代碼為構(gòu)造函數(shù)；在第27行中，對(duì)start_urls進(jìn)行了初始化賦值操作，將即將需要爬取的新聞列表頁(yè)地址賦值給start_urls。代碼第28~36行定義了parse方法；第37~50行詳細(xì)說(shuō)明上文中提到的parse_detail；最后第50行代碼yielditem會(huì)將保存了值的item自動(dòng)推送到pipelines管道中，在pipelines管道中，我們可以對(duì)數(shù)據(jù)進(jìn)行處理或者進(jìn)行存儲(chǔ)操作。Scrapy環(huán)境搭建數(shù)據(jù)存儲(chǔ)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)爬蟲項(xiàng)目創(chuàng)建爬蟲運(yùn)行五、數(shù)據(jù)存儲(chǔ)在這一節(jié)中，我們對(duì)pipelines進(jìn)行介紹。我們希望將數(shù)據(jù)存儲(chǔ)到2.2節(jié)所定義的數(shù)據(jù)庫(kù)表中，其主要需要在pipelines.py文件中進(jìn)行代碼的實(shí)現(xiàn)，如下所示：1importMySQLdb

2classSinanewsspiderPipeline(object):

3con=MySQLdb.connect(host='localhost',port=3306,user='root',//passwd='123456',db='sinanews',charset='utf8')

4cur=con.cursor()

5defprocess_item(self,item,spider):

6query="INSERTINTOSinaLocalNews(title,content,imageUrl,Url,pubtime)//VALUES('%s','%s','%s','%s',//trim(replace(replace(replace(left('%s',16),'年','-'),'月','-'),'日','')))"http://%(item['title'],item['content'],item['imageUrl'],item['Url'],item['pubtime'])

7self.cur.execute(query)

8mit()五、數(shù)據(jù)存儲(chǔ)分段了解代碼第1行中，導(dǎo)入MySQL相應(yīng)的包。第2行代碼定義當(dāng)前pipeline的類名。第3行用MySQLdb.connect建立一個(gè)數(shù)據(jù)庫(kù)連接。第4行代碼則獲取數(shù)據(jù)庫(kù)鏈接的游標(biāo)。第6行，定義一條數(shù)據(jù)庫(kù)插入語(yǔ)句的字符串，其中%s表示接收參數(shù)值。第7，8行，做一個(gè)字符串的處理操作，因?yàn)閿?shù)據(jù)庫(kù)表中定義的是日期時(shí)間型，不支持?jǐn)?shù)據(jù)項(xiàng)提取的原始數(shù)據(jù)。寫好pipeline管道后，我們還需要將當(dāng)前這個(gè)pipeline激活使用。此時(shí)，我們需要到爬蟲項(xiàng)目的settings.py文件中進(jìn)行激活。五、數(shù)據(jù)存儲(chǔ)settings中主要代碼如下所示：1BOT_NAME='SinanewsSpider'

2SPIDER_MODULES=['SinanewsSpider.spiders']

3NEWSPIDER_MODULE='SinanewsSpider.spiders'

4ITEM_PIPELINES={

'SinanewsSpider.pipelines.SinanewsspiderPipeline':300,

}以上代碼中第四行括號(hào)內(nèi)的參數(shù)一定要替換成在pipeline中的自己定義的pipeline類名，才能夠進(jìn)行激活并使用。至此，我們已經(jīng)利用Scrapy

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 事務(wù)文書

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

第2章數(shù)據(jù)獲取

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

第2章數(shù)據(jù)獲取

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔