




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)》21世紀(jì)高等院校“云計(jì)算和大數(shù)據(jù)”人才培養(yǎng)規(guī)劃教材第2章數(shù)據(jù)獲取人民郵電出版社能力CAPACITY要求熟悉網(wǎng)絡(luò)爬蟲。了解爬蟲常用的方法,掌握爬蟲環(huán)境的搭建。具有良好的職業(yè)道德。爬蟲項(xiàng)目創(chuàng)建Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行一、Scrapy環(huán)境搭建所需環(huán)境: python2.7 lxml-3.5.0 pyOpenSSL-0.13.1 pywin32-219 setuptools-0.7 twisted-15.4.0 erface-4.1.3 Scrapy-1.0搭建時(shí),應(yīng)先搭建python和其他幾個(gè)環(huán)境,最后安裝Scrapy環(huán)境。Scrapy環(huán)境搭建爬蟲項(xiàng)目創(chuàng)建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行二、爬蟲項(xiàng)目創(chuàng)建scrapystartprojectSinanewsSpider在windows命令行操作模式下:其中,SinanewsSpider為所創(chuàng)建的爬蟲項(xiàng)目的名稱。此時(shí)在相應(yīng)的目錄下出現(xiàn)SinanewsSpider爬蟲項(xiàng)目。二、爬蟲項(xiàng)目創(chuàng)建我們建立一個(gè)自己的爬蟲,文件名為SinanewsSpider.py,爬蟲代碼則主要是在所建的爬蟲文件中在項(xiàng)目路徑下:在SinanewsSpider→SinanewsSpider路徑下,文件items.py、pipelines.py以及settings.py也是后續(xù)需要使用的到的文件。Scrapy環(huán)境搭建采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建爬蟲核心實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義1、根據(jù)需要定義數(shù)據(jù)項(xiàng)(標(biāo)題,內(nèi)容,時(shí)間,圖片鏈接地址,網(wǎng)頁(yè)鏈接地址,發(fā)表時(shí)間)爬蟲實(shí)例的實(shí)現(xiàn)過程:(以采集新浪本地新聞為例)2、將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)在MySQL數(shù)據(jù)庫(kù)中建立數(shù)據(jù)表三、采集目標(biāo)數(shù)據(jù)項(xiàng)定義3、根據(jù)以上數(shù)據(jù)編寫代碼:爬蟲實(shí)例的實(shí)現(xiàn)過程:(以采集新浪本地新聞為例)importscrappyclassSinanewsspiderItem(scrapy.Item):#定義數(shù)據(jù)項(xiàng)類,從crapy.Item 繼承
#definethefieldsforyouritemherelike:title=scrapy.Field()#定義標(biāo)題項(xiàng)
content=scrapy.Field()#定義內(nèi)容項(xiàng)
pubtime=scrapy.Field()#定義發(fā)表時(shí)間
imageUrl=scrapy.Field()#定義圖片鏈接地址
Url=scrapy.Field()#定義頁(yè)面鏈接地址定義好之后,就可以在寫爬蟲代碼時(shí),來(lái)定義屬于這個(gè)數(shù)item類型的item對(duì)象了。Scrapy環(huán)境搭建爬蟲核心實(shí)現(xiàn)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲項(xiàng)目創(chuàng)建數(shù)據(jù)存儲(chǔ)爬蟲運(yùn)行四、爬蟲核心實(shí)現(xiàn)#-*-coding:utf-8-*-
1fromscrapy.spidersimportSpider
2fromscrapy.selectorimportSelector
3fromscrapyimportsignals
4fromscrapy.crawlerimportCrawlerRunner
5fromjectimportget_project_settings
6fromscrapy.utils.logimportconfigure_logging
7fromscrapy.xlib.pydispatchimportdispatcher
8fromernetimportreactor
9fromtimeimportctime,sleep
10fromscrapy.spidersimportSpider
11
fromscrapy.selectorimportSelector
12fromscrapyimportsignals
13fromscrapy.crawlerimportCrawlerRunner
14fromjectimportget_project_settings
15fromscrapy.xlib.pydispatchimportdispatcher
16fromernetimportreactor
17fromitemsimportSinanewsspiderItem
18fromscrapy.httpimportRequest
19importlogging
20importMySQLdb
21importscrapy
22fromscrapy.utils.responseimportget_base_url
22fromscrapy.utils.urlimporturljoin_rfc
#以上是一些依賴包的導(dǎo)入
23classWikiSpider(scrapy.Spider):
/24
name="SinanewsSpider"
25
start_urls=[]
26
def__init__(self):
Scrapy框架已經(jīng)幫我們定義好了基礎(chǔ)爬蟲,只需要從scrapy.spider繼承,并重寫相應(yīng)的解析函數(shù)即可。27self.start_urls=["/news/gnxw/gdxw1/index.shtml"]
28defparse(self,response):
29forurlinresponse.xpath('//ul/li/a/@href').extract():
30yieldscrapy.Request(url,callback=self.parse_detail)
31nextLink=[]
32nextLink=response.xpath('//div[@class="pagebox"]///span[last()-1]/a/@href').extract()
33ifnextLink:
34nextLink=nextLink[0]
35nextpage=nextLink.split('./')[1]
36yieldRequest(/news/gnxw/gdxw1//+nextpage,callback=self.parse)
37defparse_detail(self,response):
38item=SinanewsspiderItem()
39item['title']=response.xpath('//h1[@id="artibodyTitle"]/text()')//.extract()[0].encode('utf-8')
40content=''
41forconinresponse.xpath('//div[@id="artibody"]/p/text()').extract():
42content=content+con
43item['content']=content.encode('utf-8')
44item['pubtime']=response.xpath('//span[@id="navtimeSource"]/text()')//.extract()[0].encode('utf-8')
45imageurl=''
46forimginresponse.xpath('//div[@id="artibody"]///div[@class="img_wrapper"]/img/@src').extract():
47imageurl=imageurl+img+'|'
48item['imageUrl']=imageurl.encode('utf-8')
49item['Url']=response.url.encode('utf-8')
50yielditem四、爬蟲核心實(shí)現(xiàn)分段了解代碼第1~22行為引入一些相關(guān)的依賴包;第23行定義一個(gè)爬蟲類,繼承自scrapy.spider類;第26~27行代碼為構(gòu)造函數(shù);在第27行中,對(duì)start_urls進(jìn)行了初始化賦值操作,將即將需要爬取的新聞列表頁(yè)地址賦值給start_urls。代碼第28~36行定義了parse方法;第37~50行詳細(xì)說(shuō)明上文中提到的parse_detail;最后第50行代碼yielditem會(huì)將保存了值的item自動(dòng)推送到pipelines管道中,在pipelines管道中,我們可以對(duì)數(shù)據(jù)進(jìn)行處理或者進(jìn)行存儲(chǔ)操作。Scrapy環(huán)境搭建數(shù)據(jù)存儲(chǔ)采集目標(biāo)數(shù)據(jù)項(xiàng)定義爬蟲核心實(shí)現(xiàn)爬蟲項(xiàng)目創(chuàng)建爬蟲運(yùn)行五、數(shù)據(jù)存儲(chǔ)在這一節(jié)中,我們對(duì)pipelines進(jìn)行介紹。我們希望將數(shù)據(jù)存儲(chǔ)到2.2節(jié)所定義的數(shù)據(jù)庫(kù)表中,其主要需要在pipelines.py文件中進(jìn)行代碼的實(shí)現(xiàn),如下所示:1importMySQLdb
2classSinanewsspiderPipeline(object):
3con=MySQLdb.connect(host='localhost',port=3306,user='root',//passwd='123456',db='sinanews',charset='utf8')
4cur=con.cursor()
5defprocess_item(self,item,spider):
6query="INSERTINTOSinaLocalNews(title,content,imageUrl,Url,pubtime)//VALUES('%s','%s','%s','%s',//trim(replace(replace(replace(left('%s',16),'年','-'),'月','-'),'日','')))"http://%(item['title'],item['content'],item['imageUrl'],item['Url'],item['pubtime'])
7self.cur.execute(query)
8mit()五、數(shù)據(jù)存儲(chǔ)分段了解代碼第1行中,導(dǎo)入MySQL相應(yīng)的包。第2行代碼定義當(dāng)前pipeline的類名。第3行用MySQLdb.connect建立一個(gè)數(shù)據(jù)庫(kù)連接。第4行代碼則獲取數(shù)據(jù)庫(kù)鏈接的游標(biāo)。第6行,定義一條數(shù)據(jù)庫(kù)插入語(yǔ)句的字符串,其中%s表示接收參數(shù)值。第7,8行,做一個(gè)字符串的處理操作,因?yàn)閿?shù)據(jù)庫(kù)表中定義的是日期時(shí)間型,不支持?jǐn)?shù)據(jù)項(xiàng)提取的原始數(shù)據(jù)。寫好pipeline管道后,我們還需要將當(dāng)前這個(gè)pipeline激活使用。此時(shí),我們需要到爬蟲項(xiàng)目的settings.py文件中進(jìn)行激活。五、數(shù)據(jù)存儲(chǔ)settings中主要代碼如下所示:1BOT_NAME='SinanewsSpider'
2SPIDER_MODULES=['SinanewsSpider.spiders']
3NEWSPIDER_MODULE='SinanewsSpider.spiders'
4ITEM_PIPELINES={
'SinanewsSpider.pipelines.SinanewsspiderPipeline':300,
}以上代碼中第四行括號(hào)內(nèi)的參數(shù)一定要替換成在pipeline中的自己定義的pipeline類名,才能夠進(jìn)行激活并使用。至此,我們已經(jīng)利用Scrapy
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國(guó)盾構(gòu)機(jī)租賃行業(yè)發(fā)展分析及投資價(jià)值預(yù)測(cè)研究報(bào)告
- 外賣業(yè)務(wù)紙杯食品安全計(jì)劃
- 2025-2030中國(guó)狗用洗發(fā)水和護(hù)發(fā)素行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 音樂行業(yè)音樂版權(quán)管理與推廣平臺(tái)方案
- 2025-2030中國(guó)浴巾行業(yè)市場(chǎng)深度調(diào)研及發(fā)展前景與投資風(fēng)險(xiǎn)研究報(bào)告
- 鋼筋安裝施工流程中的環(huán)保措施
- 2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試:學(xué)術(shù)論文寫作與論文寫作方法試題庫(kù)
- 2025年消防安全設(shè)施維護(hù)與檢測(cè)標(biāo)準(zhǔn)考試題庫(kù)
- 瀘州老窖定向增發(fā)的動(dòng)因與效應(yīng)研究
- 2025年護(hù)士執(zhí)業(yè)資格考試題庫(kù)(兒科護(hù)理學(xué)專項(xiàng))兒童護(hù)理健康宣教試題
- 排水管道非開挖預(yù)防性修復(fù)可行性研究報(bào)告
- 交通工程基礎(chǔ)習(xí)習(xí)題及參考答案
- 讀書知識(shí)競(jìng)賽試題含答案
- 線路送出工程質(zhì)量創(chuàng)優(yōu)項(xiàng)目策劃書
- 企業(yè)全面戰(zhàn)略管理、年度經(jīng)營(yíng)計(jì)劃、預(yù)算管理、績(jī)效管理
- 100T汽車吊性能表
- SOP0420201潔凈空調(diào)系統(tǒng)清潔消毒預(yù)防性維護(hù)保養(yǎng)操作規(guī)程報(bào)告
- 試樣切取和加工制備作業(yè)指導(dǎo)書
- 中國(guó)民主同盟入盟申請(qǐng)表(樣表)
- 數(shù)學(xué)分析簡(jiǎn)明教程答案尹小玲鄧東皋
- 壁球館施工方案
評(píng)論
0/150
提交評(píng)論