



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實驗七網絡爬蟲一、爬蟲工作原理若是把互聯網比作一張大網,爬蟲(即網絡爬蟲)便是在網上爬行的蜘蛛。把網中的節點比作一個個網頁,那么蜘蛛爬到一個節點處就相當于爬蟲訪問了一個頁面,獲取了其信息。可以把網頁與網頁之間的鏈接關系比作節點間的連線,蜘蛛通過一個節點后,順著節點連線繼續爬行,到達下一個節點,意味著爬蟲可以通過網頁之間的鏈接關系繼續獲取后續的網頁,當整個網站涉及的頁面全部被爬蟲訪問到后,網站的數據就被抓取下來了。二、用到的相關工具包(Python)request:用于發送請求與接收結果re:用來使用正則表達式csv:用來將獲得的數據寫入csv文件中,在后面的數據處理更加方便讀取三、實驗過程1、首先獲取需要爬取頁面的URL,這里就是豆瓣了:/top2502、通過查看豆瓣的網頁源代碼發現,該網頁是由服務器渲染的HTML,所以選擇使用正則來處理。3、通過firefox自帶的抓包工具發現請求方式為get。4、由于豆瓣經常被爬,所以它設置了反爬,不過僅是對UA的檢查,找到一般瀏覽器訪問豆瓣網頁所攜帶的UA,寫入到request中即可,還是剛才抓包的文件,最下面有UA即User-Agent。5、接下來寫正則re的預編譯,像是豆瓣這樣的大網站,前端編寫的規定是很嚴格的,比如有電影信息的div中的class等是與其他構建網頁組件不一樣的,這也方便了正則的應用。如該代碼,電影名都在span這個標簽里面,而且有特定的class,故此憑借這個span與class可以快速定位電影名稱與獲取。6、csv文件寫入。7、最后編寫爬蟲,并將數據進行處理,把結果寫入csv。四、結果展示由
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行政管理中的合作與協調策略試題及答案
- 行政管理在社會服務中的應用試題及答案
- 行政管理考試市政學提分試題及答案
- 挖掘2025年行政公文處理試題及答案
- 自考行政管理考前準備試題及答案
- 2025年心理學與組織變革的試題及答案
- 行政管理在人力資源配置中的應用研究試題及答案
- 行政管理心理學職業道德試題及答案
- 行政管理學的假設與實證研究試題及答案
- 準備入行勞務合同范例
- 江蘇省高速公路施工標準化技術指南-工地建設篇
- 社區衛生服務中心十四五發展規劃
- 20世紀外國文學史課件:意識流文學
- 中國上市發電公司2023年回顧及未來展望-安永-2024
- 用人單位調檔函范文10篇
- 7《中華民族一家親》第一課時《中華民族大家庭》(說課教學設計)部編版道德與法治五年上冊
- 《水資源經濟學》課件
- 近七年重慶中考化學試題及答案2024
- 直播運營 課件 3直播運營策劃、4 主播打造
- 工業園區事故應急預案
- DL5009.3-2013電力建設安全工作規程第3部分:變電站
評論
0/150
提交評論