Python爬蟲之爬取我愛我家二手房數據_第1頁
Python爬蟲之爬取我愛我家二手房數據_第2頁
Python爬蟲之爬取我愛我家二手房數據_第3頁
Python爬蟲之爬取我愛我家二手房數據_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第Python爬蟲之爬取我愛我家二手房數據運行后會發現,在抓取/ershoufang/xichengqu/n1/(也可能是其他頁碼)時,會報錯:'NoneType'objecthasnoattribute'find',觀察輸出的html信息,可以發現html內容為:HTMLHEADscriptwindow.location.href="/ershoufang/xichengqu/n1/wscckey=0f36b400da92f41d_1621823822"rel="externalnofollow";/script/HEADBODY,但此鏈接在瀏覽器訪問是可以看到數據的,但鏈接會被重定向,重定向后的url即為上面這個html的href內容。因此,可以合理的推斷,針對部分頁碼鏈接,我愛我家不會直接返回數據,但會返回帶有正確鏈接的信息,通過正則表達式獲取該鏈接即可正確抓取數據。

二、解決方法

在下面的完整代碼中,采取的解決方法是:

1.首先判斷當前html是否含有數據

2.若無數據,則通過正則表達式獲取正確鏈接

3.重新獲取html數據

if'HTMLHEADscriptwindow.location.href='inhtml:

url=re.search(r'.*href="(.+)"rel="externalnofollow"rel="externalnofollow".*',html).group(1)

html=requests.get(url,headers=headers).text

三、完整代碼

#-*-coding:utf-8-*-

importos

importre

importrequests

importcsv

importtime

frombs4importBeautifulSoup

folder_path=os.path.split(os.path.abspath(__file__))[0]+os.sep#獲取當前文件所在目錄

cookie='PHPSESSID=aivms4ufg15sbrj0qgboo3c6gj;HMF_CI=4d8ff20092e9832daed8fe5eb0475663812603504e007aca93e6630c00b84dc207;_ga=GA1.2.556271139.1620784679;gr_user_id=4c878c8f-406b-46a0-86ee-a9baf2267477;_dx_uzZo5y=68b673b0aaec1f296c34e36c9e9d378bdb2050ab4638a066872a36f781c888efa97af3b5;smidV2=20250512095758ff7656962db3adf41fa8fdc8ddc02ecb00bac57209becfaa0;yfx_c_g_u_id_10000001=_ck21051209583410015104784406594;__TD_deviceId=41HK9PMCSF7GOT8G;zufang_cookiekey=["%7B%22url%22%3A%22%2Fzufang%2F_%25E9%2595%25BF%25E6%2598%25A5%25E6%25A1%25A5%3Fzn%3D%25E9%2595%25BF%25E6%2598%25A5%25E6%25A1%25A5%22%2C%22x%22%3A%220%22%2C%22y%22%3A%220%22%2C%22name%22%3A%22%E9%95%BF%E6%98%A5%E6%A1%A5%22%2C%22total%22%3A%220%22%7D","%7B%22url%22%3A%22%2Fzufang%2F_%25E8%258B%258F%25E5%25B7%259E%25E8%25A1%2597%3Fzn%3D%25E8%258B%258F%25E5%25B7%259E%25E8%25A1%2597%22%2C%22x%22%3A%220%22%2C%22y%22%3A%220%22%2C%22name%22%3A%22%E8%8B%8F%E5%B7%9E%E8%A1%97%22%2C%22total%22%3A%220%22%7D","%7B%22url%22%3A%22%2Fzufang%2F_%25E8%258B%258F%25E5%25B7%259E%25E6%25A1%25A5%3Fzn%3D%25E8%258B%258F%25E5%25B7%259E%25E6%25A1%25A5%22%2C%22x%22%3A%220%22%2C%22y%22%3A%220%22%2C%22name%22%3A%22%E8%8B%8F%E5%B7%9E%E6%A1%A5%22%2C%22total%22%3A%220%22%7D"];ershoufang_cookiekey=["%7B%22url%22%3A%22%2Fzufang%2F_%25E9%2595%25BF%25E6%2598%25A5%25E6%25A1%25A5%3Fzn%3D%25E9%2595%25BF%25E6%2598%25A5%25E6%25A1%25A5%22%2C%22x%22%3A%220%22%2C%22y%22%3A%220%22%2C%22name%22%3A%22%E9%95%BF%E6%98%A5%E6%A1%A5%22%2C%22total%22%3A%220%22%7D","%7B%22url%22%3A%22%2Fershoufang%2F_%25E8%258B%258F%25E5%25B7%259E%25E6%25A1%25A5%3Fzn%3D%25E8%258B%258F%25E5%25B7%259E%25E6%25A1%25A5%22%2C%22x%22%3A%220%22%2C%22y%22%3A%220%22%2C%22name%22%3A%22%E8%8B%8F%E5%B7%9E%E6%A1%A5%22%2C%22total%22%3A%220%22%7D"];zufang_BROWSES=501465046,501446051,90241951,90178388,90056278,90187979,501390110,90164392,90168076,501472221,501434480,501480593,501438374,501456072,90194547,90223523,501476326,90245144;historyCity=["\u5317\u4eac"];_gid=GA1.2.23153704.1621410645;Hm_lvt_94ed3d23572054a86ed341d64b267ec6=1620784715,1621410646;_Jo0OQK=4958FA78A5CC420C425C480565EB46670E81832D8173C5B3CFE61303A51DE43E320422D6C7A15892C5B8B66971ED1B97A7334F0B591B193EBECAAB0E446D805316B26107A0B847CA53375B268E06EC955BB75B268E06EC955BB9D992FB153179892GJ1Z1OA==;ershoufang_BROWSES=501129552;domain=bj;8fcfcf2bd7c58141_gr_session_id=61676ce2-ea23-4f77-8165-12edcc9ed902;8fcfcf2bd7c58141_gr_session_id_61676ce2-ea23-4f77-8165-12edcc9ed902=true;yfx_f_l_v_t_10000001=f_t_1620784714003__r_t_1621471673953__v_t_1621474304616__r_c_2;Hm_lpvt_94ed3d23572054a86ed341d64b267ec6=1621475617'

headers={

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論