




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第python爬取網易云音樂排行榜實例代碼目錄網易云音樂排行榜歌曲及評論爬取一、模擬登錄二、排行榜數據爬取三、排行榜評論獲取總結
網易云音樂排行榜歌曲及評論爬取
主要注意問題:selenium模擬登錄、iframe標簽定位、頁面元素提取。
在利用selenium定位元素并取值的過程中遇到問題。比如xpath正確但無法定位,在進行翻頁提取評論的過程中,利用selenium似乎不能提取不同頁的數據,比如,明明定位的第三頁的評論數據,而只能返回第一頁的評論數據。
一、模擬登錄
selenium定位元素模擬人的操作進行登錄,直接上代碼:
//模擬登錄
importpandasaspd
fromseleniumimportwebdriver
fromselenium.webdriver.support.uiimportWebDriverWait
frommon.byimportBy
fromselenium.webdriver.supportimportexpected_conditionsasEC
fromselenium.webdriver.chrome.optionsimportOptions
fromselenium.webdriverimportActionChains
fromlxmlimportetree
importtime
fromdatetimeimportdatetime,timedelta
wyy_url='/'
driver=webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window()#全屏
time.sleep(2)
driver.find_element_by_xpath("http://a[@class='links-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("http://a[@]").click()#選擇其他方式登錄
#賬號、密碼登錄
driver.find_element_by_xpath("http://input[@type='checkbox']").click()#同意條款
time.sleep(0.5)
driver.find_element_by_xpath("http://a[@]").click()
#選擇手機號密碼登錄
driver.find_element_by_xpath("http://a[@]").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx')#這里輸入你的id
driver.find_element_by_id("pw").send_keys('xxx')#這里輸入密碼
time.sleep(1)
#點擊登錄
driver.find_element_by_xpath("http://a[@]").click()
time.sleep(1)
二、排行榜數據爬取
當時嘗試直接用selenium定位標簽取值,并沒有返回有效結果。在后面爬取評論時,也遇到此問題。于是先獲取頁面內容在進行分析。
//排行榜
base_url="/#/discover/toplistid="
bang_typical={'飆升榜':19723756,'新歌榜':3779629,'原創榜':2884035,'熱歌榜':3778678}
#選擇榜單
bang=input('請輸入榜單:')
#構造榜單對應的鏈接
url=base_url+str(bang_typical[bang])
print('開始分析:-%s'%(bang))
#進入榜單
driver.get(url)
time.sleep(3)
#iframe標簽定位,必要的,否則無法定位其他標簽
_iframe=driver.find_element_by_xpath("http://iframe[@id='g_iframe']")#找到iframe標簽
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text=driver.execute_script("returndocument.documentElement.outerHTML")
#獲取頁面
html=etree.HTML(page_text)
trs=html.xpath('//tbody/tr')
rank_list=[]
title_list=[]
span_list=[]
singer_list=[]
fortrintrs:
rank=tr.xpath(".//span[@]/text()")[0]#注意xpath獲取到的是列表,需提取其元素
title=tr.xpath(".//b/@title")[0]
span=tr.xpath(".//td[@]/span[@]/text()")[0]
singer=tr.xpath(".//div[@]/span/@title")[0]
rank_list.append(rank)
title_list.append(title)
span_list.append(span)
singer_list.append(singer)
#輸出榜單結果
df_bang=pd.DataFrame({'排名':rank_list,'歌名':title_list,'時長':span_list,'歌手':singer_list})
三、排行榜評論獲取
主要是評論日期的格式轉換,評論內容的清洗
//評論
#日期清洗函數
defchange_time(time):
now=datetime.now()
day_y=datetime.strftime(now-timedelta(1),'%Y-%m-%d')#計算昨天
day=now.strftime('%Y-%m-%d')
year=now.strftime('%Y')
if'年'intime:#非今年
new_time=time.replace('年','-').replace('月','-').replace('日','')
elif'昨天'intime:
new_time=time.replace('昨天',day_y+'')
elif'前'intime:#前天
minut=int(time[:time.index('分')])
new_time=(now+timedelta(minutes=-minut)).strftime('%Y-%m-%d%H:%M')
eliflen(time)==5:#今天
new_time=day+''+time
else:#最近**月**日**:**
y='2025-'
time=time.replace('月','-').replace('日','')
new_time=y+time
returnnew_time
#評論清洗
defchange_review(r):
if':'inr:
r_=r.split(':')[1]
else:
r_=r
returnr_
#評論點贊
defchange_likes(l):
ifl!=[]:
l_=int(l.split('(')[1].split(')')[0])
else:
l_=0
returnl_
#拉動滾動條至翻頁按鈕處
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#獲取頁面信息
num=input('請輸入需要爬取的頁面總數:')#想要爬取評論的頁數,
#這里的思路是先通過翻頁將獲取到的所有頁面的所有內容存至列表,再對列表遍歷。
#因為當時直接用selenium定位返回結果不對,當然你們也可以用selenium直接試試。
html_list=[]
foriinrange(int(num)):
page_text=driver.execute_script("returndocument.documentElement.outerHTML")
html=etree.HTML(page_text)#獲取頁面
html_list.append(html)
driver.find_elements_by_xpath("http://div[contains(@class,'u')]/a")[-1].click()
time.sleep(4)
WebDriverWait(driver,300,0.1).until(EC.presence_of_element_located((By.XPATH,"http://div[@]")))
print(f'第{i+1}頁爬取成功')
rev_list=[]#所有評論的列表
dat_list=[]#對應日期的列表
forreview_pageinhtml_list:
raw_reviews=review_page.xpath("http://div[@]//div[@]/text()")#提取頁面所有評論
raw_reviews_=[iforiinraw_reviewsif":"ini]#保證長度一致
rv_date=review_page.xpath("http://div[@]//div[@]/div[@]/div[@]/text()")
review_list=[change_review(r)forrinraw_reviews_]
date_list=[change_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 老舊供水系統改進工程實施方案(范文)
- 老舊廠房改造loft項目規劃設計方案(參考范文)
- 湖北xx農貿市場建設項目可行性研究報告
- 水利工程施工安全生產管理工作導則
- 心理安全小班課件下載
- 西湖大學《中學英語教材分析與教學設計》2023-2024學年第二學期期末試卷
- 湖北汽車工業學院科技學院《高性能計算導論》2023-2024學年第二學期期末試卷
- 益陽職業技術學院《羽毛球教學理論與實踐》2023-2024學年第二學期期末試卷
- 淮北師范大學《公共建筑設計(Ⅱ)》2023-2024學年第二學期期末試卷
- 重慶醫科大學《語文教學論》2023-2024學年第二學期期末試卷
- 氣體分析儀的使用與維護
- 肺結節護理教學查房課件
- 小兒麻醉常用藥物超說明書使用專家共識
- 2023-2024專八改錯真題及答案
- 《基本放大電路》教案
- 《藥用高分子xu》課件
- 廣西桉樹人工林對生態環境的影響分析
- 高中數學知識點全總結PPT
- 文檔簡譜視唱
- 中考英語初中必會英語語法匯總
- 工業機器人22手部設計-23腕部設計課件
評論
0/150
提交評論