python爬取網易云音樂排行榜實例代碼_第1頁
python爬取網易云音樂排行榜實例代碼_第2頁
python爬取網易云音樂排行榜實例代碼_第3頁
python爬取網易云音樂排行榜實例代碼_第4頁
python爬取網易云音樂排行榜實例代碼_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第python爬取網易云音樂排行榜實例代碼目錄網易云音樂排行榜歌曲及評論爬取一、模擬登錄二、排行榜數據爬取三、排行榜評論獲取總結

網易云音樂排行榜歌曲及評論爬取

主要注意問題:selenium模擬登錄、iframe標簽定位、頁面元素提取。

在利用selenium定位元素并取值的過程中遇到問題。比如xpath正確但無法定位,在進行翻頁提取評論的過程中,利用selenium似乎不能提取不同頁的數據,比如,明明定位的第三頁的評論數據,而只能返回第一頁的評論數據。

一、模擬登錄

selenium定位元素模擬人的操作進行登錄,直接上代碼:

//模擬登錄

importpandasaspd

fromseleniumimportwebdriver

fromselenium.webdriver.support.uiimportWebDriverWait

frommon.byimportBy

fromselenium.webdriver.supportimportexpected_conditionsasEC

fromselenium.webdriver.chrome.optionsimportOptions

fromselenium.webdriverimportActionChains

fromlxmlimportetree

importtime

fromdatetimeimportdatetime,timedelta

wyy_url='/'

driver=webdriver.Chrome()

driver.get(wyy_url)

driver.maximize_window()#全屏

time.sleep(2)

driver.find_element_by_xpath("http://a[@class='links-fc3']").click()

time.sleep(2)

driver.find_element_by_xpath("http://a[@]").click()#選擇其他方式登錄

#賬號、密碼登錄

driver.find_element_by_xpath("http://input[@type='checkbox']").click()#同意條款

time.sleep(0.5)

driver.find_element_by_xpath("http://a[@]").click()

#選擇手機號密碼登錄

driver.find_element_by_xpath("http://a[@]").click()

time.sleep(1)

driver.find_element_by_id("p").send_keys('xxx')#這里輸入你的id

driver.find_element_by_id("pw").send_keys('xxx')#這里輸入密碼

time.sleep(1)

#點擊登錄

driver.find_element_by_xpath("http://a[@]").click()

time.sleep(1)

二、排行榜數據爬取

當時嘗試直接用selenium定位標簽取值,并沒有返回有效結果。在后面爬取評論時,也遇到此問題。于是先獲取頁面內容在進行分析。

//排行榜

base_url="/#/discover/toplistid="

bang_typical={'飆升榜':19723756,'新歌榜':3779629,'原創榜':2884035,'熱歌榜':3778678}

#選擇榜單

bang=input('請輸入榜單:')

#構造榜單對應的鏈接

url=base_url+str(bang_typical[bang])

print('開始分析:-%s'%(bang))

#進入榜單

driver.get(url)

time.sleep(3)

#iframe標簽定位,必要的,否則無法定位其他標簽

_iframe=driver.find_element_by_xpath("http://iframe[@id='g_iframe']")#找到iframe標簽

driver.switch_to.frame(_iframe)

time.sleep(1)

page_text=driver.execute_script("returndocument.documentElement.outerHTML")

#獲取頁面

html=etree.HTML(page_text)

trs=html.xpath('//tbody/tr')

rank_list=[]

title_list=[]

span_list=[]

singer_list=[]

fortrintrs:

rank=tr.xpath(".//span[@]/text()")[0]#注意xpath獲取到的是列表,需提取其元素

title=tr.xpath(".//b/@title")[0]

span=tr.xpath(".//td[@]/span[@]/text()")[0]

singer=tr.xpath(".//div[@]/span/@title")[0]

rank_list.append(rank)

title_list.append(title)

span_list.append(span)

singer_list.append(singer)

#輸出榜單結果

df_bang=pd.DataFrame({'排名':rank_list,'歌名':title_list,'時長':span_list,'歌手':singer_list})

三、排行榜評論獲取

主要是評論日期的格式轉換,評論內容的清洗

//評論

#日期清洗函數

defchange_time(time):

now=datetime.now()

day_y=datetime.strftime(now-timedelta(1),'%Y-%m-%d')#計算昨天

day=now.strftime('%Y-%m-%d')

year=now.strftime('%Y')

if'年'intime:#非今年

new_time=time.replace('年','-').replace('月','-').replace('日','')

elif'昨天'intime:

new_time=time.replace('昨天',day_y+'')

elif'前'intime:#前天

minut=int(time[:time.index('分')])

new_time=(now+timedelta(minutes=-minut)).strftime('%Y-%m-%d%H:%M')

eliflen(time)==5:#今天

new_time=day+''+time

else:#最近**月**日**:**

y='2025-'

time=time.replace('月','-').replace('日','')

new_time=y+time

returnnew_time

#評論清洗

defchange_review(r):

if':'inr:

r_=r.split(':')[1]

else:

r_=r

returnr_

#評論點贊

defchange_likes(l):

ifl!=[]:

l_=int(l.split('(')[1].split(')')[0])

else:

l_=0

returnl_

#拉動滾動條至翻頁按鈕處

driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

#獲取頁面信息

num=input('請輸入需要爬取的頁面總數:')#想要爬取評論的頁數,

#這里的思路是先通過翻頁將獲取到的所有頁面的所有內容存至列表,再對列表遍歷。

#因為當時直接用selenium定位返回結果不對,當然你們也可以用selenium直接試試。

html_list=[]

foriinrange(int(num)):

page_text=driver.execute_script("returndocument.documentElement.outerHTML")

html=etree.HTML(page_text)#獲取頁面

html_list.append(html)

driver.find_elements_by_xpath("http://div[contains(@class,'u')]/a")[-1].click()

time.sleep(4)

WebDriverWait(driver,300,0.1).until(EC.presence_of_element_located((By.XPATH,"http://div[@]")))

print(f'第{i+1}頁爬取成功')

rev_list=[]#所有評論的列表

dat_list=[]#對應日期的列表

forreview_pageinhtml_list:

raw_reviews=review_page.xpath("http://div[@]//div[@]/text()")#提取頁面所有評論

raw_reviews_=[iforiinraw_reviewsif":"ini]#保證長度一致

rv_date=review_page.xpath("http://div[@]//div[@]/div[@]/div[@]/text()")

review_list=[change_review(r)forrinraw_reviews_]

date_list=[change_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論