大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 項(xiàng)目四 Python應(yīng)用基礎(chǔ) 實(shí)訓(xùn)三 財(cái)務(wù)數(shù)據(jù)采集_第1頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 項(xiàng)目四 Python應(yīng)用基礎(chǔ) 實(shí)訓(xùn)三 財(cái)務(wù)數(shù)據(jù)采集_第2頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 項(xiàng)目四 Python應(yīng)用基礎(chǔ) 實(shí)訓(xùn)三 財(cái)務(wù)數(shù)據(jù)采集_第3頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 項(xiàng)目四 Python應(yīng)用基礎(chǔ) 實(shí)訓(xùn)三 財(cái)務(wù)數(shù)據(jù)采集_第4頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)(微課版)-課件 項(xiàng)目四 Python應(yīng)用基礎(chǔ) 實(shí)訓(xùn)三 財(cái)務(wù)數(shù)據(jù)采集_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

VIP免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)應(yīng)用基礎(chǔ)Python應(yīng)用基礎(chǔ)01項(xiàng)目一

爬蟲(chóng)與反爬蟲(chóng)反爬手段:反爬手段通過(guò)User-Agent校驗(yàn)反爬通過(guò)訪問(wèn)頻度反爬通過(guò)驗(yàn)證碼校驗(yàn)反爬通過(guò)賬號(hào)權(quán)限反爬通過(guò)變換網(wǎng)頁(yè)結(jié)構(gòu)反爬看起來(lái)很復(fù)雜有木有?往下翻試試項(xiàng)目一

爬蟲(chóng)與反爬蟲(chóng)無(wú)反爬措施驗(yàn)證碼反爬蟲(chóng)……訪問(wèn)頻率UA反爬蟲(chóng)登錄反爬蟲(chóng)網(wǎng)頁(yè)爬取識(shí)別驗(yàn)證碼……代理ip設(shè)置UA模擬登錄項(xiàng)目二

網(wǎng)頁(yè)數(shù)據(jù)采集流程我們思考一下網(wǎng)頁(yè)數(shù)據(jù)爬取的流程!!!分析網(wǎng)頁(yè)結(jié)構(gòu)爬取網(wǎng)頁(yè)內(nèi)容解析網(wǎng)頁(yè)內(nèi)容瀏覽器開(kāi)發(fā)者模式(F12)requests庫(kù)BeautifulSoup庫(kù)一、分析網(wǎng)頁(yè)結(jié)構(gòu)瀏覽器——F12——進(jìn)入開(kāi)發(fā)者模式數(shù)據(jù)采集需要對(duì)html層次進(jìn)行認(rèn)真分析,而網(wǎng)頁(yè)往往非常復(fù)雜,需要我們具有吃苦耐勞的品質(zhì)與認(rèn)真細(xì)致的鉆研精神。一、分析網(wǎng)頁(yè)結(jié)構(gòu)標(biāo)頭(Headers)請(qǐng)求URL:請(qǐng)求訪問(wèn)的鏈接請(qǐng)求方法:getorpost狀態(tài)代碼:200OK,表示請(qǐng)求成功遠(yuǎn)程地址(IP地址)User-Agent:用戶代理(請(qǐng)回到PPT13頁(yè)是,何時(shí)需要用到它)二、使用requests庫(kù)請(qǐng)求網(wǎng)站請(qǐng)求訪問(wèn)的URL請(qǐng)求的方法:get三、使用BeautifulSoup解析網(wǎng)頁(yè)函數(shù)先定義,再調(diào)用!從bs4中調(diào)用BeautifulSoup庫(kù)1、定義一個(gè)函數(shù),解析htmlContent;2、html.parser為解析器,解析html內(nèi)容,并賦值給bs;3、我們要解析的“新聞”標(biāo)簽在哪里呢?如何找到它?在開(kāi)發(fā)者模式中使用定位功能查找,再使用find命令進(jìn)行提取,將提取內(nèi)容賦值給divTag;4、輸出divTag的內(nèi)容此處為函數(shù)調(diào)用,調(diào)用parseBaidu函數(shù)財(cái)務(wù)數(shù)據(jù)采集02實(shí)訓(xùn)三財(cái)務(wù)數(shù)據(jù)采集背景:資產(chǎn)負(fù)債表是反映公司某一特定日期(月末、年末)全部資產(chǎn)、負(fù)債和所有者權(quán)益情況的會(huì)計(jì)報(bào)表。本節(jié)利用資產(chǎn)負(fù)債表的資料,可以看出公司資產(chǎn)的分布狀態(tài)、負(fù)債和所有者權(quán)益的構(gòu)成情況,據(jù)以評(píng)價(jià)公司資金營(yíng)運(yùn)、財(cái)務(wù)結(jié)構(gòu)是否正常、合理;分析公司的流動(dòng)性或變現(xiàn)能力,以及長(zhǎng)、短期債務(wù)數(shù)量及償債能力,評(píng)價(jià)公司承擔(dān)風(fēng)險(xiǎn)的能力;利用該表提供的資料還有助于計(jì)算公司的獲利能力,評(píng)價(jià)公司的經(jīng)營(yíng)績(jī)效。上市公司財(cái)務(wù)報(bào)表的作用首先在于提供決策有用的會(huì)計(jì)信息。編制財(cái)務(wù)報(bào)告不是最終目的,而是為上市公司現(xiàn)在和潛在的投資者、債權(quán)人以及其他財(cái)務(wù)報(bào)告的使用者提供決策有用的財(cái)務(wù)信息。實(shí)訓(xùn)三財(cái)務(wù)數(shù)據(jù)采集網(wǎng)頁(yè)的內(nèi)容是網(wǎng)站的數(shù)據(jù)資源,數(shù)據(jù)采集需要尊重和保護(hù)他人的隱私,嚴(yán)禁違法使用采集的數(shù)據(jù),應(yīng)遵守《中華人民共和國(guó)數(shù)據(jù)安全法》!實(shí)訓(xùn)三財(cái)務(wù)數(shù)據(jù)采集任務(wù)一:財(cái)務(wù)報(bào)表數(shù)據(jù)采集指標(biāo)分析1、分析財(cái)務(wù)報(bào)表網(wǎng)頁(yè)數(shù)據(jù);2、明確數(shù)據(jù)采集指標(biāo);任務(wù)二:財(cái)務(wù)指標(biāo)網(wǎng)頁(yè)結(jié)構(gòu)分析1、分析財(cái)務(wù)指標(biāo)和財(cái)務(wù)數(shù)據(jù)的網(wǎng)頁(yè)結(jié)構(gòu);

2、分析財(cái)務(wù)數(shù)據(jù)的每行數(shù)據(jù);3、分析財(cái)務(wù)指標(biāo)的每列數(shù)據(jù);任務(wù)三:財(cái)務(wù)指標(biāo)數(shù)據(jù)采集程序編寫(xiě)。

1、使用Requests下載網(wǎng)頁(yè)數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論