火車頭采集步驟和數據導出詳解PPT課件_第1頁
火車頭采集步驟和數據導出詳解PPT課件_第2頁
火車頭采集步驟和數據導出詳解PPT課件_第3頁
火車頭采集步驟和數據導出詳解PPT課件_第4頁
火車頭采集步驟和數據導出詳解PPT課件_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、火車頭采集12021/3/9 1、什么是采集源?、什么是采集源? 2、認識火車頭采集工具、認識火車頭采集工具 3、火車頭采集工具的使用方法、火車頭采集工具的使用方法 4、數據導出與處理、數據導出與處理22021/3/9一些網站有大量的文章、圖片、郵箱等信息,對我們來說是一種資源,我們可以利用工具將這些資源采集回來,為我們所用。這樣的網站,就是采集源。32021/3/91、采集的目標頁面,不需要登錄即可訪問;2、采集的內容列表頁面url跟隨一定的規(guī)律改變;3、該網站不屏蔽不干擾采集器的工作。42021/3/9火車采集器,是目前使用人數最多的互聯(lián)網數據抓取、處理、分析,挖掘軟件。軟件憑借其靈活 的

2、配置與強大的性能領先國內數據采集類產品。使用火車采集器,你可以建立一個擁有龐大內容的網站。52021/3/9火車采集器如何去抓取數據,取決于您的規(guī)則。要獲取內容頁的內容,首先需要先將這個網頁的網址采下來,這就是采網址。程序按規(guī)則抓取列表頁里的內容頁url。再根據您的采集規(guī)則,將,將標題內容等信息分離開來并保存下來。如果選擇了下載圖片,程序會對采集到的數據進行分析,找出圖片的下載地址并將圖片下載到本地。62021/3/93.1 打開火車頭工具,單擊左側空白處,根據需要新建分組72021/3/93.2 右擊剛才建立好的分組,新建采集任務,并填寫好任務名稱82021/3/93.3 填寫批量采集網址規(guī)

3、則,注意先分析目標列表頁url規(guī)則92021/3/93.4 設置“多級網址獲取”規(guī)則102021/3/93.4 設置“多級網址獲取”規(guī)則,并測試設置好的規(guī)則是否生效112021/3/93.5 校驗設置好的規(guī)則是否生效,如果生效,則返回修改設置;如果得到的結果不正確,也需要返回修改設置(重新分析采集范圍是否正確,一直校驗到是我們需要的結果)122021/3/93.6 返回修改采集的項數,并且記得點擊“添加”和“完成”132021/3/93.7 進入到第二步“采集內容規(guī)則”采集文章的標題采集文章的標題,選中“標題”,點擊左側的修改,選擇“前后截取”,將文章標題的html區(qū)域填寫完整,右側“典型頁面

4、”填寫一條內容頁url,以供隨時測試。142021/3/93.8 采集文章的“摘要”152021/3/93.9 采集文章的“標簽”162021/3/93.10 采集文章的“內容”填寫內容所在區(qū)間的html標簽,添加數據處理,勾選“下載圖片”并填寫文件保存目錄和格式,最后點擊確定。172021/3/93.11 保存設置好的采集任務182021/3/93.12 開始采集任務我們會看到,右側任務運行的狀況,一切正常192021/3/94、數據導出與處理采集到的數據,需要用Accesss軟件才能處理,因此,如果我們的電腦沒有這個軟件,則需要先安裝Access軟件。4.1、安裝Access202021/

5、3/94.2、選中已經采集完成的任務,并右擊出現下拉菜單后,打開Data下任務文件夾,出現第二個截圖以.mdb擴展名的文件。212021/3/94.3、雙擊打開.mdb擴展名的文件,此時由于已經安裝了Access,辦公軟件已經能正確識別.mdb文件,打開結果如下:222021/3/94.4、已經能用Excel打開采集到的文章內容之后,就可以利用Excel對數據進行批量處理,比如批量添加文章的發(fā)布時間、批量替換文字、批量修改圖片路徑等等。比如:在Excel表格里,按Ctrl+F,出現的對話框中選擇“替換”,填寫好需要替換的文字,即可對采集到的內容進行批量替換文字。232021/3/94.1、安裝Access選中Excel表格的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論