




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
火車頭采集器介紹與使用流程說明第一頁,共28頁。目錄一、軟件介紹二、創建任務三、采集網址四、采集內容五、字段處理第二頁,共28頁。一、軟件介紹《火車采集器》能為您做些什么呢?
1、網站內容維護:可以定時采集新聞、文章等任何您想采集的內容,并自動發布到您的網站。
2、Internet數據挖掘:可以從指定網站抓取所需數據,通過分析和處理后保存到您的數據庫。
3、網絡信息監控:通過自動采集,可以監控論壇等社區類網站,讓您第一時間發現您所關注的內容。
4、文件批量下載:可以批量下載PDF、RAR、圖片等各種文件,并同時采集其相關信息。
火車采集器是目前信息采集與信息挖掘處理類軟件中最流行、性價比最高、使用人數最多、市場占有率最大、使用周期最長的智能采集程序。第三頁,共28頁。一、軟件介紹火車采集器數據發布原理:在我們將數據采集下來后數據默認是保存在本地的,我們可以使用以下幾種方式對種據進行處理。1.不做任何處理。因為數據本身是保存在數據庫的(access或是db3),您如果只是想看一下,直接用相關軟件查看就可以了。2.web發布到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發布的效果。3.直接入數據庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到數據庫中。4.保存為本地文件。程序會讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。第四頁,共28頁。二、創建任務打開火車頭軟件,界面如下:第五頁,共28頁。二、創建任務1.新建分組填寫分組名稱第六頁,共28頁。二、創建任務2.新建任務填寫任務名稱添加采集網址第七頁,共28頁。三、采集網址點擊“添加”按鈕出現如下界面第八頁,共28頁。三、采集網址切換至“批量/多頁”選項卡,可以批量添加網址
網址通用序號用通配符(*)替換這添加方式主要用來處理分頁網址第九頁,共28頁。三、采集網址切換至“其他網址格式”選項卡,也可以批量添加網址
網址通用序號用通配符(*)替換這添加方式主要用來處理含有日期的網址
日期格式第十頁,共28頁。三、采集網址多級網址采集點擊‘添加’按鈕
網址過濾條件第十一頁,共28頁。三、采集網址手動采集配置鏈接地址規則:手動連接格式是將需要的網址用參數來獲得并組合成我們需要的網址。這個好處是處理網址那塊有規律的網址很好處理。而且可以用這方法采集需要的字段,如:公告新聞類的標題、日期等。點擊單選按鈕來切換配置網址采集規則第十二頁,共28頁。三、采集網址點擊完成之后,則出現如下情況:完成采集網址步驟之后,點擊“測試網址采集”按鈕。會出現如下界面:采集網址規則展示配置網址采集規則網址全部采集完成后,可以雙擊網址進行內容采集;如需修改則點擊“返回修改設置”第十三頁,共28頁。四、采集內容雙擊網址或者點擊‘測試該頁’就能跳轉到采集內容界面在典型頁面中會出現剛才選中的網址,這里就是測試采集內容。左邊的標簽名下面有:出處、時間、作者、內容、標題五個初始標簽,可以對標簽進行添加、刪除和編輯等操作。第十四頁,共28頁。四、采集內容編輯字段規則以深交所的為例:現在要提取標題,日期和信息內容。第十五頁,共28頁。四、采集內容打開
頁面并查看該頁的HTML源代碼。在源代碼中可以找到頁面中的標題部分,如圖:復制這段代碼以及前后的相關html代碼,將標題內容設為”參數”之后,通過正則匹配的方式獲?。喝鐖D:匹配規則測試效果情況第十六頁,共28頁。四、采集內容同樣可以用這類似的方式來采集信息內容:還是先通過內容附近的關鍵字段:采集效果:
前后匹配字符串第十七頁,共28頁。四、采集內容通過之前的方式采集可以看到內容包含了很多的html標簽,這些并不是所需要的,因此需對其進行處理。在數據處理項點擊添加,選中html標簽過濾:點擊‘全選’再按‘確定’即可。處理之后的效果第十八頁,共28頁。四、采集內容備注:前后字符串截取與正則提取是火車頭最基本、最常用的兩種采集方式,其原理就是通過網頁源代碼中的前后關鍵字來獲取所要采集的內容,通常這類前后的關鍵字在網頁源代碼中具有一定的唯一性。第十九頁,共28頁。五、字段處理火車頭采集器除了有最基本的采集截取之外,還有大量的對數據自動作特殊處理的功能。內容替換:內容替換功能是將采集后的字段中的一些內容替換成需要的格式,如有時采到的日期為xxxx年xx月xx日,而我們需要xxxx-xx-xx的格式,就可以采取這個功能。第二十頁,共28頁。五、字段處理網頁編碼設定:每個網站都有一個相對應的編碼:如UTF-8。如果選錯編碼,則采集出來的數據就會呈現一種亂碼格式。大多數的網頁編碼火車頭都可以自動識別,如不能則需要手動指定一個編碼格式。(網頁對應的編碼格式通常會在源代碼的<head>里)第二十一頁,共28頁。五、字段處理循環采集處理循環采集就是在一個頁面中用相同的采集方式獲取字段:
以為例:如果要獲取深交所法規的所有標題字段。配置采集規則后,只需勾選在“該標簽循環匹配”即可。選中即可第二十二頁,共28頁。五、字段處理采集記錄篩選有時有些記錄不需要怎么辦?火車采集器的記錄篩選功能可以完成這個工作?;疖嚥杉饔涗浐Y選有以下幾個處理方法:選中“內容過濾”就可對數據進行相關的過濾,如不得為空、不得重復等。第二十三頁,共28頁。標簽組合有時我們會需要取幾個字段來做數據的唯一性判斷時就會用到標簽組合采集。注:標簽組合時需注意標簽的前后順序,組合后的標簽必須在最下面不然就會報錯。五、字段處理第二十四頁,共28頁。文件下載功能火車頭采集還提供了一個下載附件的功能,同樣以為例:配置完采集規則之后,需將網址補全,因為大多網頁源代碼中都是相對路徑。操作如下:點擊添加,選中“補全單網址”,之后點擊文件下載,勾選“探測文件并下載”即可。五、字段處理附件下載情況第二十五頁,共28頁。五、字段處理附件下載配置好之后,還需給個文件存放路徑及文件保存格式。通常保存格式為原文件名或自增長
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 加盟終止合同協議書范本
- 餐飲加盟合作合同協議書
- 煤礦皮帶維修合同協議書
- 被迫兼職勞動合同協議書
- 2025中文商務合同的結構格式概述
- 合伙投資開廠合同協議書
- 廚房分包合同協議書
- 2025廣告發布委托合同范本
- 賠償墻布合同協議書模板
- 游戲交易買賣合同協議書
- 磚和砌塊材料試題及答案
- TCCEAS001-2022建設項目工程總承包計價規范
- 職業教育現場工程師聯合培養協議書10篇
- 輸變電工程施工質量驗收統一表式附件4:電纜工程填寫示例
- 福州地鐵考試試題及答案
- 鋼材授權合同協議
- 飲品店培訓及管理制度
- 2025至2030年中國網絡分析儀市場現狀分析及前景預測報告
- 小學生朗讀指導課件
- DB32-T 5079-2025 城鎮供水水表安裝及維護技術規程
- 種畜禽場管理制度類
評論
0/150
提交評論