




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、n一、軟件安裝n二、新建站點n 三、采集網址n 四、采集內容n 五、發布內容n六、任務采集n七、導出數據需要安裝軟件: () WAMP5-v1.7.4 () phpcms () LocoySpiderV2009SP4_Build20090807(火車頭采集器)注:每次采集前需要將wamp5打開后,在用火車頭采集。1、wamp5_1.7.4安裝完成后,解壓縮phpcms后將phpcms1剪切出來放到D:wampwww目錄下,將phpcms1改名為phpcms。2、打開WAMP5,啟動PHP settings欄目中的short open tag。3、安裝PHP,輸入http:/localhost/
2、phpcms/install.php進行。4、解壓LocoySpiderV2009SP4_Build20090807將Module文件下的phpcms2008-090109文件下的locoy.php復制到D:wampwwwphpcms下。安裝部分完成打開火車頭軟件(LocoySpider.exe)界面如下圖:第一步:新建站點(如右圖)第二步:點擊“新建站點”后出現如下界面。填寫站點名和站點網址點擊“更新”新建好的站點會排列在窗口左側“站點&任務列表”中。右擊新建好的站點,點擊“從該站點新建任務”,出現如下界面。以本列表為例:http:/ “資訊內容”、“內容摘要”、“信息關鍵詞”、“m
3、eta關鍵詞”、“meta描述”、“責任編輯”、“信息來源”添加到標簽名中,將其他不需要的標簽名稱刪除,出現如下界面。下面分別說明“標題”、“內容摘要”、“信息關鍵詞”、“meta關鍵詞”、“meta描述”、“責任編輯”、“信息來源”、“資訊內容”各個標簽的采集規則。采集頁面以采集頁面以http:/ 如下圖:注釋:在資訊內容采集過程中最主要的是對垃圾信息的刪除,其中需要注意的有以下幾項:1、廣告語(例如:2010年建材行業十大評選活動圓滿落幕,電話:01062298529)2、特殊標簽(例如:標簽,大部分標簽會在“HTML標簽排除”中刪除。)3、網站logo(例如:【慧聰建材網】)4、文章中銘
4、感文字(例如:點擊下一頁、點擊查看更多圖片、視頻、責任編輯、評論、【熱點導讀】、【相關新聞】等與文章正文無關的文字。)第三、內容描述、meta描述查看本頁面“源文件” 搜索description代碼,找到文章描述部分。如下圖:將“源代碼”中對應的描述開始代碼和結束代碼分別輸入到開始字符段開始字符段和結束字符結束字符段段中,點擊確定,內容描述和meta描述標簽設置完成。注釋:有些文章描述部分設有大量廣告語或與本文無關的內容,這樣的文章描述我們不給予采集。可以將標題的采集方法復制到描述采集中。第四、信息關鍵詞、meta關鍵詞查看本頁面“源文件” 搜索keywords代碼,找到文章關鍵詞部分。如下圖
5、:將“源代碼”中對應的關鍵詞開始代碼和結束代碼分別輸入到開始字符段開始字符段和結束字結束字符段符段中,點擊確定,信息關鍵詞和meta關鍵詞標簽設置完成。注釋:有些文章關鍵詞部分設有大量廣告語或與本文無關的內容,這樣的文章關鍵詞我們不給予采集。可以將標題的采集方法復制到關鍵詞采集中。第五、責任編輯雙擊責任編輯標簽,選擇“自定義固定格式的數據”,在固定的字符串選項中填寫自己的名稱,點擊確定,責任編輯設定完成。第六、信息來源雙擊責任編輯標簽,選擇“自定義固定格式的數據”,在固定的字符串選項中填寫信息來源,點擊確定,信息來源設定完成。第七、分頁在“頁面內容分頁區域/樣式設置”中將分頁部分代碼輸入其中,
6、用(*)代替即可。如下圖:(注釋:各站的分頁代碼不同,需要具體分析,采集分頁的文章在我們后臺將成為一篇通篇文章。建議少采集分頁多的文章,影響用戶體驗。)規則填寫完成后,返回至第一步“測試網址采集”。雙擊所采集到的任一文章地址。則會自己彈出如下界面。(注釋:建議多測試幾篇文章,減少垃圾代碼出現。)采集內容階段完成,點擊進入發布內容設置1、啟動以下兩項,點擊“定義web在線發布到網站全局設置”。2、點擊添加,選擇phpcms2008 新聞發布模塊3、在“網站/cms根地址”:輸入http:/localhost/phpcms/4、點擊“在火車內置瀏覽器中登錄”5、在地址欄輸入:http:/local
7、host/phpcms/admin6、輸入用戶名phpcms密碼phpcms7、登錄點擊“確認登錄發布成功后即可關閉該窗口”,關掉此窗口。獲得8、登錄本地后臺(在瀏覽器中輸入:http:/localhost/phpcms/admin。賬號密碼phpcms)9、選擇“系統設置”中的“添加欄目”,點擊下一步10、輸入欄目名稱、欄目目錄,點擊確定,在本地后臺會出現對應列表。11、點擊獲取列表后便可等對應ID,選擇此次采集的對應列表。12、在配置名中輸入要采集的欄目名稱,點擊保存配置。13、設置完成后點擊保存。發布內容部分結束將剛剛編寫好的規則保存后,程序則會自動跳轉到主界面。右鍵點擊設置好的任務,選擇開始采集。在采集完成后系統會自動提醒采集完成。采集數據在火車頭Data文件中。雙擊mdb格式文件,右鍵選擇content選項,導出為Excel格式。建議將采集文檔都放在一個文件夾里,有利于后續工作進行。打開導出的Excel文檔,將ID、已采、已發、縮略圖、PageUrl、處理中等無關數據刪除,只保留“標題”、 “資訊內容”、“內容摘要”、“信息關鍵詞”、“meta關鍵詞”、“meta描述”、“責任編輯”、“信息來源”。在Excel中對采集文章進行最后篩選修改:1、刪除內容缺失的文章。2、刪除所有標題中帶有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臺灣品牌出讓協議書
- 合伙養殖牛蛙協議書
- 合伙賓館承包協議書
- 包工裝修合同協議書
- 場地房屋租賃協議書
- 勞動合同培訓協議書
- 分校加盟學校協議書
- 口腔聘用合同協議書
- 醫院施工居間協議書
- 勞務公司付款協議書
- 2025年江蘇南通市通州區鑫匯控股集團下屬子公司招聘筆試參考題庫含答案解析
- 【公開課】巴西+課件-2024-2025學年七年級地理下學期人教版
- 部隊文職協議班合同
- 2025年中國純棉被套市場調查研究報告
- 2025-2030中國表面聲波(SAW)濾波器行業市場發展趨勢與前景展望戰略研究報告
- 湖南省炎德英才名校聯合體2025屆高考考前仿真聯考二物理
- 2025年公務員面試試題及答案全解析
- 國際壓力性損傷-潰瘍預防和治療臨床指南(2025年版)解讀課件
- 高強瓦楞原紙產品商業計劃書
- GB/T 20041.21-2017電纜管理用導管系統第21部分:剛性導管系統的特殊要求
- 《科技想要什么》讀書筆記ppt課件
評論
0/150
提交評論