火車頭采集器-采集與發(fā)布帶圖片的文章_第1頁
火車頭采集器-采集與發(fā)布帶圖片的文章_第2頁
火車頭采集器-采集與發(fā)布帶圖片的文章_第3頁
火車頭采集器-采集與發(fā)布帶圖片的文章_第4頁
火車頭采集器-采集與發(fā)布帶圖片的文章_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、11如何使用火車頭采集器火車頭采集器 7.6 免費版,功能有很多限制,但我已使用它實現(xiàn)了采集與發(fā)布(帶圖片、排版)。圖片是通過采集程序下載到本地,放在一個約定好名字的文件夾中,最后人工上傳到服務(wù)器DZ程序運行目錄下的pic目錄下。 下載火車頭采集器 7.6版本LocoySpider_V7.6_Build20120912.Free.zip,解決后可運行。需要.NET 環(huán)境。程序是Discuz!X 2.5 GBK版本。核心工作有兩部分:1、采集,2、 發(fā)布。 本文重點說如何發(fā)布(帶圖片、排版), 簡單說如何采集。一、新建一個使用UBB格式的Web在線發(fā)布模塊因為采集下來的文章內(nèi)容是HTML格式,如

2、:<p>正文</p>這樣帶有HTML標(biāo)簽的文本。而DZ論壇使用的是UUB格式,如:p正文/p,所以在發(fā)布時要做一個自動轉(zhuǎn)換。下面就是設(shè)置這個自動轉(zhuǎn)換功能。如果你的文章發(fā)布的DZ門戶,就不需要轉(zhuǎn)換為UBB.1、 打開發(fā)布模塊配置:2、 以軟件里自帶的Discuz!X 2.0論壇 為模板進(jìn)行修改。我試過了可以正常住Discuz!X 2.5發(fā)布文章。3、 設(shè)置為:對 標(biāo)簽: 內(nèi)容做 UBB轉(zhuǎn)換,如下圖中的樣子:最后,另存為一個新的“發(fā)布模塊”,起一個新名字,后面要使用。4、在“內(nèi)容發(fā)布參數(shù)”選項卡中修改: 標(biāo)簽: 內(nèi)容 的值可以用使用0 來替代。如下圖:黃色框內(nèi)的標(biāo)簽: 內(nèi)容

3、替換成0 ,如下圖第一部分工作就完成了。二、使用Web在線發(fā)布模塊前面我新建了一個新的Web在線發(fā)布模塊,下面就是使用它。第一步:新一個“發(fā)布”,操作如下圖:注意:請到論壇的后臺修改設(shè)置,要求登錄時不需要輸入驗證碼,才能登錄成功,才能測試成功,記得以后要改回來啊。最后保存時要起個新名字。三、準(zhǔn)備采集這里以火車自帶的采集演示來說明 。鼠標(biāo)右擊“騰訊新聞”“編輯任務(wù)”,打開如下窗口。如下圖設(shè)置,使用前一步 建立 的“發(fā)布模塊”,可以把采集到的內(nèi)容發(fā)布到論壇的某個欄目中。設(shè)置如下圖:下面還有圖:對于采集工作,還有一些重要的設(shè)置,很重要。如果你不是使用火車頭自帶的演示任務(wù),而是自己新建采集任務(wù),下面的

4、內(nèi)容就很重要。下面的設(shè)置,是對采集的文章正文進(jìn)行的設(shè)置。“開始字符串”,“結(jié)束字符串”是所有設(shè)置中最重要的內(nèi)容,它用來分析頁面的HTML源碼,找出文章正文的開始點與結(jié)束點。下圖中使用的是火車頭為騰訊準(zhǔn)備默認(rèn)值,不需要修改。 如果你不采集騰訊而采其它網(wǎng)站,這個就要你自己看HTML源碼來人工分析了。采集時,可選擇性的過濾掉一些HTML標(biāo)簽,如<script><iframe>,如果你不知道要去掉哪些,就什么也不用改,使用默認(rèn)值吧。下載的圖片存目錄設(shè)置圖片下載后被保存在:火車頭軟件安裝目錄DataLocoySpider80 文件夾中。為什么叫80,其實叫什么都可以,但為了方便管

5、理,這個騰訊采集任務(wù)編號是80,所以放在80文件夾中。以后是騰訊采集任務(wù),采集下來圖片都放在這里,方便管理。騰訊采集任務(wù)編號,請再后面一張圖片中查看。客戶通過瀏覽器訪問我論壇的文章里的圖片時,統(tǒng)一訪問服務(wù)器上DZ程序的根目錄下的./pic/目錄,使用相對路徑,pic目錄下面我們再新建一個80目錄, 所以,把火車頭安裝目錄下的DataLocoySpider中的 80 文件夾,COPY到服務(wù)器DZ程序的根目錄下的pic目錄中, 這樣,圖片就存儲在了:服務(wù)器DZ程序的根目錄pic80 目錄同時 文章中的圖片的地址是指向 ./pic/80/xxx.jpg 。文章就可以顯示圖片了。補充:后來經(jīng)過實踐,目錄定為:/data/attachment/pic ,好處是:為了通過程序取文章中的第一張圖片做為文章的“封面”,這個路徑是合適的。四、什么樣的數(shù)據(jù)容易采集請看這個新聞列表: 有文章列表的、URL地址有規(guī)律

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論