新聞采集用戶需求_第1頁
新聞采集用戶需求_第2頁
新聞采集用戶需求_第3頁
新聞采集用戶需求_第4頁
新聞采集用戶需求_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實用文案新聞米集發布系統-需求文檔標準目錄1引言51.1編寫目的51.2項目背景61.3術語說明62項目概述62.1 軟件的一般描述 622軟件的功能72.2.1功能架構72.2.2功能特點72.2.3功能描述82.3用戶特征和水平 112.4運行環境112.5條件與限制122.5.1開發工具與技術123功能需求123.1功能劃分1.23.2功能描述1.33.2.1運行管理133.2.2信息管理143.2.3統計報表153.2.3系統管理154外接接口需求1.54.1用戶界面1.54.2 硬件接口 1.64.3軟件接口 1.64.4通信接口 1.64.5故障處理1.65性能需求165.1數據精

2、確度165.2 時間特性1.75.3 適應性1.76其他需求1.77數據描述1.77.1靜態數據177.2動態數據 1.77.3數據庫描述177.4數據字典1.87.5數據采集1.88附錄.181引言1.1編寫目的信息的自動獲取,信息的更新需要大量的人力來完成,而信息自動發布系統能夠自動從互聯網上獲取新的信息,節省了運營的人力成本;豐富IPTV的內容,根據調查,用戶最希望IPTV提供的功能是信息瀏覽(63%)和視音頻點播(73%),信息自動發布系統給IPTV提供了信息資訊的內容;互聯網上有各種各樣的信息資源,但都是根據pc瀏覽器設計的。而電視上網有各種終端,瀏覽器各不相同,分辨率不同,支持ht

3、ml、javascript的能力也不同。因此互聯網上的內容無法很好的在 IPTV的各種終端上顯示,需要對互聯網上的內容重 新組織、編排。1.2項目背景基于現有IPTV平臺以及企業信息化應用平臺新聞咨詢信息全有人工采集,其弊端表現為:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV平臺與企業信息化平臺)等。基于以上存在的問題,由中國電信成都分公司IPTV項目組發起,由上海帕科軟件科技有限公司開發。1.3術語說明I P T V ( Internet Protocol Television )網絡電視2項目概述2.1軟件的一般描述通過新聞采集系統可以對互聯網新聞內容進行

4、自動快速采集,并可以根據用戶定義的任務配置,批量而精確地抽取目標網絡媒體欄目中的新聞或者文章,轉化為結構化的記錄(標題,作者,內容,采集時間,來源,分類,相關圖片等), 保存在本地數據庫中,用于內部使用或外網發布,快速實現外部信息的獲取。本 系統對目標網站進行信息自動抓取,支持 RSS新聞采集和HTML新聞采集,可 以采集頁面內多種類型的數據,如文本信息,URL,數字,日期,圖片等。2.2軟件的功能2.2.1功能架構系統功能架構如下圖所示:門戶(IPTV,電視上網、網站)內容采集引擎系統科 目 管 理來 源 管 理規 則 管 理采 集 占八、 管 理模 板 管 理新 聞 內 容 管 理統 計

5、報 表數據庫系統主要包括三個模塊1. 采集引擎模塊2. 后臺管理模塊3. 門戶模塊(接口模塊)2.2.2功能特點?用戶對每類信息自定義來源與分類? 可以下載圖片與各類文件,如PDF,Flash等? 需支持命令行和純服務格式,可以 Windows任務計劃器配合,定期抽取目標網站? 需支持記錄HASHCODE等唯一索引,避免相同信息重復入庫? 需支持智能替換功能,可以將內容中嵌入的所有的無關部分如廣告去除? 需支持多頁面文章內容自動抽取與合并? 數據直接進入數據庫而不是文件中,因此與利用這些數據的網站程序或者桌面程序之間沒有任何耦合? 需支持數據庫表結構完全自定義,充分利用現有系統? 需支持多個欄

6、目的信息采集可用同一配置一對多處理? 需提供基于 Web的在線內容編輯,可以方便靈活的進行內容調整和預覽? 需保證信息的完整性與準確性,絕不會出現亂碼? 需提供基于XSLT的模板和帕科自定義格式的模版,從而提供靈活方便 標準的模版,方便運營商設計自己的界面? 需支持各種主流數據庫,女口 MSSQL、Access、MySQL、Oracle、DB2、 Sybase 等2.2.3功能描述2.2.3.1新聞采集引擎新聞采集引擎需包括RSS新聞采集和HTML新聞采集兩個關鍵模塊,分別 負責從兩種協議進行采集分析。系統采用基于 LUA自定義腳本的方式,提供高 效和可維護的信息采集。223.2新聞采集管理后

7、臺22321新聞科目管理新聞科目管理對所有的新聞進行科目定義,如財經頻道、國際新聞、國內新 聞等內容。新聞科目支持無限分級,從而可以提供更加人性化的導航和分類。22322 新聞來源管理新聞來源管理對新聞的出處進行管理、 如新浪網、上海熱線、網易、搜狐等。 從而方便統計和管理。新聞來源管理實現新聞來源的添加、刪除、更改等功能。22323新聞采集點管理新聞采集點按照新聞來源導航,提供對各個采集分析點的管理,采集點的內 容一般呈現為列表數據,訪問為 HTML頁面內容或者RSS內容,新聞采集點可 以設置以下信息? 采集地址? 采集類型? 采集時間間隔? 分析規則? 列表分析規則? 新聞內容分析規則等信

8、息22324 新聞內容管理包括新聞的審核、發布、撤銷、生成靜態頁面。新聞內容可以按時間、標題、 內容提供商、采集點等關鍵信息進行查詢,下面為新聞列表信息,新聞內容包括 待審核、待發布、已發布、已撤銷等幾個狀態,管理員通過不同的導航菜單查看 系統采集的新聞。提供基于 Web的在線內容編輯,可以方便靈活的進行內容調 整和預覽。22325模板管理模板管理對新聞展現或者發布的頁面進行模板管理,系統提供基于XSLT的模板和自定義格式的模版,從而提供靈活方便標準的模版,方便運營商設計自己 的界面。模板管理實現模板的添加、刪除、更改,并提供完全基于Web的在線模版編輯功能。22326 統計報表統計報表實現當

9、天新聞點擊量排行榜、 新聞訪問點擊數按時間統計等各種報 表并且提供柱狀圖、餅圖等圖表,可以提供豐富的統計報表功能,并可以導出為 PDF等報表文件。22327新聞門戶新聞門戶從數據庫獲取數據并按照門戶模版的要求進行展現。新聞門戶頁面采用基于XSLT模版生成,可以生成全靜態頁面或者動態頁面處理。22328 管理員管理需要對登錄進后臺管理系統的用戶設置角色、權限,方便對管理員進行管理。并可以對管理員進行新建,修改權限等操作。22329 日志管理需對管理員在后臺管理系統里邊的登入,登出及所有操作日志進行記錄并可以通過后臺管理系統進行查看。223.3 對夕卜 Web Service 接口需對外提供統一的

10、 web service 接口以供其它系統進行新聞信息的調用。2.3用戶特征和水平經過開發廠商培訓過的后臺信息操作人員2.4運行環境標準軟件運行環境Win dows 2003 服務企業版SQLServer 2000或者更高版本數據庫2.5條件與限制2.5.1開發工具與技術? Visual Studio 2005? MS Sql Server2005? C#? Lua?C+3功能需求3.1功能劃分3.1.1系統功能架構圖新聞米集發布系統3.2功能描述321運行管理3.2.1.1網站管理定義:需要采集信息的網站名稱功能:可以新增采集網站,并對網站進行啟用、停用、新增、刪除、修改等操作,此 處的網站

11、是為了便于對新聞采集點進行管理的一個別名,所有的新聞采集點必須下屬于一個網站。3.2.1.2 采集點管理定義:網站下邊需采集的新聞版塊(社會,財經等等類似版塊)功能:采集點全都下屬于某一個網站(可以為上邊新增的網站增加采集點(采集板塊), 可以對采集點進行啟用、停用、新增、刪除、修改等操作,要能夠指定采集點所屬采集組、米集地址、米集類型、米集間隔時間、發布類型、列表,內容編碼、列表分析規則、內容分析規則等屬性。322信息管理322.1 科目管理定義:展現給 web外部的科目,“運行管理”功能 里邊的所有采集點都下屬于科目, 一個采集點可以加到多個科目管理。功能:便于對所有的采集點分類進行管理,

12、將從各個網站采集過來的信息按IPTV平臺的方式與科目提供給外部。3.2.2.2信息審核定義:對采集的信息審核其合法性功能:對采集的信息(未發布)進行合法性的審核,將其它狀態更改為“已審核”可以對 未發布信息進行查找、編輯、刪除、排序等操作3.2.2.3信息發布定義:對已審核的信息進行發布功能:對已審核的信息進行發布,將其狀態從“已審核”更改為“已發布”322.4已發布信息322.5回收站3.2.3統計報表3.2.3.1新聞數量統計3.2.3.2科目訪問統計3.2.3.3新聞訪問統計3.2.3系統管理3.2.3.1管理員管理3.2.3.2系統日志s4外接接口需求4.1用戶界面對用戶希望該軟件所具

13、有的界面特征進行描述。以下是可能要包括的一些特征:將要采用的圖形用戶界面標準或產品系列的風格; 屏幕布局;菜單布局; 輸入輸出格式;錯誤信息顯示格式 建議采用RAD開發工具,比如Visio,構造 用戶界面4.2硬件接口描述系統中軟件產品和硬件設備每一接口的特征,以及硬件接口支持的設備、 軟件與硬件接口之間,以及硬件接口與支持設備之間的約定,包括交流的數據和控制信息的性質以及所使用的通信協議。4.3軟件接口描述該軟件產品與其有關軟件的接口關系,并指出這些外部軟件或組件的名字和版本號。比如運行在什么操作系統上,訪問何種類型的數據庫,使用什么數據庫連接組件, 和什么商業軟件共享數據等。4.4通信接口描述和本軟件產品相關的各種通信需求,包括電子郵件、Web瀏覽器、網絡通信協議等。4.5故障處理對可能的軟件、硬件故障以及對各項性能而言所產生的后果進行處理。5性能需求5.1數據精確度輸出結果的精度5.2 時間特性時間特性可包括如下幾方面:響應時間;更新處理時間;數據轉換與傳輸時間; 運行時間等。5.3 適應性在操作方式、運行環境、與其他軟件的接口以及開發計劃等發生變化時,軟 件的適應能力。6其他需求列出在本文的其他部分未出現的需求。如果不需要增加其他需求,可省略這一部 分。7數據描述7.1靜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論