項目初步計劃書_第1頁
項目初步計劃書_第2頁
項目初步計劃書_第3頁
項目初步計劃書_第4頁
項目初步計劃書_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

WBIA項目初步計劃報告 TomorrowActivityPAGEPAGE4項目初步計劃書項目名稱基于時間的活動分類搜索項目單位北京大學計算機科學技術系項目成員歐陽錦林羅慶軍葉萍胡雅杰

目錄TOC\o"1-3"\h\z第1章項目綜述 31.1項目背景 31.2系統簡介 41.2.1功能概況 41.2.2目標與意義 4第2章項目分析 52.1技術分析 52.1.1系統基本架構 52.1.2基本技術分析 62.1.3技術難點分析 62.2商業分析 72.2.1活動與搜索的當前狀況 72.2.2商業模型 7第3章項目實施 83.1實施階段 83.2任務安排 8

項目綜述項目背景“當這個世界正在慢慢的改變,世界不再是圓的,網絡讓世界變成平的,所有的資訊來源非常方便”,托馬斯·弗里德曼在《世界是平的》這樣寫道。爆炸性發展的網絡信息、越來越便捷的通訊與交通方式,似乎加快了地球的旋轉,也加快了人們的生活節奏。然而,Web是一個龐大的信息資源庫。自從Web產生以來,其承載的信息量急劇的增長,使得Web的使用者找到對自己有用的信息的難度越來越大。在這樣的環境下,搜索引擎應運而生。它就像網絡信息資源的過濾與組織者,將用戶需要的信息返回,屏蔽掉用戶不關心的信息。同時,快節奏的生活要求人們努力提高時間的利用效率,但是,隨著世界變得越來越平,人們社會關系網也日趨復雜,人們對于未來活動的安排和選擇也越來越多的與別人甚至陌生人相關,在這樣的背景下,如何在復雜的活動中選擇了有效的安排,成了當今時代的又一個課題。我們正是在上述兩個大的背景下,產生了我們這個項目最初的想法。我們的系統基于如下理念:立足于Web的海量數據,以搜索分類為核心技術,對以時間為基準,以活動為主要內容的信息進行搜索、分類,最后提供給用戶一個統一、清晰的活動信息,讓人們更快捷的找到自己感興趣的活動,以高效安排自己的日程。我們的信念是:抓住世界的明天!系統簡介功能概況本系統分兩期工程,第一期實現一個基于Web信息的活動搜索、分類與查詢;第二期建立網絡日歷日程安排平臺,并建立平臺內部活動的搜索。計劃在WBIA項目安排的時間內,務必完成第一期工程。第二期工程視第一期工程的時間、效果和需求再做安排。第一期工程的功能有:簡單搜索:只需要給出一個時間段,便可得到此時間段的所有活動情況。條件搜索:提供活動內容的分類的條件搜索:如報告、通知。提供活動范圍的分類的條件搜索:如北京大學、信息科學技術學院高級搜索:提供關鍵字查詢搜索。并對關鍵字進行語義分析,確定關鍵字所屬類別(可能是多個),對關鍵字匹配結果做選擇、加權排序并輸出。目標與意義“明天是可以抓住的,世界的明天就在你手中。”這是所有人的夢想。而讓用戶實現這個夢想,正是我們團隊和項目所有的目標與意義所在。

項目分析技術分析系統基本架構下面是第一項目第一期工程系統模塊圖:Web數據抓取Web數據抓取Crawler信息過濾Filter邏輯處理Plan界面、交互Interface分析后數據存儲、索引信息分析與分類Analyzer信息檢索Searcher原數據存儲圖表SEQ圖表\*ARABIC1:TomorrowActivity第一期項目模塊圖基本技術分析數據抓取Crawler實際上是一個爬蟲,先計劃在北京大學校內搜索。主要針對新聞發布、報告轉會BBS等幾個主要的版面進行搜索。信息過濾Filter網頁信息過慮器,過慮一些無關網頁與模板。并將其存儲在原始數據庫中。原數據存儲存儲過慮和規整后的信息。信息分析與分類Analyzer使用恰當的分類算法對規整化的網頁進行分類分析分析后的數據存儲存儲和索引分類好的信息信息檢索Searcher執行查詢命令,并根據查詢結果對不同分類,不同的條件進行加權排序輸出。邏輯處理Plan根據界面搜索條件與查詢語句生成邏輯查詢計劃界面、交互WebInterface提供簡單、條件與高級搜索,供用戶查詢搜索。技術難點分析在上述的基本模塊中,比較復雜的是:信息分析與分類Analyzer和信息檢索Searcher。對于信息的分類,我們的設想是先人工的定義好幾個分類,以及這幾個分類的關鍵詞,然后對文本進行分析后自動聚類到某個分類中去。這是整個項目搜索準確度與效率的關鍵。另外,我們還考慮未來系統的可擴充性,計劃提供一個機制,以應對分類的增加。基本的想法是定義一個接口和數據結構,以增加分類和這個分類的關鍵詞,同時也可以提供一個訓練集來描述和增加新的分類。對于信息檢索Searcher,主要涉及對結果的排序算法。這也是提高系統準確性和可用性的關鍵技術。商業分析活動與搜索的當前狀況活動安排的重要性在現代人生活中顯而易見,從手機日歷、Google日歷和各位日程安排軟件的盛行便可略見一斑。而Google的生活搜索和酷訊搜索只是針對某一行業信息的內容搜索。而基于時間的活動搜索卻沒有見到一個市面上的產品來提供此服務。因此,基于時間的活動搜索還具有巨大的市場潛力。商業模型在第一期工程結束后,如果有了一定的用戶群,我們便可以推出形如Google日歷平臺,讓用戶注冊并將搜索到的活動便易的加入日歷當中,這樣平臺數據的準確性與Web數據的海量性便可以相互補充,以提供人們更多的、更準確的活動選擇。除了利用兩期工程相互配合以吸引用戶的模型之外,還可以對搜索結果進行競價排名的贏利模式。比如,我們將某付過費的商場的打折活動信息加權排序。另外,此系統還有結伴活動、交友等市場潛力,當然,這一切的基礎是,有足夠的用戶認可和使用我們的產品。

項目實施實施階段項目預計在一個月內完成基本模型系統的實現,以周為單位大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論