租房信息專業搜索引擎項目計劃書參考模板_第1頁
租房信息專業搜索引擎項目計劃書參考模板_第2頁
租房信息專業搜索引擎項目計劃書參考模板_第3頁
租房信息專業搜索引擎項目計劃書參考模板_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、租房信息專業搜索引擎項目計劃書Group Name: alpacaGroup Member: 駱雄武 陳長城 楊治國 陸騰飛一、 項目開發背景衣食住行一直是社會人賴以生存和生活的幾大要素。隨著當今社會快速的現代化和城市化,衣、食、行等方面的問題已經變得十分的容易和便捷,但是,住的問題卻猶如一座大山,壓在我們的肩頭,讓我們感覺越來越沉重。在一個現代化的城市中,除去原住民,除去富裕得足以買得起一座房子的和能夠幸運的得到公司或者單位分房的人,其余的相當大的一部分人基本上要靠租房來解決住的問題。但是,實際中關于住房出租的信息,稀少而且混亂,對于一個急切想要租到一套適合自己需求的住房的人來說,這顯然是十

2、分困難和不便的。有租房需求的主要是這樣一些群體:剛剛開始工作的尚無多少積蓄的工薪階層;已工作多年但是仍無力購買任何形式住房的低收入階層;準備考研或其它各種考試的部分大學生群體;相當一部分的研究生群體。這些人占據了城市生活的相當重要的一角。另一方面,隨著信息技術的飛速發展,人們早已習慣于在網上找尋自己需要的信息,尤其是通過搜索引擎來從海量的信息中提取自己關注的部分。結合上面兩部分因素,我們便自然的產生了開發這樣一個租房信息的專業搜索引擎的想法,主要是為了服務于相當一部分的有租房需求的人群。二、 項目需求分析1. 系統目標本系統的目標就是:為所有需要獲取租房信息的人,提供最全面的信息,最便捷的方式

3、,使得網絡搜索引擎真正成為最值得信賴的信息來源。這里的租房信息可以包括網絡上現有的所有比較可靠的網站和論壇上發布的信息,也包括和本搜索引擎具有合作關系的房產中介所提供的信息。這些信息原本散布于各個網站的邊角或者張貼于大街小巷的隱蔽位置,本系統正是需要有效的整合這些渠道的各種信息,最大可能的提供最有價值的租房信息。本系統的提出主要針對傳統租房信息獲取渠道的不便捷性,即 :需要耗費大量的精力和物力來獲取信息,以及現有網絡租房信息獲取渠道的不完備性,即:信息的非有效性整合和信息的分布不一致性。同時,本系統又吸收先有信息渠道的長處,做以擴展。2. 系統功能1) 信息的抓取從我們關注的可能會發布租房信息

4、的網站和論壇抓取它們的網頁,并以一定格式提取抓下來的網頁中的有效信息。2) 信息的處理和存放對于提取來的文本信息,進行切分分詞、添加標簽、詞頻統計,并據此建立全文索引。3) 信息的檢索接收用戶輸入的搜索條件,對其進行分析處理,然后在索引中進行查詢匹配,從本地數據庫中提取所有符合條件的信息。4) 返回結果給用戶1 / 4將提取的信息排序后,以結果頁面的形式呈現給用戶。3. 系統結構模塊系統總體框架如下圖所示:圖14. 系統用例圖圖25. 系統性能要求1) 響應時間系統的響應速度應該在用戶可接受的范圍之內,至少與現有各種搜索引擎相當。這點要求我們必須建立結構合理的索引以及設計高效準確的查詢、搜索算

5、法。2) 結果的準確性和合理性對于用戶輸入的搜索條件,返回的結果應該盡可能的和他期望的保持一致,并且越接近的余越應先被用戶看到。這涉及到網頁信息提取、索引建立、條件匹配、結果排序等問題。3) 時效性用戶希望看到的是越新的信息越好,過時的租房信息對于用戶來說沒有價值或者只有很小的參考價值。這要求我們盡可能頻繁的對網站進行抓取,然后分析,另一方面,在將結果呈現給用戶的時候,排序也要考慮到時間因素,即越新的信息要越排在前面。4) 靈活性系統要有良好的接口,便于后面的擴充,以適應信息源的增加或者減少;要留有服務器接口,以實現后面服務器功能的需要;要具有跨平臺功能。5) 其它要求用戶界面友好,運行穩定。

6、三、 項目開發計劃1. 開發規模計劃由于本項目是作為課程作業來做的,受到時間和人力等方面的約束,我們在實際開發中只能減小問題的規模,開發一個demo程序的原型系統。初步計劃是,抓取網頁只在北大未名和水木清華兩大bbs的相關版面進行。在此基礎上進行網頁信息的提取,分詞,建立索引,然后實現對輸入關鍵詞的解析,匹配查詢,結果排序,返回到頁面顯示等工作,從而完成概念上的實現,給出初步的系統原型。2. 初步開發計劃1) 界面類似于baidu和google的界面,用戶可以輸入搜索條件,點擊搜索按鈕后,下面排列出符合條件的結果。稍微不同的是,由于租房信息跟地域(城市、地區)緊密相關,所以在用戶輸入搜索條件前

7、,要先讓用戶選定一個地區,然后再進行搜索。這里我們僅考慮北京市城區。2) 后臺初步考慮分為以下幾個模塊:A. 網頁抓取模塊:對北大未名和水木清華兩大bbs相關版面,利用crawler進行抓取。B. 網頁分析模塊:提取網頁中有用的信息,保存為文本格式。C. 網頁分段模塊:采用合適的分段技術,將每個文本分成多段。D. 索引建立模塊:對分好的段進行分詞、標注、詞頻統計等工作,建立全文索引。E. 查詢匹配:將用戶輸入的關鍵詞,采用合適的查找算法與索引進行逐一匹配,將符合的內容提取出來,返回到界面。F. 排序:考慮相似度和時間等因素,將結果越接近,時間越新的內容排到前面。3. 開發進度計劃項目開發周期40天,具體安排如下:時間工作11月11日-11月16日各人搜集idea11月16日-11月17日小組討論,確定idea11月18日-11月20日完成項目計劃書11月21日-11月27日小組成員分工,并根據分工自己去學習、查閱相關的資料,了解實現機制11月28日-11月30日討論,給出系統總體框架和模塊劃分,設計各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論