智能化學術分享搜索平臺開題報告_第1頁
智能化學術分享搜索平臺開題報告_第2頁
智能化學術分享搜索平臺開題報告_第3頁
智能化學術分享搜索平臺開題報告_第4頁
智能化學術分享搜索平臺開題報告_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、南京航空航天大學計算機科學與技術學院 大學生科技創新基金項目申報書項目名稱: 智能化學術分享搜索平臺 申 報 人: 呂民晟 郁裕杰 王鐘毓 所在專業: 軟件培優班 手 機:指導教師: 陳海燕 辦公電話: 手 機: 計算機科學與技術學院大學生科技創新基金管理辦公室填表日期: 2013 年 09 月 16 日項目名稱智能化學術分享搜索平臺起止日期 申請經費 申請者情況學 號姓 名平均績點E-mail電 話簽名161210423呂民晟161220115郁裕杰161210125王鐘毓指導老師姓名單位職稱簽名項目負責人獲獎情況項目編號(評審用,辦公室填寫)研究內容提要(限200

2、字以內)1. 建立一個智能化學術搜索引擎,在提供高效搜索服務的同時,為用戶提供定制化服務,根據用戶搜索行為制定推薦系統。2. 添加知識分享平臺,讓用戶去評論、分享自己感興趣的知識,并為有相似研究方向的用戶提供一個交流學習的途徑,為這個平臺增加社交化的要素,打造一個方便實用的“知識中心”。研究的目的和意義(限500-1000字)學術論文是我們學習研究時獲得最新最前沿知識的一個重要途徑,隨著大學學習的深入,大學生學習知識時對于學術論文的需求日漸增多,這時就需要一個學術搜索引擎,我們通過它,可以搜索我們學習時所需的學術論文,同時,搜索結果和我們的需求越匹配越好,能極大地減少人工檢索過程,為學習提供便

3、利的信息來源。如今市場上已經出現有不少關于學術論文搜索的專業引擎比如Google Scholar,Microsoft Academic Search Engine,通過搜索關鍵字,提供一些匹配度最高的學術論文,提供很多便利。然而,學術搜索引擎是一個比較通用的工具,很多功能都太死板有待完善。比如,如果用戶搜索同一個詞,那么它給出的Ranking List都是相同的,不會像別的購物網站,如淘寶,一樣根據用戶的瀏覽記錄給出個性化的推薦,讓用戶能更快更便捷的找到自己需要的論文。同時,這些學術搜索引擎也缺少社區互動,無法方便用戶們進行知識的分享和交流。對于這些缺陷,我們的項目的目的就是建立一個帶有智能化

4、個性化的推薦模式的學術搜索引擎,可以根據用戶的不同給予他們不同的推薦,減少人工搜索時間,同時添加知識分享平臺,讓用戶去評論、分享自己感興趣的知識,并為有相似研究方向的用戶提供一個交流學習的途徑,為這個平臺增加社交化的要素,打造一個方便實用的“知識中心”。國內外本項目的研究狀況(800字左右,附不少于4篇的參考文獻)1 學術分享搜索平臺:現在與學術相關的搜索引擎,比如Google Scholar,Microsoft Academic Search Engine,中國知網等等這些學術搜索引擎各有優勢和缺點:Microsoft Academic Search EngineGoogle Scholar

5、中國知網優點1對于特定的會議、雜志, MSAS能快速準確地找到相應文章,并且能提供這些頂級的會議、雜志詳細的資料,同時還提供了一些重要學術名會議的日歷來提醒用戶。 2允許用戶對相關信息進行編輯和補充。3引入了Co-Author選項,使用戶檢索某位學者信息時可以了解該領域其他學者的相關信息,便于用戶把握該領域的最新動向。4用戶界面相對比較美觀。免費,能可以動態的查詢文章的被引用次數,以及某作者的所有文章在某段時間的引用次數從檢索字段來看,中國期刊網提供多種字段檢索可以二次檢索,并可以多次進行二次檢索缺點1數據庫小。搜索算法不理想,搜索得到的結果不符合用戶的期望。 2沒有提供多語言界面和檢索的支持

6、。 3人機交互不方便,也就是操作不夠簡易。數據來源有一定的不完整性,收錄的數據比較雜。局限中國的學術圈,從檢索結果的顯示來看,中國期刊網只有一種格式2.有推薦功能的社交平臺:現在我們身邊有許多具有推薦功能的網頁或者社交平臺,像微博,人人,豆瓣,淘寶網等等,它們會根據每個人不同的特點來推薦同學朋友的信息,幫助大家找到可能認識的人,喜歡的書,愛看的電影或者感興趣想買的東西,提供定制化服務。目前的學術搜索引擎功能過于死板,對于相同的搜索詞給出相同的搜索結果頁面,無法根據用戶的瀏覽記錄給出個性化的推薦,讓用戶能更快更便捷的找到自己需要的論文。同時,這些學術搜索引擎也缺少社區互動,無法方便用戶們進行知識

7、的分享和交流。參考文獻:1個性化推薦系統的研究進展自然科學進展,2009年1月15日2 Microsoft Academic Search Engine:研究內容、研究方案(研究方法、技術路線)(1000字左右)整個項目大體分為六大模塊,針對各個模塊,我們提出了各自的研究方案:1. 數據爬取數據需求是計算機科學方面的學者和論文元數據,所以爬取需求是定向的網絡爬取,而不是通用的爬取。在調研、使用和對比了Nutch,Heritrix,Scrapy這些爬蟲工具之后,決定采用Scrapy來做數據的爬取。解決方案Scrapy是一個Python寫的爬蟲框架,高效簡單,代碼量少,定制方便,而且是一個企業級的

8、開源爬蟲。相對于Nutch,Heritrix要輕量級很多,基本沒有配置。它使用Python庫中Twisted這個優秀的異步網絡庫來處理網絡通訊,架構清晰,并且包含了各種中間件接口,可以靈活完成各種需求。Scrapy支持以json形式存儲和讀取爬取到的內容,將把json對象存入MongoDB內.2.數據存儲 “學者”的數據大致包含以下一些字段:全名,工作地,個人主頁,研究領域(多字段),論文列表(多字段)。“論文”的元數據信息大致包含:題目,摘要,作者(多字段),期刊,下載鏈接。如果讓傳統的面向行的關系型數據庫,如MySQL,來存取數據,多字段會需要多張表之間的join操作,表之間需要外鍵關聯,

9、會影響查詢性能。此外,可以適當放寬數據查詢的一致性,只要滿足CAP中的A和P。所以理想的存取方式是非結構化的存儲,并且具備可用性和分布式可擴展性,達到最終一致性。解決方案 運用MongoDB這種面向文檔的NoSQL,通過pymongo驅動能和Scrapy輕松連接,并直接將json形式的數據存入數據庫中。同時用MongoDB自帶的GridFS存儲文件。3.搜索服務 搜索是平臺提供的最主要服務,需要對學者,論文兩塊的元數據,以及論文的全文數據建立高效的索引,提供各個維度的搜索需求。考慮到論文也是結構比較清晰的一類全文數據,對于論文內部的各個章節的數據也需要工具來定向提取和分析處理,然后建立到索引內

10、提供搜索。索引內可以存儲部分數據,而大量的全文內容還是要存儲在數據庫內,所以索引和數據庫之間也存在連結和交互。解決方案 Lucene是一個java語言的搜索引擎庫,為開發者提供了索引建立,搜索兩塊搜索引擎需要具備的基本功能。使用Lucene來自己定制索引塊內的文檔結構,為學者和論文定制索引,使用lucene的排序,高亮等功能,能搭建一套搜索原型了。 Solr兼容Lucene,將Lucene庫進行了包裝,封裝成了一個可用的配置型搜索服務。在servlet容器(Tomcat,或者更輕量級的Jetty)中啟動即可成為一個Http接口的搜索服務,能讓搜索模塊與網站隔離并且方便調用。 除此之外,Apac

11、he Tika是一個內容抽取工具,使用Tika來抽取pdf內的論文全文內容,并進行處理和分析,將全文內容建立索引并存入MongoDB內,這些全文內容還可以服務于進一步挖掘論文之間的關系,涉及到相關推薦模塊。4.網站搭建 提供用戶注冊登陸,提供搜索框和搜索結果界面,提供用戶上傳和分享pdf或者url鏈接的頁面,前端網站的內容主要用于與用戶的交互。解決方案 考慮上述有比較多的java模塊銜接,除了搜索可以作為服務外,別的小的模塊還是需要融入到整個平臺的代碼里,對比了J2EE和Django后采用Spring+Struts2的框架來搭建這個平臺。前臺的技術和庫基本上還是bootstrap,帶上一些CS

12、S3的東西。5. 推薦系統 針對不同的搜索進行相應的系統推薦。解決方案 鑒于自身知識體系的局限性,這一部分只能暫時提出低層次的想法。系統推薦部分使用PageRank來在一堆論文數據中計算出論文排名。思路是基于論文之間的相似度計算,用哈希+余弦距離的方式定義論文之間的初始pagerank值,進行若干次迭代之后得到一個排序。技術指標:1. 完成數據爬取、數據存儲、搜索服務、網站搭建、推薦系統這5大模塊的基本功能。2. 在推薦系統上進行進一步的探索,不斷提高推薦的準確度。研究計劃及預期成果主要研究階段(起止時間)階段預期成果成果形式前期中期后期最終研究成果最終成果名稱最終成果形式提示:科技論文、技術報告、軟件著作權、專利等系統應用軟件及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論