




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
TRSDataBaseServer
全文數據庫北京拓爾思信息技術股份有限公司什么是全文數據庫數據庫存儲在計算機內的有組織的數據集合
網狀層狀關系型關系型數據庫全文型數據庫集結構化與非結構化檢索于一體的數據庫
百度GoogleTRS全文型數據庫是以結構化及非結構化數據檢索為關注視角(而非實體間如何組織)的數據庫技術各實體與實體之間的聯系均用關系模型來表示 OracleSQLServerDB2結構化與非結構區別全文數據庫的定位與關系型數據庫相比與關系型數據庫相比沒有觸發器,沒有事務,沒有實體間的關系有全文索引機制,支持海量數據檢索,支持高并發和快速檢索響應,支持相關度排序全文數據庫工作機制第一步第三步使用采集工具采集數據,裝入全文數據庫全文數據庫通過接口接收到檢索請求,進行處理第二步全文數據庫建立索引第四步返回命中結果集檢索結果展現全文數據庫細分互聯網級搜索引擎企業級搜索引擎允許有一定的更新延遲需要快速響應,但只求查準,不求查全需要能主動發現新的網頁不允許有延遲既要查準,也要查全采集源類型廣泛(企業內各型數據)百度GoogleTRS融合互聯網搜索和企業搜索互聯網搜索和企業搜索并非一回事典型搜索引擎方案系統架構異構數據統一管理,非結構化和結構化數據聯合檢索Oracle,DB2,SQLServer…Notes,郵件服務器FileSystem:Word,PDF,EXLWeb:HTML,XMLMail,NewsAudio,VideoFlash
結構化數據:SQL查詢非結構化數據:全文檢索和搜索引擎但用戶的數據在很多情況下是結構化數據+非結構化數據+半結構化數據北京拓爾思信息技術有限公司CoreIndexingServerContentCapture&IndexDATABASESQLSERVERORACLESYBASEDB2LotusDominoWebsite&PortalEIPERPSPSKMCISFile&DocumentMicrosoftOfficeAdobePDFRTFTEXTXMLMulti-MediaVideoAudioFlashMovieSEARCHSearchApplicationServices性能測試數據量PCServer數目速度(秒)1000萬1關鍵詞檢索*0.075邏輯表達式**0.3092000萬2關鍵詞檢索0.076邏輯表達式0.3144000萬4關鍵詞檢索0.103邏輯表達式0.377測試環境:Dell
2850(2xCPU,4G內存,10000轉硬盤,RedhatAS4.0)性能測試數據量并發數速度(秒)1000萬1關鍵詞檢索0.08邏輯表達式0.3110關鍵詞檢索0.25邏輯表達式0.5750關鍵詞檢索1.26邏輯表達式4.75100關鍵詞檢索2.50邏輯表達式13.12TRS全文數據庫集群跨平臺支持,多種開發接口平臺:OS:Windows,Linux,Unix。DB:Oracle,DB2,SQLServer,Sybase應用服務器:IBM,BEA,Tomcat等Web服務器:各種Http服務器開發接口:C/C++J2EE.NETTRS搜索引擎行業地位公司是中文全文檢索技術的創始者公司在2000年首先在國內提出中文內容管理理念和技術賽迪顧問2008年獨立調查數據表明TRS是國內:企業搜索軟件第一名主要競爭對手均為國際知名廠商2007年中國企業搜索產品
市場主力廠商份額結構深厚的科研基礎和積累擁有自主核心技術和知識產權,研發力量強大在信息檢索、知識挖掘和中文信息處理方面具有國內外領先的研究能力和研究成果承擔多項國家863項目獲得國家科技進步二等獎,電子工業部科技進步一等獎2001年國家推薦的12個優秀軟件產品之一擁有UNDP援建的中文信息處理研究中心和國內外多所大學、研究機構建立了長期合作研究關系清華大學(中文智能語言處理)香港中文大學(信息檢索)美國VirginiaTech.(數字圖書館和信息檢索)“TRShasthebesttechnologyinChineseTextRetrievalareainChina.ItisoneofthestrongestsoftwaredevelopmentfirmsinChina.”-Dr.KaifuLi,VPofMicrosoft,andformerlyManagingDirectorofMicrosoftResearchInstitute.TRS獲得國家科技進步獎國網搜索引擎
--融合互聯網搜索與企業搜索于一體的搜索應用每天可支持1000萬的訪問次數國網搜索引擎
--融合互聯網搜索與企業搜索于一體的搜索應用主要功能(二)——信息檢索本站檢索網站群檢索服務檢索文檔檢索國務院公報檢索文件檢索圖片檢索聯合檢索引導式智能檢索國防部網站搜索引擎國內最大規模的多媒體、多文種新聞信息綜合性數據庫新華社多媒體數據庫
“新華搜索”系統
實現全方位新聞搜索
2008年北京奧運會前夕,“新搜”系統正式上線,先期推出了新華網文字、圖片、網頁等搜索功能,為全球網民了解北京奧運會的精彩內容提供了專業的搜索服務,受到網民歡迎。奧運會結束之后,新華網技術平臺加緊開發建設,不斷完善“新搜”系統,新推出了視頻搜索、多語種搜索和新華網地方頻道搜索功能,功能更為強大、實用。背景信息涉及政治、外交、經濟、文教、科技、法律等各個領域并具有信息量大、權威、準確、及時、豐富等特點,不僅為國內外的新聞機構和企事業單位提供大量的新聞素材,同時也承擔國家重大活動的新聞報道工作新華社多媒體數據庫始建于1999年,采用TRS全文檢索的核心技術,2002年,TRS公司與新華社技術局再次合作實施了新華社多媒體數據庫英文檢索引擎的提速改造,2008-2009年再次擴容升級。目前,多媒體數據庫中已經存儲了上億條多媒體信息,數據容量超過20T,內容涵蓋中、英、法、西、阿、俄等9大主流語種,以文字信息為主,包含圖片、圖表和音視頻信息。26專利信息服務平臺試驗系統26項目待檢索文本數據總數據量約1-2億條記錄。每條記錄20-80個字段不等。其中,專利文摘檢索數據8000萬條,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 短視頻營銷策略解析
- 湖北省2025年中考第三次模擬考試道德與法治試卷(含答案)
- 6月排產內銷強于外銷空調內銷高增
- 農村土地流轉2025年土地流轉與農村土地流轉政策創新實踐規范化管理報告
- 2025年工業互聯網平臺同態加密技術在智慧城市建設中的應用研究報告
- 基于2025年餐飲行業現狀的突發事件應急管理預案編制策略報告
- 2025年工業碳捕獲與封存(CCS)技術應用案例環保效益與政策環境研究報告
- 城市公共交通樞紐2025年社會穩定風險評估與風險防范研究報告
- 2025年私募股權投資基金行業投資熱點:人工智能芯片設計與應用退出策略深度剖析
- 2025年智能客服語音識別系統在銀行行業的應用案例分析報告
- 二手房砸墻合同協議書
- 《電力設施保護》課件
- 瓦斯防治考試題及答案
- 混凝土行業人員培訓課件
- 建筑設計防火規范
- 2025-2030工程監理行業市場深度分析及競爭格局與投資價值研究報告
- 福州一號線盾構法地鐵工程整體施工組織設計
- GB 10770-2025食品安全國家標準嬰幼兒罐裝輔助食品
- 單病種質量管理實施方案
- 旅游保險產品講解
- Unit9SectionB2a-2e課件-人教版八年級英語下冊
評論
0/150
提交評論