




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-2- -2- -21- -22- -23- -26- 圖1DB-Engines國(guó)際數(shù)據(jù)庫(kù)排行榜 圖2搜索型數(shù)據(jù)庫(kù)的發(fā)展歷程 -3-圖3DB-Engines最新搜索引擎排名 -6-圖4搜索型數(shù)據(jù)庫(kù)核心技術(shù)模塊 圖5搜索型數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景一覽 圖6搜索型數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景 圖7搜索型數(shù)據(jù)庫(kù)應(yīng)用實(shí)施流程圖 -23-圖8中國(guó)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng) 圖9星環(huán)科技TranswarpScope -31-表1搜索型數(shù)據(jù)庫(kù)與其它數(shù)據(jù)庫(kù)對(duì)比 表2搜索型數(shù)據(jù)庫(kù)產(chǎn)品 -5-表3搜索型數(shù)據(jù)庫(kù)業(yè)務(wù)場(chǎng)景 表4可信數(shù)據(jù)庫(kù)-搜索型數(shù)據(jù)庫(kù)基礎(chǔ)能力測(cè)試通過名單 一、搜索型數(shù)據(jù)庫(kù)概述引擎的底層支撐的搜索型數(shù)據(jù)庫(kù)逐漸成為大數(shù)據(jù)時(shí)代的基為分析性數(shù)據(jù)庫(kù)領(lǐng)域的一個(gè)重要分支。在國(guó)際數(shù)據(jù)庫(kù)流行度排行榜以外的第二大類數(shù)據(jù)庫(kù)。數(shù)據(jù)來源:DB-Engines官網(wǎng),2024年6月圖1DB-Engines國(guó)際數(shù)據(jù)庫(kù)排行榜根據(jù)IDC數(shù)據(jù)預(yù)測(cè),隨著數(shù)據(jù)量持續(xù)增長(zhǎng),全球數(shù)據(jù)預(yù)計(jì)到2025年將達(dá)到175ZB,其中80%為非結(jié)構(gòu)化數(shù)據(jù),相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)),為核心構(gòu)建的搜索型數(shù)據(jù)庫(kù)可以更高效管理非結(jié)構(gòu)化數(shù)據(jù)的處理需(一)搜索型數(shù)據(jù)庫(kù)概念搜索型數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景持續(xù)擴(kuò)展,正逐步涵蓋業(yè)務(wù)系統(tǒng)檢索加速、IT表1搜索型數(shù)據(jù)庫(kù)與其它數(shù)據(jù)庫(kù)對(duì)比搜索型數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)時(shí)序數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)多模數(shù)據(jù)庫(kù)數(shù)據(jù)結(jié)構(gòu)多樣,支持文構(gòu)化時(shí)間序列數(shù)據(jù)和邊支持多種數(shù)據(jù)模型查詢語言通常使用自定義的查詢語言或APISQL針對(duì)時(shí)間序列優(yōu)化的查詢語言Gremlin支持多種查詢語言索引機(jī)制B樹、哈希等通常優(yōu)化時(shí)間戳索引基于圖形的索引,如鄰接表可能集成多種索引機(jī)制讀寫性能文檢索支持列快速檢索讀寫性能取決于圖形結(jié)構(gòu)根據(jù)數(shù)據(jù)模型可能不同事務(wù)支持通常不支持或有限支持支持ACID事務(wù)不適用實(shí)現(xiàn)可能支持ACID事務(wù)水平擴(kuò)展擴(kuò)展分區(qū)實(shí)現(xiàn)取決于圖形數(shù)據(jù)庫(kù)實(shí)現(xiàn)多種數(shù)據(jù)模型適用場(chǎng)景媒體數(shù)據(jù)搜索化數(shù)據(jù)存儲(chǔ)據(jù)等時(shí)間序列分析系統(tǒng)等多數(shù)據(jù)類型統(tǒng)一管理(二)搜索型數(shù)據(jù)庫(kù)發(fā)展歷程圖2搜索型數(shù)據(jù)庫(kù)的發(fā)展歷程1.初始起步期(1990年代)搜索數(shù)據(jù)庫(kù)的雛形出現(xiàn)于上世紀(jì)90年代,當(dāng)時(shí)以全文檢索求,搜索型數(shù)據(jù)庫(kù)開始廣泛應(yīng)用于企業(yè)的內(nèi)部應(yīng)用。典型代表包2.技術(shù)突破(成熟)期(2000年代)商務(wù)、社交網(wǎng)絡(luò)等。1999年,DougCutting創(chuàng)建了Lucene,它是一個(gè)開3.高速發(fā)展期(2010年代)4.智能轉(zhuǎn)型(融合)期(2020年代)2020年前后,隨著大數(shù)據(jù)和人工智能技術(shù)的融合發(fā)展,搜索型數(shù)據(jù)組織提供了更加靈活、快速、個(gè)性化和智能化的數(shù)據(jù)處理和識(shí)邊界的限制也做了交叉驗(yàn)證、預(yù)訓(xùn)練模型、評(píng)分、搜索增強(qiáng)(RAG)表2搜索型數(shù)據(jù)庫(kù)產(chǎn)品年份公司產(chǎn)品拓爾思TRSHyBase2001美國(guó)MarkLogicCorp.MarkLogic2003美國(guó)SplunkInc.Splunk2006美國(guó)ApacheSoftwareFoundationSolr2012荷蘭ElasticElasticSearch2015百度Tera2018優(yōu)特捷Beaver2021美國(guó)AmazonWebServicesOpenSearch2022星環(huán)科技Scope2023國(guó)網(wǎng)信通億力思極億搜2023極限科技EasySearch數(shù)據(jù)來源:DB-Engines官網(wǎng),2024年6月圖3DB-Engines最新搜索引擎排名(三)搜索型數(shù)據(jù)庫(kù)的挑戰(zhàn)二、搜索型數(shù)據(jù)庫(kù)技術(shù)詳解(一)搜索型數(shù)據(jù)庫(kù)核心技術(shù)圖4搜索型數(shù)據(jù)庫(kù)核心技術(shù)模塊1.文本分析和標(biāo)記化(TextAnalysisandTokenization)2.倒排索引技術(shù)(InvertedIndex)縮率和查詢速度,通常會(huì)采用數(shù)據(jù)壓縮技術(shù)和列存儲(chǔ)等技3.相關(guān)度排序技術(shù)(RankingandRelevanceScoring)到低排序。相關(guān)度排序通?;谛畔z索領(lǐng)域的相關(guān)度模型,如TF/IDF(詞頻-逆文檔頻率)、BM25模型等。這些模型能夠通過分析查詢?cè)~項(xiàng)4.向量索引技術(shù)(VectorIndex)技術(shù)的核心是將數(shù)據(jù)轉(zhuǎn)換為向量嵌入,本質(zhì)上是將數(shù)據(jù)項(xiàng)以多維空間中的的稠密向量,這些表示捕獲了數(shù)據(jù)的語義上下文和含義,使得能夠基于相的近似最近鄰搜索(ANNS)。常見的向量索引算法有局部敏感哈希5.數(shù)據(jù)存儲(chǔ)和檢索(StorageandRetrieval)(2)檢索策略涉及諸如TF-IDF、BM25等評(píng)分算法,考慮詞頻、文檔頻率和文檔長(zhǎng)度(二)搜索型數(shù)據(jù)庫(kù)關(guān)鍵特性1.全文搜索能力2.相關(guān)度排序可能多地檢索到與查詢相關(guān)的文檔。高精確度保證了搜索結(jié)果的準(zhǔn)確性,3.實(shí)時(shí)數(shù)據(jù)處理4.多樣化數(shù)據(jù)模型支持搜索型數(shù)據(jù)庫(kù)的這些關(guān)鍵特性使其成為大數(shù)據(jù)處理和實(shí)時(shí)分析的理三、搜索型數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景圖5搜索型數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景一覽表3搜索型數(shù)據(jù)庫(kù)業(yè)務(wù)場(chǎng)景企業(yè)搜索平臺(tái)產(chǎn)品信息管理內(nèi)部知識(shí)管理客戶服務(wù)支持網(wǎng)絡(luò)空間治理功能描述提供企業(yè)內(nèi)部信息檢索管理企業(yè)產(chǎn)品信息索引和檢索企業(yè)文檔響應(yīng)客戶查詢和反饋網(wǎng)絡(luò)輿情監(jiān)測(cè)與分析實(shí)際應(yīng)用員工快速查找企業(yè)資料實(shí)時(shí)更新和檢索產(chǎn)品數(shù)據(jù)員工訪問內(nèi)部報(bào)告、郵件客戶問題快速解決監(jiān)測(cè)網(wǎng)絡(luò)言論、信息篩選1.企業(yè)搜索信息管理和智能分析能力,是企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐和推2.產(chǎn)品信息管理4.客戶服務(wù)與支持(2)信息篩選與過濾1.電子商務(wù)與零售業(yè)2.金融與投資領(lǐng)域3.健康醫(yī)療行業(yè)4.教育與培訓(xùn)領(lǐng)域5.媒體與娛樂產(chǎn)業(yè)6.物聯(lián)網(wǎng)和智能設(shè)備領(lǐng)域7.公共服務(wù)與政府治理圖6搜索型數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景四、搜索型數(shù)據(jù)庫(kù)能力模型1.基本能力搜索型數(shù)據(jù)庫(kù)的主要功能是數(shù)據(jù)庫(kù)基礎(chǔ)能力是指提供支持非結(jié)構(gòu)化信息查詢、組合索引查詢、多語種支持、聚合分析2.管理能力數(shù)據(jù)庫(kù)管理能力是指支持借助工具或自我管理數(shù)據(jù)庫(kù)狀態(tài)和存儲(chǔ)索3.安全能力4.兼容能力數(shù)據(jù)庫(kù)兼容能力是指數(shù)據(jù)庫(kù)系統(tǒng)能夠在不同的部署環(huán)境中運(yùn)行和部5.擴(kuò)展能力6.高可用能力(二)能力模型的符合性驗(yàn)證情況2023年初,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所牽頭,依托中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì),聯(lián)合30余家企業(yè)完成《搜索型品通過測(cè)試。關(guān)于該評(píng)測(cè)的詳細(xì)情況,可聯(lián)系劉老師表4可信數(shù)據(jù)庫(kù)-搜索型數(shù)據(jù)庫(kù)基礎(chǔ)能力測(cè)試通過名單企業(yè)名稱產(chǎn)品名稱版本號(hào)完成測(cè)試時(shí)間極限科技INFINIEasysearch搜索引擎軟件v1.0.0拓爾思TRS海貝搜索數(shù)據(jù)庫(kù)系統(tǒng)V10.0日志易Beaver數(shù)據(jù)搜索引擎系統(tǒng)v1.02023年5月23日國(guó)網(wǎng)億力思極億搜V1.02023年5月26日星環(huán)科技星環(huán)分布式搜索引擎軟件【簡(jiǎn)稱:TranswarpScope】V9.0愛可生愛可生向量數(shù)據(jù)庫(kù)企業(yè)版軟件【簡(jiǎn)稱:TensorDB】V2.0火山引擎火山引擎企業(yè)級(jí)云搜索服務(wù)軟件V2同方知網(wǎng)KBase數(shù)據(jù)庫(kù)V13.02024年6月4日五、搜索型數(shù)據(jù)庫(kù)應(yīng)用與實(shí)施建議圖7搜索型數(shù)據(jù)庫(kù)應(yīng)用實(shí)施流程圖(一)數(shù)據(jù)建模和索引設(shè)計(jì)于優(yōu)化數(shù)據(jù)以支持高效的搜索、查詢性能和數(shù)據(jù)分析。搜索型數(shù)據(jù)庫(kù)如Elasticsearch通常采用倒排索引來快速定位包含特定詞匯的文檔,這對(duì)于1.全文索引2.字段索引1)對(duì)于需要支持精確匹配和范圍查詢的字段,B+樹索引通常是最3.綜合索引策略4.索引分片和復(fù)制2)根據(jù)查詢模式設(shè)置適當(dāng)?shù)乃饕龔?fù)制因5.索引生命周期管理2.讀寫分離3.提升硬件內(nèi)存以及磁盤的IO。高主頻的CPU能夠更快地執(zhí)行計(jì)算任務(wù),而增加CPU核心數(shù)量則可以提高系統(tǒng)的并行處理能力,使得數(shù)據(jù)庫(kù)能夠同時(shí)處理更多的查詢請(qǐng)求。通過使用高性能的多核CPU,可以實(shí)現(xiàn)更快速的索IO性能。與傳統(tǒng)的機(jī)械硬盤相比,SSD硬盤具有更快的數(shù)據(jù)訪問速度和使用SSD硬盤作為數(shù)據(jù)庫(kù)的存儲(chǔ)介質(zhì),可以大幅提高系統(tǒng)的響應(yīng)速度和數(shù)據(jù)處理效率,提升用戶的查詢體驗(yàn)和系統(tǒng)的性能表現(xiàn)。通過提高CPU的主頻和核數(shù)、使用更大的內(nèi)存以及SSD硬盤等手段,可以有效地提高速度和處理能力,從而提高用戶的查詢體驗(yàn)和1.數(shù)據(jù)隱私保護(hù)2.訪問控制3.數(shù)據(jù)加密4.安全審計(jì)5.安全漏洞修復(fù)6.高可用性和災(zāi)備備份7.安全培訓(xùn)和意識(shí)中國(guó)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)(DIInspiro?)是由知識(shí)產(chǎn)權(quán)出版社有限責(zé)任公司開發(fā)建設(shè)的國(guó)內(nèi)第一個(gè)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)應(yīng)用服務(wù)系統(tǒng)。DIInspiro?已經(jīng)整合了國(guó)內(nèi)外專利、商標(biāo)、法律文書、標(biāo)準(zhǔn)和科技圖8中國(guó)知識(shí)產(chǎn)權(quán)大數(shù)據(jù)與智慧服務(wù)系統(tǒng)2.極限科技通過國(guó)產(chǎn)化替代,不僅提高了企業(yè)IT技術(shù)棧的國(guó)產(chǎn)化程度,落實(shí)了3.星環(huán)科技星環(huán)科技Scope支持實(shí)時(shí),微批處理等多種數(shù)據(jù)寫入方式,產(chǎn)品內(nèi)置自研存儲(chǔ)引擎SearchEngine,對(duì)于傳統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),支持精確/模糊/多維檢索等各類檢索場(chǎng)景麒麟,UOS等操作系統(tǒng),在傳統(tǒng)搜索業(yè)務(wù)的功能外,同時(shí)提供多租戶,圖9星環(huán)科技TranswarpScope六、搜索型數(shù)據(jù)庫(kù)演進(jìn)趨勢(shì)(一)多模態(tài)數(shù)據(jù)的融合處理和分析對(duì)手機(jī)里面的文字、圖片、音視頻等進(jìn)行搜文索引能力的提供者,集成到多模態(tài)數(shù)據(jù)庫(kù)(如NoSQL數(shù)據(jù)庫(kù))中;二(二)人工智能與搜索型數(shù)據(jù)庫(kù)的結(jié)合1.語義理解2.長(zhǎng)期記憶3.搜索增強(qiáng)生成(RAG)4.融合搜索與評(píng)分排序5.對(duì)向量數(shù)據(jù)庫(kù)的支持(DenseVector)越來越廣泛地被應(yīng)用于自然語言處理、圖像識(shí)別、推薦的方式進(jìn)行訓(xùn)練,其中無監(jiān)督的訓(xùn)練方式通常使用神經(jīng)網(wǎng)絡(luò)模型如Word2Vec、GloVe等,有監(jiān)督的訓(xùn)練方式通常使用深度學(xué)習(xí)模型,如卷等。具被開發(fā)出來,如ANNOY、Faiss等在圖像識(shí)別和推薦系統(tǒng)等領(lǐng)域得到據(jù)庫(kù)支持第三方Transformer模型的應(yīng)用接口接入,提供檢索增強(qiáng)生成服(三)云原生架構(gòu)的演進(jìn)云原生技術(shù)發(fā)展的核心路線集中在利用Kubernetes(K8s)進(jìn)行容器務(wù)需求與資源供給,實(shí)現(xiàn)用戶和云服務(wù)提供商的降本增效。Serverless服的浪費(fèi)或服務(wù)降級(jí)。Serverless服務(wù)的實(shí)現(xiàn)依賴于搜索型數(shù)據(jù)庫(kù)的容器化由固定規(guī)則向AI工具鏈的方向演進(jìn)。(四)其它技術(shù)對(duì)搜索型數(shù)據(jù)庫(kù)的影響1.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 任丘素質(zhì)拓展活動(dòng)方案
- 企業(yè)學(xué)雷鋒活動(dòng)方案
- 仿生設(shè)計(jì)活動(dòng)方案
- 企業(yè)互助活動(dòng)方案
- 企業(yè)黨內(nèi)活動(dòng)方案
- 企業(yè)公益瑜伽活動(dòng)方案
- 江西省贛州市章貢區(qū)2022-2023學(xué)年五年級(jí)下學(xué)期數(shù)學(xué)素質(zhì)評(píng)價(jià)試卷(含答案)
- 企業(yè)員工國(guó)慶活動(dòng)方案
- 企業(yè)困難活動(dòng)方案
- 企業(yè)安全培訓(xùn)活動(dòng)方案
- 法律文書寫作能力測(cè)試題庫(kù)及解答分析
- 2025合作合同范本:兩人合伙協(xié)議書模板
- DB31/T 595-2021冷庫(kù)單位產(chǎn)品能源消耗指標(biāo)
- 2025年計(jì)算機(jī)Photoshop操作實(shí)務(wù)的試題及答案
- 2024-2030全球WiFi 6移動(dòng)熱點(diǎn)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年廣東省廣州市越秀區(qū)中考物理一模試卷(含答案)
- 中醫(yī)針灸治療腦梗塞后遺癥的應(yīng)用實(shí)踐
- 2025年高等數(shù)學(xué)期末考試試題及答案
- 2024中國(guó)國(guó)新基金管理有限公司相關(guān)崗位招聘7人筆試參考題庫(kù)附帶答案詳解
- 人體解剖學(xué)題庫(kù)(含答案)
- 2025年浙江省新能源投資集團(tuán)股份有限公司招聘筆試參考題庫(kù)附帶答案詳解
評(píng)論
0/150
提交評(píng)論