T-CI 506-2024 智慧科研機構大數據平臺技術要求_第1頁
T-CI 506-2024 智慧科研機構大數據平臺技術要求_第2頁
T-CI 506-2024 智慧科研機構大數據平臺技術要求_第3頁
T-CI 506-2024 智慧科研機構大數據平臺技術要求_第4頁
T-CI 506-2024 智慧科研機構大數據平臺技術要求_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

CCSA00團T體標準I前言 2規范性引用文件 3術語和定義 4縮略語 25平臺架構概述 26功能性技術要求 37非功能性技術要求 8前言本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由中國國際科技促進會提出并歸口。本文件起草單位:北京大學長沙計算與數字經濟研究院、華為技術有限公司、北京大學大數據分析與應用技術國家工程實驗室、工業和信息化部電子第五研究所、船舶信息研究中心(中國船舶集團有限公司第七一四研究所)、北京航天情報與信息研究所、北京新科時代傳媒信息技術有限公司、嵊州市大數據發展管理中心、嵊州市檔案館、同方知網數字出版技術股份有限公司、智慧流動(北京)科技有限公司、河南聚合科技有限公司、紫光軟件系統有限公司、北京國科標研科技有限公司。本文件主要起草人:王新民、喬歡、孫鵬飛、朱洪波、劉志斌、陳平、林家全、于敏、佟盛、全曉東、高辰杰、張雷、汪偉民、何佳、王路寬、張艷麗,肖洪,李洪生、趙紫峰、尚爾鈞、張林虎。1智慧科研機構大數據平臺技術要求本文件規定了智慧科研機構大數據平臺的平臺架構概述、功能性技術要求、可靠性等相關內容。本文件適用于對智慧科研機構在建立大數據平臺的技術要求指導,包括科研機構、高校,研究型機構,以及具有科研屬性的實體單位。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB∕T37721-2019信息技術大數據分析系統功能要求GB/T38673-2020信息技術大數據系統基本要求3術語和定義下列術語和定義適用于本文件。3.1智慧科研機構intelligentscientificresearchinstitutions通過大數據、人工智能、云計算等新一代信息技術的應用,實現科研流程數字化、智能化、協同化、開放化、創新化的科研機構。3.2分布式計算distributedcomputing一種覆蓋存儲層和處理層的、用于實現多類型程序設計算法模型的計算模式。3.3集群cluster一組相互獨立的、通過高速網絡互聯的計算機或服務器。[來源:GB/T38673-2020,3.3]3.4租戶tenant對一組物理和虛擬資源進行共享訪問的一個或多個云服務用戶。[來源:GB/T38673-2020.3.4]4縮略語下列縮略語適用于本文件。API:應用程序編程接口(ApplicationProgrammingInterface)HTML:超文本標記語言(HyperTextMarkupLanguage)JSON:JavaScript對象簡譜(JavaScriptObjectNotation)LPA:標簽傳播算法(LabelPropagationAlgorithm)SDK:軟件開發工具包(SoftwareDevelopmentKit)XML:可擴展標記語言(ExtensibleMarkupLanguage)5平臺架構概述智慧科研機構大數據平臺的目標是基于大數據、人工智能等新一代信息技術,為科研機構提供全面、精準、實時數據服務的平臺,通過整合多個數據源,如科研文獻、研究論文、實驗記錄、科研人員信息、科研項目數據等,實現大數據的精準挖掘和分析,為科研人員提供全面的科研支持和服務,架構見圖1。23智慧科研機構大數據平臺由數據接入、數據存儲、數據處理、數據分析、數據服務和運維管理等部分組成,主要內容如下。a)數據接入提供結構化數據、非結構化數據或半結構化數據的采集、數據的導入導出以及數據流的定義等功能,支持多協議接入,支持多系統集成。結構化數據包括數據庫文件以及結構化文本文件等,非結構化數據包括圖片、音頻、視頻、文檔及應用數據等。半結構化數據包括XML、表格、JSON、HTML、電子郵件等。b)數據存儲提供大數據的分布式存儲管理,涵蓋多種存儲方式和文件系統。c)數據處理支持結構化、半結構化及非結構化數據,提供豐富的API接口和SDK開發包,支持分布式計算技術、流處理技術、內存計算技術等,實現穩定、強大的數據處理能力。d)數據分析通過機器學習、可視化、統計分析等組件支持不同的數據分析類型、分析模式。e)數據服務為科研工作者提供個性化內容推薦、用戶畫像、科研成果數據分析、知識產權服務,以及實驗數據、論文數據、科研資料、專利信息的訪問、查詢、可視化等基礎服務。f)運維管理包含資源管理和系統管理等,具備高可靠、安全、容錯、易用的集群管理能力,能夠保護用戶的數據隱私和安全,防止數據泄露和濫用。6功能性技術要求6.1數據接入功能要求6.1.1作業調度包括但不限于以下要求:a)應支持對不同實驗室、不同實驗設備、不同業務系統的數據接入作業做智能調度;b)應支持對不同業務類型、實驗類型的數據接入作業做智能編排、調度;c)應支持各類數據接入作業的批量啟停、導入、導出;d)宜支持不同作業設備、業務數據接入任務的可視化、窗口化管理。6.1.2數據采集包括但不限于以下要求:4a)應支持與硬件實驗設備、科研業務系統、科研文獻系統等的互聯互通;b)應支持數據的批量采集和實時采集;c)宜支持爬蟲功能,支持對科研資訊、科研熱點、政策熱點、科研機構輿情等互聯網數據的抓??;d)應支持對結構化數據、非結構化數據和半結構化數據的自動采集;e)宜支持對PDF等文檔數據的批量導入、數據轉換、提取入庫等功能;f)宜支持采集任務的可視化配置管理、圖形窗口式操作;g)應支持多種形式的數據導入方式,如報表、XML、API接口、機器語言等。6.1.3消息隊列包括但不限于以下要求:a)應支持高吞吐、分布式消息的處理;b)應支持消息的緩存;c)應支持離線應用和在線應用對消息的使用和處理,保證實驗設備數據采集的完整性;d)宜支持多種設備類型、多平臺、多種客戶端間的通信。6.1.4數據傳輸包括但不限于以下要求:a)應支持通用的數據傳輸協議,如實驗設備、機器數據、API接口數據等的傳輸;b)應保證數據傳輸的穩定性、連續性、完整性、安全性。6.2數據存儲功能要求6.2.1分布式文件系統應符合GB/T38673-2020中6.3規定,另包含但不限于以下要求:a)應支持文件容錯機制和系統高可用機制,包括系統級、節點級、模塊級的容錯、系統快速恢復等;b)宜支持將小文件自動打包為大文件,進行集中存儲;c)應支持結構化、半結構化、非結構化數據存儲。6.2.2分布式列數據庫應符合GB/T38673-2020中6.3規定,另包含但不限于以下要求:a)應支持對不同架構、操作系統的兼容性;b)應支持根據工作負載和運行環境,提供配置參數修改的能力;c)應支持多級索引。56.2.3分布式圖數據庫應符合GB/T38673-2020中6.3規定,另包含但不限于以下要求:a)應支持主流開發接口,如RESTful等接口;b)宜內置多種科研領域算法模型,如結合科研項目、科研課題、科研人才、科研成果轉化、科研機構輿情等進行算法模型構建。6.2.4分布式關系型數據庫包括但不限于以下要求:a)應支持結構化數據的分布式存儲機制,保障數據存儲的可擴展性和一致性;b)應支持多表關聯、跨庫關聯;c)宜提供常見API接口類型,實現數據的各類查詢操作、接口對接操作。6.3數據處理功能要求6.3.1批處理應符合GB/T38673-2020中6.4規定,應包含但不限于支持離線計算任務進度與狀態的實時上報。6.3.2流處理應符合GB/T38673-2020中6.4規定,另包含但不限于以下要求:a)應支持用戶級別的訪問控制;b)應支持滾動窗口和滑動窗口兩種窗口方式的實時分析任務,時間窗口大小可調;c)應具備高容錯能力,如節點、進程等出現異常時,能夠重新部署該處理單元;d)應支持與常見數據庫接口的兼容性;e)宜支持基于多種分布式流處理引擎的查詢語言,如flink、spark等。6.3.3圖計算應符合GB/T38673-2020中6.4規定,另包含但不限于以下要求:a)應支持同步計算模型或異步計算模型編寫迭代算法;b)應支持實現水平擴展的分布式圖計算和圖查詢;c)宜支持索引,提供在線圖分析和圖查詢功能;d)宜支持PageRank、社區發現、最短路、LPA等多種圖計算能力。6.3.4內存計算應符合GB/T38673-2020中6.4規定,另包含但不限于以下要求:a)應支持負載均衡和水平擴展;6b)應支持高度抽象算子,快速構建分布式的數據處理應用;c)應支持根據任務復雜程度及依賴關系,自動調度任務。6.3.5批流融合計算應符合GB/T38673-2020中6.4規定,另包含但不限于以下要求:a)宜支持常用時間窗口,包括滾動窗口、滑動窗口,窗口大小可調節;b)宜支持對復雜任務的調度,如支持深度學習的訓練等。6.4數據分析功能要求6.4.1分析模式應符合GB∕T37721-2019中8.1對離線數據分析、流數據分析、交互式數據分析等模塊的規定。6.4.2分析類型應符合GB∕T37721-2019中8.2對預測型分析、描述型分析等模塊的規定。6.4.3分析支撐組件6.4.3.1查詢應符合GB∕T37721-2019中7.1對查詢接口、查詢優化等模塊的規定。6.4.3.2機器學習應符合GB∕T37721-2019中7.2對數據集管理、支持算法、模型評估內容等模塊的規6.4.3.3統計分析應符合GB∕T37721-2019中7.3對統計分析的內容模塊規定。6.4.3.4可視化包括但不限于以下要求:a)應支持常見的數據源數據格式作為輸入,如Excel、關系型數據庫、JSON、XML等;b)應支持數據可視化,支持多維度、多圖表、多形式的展示方式;c)應支持數據模型可視化,支持可視化交互、調整模型;d)宜支持數據資產可視化,如數據資產圖譜等;e)宜內置多種行業、專業可視化展示模版,如仿真模擬數據可視化、三維可視化、科研管理可視化、成果轉化可視化等;f)宜支持根據科研資訊、數據爬取、系統已有數據等內容自動生成科研報告。76.4.4流程編排應符合GB∕T37721-2019中第9章對工作流管理、告警和日志內容模塊等模塊的規定。6.5數據服務功能要求6.5.1個性化內容推薦包括但不限于以下要求:a)應支持用戶行為分析,包括查詢偏好、活躍度等;b)應支持個性化內容推薦,如科研熱點、學術推薦、榮譽認定等。6.5.2用戶畫像包括但不限于以下要求:a)應支持用戶自然屬性數據分析;b)應支持用戶系統日志、科研數據分析;c)應支持用戶標簽及多維度細分,包括科研領域、活躍度、忠誠度、影響力、用戶屬性、瀏覽偏好等;d)應支持多用戶的關聯分析。6.5.3科研成果數據分析包括但不限于以下要求:a)宜支持科研相關業務數據的管理服務,如課題申報、經費管理、課題批文、論文投稿、論文發表、學術著作、成果鑒定、驗收管理、成果獲獎、成果轉化、專利管理、學術會議、項目評審、業務申報評審等業務數據;b)宜提供多維度科研績效考核服務。6.5.4知識產權服務包括但不限于以下要求:a)應支持智慧科研機構專利檢索、分析等服務;b)應支持專利文獻信息聚類分析,對技術熱點進行文本聚類和引證分析;c)應支持智慧科研機構知識產權信息動態發布;d)應支持智慧科研機構成果轉化延伸服務、資源管理、資源對接等。6.5.5數據基礎服務包括但不限于以下要求:a)應支持用戶數據訪問控制,包括用戶基本信息、科研領域等;b)應支持上層應用注冊機制、鑒權、管理;8c)應支持服務功能查詢機制;d)宜支持數據訂閱、報告推送等功能。6.6運維管理功能要求6.6.1資源管理應符合GB/T38673-2020中6.8資源管理模塊規定,宜支持超算、智算等多種算力資源的提供、智能調度等功能。6.6.2系統管理應符合GB/T38673-2020中6.9對配置管理、租戶管理、監控告警、服務管理、健康檢查管理等模塊的規定。7非功能性技術要求7.1可靠性7.1.1高可用應符合GB/T38673-2020中7.1.1的規定,另包含但不限于以下要求:a)應保障業務連續性;b)宜具備提供計算、存儲、網絡資源等核心組件的故障替換維護能力。7.1.2數據冗余存儲與分布應符合GB/T38673-2020中7.1.2的規定,另包含但不限于以下要求:a)應支持存儲資源故障恢復后,數據能夠自動重構,實現數據分布再平衡;b)應支持至少一種數據庫高可用架構,如主備、主從、多活等,可結合數據庫高可用能力保證業務連續性。7.1.3數據備份和恢復應符合GB/T38673-2020中7.1.3對數據全量備份、數據增量備份、數據自動備份、數據手動備份、數據恢復等模塊的規定。7.1.4故障恢復與遷移應符合GB/T38673-2020中7.1.4中對故障恢復、故障遷移、故障影響等模塊的規定。7.2兼容性包括但不限于以下要求:a)兼容不同品牌的操作系統;9b)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論