新一代大數據中心需求說明_第1頁
新一代大數據中心需求說明_第2頁
新一代大數據中心需求說明_第3頁
新一代大數據中心需求說明_第4頁
新一代大數據中心需求說明_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

新一代大數據中心需求說明序號功能模塊子系統功能要求數量單位1基礎環境搭建數據湖基礎環境搭建需支持海量原始數據存儲,支持結構化和非結構化數據存儲;1項2需支持將不同來源的業務數據通過流批一體的方式統一集成,支持業務實時數據捕捉接入數據湖,其他數據按需批量接入數據湖;1項3需支持實時增量數據更新和全量數據更新的湖倉模型;1項4需支持基于數據湖的多種數據查詢分析引擎,包括實時查詢、實時分析、離線分析;1項5需支持主流數據庫的數據采集適配,采用國產或開源大數據技術構建數據湖;1項6數據采集服務數據采集服務需支持Oracle、SQLServer、MySQL、MongoDB等主流數據庫全量和增量采集服務;1項7需支持數據日志、數據同步、數據備份、集成接口等數據采集服務方式,按指定頻率進行增量數據采集;1項8需提供對數據抽取過程日志的保存功能,保存數據同步及抽取運行情況,方便快速問題定位;1項9數據采集系統范圍包括但不限于:HIS、EMR、LIS、RIS、PACS、病理、護理、手麻、重癥等業務系統,本次項目建設如產生接口服務費,由項目承建方承擔;1項10本平臺建設將制定面向數據開放的通用數據模型、面向業務分析的主題數據模型,并按照相關指南制定數據分類分級、業務域標準;1項11數據標準管理服務數據標準管理服務通用數據模型需參考電子病歷數據元、電子病歷數據元值域代碼、電子病歷基本數據集、電子病歷共享文檔規范、HL7等行業標準,制定覆蓋患者診療、醫院運營管理等業務領域的標化通用數據模型;1項12數據分級分類標準需參考《GB/T39725-2020信息安全技術健康醫療數據安全指南》,本項目將制定數據分類分級標準,包括數據分類組及數據分類,業務領域覆蓋臨床及運營管理等通用模型所覆蓋的業務域;1項13支持制定三級業務域標準,內容需覆蓋通用模型所覆蓋的業務域;1項14標化數據治理服務通用數據模型服務需構建數據模型服務,構建以患者為中心的數據模型,模型需參考HL7、衛健委電子病歷基本架構與數據標準等一系列國內國際通用標準;可實現各業務信息系統的數據映射到以患者為中心的數據模型;1項15構建以運營為中心的數據模型服務,采集各業務系統產生的人、財、物數據,根據國內/國際通用/行業標準映射為醫院運營數據模型;1項16數據清洗服務需將業務系統采集數據映射到通用數據模型中,并對映射到通用數據模型的數據進行清洗,包括數據映射、數據過濾、刪除重復項、統一數據格式、代碼轉換等;1項17數據脫敏加密服務需參照《個人信息保護法》、信息安全等級保護、HIPAA、個人信息安全規范等法律法規對隱私及其他敏感信息處理的要求,進行數據脫敏或加密處理;1項18數據關聯服務需完善表與表之間的關聯,還原原本數據表之間的關系,如患者表與就診表、就診表與處方表、處方主表與處方明細表,表間應該通過患者號、就診號、處方號等進行關聯;1項19電子病歷解析服務需具備電子病歷自動解析能力,將電子病歷文檔類型映射到標準文檔類型(如:入院記錄、手術記錄、病程記錄、出院小結等);1項20支持根據每個文檔類型的模型定義,從原始電子病歷文書中進行章節文本拆分提取(如:入院記錄拆分出主訴、現病史、既往史等章節);1項21醫學實體識別服務需采用自然語言處理技術,對文本數據進行數據結構化自動提取和實體識別,支持從入院記錄、診斷、病理報告中進行結構化內容提取,提取內容包括診斷名稱、陽性癥狀、陰性癥狀、既往疾病史、個人史、免疫組化等;1項22需具備基于規則的結構化特征提取定義服務能力,如術后第一次血紅蛋白檢測值;1項23需具備基于實體識別、語法識別、語義理解基礎上的文本結構化解析服務能力;1項24醫學數據標準化服務醫學數據標準化需參照行業標準庫,如ICD10、ICD9-CM3、藥品ATC標準、衛生信息數據元值域代碼及各類常規的行業標準字典,對采集數據自動進行統一的標準化處理;1項25標準化內容應包括但不限于診斷、手術及操作、檢驗項目、檢查項目、藥品等;1項26需實現術語到標準術語映射轉換服務;1項27數據質控服務需具備數據質量監控、問題發現、問題告警等功能,全程對數據質量進行有效的監督、控制和追溯;1項28數據質控范圍包括:數據完整性、一致性、準確性、唯一性、及時性等數據質量問題;1項29質控方式需包括:自然屬性評估/完整性校驗、規范性校驗、傳輸差異校驗、孤兒數據統計、數據精準核查、質控規則校驗、多版本數據比對、OLAP質量多維度分析、閾值管理、自動預警等;1項30數據資產管理服務數據資產接入及信息維護需支持由實施人員分別將業務系統原始數據庫(如:HIS、EMR、LIS、PACS、護理、手麻、病案等)、增強數據庫、主題數據庫(結合業務應用需求模型建立的庫、表)導入到數據資產上,導入完成后維護數據庫資產的廠商名稱、數據開始時間、數據更新時間、所屬機構、業務系統類型、業務域、數據類型、更新頻率等關鍵信息;1項31原始數據關聯關系維護實施人員通過對業務的理解以及與信息科的溝通確認,對原始數據表與表之間的主鍵、外鍵關聯關系進行標注(維護的信息并非物理表的邏輯主外鍵);1項32數據分類分級管理服務初始化數據識別規則,客戶可結合自身實際情況新建識別規則;實施人員經與客戶就關鍵字段敏感度的處理方案溝通后,創建數據識別任務,識別任務跑完后,實施人員需要人工進行確認;分類分級數據初始化完成后,數據資產中的數據庫默認表分級會標記為4級,客戶可結合自身實際情況進行調整,本庫包含的下屬表也會隨之進行調整;也可以對業務域進行分級維護,當業務域維護了分級,且數據庫、表設置了業務域屬性,業務域的分級會高于數據庫單獨指定的分級設置;1項33業務域管理服務初始化業務域字典,客戶可結合自身實際情況對字典進行微調;業務域初始化完成后,會對增強數據進行業務域屬性的初始化,通過映射邏輯反推,給原始數據的業務域屬性賦值,由于本工作采用自動化完成,還需人工再此確認;1項34數據質控規則維護服務由實施人員初始化默認質控規則,可根據客戶關注的特定質控需求自定義質控規則,創建質控調度計劃及周期,按需跑出質控報告;對于評分較低的問題項,由實施工程師進行備注說明;1項35同時實施人員會對規則模版、規則標簽進行維護管理;1項36標準管理平臺主數據管理需支持提供組織機構、人員主數據的統一管理,支持將各系統中的主數據與標準主數據建立映射關系,提供對外主數據共享調用;1項37需支持提供對字典類型及字典項進行新增、修改、刪除及查詢功能,支持對字典類型進行分類管理;1項38需支持提供醫學術語的統一管理和查詢功能,包括:手術操作、診斷、藥品等;1項39需支持主數據碼表及映射關系訂閱;1項40元數據管理需支持對各信息系統采集的數據進行元數據自動提取,與之前提取的版本進行自動比對,可查看歷次元數據變更歷史;1項41需提供自定義數據模型,支持通過上傳EXCEL、CSV等格式的模型文件構建新的數據模型;1項42數據資產管理平臺資產概覽需支持統計展示業務系統類型數量、數據庫數量、數據表數量、數據字段數量和總數據量級;1項43需支持統計展示數據質量評分;1項44需支持統計展示數據質量規則;1項45資產地圖需支持可視化形式展示數據庫間關聯關系圖譜;1項46資產查詢需通過關鍵字對數據庫、數據表、數據字段進行全局檢索;通過多維篩選條件對數據庫、數據表、數據字段進行篩選,快速定位目標資產;以列表形式展示符合篩選條件的對應資產;1項47數據庫資產管理需支持查看數據庫概況;1項48需支持列表查看數據庫下數據表信息、元數據變更歷史、庫影響、庫血緣等;1項49需支持對數據庫屬性進行編輯管理;1項50數據表資產管理需支持查看數據表概況;1項51需支持展示某數據表下數據量的時間分布、表結構、表樣例數據、主外鍵關系、表影響、表血緣;1項52需支持對數據表屬性進行編輯管理;1項53字段資產管理需支持展示字段畫像信息;1項54需支持對字段屬性進行編輯管理;1項55SQL資產管理需支持通過關鍵字對SQL語句的名稱及SQL語句內容進行搜索,搜索結果展示命中的SQL語句,包括:名稱、SQL語句、創建者等信息,選中一條SQL語句,用戶可對SQL語句進行編輯或運行;1項56數據質控管理平臺數據質量規則需支持提供對數據質量監控、問題發現、問題告警等功能,全程對數據質量進行有效的監督、控制和追溯;數據質控范圍包括:數據完整性、一致性、準確性、唯一性、及時性等;1項57需支持根據實際應用需求,進行質控規則新增、刪除、編輯、啟用、停用服務;1項58需支持對規則標簽的新增、刪除、編輯、查詢、展示;1項59需支持提供跨數據庫的質控規則定義,包括設置規則邏輯、評價標準、規則權重和標簽;1項60需支持用戶自主新建正則類/SQL類的規則模版,包括規則標簽、權重和預警閾值配置;1項61質量規則應用需支持建立單次、周期性調度質控任務,支持查看質控任務應用詳情;1項62數據質量報告需支持自動生成數據質控報告;1項63數據分級分類管理平臺數據分級管理需支持數據分級標準維護,支持數據分級對應的數據資產面板查看,展示不同分級對應的表數量、字段數量和安全數據分類數量;1項64系統需參考《GB/T39725-2020信息安全技術健康醫療數據安全指南》內置5級數據分級;1項65安全數據分類需支持脫敏過濾條件配置,并基于配置進行行級別的字段脫敏,支持2個及以上條件的聯合分類管理;1項66業務數據分類需支持分類基本信息編輯、分類排序,支持業務數據分類查看,并可跳轉查看相應資產詳情;1項67數據識別規則需支持提供數據自動識別服務,包括數據識別規則、數據識別任務、數據識別記錄等;1項68需支持對數據識別規則進行管理,包括規則的查看、編輯、識別閾值設置,并內置地址、姓名、身份證號等數據識別規則;1項69數據識別任務需支持具備數據識別任務查看及搜索功能,包括任務編號、任務狀態、數據庫名稱、數據庫中文名稱、數據表等內容;1項70需支持自助添加數據識別任務,支持數據識別自定義表范圍設置;1項71數據識別記錄需支持具備數據識別記錄管理功能,支持對識別結果的確認和移除;1項72需支持字段分類識別、業務域識別記錄查看及模糊搜索定位;1項73業務域管理需支持提供業務域三級管理、業務域排序功能;1項74需支持支持業務域對應的表數量的統計和展示;1項75數據分級分類初始化需支持內置數據分類字典,包含人口學信息、健康史、就診記錄、體格檢查、病案首頁、藥品、手術麻醉、醫囑執行、隨訪、體檢、生物樣本、病理檢查、護理、影像學檢查、基因檢測、實驗室檢驗、醫學診斷、處方醫囑、病程記錄、費用、放療、輸血等內容;1項76需支持提供數據分類、業務域的初始化服務;1項77需支持基于映射邏輯自動解析字段血緣關系;1項78需支持提供基于數據識別規則的自動識別分類功能;1項79數據開放平臺數據查詢需支持對數據資產進行SQL數據查詢(需秒級響應)、數據導出(EXCEL、CSV、關系數據庫)和操作日志記錄;1項80需支持SQL查詢語句可保存并分享,分享后的SQL語句可以在資產平臺查詢,實現SQL語句的復用;1項81需支持對原始數據、加工數據、主題數據進行跨庫查詢,支持庫、表目錄搜索及詳情查看;1項82需支持對角色賬號設置脫敏或加密規則權限,根據權限級別查詢和導出對應類型數據;1項83數據集管理需支持提供直連數據集、加工數據集、文件導入數據集等多種數據集構建功能;1項84需支持提供數據集的申請、創建、查詢、發布、展示、授權、使用等功能;1項85數據API需支持基于數據集封裝數據API申請,包括API名稱、API描述、接口方式、請求方式;1項86需支持提供數據API,包括結構化、標準化、脫敏技術等接口,支持第三方開發者在授權條件下調用;1項87需支持API中心提供列表顯示、關鍵詞搜索、在線申請、審批及調用功能;1項88數據開發需支持具備在線數據加工功能,包括拖拽組件、可視化數據處理邏輯編排、多種開發組件組合編排;1項89需支持具備周期調度任務的統一查看和管理功能,可配置單次、周期性任務調度;1項90需支持具備數據開發任務執行及查看功能,包括任務運行、運行日志及樣例數據等;1項91需支持具備運行記錄管理功能,包括列表查看、詳情查看、運行監控、異常通知等;1項92數據上報需支持通過平臺數據沙箱將數據上報的數據抽取與醫院實時業務相分離,有效降低抽取數據對醫院實時業務的影響;1項93需支持提供上報任務調度、數據轉換、數據推送、任務日志、失敗告警、超時告警等功能;1項94需支持全院上報數據集中管控,統一出口輸出、所有上報數據與操作都在平臺沉淀留痕;1項95數據安全管理平臺賬號角色管理需支持提供統一的賬號角色管理功能;包括角色新增、修改及刪除;支持角色設置,包括基本信息、數據權限和功能權限等;1項96數據安全管控及脫敏需支持提供數據安全管控及脫敏功能;1項97需支持具備角色安全等級設置,可自動過濾超出安全等級的數據庫表,超出角色安全等級的數據自動脫敏展示;1項98需支持授權高于角色安全等級的安全分類數據明文展示;1項99需支持對數據進行防泄漏安全配置,例如提供水印、防復制配置等;1項100審批管理需支持提供數據集審批管理功能,包括在線數據集申請、查看待審批記錄、申請同意或駁回操作;1項101運維監控管理需支持提供數據采集、數據治理、數據導出、API監控、SQL執行記錄等操作日志,及資源運行運維監控;1項102數據采集平臺數據源管理系統需支持待接入數據源的管理,增加數據源的配置相關信息,包括數據庫來源編碼、數據庫來源名稱、源數據庫名、發布前置機IP、數據發布器、發布器配置、源庫操作系統等相關內容;1項103數據源配置需支持配置選定醫院的數據源信息,包括數據庫基礎信息、數據庫系統信息和數據庫備份恢復機制,配置完成后,在生產過程中,數據源會按照其配置去進行備份和恢復數據庫;1項104參數配置需支持配置備份接收目錄、存儲目錄、保留備份次數、告警目標;1項105表規則管理需支持對前置機的數據庫表和生產庫的表進行監控配置,包括結構變化、行總量變化、行數輩分比變化、值變化等,配置完成后,當監控到相應變化后,系統會進行預警;1項106脫敏配置需支持對前置恢復脫敏、DBLoader脫敏、TN脫敏配置統一管理;1項107脫敏配置文件需支持自動解析校驗存儲,支持DB和HIVE兩種類型輸入;1項108需支持實現對前置恢復脫敏、DBLoader脫敏、TN脫敏配置的統一管理;1項109需支持脫敏版本管理,所有的歷史數據變更可追溯;1項110需支持版本差異對比功能,提高問題排查追溯效率;1項111表監控系統需支持對已配置監控規則的表進行相應的監控預警,系統展示表名、觸發的監控規則及相關信息、告警時間等;1項112監控告警系統需支持實時獲取各醫院下的數據庫狀態,及時發現數據采集問題,監控數據每天凌晨會自動匯總,通過郵件通知到數據采集人員及時處理;1項113數據治理平臺數據治理平臺系統為數據治理工程師提供數據匯聚、映射轉換等治理功能,解決數據治理的流程規范、過程追溯、以及任務調度和監控困難等問題,提升數據治理的能力和效率;1項114投標人需具備一定的數據治理平臺開發能力;115需支持通過SQL語句將源數據映射到目標數據庫;1項116需支持數據快速預覽功能,在數據映射過程中可實時查看映射邏輯生產的真實數據,并對重點字段的異常進行預警;1項117需支持SQL的語法、完整性和規則性校驗,提前攔截可能出現的問題,并可定位到對應的錯誤行;1項118數據標注平臺數據標注非結構化文本標注:1項119需支持對自然語言文本進行關鍵詞實體的標注,標注過程中會記錄標注結果,實體類型,開始位置和結束位置信息,為了保證數據質量,標注任務可設置質檢環節;1項120實體標注:1項121標注結果中會包含文本內容、文本開始位置和結束位置、實體類型等信息,需支持利用該工具方便的獲得各項NLP任務需要的標注語料;1項122工具需支持用算法模型對原始文本進行預標注,人工對算法結果進行確認,減少標注的工作量;1項123關系標注:1項124主要用于解決實體標注組件,無法標注實體關系的問題;1項125病歷標注:1項126病歷標注需支持提供根據病歷內容進行結構化字段的標注功能,支持按照PID進行拆分任務、根據CRF表自動生成Form表單、支持多種字段類型、支持算法輔助的智能化標注、支持字段關鍵詞標注;1項127標注統計分析概覽統計:1項128需支持從月、周、日三個維度,查看參與人數、數據量、訂單數、任務數四個方面的數據趨勢;1項129標注工作量統計:1項1301、標注工作量統計、質檢工作量統計、標注效率統計,為三個通用的統計報表,需支持根據項目自定義統計報表;1項1312、各統計頁面,需支持總覽統計和明細統計,并且可把統計數據以csv格式導出到本地;1項132標注效率統計:1項133需支持按照用戶和任務兩個維度查看標注效率,默認展示最近一個月的統計信息,支持自定義時間范圍;1項134需支持按照用戶維度的標注統計包括姓名、登錄賬號、任務數、數據條數、標注總量、總標注時長、平均注時長等信息;1項135需支持任務維度的標注統計包括姓名、登陸賬號、任務名稱、任務編號、數據條數、標注總量、總標注時長、平均注時長、領取時間、提交時間等信息;1項136數據導出:1項137需支持項目結束后支持下載標注結果文件,用于輔助算法模型及其它的用途,支持三種方式的數據導出;1項138標注組件管理注冊管理:1項139需支持平臺后臺管理,選擇“組件管理”,點“添加組件”,把組件名稱、組件英文名稱、組件類別、組件簡介等相關內容填寫完成即可;1項140樣例數據維護管理:1項141需支持在對應的組件中,按照組件注冊的信息維護部分樣例數據,實現樣例數據管理;1項142樣例圖片維護管理:1項143需支持在對應的組件中,選擇組件進行樣例圖片上傳功能;1項144標注組件庫管理:1項145需支持針對添加的所有組件,支持在組件庫中進行查看、增加、刪除、修改操作,實現組件庫的維護管理;1項146數據評估校驗完整性校驗需支持字段值有值率統計,實現字段值完整性校驗;1項147需支持跨字段或者跨表的完整性L2規則校驗,比如就診表出院狀態下,診斷表需要有入院診斷和出院診斷;1項148規范性校驗需支持字段值非標準率、違規率校驗;比如:藥品醫囑類型對應的醫囑內容存在血常規等檢驗信息、婚姻狀態值超出了標準字典的范圍等;1項149傳輸差異性校驗需支持不同數據層之間相同業務類型表量級的傳輸差異校驗,便于預警生產流程中是否存在數據丟失;1項150孤兒數據統計需支持統計存在關聯關系的表與表之間的關聯率以及非關聯率統計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論