




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.240CCSl60SAIAST/SAIAS020—2024醫療大模型語料一體機應用指南ApplicationGuideofMedicalLargeModelCorpusIntegratedMachine2024-11-16發布 2024-11-18實施上海市人工智能行業協會??發布T/SAIAS020—2024目 次前 言 3范圍 1規范性引用文件 1術語和定義 1縮略語 1系統框架 2醫療應用區要求 4一類應用 4二類應用 4三類應用 5模型區要求 6基礎模型要求 6垂類模型要求 6智能體區要求 7智能體引擎要求 7智能體開發要求 7醫療語料區要求 7一般性要求 7語料庫要求 8語料工具鏈要求 10算力區要求 11AI加速計算資源配置要求 11通用計算資源配置要求 12一體機操作系統要求 12部署環境要求 13參考文獻 14IIT/SAIAS020—2024前 言本文件按照GB/T1本文件由上海市人工智能行業協會提出并歸口。本文件起草單位:上海庫帕思科技有限公司、工業互聯網創新中心(上海)有限公司、上海信投數字III
T/SAIAS020—2024范圍本文件規定了醫療大模型語料一體機的能力要求,包括系統框架、醫療應用區、模型區、智能體區、醫療語料區、算力區、一體機操作系統等要求。本文件適用于醫療大模型語料一體機的研發、配置、維護、采購等工作。規范性引用文件(包括所有的修改單適用于本文件。GB/T41867-2022信息技術人工智能術語GB/T9813.3-2017計算機通用規范第3部分:服務器T/SAIAS015—2024語料庫建設導則術語和定義GB/T41867-2022界定的術語和定義適用于本文件。medicallargemodelcorpusintegratedmachine專門為醫療領域設計的高性能計算設備,以一體機服務器形式存在。醫療大模型medicallargemodel基于深度學習等AI技術,針對醫療領域特定問題(如疾病診斷、藥物研發等)訓練而成的大型神經網絡模型,具備處理和分析復雜醫療數據,提供精準醫療決策支持等能力。醫療語料庫medicalcorpus臨床決策支持clinicaldecisionsupport算力動態分配dynamiccomputingpowerallocation縮略語1T/SAIAS020—2024下列縮略語適用于本文件。AEs醫療不良事件(AdverseEvents)AI人工智能(ArtificialIntelligence)API應用程序編程接口(ApplicationProgrammingInterface)ASR自動語音識別(AutomaticSpeechRecognition)GPU圖形處理單元(GraphicsProcessingUnit)NPU神經網絡處理單元(NeuralProcessingUnit)SAEs嚴重不良事件(SeverityAdverseEvents)TFlops每秒萬億次浮點運算(TeraFloating-pointOperationsPerSecond)TPU張量處理單元(TensorProcessingUnit)系統框架醫療大模型語料一體機架構圖如圖1所示,包括醫療應用區、醫療模型區、算力區、醫療語料區、智能體區以及醫療一體機操作系統。架構中各區應充分解耦,可根據使用需求配置各區內容,具體如下:2T/SAIAS020—2024圖1醫療大模型語料一體機架構圖醫療應用區應包括但不限于診療輔助、醫院管理、健康管理、養老托育服務、臨床專病輔模型區宜包含基礎模型、垂類模型;算力區宜包括普通算力、智能算力、內存配置;智能體區應包括集成規劃引擎、工具引擎、執行引擎、記憶引擎;醫療語料區應包括語料庫和語料工具鏈:1)語料庫宜包括醫療通識語料、醫療行業知識語料、醫療臨床數據、向量數據庫;3T/SAIAS020—20242)語料工具鏈應包括語料清洗工具、語料標注工具。醫療應用區要求醫療應用區宜根據醫療應用復雜程度分為一類應用、二類應用以及三類應用。一類應用一類應用包括診療輔助、醫院管理、健康管理、養老托育服務。診療輔助診療輔助要求如下:a)應具備根據患者癥狀、體檢結果和實驗室數據提供初步診斷的能力;b)應具備輔助醫生制定個性化治療方案的能力;c)應具備實時更新醫學知識,以提供最新的診療建議。醫院管理醫院管理要求如下:a)應具備輔助優化醫院資源分配,提高醫療服務效率的能力;b)應具備根據醫院運營數據輔助決策制定的能力;c)應具備提升醫院醫療質量質量管理的能力;d)應具備提供改善患者就醫流程建議的能力。健康管理健康管理要求如下:應具備跟蹤個人健康數據,提供健康風險評估的能力;應具備根據個人健康狀況提供定制化的健康建議和干預措施。養老托育服務養老托育要求如下:應具備為老年人和兒童提供個性化護理計劃的能力;應具備根據老年人和兒童的健康狀況數據,及時預警健康風險;c)應具備提供心理支持和社交互動,增強老年人和兒童的生活質量。二類應用臨床專病輔助決策臨床專病輔助決策要求如下:應具備針對特定疾病提供深入的臨床知識支持的能力;應具備輔助醫生進行復雜病例分析和治療方案選擇的能力。4T/SAIAS020—2024基層全科醫生輔助決策基層全科醫生輔助決策要求如下:應具備提供全面的基層醫療服務知識的能力;應具備輔助全科醫生進行常見病和多發病的診斷和治療建議。公共衛生服務公共衛生服務要求如下:a)應具備根據公共衛生數據預測疾病流行趨勢的能力;b)應具備制定和實施公共衛生干預措施的能力;c)應具備提供公共衛生教育和健康促進知識的能力。臨床用藥輔助臨床用藥輔助要求如下:應具備藥物信息查詢和藥物相互作用分析的能力;應具備輔助醫生進行藥物劑量調整和用藥指導的能力;c)應具備根據患者用藥反應及時調整治療方案的能力。藥物研發藥物研發要求如下:應具備藥物設計和篩選的輔助能力;應具備藥物效果預測和副作用評估的能力;c)應具備臨床試驗設計和數據分析的能力。中醫中藥輔助中醫中藥輔助要求如下:應具備中醫理論學習和應用的能力;應具備中藥方劑配伍和調整建議的能力;c)應具備中醫診斷和治療建議的能力。三類應用三類應用包括醫學影像輔助診斷、手術輔助規劃、醫學教學、醫學科研。醫學影像輔助診斷醫學影像輔助診段要求如下:應具備醫學影像的輔助識別和分析能力;應具備輔助醫生進行疾病診斷和病情評估的能力。手術輔助規劃手術輔助規劃要求如下:a)應具備輔助手術方案設計和風險評估的能力;b)應具備手術過程中的實時輔助和建議能力;5T/SAIAS020—2024應具備制定術后恢復和并發癥預防規劃的能力。醫學教學醫學教學要求如下:應具備提供醫學教育資源和模擬訓練的能力;應具備輔助醫學生和醫生進行專業知識學習的能力;c)應具備評估學習效果和提供個性化教學建議的能力。醫學科研醫學科研要求如下:應具備醫學文獻檢索和分析的能力;應具備輔助科研設計和實驗方法建議的能力。模型區要求模型區要求包括基礎模型要求、垂類模型要求。基礎模型要求基礎能力要求應具備自然語言理解、知識推理、文本生成、跨語言處理、跨模態理解、跨模態生成等方面能力,其能力宜通過行業公認的測評集測試。長文本處理能力要求應能處理8k以上的文本輸入。多模態數據處理能力要求(XCTMRI(電(參數規模要求模型參數規模要求如下:a)一類應用宜使用不大于13B參數的稠密模型或使用混合專家模型激活總參數在13B及以下;b)二類應用宜使用13B-30B參數的稠密模型或使用混合專家模型激活總參數在13B-30B;c)三類應用宜使用30B-72B參數的稠密模型或使用混合專家模型激活總參數在30B-72B。推理效率要求模型推理效率要求如下:a)應在處理文本長度不超過200token的條件下,響應時間不大于500ms;b)文本生成速度應不小于10tokens/s。垂類模型要求6T/SAIAS020—2024垂類模型要求包括專業能力要求、精準性要求、知識庫更新要求、價值對齊要求。專業能力要求醫療準確性要求醫療準確性要求如下:應具備精準的醫療場景問題解決能力;應具備理解醫療行業特有術語和上下文的能力。知識庫更新要求知識庫更新要求如下:應根據具體業務需求調整和優化;應具備定期更新機制,以獲取到最新的醫學知識;應具備實時監測機制,監測醫學領域的最新動態,將獲取的最新信息更新到知識庫中;d)應該具備持續學習能力,隨行業發展不斷更新知識庫。價值對齊要求模型生成的內容應具備如下要求:應具備醫療價值,不存在不良醫療信息內容;應符合人類普遍認同的關于國家、民族、社會以及全人類層面的價值理念、處事原則和行為規范等;應具備情感認同、交互、共情共鳴等方面的能力;d)應具備醫學領域的文化素養與人文關懷。智能體區要求智能體區要求包括應智能體引擎要求和智能體開發要求。智能體引擎要求智能體引擎要求如下:a)應具備規劃引擎、工具引擎、執行引擎、記憶引擎功能;b)記憶引擎應支持向量數據庫及外部數據訪問。智能體開發要求應支持低代碼或無代碼開發智能體功能。醫療語料區要求醫療語料區要求包括一般性要求、語料庫要求、語料工具鏈要求、向量數據庫要求。一般性要求醫療語料區一般性要求包括:7T/SAIAS020—2024應具備語料內容的獨立性,可根據應用需求靈活配置各部分語料內容;應按照至少每年、每半年、每月的更新周期對醫療通識語料、醫療行業知識語料、醫療臨床數據進行更新;應存在定期審核和更新機制,保證語料庫的準確性和完整性;d)應以知識塊、知識對、三元組、知識圖譜等的方式存在;應具有規范性、一致性、完整性、及時性、準確性、有效性和及時性;應遵從數據安全管理的相關法律法規、標準以及合同約定等,并不得損害國家利益、社會公共利益和他人合法權益;應具備正確的價值導向,符合科技倫理和社會道德。語料庫要求醫療通識語料要求醫療通識語料應包含但不限于如下部分內容:a)書籍:包括國內外權威出版社獲取的醫療健康領域教科書,及其他高質量生命健康相關書籍;b)期刊論文:包括國內外知名期刊或者從權威數字出版平臺獲取的醫療健康領域的學術論文;數據庫:包括從醫學數據庫獲取的臨床試驗、人類疾病、基因序列、蛋白質序列和功能信息、藥物藥理藥效等數據;知識庫:包括從醫學知識庫中獲取的生物、疾病和基因等維度之間的關聯知識數據;e)專利:包括從專利搜索引擎檢索得到的醫療健康領域的專利正文;循證醫學知識庫:通過整合和分析大量的醫學研究數據和臨床實踐經驗構建的循證醫學結構化知識庫;臨床指南:包括官方機構發布的關于某個疾病和專科領域內容有關的診斷、管理和治療的決策標準文檔;藥品數據庫:包括藥品的名稱、成分、適應癥、用法用量、不良反應、藥物間相互作用、注意事項等信息的數據庫;8T/SAIAS020—2024醫療器械資料:如醫療設備的使用說明書、操作手冊等,包括常見的診斷設備(如心電圖機、血糖儀等)和治療設備(如呼吸機、除顫儀等)的相關資料;中醫學典籍:包括中醫領域的經典著作;藥材藥方:包括經典中藥書籍中記錄的歷代中醫方劑,包括方劑的組成、用法、主治病癥等;m)相關法律法規:國家和地方關于醫療行業的政策、指南和標準等;n)健康宣教材料:涵蓋各類健康教育和預防知識,如疾病預防、健康生活方式等。醫療行業知識語料要求醫療行業知識語料應包含但不限于如下部分內容:a)專科專病數據:結合醫療管理部門重點監測的單病種形成的專科專病數據;b)醫學數據庫:包含了海量的醫學文獻資源的權威醫學數據庫;c)醫學知識圖譜:醫學知識圖譜以圖結構的形式表示醫學領域的知識,包括疾病、癥狀、藥物、治療等實體以及它們之間的關系。醫療臨床數據要求醫療臨床數據應包含但不限于如下部分內容:電子病歷:包括針對個體的醫院門診、住院形成的電子病歷,含診斷、實驗室檢驗數據、影像檢查及報告、治療方案等內容;醫療住院數據:包含入出院、轉科記錄、藥品醫囑、住院非藥品醫囑、住院費用、住院費用分類、住院發票、住院退藥記錄等業務的相關數據;向量數據庫要求向量數據庫提供語料向量形式存儲,要求如下:a)應支持多種向量類型,能夠存儲和處理多種類型的向量數據;b)應具備向量索引機制,應支持快速的相似性檢索和范圍查詢;c)應提供查詢功能;d)應提供API接口,支持多種編程語言和框架;e)應提供數據加密功能與訪問控制機制;9T/SAIAS020—2024f)應提供數據備份和恢復機制;g)應支持不少于100萬向量規模;h)應滿足不大于300ms返回速度。語料工具鏈要求語料工具鏈要求包括清洗工具要求和標注工具要求。清洗工具要求文本數據清洗工具要求文本數據清洗工具功能要求如下:應具備對醫療文檔進行格式標準化處理的能力;應具備獲取醫療文檔基本信息,并進行標簽記錄的能力;c)應具備識別醫療文檔語言類型并進行標記的功能;應具備清除轉換后醫療文本中無關信息的能力;應具備檢測醫療文檔敏感數據,并確保其符合隱私保護標準的能力。圖像數據清洗工具要求圖像數據清洗工具功能要求如下:a)應具備使用算法與模型抽取醫療圖像文字信息,或對圖像進行醫療領域描述;b)應具備使用深度學習模型對醫療圖像進行分類,以區分不同的疾病類型;c)應具備使用算法與模型,在醫學圖像中識別并分割出所需區域的功能;d)應具備檢測醫療圖片敏感數據,并確保其符合隱私保護標準的能力。音頻數據清洗工具要求音頻數據清洗工具功能要求如下:a)應具備對醫療音頻進行ASR處理,并生成文本數據的能力;b)應具備獲取醫療音頻基本信息,并進行標簽記錄的能力;c)應具備識別醫療音頻語言類型并進行標記的功能;應具備清除轉換后醫療音頻中無關信息的能力;應具備檢測醫療音頻敏感數據,并確保其符合隱私保護標準的能力。視頻數據清洗工具要求視頻數據清洗工具功能要求如下:a)應具備自動獲取醫療視頻文件的幀率、時長等信息的功能;b)應具備使用算法模型自動根據參數切分醫療視頻鏡頭的功能;c)應具備使用算法與模型抽取醫療視頻文字信息,并提取音頻內容轉換為文字信息的功能;d)應支持自動抽取醫療視頻中的關鍵幀,或根據邏輯判定抽取關鍵幀的功能;e)應支持自動識別醫療視頻中的單幀水印,并在相應的幀數上進行標記記錄的功能;10T/SAIAS020—2024f)應具備檢測醫療視頻敏感數據,并確保其符合隱私保護標準的能力。標注工具要求文本數據標注工具要求關于文本數據標注工具的要求應參照標準“T/SAIAS015—2024第7.3.1節”執行。圖像數據標注工具要求關于圖像數據標注工具的要求應參照標準“T/SAIAS015—2024第7.3.2節”執行。音頻數據標注工具要求音頻數據標注工具用于根據指定的規范要求對音頻數據進行標注、精確標注。b)工具區:顯示所有在標注過程中需要用到工具;c)標簽區(區分圖層):顯示標注的內容。視頻數據標注工具要求視頻數據標注工具用于根據指定的規范要求對視頻數據進行標注、精確標注。b)工具區:顯示所有在標注過程中需要用到工具;c)標簽區(區分圖層):顯示標注的內容。算力區要求一體機算力區要求分為智能算力配置要求、普通算力配置要求以及算力分配和調度要求。AIAI加速計算資源提供AI加速能力,包括GPU、NPU、TPU等架構,其配置要求如下:11T/SAIAS020—2024使用稠密模型參數在13B及以下或使用混合專家模型激活總參數在13B及以下,并發請求數不大于5,FP16浮點總算力宜不低于280(TFlops/s),AI加速卡總內存宜不低于64GB,配置4張AI加速卡情況下,單卡FP1670(TFlops/s),單卡內存宜不低于16GB;使用稠密模型參數在13B以上30B及以下或使用混合專家模型激活總參數在13B以上30B及以下,并發請求數不大于10,FP16浮點總算力宜不低于640(TFlops/s),AI加速卡總內存宜不低于96GB,配置4張AI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 土方工程施工進度管理及措施
- 軌道系統運營管理職業規劃書
- 醫療行業總經理工作總結范文
- 特殊氣候條件下玻璃幕墻施工流程
- 風景區門票買賣合同
- 開學典禮的講話演講稿類作文8篇
- 低影響開發污水管網設計和施工措施
- 讀書有感200字11篇
- 食品飲料行業食品安全與質量監控方案
- 信息技術教師信息素養提升計劃
- 新譯林版三年級上冊英語Unit1作業單
- 2024年河北省中考數學試題(含答案解析)
- 《第8課 圖表呈現》參考課件1
- 網上銷售食品安全管理制度
- 2024年四川省成都市中考數學試題含答案
- DL∕T 612-2017 電力行業鍋爐壓力容器安全監督規程
- 自然資源價格評估通則 TD/T 1061-2021
- 貴州2024年貴州醫科大學招聘專職輔導員筆試歷年典型考題及考點附答案解析
- 2022版科學課程標準解讀-面向核心素養的科學教育(課件)
- 駕駛員心理健康教育培訓
- JT-T 1488-2024 網絡平臺道路貨物運輸服務規范
評論
0/150
提交評論