CCKS2020技術評測任務書_第1頁
CCKS2020技術評測任務書_第2頁
CCKS2020技術評測任務書_第3頁
CCKS2020技術評測任務書_第4頁
CCKS2020技術評測任務書_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

CCKS2020技術評測任務書面向中文電子病歷的醫療實體及事件抽取本任務是CCKS圍繞中文電子病歷語義化開展的系列評測的一個延續,在CCKS2017,2018,2019相關評測任務的基礎上進行了延伸和拓展。本任務包括兩個子任務:1)醫療命名實體識別2)醫療事件抽取參賽隊可同時選擇兩個子任務參賽,也可選擇任一個子任務單獨參賽。一、醫療命名實體識別任務定義及描述本任務為中文病歷醫療實體識別任務,即對于給定的一組電子病歷純文本文檔,識別并抽取出與醫學臨床相關的實體提及(entitymention),并將它們歸類到預定義類別(pre-definedcategories),比如疾病、治療、檢查檢驗等。相比2019命名實體識別任務我們做了如下調整:標注了新數據對訓練數據進行擴充提供實體詞表及大量非標注數據供參賽者使用形式化定義輸入:1.電子病歷的自然語言文本集合:2.預定義類別:C輸出:實體提及和所屬類別對的集合:{其中mi=di,bi,ei是出現在文檔di中的醫療實體提及(mention),預定義類別預定義類別定義如下:1)疾病和診斷:醫學上定義的疾病和醫生在臨床工作中對病因、病生理、分型分期等所作的判斷。2)檢查: 影像檢查(X線、CT、MR、PETCT等)+造影+超聲+心電圖,未避免檢查操作與手術操作過多沖突,不包含此外其它的診斷性操作,如胃鏡、腸鏡等。3)檢驗: 在實驗室進行的物理或化學檢查,本期特指臨床工作中檢驗科進行的化驗,不含免疫組化等廣義實驗室檢查4)手術: 醫生在患者身體局部進行的切除、縫合等治療,是外科的主要治療方法。5)藥物: 用于疾病治療的具體化學物質。6)解剖部位: 指疾病、癥狀和體征發生的人體解剖學部位。數據集描述數據標注說明詞表及電子病歷數據由醫渡云(北京)技術有限公司編寫,標注數據由醫渡云公司組織專業的醫學團隊進行人工標注,僅限CCKS競賽評測用。有關數據集的詳細描述及標注規范,將隨數據的發布一并加以說明,任務書中不再贅述。數據示例{"originalText":"患者3月前因“直腸癌”于在我院于全麻上行直腸癌根治術(DIXON術),手術過程順利,術后給予抗感染及營養支持治療,患者恢復好,切口愈合良好。,術后病理示:直腸腺癌(中低度分化),浸潤潰瘍型,面積3.5*2CM,侵達外膜。雙端切線另送“近端”、“遠端”及環周底部切除面未查見癌。腸壁一站(10個)、中間組(8個)淋巴結未查見癌。,免疫組化染色示:ERCC1彌漫(+)、TS少部分弱(+)、SYN(-)、CGA(-)。術后查無化療禁忌后給予3周期化療,,方案為:奧沙利鉑150MGD1,亞葉酸鈣0.3G+替加氟1.0GD2-D6,同時給與升白細胞、護肝、止吐、免疫增強治療,患者副反應輕。院外期間患者一般情況好,無惡心,無腹痛腹脹脹不適,無現患者為行復查及化療再次來院就診,門診以“直腸癌術后”收入院。""entities":[{"label_type":"疾病和診斷","overlap":0,"start_pos":8,"end_pos":11},{"label_type":"手術","overlap":0,"start_pos":21,"end_pos":35},{"label_type":"疾病和診斷","overlap":0,"start_pos":78,"end_pos":95}]}數據集描述本次評測的訓練數據有:1500條標注數據1000條非標注數據。6個類別的6292個實體詞詞表標注數據集統計如下表文本疾病和診斷檢查檢驗手術藥物解剖部位總數訓練集1500621114901885132728411266026414評價指標本任務采用精確率(Precision)、召回率(Recall)以及F1-Measure作為評測指標。參賽系統的輸出結果集合記為S={s1,s2…sm},人工標注的結果(GoldStandard)集合記為G={g3.1嚴格指標我們定義si∈S與ssss基于以上等價關系,我們定義集合S與G的嚴格交集為∩sPs=|S∩3.2松弛指標我們定義si∈S與smaxs基于以上等價關系,我們定義集合S與G的松弛交集為∩rPr=|S∩最后,按照預定義類別的6個不同類別,對每個子類進行分開評測,共得到14個評測結果:疾病和診斷檢查檢驗手術藥物解剖部位綜合嚴格指標松弛指標二、醫療事件抽取任務定義及描述本任務為中文病歷醫療事件抽取任務,即給定主實體為腫瘤的電子病歷文本數據,定義腫瘤事件的若干屬性,如腫瘤大小,腫瘤原發部位等,識別并抽取事件及屬性,進行文本結構化。本任務提供少量標注數據、大量非標注數據集及詞表,旨在訓練數據有限的情況下,利用非標注文本和半監督等方法提升模型性能。更接近真實世界的場景。事件模板定義事件主實體:腫瘤屬性1:原發部位【某種疾病最先發生于的組織或者器官】屬性2:病灶大小【原發部位的大小】屬性3:轉移部位【某種疾病從最先發生的組織或者器官轉移到的其他組織或器官】每個文本的一個屬性可能出現0個或多個屬性實體,比如多個原發部位。認識示例數據集描述數據標注說明電子病歷數據由醫渡云(北京)技術有限公司編寫,標注數據由醫渡云公司組織專業的醫學團隊進行人工標注,僅限CCKS競賽評測用。有關數據集的詳細描述及標注規范,將隨數據的發布一并加以說明,任務書中不再贅述。數據示例原文:右肺癌化療后,對比2016-11-29CT:右上肺病變較前范圍稍縮小,周邊少許炎癥較前稍減少。兩肺散在小結節,大致同前。左側鎖骨下區、縱隔多發淋巴結,考慮轉移,較前稍縮小。肝囊腫。左腎小囊腫。右肺癌化療后,對比2016-11-29CT:右肺上葉見不規則結節狀、片狀病灶,邊界不清,最大層面大小約12mm×8mm,邊緣呈分葉狀,增強掃描不均勻強化,緊貼斜裂胸膜,部分范圍較前略縮小,右上肺見少許斑片狀稍高密度影,邊界不清,較前明顯減少。左下肺(se8,im96)、左上肺(se8,im221)及右下肺(se8,im104)散在數個小類結節,邊界清,大者直徑3mm,大致同前。右肺上葉前內基底段支氣管變窄,基底段支氣管分支管壁增厚,氣管及其余支氣管分支通暢。左側鎖骨下區、兩下上氣管旁、血管前、主動脈弓旁、主肺動脈窗、隆突上見多發淋巴結,部分相互融合,大者短徑約5mm,輕度強化,較前稍縮小。兩側胸腔未見積液,左側胸膜未見明顯增厚。心包未見明顯積液。肝臟形態正常,各葉比例在正常范圍以內,其外形輪廓光整,肝內見多個低密度灶,邊界清,大者直徑約9mm,未見強化。肝內膽管正常,其內未見結石影,膽囊大小正常,其內未見結石影,膽總管未見擴張,其內未見結石影。肝門區正常。門靜脈未見異常。脾大小正常,密度均勻。胰腺大小、形態正常,密度均勻。左腎見低密度灶,邊界清,大小約4mm×3mm,未見強化。右腎及兩腎下腺未見異常。膈腳后、腹主動脈旁未見腫大淋巴結。掃描范圍未見骨質破壞征象。腫瘤原發部位:右肺上葉原發病灶大小:12mm×8mm轉移部位:左側鎖骨下區、縱隔多發淋巴結數據集描述本次評測的訓練數據有:1400條標注數據1300條非標注數據。863個實體詞表標注數據集統計如下表文本腫瘤原發部位原發病灶大小轉移部位總數訓練集1400120959010132812此外,本評測將使用300條目標場景的標注數據作為最終評測的測試集。有關數據集的詳細描述也將隨數據的發布一并加以說明。評價指標由于每個文本的一個事件屬性可能出現多個屬性實體,評測指標使用屬性實體而非屬性來計算準召率,最終使用屬性實體的f1值作為評測指標。三、任務提交指南每一個參賽隊需提交的材料如下(分子任務提交):結果文件代碼方法描述文檔(非評測論文,評測論文撰寫要求見CCKS2020官網)代碼需打包成zip文件,用“參賽隊名_code.zip”命名,要求提交所有的程序代碼及相關的配置說明,確保程序能夠正確運行,且運行結果與結果文件相一致。方法描述文檔用“參賽隊名_method.pdf”命名,包含算法描述及參數設置,pdf格式存儲,頁數不超過5頁。四、任務交流平臺本任務的交流平臺為:ccks2020-clinic@所有報名參賽的參賽隊至少要有一名成員加入到該討論組中,后續所有有關本任務評測及數據的相關說明和通知將只在討論組中發布和交流,不再另行發郵件或更新官網通知,請所有參賽隊務必在報名成功之后加入該討論組。加入討論組時請務必注明所屬參賽隊隊名及所屬單位,加入討論組有問題的參賽隊請聯系:zhang-jt13@。五、評測平臺與往年一致,組委會依托Biendata(/)作為在線評測平臺,所有參賽隊最終結果均需在Biendata上指定的時間窗內進行提交。本年度評測組織者還會在Biendata上發布一個baseline方案和實現。提供一個基準的性能,供參賽隊伍參考。有關baseline的發布事宜,敬請關注CCKS2020官網通知。六、獎金設置本任務獎金設置如下。每個子任務第一名5k,第二名3k,第三名2k。另設技術創新獎5k。七、時間安排時間安排初定如下,后續如果有調整,將在討論組中更新說明。任務準備時間:3月1日—3月20日評測任務發布:3月20日報名時間:3月20日—7月10日簽署數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論