生物醫學文本挖掘及其應用_第1頁
生物醫學文本挖掘及其應用_第2頁
生物醫學文本挖掘及其應用_第3頁
生物醫學文本挖掘及其應用_第4頁
生物醫學文本挖掘及其應用_第5頁
已閱讀5頁,還剩109頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 生物醫學文本挖掘及其應用中國醫科大學 醫學信息學系 崔雷目的 介紹生物信息學文本挖掘工具 文本挖掘不再是信息專業的領域 例子:二者關系進行性多灶性白質腦病(進行性多灶性白質腦?。╬rogressive multifocal leukoencephalopathy,PML) 抗體抗體antibodies Monoclonal antibodies,efalizumab(依法珠單克隆抗體) 自然語言處理 讓計算機替我們看文獻吧! 比較難: 計算機需要專門的知識才能讀懂文本。 自然語言處理(Natural Language Processing ,NLP):專門訓練計算機掌握這種知識的學科。 生物

2、醫學文本挖掘(Biomedical text mining )是一個專門處理生物學、醫學和化學文本的分支學科。也叫BioNLP 有些人把NLP當做text mining的同義詞。5Biomedical text 生物醫學文本的格式多種多樣: 病歷 科研論文 序列注釋 公共健康指南 文本的內容多樣化,如習慣用語 臨床有臨床上的行話 實驗室有自己對蛋白的命名方式 這種差異造成了文本挖掘應用往往面向特定類型的文本特定類型的文本。 尤其是對Medline文摘記錄的分析。 易獲取 免費基本概念(1)術語(術語(Term):專門領域里的名稱。術語集(術語集(terminology):術語的集合。 生物醫學

3、文本中到處是術語,是醫學知識的基本構件。 如各種細胞的名稱,蛋白質、醫學設備、疾病、基因突變、化學物質名、蛋白質域的名稱。 名稱如此重要, 需要在文本中識別之,這個工作稱為生物醫學文獻中的命名體識別命名體識別(NER,Named Entity Recognition )?;靖拍睿?) 盡管術語的定義似乎很明確,但是很難精確定義。 early progressive multifocal leukoencephalopathy Refer to early progressive multifocal leukoencephalopathy progressive multifocal leu

4、koencephalopathy multifocal leukoencephalopathy Leukoencephalopathy基本概念(3) Terminology:手工構建的,因此是受控的。 HUGO:基因術語集 ICD:國際疾病分類法。 Gene Ontology:基因本體。 不僅僅是術語列表,還包括: 術語表+同義詞=thesaurus 術語表+術語之間的關系=taxonomies, ontology 一旦一段文本與其中一個詞表對應上,就和其他資源建立起聯系了。9人工標引 手工匹配Medline abstractsMedical Subject Headings (MeSH)Le

5、ukoencephalopathy,progressive multifocal 1011gene normalization 自動匹配:recognizing names of genesMedline abstractsmapping them to their corresponding gene identifiers (e.g., Entrez Gene ID)HGNC database of human gene names HUGO Gene Nomenclature Committee/網上在線檢索的基因名稱信息14下載的基因名稱信

6、息NER的原理文本(PubMed Abstracts)軟件名稱(基因名,蛋白質名)詞表詞表之間的聯系 詞表太多,又創建了詞表,把術語集匹配起來,詞表之詞表,超級詞表。meta BioThesaurus:多個詞表中蛋白質的同義詞 Unified Medical Language System(UMLS):一體化醫學語言系統,120多個詞表,4百萬個術語。18/pirwww/iprolink/biothesaurus.shtml術語識別工具 Whatizit:識別多種術語,通過網頁。 Abner:單機版,識別5種術語:蛋白、DNA、RNA、細胞株、細

7、胞類型。 更專指的術語識別工具: PepBank :用于肽類 LSAT:用于alternative transcripts 提高 PubMed檢索效果:semedico , novo|seek GoPubMed/GoGene24http:/www.ebi.ac.uk/webservices/whatizit/info.jsf25/bsettles/abner/ A(Whatizit):蛋白-藍色,疾病-深紅,基因本體-淺紅,化學物質-深紅,物種-紅色 B(ABNER):蛋白和細胞株 C(BIOCreAtIvE metaserver )27發現關系

8、識別術語之后,下一步自然是尋找術語之間的關系。 發現關系的最簡單途徑就是共現共現: 在同一段文字中同時出現的兩個術語可能有關聯。 例如,某種蛋白質與一種疾病總是在同一文摘中出現,有理由假設該蛋白與疾病的某個方面有關。 共現的次數越多,越有意義。可以定量排序,通過統計處理排除偶然的關聯。關聯度 假設有t1和t2兩個詞共現,最簡單的信度指標就是含有這兩個詞的文章數c(t1t2),但是要標準化,去掉兩個詞各自出現頻次對共現次數的影響。 點間互信息 p為文章數除以文章總數。關系抽?。汗铂F GoDisease:/ 輸入leukoencephalopathy, pro

9、gressive multifocalmh返回結果:所有提及PML的文摘中的基因。 出現次數越多的基因,越可能與PML有關聯。如果某基因在PML中不成比例地高于其他疾病,則該基因可能與PML有特殊關系。關系抽取:確切關系 明確描述的關系:比共現更好的證據。 例如: We describe a PML in a 67-year-old woman with a destructive polyarthritis(多關節炎) associated with anti-JO1 antibodies treated with corticosteroids PML與抗-JO1抗體有明確關系。 將這種關

10、系簡化為三元體:兩個名詞+一個動詞。 PML is associated with anti-JO1 antibodies 識別動詞: 詞性標注:part-of-speech (POS) tagger 三元體表述因其簡單而功能強大,但是忽略了文章中的重要的細節。比如有些證據是來自于臨床病例報告。Semantic Knowledge Representation SKR:是基于UMLS進行自然語言處理、提取文獻中概念的系列在線工具。/其中MetaMap是SKR系統的核心組件。MMTx是完成MetaMap功能的Java工具包,它進行的分析是語義層次上的分

11、析。MetaMap工作原理工作原理http:/ “ocular complication of myasthenia gravis” (重癥肌無力的眼部并發癥) “ocular complication”和“of myasthenia gravis” “ocular complication”分為“mod(ocular),head(complication)MetaMap工作原理:工作原理:產生變形體 Ocularadj,0=” Eyenoun,2=”s”同義詞 Eyesnoun,3=”si”同義詞的復數 Opticadj,4=”ss”同義詞的同義詞 Ophthalmicadj,4=”ss”同

12、義詞的同義詞Ophthalmianoun,7=”ssd”同義詞的同義詞的變形 Oculusnoun,3=”d”變形Oculinoun,4=”di”同義詞的復數檢索候選詞及候選詞的評價 檢索超級詞表,檢索到包含有至少一個變形體的候選字串集合。 計算出與輸入的短語詞相匹配的候選詞,然后用4種指標的加權平均組成的語言學評價函數,計算輸入短語與候選詞之間的匹配程度: 中心度:即包含中心詞; 變形情況:距離倒數的平均值; 覆蓋面和內斂度:測量候選詞與文本的匹配程度和有多少個片段 按照匹配程度排列這些候選詞。關系抽取:PPIprotein-protein interactions (PPI):文本挖掘的重

13、頭戲利用三元體表達,構建PPI網絡,節點是蛋白質,動詞為邊。分析文本挖掘出來的PPI網絡時,應當注意閱讀和理解支撐信息。 例如,蛋白質間相互作用可以是直接的,也可以是間接的,取決于動詞 直接動詞有to bind, to stabilize, to phosphorylate 間接的動詞有to induce, to trigger, to block。 文獻中描述的蛋白質相互作用的不同性質部分地反映了所采用的實驗方法和相互作用本身的性質。常用的捕獲文本變異的方法就是把各種表達方式辨認出來,并寫下捕獲這些變異的規則規則。 捕獲磷酸化的模式,應當依次含有:一種酶的名字磷酸化的動詞一種基質的名字發現關

14、系的工具 FACTA:Medline文本中概念共現情況。 MedGene 和BioGene:利用共現發現基因優先級別。 Endeavour 和G2D 利用文本和其他數據源分析基因優先級別。 PolySearch利用啟發式加權技術,給不同的共現不同的權重。 Anni使用文本輪廓測量術語之間的關系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用語言模式發現磷酸化過程中的激酶、基質和磷酸。 E3Miner發現泛素化,包括上下文信息。http:/text0.mib.man.ac.uk/software/facta/main.htmlGoDisease+iHOP+Cytoscape發現:Di

15、scovery Besides finding relationships, text miners are also interested in discovering relationships Swanson:undiscovered public knowledge 【見例子1】文本挖掘的應用實例Swanson關聯研究及其工具Arrowsmith 的使用Bitola的使用用文獻輪廓挖掘微陣列表達數據Damien ChaussabelMedlineR背景與意義發表文獻研究深入知識分裂fragmentation of scientific knowledge文獻量窮經皓首并老死不相往來窮經

16、皓首并老死不相往來Don R. Swanson的研究 跨學科間一定存在著潛在的未被發現的關聯 文獻間隱性的關聯 如何發現隱性關聯? 尋找非相關互補性文獻 text-based informatics literature-based discoveryDon R. Swanson的研究 兩種互補的文獻: 一類文獻(AB):攝入A可能導致某種生理改變B 另一類文獻(BC):B作用于某種疾病C 即A作用于C。 兩種非相關的文獻: 兩種文獻從沒有或很少被共同引用并且也不相互引用。 互補性和非相關性描述了在公開信息中存在著未被發現的有價值信息的模型結構。Medline文獻集合Don R. Swanso

17、n的研究潛在的聯系 雷諾氏病雷諾氏病文獻文獻食用魚油食用魚油文獻文獻血液粘稠度紅細胞脆性 血液粘稠度紅細胞脆性 閉合式的知識發現ARROWSMITH 3.0 4822Asthma famous?哮喘名人SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶過敏性鼻炎過敏性鼻炎Syk inhibitors as treatment for allergic rhinitis. 2008【SYK抑制劑治療過敏性鼻炎】An intranasal Syk-kinase inhibitor (R112) improves the symptoms of se

18、asonal allergic rhinitis in a park environment. 2005【鼻內SYK抑制劑(R112)改善公園里過敏性鼻炎癥狀】痛風痛風Crystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase. 2007【晶體誘發的中性粒細胞活化:Ia類磷脂酰肌醇3激酶的SYK依賴性活化】Crystal-induced neutrophil activation. VII. Involvement of Syk in

19、the responses to monosodium urate crystals. 2001【晶體誘發的中性粒細胞活化:SYK參與對尿酸鈉晶體反應的程度】過敏性鼻炎SYK痛風過敏性鼻炎痛風抑制劑治療中性粒細胞活化晶體誘發PI3KSYKB:基因和分子序列等語義類型TOLL receptor可作為生物武器的潛在病毒 能夠成為生物武器:致病性,傳播性。同時涉及到病毒這兩個特性的文章卻特別少。 A:病毒毒力遺傳方面(virulence- genetic) C:病毒疾病傳播力 病毒的昆蟲媒介傳播(insect vectors) 空氣傳播(air) 在空氣中的穩定性(stability of viru

20、ses in air) 通過與A和C有共同聯系B找出更多符合條件的病毒。 將得到的文獻經過一些系列的處理,Arrowsmith列出了三個有意義的B-LIST(病毒的集合),通過進一步的統計學分析和查閱文獻,最終找出相對有意義的病毒(B) 發現科研機構間潛在的合作方向 潛在合作方向 美國斯坦福大學 哥倫比亞大學 醫學信息學研究領域 發現科研機構合作與交流的題目 結果: 更好地體現:相似點(可以合作之處)和不同點(可以相互交流、學習之處) 內容詳細、明確:能體現出研究所使用的具體方法和側重點 開放式的知識發現BITOLA http:/www.mf.uni-lj.si/bitola/ 輸入單個的概念

21、(疾病A),找到該概念的第一層相關概念并加以歸類(藥物B)。 從第一層相關概念(藥物B)出發,找到它們的相關概念,并加以歸類(基因C)。 檢驗基因和疾病是否有關聯。如果沒有,該基因與疾病有潛在的聯系而且并沒有文獻報道。 提示:與疾病、生理學反應或者其他表型相關的新基因、藥物或者神經科學。BITOLAsyk內容Swanson關聯研究及其工具Arrowsmith 的使用Bitola的使用用文獻輪廓挖掘微陣列表達數據Damien ChaussabelMedlineR運用文獻輪廓挖掘微陣列表達數據 Mining microarray expression data by literature prof

22、iling Damien Chaussabel MedlineRDamien ChaussabelAlan Sher Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055. 目標 建立一種挖掘技術 該技術以對文獻輪廓literature p

23、rofiling的分析為基礎 文獻輪廓: 對于某一個主題(如某基因)而言,有相關文獻集合 對于該基因的文獻集合,分析某些單詞在文摘中出現的頻次。文獻輪廓基因B基因C基因A相關文獻相關文獻主題詞1 頻次主題詞2 頻次主題詞3 頻次 主題詞n 頻次研究步驟1. 檢索文獻2. 分析文本3. 過濾數據4. 聚類分析1.檢索文獻 從基因開始,分別找到與各種基因相關的論文 標題中含有基因名字的論文。 人類基因命名委員會(Human Gene Nomenclature Committee, HGNC):官方名稱、縮寫、別名 /1.檢索文獻 建立數據庫 包括HGN

24、C定義的10,500多種已知的人類基因 用PubMed查詢格式的URL,例如: protein kinase C eta /htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D PRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti) 上述紀錄按照GenBa

25、nk和Locus Link的ID排列 該數據庫可以作為Excel表格下載1.檢索文獻 選70種基因,每一種基因的相關文獻以XML格式下載 用Excel的宏命令抽取文摘,另存作為文本分析樣本Papers on Gene 70Papers on Gene 3Papers on Gene 2Papers on Gene 12.分析文本 對于每一個基因的相關紀錄的內容,分析文摘中單詞出現的情況?!綯F】 統計文摘中含有特定單詞的文獻數?!綝F】 例如:對于GADD45B基因的相關文獻,有18.7%的文摘中含有單詞“Proliferation”。Abstracts on Gene 1單詞百分比=論文數/

26、論文總數Proliferation18.7Active15.5infected14.83.過濾數據 每一種基因有幾萬條記錄。對文獻中發現的每一個單詞,標上其出現的頻次數。 這些單詞大多數對發現基因信息沒有用途: 沒有特異性:if, because, cell, identified 很少使用:在很少的文獻中出現。 第三類單詞: 在某一種基因的文摘中出現頻率高【TF】。 在所有文獻中出現頻率(基準率)低【DF】。 可以提供基因的相關信息。RANTESY軸上的點為與RANTES基因相關的單詞,在25%以上的論文中出現過。隨機選取基因,計算這些詞的出現率,計算這些詞在不同基因文獻中出現的平均值。如果

27、基因足夠的話,單詞的平均出現率趨于穩定。出現率低于5%的單詞傳遞有關該基因的重要信息。如infection, secreted, chemokine 等。3.過濾數據 基準率: 在所有已知的人類基因中隨機抽取基因(250種) 統計單詞出現頻率的平均值term1term2Term3termnGene1Gene2gene250平均值3.數據過濾 單詞過濾的標準: 通過設定基準率(5%),去掉在全部科技文獻中經常出現的單詞 每一個單詞在每一種基因上的出現率與基準率的差值25% 通過兩個基因過濾的單詞:一個單詞只有在至少2個以上的基因中共現才在確定基因關系方面有用。 70個基因,25,000種單詞,只

28、保留下來101種。 可以調整單詞過濾的閾值:下調閾值,增加了噪音,檢索到更多的單詞。3.數據過濾4.聚類分析 通過單詞出現情況,給具有同樣的文獻分布特征的基因進行分組。 經過幾輪過濾之后,確定了單詞表,將該表用于建立一個單詞-基因矩陣。矩陣中對應的是每一種基因和單詞出現值。 采用基因聚類分析的軟件:Cluster/TreeView 聚類分析term1term2term3Gene1Gene2Gene34.聚類分析藍色:nuclear factors橙色:receptor-ligand pair綠色:interferon-related紅色:chemokines紫色:MHC class I ant

29、igen-presentation pathway黃色陰影:單詞在文摘中出現的水平4.聚類分析 基因的功能分組明顯與免疫反應有關。 藍色:控制炎癥反應和細胞凋亡的轉錄因子,這些基因和TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同時出現較多。 綠色:最大的一組基因,與interferon 有關(也叫 IFN和IFN-alpha,)。STATs基因是干擾素信號傳導專門需要的因子。 紅色:專門面向趨化因子(chemokines)。 紫色:基因全部是I類MHC抗體表達通路基因。這些基因專門編碼把蛋白降

30、解為肽的蛋白。 根據抽取詞所表示的概念可以發現有價值的信息,用于快速探索和評估復雜數據集中的生物學意義。4.聚類分析聚類分析單詞出現模式的分析不同關聯程度的基因組 通過文獻分布特征發現的關聯 一組基因在功能上的關聯程度不同的基因組共享的單詞數關聯數同源基因116523協同基因101300隨機基因49109用文獻輪廓挖掘鼻咽癌微陣列表達數據 黃仲曦,姚開泰(第一軍醫大學病理教研室腫瘤研究所) 目的:探索鼻咽癌異常信號通路。 方法:根據鼻咽癌微陣列表達譜,采用基于文獻輪廓的數據挖掘方法。從Medline文獻數據庫中提取與基因相關的文獻并分析詞的頻率,再根據重復發生和共發生的過濾標準提取功能相關的詞

31、。最后根據詞的發生頻率對基因進行功能聚類。 結果:基因表達譜的112個差異表達基因聚成16組功能類別:4組暗示EBV感染、6組顯示鼻咽癌變過程、2組參與能量代謝、1組提示蛋白的異常磷酸化、2組與其它疾病相關、1組與肌肉組織活性相關。腫瘤發生發展過程中常見的P53和Rb信號通路的異常在本研究中則未發現。 結論:鼻咽癌的發生發展可能由特殊的信號通路引起。用文獻輪廓挖掘大腸癌轉移芯片表達譜 黃仲曦,孫青,丁彥青,姚開泰(第一軍醫大學病理教研室腫瘤研究所) 目的:尋找新的大腸癌轉移相關基因。 方法:根據大腸癌轉移芯片的表達譜,采用基于文獻輪廓的數據挖掘方法,從Medline文獻數據庫中提取基因的相關文獻并分析詞的頻率,再基于重復發生和共發生的過濾標準提取功能相關的詞,最后基于詞的發生頻率對基因進行功能聚類,進一步結合文獻及已有的分子生物學檢測結果進行分析。 結果:發現兩個新的可能與大腸癌轉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論