基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持_第1頁
基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持_第2頁
基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持_第3頁
基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持_第4頁
基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于TARGET轉錄組數據的兒童骨肉瘤預后預測與決策支持摘要骨肉瘤是發生在20歲以下青少年或兒童的一種惡性骨腫瘤,也叫成骨肉瘤,是小兒骨惡性腫瘤中最多見的,約為小兒腫瘤的5%。該疾病的顯著癥狀是因腫瘤組織不斷侵蝕和破壞骨皮質而帶來的源源不斷的疼痛。骨肉瘤一旦經病理證實,就應該立即開始前期的化學治療和手術治療。雖然放化療具有一定效果,但是總體預后不佳,需對其分子機制開展進一步的研究。近年來,隨著組學技術的不斷發展,對于各種不同的生物數據獲取與分析的方法日益成熟,在癌癥的診治過程中,通過對組學數據進行分析與挖掘,利用處理后的患者數據建模并且對其進行預后預測,能夠對患者提供更精準的臨床決策支持。基于此,本文利用來自TARGET數據倉庫中的88例兒童骨肉瘤患者的轉錄組數據,利用生物信息學和數據分析、挖掘方法,通過對兒童轉錄組數據進行分析,找出正常兒童和患病兒童的差異lncRNAs,然后對有差異的lncRNAs進行單因素和多因素Cox生存分析,建立骨肉瘤預測的Cox生存模型,按風險情況將患者病情劃分,對患者的生存情況進行預測,并對后期醫生的臨床決策提供支持。關鍵詞:骨肉瘤;臨床決策支持;預后預測

AbstractOsteosarcomaisatypeofmalignantbonetumorthatoccursinadolescentsorchildrenundertheageof20,alsoknownasosteosarcoma.Itisthemostcommonmalignanttumorofboneinchildren,about5%ofchildren'stumors.Theobvioussymptomofthediseaseisthecontinuouspaincausedbythecontinuouserosionanddestructionofthebonecortexbythetumortissue.Oncetheosteosarcomahasbeenconfirmedbypathology,earlychemotherapyandsurgeryshouldbestartedimmediately.Althoughchemoradiotherapyhascertaineffects,theoverallprognosisispoor,andfurtherresearchonitsmolecularmechanismisneeded.Inrecentyears,withthecontinuousdevelopmentofomicstechnology,methodsforacquiringandanalyzingvariousbiologicaldatahavebecomeincreasinglymature.Intheprocessofcancerdiagnosisandtreatment,byanalyzingandprocessingomicsdata,theprocessedpatientdataisused.Modelingandpredictingprognosiscanprovidepatientswithmoreaccurateclinicaldecisionsupport.Basedonthis,thisarticleusesthetranscriptomedataof88childrenwithosteosarcomapatientsintheTARGETdatawarehouse,andusesbioinformaticsanddataanalysisandminingmethodstoanalyzethechildren'stranscriptomedatatofindnormalandsickchildrenDifferentlncRNAs,andthenperformunivariateandmulti-factorCoxsurvivalanalysisonthedifferentlncRNAs,establishaCoxsurvivalmodelforosteosarcomaprediction,dividethepatient'sconditionaccordingtotherisksituation,predictthepatient'ssurvival,andpredictthefuturedoctorProvideclinicaldecisionsupport.Keywords:Osteosarcoma;ClinicalDecisionSupport;PrognosisPrediction

目錄摘要 IAbstract II第1章緒論 11.1研究背景及意義 11.2國內外研究現狀 21.3本文的主要工作 31.4本文的結構安排 3第2章基于組學數據的臨床決策支持系統 42.1臨床決策支持系統的概念與分類 42.2基于組學數據的臨床決策支持系統的研究現狀 42.3基于組學數據的臨床決策支持系統總體設計 5第3章數據與方法 73.1數據獲取與下載 73.2數據預處理 73.2.1數據的篩選 73.2.2數據的處理 73.3統計分析(生存分析) 83.4富集分析 9第4章實驗結果與討論 104.1確定生存相關lncRNA 104.2構建生存模型 114.3模型整體驗證 124.4模型獨立性驗證 134.5富集功能分析 144.6討論 17結語 18參考文獻 19附錄: 21致謝 23

第1章緒論1.1研究背景及意義骨肉瘤是一種來源于間充質細胞的惡性骨腫瘤,主要見于兒童和青少年,發病率為百萬分之三,我國每年有近萬人患病,患病部位以肢體長管狀骨干骺端為主,在盆骨、脊柱、下顎等部位也較為常見。目前,該病的病因和致病性尚不清楚,醫生的治療手段有限,在患者患病初期,病灶通常通過手術的方式進行切除,而晚期等不可手術的情況下患者只能采取放療與化療的方式。針對腫瘤生長在局部的特性,采用放射治療的方法更為適宜,但效果不理想,成功的概率僅為20%~30%,以至于患者的預后情況較差、死亡率高[1-2]。由此可見,骨肉瘤十分是一種極其兇險的腫瘤,人們目前需要更加有效的診斷策略與治療手段。目前,癌癥的發病率逐年升高,對癌癥患者進行精確的預后預測已成為目前最為重要的問題。預后,指的是預測疾病的可能病程和結局。不僅包括在某個時間段內預測某種發生的可能性等時間線索,還包括判斷疾病的特定結果[3]。預后預測的好壞很大程度上能決定癌癥患者后續治療的成功與否。預后預測除了關注患者的臨床信息外,還可以利用患者腫瘤發展不同時期的組學數據進行系統的分析。隨著數據量近年來的爆炸式增長,數據更新速度不斷加快,已超出某一特定領域內人類所掌握常見及罕見的治療相關分子生物學類型范圍,因此精準醫學需要依賴計算機驅動的臨床決策支持系統(clinicaldecisionsupportsystem,CDSS)來滿足相關知識迅速及時地傳遞和使用[4]。這一步驟的構建包括收集各種醫學數據,構建相應的各種數據結構,最后開發出適合實際情況的臨床決策工具。在此前提下,將患者個人的組學數據與臨床決策支持系統聯系起來,這就構成了基于組學數據的臨床決策支持系統,該系統可以為患者的治療提供更精確的介入信息,有助于進一步了解腫瘤的分子機制,提高臨床決策支持的準確度,改善用藥的合理性,促進后期治療方案的指定的科學性,為醫生提供更加準確科學的治療建議。因此,通過對癌癥患者的組學數據進行數據分析與數據挖掘,利用篩選得到的差異標志物進行特征選擇并構建癌癥診斷預測模型,從而建成基于組學數據的臨床決策支持系統,該系統能夠對患者進行較好的預后預測與精確的診斷與治療。本文采用基于R語言的數據分析和挖掘方法,開展兒童骨肉瘤的預后機制的研究,目的是建立對于醫生的臨床診斷和藥物研發具有幫助的決策支持系統(模塊)。建立的決策支持系統可以用于其他癌癥和疾病,具有較好的實踐意義和推廣價值。1.2國內外研究現狀組學數據是一個龐大的數據概念,其包括生命體征,檢查檢驗,醫囑,基因組學,轉錄組學,蛋白組學等數據[5]。針對冗雜的癌癥患者的組學數據,2006年,隸屬于美國健康研究院(NationalInstitutesofHealth,NIH)的美國國家癌癥研究所(NationalCancerInstitute,NCI)和國家人類基因組研究所(NationalHumanGenomeResearchInstitute,NHGRI)發起了癌癥基因組圖譜(TheCancerGenomeAtlas,TCGA)計劃。TCGA計劃的目的主要是得到一個全面的、多維的,針對多種癌癥基因組的圖譜,至今已經收錄了33類多達2.5PB的不同類型的癌癥數據。利用癌癥基因組圖譜(TheCancerGenomeAtlas,TCGA)計劃的這些分子分析數據能夠對癌癥患者進行精準的預后。傳統上的預后大多數基于臨床因素,例如:年齡,腫瘤等級,治療方法等。目前通過結合分子信息,能夠達到更好的預后效果。2010年,WeigelMT1與DowsettM.通過對乳腺癌中的雌激素受體(ER)和孕激素受體(PR)以及人類表皮生長因子受體2(HER2)的生物標志物進行研究,發現其對乳腺癌的預后預測具有重要的價值,并在臨床應用中取得了較好的效果[6]。2017年,施達通過分析腎透明細胞癌患者數據中lncRNAs的表達值信息,將總的數據集分為訓練集和測試集,并對訓練集與測試集進一步統計學分析與研究,找到了五個與腎透明細胞癌預后相關的重要lncRNAs。以這五個lncRNAs為基準,將所有的患者分為高風險和低風險兩組。進行統計學分析后發現高風險組患者與低風險組患者的生存率存在顯著差異,與其他臨床因素相比,這五個與腎透明細胞癌預后相關的重要lncRNAs具有獨立的預后價值[7]。2018年,房曉南通過分析肝細胞癌患者的lncRNA表達譜,通過單因素和多因素Cox生存分析,發現并驗證了10例與肝細胞癌預后相關的重要lncRNA。根據在這10個lncRNA上建立的風險計算模型,可以將肝細胞癌患者樣本分為高風險和低風險組,這兩組患者的生存率顯著不同。為進一步了解肝細胞癌涉及的分子機制以及改善肝細胞癌患者的診斷,治療和預后提供了數據[8]。綜上所述,通過與臨床數據緊密結合,組學數據在癌癥的預后預測和診斷治療中發揮了重要的作用。1.3本文的主要工作本文利用生物信息學和數據分析、挖掘方法,通過對來自TARGET數據倉庫中的88例兒童骨肉瘤患者的轉錄組數據進行分析,找出正常兒童和患病兒童的差異lncRNAs,建立一個基于TARGET數據庫轉錄組數據的兒童骨肉瘤預后預測與臨床決策支持模型,然后對有差異的lncRNAs進行單因素和多因素Cox生存分析,進而建立骨肉瘤預測的Cox生存模型,通過建立的Cox生存模型可以按風險情況將患者病情劃分,對患者的生存情況進行預測,并對后期醫生的臨床決策提供支持。1.4本文的結構安排論文在結構上共分為五個章節。第一章是論文的緒論,其介紹了針對兒童骨肉瘤進行預后預測的研究背景和意義,表明本論文的目的是為了完善兒童骨肉瘤的預后機制,建立對于醫生的臨床診斷和藥物研發具有幫助的決策支持系統(數據挖掘模塊),有助于醫生對患者疾病的診斷和預測。第二章是有關基于組學數據的臨床決策支持系統的相關介紹,以及基于組學數據的臨床決策支持系統的總體設計。第三章是對本文所使用兒童骨肉瘤患者的數據來源的介紹以及進行統計學分析的理論依據。第四章是依照第三章的理論依據進行統計學分析的過程,通過統計學分析得出來的數據建立生存模型并進行進一步的獨立性檢驗。第五章對本文進行總結,指出尚存在的不足之處,并對基于組學數據的臨床決策支持系統的未來發展進行展望。

第2章基于組學數據的臨床決策支持系統2.1臨床決策支持系統的概念與分類臨床決策支持系統即CDSS(ClinicalDecisionSupportSystem,CDSS),一般來說,它是指支持臨床決策的計算機系統。該系統充分利用現有的計算機技術,通過人機交互的方式解決半結構化或非結構化的醫學問題,提高了決策效率[5]。基于計算機的臨床決策支持被定義為應用信息和通訊技術為醫療健康帶來相關知識的實踐活動。臨床決策支持系統以決策支持基礎可以劃分為兩類:一類是以知識為決策支持基礎的系統稱為knowledge-basedCDSS;另一類以機器學習等算法或統計類算法為決策支持基礎的稱為non-knowledgeCDSS[9]。基于知識庫的CDSS主要由知識庫、推理機和人機交流接口三個部分組成。知識庫(KnowledgeBase)是知識工程中結構化,易操作,易利用,全面有組織的知識集群,是針對某一領域問題求解的需要,采用某種知識表示方式在計算機存儲器中存儲、組織、管理和使用的互相聯系的知識片集合。這些知識片包括與領域相關的理論知識、事實數據,由專家經驗得到的啟發式知識,如某領域內有關的定義、定理和運算法則以及常識性知識等。基于CDSS的臨床知識庫是以患者診斷、主訴、癥狀、檢驗、檢查、藥品、指南和病例報告為基礎,通過整合設計,關聯知識點,為醫生臨床診斷提供決策支持以及決策依據,同時方便醫生查找相關知識及病例報告,輔助醫生臨床診斷[10]。基于非知識庫的CDSS系統在一般情況下多采用人工智能的形式。近年來,在CDSS的研究和開發中,這種人工智能被稱為機器學習,通過機器學習的方法能夠使計算機可以獲得經驗中以及其他臨床數據中存在的知識。機器學習常用的方法有人工神經網絡、遺傳算法、貝葉斯網絡、產生式規則、邏輯條件、因果概率網絡等[11]。這兩類臨床決策支持系統各有優劣:基于知識庫的CDSS由于有了相應專家的專業知識,對于臨床診療具有更高的準確性,但是其也受限于知識庫是有限的,對于知識庫外的數據不能提供更好的參考;基于非知識庫的CDSS不會受限于知識庫的大小,其能夠利用人工智能的方法填補缺失數據并可以對數據進行預測。2.2基于組學數據的臨床決策支持系統的研究現狀在高通量測序技術的快速發展下,涌現出了大量的多組學數據,如基因組、轉錄組、表觀組、代謝組和蛋白組等,同時也出現了許多具有代表意義的國際項目,如DNA元件百科全書計劃(TheEncyclopediaofDNAElements,ENCODE)[12]和國際人類基因組單體型圖計劃(HaplotypeMap,HapMap)[13]等。隨著數據的不斷積累和基礎研究的不斷突破,人類對疾病的診治邁入了精準醫學時代。醫生可以結合患者的組學數據[14]、表型數據、臨床診療數據、電子病歷數據及影像數據等從多方面上對疾病進行更為精準、詳細的診斷與治療。在此基礎上,一個個優秀的臨床決策支持系統如雨后春筍般不斷涌現,基于數據分析和數據挖掘的人工智能方法在基礎醫學研究領域得到了迅速的發展。計算機通過對數據進行數據分析和數據挖掘后,能夠從數據中提取有用的信息從而構建成模型,再通過使用大量的數據來提高與完善模型性能,從而達到診斷與預測疾病的預期,最終實現為臨床決策支持提供技術支持的目的[15]。2014年,HanLeng和YuanYuan等在研究假基因的表達和臨床相關的腫瘤亞型泛癌分析中,為了評估假基因表達譜對于兩種子宮內膜樣腺癌組織學亞型的預測效力,研究人員使用多種機器學習算法,其中邏輯回歸算法得到的假基因表達譜可以準確區分兩種組織學亞型,其AUC達到了0.892。在獨立測試集上,邏輯回歸算法展示出最佳性能,表明利用邏輯回歸得到的假基因表達譜能夠有效捕捉臨床相關信息,獲得有意義的腫瘤亞型,幫助醫生和患者選擇適當的臨床治療方案[16]。2017年,XuRui-Hua等在肝癌的早期篩查模型中,利用肝癌患者和正常人血液樣本中的DNA甲基化數據和生存數據,通過隨機森林和LASSO等機器學習方法,得到了用于肝癌早期篩查、風險評估和預后監測的模型。在隨機森林分析中,利用OOB(outofbag)誤差[17]作為最小化準則,從變量森林中進行變量消去,通過設置變量每次迭代的下降分數為0.3,將變量從隨機森林中縮減,最終從450000個DNA甲基化位點中篩選出了10個甲基化位點作為生物標志物,進而使用邏輯回歸構建了肝癌診斷預測模型,輔助醫生進行臨床決策。綜上所述,基于組學數據的臨床決策支持系統主要增加了對組學數據進行數據挖掘與數據分析的過程。通過增加這個過程,我們能夠發現癌癥在不同階段的差異標志物,利用篩選得到的差異標志物進行特征選擇并構建癌癥診斷預測模型能夠幫助醫生更加準確地診斷與預測疾病、進行預后預測[18]。2.3基于組學數據的臨床決策支持系統總體設計基于組學數據的臨床決策支持系統主要有人機交互界面、患者組學數據庫、患者臨床數據庫、數據處理機制和解釋器構成。人機交互頁面主要是針對醫生設計和使用,醫生可以通過人機交互頁面將患者通過化驗等方式得到的組學數據輸入到患者組學數據庫中,同樣,解釋器處理后的對臨床有用的信息也可以通過人機交互界面較為直接的展示給醫生,對醫生提供精準的臨床決策支持。患者組學數據庫負責存儲患者的組學數據,其中包括:基因組學、蛋白組學、轉錄組學、代謝組學、免疫組學、糖組學和RNA組學等數據。患者臨床信息數據庫負責存儲患者的臨床信息,其中包括:年齡、身高、體重、患病時間、患病部位、患病的階段與進行的相應治療等。數據處理機制的作用是對患者的臨床數據和組學數據首先進行標準化,接著采用數據分析和數據挖掘的方法對標準化后的數據進行分析與處理,基于處理后的數據進一步生成風險預測模型,然后利用大量數據對模型進一步完善,以達到提供臨床決策支持的目的。解釋器是對數據處理機制得出的結果的進一步解釋和說明,對復雜冗余的結果進行簡化并篩選出對醫生有幫助的數據,方便醫生的使用。圖2-1基于組學數據的臨床決策支持系統總體設計本文主要研究數據處理與生存模型構建這一過程。通過對患者的組學數據和臨床數據進行處理得到標準化數據,利用得到的標準化數據進行數據分析與數據挖掘后利用機器學習的算法生成癌癥的生存預測模型,使醫生能夠根據該模型對患者進行有效的臨床決策。圖2-2組學數據與臨床數據的處理與生存模型構建

第3章數據與方法3.1數據獲取與下載本文的實驗數據來自于TARGET數據庫,TARGET數據庫針對兒童腫瘤,主要疾病項目包括急性淋巴細胞白血病(AcuteLymphoblasticLeukemia),急性骨髓性白血病(AcuteMyeloidLeukemia),腎臟腫瘤(KidneyTumors),成神經細胞瘤(Neuroblastoma),骨肉瘤(Osteosarcoma)等[19]。本文通過直接調用R的TCGABiolinks包下載數據,使用GDC官方API下載數據,能夠保證數據的及時性和準確性,同時TCGABiolinks包也提供數據整理、聚類分析、差異分析、富集分析等功能。下載完成后共得到88例兒童骨肉瘤患者的數據。3.2數據預處理3.2.1數據的篩選1.首先,對本文所用到的兒童骨肉瘤患者的臨床數據進行篩查,由于一些臨床因素(如患者的性別,生存狀態等)在本次實驗中是不可或缺的,我們對缺失這些因素的患者進行剔除,最后剩余86例兒童骨肉瘤患者的臨床數據。2.接著,對本文所用到的兒童骨肉瘤患者的lncRNA的表達數據進行篩查,將下載的lncRNA表達數據與從GENECODE(/releases/22.html)上下載的參考lncRNA進行比對,目的是減少冗余,最后保留至少有25%且表達量≥2的lncRNA,經過篩選后共保留了8457個lncRNA。3.最后,對本文所用到的兒童骨肉瘤患者的蛋白編碼基因的表達數據進行篩查,將整理后的蛋白編碼基因與從ENSEMBL(/Help/Faq?id=468)上下載的參考蛋白編碼基因(GRCh38)進行對比,去掉ENSEMBL參考蛋白編碼基因中沒有的蛋白編碼基因,經過篩選后共保留了17987個蛋白編碼基因。經過對數據的篩選,本文以86個兒童骨肉瘤患者的臨床數據,8457個lncRNA和17987個蛋白編碼基因作為研究對象進行研究。3.2.2數據的處理首先對臨床信息數據和基因表達量信息進行合并,實現合并代碼如下:clin<-clin[clin$bcr_patient_barcode%in%datExpr$bcr_patient_barcode,]exprSet<-merge(clin,datExpr,by.x="bcr_patient_barcode",by.y="bcr_patient_barcode")為了保證信息的準確性,合并前首先以基因表達量中的bcr_patient_barcode為基準,在臨床信息中提取出基因表達量中存在的所對應bcr_patient_barcode的臨床信息,然后再依照bcr_patient_barcode進行對臨床信息和基因表達量信息進行合并。將經過篩選后的全部86個兒童骨肉瘤患者在保證臨床信息中的VitalStatus較為均衡的前提下(即VitalStatus為Alive與Dead的患者在兩組中占的比重大致相當)隨機分成各包含43個患者樣本數據的訓練集和測試集。3.3統計分析(生存分析)基于隨機分組得到的訓練集,使用單因素Cox回歸分析函數計算lncRNA的表達水平與兒童骨肉瘤患者群體生存之間的關系。單因素Cox回歸分析函數的結果的P-Value值如果小于0.001,那么就說明這兩者之間存在顯著關系,即這些分析結果顯著的lncRNAs與兒童骨肉瘤患者的生存狀態息息相關。在進行完單因素Cox回歸分析之后,利用單因素Cox回歸分析得到的顯著lncRNAs進行多因素Cox回歸分析。在多因素Cox回歸分析的過程中,一步選擇p值更小的lncRNAs,并記錄下這些lncRNAs的風險分數估值以用來構建兒童骨肉瘤患者的生存風險評分公式。通過該公式可以將兒童骨肉瘤患者劃分為低風險組和高風險組兩類,使用kaplan-meier生存分析曲線可以將這兩組不同風險患者的生存預期差異較直觀的展示出來。為了進一步驗證所篩選的lncRNAs預后分析能力是否獨立于其他臨床變量如性別等指標,利用多因素Cox回歸分析加以驗證。生存分析的主要目的在于研究變量X與觀察結果即生存函數(累積生存率)S(t,X)之間的關系。當S(t,X)受很多因素影響,即X=(X1,…,Xm)為向量時,傳統的方法是考慮回歸方程——即諸變量Xi對S(t,X)的影響。但由于生存分析研究中的數據包含刪失數據。且時間變量t通常不滿足正態分布和方差齊性的要求,這就造成了用一般的回歸方法研究上述關系的困難[20]。在這里就需要用到比例風險回歸模型(Cox回歸模型),該模型是由英國統計學家D.R.Cox于1972年提出的一種半參數回歸模型。模型可以用來描述了不隨時間變化的多個特征對于在某一時刻死亡率的影響,模型的基本形式如下:h(t,X)=h0(t)exp(β1X1+β2X2+…+βmXm)(公式3-1)其中,β1,β2,…,βm為自變量的偏回歸系數,它是須從樣本數據作出估計的參數;h0(t)是當X向量為0時,h(t,X)的基準危險率,它是有待于從樣本數據作出估計的量。3.4富集分析在這里使用R中的clusterProfiler包對在兒童骨肉瘤發生過程中具有預后作用的lncRNAs與篩選后的17987個蛋白編碼基因進行GO(GeneOntology)功能富集分析和KEGG(KyotoEncyclopediaofGeneandGenomes)通路分析來進一步研究與兒童骨肉瘤患者生存顯著相關的lncRNAs的生物學功能。GO功能富集分析和KEGG通路分析在相關系數p<0.05的前提下進行。

第4章實驗結果與討論4.1確定生存相關lncRNA通過將86個來自于TARGET數據庫的兒童骨肉瘤患者數據隨機分為訓練集(n=43)和測試集(n=43)。針對訓練集,使用單因素Cox回歸模型對數據中包含的所有lncRNAs的單個表達值與患者的生存狀況進行分析。最后,選取了18個與兒童骨肉瘤患者預后相關的lncRNAs(p值<0.04;表4-1)。按照風險比(Hazard.Ratio)對這18個lncRNAs進行分析(大于1表示與事件概率正相關的協變量,因此與生存期長度負相關,HR=1:無效;HR<1:減少危害;HR>1:危險增加),發現有9個lncRNAs(ELFN1_AS1、UNC5B_AS1、IGF2BP2_AS1、AC083900.1、PARD6G_AS1、RP11_472M19.2、RP11_597M12.2、CTC_215O4.4、RP11_549L6.3)呈正相關,即這9個基因的表達量越高,對應的兒童骨肉瘤患者的生存期就越短。剩下的9個lncRNAs(RP11_679B19.1、CTD_2269F5.1、RP11_467L19.16、CTD_2341M24.1、RP11_774O3.3、RP11_70D24.2、ACTN1_AS1、RP1_30M3.5、RP11_84G21.1)呈負相關,即這9個基因在生存期較長的兒童骨肉瘤患者中有較高的表達。表4-1與生存相關的18個lncRNA的信息基因編號基因名稱風險比CI95P.valueENSG00000236081ELFN1_AS11.491.15-1.930.002669ENSG00000237512UNC5B_AS11.471.03-2.090.03332ENSG00000277954RP11_679B19.10.620.41-0.950.027777ENSG00000163915IGF2BP2_AS11.621.13-2.310.008218ENSG00000250320CTD_2269F1-0.870.007192ENSG00000225111AC083908-3.590.001103ENSG00000278626RP11_467L19.160.490.27-0.880.016884ENSG00000258733CTD_2341M24.10.550.39-0.770.000609ENSG00000267270PARD6G_AS11.671.08-2.570.019897ENSG00000251615RP11_774O3.30.510.3-0.850.009831ENSG00000231441RP11_472M-4.80.005834ENSG00000277621RP11_597M12.21.611.05-2.460.028892ENSG00000278058RP11_70D24.20.550.32-0.970.037669ENSG00000259062ACTN1_AS10.460.23-0.890.021524ENSG00000266936CTC_215O5-40.016766ENSG00000272345RP1_30M3.50.270.13-0.560.000434ENSG00000228417RP11_549L6.32.891.38-6.080.004998ENSG00000257557RP11_84G21.10.350.18-0.690.0022274.2構建生存模型為了在訓練集中構建兒童骨肉瘤患者預后分析模型,首先對這18個具有預后作用的lncRNA進行了多因素Cox回歸分析,經過多輪迭代多因素Cox回歸分析,鑒定出了2個與兒童骨肉瘤患者總體存活率顯著相關的lncRNA(表4-2)。表4-2與生存顯著相關的2個lncRNA的信息基因編號基因名稱coefexp(coef)se(coef)zPr(>|z|)ENSG00000266936CTC_215O4.40.73342.08210.32082.2860.02224ENSG00000231441RP11_472M19.20.92582.52380.34822.6590.00784基于這2個預后lncRNA的表達數據和由多因素Cox回歸分析產生的預后lncRNA的回歸系數構建兒童骨肉瘤生存預測的風險值評分公式。公式如下:Riskscore=lncRNA1×coef1+lncRNA2×coef2公式(4-1)其中風險值由這2個lncRNA的表達量與多因素多因素Cox回歸分析產生的預后lncRNA的回歸系數coef乘積之和計算。根據由這2個lncRNA構建的兒童骨肉瘤預后分析模型,計算訓練集中的每位患者的風險值,然后根據風險值大小按順序進行排列。由風險中位數作為閾值,將訓練集中的43位患者分為高風險組(n=16)和低風險組(n=27)兩組并用Kaplan-Meier曲線(圖4-1)展示這2個組的患者的生存狀態。Kaplan-Meier生存分析表明高風險組患者與低風險組患者的生存狀況存在非常顯著差異(p值<0.0001)。低風險患者的生存時間明顯比高風險組患者長。低風險組中患者1000、2000、3000天的總體生存率分別為59%、41%、19%;而高風險組中患者在1000、2000、3000天的總體生存率分別為31%、6%、0%。為了評估由這兩個2個預后lncRNA建立的兒童骨肉瘤生存模型的性能,對模型進行ROC(ReceiverOperatingCharacteristic)曲線分析,得到該模型的AUC值為0.796(圖4-2),進一步說明本次構建的預后分析模型在預測兒童骨肉瘤患者2500天內的生存時間比較準確。圖4-1利用生存模型預測訓練集中患者的總體生存狀況圖4-2ROC特征曲線展示模型在訓練集中的表現4.3模型整體驗證基于兒童骨肉瘤患者生存相關的lncRNAs的生存分析模型在訓練集中有較好的表現,為了進一步驗證該生存模型的表現,使用類似的方法在測試集中進行測試。計算測試集中的每位患者的風險值,然后根據風險值大小按順序進行排列。由風險中位數作為閾值,將測試集中的43位患者分為高風險組(n=18)和低風險組(n=25)兩組并用Kaplan-Meier曲線(圖4-3)展示這2個組的患者的生存狀態。Kaplan-Meier生存分析表明高風險組患者與低風險組患者的生存狀況存在顯著差異(p值=0.016)。與訓練集中相同,低風險患者的生存時間明顯比高風險組患者更長。低風險組中患者1000、2000、3000天的總體生存率分別為68%、40%、20%;高風險組中患者1000、2000、3000天的總體生存率分別為56%、6%、0%。在整個數據集中進行驗證也得到相似的結果(圖4-4),在全部的數據集中,將患者分為高風險組(n=34)和低風險組(n=52),同樣高風險組患者的生存期明顯較低風險患者短。為了評估由這兩個2個預后lncRNA建立的兒童骨肉瘤生存模型的性能,在此也對測試集與整個數據集進行ROC(ReceiverOperatingCharacteristic)曲線分析,得到該模型的AUC值為0.726與0.777。說明了這個生存計算模型在不同的數據集中都有較好的表現。圖4-3利用生存模型預測測試集中患者的總體生存狀況圖4-4利用生存模型預測整個數據集中患者的總體生存狀況4.4模型獨立性驗證為了驗證構建的生存分析模型對兒童骨肉瘤患者的生存分析的獨立性,在這里對整個數據集按照性別進行分組。整個數據集的兒童骨肉瘤患者被分為男性組(n=47)以及女性組(n=39),將這兩個數據集分別用構建的生存分析模型進行預后分析,發現該生存模型依舊能將男性組與女性組的患者劃分為高風險和低風險兩種類別,且具有較顯著的差異(圖4-5,p值=0.0034、圖4-6,p值<0.0001)。通過該分析結果可以證明,基于骨肉瘤患者的生存分析模型具有較高的獨立性,能夠準確地對不同性別患者生存期進行估計。圖4-5利用生存模型預測整個男性患者的總體生存狀況圖4-6利用生存模型預測整個女性患者的總體生存狀況4.5富集功能分析上文中通過一系列的分析與驗證,發現基于兒童骨肉瘤患者生存相關的lncRNAs建立的生存預測模型具有良好的預后預測的能力。為了進一步弄清楚兒童骨肉瘤患者生存相關的lncRNAs在兒童骨肉瘤發生的過程中發揮什么樣的作用,進行了富集功能分析。首先進行篩選工作,針對基因的表達量進行過濾,過濾標準設置為:至少有25%的樣本,基因的表達量大于2。篩選后,利用R中的clusterProfiler包(該軟件包實現了分析和可視化基因與基因簇的功能概況(GO和KEGG)的方法)對基因進行功能富集分析和結果可視化(圖4-7、圖4-8、圖4-9、圖4-10)。在這里以篩選后顯著的hsa04910通路為例進行KEGG通道富集可視化分析,并在pathway通路圖上標記富集到的基因(圖4-11)。通過以上的分析,可以發現在各個過程顯著的基因,從而研究具有預后價值lncRNA的蛋白編碼基因在癌癥中起的作用。圖4-7GO功能富集分析生物過程柱狀圖與點狀圖圖4-8GO功能富集分析細胞組成柱狀圖與點狀圖圖4-9GO功能富集分析分子功能柱狀圖與點狀圖圖4-10GO功能富集分析有向無環圖圖4-11KEGG通道富集可視化分析(以hsa04910通路為例)4.6討論lncRNA在腫瘤的產生與發展中起著重要的作用,其能通過調控重要的癌基因或抑癌基因,進而參與細胞的惡化和腫瘤的發生[21]。許多研究表明lncRNA的異常表達可以作為診斷和預后的獨立生物標志物,進而判斷病人是否患癌癥[22-24]。近年來,有許多研究針對其他預后相關的lncRNA進行分析研究,從而建立起相應癌癥的預后預測模型對患者進行預后預測[3,6,7,8],對患者的臨床決策提供了有效的支持,但是尚未有研究對兒童骨肉瘤建立相應的預后預測模型進行預后預測與決策支持。因此,建立有效的風險預測模型對兒童骨肉瘤患者的臨床決策具有重要作用。本章對兒童骨肉瘤患者的臨床數據和匹配的lncRNA的表達數據進行分析,發現了與兒童骨肉瘤預后相關的2個lncRNA,經過驗證,發現基于這2個預后lncRNA建立的風險值預測模型可以有效地分析兒童骨肉瘤患者的預后情況。通過ROC曲線分析,其預后分析的性能是可靠的,所以基于這2個lncRNA建立的風險預測模型可以有效地分析兒童骨肉瘤患者的預后情況。同時,經過模型的獨立性驗證,通過分析得到的預后相關的lncRNA能夠獨立于其他臨床數據(如性別等)發揮作用。

結語通過從TARGET數據庫下載的兒童骨肉瘤患者的臨床數據和lncRNA的表達數據進行分析,確定了2個與兒童骨肉瘤患者預后相關的lncRNA,基于這2個lncRNA建立的風險預測模型可以有效地對兒童骨肉瘤患者的生存時間進行估算。通過對轉錄組數據和兒童骨肉瘤患者的臨床數據結合進行分析,更加深入的了解到lncRNA的差異表達與癌癥患者生存之間的關系,通過該過程建立的風險預測模型能夠得到充分的統計學分析結果的支持。論文研究還有以下不足和改進之處。首先,本文所使用的來自TARGET數據庫的兒童骨肉瘤患者的轉錄組數據和臨床數據,如果能使用其他數據平臺的兒童骨肉瘤患者的轉錄組數據和臨床數據進行多重驗證可以使分析結果更為準確。其次,本次數據的樣本數量較少,可用的只有86例兒童骨肉瘤患者的轉錄組數據和臨床數據,過少的樣本數量構建的風險預測模型在實際應用中可能會遇到分析的結果不如在全部數據集中測試的準確。最后,對于本次研究使用的轉錄組數據和臨床數據如果進行驗證,可以使本次研究的結果更加準確。

參考文獻[1]陸軍軍醫大學陸軍特色醫學中心腫瘤科副教授金豐谷一整理.骨肉瘤為何放療效果差[N].健康報,2019-12-19(008).[2]范璐,臧俊亭,馮娜,王鑫眾.骨肉瘤化療及耐藥分子機制的研究進展[J].癌癥進展,2019,17(21):2495-2497+2555.[3]常奇.基于多組學數據的癌癥患者生存期預測研究[D].大連海事大學,2017.[4]王宇,王心慰,劉爽,楊之輝,朱衛國,弓孟春.精準醫學的臨床部署:頂層架構設計及關鍵信息技術[J].轉化醫學雜志,2017,6(06):321-324.[5]馬廣煜.基于臨床組學信息融合的EHR決策支持系統研究[D].哈爾濱工業大學,2016.[6]WeigelMarionT,DowsettMitch.Currentandemergingbiomarkersinbreastcancer:prognosisandprediction.[J].Endocrine-relatedcancer,2010,17(4).[7]趙學彤,楊亞東,渠鴻竹,方向東.組學時代下機器學習方法在臨床決策支持中的應用[J].遺傳,2018,40(09):693-703.[8]X.Fang,N.Liu,Y.Du,F.YuanandY.Li,"ATen-LongNon-CodingRNAModelImprovesPrognosisPredictionofHepatocellularCarcinomaPatients,"20189thInternationalConferenceonInformationTechnologyinMedicineandEducation(ITME),Hangzhou,2018,pp.29-33.doi:10.1109/ITME.2018.00018[9]/item/CDSS/386665?fr=aladdin.[10]井立強,王艷萍,焦敬義,陳洪林.基于CDSS臨床知識庫應用與實踐[J].中國衛生信息管理雜志,2015,12(02):176-182.[11]李軍蓮,陳穎,鄧盼盼,任慧玲.國外基于人工智能的臨床決策支持系統發展及啟示[J].醫學信息學雜志,2018,39(06):2-6.[12]王昱.基于電子病歷數據的臨床決策支持研究[D].浙江大學,2016.[13]QuHZ,FangXD.AbriefreviewonthehumanencyclopediaofDNAElements(ENCODE)project.GenomicsProtBioinform,2013,11(3):135–141.[14]AltshulerDM,GibbsRA,PeltonenL,AltshulerDM,GibbsRA,PeltonenL,DermitzakisE,SchaffnerSF,YuF,PeltonenL,DermitzakisE,BonnenPE,AltshulerDM,GibbsRA,deBakkerPI,DeloukasP,GabrielSB,GwilliamR,HuntS,InouyeM,JiaX,PalotieA,ParkinM,WhittakerP,YuF,ChangK,HawesA,LewisLR,RenY,WheelerD,GibbsRA,MuznyDM,BarnesC,DarvishiK,HurlesM,KornJM,KristianssonK,LeeC,McCarrolSA,NemeshJ,DermitzakisE,KeinanA,MontgomerySB,PollackS,PriceAL,SoranzoN,BonnenPE,GibbsRA,Gonzaga-JaureguiC,KeinanA,PriceAL,YuF,AnttilaV,BrodeurW,DalyMJ,LeslieS,McVeanG,MoutsianasL,NguyenH,SchaffnerSF,ZhangQ,GhoriMJ,McGinnisR,McLarenW,PollackS,PriceAL,SchaffnerSF,TakeuchiF,GrossmanSR,ShlyakhterI,HostetterEB,SabetiPC,AdebamowoCA,FosterMW,GordonDR,LicinioJ,MancaMC,MarshallPA,MatsudaI,NgareD,WangVO,ReddyD,RotimiCN,RoyalCD,SharpRR,ZengC,BrooksLD,McEwenJE.Integratingcommonandraregeneticvariationindiversehumanpopulations.Nature,2010,467(7311):52–58.[15]謝兵兵,楊亞東,丁楠,斱向東.整合分析多組學數據篩選疾病靶點的精準醫學策略.遺傳,2015,37(7):655–663.[16]HanLeng,YuanYuan,ZhengSiyuan,YangYang,LiJun,EdgertonMaryE,DiaoLixia,XuYanxun,VerhaakRoelandGW,LiangHan.ThePan-Canceranalysisofpseudogeneexpressionrevealsbiologicallyandclinicallyrelevanttumoursubtypes.[J].Naturecommunications,2014,5.[17]Diaz-UriarteRamón.GeneSrFandvarSelRF:aweb-basedtoolandRpackageforgeneselectionandclassificationusingrandomforest.[J].BMCbioinformatics,2007,8.[18]XuRui-Hua,WeiWei,KrawczykMichal,WangWenqiu,LuoHuiyan,FlaggKen,YiShaohua,ShiWilliam,QuanQingli,LiKang,ZhengLianghong,ZhangHeng,CaugheyBennettA,ZhaoQi,HouJiayi,ZhangRunze,XuYanxin,CaiHuimin,LiGen,HouRui,ZhongZheng,LinDanni,FuXin,ZhuJie,DuanYaou,YuMeixing,YingBinwu,ZhangWengeng,WangJuan,ZhangEdward,ZhangCharlo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論