生物信息學(xué)及其軟件平臺(tái)_第1頁
生物信息學(xué)及其軟件平臺(tái)_第2頁
生物信息學(xué)及其軟件平臺(tái)_第3頁
生物信息學(xué)及其軟件平臺(tái)_第4頁
生物信息學(xué)及其軟件平臺(tái)_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)及其軟件平臺(tái)第1頁,課件共54頁,創(chuàng)作于2023年2月第一部分:

生物信息學(xué)研究需要什么?第2頁,課件共54頁,創(chuàng)作于2023年2月需要什么?數(shù)據(jù)庫(DNA、蛋白質(zhì)序列)各種算法(Blast,Genscan……)這樣就行了嗎?——用戶(生物學(xué)研究人員)如何能更好的使用a和b第3頁,課件共54頁,創(chuàng)作于2023年2月Bioinformatics–aDefinition

--OxfordEnglishDictionary(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformationsystemformolecularbiologyandhasmanypracticalapplications.第4頁,課件共54頁,創(chuàng)作于2023年2月Bioinformatics:科技界一顆耀眼的新星在BIOINFORMATICS沒有誕生之前,一個(gè)新藥的問世需要十年時(shí)間,數(shù)億美元的R&D,而BIOINFORMATICS已將這個(gè)過程減少三分之二,R&D的費(fèi)用也相應(yīng)大大減少。許多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潛在的商機(jī),紛紛投資BIOINFORMATICS研究項(xiàng)目。第5頁,課件共54頁,創(chuàng)作于2023年2月美國電腦執(zhí)照--高薪階層“BIOINFORMATICSCERTIFICATION”,這是目前最新的一門生物化學(xué)工程與電腦技術(shù)相結(jié)合的課程。包括“CBS”證書和“CBM”證書。VisualBasic

--$1195VisualC++

--$1295BioInformatics

--CBS,CBM

$2500

MIT:Course:20.01sDate:June24-28,2002Tuition:$2,500

第6頁,課件共54頁,創(chuàng)作于2023年2月后基因組時(shí)代后基因組時(shí)代的挑戰(zhàn):

1.蛋白組學(xué):序列->結(jié)構(gòu)->功能2.研究生物的生長代謝的過程和疾病的機(jī)制3.基因組藥物………生物信息學(xué)離不開高性能計(jì)算機(jī)。并需要信息學(xué)家的參與。急需有自主知識(shí)產(chǎn)權(quán)的生物信息處理軟件平臺(tái)和大量高效的快速的新算法的開發(fā)及改進(jìn)。第7頁,課件共54頁,創(chuàng)作于2023年2月pic2第8頁,課件共54頁,創(chuàng)作于2023年2月pic3第9頁,課件共54頁,創(chuàng)作于2023年2月Pic4第10頁,課件共54頁,創(chuàng)作于2023年2月Pic5第11頁,課件共54頁,創(chuàng)作于2023年2月Pic6第12頁,課件共54頁,創(chuàng)作于2023年2月Pic7第13頁,課件共54頁,創(chuàng)作于2023年2月MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModeling第14頁,課件共54頁,創(chuàng)作于2023年2月MajorApplicationII:FindingHomologs第15頁,課件共54頁,創(chuàng)作于2023年2月MajorApplicationIII:

OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,Statistics第16頁,課件共54頁,創(chuàng)作于2023年2月proteomicsdata第17頁,課件共54頁,創(chuàng)作于2023年2月Proteomicstools

IdentificationandcharacterizationDNA->ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignment第18頁,課件共54頁,創(chuàng)作于2023年2月CIF:生物信息學(xué)構(gòu)架

CorporateInformationFactory(CIF)是一個(gè)支援企業(yè)級(jí)的信息系統(tǒng)構(gòu)架結(jié)構(gòu)。生物信息學(xué)是在生物研究中信息系統(tǒng)的應(yīng)用。CIF正是一個(gè)從不同的源頭來集成生物信息學(xué)數(shù)據(jù),數(shù)據(jù)庫中管理這些信息,并將這些信息遞交專家系統(tǒng)進(jìn)行處理的一個(gè)完整的體系,數(shù)據(jù)集成、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)完整準(zhǔn)確性是CIF的特點(diǎn)。當(dāng)這些運(yùn)作起來之后,CIF提供了一個(gè)企業(yè)級(jí)管理生物信息數(shù)據(jù)的方法。第19頁,課件共54頁,創(chuàng)作于2023年2月生物信息學(xué)構(gòu)架(2)數(shù)據(jù)結(jié)構(gòu)、信息提取過程的不統(tǒng)一、數(shù)據(jù)集成和標(biāo)準(zhǔn)化工作的不力是目前生物信息學(xué)的一個(gè)問題,這個(gè)問題妨礙了信息的交互,這一點(diǎn)在基因組和蛋白組學(xué)研究中很突出。孤立的基因組和蛋白組數(shù)據(jù)只能揭示很少的在活體細(xì)胞內(nèi)的基因/蛋白的功能信息,而一個(gè)集成的,以系統(tǒng)學(xué)方法管理的生物信息學(xué)數(shù)據(jù)將為研究者帶來更廣闊的視野。第20頁,課件共54頁,創(chuàng)作于2023年2月服務(wù)器-客戶式結(jié)構(gòu)

client-server生物信息網(wǎng)絡(luò)中的數(shù)據(jù)庫服務(wù)廣泛采用服務(wù)器-客戶式結(jié)構(gòu),這些服務(wù)器包括為數(shù)眾多的數(shù)據(jù)庫搜索和序列對(duì)比服務(wù)器以及各專業(yè)領(lǐng)域的服務(wù)器.第21頁,課件共54頁,創(chuàng)作于2023年2月生物信息數(shù)據(jù)庫種類生物信息數(shù)據(jù)庫是種類繁多。近年來,世界各國的生物學(xué)家和計(jì)算機(jī)科學(xué)家合作,已經(jīng)開發(fā)了幾百個(gè)數(shù)據(jù)庫第22頁,課件共54頁,創(chuàng)作于2023年2月BioinformaticsandXMLXML因其將數(shù)據(jù)信息本身的存儲(chǔ)與關(guān)聯(lián)與表現(xiàn)形式相分離,強(qiáng)大的可擴(kuò)展性,本身層次清晰的樹形結(jié)構(gòu)特性以及跨平臺(tái)、跨語言的特性而成為良好網(wǎng)際語言,并在各種數(shù)據(jù)和存取工作中大顯神通。生物信息學(xué)的發(fā)展同樣引入了XML技術(shù)。第23頁,課件共54頁,創(chuàng)作于2023年2月 JAVA

Java是一種跨平臺(tái)的編程語言在基于JAVA語言開發(fā)的網(wǎng)上序列查詢和類比排列系統(tǒng)上,科學(xué)家們可通過視圖方式對(duì)已知DNA、蛋白質(zhì)結(jié)構(gòu)、基因結(jié)構(gòu)及科學(xué)家們提交的序列進(jìn)行比較,分析出有意義的信息,包括新基因的發(fā)現(xiàn),重復(fù)序列的測定,調(diào)控基因的確定,完整基因的分析等等。第24頁,課件共54頁,創(chuàng)作于2023年2月Java(2)Java迫使你更加系統(tǒng)化,必須進(jìn)行程序構(gòu)架規(guī)劃。而且它還能幫助你避免通常的編碼錯(cuò)誤?!庇腥苏f,Java很慢.真的嗎?第25頁,課件共54頁,創(chuàng)作于2023年2月第二部分:

我國生物信息學(xué)第26頁,課件共54頁,創(chuàng)作于2023年2月現(xiàn)狀及問題1.我國已有強(qiáng)大的DNA測序中心:

華大,北方,南方,..但我們需要運(yùn)算速度遠(yuǎn)比現(xiàn)在計(jì)算速度快的機(jī)器或方法.

2.生物信息學(xué)處理系統(tǒng)處于初級(jí)規(guī)模.有一些Genbank,EMBL,GCG的鏡象.

(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)

3.后基因組:科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.第27頁,課件共54頁,創(chuàng)作于2023年2月現(xiàn)有各種生物信息學(xué)網(wǎng)站(公共免費(fèi)的,如NCBI,EMBL)特點(diǎn):數(shù)據(jù)多、全,并且具有權(quán)威性缺點(diǎn):1)用戶太多(全世界),國內(nèi)的網(wǎng)慢,比如有時(shí)遞交較長的序列做Blast會(huì)很長時(shí)間得不到結(jié)果2)數(shù)據(jù)庫太大太多,使用不易付費(fèi)的,如:eB,doubletwist,com,雖然使用方便,幫助用戶在網(wǎng)站上保留數(shù)據(jù),服務(wù)性好,軟件也好用但是需付費(fèi),學(xué)術(shù)力量不強(qiáng)第28頁,課件共54頁,創(chuàng)作于2023年2月第三部分:

建立自主知識(shí)產(chǎn)權(quán)的生物信息學(xué)處理軟件平臺(tái)第29頁,課件共54頁,創(chuàng)作于2023年2月時(shí)期生物信息學(xué)的作用

我們能做的序列基因組收集、存儲(chǔ)、分析和共享信息資源能功能基因組識(shí)別基因及功能,圖譜能蛋白質(zhì)組鑒別和分類能治療/研究疾病基因預(yù)測/基因芯片能?藥物設(shè)計(jì)研制新藥/產(chǎn)業(yè)化能??我們能做什么第30頁,課件共54頁,創(chuàng)作于2023年2月GenbankHTGHTG是GenBank、DDJB及EMBL為使生物學(xué)家更好地進(jìn)行同源性對(duì)比搜尋高通量基因組序列而作的特殊分類。占所有DNA序列的70%以上。HTG部分包括那些通過高通量測序中心測序產(chǎn)生的尚未完成的DNA序列,有或沒有注釋。

第31頁,課件共54頁,創(chuàng)作于2023年2月項(xiàng)目目標(biāo)(生物信息學(xué)處理軟件平臺(tái))開發(fā)一個(gè)可以使用Genscan,Blast,Blocks等分析GeneBank的基因組數(shù)據(jù)并可以通過Web界面進(jìn)行查詢的原型系統(tǒng)不斷完善,添加算法和更新數(shù)據(jù),最終可以通過提供數(shù)據(jù)和服務(wù)來獲取社會(huì)效益和經(jīng)濟(jì)效益第32頁,課件共54頁,創(chuàng)作于2023年2月

各種序列:DNA,Protein生物信息學(xué)處理軟件平臺(tái)BlastGenscanBlocks生物學(xué)家計(jì)算生物學(xué)模型/算法軟件并行軟件:Blast,Phrap,SW市場化各種算法串行后基因組學(xué)數(shù)據(jù)并行第33頁,課件共54頁,創(chuàng)作于2023年2月項(xiàng)目功能描述(一)從Genbank中提取原始數(shù)據(jù),經(jīng)過機(jī)群系統(tǒng)的處理(運(yùn)行各種目前流行的算法,如Blast、GenScan、Blast等對(duì)提取的數(shù)據(jù)進(jìn)行分析),生成rawdata,最后經(jīng)過文本處理程序(perl)的處理,得到xml格式的數(shù)據(jù)。第34頁,課件共54頁,創(chuàng)作于2023年2月項(xiàng)目功能描述(二)用戶通過網(wǎng)頁提交檢索,檢索經(jīng)過預(yù)處理的核酸、蛋白質(zhì)序列數(shù)據(jù)庫,將結(jié)果以圖形、圖像的形式,通過網(wǎng)頁返回給用戶查看,檢索后的數(shù)據(jù)應(yīng)具備較高的可用性(以圖形化的方式將相應(yīng)的算法處理結(jié)果表達(dá)出來)第35頁,課件共54頁,創(chuàng)作于2023年2月競爭優(yōu)勢強(qiáng)大的計(jì)算資源高性能計(jì)算機(jī)高性能算法的支持并行Blast解決了Blast在單節(jié)點(diǎn)上的瓶頸問題我們對(duì)生物信息領(lǐng)域深刻的理解GenebankHTGDivision生物學(xué)家與計(jì)算機(jī)開發(fā)人員的緊密配合第36頁,課件共54頁,創(chuàng)作于2023年2月社會(huì)效益和經(jīng)濟(jì)效益社會(huì)效益具有我國自主知識(shí)產(chǎn)權(quán)的生物信息處理軟件平臺(tái)1、提供個(gè)人數(shù)據(jù)和服務(wù)2、為客戶的特殊要求度身定做數(shù)據(jù)或處理系統(tǒng)3、新算法的開發(fā)第37頁,課件共54頁,創(chuàng)作于2023年2月生物信息學(xué)處理

軟件平臺(tái)版本1。0

1。目前只注釋人類的Genome數(shù)據(jù)庫a.預(yù)測基因結(jié)構(gòu)

b.預(yù)測蛋白編碼基因

2。目前數(shù)據(jù)庫最重要來源是GenBank序列。未完成注釋的HTG序列70%,已部分完成注釋的PRI序列30%.

我們的平臺(tái)包括:

a.通過一個(gè)龐大的算法流水線(pipeline)來

加工,和注釋未完成(或已完成)的基因組的DNA序列.

b.數(shù)據(jù)庫格式化:

XML技術(shù).c.通過搜索引擎在網(wǎng)絡(luò)上實(shí)現(xiàn)可用性。

d.數(shù)據(jù)圖視化及用戶服務(wù)。第38頁,課件共54頁,創(chuàng)作于2023年2月

流程圖Genbankflatfile用戶數(shù)據(jù)算法流水線集群運(yùn)算(曙光,PBS,…..)數(shù)據(jù)處理,數(shù)據(jù)庫管理,XML,。。。搜索引擎網(wǎng)站W(wǎng)EBServerHTML圖視化第39頁,課件共54頁,創(chuàng)作于2023年2月xPBS命令GUI第40頁,課件共54頁,創(chuàng)作于2023年2月xPBSMON節(jié)點(diǎn)監(jiān)控第41頁,課件共54頁,創(chuàng)作于2023年2月圖視化—HTG沒有Genbank注釋

第42頁,課件共54頁,創(chuàng)作于2023年2月圖視化—PRI(有Genbank注釋)第43頁,課件共54頁,創(chuàng)作于2023年2月未來的圖視化第44頁,課件共54頁,創(chuàng)作于2023年2月第四部分:

基因組分析的算法的

現(xiàn)狀和發(fā)展問題第45頁,課件共54頁,創(chuàng)作于2023年2月Algorithms—已有算法(1)我們的分析使用算法:(已完成的)

a.GENSCAN--

預(yù)測exons(外顯子),introns(內(nèi)顯子)和Promotor(起動(dòng)子)...

預(yù)測可用作替換拼接形式的基因

b.BLOCKS--

預(yù)測出蛋白質(zhì)的結(jié)構(gòu):motifs(模式)和domains(域)。c.BLASTx--

預(yù)測蛋白質(zhì)的功能和相似性的家族。

第46頁,課件共54頁,創(chuàng)作于2023年2月blocks-算法(2)BLOCKS

>PR006781/10blocks:PI3KINASEP85REGULATORYSUBUNITSIGNATUREBlockFrameLocation(aa)BlockE-valuePR00678D0416-4341.6|---157aminoacids---|

PR00678

AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG7UP1_DROME<::::::::::::::::::::::::::DDD

第47頁,課件共54頁,創(chuàng)作于2023年2月Blastx-算法(3)第48頁,課件共54頁,創(chuàng)作于2023年2月算法(4)

a.REPEAT_MASKER--RepeatMasker是一程序.它能掩蓋散布在哺乳動(dòng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論