生物信息學期末考試重點_第1頁
生物信息學期末考試重點_第2頁
生物信息學期末考試重點_第3頁
生物信息學期末考試重點_第4頁
生物信息學期末考試重點_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一講生物信息學Bioinformatics是20世紀80年代末隨著人類基因組方案的啟動而興起的一門新型交叉學科,它表達了生物學、計算機科學、數學、物理學等學科間的滲透與融合.生物信息學通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,到達揭示數據所蘊含的生物學意義從而解讀生命活動規律的目的.生物信息學不僅是一門學科,更是一種重要的研究開發平臺與工具,是今后進行幾乎所有生命科學研究的推手.生物技術與生物信息學的區別及聯系生物技術生物信息學英文名稱BiotechnologyBioinformatics最終目的產品研究方法利用生物的特性和功能,設計構建具有預期功能的新物質或品系對生物信息進行采集

2、、處理、存儲、分析和解釋涉及學科基因工程、分子生物學、生物化學、遺傳學、細胞生物學、胚胎學、免疫學等1生物學、計算機科學、數學、物理學等開展歷程可追溯到2000.數十年生物信息學的開展歷史人類基因組方案HGP人類基因組方案由美國科學家于1985年提出,1990年啟動.根據該方案,在2021年要把人體約4萬個基因的密碼全部揭開,同時繪制出人類基因的譜圖,也就是說,要揭開組成人體4萬個基因的30億個堿基對的秘密.HGP與夏哈頓原子彈方案和阿波羅方案并稱為三大科學方案,被譽為生命科學的登月方案.百度百科隨著基因組方案的不斷開展,海量的生物學數據必須通過生物信息學的手段進行收集、分析和整理后,才能成為

3、有用的信息和知識.換句話說,人類基因組方案為生物信息學提供了興盛的契機.上文所說的基因、堿基對、遺傳密碼子等術語都是生物信息學需要著重研究的地方.細胞組成細胞膜細胞質第二講回憶細胞結構細胞是所有生命形式結構和功能的根本單位細胞器細胞核DNA的結構主要由脂類和蛋白質組成的環繞在細胞外表的雙層膜結構細胞膜與細胞核之間的區域:包含液體流質.夾雜物存儲的營養、分泌物、天然色素和細胞器細胞內完成特定功能的結構:線粒體、核糖體、高爾基體、溶酶體等最大的細胞器堿基腺噂吟A、鳥噂吟G、胞喀噬C、胸腺喀呢G核昔酸核甘酸是構成DNA分子的重要模塊.每個核甘酸分子由一分子稱作脫氧核糖的戊糖五碳糖、一分子磷酸和一分子

4、堿基構成.每種核甘酸都有一個堿基對,也就是A、T、C、G磷酸基腺噪吟胸腺嗜咤胞喀咤鳥噂吟基因是什么基因是遺傳物質的根本單位基因就是核昔酸序列.大局部的基因大約是1000-4000個核昔酸那么長.基因通過限制蛋白質的合成,從微觀和宏觀上影響細胞、組織和器官的產生.基因在染色體上.第四講數據結構及其對應算法數據結構的定義數據結構探討的是在計算機中如何有效地存放數據,使其可以方便地被處理 二維數組 鏈表 棧和隊列第五講序列比擬序列比擬的根本任務是:1 .發現序列之間的相似性2 .區分序列之間的差異目的:相似序列相似的結構,相似的功能判別序列之間的同源性推測序列之間的進化關系序列比照定義:序列比照(s

5、equencealignment)是運用某種特定的數學模型或算法,找出兩個或多個序列之間的最大匹配堿基或殘基數,比對的結果反映了算法在多大程度上提供序列之間的相似性關系及他們的生物學特征.編輯距離.AGCACACA.A-CACACTA.-Match(a>a)字符匹配-Delete(a,-)從第一條序列刪除一個字符,或者在第二條序列相應的位置插入空位-Replace(a,b)以第二條序列中的字符b替換第一條序列中的字符a,a不等于b-Insert(-,b)在第一條序列插入空位符,或者刪除第二條序列中的對應字符b編輯距離,又稱Levenshtein距離,是指在對于兩個字符串,由其中一個轉換成

6、另一個所需要的最少編輯次數,該編輯可以是Replace,DeletejnsertBeaten(S->a)(i->e)(g->-)Besting>51. Replace52. Replace53. DeleteS3.Insert(-,g)問題:把一個字符串si最少經過多少步操作變成字符串s2相關算法.遞歸函數調用自身,需要有邊界函數n!=n(n-l)(n-2).l;f(n)=f(n-l)+f(n-2)動態規劃(最長公共字符子序列)將大問題分解為一系列子問題,每個子問題的解保存在數組中用來求最終解問題描述字符序列的子序列是指從給定字符序列中隨意地(不一定連續)去掉假設干個字

7、符(可能一個也不去掉)后所形成的字符序列.令給定的字符序列X="xO,xl,xm-r;序列Y="yO,yl,yk-l是X的子序列,存在X的一個嚴格遞增下標序列<i0,il,ik-l>,使得對所有的j=0,1,k-1,有xij=yj.例如,X="ABCBDAB",Y="BCDB是X的一個子序列.最長公共字符子序列A="aO,al,am-1":B="bO,bl,bm-1";Z="zO,zl,zk-1,為它們的最長公共子序列,那么關于A,B,Z應該有如下性質:I1)如果am-l=bn-l,

8、貝zk-l=am-l=bn-l.且“zO,zl,.»zk-2"是"aO,al,.»am-2和"bO,bl,.»bn-2的一個最長公共子序列;2)如果am-l!=bn-l,那么假設zk-l!=am-l»蘊涵“zO,zlf.»zk-1"是"aO,al,.»am-2和"bO,bl,.»bn-1的一個最長公共子序列;3)如果am-l!=bn-l,貝lj假設zk-l!=bn-l,蘊涵“zO,zl,.»zk-1"是"aO,al,.»am-

9、1和“bO,bl,.»bn-2的一個最長公共子序列.最長公共字符子序列現有兩個序列X=xl,x2,x3,.xi,Y=yl,y2,y3,yj,設一個Ci,j:保存Xi與Yj的LCS的長度.0假設i=o或/=o=假設ij>0,七二刀maxCzJ-lLC/-lJ假設i,/>0戶戶匕第六講編輯距離問題算法 ifi=0Kj=0,matrix(i,j)=0 ifi=0且j>0,matrix.,j)=j ifi>0且j=0,matrix(izj)=iifi>1且j21,matrixfi,j)=minmatrix.-,j)+1,matrix(i,j-1)+1,matri

10、xli-l,j-1)+f(i,j),當第一個字符串的第i個字符不等于第二個字符串的第j個字符時,f(bj)=l:否那么,f(i,j)=Oo第八講全局序列比對算法Levenshtein與LCS的異同點+cost(ai,bj)cost=0111delete(i廠)delete(j,-)假設i=.或/=0假設,/>0,x,=力假設y.BA234123112SiJ=minSi-lJ+cost(ai,-)Si,j-l+cost(-,bj)0CZ力=(-11+1maXCU,y-lLCi-l,yi)算法DemoAB01B11B22第九講生物信息學的計算機、統計學及數學根底生物信息學的定義:生物信息學是

11、生物學與計算機科學以及應用數學等學科相互交叉而形成的一門新興學科.因此,計算機技術將是進行生物信息學研窕的重要手段;而數學知識是研究的重要方法.目前,一般提到的“生物信息學"是就指這個狹義的概念,更準確地說,應該是金子生物信息學(MolecularBioinformatics)o2、動態規劃方法動態規劃(DynamicProgramming)是一種解決多階段決策過程的最優化方法或復雜空間的優化搜索方法動態規劃解決問題的根本過程是:將一個問題的全局解分解為局部解,逆序遞推求出局部最優解,隨著執行過程的推進,“局部逐漸接近"全局,最終獲得全局最優解I在生物信息學中,使用得最多的

12、是反向傳播神經網絡(BackPropagationNeuralNetwork,簡稱BP網).專家系統專家系統(ExpertSystem)是一種基于知識的智能系統,它將領域專家的經驗用一定的知識表示方法表示出來,并放入知識庫中,供推理機使用知識庫是專家系統的第一重要組成局部,知識庫中的知識通常分為兩類:1 .一類領域的事實性知識或廣泛公用的知識2 .另一類是啟發性知識,是該領域專家在長期研究和實踐過程中積累起來的經驗總結知識獲取方式大致上可以分為兩種:一種是由知識工程師向領域專家詢問有關知識,經過整理編輯后將知識轉換成計算機表示形式,送入知識庫另一種是針對大量數據進行機器學習,分析、總結和抽取出

13、有用的新知識,這是更高層次的知識獲取方式.專家系統的另一個重要局部是推理機,由它來限制和協調整個系統,并根據當前輸入的數據和知識,按一定的推理策略,去解決當前的問題,推導出結論.第十講數據挖掘數據挖掘(定義)從技術層而上:數據挖掘就是從大量數據中提取有用信息的過程從商業層而上:數據挖掘就是一種商業信息處理技術,通過對大量業務數據進行抽取、轉換、分析和建模處理,從中提取輔助商業決策的關鍵性數據數據挖掘(任務)分類分析(Classification)通過分析例如數據庫中的數據,為每個類別做出準確的描述或建立分析模型產生分類規那么,然后用這個模型或規那么對數據庫中的其他記錄進行分類.已被廣泛應用于用

14、戶行為分析、生物科學等領域.聚類分析(Clustering)聚類和分類是兩個容易混淆的概念.聚類是一種無指導的觀察式學習,沒有預先定義的類.而分類問題是有指導的例如式學習,預先定義類.分類是練習樣本里包含有分類屬性值,而聚類是要在練習樣本中發現這些分類屬性值.第十一講動態規劃矩陣相乘只有當矩陣4的列數與矩陣B的行數相等時4X8才有意義.一個mX.的矩陣a(mfn)左乘一個nXp的矩陣b(n,p),會得到一個mXp的矩陣c(m,p)(123x1345)“234、1234<1234,121824243648共計算2*3*4=24次動態規劃算法確定要用動態規劃算法之后如何去分析問題怎么描述問題

15、,要把問題描述為交疊的子問題交疊子問題的初始條件邊界條件動態規劃在形式上往往表現為填矩陣的形式回憶編輯距離或者LCS算法,以上三點也都在我們的分析中表達背包問題背包問題簡述問題:如何在不超出背包重量的前提下得到最大價值思考解決問題的結構,尋找最優子結構Item31,32,33w:5,3,2P:978MaxWeight:5indextWIeft.valueW:5,3,2P:978MaxWeight:5問題:一共要計算多少種可能性核心算法cim=maxci-lm/ci-lm-wi+pi第十四講信息可視化技術背景計算機圖形學的產生和開展為可視化的誕生奠定根底1987年正式將可視化分為:數據可視化、信

16、息可視化、科學可視化數據可視化將數據以圖像的形式呈現出來數據可視化主要旨在借助于圖形化手段,清楚有效地傳達與溝通信息.數據可視化是關于數據之視覺表現形式的研究;其中,這種數據的視覺表現形式被定義為一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量.數據可視化技術的根本思想是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析.根本概念及構成元素數據空間:由n維屬性和m個元素組成的數據集所構成的多維信息空間數據開發:利用一定的算法和工具對數據進行定量的推演和計算數據分析:指對多維數據進行切片、塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據數據可視化:指將大型數據集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論