




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物信息學原理題庫作者:日期:、關(guān)于B LAST簡述BL A ST搜索的算法思想。答:BLAST是一種局部最優(yōu)比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進行比對,這些小片段被叫做字” w or d”;當一定長度的的字(W)與檢索序列的比對達到一個指定的最低分(T)后,初始比對就結(jié)束了; 一個序列的匹配度由各部分匹配分數(shù)的總和決定,獲得高分的序列叫做高分匹配片段(H SP),程序?qū)⒆詈玫腍SP雙向擴展進行比對,直到序列結(jié)束或者不再具有生物學顯著性,最后所得到的序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MS P),這樣,BL AST既保持了整體的
2、運算速 度,也維持了比對的精度。BLAST的五個子程序程查詢序刃數(shù)據(jù)庫種類匱述方法BlastpSB質(zhì)可以找到具有遠源 遺化關(guān)系的匹配序 列待技索SB序列石蛋 a數(shù)扌居庫比較Blastn適合尋找分值較高 的匹配,不適合遠源恃捜索極釀仔列與核 0澈振庫比較Blasts(已翻譯)蛋白質(zhì)適合新DNA序列和 EET序列的分聽將待投索核釀序列按 E個讀框翻鐸成?gs 質(zhì)序列.然后與數(shù)據(jù) 庫中的se質(zhì)比較TBlastn蚩eja核首酸(已餓譯適合尋扶數(shù)據(jù)庫中 尚未標注的編碼區(qū)將數(shù)據(jù)庫中檯酸序列 按6個諒框翻譯成蚩 S序列,然后與待捜 索s日序列對比TBlastx核甘酸 (已翻 譯)已厳譯)適臺分祈EST嚴列尢
3、論是待捜索核酸嚴 列違是麴據(jù)庫中核釀 序列,都按6個讀框制評成蛋白序列B L AST 套件的 bias tn、bl a stp、b lastx、tbi a s t n 和 tbia s tx 子工具的用途什么?答:blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進行比較;B 1 ast p是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比較,可以尋找較遠的關(guān)系;B 1 as tx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比對,對分析新序列和EST很有用;Tb 1 astn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進行比對,對于尋找數(shù)據(jù)庫中序列沒有標
4、注的新編碼區(qū)很有用;Tbl as tx只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進行蛋白質(zhì)序列比對B L A ST中,E值和P值分別是什么,它們有什么意義??答:BLAS T中使用的統(tǒng)計值有概率P值和期望e值。? E期望值(E -V a lue)這個數(shù)值表示你僅僅因為隨機性造成獲得這一比對結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對結(jié)果越顯著。默認值為10,表示比對結(jié)果中將有 10個匹配序列是由隨機產(chǎn)生,如果比對的統(tǒng)計顯著性值(E值)小于該值(10),則該比對結(jié)果將被檢出,換句話說,比
5、較低的E值將使搜索的匹 配要求更嚴格,結(jié)果報告中隨機產(chǎn)生的匹配序列減少。p值表示比對結(jié)果得到的分數(shù)值的可信度。一般說來,P值越接近于零,則比對結(jié)果的可信度越大;相反,P值越大,則比對結(jié)果來自隨機匹配的可能性越大。?(閾值越高,序列相似就越可信 )?(序列越長,序列相似就越可信)試述P SI B L AST搜索的5個步驟。答:1:選擇待查序列(q U ery)和蛋白質(zhì)數(shù)據(jù)庫;:2 PSI-BLAS T構(gòu)建一個多序列比對,然后創(chuàng)建一個序列表譜(p r o f ile)又稱特定位置打分矩陣(PSSM); : 3 P SSM被用作quer y搜索數(shù)據(jù)庫4 PSI-BLAST 估計統(tǒng)計學意義 (E va
6、 l ue s )5:重復3:和4,直到?jīng)]有新的序列發(fā)現(xiàn)。6 . P SI-BL A ST and PH I-B L A STP SI B L AST :位點特異性反復比對,首先進行一般的blastp比對,從比對結(jié)果中構(gòu)建多序列比對的搜索矩陣,然后用此矩陣在一次搜索原來的數(shù)據(jù)庫,重復5次直到?jīng)]有新的結(jié)果出現(xiàn)為止。其是一種更加高靈敏度的Blastp程序,對于發(fā)現(xiàn)遠親物種的相似蛋白或某個蛋白家族的新成員。PH I -Bl a st:模式識別BL A ST,是一種既能和查詢匹配又能和模式匹配的的蛋白序列的比 對程序,是一種高靈敏性的blastp程序,一般經(jīng)過一次搜索即可取得很好的效果,而當一次之后其
7、與P SI-BLAST功能是一致的。廣泛用于蛋白家族成員的鑒定。15.全局比對與局部比對的比較及生物學意義全局比對:對序列的全部字符進行比對,試圖使盡可能多的字符實現(xiàn)匹配。其主要用于序列相似度很高且序列長度相近的序列比對,用于進化的研究和結(jié)構(gòu)的預測。局部比對:尋找序列間相似度最高的區(qū)域 ,也就是匹配密度最高的部分。其主要應(yīng)用于某些部 位相似度較高而其他部位差異較大的序列的比對, 用于尋找保守的核苷酸及蛋白質(zhì)序列中氨 基酸模式。什么是序列比對中使用的 選擇使用的矩陣是什么 矩陣(S coring matrix )。PA M 矩陣(Point AccepBLASTPAM矩陣和 BLO S UM矩陣
8、都是用于序列相似性比對的記分d M utati on)基于進化的點突變模型,如果兩種氨基酸替換頻那么這對氨基酸替換得分就高。一個PAM就是一個進化的變,但這并不意味10 0次PAM后,每個氨基酸都發(fā)生變化,因為其 ,甚至可能會變回到原來的氨基酸。PAM矩陣和B L OSUM矩陣,它們的作用是什么,一般 答:繁,說明自然界接受這種替換,異單位,即1%的氨基酸改變 中一些位置可能會經(jīng)過多次突變模塊替換矩陣 BLO S UM(B L Ocks Subs t i t u t ion Mat r ix)首先尋找氨基酸模式,即有意 義的一段氨基酸片斷(如一個結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列),分別比較相同
9、的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數(shù)據(jù)),然后,以所有6 0%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BL OSUM 6 0;以所有8 0%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù) 產(chǎn)生B LOS UM80。此矩陣與PAM矩陣的不同之處在于: (1)用于產(chǎn)生矩陣的蛋白質(zhì)家族及多肽鏈數(shù)目,BLOSUM:匕PAM大約多20倍。,產(chǎn)生“取(2 ) PAM家族內(nèi)成員相比,然后把所有家族中對某種氨基酸的比較結(jié)果加和在一起代”數(shù)據(jù)(PAM-1 ) ; PA M- 1 自乘 n 次,得 PAM-n。假設(shè)你得到一段未知基因的個分析流程來分析該未知基因的功能和家族類別(包括系統(tǒng)發(fā)育
10、樹構(gòu)建1、得到未知基因的 D NA序列,用 和蛋白質(zhì)序列。2、接著,用搜索出來的較相似的序列用突變情況。3、最后用距離法構(gòu)建系統(tǒng)發(fā)育樹。 假設(shè)你得到一段未知蛋白的氨基酸序列DNA序列,從你學習到的生物信息學分析方法和軟件,設(shè)計一)B la st做序列比對,找出與其基因相似的核苷酸序列ClustW進行多序列比對,得到該序列的保守情況和,從你學習到的生物信息學分析方法和軟件,設(shè)計一個分析流程來分析該未知蛋白的功能和家族類別以及其結(jié)構(gòu)預測。1用該序列進行 BLA S TP搜索。2、再對其進行蛋白質(zhì)結(jié)構(gòu)域、功能域的搜索,可以用Zn terpro s can、Pf am ,并對其進行結(jié)構(gòu)分析。3、再用C
11、lustW進行多序列比對。4、用人工神經(jīng)網(wǎng)絡(luò)的方法對其結(jié)構(gòu)進行結(jié)構(gòu)預測。、關(guān)于分子進化系統(tǒng)發(fā)生樹構(gòu)建的基本方法最大簡約法(max im u m pa r simony , MP)是構(gòu)造一棵反映分類單元之間最小變化的系 統(tǒng)發(fā)生樹,在一系列能夠解釋序列差異的的進化樹中找到具有最少核酸或氨基酸替換的進化 樹。距離法(di s tan ce)根據(jù)一定的假設(shè)(進化距離模型)推導得出分類群之間的進化距離, 構(gòu)建一個進化距離矩陣進化距離構(gòu)建進化樹的方法有很多,常見有:F M法NJ法/鄰接法 是一種不僅僅計算兩兩比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結(jié)構(gòu)進行限制,能夠克服UPG MA算法要求進化
12、速率保持恒定的缺陷。除權(quán)配對算法(UPGMA法)最初,每個序列歸為一類,然后找到距離最近的兩類將其歸為一 類,定義為一個節(jié)點,重復這個過程,直到所有的聚類被加入,最終產(chǎn)生樹根。最大似然法(maxim u m l i k e l i h o o d,ML )它對每個可能的進化位點分配一個概率,然后綜合所有位點,找到概率最大的進化樹。最大似然法允許采用不同的進化模型對變異進行 分析評估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。簡述除權(quán)配對法(UP G MA )的算法思想。答:通過兩兩比對聚類的方法進行,在開始時,每個序列分為一類,分別作為一個樹枝的生長點,然后將最近的兩序列合并,從而定義出一個節(jié)點,將這個過程
13、不斷的重復,直到所有 的序列都被加入,最后得到一棵進化樹。 P11 9 11)簡述鄰接法(NJ)構(gòu)樹的算法思想。答:鄰接法的思想不僅僅計算最小兩兩比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結(jié)構(gòu)進行限制。這種算法由一棵星狀樹開始,所有的物種都從一個中心節(jié)點出發(fā),然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列,每一輪過程中考慮所有可能的序列對,把能使樹的整個分支長度最小的序列對一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的 近鄰序列。P11712)簡述最大簡約法(MP)的算法思想。P6 8答:是一種基于離散特征的進化樹算法。生物演化應(yīng)該遵循簡約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的
14、演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡約分析(或稱為同等加權(quán))和加權(quán)最大簡約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點進化速率不同)而對其進行不同的加權(quán)處理。P120 1 3)簡述最大似然法(M L )的算法思想。P6 9答:是一種基于離散特征的進化樹算法。該法首先選擇一個合適的進化模型,然后對所有可能的進化樹進行評估,通過對每個進化位點的替代分配一個概率,最后找出概率最大的進化樹。P 12 214) U P GM A構(gòu)樹法不精確的原因是什么?P6 9答:由個于U PG MA假設(shè)在進化過程中所有核苷酸 /氨基酸都有相同的變異率,也就是存在 著一個分子鐘
15、;這種算法當所構(gòu)建的進化樹的序列進化速率明顯不一致時,得到的進化樹相對來說不準確的。進化樹的可靠性分析自展法(Bootstra p Me tho d)1. 從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列;2. 重復上面的過程,得到多組新的序列;3. 對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。三、基礎(chǔ)知識生物信息學數(shù)據(jù)庫的組成包括哪些部分?數(shù)據(jù)庫有哪些類型?基因組數(shù)據(jù)庫、生物答案:生物信息學數(shù)據(jù)庫的組成包括一級數(shù)據(jù)庫 和二級數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫、 大分子三維空間結(jié)構(gòu) 數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻資料為基礎(chǔ)
16、構(gòu)建的二次數(shù)據(jù)庫。2)簡要介紹GenBank中的DNA序列格式。答案:G enBank中的DNA序列格式可以分成三個部分,第一部分為描 述符,從第一行L O C U S行到ORIGI N行,包含了關(guān)于整個記錄的信息;第二部分為特性表,從FEATU R ES行開始,包含了注釋這一紀錄的特性,是條目的核心,中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。簡要介紹F A S TA序列格式 答案:FASTA格式,又叫P ear son格式,是最簡單的,使用最多的格式。它的基 本形式分為三個部分:第一行:大于號( )表示一個新的序列文件的開始,為標記符。后面 可以加上文字說明,gi號,G enBank檢
17、索號丄O CU S名稱等信息。第二行:序列本身,為 DNA的標準符號,通常大小寫均可。結(jié)束:無特殊標志,但建議多留一個空行,以便將序列和其他內(nèi)容區(qū)分開。.序列的相似性與同源性有什么區(qū)別與聯(lián)系?答:(1)相似性是指序列之間相關(guān)的一種統(tǒng)計學的量度,兩序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相應(yīng)的分數(shù)來衡量這種相似;而同源性是指序列所代表的物種具有共同的祖先, 強調(diào)進化上的親緣關(guān)系,不能用相應(yīng)的數(shù)字去量化這種關(guān)系,我們只能說序列具有高的一致性的百分比的可能是同源的。相似的不一定是同源的,同源的則表現(xiàn)出一定的相似性。因為在進化中來源于不同的基因或序列由于不同的獨立突變而趨同的并不罕
18、見。相反同源序列由于來源于共通過祖先則表現(xiàn)出一定的相似性。四、一些名詞解釋FASTA序列格式:是將DN A或者蛋白質(zhì)序列表示為一個帶有一些標記的核苷酸或者氨基酸 字符串,大于號( )表示一個新文件的開始,其他無特殊要求。4. genb ank序列格式:是G enB ank數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學序列格式之一。該文件格式按域劃分為4個部分:第一部分包含整個記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個記錄的科學依據(jù);第四部分是核苷酸序列本身,以“/”結(jié)尾。5. E ntrez檢索系統(tǒng):是N CB I開發(fā)的核心檢索系統(tǒng),集成了NCB I的各種數(shù)據(jù)庫,具有
19、鏈接的數(shù)據(jù)庫多,使用方便,能夠進行交叉索引等特點。6 .B LA ST:基本局部比對搜索工具,用于相似性搜索的工具,對需要進行檢索的序列與數(shù)據(jù) 庫中的每個序列做相似性比較。P 947.查詢序列(que r y s eq uenee):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進行相似性比較 的序列。P9 8&打分矩陣(SC oring mat ri x):在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括 基于理論(如考慮核酸和氨基酸之間的類似性)和實際進化距離(如PA M )兩類方法。P299. 空位(gap ):在序列比對時,由于序列長度不同,需要插入一個或幾個位點以取得最佳比對 結(jié)果,這
20、樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點稱為空位。P291 0 .空位罰分:空位罰分是為了補償插入和缺失對序列相似性的影響,序列中的空位的引入不P37E值大小說明了可以找到與查詢序列E值越接近零,越不可能找到其他匹配序列 ,E值,也即相似性越能反映真實的生物學意義。P代表真正的進化事件,所以要對其進行罰分,空位罰分的多少直接影響對比的結(jié)果。1 1 .E值:衡量序列之間相似性是否顯著的期望值。(query)相匹配的隨機或無關(guān)序列的概率, 越小意味著序列的相似性偶然發(fā)生的機會越小95指序列中包含的重復度高的區(qū)域,如poly(A)。Y軸是另一個序列,y)加點,如果兩條序列完全相同則會形成一條;如
21、果完全沒有相似性則不能連成12.低復雜度區(qū)域:BLAST搜索的過濾選項。1 3.點矩陣(dot mat r ix):構(gòu)建一個二維矩陣,其X軸是一條序列, 然后在2個序列相同堿基的對應(yīng)位置(X 主對角線,如果兩條序列相似則會出現(xiàn)一條或者幾條直線 直線。,將這些序列做一個總體的比對14. 多序列比對:通過序列的相似性檢索得到許多相似性序列 以觀察它們在結(jié)構(gòu)上的異同,來回答大量的生物學問題。,從而可以通過分子進化推斷出15. 分子鐘:認為分子進化速率是恒定的或者幾乎恒定的假說物種起源的時間。16 .系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其 他性狀,可以研究推斷不同物種或基因之間的進
22、化關(guān)系。,一個父分支都只能被分成兩個17.進化樹的二歧分叉結(jié)構(gòu):指在進化樹上任何一個分支節(jié)點 子分支。,是引入時間概念的支序圖。系統(tǒng)發(fā)育圖:用枝長表示進化時間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖1 &直系同源:指由于物種形成事件來自一個共同祖先的不同物種中的同源序列,具有相似 或不同的功能。(書:在缺乏任何基因復制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。)19. 旁系(并系)同源:指同一個物種中具有共同祖先,通過基因重復產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書:由于基因重復事件產(chǎn)生的相似序列。)21.有根樹:20. 外類群:是進化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物
23、種。 能夠確定所有分析物種的共同祖先的進化樹。2 2.除權(quán)配對算法(UPGMA ):最初,每個序列歸為一類,然后找到距離最近的兩類將其歸 為一類,定義為一個節(jié)點,重復這個過程,直到所有的聚類被加入,最終產(chǎn)生樹根。23.鄰接法(n e ighb or -join i ng me t ho d):是一種不僅僅計算兩兩比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結(jié)構(gòu)進行限制,能夠克服UP GM A算法要求進化速率保持恒定的缺陷。2 4 .最大簡約法(M P ):在一系列能夠解釋序列差異的的進化樹中找到具有最少核酸或氨 基酸替換的進化樹。,找到概 并在此基礎(chǔ)上2 5 .最大似然法(ML):它對
24、每個可能的進化位點分配一個概率,然后綜合所有位點 率最大的進化樹。最大似然法允許采用不同的進化模型對變異進行分析評估, 構(gòu)建系統(tǒng)發(fā)育樹。2 6. 致樹(con sen sus tree):在同一算法中產(chǎn)生多個最優(yōu)樹,合并這些最優(yōu)樹得到的 樹即一致樹。27.自舉法檢驗(B oo tstrap):放回式抽樣統(tǒng)計法。通過對數(shù)據(jù)集多次重復取樣,構(gòu)建多個進化樹,用來檢查給定樹的分枝可信度。2 8 .開放閱讀框(ORF):開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基序列。tR N A 的tRNA所對應(yīng)的密碼子,這種29. 密碼子偏好性(co d o n bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功 水平相一致,大多數(shù)高效表達的基因僅使用那些含量高的同功 效應(yīng)稱為密碼子偏好性。30. 基因預測的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點,內(nèi)含子與外顯子邊界,調(diào)控區(qū),預測基因組序列中包含的基因。3 1.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 外籍人員用餐管理辦法
- 維修質(zhì)量風險管理辦法
- 電廠燃料采購管理辦法
- 后勤職工培訓課件
- 肝膿腫護理課件下載
- 肝臟生理功能課件中醫(yī)
- 福州八上期中數(shù)學試卷
- 肝病用藥護理課件
- 肝病心理護理課件下載
- 高中學考往年數(shù)學試卷
- 2025年濟南綜保控股集團有限公司公開招聘(22名)筆試備考試題參考答案詳解
- 機加工工藝培訓
- 2025年內(nèi)蒙古自治區(qū)中考數(shù)學真題試卷(含答案)
- CT增強掃描造影劑外滲的預防與處理
- 深靜脈置管的維護與護理
- Unit 2 Home Sweet Home 第6課時(Project Reading Plus) 2025-2026學年人教版英語八年級下冊
- 孤獨癥業(yè)務(wù)管理制度
- xx公司獎金管理制度
- 勞務(wù)服務(wù)購買協(xié)議書范本
- 2025-2030年中國生物醫(yī)學材料行業(yè)市場深度分析及發(fā)展前景與投資研究報告
- 2025至2030中國彈簧鋼行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
評論
0/150
提交評論