




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、中科院生物信息學期末考試復習題陳潤生老師部分:1.什么是生物信息學,如何理解其含義?為什么在大規模測序研究中,生物信息學至關重要?答:生物信息學有三個方面的含義:1) 生物信息學是一個學科領域,包含著基因組信息的獲取、處理、存儲、分配 、分析和解釋的所有方面,是基因組研究不可分割的部分。2) 生物信息學是把基因組DNA序列信息分析作為源頭,破譯隱藏在DNA序列中的遺傳語言,特別是非編碼區的實質;同時在發現了新基因信息之后進行蛋白質空間結構模擬和預測;其本質是識別基因信號。3) 生物信息學的研究目標是揭示“基因組信息結構的復雜性及遺傳語言的根本規律”。它是當今自然科學和技術科學領域中“基因組、“
2、信息結構”和“復雜性”這三個重大科學問題的有機結合。生物信息學是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和RNA基因的編碼區;同時闡明基因組中大量存在的非編碼區的信息實質,破譯隱藏在DNA序列中的遺傳語言規律:在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白譜數據,從而認識代謝、發育、分化、進化的規律。同時在發現了新基因信息之后,其還利用基因組中編碼區信息進行蛋白空間結構模擬和蛋白功能預測,并將此類信息與生物體和生命過程中的生理生化信息結合,闡明其分子機制,最終進行蛋白、核酸分子設計、藥物設計、個體化醫療保健設計。2.如何利用數據庫信息發現新基因,基本
3、原理?答:利用數據庫資源發現新基因,根據數據源不同,可分2種不同的查找方式:1) 從大規模基因組測序得到的數據出發,經過基因識別發現新基因:(利用統計,神經網絡,分維,復雜度,密碼學,HMM,多序列比對等方法識別特殊序列,預測新ORF。但因為基因組中編碼區少,所以關鍵是“數據識別”問題。)利用大規模拼接好的基因組,使用不同數據方法,進行標識查找,并將找到的可能的新基因同數據庫中已有的基因對比,從而確定是否為新基因。可分為:基于信號,如剪切位點、序列中的啟動子與終止子等。基于組分,即基因家族、特殊序列間比較,Complexity analysis,Neural Network2) 利用EST數據
4、庫發現新基因和新SNPs: (歸屬于同一基因的EST片斷一定有overlapping,通過alignment可組裝成一完整的基因,但EST片斷太小,不存在數據來源,主要是拼接問題)數據來源于大量的序列小片段,EST較短,故關鍵在正確拼接。方法有基因組序列比對、拼接、組裝法等。經常采用SiClone策略。其主要步驟有:構建數據庫;將序列純化格式標準化;從種子庫中取序列和大庫序列比對;延長種子序列,至不能再延長;放入contig庫構建若干數據庫:總的純化的EST數據庫,種子數據庫,載體數據庫,雜質、引物數據庫,蛋白數據庫,cDNA數據庫;用所用種子數據庫和雜質、引物數據庫及載體數據庫比對,去除雜質
5、;用種子和純化的EST數據庫比對用經過一次比對得到的長的片段和蛋白數據庫、cDNA數據庫比較,判斷是否為已有序列,再利用該大片段與純化的EST數據庫比對,重復以上步驟,直到序列不能再延伸;判斷是否為全長cDNA序列。(利用EST數據庫:原理:當測序獲得一條EST序列時,它來自哪一個基因的哪個區域是未知的(隨機的),所以屬于同一個基因的不同EST序列之間常有交疊的區域。根據這種“交疊”現象,就能找出屬于同一個基因的所有EST序列,進而將它們拼接成和完整基因相對應的全長cDNA序列。而到目前為止,公共EST數據庫(dbEST)中已經收集到約800萬條的人的EST序列。估計這些序列已覆蓋了人類全部基
6、因的95%以上,平均起來每個基因有10倍以上的覆蓋率。)3.用蛋白或核酸序列數據庫研究生物演化的主要步驟是什么?當前的困難是什么,如何克服?(核酸或氨基酸序列進行進化研究要進行哪些計算步驟?當前遇到什么問題?怎樣解決?)答:計算步驟,構建系統進化樹,其主要步驟如下:1) 序列相似性比較。就是將待研究序列與DNA或蛋白質序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2) 序列同源性分析。是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序
7、列間的同源性大小。這是理論分析方法中最關鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3) 構建系統進化樹。根據序列同源性分析的結果,重建反映物種間進化關系的進化樹。為完成這一工作已發展了多種軟件包,如PYLIP、MEGA等;4) 穩定性檢驗。為了檢驗構建好的進化樹的可靠性,需要進行統計可靠性檢驗,通常構建過程要隨機地進行成百上千次,只有以大概率(70以上)出現的分支點才是可靠的。通用的方法使用 Bootstrap算法。【(1. 序列相似性比較: 就是將待研究序列與DNA或蛋白質序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么,完
8、成這一工作只需要使用兩兩序列比較算法。常用的序列包有BBLAST、FASTA等;(2. 序列同源性分析:將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其他序列間的同源性大小,這是理論分析方法中最關鍵的一步,完成這一工作必須使用多序列比較算法,常用的程序包有CLUSTAL等;(3. 構建系統進化樹:根據序列同源性分析的結果,重建反應物種間進化關系的進化樹,為完成這一工作,已發展了多種軟件包,如PYLIP、MEGA等(4. 穩定性檢驗:為了檢驗構建好的進化樹的可靠性,需要進行統計可靠性檢驗,通常構建過程要隨機地進行成百上千次,只有以大概率(70%以上)出現
9、的分支點才是可靠的。通用的方法使用Bootstrap算法,相應的軟件已包括在構建系統進化樹所用的軟件包當中。 】當前的主要困難:是發現了基因的橫向遷移(LGT)現象,即進化程度不同的物種間存在著遺傳信息基因的傳遞,如果拿遷移的基因做進化分析就會出錯。克服LGT的方法(可能的解決途徑):1) 縱向思路:選擇垂直進化而來的序列進行研究,即去除橫向遷移的數據庫,如COG數據庫;2) 橫向思路:發展基于完整基因組構建進化樹,即使用全基因組數據庫進行基因組水平上的對比; 利用生物體的蛋白質組構建進化樹。選取特征對比,不同長度的序列字符串進行對比后,對照其genome進行歸一化;ORF對比,將all pr
10、edicted ORF采用COG的分類規則進行分類,再構建進化樹4.什么是SNP?為什么SNP的研究是重要的?SNP研究有哪些優點?舉出23個SNP相關的網站。答:SNP是指單核苷酸多態性,主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性,代表了基因組水平上遺傳密碼的變異,由于這種變異很多以單堿基突變的形式出現,因此稱為單核苷酸多態性;它反映了不同個體間、正常與異常個體之間基因組上的差別,現在這個概念有所擴大,不限于一個核苷酸的差異。重要性:因為SNP研究是基因組領域理論成果走向應用的關鍵步驟,是聯系基因型和表現型之間關系的橋梁,是研究人類基因組計劃走向應用的重要步驟。優點:(
11、1)SNP在基因組中分布相當廣泛,使人們有機會發現與各種疾病相關的基因組突變;(2)不直接導致疾病基因表達的SNP,與某些疾病基因相鄰,成為重要標記,有助于發現疾病基因(3)從實驗操作來看,通過SNP發現疾病相關基因突變,比通過家系發現更加容易。(4)基礎研究中非常重要,如對Y染色體SNP分析有重要成果。SNP的特點:1. 位點豐富2. 具有代表性3. 遺傳穩定性4. 易于進行自動化,規模化分析,縮短了研究時間SNP研究的意義: 通過大批量、高通量的SNP的發現與鑒定,人類SNPHaplotype遺傳圖譜的構建,在連鎖不平衡基礎上的關聯分析等,有望為人類致命基因的尋找和疾病的防治提供快速和有效
12、的途徑,一系列發現和檢測SNP的方法,構建圖譜的策略,及連鎖不平衡和關聯分析等技術,正在動植物研究領域中受到廣泛的關注,毫無疑問將在分子和群體遺傳、動植物育種和生物進化等研究領域中發揮越來越大的作用。SNP相關的一些網站:1) SNP Consortium's database(/index.html)2) NCBI SNP database將這些數據進行整理,去掉冗余,使每個SNP都是唯一的。此時的SNP被稱為reference SNP或refSNP。((/SNP/overview.html) 3
13、) The Human Genic Bi-Allelic Sequences Database(HGBASE) 這一數據庫收錄了人基因組中所有已知的序列變化,包括:SNPs、序列的插入和缺失(Indels)、簡單重復序列等。(http:/hgbase.cgr.ki.se/)4) The Human Gene Mutation Database(HGMD)(/) 5) The Protein Mutant Database(PMD),蛋白突變數據庫。收錄了蛋白質特定位點的氨基酸突變信息,以及這些突變對蛋白質結構功能的影響。(http:/pmd.ddbj.nig
14、.ac.jp/)6) The Allele Frequency Database(ALFRED):人類群體等位基因頻率數據庫,/alfred/index.asp5. 什么是系統生物學?系統生物學對生命科學概念上的發展?系統生物學對生物功能實現的理解有何本質變化?系統生物學的研究思路是什么?答:系統生物學是指在系統的層面上研究生命活動。(研究一個生物系統中所有組成成分的構成,以及特定條件下組分間互作關系。)【 系統生物學就是自基因組研究以來,各個層次的所有資料和數據(包括基因組測序數據,功能基因組數據,蛋白質三維結構信息以及相互作用的數據等)的整
15、合,以及這些整合數據為基礎建立數學模型,再以這些模型模擬仿真研究生命活動的影響之后生命活動的反應以及變化 】包含三個相互銜接的組成(三部曲):整合數據,即整合所有各個層次(DNA水平,RNA水平,蛋白質水平,蛋白質相互作用水平)的信息數據;系統建模,即用這些信息構建描繪生命活動的數學模型;預測未知,即用這個模型預測生命未來的發展及外界干擾后系統的變異(生命活動及外界因素變化對其產生的影響)。學術概念上的發展主要有:傳統生物學是從基因組序列到結構,再到功能,而它從各個層次的相互作用到網絡,再到功能。與以往不同的是,系統生物學一開始就考慮元件之間的相互作用,把整個生命活動作為網絡,考慮其相互作用。
16、1) 研究思路的變化:傳統的分子生物學研究步驟一般為:DNA序列蛋白結構蛋白功能(一維),而系統生物學是在二維的角度研究生命科學,即:相互作用網絡功能,是由一組基因產生并相互作用共同實現的。2) 看待生命活動本質的變化:因為沒有一個生命活動是靠一個基因完成的,生命活動是一組基因相互作用實現的,這種相互作用形成一個網絡,既包括每個單元的結構,又包括單元與單元之間的相互作用。因此,系統生物學不僅考慮每個基因的活動,還描述了基因間的相互作用并導致了網絡的產生。(系統生物學與傳統生物學看待生命活動有著本質的不同: 系統生物學認為生命活動是由一組基因及其相互作用來實現其過程的,這種相互作用形成了一個網絡
17、,既包括每個單元的結構,又包括單元與單元之間的相互作用,因此在考慮結構的過程中考慮其結構間的相互作用,一組一組地研究。而傳統的分子生物學考慮的只有結構,是一個一個地去研究。)其對生物功能實現的理解發生了本質性變化:它不僅考慮單個分子而且考慮其間相互作用,把整個生命活動作為一個相互作用的網絡來研究其功能,基因組只是網絡中的一部分,只有通過相互作用的網絡才能體現功能;通過系統地整合生物過程不同階段的分散數據,如基因組,轉錄組,蛋白組,代謝組,可以對復雜的生物過程,如折疊、信號傳導途徑、代謝途徑更好地模擬,研究生物過程的動態變化;它不僅全息的了解復雜的生命系統中的所有成分以及他們之間的動態聯系,還可
18、以預測如果這個系統一旦受到了刺激和外界干擾,系統未來的行為是什么。系統生物學與傳統生物學有什么不同:區別:傳統生物學:序列結構功能,只考慮單個個體,單個gene,單個蛋白質 系統生物學:相互作用網絡功能,除考慮單個個體,單個gene,還考慮個體與個體之間的相互作用,把整個生命活動作為一個網絡來考查它們的相互作用。(傳統分子生物學是從基因組中發現特殊序列,即基因,然后找到基因編碼的蛋白,再通過測知其結構,而知其功能。而系統生物學研究是從各個層次的相互作用到網絡,再到功能。系統生物學不僅考慮單個分子,而且考慮其間相互作用,認為生命活動由大量相互作用的結構單元組成,這些結構單元形成網絡。基因組只是網
19、絡中的一部分,只有通過相互作用的網絡才能體現功能。它不僅全息的了解復雜的生命系統中的所有成分以及他們之間的動態聯系,還可以預測如果這個系統一旦受到了刺激和外界干擾,系統未來的行為是什么。)系統生物學與分子生物學有什么不同:區別:分子生物學:序列結構功能,只考慮單個gene,單個蛋白質 系統生物學:是研究生物系統組成成分的構成與相互關系的結構、動態與發生,以系統論和實驗、計算方法整合研究為特征的生物學。系統生物學不同于以往僅僅關心個別的基因和蛋白質的分子生物學,在于研究細胞信號傳導和基因調控網路、生物系統組成之間相互關系的結構和系統功能的涌現。系統生物學的研究思路(研究流程):1.針對選定生物系
20、統進行實驗設計,了解系統所有組成成分:基因,RNA,蛋白,膜脂等2.通過系統行為動力學分析,總結系統設計和控制規律3.通過總結規律來提出新的實驗設計,驗證系統模擬的正確性【分子生物學與系統生物學的區別與聯系? 答:二者的區別和聯系主要從宏觀和微觀上講。分子生物學的研究采用典型的還原論方法,研究對象主要是分子水平上的,即生物系統中的大分子、信號分子的結構、生化性質以及功能,基因表達過程中的調控,以及DNA重組。分子生物學只研究系統的組成元素,最后給出系統的組成元素清單,它是系統生物學的基礎,但它的研究結果只能解釋生物系統的微觀或局部現象,無法說明系統整體所具有的功能從何而來。而系統生物
21、學作為一個整體,表現出完善的整體行為,而組成系統的細胞、基因、蛋白質等只能作為系統的一個構件、一個元素、通常情況下它無法表現出“系統”行為。系統生物學與分子生物學研究對象不同,系統生物學研究的是系統整體,研究由系統元素形成有功能的整體所依賴的組織方式和潛藏規則,它同時研究系統的不同層次,以及他們之間的相互作用關系,并將這些整合起來深刻挖掘系統整體的功能形成機制。系統生物學雖然在研究對象上與分子生物學不同,但他們之間并不是完全不相關的,系統生物學的研究離不開分子生物學研究所給出的大量資料和數據,正是依賴這些,系統生物學才有了建模的基礎。同時分子生物學的研究結果只有通過系統生物學進行整合才能從理論
22、上對系統的宏觀性質達到定性定量的理解,反過來,系統生物學的研究成果也可以用來指導分子生物學的實驗設計。因此二者之間其實是相互補充的,只有結合起來,才能充分認識生命現象。】6. (1)什么是非編碼序列,非編碼RNA,非編碼基因?(2)以人的基因組為例回答:在基因組中有多少非編碼序列,有多少存在轉錄本,舉23個非編碼核酸的生物學功能?答:(1)非編碼序列是基因組中不編碼蛋白質和多肽的序列;(基因組中不歸屬于基因調控元件,穩定元件之外的,也無明確生物學功能意義的基因序列統稱為非編碼序列,即不編碼蛋白質同時也無明確生物學功能的序列)非編碼RNA是指來自基因組的非編碼的轉錄元件,即基因組中非編碼序列的轉
23、錄產物/轉錄本;非編碼基因指那些具有明確生物學功能的非編碼RNA在基因組上非編碼序列上的位置,即功能性的非編碼RNA對應基因組上的位置稱為非編碼基因;(2)人類基因組中9798%的序列是非編碼序列,有70%80%存在轉錄本,非編碼核酸的生物學功能:1) Xist:X-inactivation(X染色體失活)是哺乳動物的一種劑量補償機制,其中一半拷貝轉錄被抑制從而失活,抑制轉錄是通過一個2kb的非編碼RNA(Xist RNA)實現的,xist RNA裝配在失活X染色體的外側,引起結構改變導致失活;2) Small RNA and RNAi: RNAi是由RNA(siRNA、microRNA)導致
24、的轉錄后基因沉默現象,如由雙鏈小RNA引起的干擾和轉錄后基因沉默現象,在植物病毒抗性和線蟲中的轉座子沉默;一些小核RNA調控基因轉錄。(單鏈易降解,但發現細胞中存在另一種pathway,雙鏈小RNA進入細胞后結合組蛋白形成復合體,該復合體和識別并降解target)3) piRNA(具有大量轉錄本,功能不詳)和Prions(生物復雜度到一定程度后會出現發病情況,可能和非編碼RNA有關)等。7.什么是基因組中的非編碼區?請以人類基因組為例,說明:(1) 非編碼區所占的比例?(2) 按在基因組中的位置(組成)(功能)區分,非編碼序列有哪些組分?它們所占比例如何?(3) 按序列編碼特征區分,非編碼序列
25、有哪些組分?它們所占比例如何?(4) 請說明非編碼區研究的重要性(可以舉出一、兩個典型非編碼序列作為例子)答:基因組中不能編碼蛋白質的區段叫做非編碼區。非編碼區位于編碼區前后,同屬于一個基因,控制基因的表達和強弱 。(1) 人類非編碼區占9798%(2) 按照在基因組中的位置(組成)來分,各個組分占基因組的份額:編碼基因(編碼蛋白質和tRNA、rRNA):1.52% ;Intron(廣義):25% ;端粒、中心粒等特定位置:12% ;基因間序列:6070% ; 按照在基因組中的功能區分,各個組分占基因組的份額:功能蛋白質基因1.7%,功能RNA基因0.5%,總共大約13% ;內含子:24% ;
26、Satellite DNA(主要分布在中心粒和端粒): 12% ;基因間序列(Intergene DNA):6070% ;(3)按照序列特征區分,各個組分占基因組的份額:編碼區(包括編碼蛋白質和tRNA和rRNA的基因)占總基因組的2% ;非編碼區占到98%:其中:簡單重復序列:12% ;散在重復序列:45% ;假基因:1% ;非編碼非重復序列:3540% ;(4) 舉例:非編碼基因:1.SINE作為調節源,調節基因重組、交換,豐富多樣性,獲得新功能;2. 雞溶菌酶基因中,位于編碼區上游的CRI元件起著轉錄沉默子的作用;3.ncDNA產物有重要生物學功能,如tmRNA介導錯誤翻譯蛋白的降解RN
27、Ai導致基因沉默非編碼基因產物的功能:smallRNA是ncDNA產物,是機體固有的,例如:microRNA,SiRNA小RNA對染色質的形狀有關,也可直接關閉或刪除部分DNA。NcRNA起著非常重要的生物學功能,如影響發育過程,調節轉錄、影響染色體復制、對RNA加工修飾、影響mRNA穩定性進而影響翻譯、甚至影響蛋白降解轉運;Xist介導X染色體失活是通其編碼的一個大的剪接過的多聚A非編碼產物進行的。(長鏈非編碼RNA(lncRNA)是一類轉錄本長度超過200nt的RNA分子,它們并不編碼蛋白,而是以RNA的形式在多種層面上(表觀遺傳調控、轉錄調控以及轉錄后調控等)調控基因的表達水平。 lnc
28、RNA起初被認為是基因組轉錄的“噪音”,是RNA聚合酶II轉錄的副產物,不具有生物學功能。然而,近年來的研究表明,lncRNA參與了X染色體沉默,基因組印記以及染色質修飾,轉錄激活,轉錄干擾,核內運輸等多種重要的調控過程,lncRNA的這些調控作用也開始引起人們廣泛的關注。哺乳動物基因組序列中約4%9%的序列產生的轉錄本是lncRNA(相應的蛋白編碼RNA的比例是1%),雖然近年來關于lncRNA的研究進展迅猛,但是絕大部分的lncRNA的功能仍然是不清楚的。)( 已有的研究結果表明,在高等生物中,小分子非編碼RNA在干細胞干性維持、胚胎發育、細胞分化、凋亡、代謝、信號傳導、感染以及免疫應答等
29、幾乎所有重要生命活動中發揮關鍵的調控作用,提示生物體內可能存在著由RNA介導的遺傳信息表達調控網絡。)8. 精準醫學的重大意義是什么?實現精準醫學的重要基礎是什么?精準醫學的重大意義;精準醫學有可能導致醫療體系本質上的轉變,把目前的醫療體系由診斷治療過渡到健康保障,使得健康體系的關口前移,有可能產生新興產業。健康人可以通過組學等一系列研究,對現在的健康作以評估。在健康檢查的基礎上,對未來可能導致疾病的部分進行干預,使得能夠延緩疾病的發生,或者排除某些疾病的發生,使得健康得以保障。實現精準醫學的重要基礎:1. 必須獲取分子水平上的數據信息,并挖掘其內涵,在挖掘組學數據時,一定要使用大數據分析技術
30、,因此是大數據與組學的交匯。組學包括基因組,轉錄組,蛋白質組,代謝組;大數據包括人群和隊列2. 建立分子水平上的知識與宏觀疾病表型的聯系,即基因型和表型的關聯,搭建分子水平信息和疾病間的橋梁,在搭建橋梁時,生物信息學,生物網絡,系統生物學的知識是其核心知識。3. 在此基礎上,融合臨床檢驗,影像學等指標,使得醫學做得更加精準。【定義:精準醫學是以個體化醫療為基礎、隨著基因組測序技術快速進步以及生物信息與大數據科學的交叉應用而發展起來的新型醫學概念與醫療模式。本質上:是通過基因組、蛋白質組等組學技術和醫學前沿技術,對于大樣本人群與特定疾病類型進行生物標志物的分析與鑒定、驗證與應用,從而精確尋找到疾
31、病的原因和治療的靶點,并對一種疾病不同狀態和過程進行精確亞分類,最終實現對于疾病和特定患者進行個性化精準治療的目的,提高疾病診治與預防的效益。精準醫學是因人因病而異的、更加精確的個體化醫療,其進步之處是將人們對疾病機制的認識與生物大數據和信息科學相交叉,精確進行疾病分類及診斷,為疾病患者提供更具針對性和有效性的防療措施,最終目的是更好地為患者服務。與個體化醫療相比,精準醫療更重視“病”的深度特征和“藥”的高度精準性;是在對人、病、藥深度認識基礎上,形成的高水平醫療技術。精準醫學實現了從診斷治療到健康保障這一本質性轉變。精準醫學包括精準診斷和精準治療,而“邁向精準醫學”需要構造的生物醫學知識網絡
32、是建立在系統生物學的基礎之上。實施精準醫學計劃的戰略意義總共有4點:提高疾病診治水平,惠及民生與國民健康;推動醫學科技前沿發展,增強國際競爭力;發展醫藥生物技術,促進醫療體制改革;形成經濟新增長點,帶動大健康產業發展。】【有可能將基因組變異作為疾病診斷,精準醫學導致醫療體系本質的轉變,把目前階段治療過渡到健康保障,使健康體系關口前移,在健康篩查基礎上,排除疾病發生。就是評估-檢查-干預的過程。基礎:1獲取分子水平上數據信息,挖掘信息內容,發展大數據新算法,理論技術如組學的信息。2 建立分子水平知識宏觀疾病表型關聯,搭建分子水平信息與疾病的橋梁。問題:樣本量少,有效治療事件頻率低,疾病相關復雜網
33、絡構建分析的困難。】陳小偉老師部分:1.芯片間標準化的方法: 排序:每列由小到大排序,而可以得到每一組基因表達量的真實值 求排的平均值作為標準值 重排:按顏色重排 基本方法:芯片間標準化的目的是基于Gene1Gene5五個基因表達量理論的和應該保持恒定,即S1S3三列每一列的和是相等的。但實際測定過程中不可能完全相等,因此將這種不等歸結于每一組芯片自身的差異而進行芯片間標準化,基本步驟為通過排序取平均重新排序的方法消除芯片間誤差,從而可以得到每一組基因表達量的真實值。(老師給的這組芯片基因完全相同的情況下S3一列數據明顯偏高,通過這種標準化實現了芯片間差異的消除)。【Quantile歸一化過程
34、:首先假設不同芯片整體分布一致,歸一化后芯片的分布一樣。下圖四個部分代表四步,行代表基因,列代表樣本,圖一對每個列的表達值排序,圖二計算每行的平均值,圖三用每行計算的平均值代替該行的原值,圖四將排序后的行恢復到未排序前的位置。】 2. FDR控制假陽性的方法BenjaminiHochberg procedure基本方法:對于m個獨立的樣本,其p-value記為pi,i=1,2,3m;(1)對所有的p-value進行從小到大排序p(1)p(2) p(m);(2)對于一個給定的(此時的即為統計里的顯著水平,范圍01,通常取0.05),找到最大的k值,滿足;(3)拒絕從p(1)p(k)的無效假設H0
35、(即表示p(1)p(k)表達量存在顯著差異)。計算方法1(=0.05):P(4)=0.03<0.05*4/6=0.033;P(5)=0.045>0.05*5/6=0.041;k=4. 即G2, G6, G5, G4差異表達,FDR<0.05計算方法2(q-value法):根據可以推出因此直接計算并與進行對比即可:由于G3的q-value大于0.05,因此G2, G6, G5, G4差異表達。【FDR過程,如何控制FDR:首先,FDR過程是為了控制假陽性率的過程。假陽性指樣本本質為假但判定為真。比如在找到一組差異表達的基因之后,我們要考慮這個差異是否夠顯著,即假陽性率是否足夠低
36、。BH過程是FDR矯正的一種,首先對檢驗得到的P值進行排序,然后從1開始增加找K的值,使K滿足,其中m為個數,a一般取0.05或0.1。所有滿足P值的基因認為表達有顯著差異且假陽性不超過a。】3. 轉錄本表達量的表示方法(RPKM:Reads Per Kilobase of transcript per Million mapped reads):(1)RPKM的作用:RNA-seq是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以map到的read數來計算基因的表現量,在統計上是一件相當不合理的事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的
37、基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表現量假設一個物種的基因組上只有兩個基因,基因G1的外顯子長8 Kb,基因G2的外顯子長2 Kb。對該物種的一個樣本做RNA-seq,共得到23 millions 的read,其中能夠比對到G1的read 有16 million 個,能夠比對到G2的有4 million 個.計算G1和G2的RPKM。Total mapped reads=16 million+4 million=20 millionG1: total exon reads=16
38、,000,000 exon length=8kb RPKM=16,000,000/(20*8)=100,000G2: total exon reads=4,000,000 exon length=2kb RPKM=4,000,000/(20*2)=100,000(2)FPKM與RPKM的區別:兩者基本相同。RPKM代表Reads Per Kilobase of transcript per Million mapped reads,FPKM代表Fragments Per Kilobase of transcript per Million mapped reads。在RNA-Seq中,由于cD
39、NA來源于RNA的逆轉錄,轉錄物的表達量與cDNA片段成比例。RNA-Seq配對末端實驗每個片段產生兩個reads,但這并不意味著兩個reads都可在圖上標注。例如,第二個read低品質。如果我們對read計數而不是片段,我們可能對某些片段重復計數,而對另一些只計一次,導致對表達量估計的偏差。因此FPKM以片段為單位計數,而不是reads數。(來源于網上,原網址:/faq.html#fpkm)預測:1.高通量測序數據分析總括:高通量測序數據庫程序讀出的reads數據及對應的質量分值以文件格式為fastq的格式保存。測序的原始數據為熒光信號
40、,首先將熒光信號轉換為序列信息,即讀段數據及對應的質量分值;為了方便測序數據的發布和共享,一般需要對數據進行格式化轉換,最常用的數據格式為fastq格式;對得到的原始數據必須對其質量進行評估,評估指標包括G、C含量,堿基質量,插入分布等。方便過濾掉質量較差的讀段;若數據質量評估過關,接著將原始讀長通過序列映射定位到基因組上;若無參考基因組,則必須使用denovo的組裝方法;得到測序數據的組裝圖后,便可根據實驗目的對組裝好的數據進行相關分析,如分析基因的剪接位點,SNP位點,變異位點還可以分析基因的差異化表達(RNA-Seq),轉錄因子結合位點(Chip-Seq),甲基化模式(MeDIP-Seq
41、),同時還可利用此數據發現新的編碼基因和非編碼基因;使用可視化組件對分析結果進行可視化處理。2.表達譜數據分析流程IntensityExpression profileQuality controlNormalizationDifferential gene expression analysis基因芯片在一個顏色通道掃描后得到的原式圖是色調單一,強度不同的亮點陳列圖;將原始的圖像數據轉換為基因表達矩陣;對得到的基因表達矩陣的數據質量進行檢測,對得到的數據進行統計學分析,從而估計和校正試驗誤差,篩選出有效數據。標準化就是消除基因芯片實驗過程中系統變異對基因表達水平所帶來的影響。標準化包括芯片內
42、的標準化和芯片之間的數據標準化。芯片內的標準化方法,如局部加權線性回歸標準化,參照點標準化,芯片之間的標準化方法如Quantile;前幾部都是對表達譜數據的預處理,后期的數據分析包括差異基因表達分析、聚類分析、判別分析等;a)差別基因表達分析可分析不同樣本中起關鍵作用的基因,為后續研究提供方向;b)聚類分析是基因表達譜最廣泛使用的統計技術,聚類分析的目的再與尋找可能標準化或關聯的基因,從而預測位置基因的功能信息或已知基因的未知功能;c)判別分析能夠依據樣本的某些特性,判別樣本的所屬類型,利用已有數據建立分類器,然后利用建立的分類器對未知樣本的功能或狀態進行預測。方法主要有SVM,貝葉斯分類和神
43、經網絡法等。3.無生物學重復和有生物學重復時如何進行差異表達分析?答:(1)無生物學重復:方法:FC(Fold change倍數變化)描述數據初值與終值之間的差異(一般是兩個差別表達基因間或處理與對照之間),用標準化后的兩組數據相除得到的比例,一般2-fold表明兩組數據是有顯著差異的;這種計算方法可以得到一組相對值,而不是絕對值變化,消除了系統誤差以便于統計學分析;一般得到的FC值與設定的閾值進行比較即可得到表達有差異的基因;(2)有生物學重復:方法:假設檢驗a)具體步驟:提出實際問題;提出無效假設(H0)與備擇假設(H1);選擇顯著性水平(一般=0.05);選擇統計模型與相應的統計量;根據
44、實驗結果計算實驗統計量;判斷檢驗統計量的p-值 (表示事件發生的概率具有偶然性);將p值同選定的顯著性水平比較;拒絕或不拒絕H0;回答所提出的實際問題。b)假設檢驗根據數據類型(是否符合正態性)分為參數檢驗與非參數檢驗:參數檢驗:符合正態分布可使用,常用的方法主要有t檢驗法,配對t檢驗法、最小二乘法非參數檢驗:不符合正態分布可使用,常用的方法有Wilcoxon秩和檢驗法,其基本方法是根據表達量排序并按照排列順序檢驗,檢驗結果較參數檢驗法更粗獷。4.全基因組測序的步驟?答:(1)第一期:基因組調研圖整體測序深度不低于20倍覆蓋度。進行初步的數據分析,對基因組大小,GC含量等做出初步評估,確定框架
45、圖梯度文庫構建具體策略;(2)第二期:基因組框架圖基因組覆蓋度達到90% 以上,基因區覆蓋度達到95% 以上,單堿基的錯誤率達到1萬分之一以內,整體測序覆蓋深度不低于60倍覆蓋度。同時對框架圖進行基本基因注釋和功能注釋,和簡單的比較基因組學分析。(3)第三期:基因組精細圖基因組覆蓋度達到95% 以上,基因區覆蓋度達到98% 以上,單堿基的錯誤率達到10萬分之一以內,整體基因組覆蓋度不低于100倍,Scaffold N50大小不低于300Kb,對基因組精細圖進行詳細基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學分析。5. 轉錄本測序,各數據分析工具的特點?轉錄本測序可分為Small RN
46、A-seq和RNA-seq:Small RNA-seq主要用于檢測small RNA(主要是miRNA)的表達水平,發現新的small RNARNA-seq:Poly(A)用以檢測蛋白質編碼基因的可變剪切體及表達水平;Total RNA(除rRNA)用于檢測mRNA及long noncoding RNA的表達水平并發現新的long noncoding RNA;數據分析工具主要有:Bowtie,TopHat,Cufflinks,具體作用如下:a)Bowtie是一個超級快速的,較為節省內存的短序列拼接至模板基因組的工具。它在拼接35堿基長度的序列時,可以達到每小時2.5億次的拼接速度。Bowtie
47、并不是一個簡單的拼接工具,它不同于Blast等。它適合的工作是將小序列比對至大基因組上去。它最長能讀取1024個堿基的片段。b)TopHat 是一個快速的將RNA-Seq 數據進行快速剪接映射的程序。它使用超快的高通量短讀比對程序,將RNA-Seq的信息比對到哺乳動物大小基因組上,然后分析映射結果來鑒別外顯子之間的剪接點。c)Cufflinks 利用Tophat比對的結果(alignments)來組裝轉錄本,估計這些轉錄本的豐度,并且檢測樣本間的差異表達及可變剪接調控。它通過接受線性的RNA-Seq reads并將線性片段組裝為一套最大簡約的(parsimonious)轉錄本。然后根據read
48、s數估計估計相關轉錄本的豐度并將實驗室預設的偏差考慮在內。6.轉錄本拼接最大簡約轉錄本的組裝方法:組裝一套轉錄本在鏈中找到最小的分割單元P找到最大的反義鏈在二分圖中找到最大匹配數找到最小點覆蓋二分圖:指頂點可以分成兩個不相交的集使得在同一個集內的頂點不相鄰(沒有共同邊)的圖。設G=(V,E)是一個無向圖,如果頂點V可分割為兩個互不相交的子集(U,V),并且圖中的每條邊(i,j)所關聯的兩個頂點i和j分別屬于這兩個不同的頂點集(i in U,j in V),則稱圖G為一個二分圖。最大匹配:給定一個二分圖G,在G的一個子圖M中,M的邊集中的任意兩條邊都不依附于同一個頂點,則稱M是一個匹配,選擇這樣
49、的邊數最大的子集稱為圖的最大匹配。最小點覆蓋:給定一個二分圖G,在G的一個子圖N中,N的點集中的點與所有的邊都有關聯(把所有的邊都覆蓋),則稱N是一個點覆蓋,選擇這樣的點數最小的子集稱為圖的最小點覆蓋。7. Illumina測序原理在聚合反應體系中加入修飾過的四種核苷酸,它們分別被標記上終止基團和熒光基團:3羥基上標記上疊氮基在延伸時起阻止聚合的作用,胞嘧啶上標記上熒光基團。每一種核苷酸標記的熒光分子是不一樣的。聚合終止,每次加入一個修飾核苷酸,鏈聚合就被終止了,如下圖用激發光照射,被修飾的堿基發出熒光,記錄熒光信號,則知這一步加入的是什么核苷酸。延伸回復:加入二巰基丙醇去掉疊氮基;用TCEP
50、(Tris (2-carboxyethyl) phosphine,三(2-羧乙基)膦)處理,去掉熒光基團。進入下一輪延伸,加入一個新的堿基。原理的關鍵之處在于如何形成足夠強的熒光信號。無疑這需要大量的模板。怎樣來獲得大量模板呢?同時二代測序技術還要實現高通量測序,即同時對大量序列測序。如何將混合樣品中序列彼此分開呢?illumina橋式PCR技術可解決以上兩個問題(1)樣品準備 序列片段化:將混合樣品中的核酸序列打斷至400bp左右 短序列收集,并將末端補平。在5端加一個Pi基團;3端加一個“A” 在兩端分別加上不同的接頭序列(2)橋式PCR將樣品平鋪到預制的含與接頭序列互補的平板上(flow
51、 cell),平板結構如下: Flow cell 表面是寡聚引物 加上接頭的序列與平板上寡聚引物互補配對加上接頭的序列與平板上寡聚引物互補配對,然后進行酶聚合反應 變性使原始模板鏈分離并洗凈 模板鏈脫離 單鏈彎曲雜交在相鄰的引物上 單鏈彎曲雜交在相鄰的引物(與另一端結合的引物)上。 酶聚合形成雙鏈橋式結構;之后橋式結構打開形成的兩個copy又在其各自周圍形成新的copy。 酶聚合形成雙鏈橋式結構 每個簇都有約10000個拷貝,且每個簇都代表一個獨特序列 橋式雙鏈分開,反向鏈(底3-5上)被切掉后洗脫(通過切反向鏈引物);正向鏈3端被封閉,防止不必要的DNA延伸。 加入測序引物測序,如圖右。8.
52、高通量測序數據的分析流程高通量測序數據以程序讀出的reads數據及對應的質量分值的格式保存,其文件格式為fastaq格式高通量測序最原始的數據為熒光信號,首先將熒光信號轉化為序列信息,即reads數據及對應的質量分值。為了便于測序數據的發布以及共享,一般需要對數據進行格式轉換,最常用的數據格式是fastaq。對于得到的數據必須對其質量進行評估,評估指標包括GC含量,堿基質量,插入缺失錯誤,以便過濾掉質量差的reads。若數據質量評估過關,接著將原始reads map 到基因組上。若無參考基因組,則需用de novo 組裝方法。得到測序數據的組裝圖后,便可以根據實驗目的,對組裝好的數據進行相關的
53、分析。如分析基因的剪接位點,SNP位點,變異位點,還可以分析基因的差異化表達(DNA,RNA),轉錄因子結合位點(Chip-seq),甲基化模式(MeDIP-seq),同時還可利用此數據發現新的編碼基因和非編碼基因。使用可視化軟件對分析結果進行可視化處理。王秀杰老師部分:1想知道轉錄因子的結合位點用什么方法? 轉錄調控是基因表達的關鍵步驟:轉錄調控因子 (transcription factors,TFs)有序地結合在目標基因啟動子序列中的特殊位點,啟動基因的轉錄和控制基因的轉錄效率。這些位點被稱為轉錄因子結合位點( transcription factor binding sites,TFB
54、Ss),又被稱為順式調控元件( cis-regulatory elements),其長度從幾個到十幾個堿基對不等。每個轉錄因子的結合位點通常都有特定的模式,被稱為模體(motif)。找到這些特定的序列片段對研究基因的轉錄調控有著重要意義。2知道針對一種問題,用哪種算法即可,1. Greedy Algorithm 貪心算法(并不是一個很好的)(1) 貪心算法是解決如下問題的,希望找到一個全局最優解,每個階段每個階段做了全局最優選擇的啟發式算法。(2) 貪心算法的條件:1. 當一個問題可分為很多步驟,每一步驟有最優解2. 考慮之前所做,不會對之后所做有影響時(3) 貪心算法的問題:1. 貪心算法的
55、特點,“缺乏觀察”和“不可重獲的”2. 貪心算法大多是(但不總是)不能找到全局最優解,因為他們通常不徹底動用所有的數據3. 他們做出選擇太早,以致于阻止他們后來找到最佳的整體解決方案。4. 然而貪心算法是有用的,因為他們能快速想出并經常能給出近似最優解(4)適合貪心算法的案例和情況1.問題具有最優子結構,如果這一問題的最優解包括子問題的最優解,作出貪心算法2.貪心算法的選擇可能取決于目前為止作出的選擇,但不是未來選擇或子問題的所有解決方案。2.Heuristic Algorithm 探索式算法(快)1.探索式算法的目標是在合理的時間內產生一個能足夠好地解決手頭問題的解決方案。這個解決方案可能不
56、是所有實際解決這個問題的最好的方案,或者它僅僅是近似精準的解決方案。但是它仍然是很有價值的,同時它不需要非常長的時間。2.在計算機科學,人工智能技術和數字最優化中,探索式算法是一種為更快地解決一個問題而設計的技術。或者當傳統的方法不能找到任何精準的解決方案,而探索式算法可以找到一個近似精準的解決方案。它通過交易最優性,完整性,精準性或速度精準度被獲得,從某種程度上講,可以說是一條捷徑。3.在理論計算機科學中,關于NP硬度的結果使得探索式算法成為唯一可進行的選擇。在真實世界應用程序中,需要解決的各種復雜的最優化問題上唯一的選擇。4何時考慮使用探索式算法?1. 最優:當對于一個給定問題的幾個解決方
57、案,探索式算法能否找到最好的解決方案?實際上它是否需要找到最好的方案?2. 完整性:當對于一個給定的問題存在幾個解決方案,探索式算法能否全部找到它們?實際上我們需要所有的解決方案嗎?許多探索式算法僅僅只是為了找到一個解決方案。3. 準確度和精密度:探索式算法能提供一個所謂的解決方案的置信區間嗎?解決方案不合理的誤差大嗎?4. 解決時間:對于解決這類問題,這是最著名的探索式算法嗎?一些探索式算法比別的會更快,一些探索式算法只是稍微快于經典的方法。3. pseudogenePseudogenes can be categorized in two forms: unprocessed and processed. Unprocessed pseudogenes can also be
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論