




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、UCSC Genome Browser是由University of California Santa Cruz (UCSC) 創立和維護的,該站點包含有人類、小鼠和大鼠等多個物種的基因組草圖,并提供一系列的網頁分析工具。站點用戶可以通過它可靠和迅速地瀏覽基因組的任何一部分,并且同時可以得到與該部分有關的基因組注釋信息,如已知基因,預測基因,表達序列標簽,信使RNA,CpG島,克隆組裝間隙和重疊,染色體帶型,小鼠同源性等。用戶也可以因為教育或科研目的加上他們自己的注釋信息。UCSC Genome Browser目前應用相當廣泛,比如Ensembl 就是使用它的人類基因組序列草圖為基礎的。用戶在
2、使用數據庫及其工具(Genome Browser、Table Browser、Gene Sorter、Proteome Browser、VisiGene、Genome Graphs、BLAT等)時可以從以下站點獲得大量的適時幫助,包括http:/genome.ucsc. edu/goldenPath/help、/FAQ、等。還可以寫郵件到獲得幫助。1 新物種信息目前,GBD新增了13個新物種的基因組序列信息,包括猩猩、絨猴、豚鼠、斑胸草雀、八目鰻、文昌魚和三種線蟲品種brenneri、remanei、japonica
3、在內的9個以前沒有收錄的物種信息,以及牛、斑馬魚、海膽、秀麗隱桿線蟲(C.elegans)這4個已收錄物種的更新信息。GBD為每一個新信息都提供了注釋,也將這些信息和GenBank中的其它物種序列進行了比對。此外,他們還對上述9種新物種信息中的7個物種進行了多重比對注釋,還將6種蠕蟲的序列和最新的秀麗隱桿線蟲序列進行了比對。2 UCSC基因組數據庫的新注釋信息除了收錄新物種序列之外,GBD還在去年新增了200多條注釋信息??梢渣c擊Genome Browser上的相應按鈕獲得更多新注釋信息。對人類基因組集合(數據庫)hg18和基因及基因預測組(Genes and Gene Prediction
4、Track Group)中的Pos Sel基因進行新的注釋后發現了承受正向選擇壓力(positive selection)的基因。網站上顯示了通過對人類、黑猩猩、獼猴、小鼠、大鼠和狗基因組進行多基因組比對后篩出的全基因組范圍內承受正向選擇壓力的基因。同時,還使用了9種基于Yang和Nielsen發明的branch-site framework模型的似然比檢驗法(likelihood ratio test,LRT)對一些直系同源基因進行了檢測來驗證上述結論的正確性。開放的調控元件注釋項目(Open Regulatory Annotation,OregAnno)的研究已經取得了一定成果,獲得了人類
5、、小鼠、黑腹果蠅和酵母這四種模式生物調控元件的注釋信息。每一條 OregAnno的注釋信息包括經過試驗驗證后公開的基因調控序列(如啟動子、增強子等)、轉錄因子結合位點以及調控區域的多態性(regulatory polymorphism)等信息,同時每一條OregAnno的注釋信息也都會鏈接到OregAnno數據庫。數據庫中,人類目錄下現在還收錄了Kidd等人對國際人類基因組單體型圖計劃(HapMap Project)里8個人的序列同參考序列比對后獲得的注釋信息(HGSV Discordant Track)。這些注釋信息顯示了那些人類序列中與參考序列的不符之處,表明該處可能存在著大段的缺失或插入
6、序列,這對尋找人類基因組中的變異具有非常重大的意義。小鼠mm9集合(數據庫)現在提供了小鼠與其它30種脊椎動物的比對信息。這些比對信息是通過多重比對和phastCons計算(phastCons computation)之后得出的,它們有助于了解不同物種之間在進化上的相關性。GBD還在小鼠mm9集合(數據庫)中新增了一個子數據庫用來收錄從維爾康姆基金會桑格研究所(Wellcome Trust Sanger Institute)miRBase數據庫中獲取的microRNA信息。在大鼠rn4集合(數據庫)中GBD還提供了從RGD中獲取的數量性狀基因座(QTL)信息。這些QTL信息與大鼠基因組中100
7、0多個與血壓、血糖等處于持續動態波動之中的表型特征相關基因座有關。在dm3基因組數據庫中收錄有黑腹果蠅基因組中超過7500個基因插入突變的注釋信息。通過網站上提供的這些注釋信息加上與位于美國布魯明頓的信息儲存中心之間的鏈接,可以發現果蠅基因組中由P元件和Minos元件導致的插入。3 UCSC基因組數據庫新收錄的基因2008年9月,最新版的UCSC基因數據hg18人類基因數據集發布。UCSC基因注釋信息包括參考各種數據庫(RefSeq、UniProt、GenBank)后使用比較基因組學方法得出的已知編碼基因和非編碼基因的多種異構體信息。在CCDS信息和 RefSeq信息不一致時,最新的UCSC基
8、因注釋信息就會使用CCDS蛋白質信息來選擇最合適的比對結果。GBD做出這個選擇是因為他們相信國際公認的蛋白質信息比隨便比較一下基因串聯重復序列和轉錄體RNA 5端所獲得的差別更有意義。例如在對人類基因IFI35(位于hg18 chr17:38,418,889-38,419,044上, /cgibin/hgTracks?db=hg18& position=chr17:38418889-38419044&knownGene=pack&refGene=pack)第四號外顯子和第五號外顯子之間的剪接情況進行注釋時,他們選擇的就是CCDS
9、信息。新的UCSC基因庫中包括66,803個基因(包括異構體)信息,其中13,767個基因是非編碼基因,這些基因共組成26,570個基因簇(表1)。這次更新還在Genome Browser中新增了與外部數據庫中幾種模式生物內直系同源基因之間的鏈接。這些模式生物數據庫包括小鼠基因組數據庫(MGD)、大鼠基因組數據庫(RGD)、斑馬魚信息庫(ZFIN)、線蟲信息庫(WormBase)、果蠅信息庫(FlyBase)和酵母基因組數據庫(Saccharomyces Genome Database)。他們還計劃繼續定期更新,以保證人類基因組數據和小鼠基因組數據都是最新最全面的。使用Genome Brows
10、er瀏覽UCSC數據庫中某一個基因的注釋信息,只需要在Genome Browser網頁的搜索框中輸入該基因的名稱等關鍵詞就可以了。同時,可以使用各種基因標識符來進行搜索,例如HGNC名稱、UniProt ID、即使是GenBank或UniProt中對該基因的一些描述性關鍵詞都行。通過搜索還可以發現與目的基因產物間有相互作用的基因,對這些基因的注釋以RefSeq形式給出。UCSC Gene track頁面還包括與網站內資源之間的鏈接,例如與GeneSorter、Proteome Browser、VisiGene、in situ hybridization image archive等頁面的鏈接。
11、今年還新增了與艾倫腦科學研究所(Allen Brain Institute)的Human Cortex Gene Expression data數據庫、Human Genome Epidemiology(HuGE)data數據庫、Comparative Toxicogenomics Database(CTD)等外部數據庫之間的鏈接。4 基因變異信息hg18人類基因庫提供了大量人類基因變異信息,其中有一些信息是去年才新增的。尤其值得一提的是他們從dbSNP 129中補充了一些以前dbSNP 128和dbSNP 126中沒有的SNP信息。Genome Browser中可以查詢到這些SNP信息的詳細
12、情況,包括SNP的類型(例如編碼區、非編碼區、同義突變等等)。GBD現在還能將包含這些SNP位點的序列與參考序列進行比對。此外,為了用戶比較的方便,他們還給出了幾種靈長類動物(黑猩猩、猩猩、獼猴)的直系同源基因供大家使用。圖1就顯示了SNP 129網頁查詢SNP rs 1128456的部分結果。此外,他們還從dbSNP 128中獲取信息更新了mm9 SNP注釋信息,從dbSNP 127中獲取信息更新了bosTau3牛數據庫信息。GBD使用比較基因組學對人hg18數據庫的注釋進行了更新,比較了人、小鼠和狗的基因組進化上保守的部分,找出了人類參考基因組序列中的小插入或缺失片段。其它新增的hg18變
13、異信息還包括DGV結構變異信息(DGV Structural variants)、Segmental Dups、Exapted Repeats、Interrupted Repeats等。根據NIH的決定,UCSC移除了威康信托基金會病例控制協會(Wellcome Trust Case Control Consortium)的研究數據以及NIMH對躁狂抑郁雙向障礙的研究數據,因為這些數據有可能會在某些特性情況下泄露患者的隱私,這與研究的本意是相悖的。他們還將繼續與其它國際研究機構合作,研究如何才能更好的保護那些參與人類基因組相關研究(genome-wide association studies
14、,GWAS)的志愿人員的隱私。他們將來會在保護個人隱私的前提下提供更多的GWAS數據,也會提供更新的圖像化工具來瀏覽、分析臨床試驗數據。5 Transmap有一組新的數據GBD稱之為Transmap,并把Transmap放在了脊椎動物基因組集合下。Transmap是在不同物種間使用同線性過濾配對基因組比對的方法(synteny-filtered pairwise genome alignment)來發現這些物種間最有可能的直系同源基因及其相應的注釋信息。TransMap中每一條信息都包括mRNA、RefSeq、UCSC Genes等各方面的證據。例如,就人類mRNA證據來說,TransMap使
15、用了23種脊椎動物的超過400,000條mRNA與庫中的人類mRNA進行了高嚴謹性的BLAT比對。然后又使用Blastz這種在區分不同物種的能力上比BLAT更強的方法再次進行了比對。與translated BLAT法(Non-Human RefSeq Gene,圖2)相比較,TransMap發現的旁系同源基因更少,而比較的UTR堿基更多(圖2)。為了研究密切相關的低覆蓋率基因組數據,使用的比對方法采用了相互最佳關系,以此來提高線性預測的準確性。就像GBD中所有的注釋信息一樣,數據庫的結構信息也能從相應的Genome Browser頁面中了解到。6 新的基因分類(Gene Sorter)用戶可以
16、使用Gene Sorter借助不同的標準,例如基因表達譜或蛋白同源性以及其它的一些用戶自行設定的條件對基因進行分類。通過網頁上的鏈接可以很方便地切換到 Genome Browser頁面和其它的UCSC網站頁面,了解更多的表達譜信息、蛋白間相互作用信息和其它的相關信息。去年,GBD還在Gene Sorter中添加了幾個新的內容,現在Gene Sorter可以對人類、小鼠、大鼠、秀麗隱桿線蟲、黑腹果蠅和酵母等六種模式生物的基因進行分類。內含子大小欄目(Intron Size column)能顯示每一個基因內最大的或最小的內含子;編碼SNP欄目(Coding SNP column)能快速地了解外顯子
17、多態性相關信息;CDS值(CDS Score)表示該基因是編碼基因的可能性大?。换蚍诸悾℅ene Category)能對基因按編碼、非編碼、反義等情況進行分類;外顯子計數(Exon Count)記錄外顯子數目(見圖3)。7 新的顯示特點GBD在去年為 Genome Browser新增了幾項顯示特點,其中很多都是按照用戶的反饋在實用性方面做出的一些改進。堿基位置跟蹤(Base Position track)現在可以提供一個選項,即在網頁上自動顯示縮放條配置。在網頁下方的反轉按鈕(Reverse button)能讓用戶方便的將整條序列反向顯示,這樣就能從5-3方向來顯示用戶的目的基因了(圖2)。
18、現在,直接在定位框(Position box)中輸入“坐標值(coordinate)”來定位到一個核苷酸也是允許的了,例如輸入chr1:226356466就能定位到SNP rs 1128456位點(也可以在框中直接輸入SNP的rs號)。此外,在網頁中還做了幾項改進;例如,Track group增加了下拉菜單,這樣用戶就可以隱藏不需要或不感興趣的選項了。Tracks也可以輕易的從一個組(group)移動到另一個組,包括移動到網頁頂部的Custom Tracks group,這樣用戶就能在一個地方選擇所有感興趣的選項了,這項功能是大多數網站都不能提供的?,F在每一個選項的標簽上都有一個刷新按鈕,這樣
19、用戶就不需要頻繁的滾動頁面修改選項了。網站上還有許多“隱藏的”改進之處。為了減少網頁中用于控制圖像的“路徑(track)”數,加快網頁的刷新速度,網站將相關的“路徑”都組合到一起形成“超級路徑(super-track)”來共享配置選項。用戶進入多重比對網頁可以獲得genome browser網頁中沒有的低覆蓋率物種的基因組DNA序列。使用UCSC在線驗證PCR(UCSC In-silico PCR)功能還能讓用戶在Genome Browser網頁上直觀的看到PCR擴增片段與其它序列(例如最有用的外顯子或內含子)的關系。如果PCR引物與參考序列不相符,網頁上會以紅色高亮的方式標示出它們之間的差別
20、。8 用戶自定義選項功能的增強UCSC Genome Browser提供的用戶自定義選項功能允許用戶按照自己設定的條件只瀏覽感興趣的數據結果。新增了兩種用戶自定義數據時提交的數據格式。用戶自定義數據的內在表示法現在是基于專用機器的數據庫表,而不再是以前所使用的基于文件系統的執行命令。最近幾年,Genome Browser中最受廣大用戶歡迎的工具就是“作業保存(session-saving)”功能,用戶使用該功能能夠保存并共享多個瀏覽器配置文件以供日后再次使用。與“作業保存”功能相關的用戶選項功能也得到了增強。因為有許多網頁設置,還有幾乎無數的設置與顯示選項組合配置,所以Genome Brows
21、er使用了cookies來保存這些設置。9 未來的發展方向UCSC將持續收錄新的脊椎動物和非脊椎動物模式生物的基因組數據。他們會與NCBI和Ensembl保持密切合作,為獲得及處理新數據制定出標準化的的流程,以保證所有機構的數據都是一致的。他們希望能為2×覆蓋率的基因組計劃(2×coverage species project)提供包含44種物種基因組的多重比對,還希望能為最新的人類基因組數據提供擴展的多重比對。千人基因組計劃(1000 Genomes project)獲得的數據也將收錄進變異信息庫,還將收錄重組熱點的高分辨率圖譜(high-resolution maps
22、of recombination hotspot)。此外,GBD還計劃對網站進行進一步的升級。例如擴展網站工具的實用性和可配置性,升級isPCR功能,能讓用戶查詢“RNA空隙(RNA space)”來比對被內含子隔開的序列,還將繼續升級用戶自定義系統使其支持混合格式數據。在接下來的幾年中,我們計劃能讓用戶在Genome Browser上直接輸入信息,就像wiki做的那樣,這樣各種“基因專家”們就能在網站上發表評論、數據和其它各種信息。最后要說的是,UCSC一直在與全球傳染性疾病控制組織(Global Solutions for Infectious Diseases)合作開發限制訪問的醫藥數據
23、系統,例如HIV基因組數據和相關臨床數據。我們還與幾個研究機構合作建立了癌癥基因組網站(cancer genomics browser)。如果網站的訪問和保密問題解決了,我們將很快推出該網站。 CSC鏈接/,UCSC的主頁面里有GENOMES,BLAT,TABLES,GENE SORTER,PCR,VISIGENE,PROTEOME 這些選項。GENOMES,BLAT,PCR,PROTEOME這些個功能最為常用,我一個個來介紹。一,GENOMES推薦選用06年版本,position or search term里可以輸入:1,物理位置,如:c
24、hr17:67628756-67634155(標點必須換成英文格式)。2,基因名或蛋白名稱,如SOX9。3,NCBI標準的基因號,如NM_000346。4,標準SNP名稱或microRNA名稱,如rs11649991或者hsa-mir-200a。5,如果想查找兩個遺傳學marker或者芯片探針之間的序列,則直接輸入標準名稱用英文的分號隔開,如:rs11649991;rs12942952或者PMC34415P1;WI-5830。6,可直接查詢BAC克隆和FISH克隆,直接輸入標準克隆號就行。如:CTD-2309E11或RP11-84E24。我以SOX9基因為例,說一下GENOMES的用法。GENOME里有很多TRACKS:1,STS marker主要用于遺傳學中的連鎖分析。2,FI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權】 IEC 61089:1991/AMD1:1997 FR-D Amendment 1 - Round wire concentric lay overhead electrical stranded conductors
- 【正版授權】 IEC 60227-6:2001 EN-D Polyvinyl chloride insulated cables of rated voltages up to and including 450/750 V - Part 6: Lift cables and cables for flexible connections
- 【正版授權】 IEC 60654-1:1993 FR-D Industrial-process measurement and control equipment - Operating conditions - Part 1: Climatic conditions
- 建筑施工工程合同
- 農民合作推廣有機農業協議
- 引進教師考試試題及答案
- 藝術概論考試試題及答案
- 六一活動排球活動方案
- 六一活動環節集體游戲活動方案
- 六一活動隊活動方案
- 產科手術編碼規則解讀
- DB13-T 5894-2024 韭菜盆栽技術規程
- 統編小學語文三年級下冊期末復習專項訓練題04-課內閱讀理解(+詳細解析)
- 14《天文學上的曠世之爭》 課件2023-2024學年高一語文統編版選擇性必修下冊
- 鄰近鐵路營業線施工安全監測技術規程 (TB 10314-2021)
- 設備故障排除與修復培訓課件
- 生產效率提高改善方案
- 大學生心理健康知識考試題庫附答案(含各題型)
- 醫院安保人員培訓方案
- 國開2023秋《漢語通論》期末大作業題目二參考答案
- 寧波市高一數學試卷-含答案
評論
0/150
提交評論