醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第1頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第2頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第3頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第4頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第5頁(yè)
已閱讀5頁(yè),還剩80頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基因表示數(shù)據(jù)取得與分析徐娟Email:xujuan8475@163.com生物信息教研室分子學(xué)館106辦公室醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第1頁(yè)一、基因表示概念基因經(jīng)過(guò)轉(zhuǎn)錄、翻譯,產(chǎn)生含有特異生物學(xué)功效蛋白質(zhì)分子過(guò)程。*基因表示(geneexpression)基因表示是受調(diào)控!基因表示是指基因轉(zhuǎn)錄及翻譯過(guò)程。在該過(guò)程中,每一步都被嚴(yán)格調(diào)整和控制,這些調(diào)整控制作用包含控制基因表示開(kāi)始、行進(jìn)和終止,也包含調(diào)整基因表示強(qiáng)弱及表示產(chǎn)物即蛋白質(zhì)合成多少等,產(chǎn)生含有特異生物學(xué)功效蛋白質(zhì)分子,從而賦予細(xì)胞或個(gè)體一定功效或形態(tài)表型。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第2頁(yè)(二)空間特異性在個(gè)體生長(zhǎng)全過(guò)程,某種基因產(chǎn)物在個(gè)體按不一樣組織空間次序出現(xiàn),稱之為基因表示空間特異性(spatialspecificity),又稱細(xì)胞或組織特異性(cellortissuespecificity)

。二、基因表示含有時(shí)間及空間特異性(一)時(shí)間特異性按功效需要,某一特定基因表示嚴(yán)格按特定時(shí)間次序發(fā)生,稱之為基因表示時(shí)間特異性(temporalspecificity),又稱階段特異性(stagespecificity)

。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第3頁(yè)鼠和人基因組表示調(diào)控~80%基因是“完全一樣”共享~99%類似基因腦和肝表示調(diào)控基因完全相同正常肝醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第4頁(yè)中心法則基因組(genome):一個(gè)物種整套(單倍體)遺傳物質(zhì)總和稱為該物種基因組。基因組學(xué)(genomics)結(jié)構(gòu)基因組學(xué):以全基因組測(cè)序?yàn)槟繕?biāo)功效基因組學(xué):以基因功效判定為目標(biāo),又被稱為后基因組轉(zhuǎn)錄組(transcriptome):基因組表示最初產(chǎn)物,既是某種細(xì)胞在特定時(shí)間下,基因衍生而來(lái)RNA分子集合。轉(zhuǎn)錄組學(xué)(transcriptomics)蛋白質(zhì)組(proteome):RNA分子直接合成基因組表示終產(chǎn)物,即細(xì)胞內(nèi)全部蛋白質(zhì)總和。蛋白質(zhì)組學(xué)(proteomics)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第5頁(yè)轉(zhuǎn)錄組學(xué)轉(zhuǎn)錄組學(xué)(transcriptomics),是一門在整體水平上研究細(xì)胞中基因轉(zhuǎn)錄情況及轉(zhuǎn)錄調(diào)控規(guī)律學(xué)科。簡(jiǎn)而言之,轉(zhuǎn)錄組學(xué)是從RNA層面研究基因表示情況。了解轉(zhuǎn)錄組是解讀基因組功效元件和揭示細(xì)胞及組織中分子組成所必需RNA信使RNA(mRNA)3%~4%核糖體RNA(rRNA)>70%轉(zhuǎn)運(yùn)RNA(tRNA)>15%microRNA(調(diào)控基因表示)………………DNA(Gene)Protein

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第6頁(yè)數(shù)據(jù)挖掘挑戰(zhàn)-----高維性醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第7頁(yè)數(shù)據(jù)挖掘挑戰(zhàn)-----高維性M個(gè)geneN1個(gè)疾病樣本、N2個(gè)正常樣本醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第8頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第9頁(yè)內(nèi)容安排基因表示數(shù)據(jù)取得與分析基因表示檢測(cè)方法表示數(shù)據(jù)取得、預(yù)處理基于表示數(shù)據(jù)發(fā)覺(jué)知識(shí)(廣義知識(shí)、關(guān)聯(lián)知識(shí)、分類知識(shí)、預(yù)測(cè)知識(shí)、偏差知識(shí))醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第10頁(yè)基因表示檢測(cè)方法基因芯片二代測(cè)序醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第11頁(yè)基因芯片發(fā)展歷史和趨勢(shì)基因芯片是上世紀(jì)九十年代,伴隨計(jì)算機(jī)技術(shù)和基因組測(cè)序技術(shù)發(fā)展而發(fā)展起來(lái)一個(gè)新型生物技術(shù),它能夠平行、高通量地監(jiān)測(cè)成千上萬(wàn)基因轉(zhuǎn)錄本表示水平,從而為系統(tǒng)地監(jiān)測(cè)細(xì)胞內(nèi)mRNA分子表示狀態(tài)進(jìn)而推測(cè)細(xì)胞功效狀態(tài)提供了可能。1995年Schena(Science,1995)等人,把擬南芥45個(gè)基因固定在一張玻片上,并行檢測(cè)擬南芥45個(gè)基因表示情況,這是第一次結(jié)合了高精度機(jī)械手點(diǎn)樣系統(tǒng)、熒光標(biāo)識(shí)技術(shù)、雙通道熒光掃描技術(shù)和數(shù)據(jù)分析軟件,是第一次真正意義上用DNA芯片技術(shù)進(jìn)行基因表示分析應(yīng)用。部分基因組被測(cè)序微生物全基因DNA芯片問(wèn)世,如:釀酒酵母,大腸桿菌。人類、小鼠和水稻等物種全基因組芯片。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第12頁(yè)近年Medline收錄發(fā)表“DNAmicroarray”相關(guān)論文基因芯片技術(shù)經(jīng)過(guò)十多年發(fā)展,已經(jīng)發(fā)展成為一個(gè)高通量,大規(guī)模和微量化分析伎倆,成為功效基因組研究中主要技術(shù)方法,得到了較為廣泛應(yīng)用和推廣。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第13頁(yè)DNA芯片技術(shù)芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測(cè)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第14頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第15頁(yè)DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測(cè)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第16頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第17頁(yè)什么是微陣列微陣列(microarray):是一個(gè)平面基質(zhì)載體,它上面規(guī)則、特異性地吸附著基因或基因產(chǎn)物(探針)。是一個(gè)小型分析裝置,能夠快速和準(zhǔn)確地碩士物基因組信息。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第18頁(yè)芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第19頁(yè)1.1芯片制備---芯片探針DNA探針:DNA探針是最慣用核酸探針,指長(zhǎng)度在幾百堿基對(duì)以上雙鏈DNA或單鏈DNA探針。這類探針多為某一基因全部或部分序列,或某一非編碼序列。DNA探針取得有賴于分子克隆技術(shù)發(fā)展和應(yīng)用。可在質(zhì)粒載體中克隆,便于無(wú)限繁殖,制備簡(jiǎn)便;不易降解(相對(duì)RNA而言)cDNA探針(complementaryDNA)是指互補(bǔ)于mRNADNA分子,是由逆轉(zhuǎn)錄酶催化而產(chǎn)生。該酶以RNA為模板,依據(jù)堿基配對(duì)標(biāo)準(zhǔn),按照RNA核苷酸次序合成DNA(其中U與A配對(duì))。cDNA探針是當(dāng)前應(yīng)用最為廣泛一個(gè)探針。

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第20頁(yè)芯片探針特點(diǎn)互補(bǔ)性:即針對(duì)目標(biāo)基因保守區(qū)設(shè)計(jì)互補(bǔ)、完全配對(duì)(perfectmatch,PM)寡核苷酸探針特異性:即探針與目標(biāo)基因結(jié)合相對(duì)于家族其它組員含有高度特異性探針豐足:并非把相同探針片段固化在陣列中多處部位而是指針對(duì)靶基因序列設(shè)計(jì)多個(gè)(三個(gè)以上)寡核苷酸探針.這些寡核苷探針可與該基因不一樣部位特異結(jié)合、應(yīng)用多個(gè)不一樣序列探針檢測(cè)同一個(gè)分子可顯著提升信噪比,提升RNA定量準(zhǔn)確性醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第21頁(yè)原位合成芯片

(syntheticgenechip)芯片制備方式DNA微陣列(DNAmicroarray)原位合成芯片采取顯微光蝕刻(photolithography)等技術(shù),在芯片特定部位原位合成寡核苷酸而制成。探針較短采取常規(guī)分子生物學(xué)技術(shù)如PCR、分子克隆、DNA合成技術(shù)等,預(yù)先合成DNA或基因片段,然后以顯微打印方式,待這些基因片段有序地固化于支持物表面而制成

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第22頁(yè)預(yù)先合成基因芯片探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第23頁(yè)原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第24頁(yè)原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第25頁(yè)原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第26頁(yè)

原位合成(InSituSynthesis)羥基化特制光刻掩膜醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第27頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第28頁(yè)1.2.芯片支持物類型實(shí)性材料膜性材料硅片玻片瓷片聚丙烯膜尼龍膜纖維素膜醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第29頁(yè)支持物預(yù)處理實(shí)性材料

通常在表面衍生出活性基團(tuán),如羥基或氨基載體活化膜性材料使其表面帶上正電荷以吸附帶負(fù)電荷DNA分子,通常以氨基硅烷或多聚賴氨酸等進(jìn)行包被需進(jìn)行預(yù)處理,使其表面衍生出羥基、氨基活性基團(tuán)。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第30頁(yè)1.3.芯片打印將預(yù)先制備好DNA探針以液滴形式有序排列在經(jīng)特殊處理支持物上過(guò)程.接觸式打印非接觸式打印醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第31頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第32頁(yè)1.4打印后處理1.首先需要把探針固定在玻璃表面2.另首先也要封閉玻片上未打印區(qū)域,以預(yù)防雜交時(shí)樣品DNA非特異性結(jié)合醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第33頁(yè)基因芯片是規(guī)則規(guī)則:微陣列上單元按照行和列方式進(jìn)行排列。基本標(biāo)準(zhǔn):成行、成列、大小均一、點(diǎn)間距相近、位置明確。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第34頁(yè)意義:能使微陣列制備、檢測(cè)和定量快速進(jìn)行。行和列是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第35頁(yè)均一大小和點(diǎn)間距意義:能使微陣列制備、檢測(cè)和定量快速進(jìn)行。同時(shí)均一化點(diǎn)滿足定量簡(jiǎn)單化、分析準(zhǔn)確化需要。是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第36頁(yè)明確位置意義:能確保對(duì)信號(hào)強(qiáng)度準(zhǔn)確定量并能把信號(hào)值和對(duì)應(yīng)基因序列對(duì)應(yīng)起來(lái)。A1A2B1B2B3C1C2C3A3A1A2A3B1B2B3C3C2C1是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第37頁(yè)DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測(cè)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第38頁(yè)樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識(shí)標(biāo)識(shí)樣品純化醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第39頁(yè)組織、細(xì)胞中樣品核酸提取和純化反轉(zhuǎn)錄生成cDNA樣品核酸擴(kuò)增和熒光標(biāo)識(shí)擴(kuò)增:PCR,RT—PCR,固相PCR慣用標(biāo)識(shí)物為Cy3,Cy5(熒光標(biāo)識(shí)),生物素標(biāo)識(shí),放射素末端標(biāo)識(shí):在引物上標(biāo)識(shí)有熒光素,在DNA擴(kuò)增過(guò)程時(shí),使新形成DNA鏈末端帶有熒光素。標(biāo)識(shí)樣品純化樣品準(zhǔn)備醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第40頁(yè)DNA微陣列技術(shù)流程芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識(shí)標(biāo)識(shí)樣品純化雜交與雜交后清洗檢測(cè)與分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第41頁(yè)DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測(cè)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第42頁(yè)基因芯片基因芯片原理-----molecularhybridization

指含有一定同源性兩條核酸單鏈(DNA或RNA),在一定條件下按堿基互補(bǔ)配對(duì)標(biāo)準(zhǔn)經(jīng)過(guò)退火處理,形成異質(zhì)雙鏈過(guò)程。利用這一原理,就能夠使用已知基因單鏈核酸片段作為探針,去查找各種不一樣起源基因組DNA分子中同源基因或同源序列。將一系列核酸片段固定在芯片載體上作為探針,待測(cè)核酸片段人工標(biāo)識(shí)上不一樣熒光、或同位素等作為靶片段(target),一定條件下二者雜交,依據(jù)雜交后不一樣信號(hào)即可取得靶片段信息,進(jìn)行計(jì)算機(jī)分析。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第43頁(yè)基因芯片原理醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第44頁(yè)基因芯片自動(dòng)雜交儀分子雜交系統(tǒng)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第45頁(yè)檢測(cè)與分析1激光激發(fā)使含熒光標(biāo)識(shí)DNA片段發(fā)射熒光2激光掃描儀或激光共聚焦顯微鏡采集各雜交點(diǎn)信號(hào)3軟件進(jìn)行進(jìn)行圖象分析和數(shù)據(jù)處理DyePhotonsElectronsSignalLaserPMTA/DConvertorexcitationamplificationFilteringTime-spaceaveraging醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第46頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第47頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第48頁(yè)DNA微陣列技術(shù)流程芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識(shí)標(biāo)識(shí)樣品純化雜交與雜交后清洗檢測(cè)與分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第49頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第50頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第51頁(yè)表示譜試驗(yàn)流程Fragment(heat,Mg2+)Hybridize(16hours)IVTBiotin-rNTPcDNATotalRNACellsScanBBBBBBBBWash&StainAAAAAAAAAAAA醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第52頁(yè)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第53頁(yè)生物信息學(xué)在基因芯片中應(yīng)用表達(dá)在四個(gè)方面:芯片設(shè)計(jì)可靠性分析預(yù)處理數(shù)據(jù)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第54頁(yè)基因芯片數(shù)據(jù)預(yù)處理數(shù)據(jù)提取對(duì)數(shù)化探針過(guò)濾補(bǔ)缺失值標(biāo)準(zhǔn)化探針注釋醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第55頁(yè)數(shù)據(jù)提取—表示值取得圖象預(yù)處理網(wǎng)格定位背景濾除熒光信號(hào)提取歸一化處理背景區(qū)域醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第56頁(yè)數(shù)據(jù)提取芯片熒光掃描圖像cDNA芯片Affymetrix寡核苷酸芯片醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第57頁(yè)數(shù)據(jù)提取---cDNA芯片芯片熒光掃描圖像CH1ICH1BCH2ICH2BRatio=(CH1I-CH1B)/(CH2I-CH2B)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第58頁(yè)數(shù)據(jù)提取---Affymetrix芯片熒光掃描圖像黑-藍(lán)黑-藍(lán)-高藍(lán)-綠-黃-橙-紅-白低高醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第59頁(yè)每個(gè)基因通常會(huì)設(shè)計(jì)16~20個(gè)探針對(duì),組成探針集,共同決定某基因雜交信號(hào)PM(perfectmatch):與目標(biāo)樣本完美匹配探針MM(mismatch):在完美匹配探針序列中央發(fā)生一個(gè)堿基替換雜交信號(hào):定性(P-Present/A-Absent/M-Marginal)定量(realsignal)數(shù)據(jù)提取醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第60頁(yè)數(shù)據(jù)提取芯片數(shù)據(jù)格式探針數(shù)遠(yuǎn)大于基因數(shù)HumanGenomeU133包含100萬(wàn)不一樣寡核苷酸探針,33000個(gè)基因“.cel”文件醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第61頁(yè)數(shù)據(jù)提取芯片數(shù)據(jù)格式Matrixfile醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第62頁(yè)數(shù)據(jù)提取?醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第63頁(yè)基因芯片數(shù)據(jù)預(yù)處理數(shù)據(jù)提取對(duì)數(shù)化探針過(guò)濾補(bǔ)缺失值標(biāo)準(zhǔn)化探針注釋醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第64頁(yè)對(duì)數(shù)化原始數(shù)據(jù)呈偏態(tài)分布對(duì)數(shù)轉(zhuǎn)化后呈近似正態(tài)分布醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第65頁(yè)探針過(guò)濾去除表示水平是負(fù)值或很小數(shù)據(jù)或顯著噪音數(shù)據(jù)過(guò)閃耀現(xiàn)象物理原因造成信號(hào)污染(劃傷、指紋等)雜交效能低點(diǎn)樣問(wèn)題……醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第66頁(yè)補(bǔ)缺失值數(shù)據(jù)缺失類型非隨機(jī)缺失(表示豐度過(guò)低或過(guò)高)隨機(jī)缺失(與表示水平高低無(wú)關(guān))雜交效能低物理刮傷指紋灰塵圖像污染……醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第67頁(yè)補(bǔ)缺失值刪除對(duì)應(yīng)行、列簡(jiǎn)單補(bǔ)缺法無(wú)表示或無(wú)差異表示0或1均值樣本均值基因均值醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第68頁(yè)補(bǔ)缺失值回歸法醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第69頁(yè)補(bǔ)缺失值k近鄰法---KNN(K-Nearest

Neighbor)前提假設(shè):近鄰對(duì)象含有類似預(yù)測(cè)值。思想:在多維空間Rn中找到與未知樣本最近鄰k個(gè)點(diǎn),并依據(jù)這k個(gè)點(diǎn)類別來(lái)判斷未知樣本類這k個(gè)點(diǎn)就是未知樣本k-最近鄰。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第70頁(yè)k近鄰法---KNN數(shù)學(xué)模型:離散目標(biāo)分類函數(shù)為f:Rn->V

設(shè)未知樣本特征向量X為訓(xùn)練數(shù)據(jù)集D={(Xi,Vi),1≤i≤N},其中Xi是第i個(gè)訓(xùn)練樣本特征向量,Vi是類別V是有限集合{v1,v2,…vs},即各不一樣分類集計(jì)算X和Xi之間距離d(Xi,X)按距離排序,得到d(X,Xi1)

≤d(X,Xi2)

≤…

≤d(X,XiN)選擇前K個(gè)樣本:S={(Xi1,Yi1)…(XiK,YiK)};

統(tǒng)計(jì)S中每個(gè)類別出現(xiàn)次數(shù),確定X類別Y醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第71頁(yè)補(bǔ)缺失值k近鄰法---KNN(K-Nearest

Neighbor)基因i在樣本j中表示水平缺失確定距離最近k個(gè)鄰居基因歐氏距離相關(guān)系數(shù)加權(quán)平均預(yù)計(jì)缺失值醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第72頁(yè)標(biāo)準(zhǔn)化基因芯片數(shù)據(jù)中存在變異感興趣變異真正生物學(xué)變異差異表示基因混雜變異試驗(yàn)過(guò)程中引入變異在樣本染色、芯片制作、芯片掃描過(guò)程中引入系統(tǒng)誤差醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第73頁(yè)CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化系統(tǒng)誤差起源染料物理屬性染料結(jié)合效率探針制備探針和樣本雜交過(guò)程數(shù)據(jù)搜集時(shí)掃描過(guò)程不一樣芯片間差異不一樣芯片雜交條件差異醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第74頁(yè)CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化過(guò)程參考物穩(wěn)定表示基因持家基因(housekeepinggenes)外源性或人工合成控制基因(controls)芯片上大部分穩(wěn)定表示基因(全部基因)相對(duì)穩(wěn)定基因子集(invariantset)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第75頁(yè)CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化方法片內(nèi)標(biāo)化對(duì)數(shù)轉(zhuǎn)換log-Ratios全局標(biāo)化(globalnormalization)Cy3和Cy5不一樣染料熒光強(qiáng)度不一致糾正了染料偏倚(dyebias)全部基因log-Ratios中值或均值假設(shè):醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第76頁(yè)CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化方法片內(nèi)標(biāo)化熒光強(qiáng)度依賴標(biāo)化(intensitydependentnormalization)方法:scatter-plots

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論