數(shù)據(jù)挖掘-第2章-數(shù)據(jù)_第1頁
數(shù)據(jù)挖掘-第2章-數(shù)據(jù)_第2頁
數(shù)據(jù)挖掘-第2章-數(shù)據(jù)_第3頁
數(shù)據(jù)挖掘-第2章-數(shù)據(jù)_第4頁
數(shù)據(jù)挖掘-第2章-數(shù)據(jù)_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘: 數(shù)據(jù)第2章 數(shù)據(jù)目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)質(zhì)量2.3數(shù)據(jù)預(yù)處理(重點(diǎn))2.4相似性和相異性的度量(難點(diǎn))什么是數(shù)據(jù)?數(shù)據(jù)集可以看作數(shù)據(jù)對象的集合。數(shù)據(jù)對象用一組刻畫對象基本特性的屬性描述數(shù)據(jù)對象記錄、點(diǎn)、向量、模式、事件、案例、樣本、觀測、實(shí)體.屬性變量、特性、字段、特征、維AttributesObjects屬性與屬性值屬性的性質(zhì)不必與度量它的屬性值的性質(zhì)相同,反之亦然相同的屬性可能有不同的屬性值 例子: 高度可以用米或英尺來表示不同的屬性可能映射到相同的值的集合 例子: 雇員ID and 年齡 都用整型表示 然而,談?wù)撈骄挲g是有意義的,平均ID是無意義的ID和年齡最大值不同例

2、2.4 線段長度 屬性的不同類型 四種屬性類型分類的(定性的)標(biāo)稱舉例: 雇員id、眼球顏色、性別序數(shù)舉例:礦石硬度、好,較好,最好數(shù)值的(定量的)區(qū)間舉例:日歷日期、攝氏、華氏溫度比率舉例:絕對溫度、貨幣量、計數(shù)、年齡、質(zhì)量、長度、電流屬性類型描述例子操作標(biāo)稱標(biāo)稱值只提供足夠的信息以區(qū)分對象. (=, )雇員id、眼球顏色、性別眾數(shù)、熵、列聯(lián)相關(guān)、, 2 檢驗(yàn)序數(shù)序數(shù)屬性的值提供足夠的信息確定對象的序. ()礦石硬度、好,較好,最好、成績中值、百分位、秩相關(guān)、游程檢驗(yàn)、符號檢驗(yàn)區(qū)間對于區(qū)間屬性,值之間的差是有意義的,即存在測量單位. (+, - )日歷日期、攝氏、華氏溫度均值、標(biāo)準(zhǔn)差、皮爾遜

3、相關(guān)、t和F檢驗(yàn)比率對于比率變量,差和比率都是有意義的. (*, /)絕對溫度、貨幣量、計數(shù)、年齡、質(zhì)量、長度、電流幾何平均、調(diào)和平均、百分比變差.重點(diǎn)屬性類型變換注釋標(biāo)稱任何一對一變換如果所有雇員的ID號都重新賦值,不會導(dǎo)致任何不同序數(shù)值的保序變換新值 = f(舊值) f 是單調(diào)的.包括好、較好、最好的屬性可以完全等價的用 1, 2, 3 或用 0.5, 1, 10表示.區(qū)間新值 =a * 舊值 + b華氏和攝氏溫度標(biāo)度零度的位置和1度的大小(單位)不同比率新值 =a * 舊值 長度可以用米或英尺度量.用值的個數(shù)描述屬性-離散和連續(xù)屬性 離散屬性具有有限或無限可數(shù)個值例子: ID號、計數(shù)、字

4、母數(shù) 經(jīng)常用整數(shù)表示. 連續(xù)屬性是取實(shí)數(shù)值的屬性例子: 溫度、高度、重量. 連續(xù)屬性用浮點(diǎn)變量表示. 數(shù)據(jù)集的類型 數(shù)據(jù)集的一般特性:維度(dimensionality) 維災(zāi)難(curse of dimensionality)維歸約(dimensionality reduction)稀疏性(sparsity) 對于一些數(shù)據(jù)集,如具有非對稱特征的數(shù)據(jù)集,一個對象大部分屬性值為0,非零項一般不到1%分辨率(resolution) 不同的分辨率下數(shù)據(jù)的性質(zhì)不同。數(shù)據(jù)集的類型 記錄數(shù)據(jù)數(shù)據(jù)矩陣(Data Matrix)文檔詞矩陣(Document term Data)事物數(shù)據(jù)(Transaction

5、 Data)基于圖形的數(shù)據(jù)帶有對象之間聯(lián)系的數(shù)據(jù)具有圖形對象的數(shù)據(jù)有序數(shù)據(jù)空間數(shù)據(jù)(Spatial Data)時序數(shù)據(jù)(Temporal Data)時間序列數(shù)據(jù)(Time Series Data)序列數(shù)據(jù)(Sequence Data)記錄數(shù)據(jù)記錄(數(shù)據(jù)對象)的匯集,每個記錄包含固定的數(shù)據(jù)字段(屬性)集 記錄數(shù)據(jù)-數(shù)據(jù)矩陣 數(shù)據(jù)對象集可用mn的矩陣表示記錄數(shù)據(jù)-稀疏數(shù)據(jù)矩陣特殊的數(shù)據(jù)矩陣, 只有非零值是重要的,例子:文檔-詞矩陣記錄數(shù)據(jù)-事務(wù)數(shù)據(jù)每個記錄(事務(wù))涉及一個項的集合. 例子:一個雜貨店。顧客一次購買的商品的集合就構(gòu)成一個事務(wù),而購買的商品是項.這種類型的數(shù)據(jù)稱作購物籃數(shù)據(jù) 基于圖形的

6、數(shù)據(jù)-帶有對象之間聯(lián)系的數(shù)據(jù) 公路交通網(wǎng) 基于圖形的數(shù)據(jù)-具有圖形對象的數(shù)據(jù) 苯分子: C6H6具有圖形對象的數(shù)據(jù)-信號轉(zhuǎn)導(dǎo)通路http:/www.genome.jp/kegg/pathway/hsa/hsa04010.htmlMAPK通路具有圖形對象的數(shù)據(jù)-代謝通路Detail: http:/www.genome.jp/kegg-bin/show_pathway?org_name=rn&mapno=00010&mapscale=1.0&show_description=show葡萄糖代謝有序數(shù)據(jù)-時序數(shù)據(jù) 時序數(shù)據(jù):可以看作記錄數(shù)據(jù)的補(bǔ)充,其中每個記錄包含一個與之相關(guān)聯(lián)的時間。有序數(shù)據(jù)-時間

7、序列數(shù)據(jù)時間序列數(shù)據(jù):是一種特殊的時序數(shù)據(jù),其中每個記錄都是一個時間序列。特點(diǎn):時間自相關(guān)!有序數(shù)據(jù)-時間序列數(shù)據(jù)酵母細(xì)胞發(fā)育基因表達(dá)值有序數(shù)據(jù)-序列數(shù)據(jù) 序列數(shù)據(jù):沒有時間,其它與時序數(shù)據(jù)相似。有序數(shù)據(jù)-空間數(shù)據(jù)例子:溫度數(shù)據(jù)特點(diǎn):空間自相關(guān)!有序數(shù)據(jù)-空間數(shù)據(jù)目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)質(zhì)量2.3數(shù)據(jù)預(yù)處理(重點(diǎn))2.4相似性和相異性的度量(難點(diǎn))2.2數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量問題: 噪聲(Noise) 離群點(diǎn)(outliers )遺漏值(missing values )重復(fù)數(shù)據(jù)( duplicate data )噪聲噪聲是測量誤差的隨機(jī)部分Examples: distortion of a p

8、ersons voice when talking on a poor phone and “snow” on television screenTwo Sine WavesTwo Sine Waves + Noise離群點(diǎn)噪聲和離群點(diǎn)的區(qū)別離群點(diǎn)可以是合法的數(shù)據(jù)對象或值,不像噪聲,離群點(diǎn)本身可以是令人感興趣的例子:欺詐和網(wǎng)絡(luò)攻擊檢測中,目標(biāo)就是從大量正常對象或事件中發(fā)現(xiàn)不 正常的對象和事件遺漏值產(chǎn)生遺漏值的原因信息未收集到 例如:有的人拒絕提供年齡和體重屬性并不能用于所有對象 例如:填寫學(xué)歷后,填寫專業(yè),研究方向處理遺漏值刪除數(shù)據(jù)對象或?qū)傩怨烙嬤z漏值在分析時忽略遺漏值重復(fù)數(shù)據(jù)數(shù)據(jù)集可能包含重

9、復(fù)或幾乎重復(fù)的數(shù)據(jù)對象例1:許多人收到重復(fù)的郵件例2:不同數(shù)據(jù)庫收集的蛋白質(zhì)互作數(shù)據(jù)和通路數(shù)據(jù)的重復(fù)例3:重復(fù)序列,如rRNA基因、tRNA基因和某些蛋白質(zhì)(如組蛋白、肌動蛋白等)的基因序列例4:旁系同源基因去除重復(fù)數(shù)據(jù)代碼:x - c(gene1,gene2,gene1) unique(x)目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)質(zhì)量2.3數(shù)據(jù)預(yù)處理(重點(diǎn))2.4相似性和相異性的度量(難點(diǎn))2.3數(shù)據(jù)預(yù)處理(重點(diǎn))聚集(重點(diǎn))抽樣(重點(diǎn))維歸約特征子集選擇特征創(chuàng)建離散化和二元化(重點(diǎn))變量變換聚集將兩個或多個對象合并成單個對象目的數(shù)據(jù)歸約 使數(shù)據(jù)集規(guī)模減少,從而耗時較多的數(shù)據(jù)挖掘算法更可行尺度變換建立高

10、層數(shù)據(jù)視圖。如:城市聚集成地區(qū)、省、國家數(shù)據(jù)性質(zhì)更加穩(wěn)定 平均值、總數(shù)等聚集量具有更小的變異性 聚集-生物學(xué)例子肝移植、腎移植、等疾病聚集起來,稱為器官移植疾病!抽樣 抽樣是一種選擇數(shù)據(jù)對象子集進(jìn)行分析的常用方法 在統(tǒng)計學(xué)和數(shù)據(jù)挖掘中,抽樣的動機(jī)并不相同.統(tǒng)計學(xué)使用抽樣是因?yàn)楂@得感興趣的整個數(shù)據(jù)集的費(fèi)用太高、太費(fèi)時間數(shù)據(jù)挖掘使用抽樣是因?yàn)樘幚硭械臄?shù)據(jù)的費(fèi)用太高、太費(fèi)時間抽樣 有效抽樣(樣本有代表性): 使用抽樣樣本與使用整個數(shù)據(jù)集的效果幾乎一樣如果它近似地具有與原數(shù)據(jù)集相同(感興趣)的性質(zhì)。例子:如果感興趣的數(shù)據(jù)對象是均值,而抽樣樣本具有近似于原數(shù)據(jù)集的均值,則樣本是有代表性的 抽樣方法簡單

11、隨機(jī)抽樣無放回抽樣有放回抽樣分層抽樣每種類型的對象數(shù)量差別很大時,簡單隨機(jī)抽樣不能充分地代表不太頻繁出現(xiàn)的對象類型。先分組,然后對每組抽樣。可以使每組抽樣個數(shù)相同或從每組中抽取的對象數(shù)量正比于該組的大小抽樣與信息損失 8000 points 2000 Points500 Points較大的樣本容量增大了樣本具有代表性的概率,但也抵消了抽樣帶來的許多好處。反過來,使用較小容量的樣本,可能丟失模式,或檢測到錯誤的模式。抽樣-生物例子抽樣-生物例子我們檢測了所有疾病基因?qū)υ谕分械木嚯x,結(jié)果發(fā)現(xiàn)它們的平均距離d很小這種現(xiàn)象是疾病基因特有的嗎?我們利用抽樣方法隨機(jī)抽取了一些基因(數(shù)量與疾病基因數(shù)量相同

12、),然后檢測它們的平均距離。重復(fù)抽樣過程1000次。結(jié)果檢測到有990次以上平均距離大于d計算出P值0.01疾病基因?qū)υ谕分械木嚯x更小的假設(shè)是成立的!抽樣程序代碼:x - paste(c(gene),1:100,sep=)sample(x,6)維歸約目的:減少數(shù)據(jù)挖掘算法運(yùn)行的時間和空間數(shù)據(jù)更容易可視化刪除不相關(guān)特征、降低噪音技術(shù)主成分分析-PCA(Principle Component Analysis) 程序代碼:prcomp(iris,1:4)奇異值分解-SVD(Singular Value Decomposition)PCA特征創(chuàng)建由原來的屬性創(chuàng)建新的屬性集,更有效地捕獲數(shù)據(jù)集中的重

13、要信息三個一般的方法:特征提取映射數(shù)據(jù)到新的空間特征構(gòu)造特征創(chuàng)建-映射數(shù)據(jù)到新的空間Two Sine WavesTwo Sine Waves + NoiseFrequency傅立葉變換:把時間序列轉(zhuǎn)化為頻率信息小波變換 特征創(chuàng)建-特征構(gòu)造例子:每個人工制品由體積、質(zhì)量和其它信息構(gòu)成。假定這些人工制品使用少量材料(木材、陶土、青銅、黃金)制造,并且我們希望根據(jù)制造材料對它們分類。密度=質(zhì)量/體積將很直接地產(chǎn)生準(zhǔn)確的分類。最常見的方法還是使用專家的意見構(gòu)造特征離散化和二元化分類屬性二元化如果有m個分類值,則將每個原始值唯一地賦予區(qū)間0,m-1中的一個整數(shù)。如果屬性是有序的,則賦值必須保持序關(guān)系然后

14、,將這m個整數(shù)的每一個都變換成一個二進(jìn)制數(shù)。需要使用 個二進(jìn)位表示這些整數(shù)例:一個具有5個值awful,poor,ok,good,great的分類變量需要三個二元變量表示。連續(xù)屬性離散化連續(xù)屬性變?yōu)榉诸悓傩詫⑦B續(xù)屬性值排序后,通過指定n-1個分割點(diǎn)把他們分成n個區(qū)間將一個區(qū)間中的所有值映射到相同的分類例:對x=2.1,2.4,3,3.5,4, 3.2離散化為三個分類值 2.1,2.4,3,3.2,3.8,4設(shè)定區(qū)間(-,2.7,(2.7,3.5,(3.5, + )離散化為0,0,1,1,2,2離散化 等寬將屬性的值域劃分成具有相同寬度的區(qū)間這種方法可能受離群點(diǎn)的影響而性能不佳等頻率將相同數(shù)量的

15、對象放進(jìn)每個區(qū)域K均值聚類離散化 數(shù)據(jù)等寬離散化等頻率離散化k均值離散化變量變換變量變換是指用于變量的所有值的變換簡單函數(shù): xk, log(x), ex, |x|,1/x,sinx規(guī)范化和標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化(規(guī)范化)例:比較兩個人的不同:因?yàn)槟挲g之差一般遠(yuǎn)小于收入之差,因此如果不對數(shù)據(jù)標(biāo)準(zhǔn)化,將導(dǎo)致收入之差將主導(dǎo)人的不同 標(biāo)準(zhǔn)差方法:均值和標(biāo)準(zhǔn)差受離群點(diǎn)影響大, 可用中位點(diǎn)和絕對標(biāo)準(zhǔn)差代替基因芯片標(biāo)準(zhǔn)化目錄2.1數(shù)據(jù)類型2.2數(shù)據(jù)質(zhì)量2.3數(shù)據(jù)預(yù)處理2.4相似性和相異性的度量相似性和相異性的度量相似度兩個對象相似程度的數(shù)值度量.兩個對象越相似,它們的相似度就越高相異度兩個對象差異程度的數(shù)值度量對象

16、越相似,他們的相異度就越低各種相似度和相異度測量方法簡單屬性之間的相似度和相異度(重點(diǎn))數(shù)據(jù)對象之間的相異度歐氏距離.明可夫斯基距離.馬氏距離數(shù)據(jù)對象之間的相似度簡單匹配系數(shù)、雅卡爾系數(shù).(重點(diǎn))余弦相似度.相關(guān)性簡單屬性之間的相似度和相異度(重點(diǎn))p and q are the attribute values for two data objects.數(shù)據(jù)對象之間的相異度-歐氏距離Distance Matrix歐氏距離(Euclidean Distance)數(shù)據(jù)對象之間的相異度-明可夫斯基距離Minkowski Distancer = 1. 城市塊 (曼哈頓, 出租車, L1 范數(shù)) 距離

17、. r = 2. 歐氏距離( L2 范數(shù))r . 上確界 (Lmax或L 范數(shù)) 距離. 數(shù)據(jù)對象之間的相異度-明可夫斯基距離r = 1Minkowski DistanceDistance Matrix城市塊距離應(yīng)用-衡量疾病之間的”距離”數(shù)據(jù)對象之間的相異度-馬氏距離Mahalanobis DistanceCovariance Matrix:BACA: (0.5, 0.5)B: (0, 1)C: (1.5, 1.5)Mahal(A,B) = 5Mahal(A,C) = 4 數(shù)據(jù)對象之間的相似度兩個僅包含二元屬性的對象之間的相似性度量也稱相似系數(shù)兩個對象的比較導(dǎo)致四個量f00 = x取0并且y

18、取0的屬性個數(shù)f01 = x取0并且y取1的屬性個數(shù)f10 = x取1并且y取0的屬性個數(shù)f11 = x取1并且y取1的屬性個數(shù)二元屬性的對象之間的相似性度量(重點(diǎn))簡單匹配系數(shù)(Simple Matching Coefficient)SMC = 值匹配的屬性個數(shù) / 屬性個數(shù) = (f11 +f00) / (f01 + f10 + f11 + f00)Jaccard(雅卡爾 ) 系數(shù) J = 匹配的個數(shù) / 不涉及0-0匹配的屬性個數(shù) = (f11) / (f01 + f10 +f11) SMC vs Jaccard: 例子x = 1 0 0 0 0 0 0 0 0 0 y = 0 0 0

19、0 0 0 1 0 0 1 SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (0+7) / (2+1+0+7) = 0.7 J = (f11) / (f01 + f10 + f11) = 0 / (2 + 1 + 0) = 0 f00 = 7 f01 = 2f10 = 1f11 = 0數(shù)據(jù)對象之間的相似度-余弦相似度 cos( x, y ) = (x y) / |x| |y| 例: x = 3 2 0 5 0 0 0 2 0 0 y = 1 0 0 0 0 0 0 1 0 2 x y=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0

20、+0*2 = 5 |x| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 |y| =(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 0.3150數(shù)據(jù)對象之間的相似度-相關(guān)性皮爾遜相關(guān)系數(shù)應(yīng)用-計算microRNA調(diào)控基因的強(qiáng)度miRNA1mRNA1計算miRNA和mRNA的表達(dá)相關(guān)性(模擬):miRNA-c(23.5,10,10,5.1,1.2)mRNA-c(1.2,5.2,12,12.3,24.1)

21、cor(miRNA,mRNA)miRNA和mRNA的表達(dá)負(fù)相關(guān)性,強(qiáng)烈的暗示他們之間的調(diào)控關(guān)系!習(xí)題:數(shù)據(jù)(或?qū)傩裕┑念愋陀心膸追N?怎樣區(qū)分這些類型?每種類型舉一個例子。標(biāo)稱屬性的值只提供足夠的信息以_對象. 序數(shù)屬性的值提供足夠的信息確定對象的_. 對于比率屬性的值,進(jìn)行_和_操作都是有意義的. 攝氏溫度、年齡、質(zhì)量、長度、基因表達(dá)量、一號染色體的基因起始位置,它們分別屬于什么數(shù)據(jù)類型。數(shù)據(jù)集的類型主要有幾類?每種類型又包含哪些具體的數(shù)據(jù)集子類型。數(shù)據(jù)矩陣是一種特殊的記錄數(shù)據(jù)類型。與記錄數(shù)據(jù)類型相比,特殊在哪里?目前有100多個代謝通路,如葡萄糖代謝、嘌呤代謝等,那么葡萄糖代謝屬于帶有對象之間聯(lián)系的數(shù)據(jù)還是具有圖形對象的數(shù)據(jù)?如下是酵母細(xì)胞在多個時間點(diǎn)上的全基因組表達(dá)情況。該數(shù)據(jù)集屬于哪種具體的數(shù)據(jù)集類型?這種數(shù)據(jù)有什么特點(diǎn)。噪聲和離群點(diǎn)的區(qū)別?產(chǎn)生遺漏值的原因有哪些?怎樣處理遺漏值?數(shù)據(jù)預(yù)處理主要有什么方法?聚集的主要目的有:數(shù)據(jù)歸約、使數(shù)據(jù)性質(zhì)更加穩(wěn)定、_。(判斷對錯!)OMIM數(shù)據(jù)庫中每個疾病已知的疾病基因很少,因此難以利用他們來識別相應(yīng)的通路。為此我們可以利用特征選擇的方法把疾病亞類匯集起來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論