數據分析與數據挖掘課件第2章 數據_第1頁
數據分析與數據挖掘課件第2章 數據_第2頁
數據分析與數據挖掘課件第2章 數據_第3頁
數據分析與數據挖掘課件第2章 數據_第4頁
數據分析與數據挖掘課件第2章 數據_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章數據目錄

CONTENTS1.52

2.12.22.3數據的屬性數據的基本統計描述數據的相似性與相異性Chapter2.1數據的屬性4

數據集由數據對象組成。一個數據對象代表一個實體。例如:銷售數據庫:顧客、

商品、銷售醫療數據庫:患者、醫生、診斷治療選課數據庫:學生、教師、課程數據對象又稱為樣本、實例、數據點、對象或元組。數據對象用屬性描述。數據表的行對應數據對象;列對應屬性。2.1數據的屬性1.數據對象5

屬性(特征,變量)是一個數據字段,表示數據對象的一個特征。例如:客戶編號、姓名、地址等商品編號、商品名、價格、種類等2.1數據的屬性2.屬性(Attributes)6

標稱屬性(nominal)二元屬性(binary)序數屬性(ordinal)數值屬性(numeric)區間標度屬性(interval-scaled)比率標度屬性(ratio-scaled)2.1數據的屬性3.屬性類型7

標稱屬性(nominalattribute):類別,狀態或事物的名字每個值代表某種類別、編碼或狀態,這些值不必具有有意義的序,可以看做是枚舉的例如:頭發顏色={赤褐色,黑色,金色,棕色,褐色,灰色,白色,紅色}也可以用數值表示這些符號或名稱,但并不定量地使用這些數。例如:婚姻狀況,職業,ID號,郵政編碼,

可以用0表示未婚、1表示已婚2.1數據的屬性3.屬性類型8

二元屬性(binaryattribute):布爾屬性,是一種標稱屬性,只有兩個狀態:0或1。對稱的(symmetric):兩種狀態具有同等價值,且具有相同的權重。例如:性別非對稱的(asymmetric):其狀態的結果不是同樣重要。例如:體檢結果(陰性和陽性),慣例:重要的結果用1編碼(如,HIV陽性)。2.1數據的屬性3.屬性類型9

序數屬性(ordinalattribute),其可能的值之間具有有意義的序或者秩評定(ranking),但是相繼值之間的差是未知的。例如:尺寸={小,中,大},軍銜,職稱序數屬性可用于主觀質量評估例如:顧客對客服的滿意度調查。0-很不滿意;1-不太滿意;2-基本滿意;3-滿意;4-非常滿意2.1數據的屬性3.屬性類型10

數值屬性(numericattribute):定量度量,用整數或實數值表示區間標度(interval-scaled)屬性:使用相等的單位尺度度量。值有序,可以評估值之間的差,不能評估倍數。沒有絕對的零點。例如:日期,攝氏溫度,華氏溫度比率標度(ratio-scaled)屬性:具有固定零點的數值屬性。值有序,可以評估值之間的差,也可以說一個值是另一個的倍數。例如:開式溫標(K),重量,高度,速度2.1數據的屬性3.屬性類型11

離散屬性(discreteAttribute):具有有限或者無限可數個值。有時,表示為整型量。例如:郵編、職業或文庫中的字集二進制屬性是離散屬性的一個特例連續屬性(ContinuousAttribute):屬性值為實數,一般用浮點變量表示。例如,溫度,高度或重量,實際上,真實值只能使用一個有限的數字來測量和表示。2.1數據的屬性離散屬性VS連續屬性Chapter2.2數據的基本統計描述13

2.2數據的基本統計描述目的數據的基本統計描述更好地識別數據的性質,把握數據全貌。中心趨勢度量、數據分散度量、數據的圖形表示中心趨勢度量均值、加權算數均值、中位數、眾數、中列數數據分散度量極差、分位數和四分位數、方差和標準差數據的圖形顯示箱圖、餅圖、頻率直方圖、散點圖均值(Mean)令x1,x2,…,xN為某數值屬性X的N個觀測值,該值集合的均值如式(2-1)所示。14

2.2數據的基本統計描述1.中心趨勢度量例:有學生考試成績的值:60,45,33,77,80,100,100,90,70,65。

(2-1)截尾均值15

例:某同學的某一科的考試成績:平時測驗80,期中90,期末95??颇砍煽兊挠嬎惴绞绞牵浩綍r測驗占20%,期中成績占30%,期末成績占50%。這里,每個成績所占的比重為權重。那么,2.2數據的基本統計描述1.中心趨勢度量加權算數平均數(WeightedMean)(2-2)對于i=1,…,N,每個值xi都有一個權重wi。

中位數(Median):正中間的值如果值有奇數個,取中間值,否則取中間兩個數的平均值有序數據值的中間值如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。16

2.2數據的基本統計描述1.中心趨勢度量例:數據按遞增排序為:33,45,60,65,70,77,80,90,100,100。有10個觀測值,因此中位數不唯一。中間兩個值為70和77,則中位數為17

分組數據中位數(GroupedMedian)2.2數據的基本統計描述1.中心趨勢度量Me:中位數,L:中位數所在組的下限,Sm-1:中位數所在組以下各組的累計頻數,fm:中位數所在組的頻數,d:中位數所在組的組距。根據N/2確定中位數所在的組

(2-3)18

分組數據中位數2.2數據的基本統計描述1.中心趨勢度量例:表2-1為某公司員工薪酬的分組數據,計算數據的近似分組數據中位數。SalaryFrequency15001699180170018994601900~19998502000~20992502100~21991302200~2299702300~2399202400~249910表2-1員工薪酬分組數據①判斷中位數區間:N=110+180+320+460+850+250+130+70+20+10=2400;N/2=1200;因為:110+180+320+460=1070<1200<1070+850=1920;所以:1900~1999為對應區間。

19

2.2數據的基本統計描述1.中心趨勢度量經驗公式:可能最高頻率對應多個不同值,導致多個眾數例:數據按遞增序排序為:33,45,60,65,70,77,80,90,100,100。mode=100眾數(Mode):數據中出現最頻繁的值20

2.2數據的基本統計描述1.中心趨勢度量例:數據按遞增序排序為:33,45,60,65,70,77,80,90,100,100。中列數(Midrange):數據集中最大值和最小值的算術平均值

最小值和最大值分別為33和100,則中列數為21

2.2數據的基本統計描述2.數據分散度量例:數據按遞增序排序為:33,45,60,65,70,77,80,90,100,100。極差(又稱全距,Range):是集合中最大值與最小值之間的差距,即最大值減最小值后所得數據。100-33=6722

2.2數據的基本統計描述2.數據分散度量分位數(Quantile):取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。給定數據分布的第k個q-分位數的值為x,使得小于x的數據值最多為k/q,而大于x的數據值最多為(q-k)/q,其中k是整數,使得0<k<q。這里有q-1個q-分位數。圖2-1某變量X的數據統計描述顯示23

2.2數據的基本統計描述2.數據分散度量四分位數(Quantile):把數據分布劃分成4個相等的部分,使得每部分表示數據分布的四分之一。這3個數據點稱為四分位數。圖2-1某變量X的數據統計描述顯示Q1:“下四分位數”;Q2:“中位數”;Q3:“上四分位數”。24

2.2數據的基本統計描述2.數據分散度量四分位數極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數據統計描述顯示

確定四分位數的位置:

Q1的位置=(n+1)/4=(n+1)×0.25

Q2的位置=2*(n+1)/4=(n+1)×0.5

Q3的位置=3*(n+1)/4=(n+1)×0.75

n表示項數25

2.2數據的基本統計描述2.數據分散度量四分位數極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。

例:由8人組成的旅游小團隊年齡分別為:17,19,22,24,25,28,34,37,求其年齡的四分位差。①計算Q1與Q3的位置:Q1的位置=(n+1)/4=(8+1)/4=2.25;Q3的位置=3*(n+1)/4=3*(8+1)/4=6.75②確定Q1與Q3的數值:Q1=19+(22-19)*0.25=19.75;Q3=28+(34-28)*0.75=32.5③計算四分位差:IQR=Q3-Q1=32.5-19.75=12.7526

2.2數據的基本統計描述2.數據分散度量四分位數極差(

InterQuartileRange,IQR):

Q1和Q3之間的距離。圖2-1某變量X的數據統計描述顯示

另一種確定四分位數的位置:

Q1的位置=1+(n-1)×0.25

Q2的位置=1+(n-1)×0.5

Q3的位置=1+(n-1)×0.75

n表示項數方差(樣本方差):是每個數據分別與平均數之差的平方的平均數??傮w方差:樣本方差:27

標準差:方差的平方根

2.2數據的基本統計描述2.數據分散度量(2-5)28

例:有學生考試成績的值:60,45,33,77,80,100,100,90,70,65。標準差:2.2數據的基本統計描述2.數據分散度量29

盒圖(又稱箱線圖,Box-plot),是一種用來描述數據分布的統計圖形,可以表現觀測數據的中位數、四分位數和極值等描述性統計量。2.2數據的基本統計描述離群點:繪制在離群閾值范圍外的點盒子外線延伸到最小和最大的觀測值中位數用盒內線標記盒子的端點在四分位數上,使得盒子長度為四分位數極差IQR用盒子表示數據3.數據的圖形顯示30

盒圖(又稱箱線圖,Box-plot),是一種用來描述數據分布的統計圖形,可以表現觀測數據的中位數、四分位數和極值等描述性統計量。2.2數據的基本統計描述3.數據的圖形顯示離群點:第三個四分位數之上或者第一個四分位數之下至少1.5xIQR的值盒圖:分布直觀表示,體現五數概括五數概括:min,Q1,median,Q3,max31

餅圖(又稱圓形圖或餅形圖,PieGraph),通常用來表示整體的構成部分及各部分之間的比例關系。餅圖顯示一個數據系列中各項的大小與各項總和的比例關系。2.2數據的基本統計描述3.數據的圖形顯示例:使用餅圖表示不同年齡區間的人參與某活動的情況表2-4某活動覆蓋人群年齡區間參與人數19歲及以下27020-29歲124830-39歲108040-49歲28050歲及以上180圖2-4某活動覆蓋人群餅圖32

頻率直方圖(又稱頻率分布直方圖,FrequencyHistogram),是在統計學中表示頻率分布的圖形。2.2數據的基本統計描述3.數據的圖形顯示例:使用直方圖表示學生數學成績的分布學號成績70160702717035670499705667069070710070866709777106071188712797138371455表2-5

學生數學成績圖2-5學生成績數據頻率直方圖33

散點圖(ScatterDiagram):將樣本數據點繪制在二維平面或三維空間上,根據數據點的分布特征,直觀地研究變量之間的統計關系以及強弱程度。2.2數據的基本統計描述3.數據的圖形顯示例:使用散點圖表示物流收貨天數和客戶滿意度之間的關系物流收貨天數客戶滿意度64.51238365181.573.53482.511325122.5152表2-6物流收貨天數和客戶滿意度相關數據圖2-7物流收貨天數和客戶滿意度散點圖34

散點圖(ScatterDiagram)2.2數據的基本統計描述3.數據的圖形顯示(a)

線性相關

(b)非線性相關

(c)不相關圖2-6散點圖中屬性之間的相關性35

散點圖(ScatterDiagram)2.2數據的基本統計描述3.數據的圖形顯示(d)

正相關

(e)負相關圖2-6散點圖中屬性之間的相關性盒圖Boxplot描述五數概括餅圖PieGraph顯示一個數據系列中各項的大小與各項總和的比例關系直方圖Histogramx-axis表示數值大小,y-axis表示頻率36

散點圖Scatterplot每個值視作一個坐標對,作為一個點畫在平面上2.2數據的基本統計描述基本統計圖Chapter2.3數據的相似性與相異性38

2.3數據的相似性與相異性相似性(Similarity)兩個對象相似程度的數量表示數值越高表明相似性越大通常取值范圍為[0,1]相異性(Dissimilarity)(例如距離)兩個對象不相似程度的數量表示數值越低表明相似性越大相異性的最小值通常為0相異性的最大值(上限)是不同的鄰近性(Proximity):相似性和相異性都稱為鄰近性39

2.3數據的相似性與相異性1.數據矩陣與相異矩陣數據矩陣:對象-屬性結構行-對象:n個對象列-屬性:p個屬性二模矩陣(Twomodes)相異性矩陣:對象-對象結構n個對象兩兩之間的鄰近度對稱矩陣單模(Singlemode)40

2.3數據的相似性與相異性2.標稱屬性的鄰近性度量相異性p是對象的屬性總數,m是匹配的屬性數目(即對象i和j狀態相同的屬性數)相似性

41

2.3數據的相似性與相異性2.標稱屬性的鄰近性度量例:計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論