《R語言數(shù)據(jù)挖掘》第三章 R的數(shù)據(jù)可視化_第1頁
《R語言數(shù)據(jù)挖掘》第三章 R的數(shù)據(jù)可視化_第2頁
《R語言數(shù)據(jù)挖掘》第三章 R的數(shù)據(jù)可視化_第3頁
《R語言數(shù)據(jù)挖掘》第三章 R的數(shù)據(jù)可視化_第4頁
《R語言數(shù)據(jù)挖掘》第三章 R的數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第三章R的數(shù)據(jù)可視化學(xué)習(xí)目標(biāo)理論方面,理解各種圖形的統(tǒng)計含義、適用范圍以及繪制原理。實(shí)踐方面,掌握繪制各類圖形的R函數(shù),能夠依據(jù)實(shí)際數(shù)據(jù)選擇恰當(dāng)?shù)目梢暬ぞ呃L圖基礎(chǔ)數(shù)據(jù)的直觀印象通常來自于關(guān)于數(shù)據(jù)的各種圖形,即通過數(shù)據(jù)可視化,利用各種圖形直觀展示數(shù)據(jù)的分布特點(diǎn)。包括單個數(shù)值型變量或分類型變量的統(tǒng)計分布特征,多個變量的聯(lián)合分布特征,以及變量間的相關(guān)性等等方面。這是獲得數(shù)據(jù)直觀印象的思路和主體脈絡(luò),也是數(shù)據(jù)挖掘的重要方面R的數(shù)據(jù)可視化平臺是什么圖形設(shè)備和圖形文件R的圖形組成和圖形參數(shù)R的圖形邊界和布局如何修改R的圖形參數(shù)單變量分布的可視化核密度圖核密度圖用于展示單個數(shù)值型變量的分布或多個數(shù)值型變量的聯(lián)合分布特征繪制核密度圖的首要任務(wù)是核密度估計。核密度估計是一種僅從樣本數(shù)據(jù)自身出發(fā)估計其密度函數(shù)并準(zhǔn)確刻畫其分布特征的非參數(shù)統(tǒng)計方法x0處密度的估計:核密度估計的R函數(shù):density單變量分布的可視化案例涉及的R函數(shù)hist(數(shù)值型向量,freq=TRUE/FALSE)lines(x=橫坐標(biāo)向量,y=縱坐標(biāo)向量)plot(數(shù)值型向量或矩陣,type=線的類型名)rug(向量,side=1/3)jitter(數(shù)值型向量,factor=1)單變量分布的可視化小提琴圖:小提琴圖是箱線圖和核密度圖的結(jié)合,因形狀酷似小提琴而得名小提琴圖的R函數(shù)vioplot(數(shù)值型向量,horizontal=TRUE/FALSE)vioplot(數(shù)值型向量名列表,names=橫坐標(biāo)軸標(biāo)題向量)案例涉及的R函數(shù)title(main=圖標(biāo)題,sub=副標(biāo)題,xlab=橫坐標(biāo)標(biāo)題,ylab=縱坐標(biāo)標(biāo)題)text(x=橫坐標(biāo)向量,y=縱坐標(biāo)向量,labels=文字內(nèi)容,srt=旋轉(zhuǎn)度數(shù))單變量分布的可視化克利夫蘭點(diǎn)圖:用于直觀展示數(shù)據(jù)中可能的異常點(diǎn)。橫坐標(biāo)為變量值,縱坐標(biāo)為各觀測編號(觀測編號越小縱坐標(biāo)值越大)克利夫蘭點(diǎn)圖的R函數(shù)dotchar(數(shù)值型向量)案例涉及的R函數(shù)legend(圖例位置常量,title=圖例標(biāo)題,圖例說明文字向量,pch=圖例符號說明向量,bg=圖例區(qū)域背景色,horiz=TRUE/FALSE)多變量聯(lián)合分布特征的可視化曲面圖和等高線圖的R函數(shù)persp(x,y,z,theta=n1,phi=n2,expand=n3,shade=n4)contour(x,y,z,nlevels=n)案例涉及的R函數(shù)mvrnorm(n=樣本量,mu=均值向量,Sigma=協(xié)方差陣,empirical=TRUE/FALSE)densityMclust(data=矩陣或數(shù)據(jù)框)多變量聯(lián)合分布特征的可視化雷達(dá)圖:雷達(dá)圖能夠刻畫不同觀測在多個變量上的取值差異性。它從一個點(diǎn)出發(fā),用多條射線依次對應(yīng)多個變量。將不同觀測在多個變量上的取值點(diǎn)連線,便形成雷達(dá)圖雷達(dá)圖的R函數(shù)radarchart(df=數(shù)據(jù)框,axistype=n1,seg=n2,maxmin=TRUE/FALSE,vlabels=標(biāo)簽,title=圖標(biāo)題)變量間相關(guān)性的可視化馬賽克圖:用于展示兩或三個分類型變量的相關(guān)性。因圖中格子的排列形似馬賽克而得名馬賽克圖的R函數(shù)mosaic(~分類型域名1+分類型域名2+…,data=數(shù)據(jù)框名,shade=TRUE/FALSE,legend=TRUE/FALSE)變量間相關(guān)性的可視化散點(diǎn)圖:散點(diǎn)圖將觀測數(shù)據(jù)以點(diǎn)的形式繪制在一個二維平面中,通過數(shù)據(jù)點(diǎn)分布的形狀展示兩個或多個數(shù)值型變量間的相關(guān)性特點(diǎn)。散點(diǎn)圖分為簡單散點(diǎn)圖、氣泡圖、矩陣散點(diǎn)圖等簡單散點(diǎn)圖的R函數(shù)plot(x=數(shù)值型向量1,y=數(shù)值型向量2)plot(域名2~域名1,data=數(shù)據(jù)框名)變量間相關(guān)性的可視化案例涉及的R函數(shù)lm(被解釋變量名~解釋變量名,data=數(shù)據(jù)框名)loess(被解釋變量名~解釋變量名,data=數(shù)據(jù)框名)abline(數(shù)值型向量),或,abline(h=縱坐標(biāo)值),或,abline(v=橫坐標(biāo)值)高密度散點(diǎn)圖的處理smoothScatter(x=橫坐標(biāo)向量,y=縱坐標(biāo)向量)hexbin(數(shù)值型向量1,數(shù)值型向量2,xbins=箱數(shù))變量間相關(guān)性的可視化三維散點(diǎn)圖和氣泡圖展示兩數(shù)值型變量相關(guān)性的同時,還希望體現(xiàn)第三個變量的取值狀況三維散點(diǎn)圖的R函數(shù)scatterplot3d(數(shù)值型向量1,數(shù)值型向量2,數(shù)值型向量3)氣泡圖的R函數(shù)symbols(向量1,向量2,circle=向量名3,inches=計量單位,fg=繪圖顏色,bg=填充色)變量間相關(guān)性的可視化矩陣散點(diǎn)圖:用于在一副圖上同時展示多對數(shù)值型變量的相關(guān)性矩陣散點(diǎn)圖的R函數(shù)pairs(~域名1+域名2+…+域名n,data=數(shù)據(jù)框名)scatterplotMatrix(~域名1+域名2+…+域名n,data=數(shù)據(jù)框名,lty.smooth=2,spread=FALSE)變量間相關(guān)性的可視化分組散點(diǎn)圖:若要展示兩個數(shù)值型變量之間的相關(guān)性在不同樣本組上的差異,需要繪制分組散點(diǎn)圖,也稱協(xié)同圖分組散點(diǎn)圖的R函數(shù)coplot(域名1~域名2|分組域名,number=分組數(shù),data=數(shù)據(jù)框名)變量間相關(guān)性的可視化相關(guān)系數(shù)圖:由下三角區(qū)域、上三角區(qū)域、對角區(qū)域三個部分組成。區(qū)域在這里稱為面板,三個區(qū)域也分別稱為下面板,上面板和對角面板。除對角面板外,上下面板以不同形式直觀展示一對變量的相關(guān)性強(qiáng)弱相關(guān)系數(shù)圖的R函數(shù)corrgram(矩陣或數(shù)據(jù)框列,lower.panel=面板樣式,upper.panel=面板樣式,text.panel=面板樣式,diag.panel=面板樣式)GIS數(shù)據(jù)的可視化GIS數(shù)據(jù),簡單講就是與地理位置有關(guān)的一系列數(shù)據(jù),包括地理遙感數(shù)據(jù)、地理統(tǒng)計資料、地理實(shí)測數(shù)據(jù)、地理多媒體數(shù)據(jù)以及地理文本數(shù)據(jù)等等GIS數(shù)據(jù)是一種典型的空間數(shù)據(jù),有兩種描述方式柵格方式:將物體表面劃分為大小均勻、緊密相鄰的網(wǎng)格陣列。每個網(wǎng)格多視為一個像素矢量方式:通過坐標(biāo)記錄的方式精確地表示點(diǎn)、線和多邊形等地理實(shí)體,包括:空間數(shù)據(jù),即描述地物所在位置的數(shù)據(jù)屬性數(shù)據(jù),即描述地物特征的定性或定量數(shù)據(jù)GIS數(shù)據(jù)的可視化繪制世界地圖和美國地圖涉及的R函數(shù)map(database=數(shù)據(jù)集,fill=TRUE/FALSE)map.text(database=數(shù)據(jù)集,region=區(qū)域,add=TRUE/FALSE)rainbow(n=m,start=0,alpha=a)GIS數(shù)據(jù)的可視化繪制中國行政區(qū)劃地圖常見的矢量型GIS數(shù)據(jù)格式是美國ESRI的Shapefiles格式涉及的R函數(shù)readShapeSpatial(fn=Shapefile文件名)slot(object=空間多邊形數(shù)據(jù)框名,name=槽名)plot(空間多邊形數(shù)據(jù)框名,panel.first=grid())pointLabel(坐標(biāo),labels=文字,doPl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論