廈門大學《應用多元統計分析》第11章-多變量的可視化分析_第1頁
廈門大學《應用多元統計分析》第11章-多變量的可視化分析_第2頁
廈門大學《應用多元統計分析》第11章-多變量的可視化分析_第3頁
廈門大學《應用多元統計分析》第11章-多變量的可視化分析_第4頁
廈門大學《應用多元統計分析》第11章-多變量的可視化分析_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十一章多變量的可視化分析

第一節

引言第二節折線圖分析法第三節條形圖分析法

第四節散點圖分析法第五節雷達圖分析法

第六節星座圖分析法

第一節引言眾所周知,圖形是我們直觀了解、認識數據的一種可視化手段。如果能將所研究的數據直接顯示在一個平面圖上,便可以一目了然地看出分析變量間的數量關系。直方圖、散點圖等就是我們常用的二維平面圖示方法。雖然三維數據也可以用三維圖形來表示,但觀測三維數據卻存在一定的難度,而且在許多實際問題中,多變量數據的維數通常又都大于3,那么如何用圖形直觀表現三維以上的數據呢?自上世紀70年代以來,多變量數據的可視化分析研究就一直是人們關注的一個問題。從研究的成果來看,主要可以分為兩類:一類是使高維空間的點與平面上的某種圖形對應,這種圖形能反映高維數據的某些特點或數據間的某些關系;另一類是對多變量數據進行降維處理,在盡可能多地保留原始信息的原則下,將數據的維數降為2維或1維,然后再在平面上表示。例如前面介紹的主成分分析方法、因子分析方法、多維尺度法等就屬于此類方法。這里僅介紹5種實用而有效的多變量可視化方法。表11.1是我國華北地區5個省市2003年城鎮居民家庭平均每人全年消費性支出的六項指標數據,下面分別用5種可視化方法對數據進行分析。考慮微機的普及應用,本章主要介紹5種圖形的制作方法,圖形的制作則通過電腦實現。折線圖、條形圖、矩陣散點圖在SPSS中制作,雷達圖和星座圖則在EXCEL中實現。

表11.1華北5省市城鎮居民家庭消費性支出第二節折線圖分析法折線圖是將多個樣品觀測數據以折線的方式表示在平面圖中的一種多變量可視化圖形。折線圖用線段的升降來表示變量的大小,常用于表示現象在時間上的變化趨勢、現象的分配情況和兩個現象之間的依存關系等。折線圖的作圖原理如下:(1)作平面坐標系,橫坐標取p個點,表示p個變量,縱坐 標表示變量取值。(2)對給定的樣品觀測值,在p個點的縱坐標上標出相應的 變量取值。(3)將表示p個變量取值的點連接成一條折線,即得到了表 示一個樣品觀測數據的折線,n次觀測可繪出n條折 線,構成多變量折線圖。在SPSS中作折線圖的方法如下:(1)將原始數據輸入SPSS中。注意數據的組織形式要像圖11.1那樣。即把不同地區當成變量,而把支出指標當成觀測。圖11.1作折線圖時的數據組織形式 (2)選擇菜單項Graphs→Line,打開LineCharts對話框,如圖11.2。在對話框上方的三個選項用于選擇折線圖的形式,由于是這里是多變量作圖,所以選擇Multiple。在對話框下面的三個選項中選擇Valueofindividualcases。單擊Define按鈕,打開DefineMultipleLine對話框。圖11.2LineCharts對話框 (3)在DefineMultipleLine對話框中,將代表不同地區的5個變量移入LinesRepresent列表框中,將代表支出指標的變量(variable)移入Variable框中。單擊OK按鈕,即可作出如圖11.4所示的折線圖。從圖中可以清楚地看出北京市幾乎各項支出都排在第一,而山西省則幾乎每項支出都是最低的。圖11.3DefineMultipleLine對話框圖11.4折線圖第三節條形圖分析法條形圖是由若干平行條狀的矩形所構成,而以每一個矩形的高度來代表數值的大小。按圖11.1所示的方式在SPSS中組織好數據后,條形圖的制作步驟如下:(1)選擇菜單項Graphs→Line,打開BarCharts對話框,該對話框與圖11.2所示的LineCharts對話框有相同的選項。在對話框上方的三個選項用于選擇條形圖的形式,由于是這里是多變量作圖,所以選擇Clustered。在對話框下面的三個選項中選擇Valueofindividualcases。單擊Define按鈕,打開DefineClusteredBar對話框。(2)在DefineClusteredBar對話框中,將代表不同地區的5個變量移入BarsRepresent列表框中,將代表支出指標的變量移入Variable框中。單擊OK按鈕,即可作出如圖11.5所示的條形圖。圖11.5條形圖可以發現,折線圖和條行圖的作圖過程幾乎相同,作圖原理也大同小異,折線圖是以折線的高低來表示變量的大小,條形圖是以矩形的高低來表示變量的大小。從圖11.5也可以得出與折線圖同樣的結論:北京市各項支出都比較高,而山西省各項支出都比較低。第四節散點圖分析法散點圖又稱散布圖,它是以點的分布反映變量之間相關關系的可視化方法。矩陣散點圖則是一種反映多個變量之間相關關系的二維散點圖。利用SPSS制作矩陣散點圖的步驟如下:(1)在SPSS中按圖11.6的形式組織數據,即把支出指標當成變量,而把不同地區當成觀測。圖11.6作散點圖時的數據組織形式(2)選擇菜單項Graphs→Scatter,打開Scatterplot對話框,如圖11.7。該對話框用于選擇散點圖的形式。選定Matrix,即矩陣散點圖,單擊Define按鈕,打開ScatterplotMatrix對話框,如圖11.8。圖11.7Scatterplot對話框圖11.8ScatterplotMatrix對話框

(3)在打開的ScatterplotMatrix對話框中,將食品、衣著、居住三個變量移入MatrixVariables列表框中,將標志變量region移入LabelCasesby列表框中。(4)點擊OK按鈕,得到如圖11.9所示的矩陣散點圖。從圖11.9可以看出,河北、山西、內蒙古在居住和食品消費支出方面與北京、天津相比較低,食品與居住支出變量之間存在一定的線性關系。天津在衣著支出方面較低,與最低的河北接近,與最高居住支出形成鮮明對比。北京則除在居住支出方面低于天津外,其他方面支出均高于華北其他省市。內蒙古則在衣著支出方面僅次于北京,顯示出某種特殊消費特征。圖11.9矩陣散點圖

另外,還可以作三維立體散點圖。只需在Scatterplot對話框(圖11.7)中選擇3-D選項。在跳出的3-DScatterplot對話框中將食品、衣著、居住三個變量分別移入XAxis、YAxis和ZAxis列表框中,將標志變量region移入LabelCasesby列表框中。單擊OK按鈕,則作出圖11.10所示的三維立體散點圖。矩陣散點圖不僅可以在二維平面上同時反映多個變量數值,而且可以用于直觀反映多個變量間是否存在某種關系。與三維立體圖相比,有著更好的可視性。比較圖11.9與圖11.10不難看出這一點。圖11.10三維立體散點圖

第五節雷達圖分析法雷達圖是一種較為常用的多變量可視化圖形。在雷達圖中,每個變量都有它自己的數值軸,每個數值軸都是從中心向外輻射。由于圖形就好像雷達熒光屏上的圖像,故稱其為雷達圖。又像蜘蛛網,所以也稱蛛網圖。雷達圖的作圖方法:(1)作一圓,并按變量的個數p將圓周分成p等分。(2)連接圓心和各分點,將這p條半徑連線依次定義為各變量的坐標軸,并標以適當的刻度。(3)對給定的一次觀測值,將每個變量值分別標在相應的坐標軸上,把p個點相連就形成了一個p邊形,n次觀測值就可畫出n個p邊形。例如,根據表11.1中的數據,調用EXCEL圖表向導,選擇雷達圖,然后按圖表向導提示,即可制作出如圖11.11~17所示的雷達圖。圖11.5畫出了北京、天津和河北的雷達圖,從圖可以看出,三省市消費支出結構有較大差異。北京人均消費支出的各項指標都高,對應面積最大的六邊形,其次是天津,在三個省市中面積最小的是河北,天津在居住支出方面與北京較為接近,而在衣著和交通、通訊支出方面則與河北接近。其他支出方面三地存在較大差異。利用雷達圖的形狀、面積大小,可以對樣品進行初始分類分析。為了加強雷達圖的效果,在雷達圖中適當的分配坐標軸是很重要的,具體的分配辦法要結合分析的問題而定。例如可將要對比的指標分布在左、右或上、下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論