SPSS分析教程和在房地產應用方面的實例(講義).doc_第1頁
SPSS分析教程和在房地產應用方面的實例(講義).doc_第2頁
SPSS分析教程和在房地產應用方面的實例(講義).doc_第3頁
SPSS分析教程和在房地產應用方面的實例(講義).doc_第4頁
SPSS分析教程和在房地產應用方面的實例(講義).doc_第5頁
免費預覽已結束,剩余13頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SPSS分析教程和在房地產應用方面的實例(講義)信息中心 黃偉 第一節數據的建立和DISCRIPTIVES,MEANS的初步分析 現下的中國的市場調研當中統計方法應用的結果要求并不是很高的,因為在一個行業的起步階段我們并不會對市場分析要求很高的精度,而是要求有一個總體的了解即可。但是,任何一個成熟的行業都必然是一個專業型很強的結合體,房地產行業亦然。隨著將來房地產行業的不斷整合和專業化,定性分析占主導地位必定要被定量分析占主導地位的分析方法所取代,經驗的重要性將逐漸被統計分析所弱化。為什么呢?因為統計分析就是對以往獲得的經驗的定量分析而已,所不同的是:統計是絕對理性化的,統計數據不會說謊的!其實現在的發達國家的決策主要已經考統計分析來說話了,但是大到我們整個國家,小到我們成都地區的房地產行業,統計分析還只是在一個初級應用階段,技術水平也不高,也不被重視。我們需要用統計數據去分析消費者心理,分析樓盤的價格,分析樓盤的定位等等,那么最直接的方法就是用現在最廣泛應用的SPSS去分析。那么作為并非是統計專業人士的我們,怎樣去學習和應用呢?我準備用一些很具體的例子和模塊來給大家一步一步講解,我盡量完全無誤的操作一遍:1.1 數據的輸入和保存1.1.1 SPSS的界面當打開SPSS后,展現在我們面前的界面如下:請將鼠標在上圖中的各處停留,很快就會彈出相應部位的名稱。請注意窗口頂部顯示為“SPSS for Windows Data Editor”,表明現在所看到的是SPSS的數據管理窗口。這是一個典型的Windows軟件界面,有菜單欄、工具欄。特別的,工具欄下方的是數據欄,數據欄下方則是數據管理窗口的主界面。該界面和E購買面積CEL極為相似,由若干行和列組成,每行對應了一條記錄,每列則對應了一個變量。由于現在我們沒有輸入任何數據,所以行、列的標號都是灰色的。請注意第一行第一列的單元格邊框為深色,表明該數據單元格為當前單元格。對數據表界面操作不熟悉的可先溫習一下E購買面積CEL的操作(因為它的幫助是中文的),也可以嘗試用10.0的中文版操作。我們現在主要用SPSS11.5來操作,因為它的功能更強大,而且現在已經普遍用12.0版本了。我們當前用的11.5,10.0的SPSS系統打開時會出現一個導航對話框,請單擊右下方的Cancer按鈕,即可進入上面的主界面。1.1.2 定義變量我們需要建立很多個變量,因為我們的調查表有很多問題,我先來定義幾個變量:(操作)界面最左方為變量名,;往下是變量情況描述,可以看到系統默認該變量為數值型,長度為8,有兩位小數位,尚無缺失值,顯示對齊方式為右對齊;現在系統默認新變量為數值變量;最下方則依次是確定、取消和幫助按鈕。好,先來建立變量家庭人數。請將變量名改為家庭人數,然后單擊OK按鈕。在絕大多數情況下,SPSS給出的默認數據類型和數據精度完全可以滿足需要,只是不太好看而已。至于標簽等比較花哨的選項,反正我也很少用。現在我們才剛剛入門,一切從簡。第一列的名稱已經改為了“家庭人數”,這就是我們所定義的新變量“家庭人數”。現在我們來建立變量購買面積。單擊第二行第一列的單元格,同樣,將變量名改為購買面積,然后確認。(操作)是分組型的我們現在再來定義購房單價。同樣:(操作)注意是數值型1.1.3 輸入數據我們先來輸入變量購買面積的值,請確認一行二列單元格為當前單元格,棄鼠標而用鍵盤,輸入第一個數據1:(操作)用類似的輸入方式,我們將家庭人數的數目輸入完畢:(略)然后開始輸入單價的數據:(略)1.1.4 保存數據選擇菜單File=Save,由于該數據從來沒有被保存過,所以彈出Save as對話框如下:單擊保存類型列表框,可以看到SPSS所支持的各種數據類型,有DBF、Fo購買面積Pro、E購買面積CEL、ACCESS等,這里我們仍然將其存為SPSS自己的數據格式(*.sav文件)。在文件名框內鍵入潛在消費者數據并回車,可以看到數據管理窗口左上角由Untitled變為了現在的消費者數據。為什么這里的對話框會出現漢字?是這樣的,需要從編程的角度來解釋:SPSS在彈出該對話框時會調用Windows系統的公用函數,由于我們用的是中文Windows系統,所以調用出來的就是中文。1.2 數據的預分析1.2.1 數據的簡單描述首先我們需要知道數據的基本情況,如均數、標準差等。選擇Analyze=Descriptive Statistics=Descriptives菜單,系統彈出描述對話框如下:(操作)如果按SPSS標準的叫法,這里應該是調用了Descriptives(應該叫描述,或則描述統計學吧。)過程,為了避免太生硬,我們稱為調用對話框,等大家熟悉SPSS了以后,在統計分析中可能兩種稱呼會混用。該對話框可分為左右兩大部分,左側為所有可用的侯選變量列表,右側為選入變量列表。我們只需要描述希望單價,用鼠標選中希望單價,單擊中間的,變量希望單價的標簽就會移入右側,注意這時OK按鈕變黑,表明已經可以進行分析了,單擊它,系統會彈出一個新的界面如下所示:Descriptive Statistics NRangeMinimumMaximumSumMeanStd. DeviationVariance計劃單價553700180055001408002560.00876.356768000.000Valid N (listwise)55 該窗口上方的名稱為SPSS for Windows Viewer,即(結果)瀏覽窗口,整個的結構和資源管理器類似,左側為導航欄,右側為具體的輸出結果。結果表格給出了樣本數、最小值、最大值、均數和標準差這幾個常用的統計量。從中可以看到,55個數據總的均數為2560,標準差為876.356。我們以上的做法對嗎?當然有問題!光看總的描述是不夠的,還應當看看分組的描述情況。這里要用到文件分割功能,請切換回數據管理窗口,選擇Data=Split File菜單,系統彈出文件分割對話框如下:選擇單選按鈕Organize output by 家庭人數,將變量家庭人數選入右側的選入變量框,單擊OK鈕,此時界面不會有任何改變,但請再做一次數據描述,你就可以看到現在數據是分家庭人數=1和家庭人數=2兩種情況在描述了!Descriptive Statistics(a) NMinimumMaximumSumMeanStd. DeviationVariance計劃單價1020002100209002090.0031.6231000.000Valid N (listwise)10 a 家庭人數 = 單身Descriptive Statistics(a) NMinimumMaximumSumMeanStd. DeviationVariance計劃單價1618003000357002231.25415.883172958.333Valid N (listwise)16 a 家庭人數 = 夫妻Descriptive Statistics(a) NMinimumMaximumSumMeanStd. DeviationVariance計劃單價1518004500350002333.33659.726435238.095Valid N (listwise)15 a 家庭人數 = 三口之家Descriptive Statistics(a) NMinimumMaximumSumMeanStd. DeviationVariance計劃單價534004500183003660.00472.229223000.000Valid N (listwise)5 a 家庭人數 = 三代同堂Descriptive Statistics(a) NMinimumMaximumSumMeanStd. DeviationVariance計劃單價921005500309003433.331335.1031782500.000Valid N (listwise)9 a 家庭人數 = 其他從描述可知兩組的均數和標準差等數值都分別顯示了,很明顯三代同堂的消費水平最高,標準差排第二說明他們這個群體期望的房價比較穩定;一個人的消費水平最低,且收入也比較穩定的分布,如果樣本數量多的話說明當地租賃形式會比較好。-個人的一點推測。:)這個時候如果采取定性的分析,就事半功倍了。如果定義了文件分割,則它會在以后的所有統計分析中起作用,直到你重新定義文件分割方式為止。對了,在分析的過程中,我們還要取消變量分割,免得它影響以后的統計分析,再次調出變量分割對話框,選擇單選按鈕中的“Analyze all cases, do not creat 家庭人數”,單擊OK按鈕就可以了。1.2.2 繪制直方圖統計指標只能給出數據的大致情況,沒有直方圖那樣直觀,我們就來畫個直方圖瞧瞧!選擇Graphs=Histogram,系統會彈出繪制直方圖對話框如下:將變量計劃單價選入Variable選擇框內,單擊OK按鈕。此時結果瀏覽窗口內會繪制出如下直方圖:1.3 按要求進行統計分析下面我們要用SPSS來做成組設計兩樣本均數比較的檢驗。1 首先我講MEANS(平均值檢驗)。這個是最簡單的,MEANS的基本功能是分組計算指定變量的描述統計量。包括均值MEANS,標準差STD DEVIATION,總和SUM,觀測值數目COUNT,方差VARIANCE等一系列單變量描述統計量。還可以給出方差分析表和線性檢驗結果。步驟:1) ANALYZE=COMPARE MEANS=MEANS,打開MEANS對話框。2) 選擇因變量,比如我們選擇房價作為因變量,(操作),可以一個,也可以多個,我們這里只講一個,如我們選擇家庭人數作為自變量。再在OPTION里選擇我們需要比較的數值。點OK。現在出來這個表: Case Processing Summary Cases IncludedExcludedTotal NPercentNPercentNPercent計劃單價 * 家庭人數55100.0%0.0%55100.0%Report計劃單價 家庭人數MeanNStd. DeviationGrouped Median% of Total Sum% of Total N單身2090.001031.6232090.0014.8%18.2%夫妻2231.2516415.8832162.5025.4%29.1%三口之家2333.3315659.7262227.2724.9%27.3%三代同堂3660.005472.2293475.0013.0%9.1%其他3433.3391335.1033320.0021.9%16.4%Total2560.0055876.3562166.67100.0%100.0%第一個圖是對我們這次MEANS過程的總結;第二個圖是報告。從這上面看,基本的統計結果和數據一目了然。比如:假如我們抽取樣本的時候提取的樣本比例和整個購房者家庭情況的真實比例相符,整個從總訪問者所占的比重可以看到,單身,夫妻,三口之家所占的比重最大;那么,我們是不是可以說:我們針對的消費群體主要是這三個群體而忽略三代同堂和其他呢?我們是不是可以說我們的投資也按這個比例投呢?(?)當然不是!因為我們也要考慮購買力!怎么樣來衡量這個家庭的購買力呢?我們還是用MEANS,不過這次因變量是總購房款。如圖:Report購房總價 家庭人數MeanNStd. DeviationGrouped Median% of Total Sum% of Total NSum單身190000.001031622.777190000.007.8%18.2%1900000夫妻315625.0016149129.418275000.0020.8%29.1%5050000三口之家353333.3315398616.656192000.0021.8%27.3%5300000三代同堂900000.005339116.499775000.0018.5%9.1%4500000其他841111.119691799.184690000.0031.1%16.4%7570000Total442181.8255437728.526250000.00100.0%100.0%24320000從總房款所占的比例:單身7.8%,夫妻20.8%,三口21.8%,三代18.5%,其他31.1%看,我們更應該注意夫妻,三口,和其他三個群體,特別是其他這個群體,我們的開發投資也很應該參考這個比例。那么這個結論不就和上面的結論不一樣了么?所以,我想提醒各位,一定要選擇正確(不是說虛假,而是選擇變量一定要注意選擇正確的變量進行統計!)的統計數據和統計方法!3) 兩個自變量的選擇和控制:A 兩個分類均放在第一層(平行+)的操作:I把家庭人數送入INDEPENDENT LIST框中,建立第一個控制層;2把哪種建筑送入欄中建立第二個控制層; 3其中家庭人數有5個統計量,建筑風格有6個統計量。那么,對因變量的分析就是先給出家庭人數5個組的基本描述統計量,再給出建筑風格6個變量的統計量。B 兩個分類變量分別放在兩層(垂直*)的操作:a.同上選擇家庭人數b.單擊NEXT按鈕,選擇變量建筑風格,作為第二層;現在就分5*6=30組給出可以承受的單價的一些描述統計量:Report購房總價 家庭人數哪種建筑MeanNStd. DeviationGrouped Median% of Total Sum% of Total NSum單身多層190000.001031622.777190000.007.8%18.2%1900000Total190000.001031622.777190000.007.8%18.2%1900000夫妻多層216666.67357735.027216666.672.7%5.5%650000 電梯200000.004.000200000.003.3%7.3%800000花洋300000.006.000300000.007.4%10.9%1800000聯排600000.003.000600000.007.4%5.5%1800000Total315625.0016149129.418275000.0020.8%29.1%5050000三口之家多層200000.001.200000.00.8%1.8%200000 電梯150000.00832071.349150000.004.9%14.5%1200000花洋440000.00554772.256440000.009.0%9.1%2200000獨立別墅1700000.001.1700000.007.0%1.8%1700000Total353333.3315398616.656192000.0021.8%27.3%5300000三代同堂聯排750000.00457735.027750000.0012.3%7.3%3000000 獨立別墅1500000.001.1500000.006.2%1.8%1500000Total900000.005339116.499775000.0018.5%9.1%4500000其他電梯242500.00415000.000242500.004.0%7.3%970000 聯排800000.002.000800000.006.6%3.6%1600000獨立別墅1666666.673416333.2001800000.0020.6%5.5%5000000Total841111.119691799.184690000.0031.1%16.4%7570000Total多層196428.571436502.296200000.0011.3%25.5%2750000 電梯185625.001646038.933190000.0012.2%29.1%2970000花洋363636.361180903.983355555.5616.4%20.0%4000000聯排711111.11992796.073716666.6726.3%16.4%6400000獨立別墅1640000.005304959.0141700000.0033.7%9.1%8200000Total442181.8255437728.526250000.00100.0%100.0%24320000c.同樣我們可以分第三第四層。那樣,統計結果的數目就會急劇擴大。C ANOVA TABLE AND ETA復選項和TEST FOR LINEARITY復選項。(操作)我們把第一層建筑類型,第二層人口和一為人數二為建筑分析作比較。可得圖:ANOVA Table Sum of SquaresdfMean SquareFSig.購房總價 * 哪種建筑Between Groups(Combined)9791279568903.31042447819892225.830220.342.000 Linearity7188769398856.72017188769398856.720647.102.000 Deviation from Linearity2602510170046.5963867503390015.53278.089.000 Within Groups555458612914.8635011109172258.297 Total10346738181818.18054 Measures of Association RR SquaredEtaEta Squared購房總價 * 哪種建筑.834.695.973.946每個數據見統計分析P219。略。比較重點的就是J結果性的:SIG-顯著性概率,即假設成立的概率,我們這里是假設是:這幾個建筑組的房屋總價均值相等。即這個假設發生的概率是0.000接近0。由此我們得出結論:不同的建筑組,其房屋總價的均值差異顯著!R-是因變量總房款的觀測值和預測值之間的相關系數,雖然沒有直接求出回歸方程,但我們應該知道,R越接近1表明回歸方程的預測性能越好。即回歸方程越有效。這里看到R值等于0.834,說明回歸方程預測性能很好。Eta SQUARED-等于(組間偏差平方和BETWEEN GROUPS)/(組內偏差平方和WITHIN GROUPS)等于0.946,越接近1說明因變量(總價)與控制變量(建筑)關系密切。如果ETA等于0就是說他們無關。 這個圖說明了什么呢?因為SIG近似為0.000就說明了房屋的總價和房屋的建筑方式是非常相關的。不同的建筑方式對房屋的總價的平均值存在非常顯著的差異的!并且總價的平均值是和房屋的建筑方式呈上升趨勢的。 現在又舉例說明房屋總價按人口數目分組后是不是也呈顯著的差異呢?(實際舉例操作一遍。并解釋每個指標)2 T TEST(T檢驗的過程)略A 單一樣本T檢驗:檢驗單個變量的均值是否與給定的常數之間存在差異。例如:我們想知道這個地方的消費者能夠接受的價格平均數(我們的統計數據)和給定的常數(比如說經驗豐富者估計這個地方的均價;)之間存在的差異。已知我們把住宅的均價定在2500,我們現在判斷我們所考察地區的消費者能接受的房價和我們定的房價比,是不是差異很大或則接近,有什么差異!步驟:1 建立無效假設H0:假設兩個數據相等2 ANALYSE=COMPARE MEAN=ONE SAMPLE T TEST順序選擇。 One-Sample Statistics NMeanStd. DeviationStd. Error Mean計劃單價552560.00876.356118.168One-Sample Test Test Value = 2500tDfSig. (2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpper計劃單價.50854.61460.00-176.91296.913 由圖做結果分析:a. 樣本均值2560與2500比較,略高b. T值0.508,自由度54,雙尾T檢驗的P值為61.4%5%,說明無效假設成立,即:我們定的房價的均值和消費者預期的房價的均值基本相等c. CONFIDENCE INTERVAL OF THE DIFFERENCE差值的95%置信區間。說明了:消費者期望的均值和我們定價的差有95%的可能性落在-176.91-296.91之間。B 獨立樣本的T檢驗:要求被比較的兩個樣本彼此獨立,即沒有配對關系。而且均來自正態總體。而且均值是對于檢驗有意義的描述統計量。例如:從付款方式來說,一次付款和按揭兩種情況消費者期望的單價是不是有顯著性差異?Group Statistics 付款方式NMeanStd. DeviationStd. Error Mean計劃單價一次付422628.57961.525148.366按揭122358.33492.597142.200Independent Samples Test Levenes Test for Equality of Variancest-test for Equality of Means FSig.tdfSig. (2-tailed)Mean DifferenceStd. Error Difference95% Confidence Interval of the Difference LowerUpper計劃單價Equal variances assumed4.880.032.93552.354270.24289.140-309.964850.440 Equal variances not assumed 1.31536.409.197270.24205.508-146.389686.865 MEANS說明了 STD DEVIATION標準差。如果兩組相差太大就沒有統計意義。如果差別有統計意義就要使用校正T檢驗。 從SIG的P值可以看到,顯著性概率為0.0320.05,因此結論是兩組方差差異顯著,下面的T檢驗過程結果中應該選擇EQUAL VAARIANCES NOT ASSUMED(假設方差不相等)。從雙尾T檢驗的結果0.1970.05看,并無顯著性差異! MEAN DIFFERENCE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論