資料的描述性統計分析_第1頁
資料的描述性統計分析_第2頁
資料的描述性統計分析_第3頁
資料的描述性統計分析_第4頁
資料的描述性統計分析_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于資料的描述性統計分析總體與樣本總體(population):研究的全部對象。分為無限總體(infinitepopulation)和有限總體(finitepopulation)。個體(individual):構成總體的每個成員。樣本(sample):總體的一部分。樣本的含量(samplesize):樣本內包含的個體數目。第2頁,共77頁,2024年2月25日,星期天抽樣抽樣(sample):從總體中獲得樣本的過程。

目的:通過對樣本的研究推斷其總體隨機抽樣(randomsample)

抽簽、抓鬮等。使用隨機數字表。放回式抽樣(samplingwithreplacement)非放回式抽樣(samplingwithoutreplacement)第3頁,共77頁,2024年2月25日,星期天42.1數據預處理的原因正確性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)

數據質量的含義

第4頁,共77頁,2024年2月25日,星期天現實世界的數據不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集數據。含噪聲的包含錯誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導出第5頁,共77頁,2024年2月25日,星期天6數據錯誤的不可避免性數據輸入和獲得過程數據錯誤數據集成所表現出來的錯誤數據傳輸過程所引入的錯誤

據統計有錯誤的數據占總數據的5%左右[Redmen],[Orr98]第6頁,共77頁,2024年2月25日,星期天數據錯誤的危害性高昂的操作費用糟糕的決策制定組織的不信任分散管理的注意力第7頁,共77頁,2024年2月25日,星期天8數據預處理的形式數據清理補充缺失數據、平滑噪聲數據、識別或刪除離群點,解決不一致數據集成集成多個數據庫、數據立方或文件數據變換規范化和聚集數據歸約簡化數據、但產生同樣或相似的結果第8頁,共77頁,2024年2月25日,星期天數據預處理的形式第9頁,共77頁,2024年2月25日,星期天小結現實世界的數據一般是臟的、不完整的和不一致的。數據預處理技術可以改進數據的質量,從而有助于提高其后的挖掘過程的精度和性能。高質量的決策必然依賴于高質量的數據,因此數據預處理是知識發現過程的重要步驟。檢測異常數據、盡早地調整數據并歸約待分析的數據,將在決策過程中得到高回報。第10頁,共77頁,2024年2月25日,星期天2.2描述性數據匯總獲得數據的總體印象對于成功的數據預處理是至關重要的。描述性數據匯總技術可以用來識別數據的典型性質,突顯哪些數據值應當視為噪聲或離群點。動機:更好的理解數據。主要內容:度量數據的中心趨勢和離散程度、描述數據匯總的圖形顯示。第11頁,共77頁,2024年2月25日,星期天描述性統計數值指標包括:(1)集中位置的指標,用以描述觀察值的平均水平。如算術均數、幾何均數、中位數、眾數、百分位數等。(2)資料變異的指標,用以描述觀察值間參差不齊的程度,即離散度或稱變異度。如全距、標準差、方差、變異系數、四分位數間距等。第12頁,共77頁,2024年2月25日,星期天數據類型及頻數(率)分布連續型數據(continuousdata):又稱度量數據(measurementdata)離散型數據(discretedata):又稱為計數數據(countdata)變量的方法(methodofvariable):對連續型數據進行分析的方法。屬性的方法(methodofattribute):對離散型數據進行分析的方法。第13頁,共77頁,2024年2月25日,星期天頻數(率)表和頻數(率)圖離散型數據組值(classvalue):一般用組值編制頻數(率)表(frequencytable)。柱形圖(columndiagram):一般用柱形圖繪制頻數(率)圖。連續型數據組限(classlimit):一般用組限編制頻數(率)表。直方圖(histogram)、多邊形圖(polygon)和累積頻數圖(cumulativefrequencygraph):一般用直方圖、多邊形圖和累積頻數圖繪制頻數(率)圖。組界(classboundary):中值(midvalue):每一組的兩個組限的平均值。頻數分布(frequencydistribution)(百分率分布percentagedistribution)把頻數或頻率按順序排列起來。

第14頁,共77頁,2024年2月25日,星期天第一節概述

描述性統計的表、圖形式包括:(1)頻數分布表(2)條形圖、直方圖、莖葉圖、盒形圖第15頁,共77頁,2024年2月25日,星期天設原始觀察值共n例,為X1,X2,……,Xn

。和(SUM):∑X=X1+X2+……+Xn。

平方和,SS(SUMOFSQUARE):∑X2=X12+X22+……+Xn2平方和又記為USS(UNCORRECTEDSUMOFSQUARE)

離均差平方和,記為CSS(CORRECTEDSUMOFSQUARE):

第16頁,共77頁,2024年2月25日,星期天第二節

頻數分布表頻數表的編制編制步驟:

1.求極差(即全距)R;

2.確定組數n、組距i,并寫出組段;

3.列表劃記。第17頁,共77頁,2024年2月25日,星期天某市1995年110名7歲男童的身高資料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8第18頁,共77頁,2024年2月25日,星期天本例資料,最大值為134.5cm,最小值為110.2cm,故極差

R=134.5-110.2=24.3cm組數不宜太多,也不宜太少。一般根據樣本量的多少分成8-15組。本例假設分成10組。理論上組距等于極差除以組數。但不拘泥于計算結果,而常常取一個比較好處理的數。組距可以相等,也可以不等。本例,組距=24.3/10=2.43,我們取為2cm。組段:上限、下限列表劃記第19頁,共77頁,2024年2月25日,星期天某市1995年110名7歲男童身高的頻數分布表身高組段頻數頻率(%)累計頻數累計頻率(%)110~

1

0.91

1

0.91112~

3

2.73

4

3.64114~

9

8.18

13

11.82116~

9

8.18

22

20.00118~

15

13.64

37

33.64120~

18

16.36

55

50.00122~

21

19.09

76

69.09124~

14

12.73

90

81.82126~

10

9.09100

90.91128~

4

3.64104

94.55130~

3

2.73107

97.27132~

2

1.82109

99.09134~136

1

0.91110100.00合計110100.00第20頁,共77頁,2024年2月25日,星期天頻數表的用途

根據頻數表,進而可以繪制頻數圖。揭示資料的分布特征和分布類型;資料的分布范圍、峰(單峰或多峰)和離散情況。對于單峰分布資料,

對稱分布,其中一種特殊的分布叫做正態分布;非對稱分布,又稱偏態分布。便于發現可疑值;便于進一步計算指標和統計分析處理。第21頁,共77頁,2024年2月25日,星期天第三節集中位置的度量

一、算術平均數(ArithmeticMean)

簡稱為均數(Mean),總體均數用希臘字母μ表示,樣本均數用表示。

x=nxxxn+++L21=鍈nx/

適用于服從正態分布的資料。第22頁,共77頁,2024年2月25日,星期天一、算術平均數=120第23頁,共77頁,2024年2月25日,星期天一、算術平均數

x為每個組段的組中值,f為相應組段的頻數。原理:將落在某一組段內的觀察值都視為組中值。本例:=(4.0×4+4.2×5+……+5.8×3)/120=595.8/120=4.965

如用原始觀察值計算有=(5.195+5.070+……+5.010)/120=4.959第24頁,共77頁,2024年2月25日,星期天二、幾何均數(GeometricMean)

幾何均數用G表示,為觀察值的總乘積開n次方根,有第25頁,共77頁,2024年2月25日,星期天

常用對數計算,公式如下:

LogG=∑logX/n再查反對數得出G。列成頻數表時計算公式如下:

LogG=∑flogX/Σf適用條件:1.成倍數關系的資料。2.明顯正偏態分布的資料。二、幾何均數(GeometricMean)第26頁,共77頁,2024年2月25日,星期天二、幾何均數(GeometricMean)

例3.36例鉤端螺旋體病人的潛伏期分別為7,10,12,14,18,20天,求其平均潛伏期。

解:

或者lgG=(lg7+lg10+……+lg20)/6=1.1045

查反對數得G=12.7(天)

第27頁,共77頁,2024年2月25日,星期天二、幾何均數(GeometricMean)當為滴度資料時,如5名學齡兒童的麻疹血凝抑制抗體滴度為1:25,1:50,1:50,1:100,1:100,可先取其倒數,25,50,50,100,100,再求取幾何均數為57.43,則平均抗體滴度為1:57。

第28頁,共77頁,2024年2月25日,星期天

三.中位數(Median)

中位數用M表示,它將總體或樣本的全部觀察值分成兩部分,每部分各有50%個觀察值。計算方法為:先將原始觀察值按由小到大順序排列后,位次處于中間的那個觀察值為中位數。觀察值數為奇數時,處于中間的那個數為中位數。偶數時處于中間的兩個數的均數為中位數。

第29頁,共77頁,2024年2月25日,星期天三.中位數(Median)如求數列7,10,12,14,18,20的中位數。n=6,為偶數,取中間兩個數的平均數,則

M=(12+14)/2=13(天)如求數列7,10,12,14,15,18,20的中位數。n=7,為奇數,取中間那個數為中位數。則

M=14(天)第30頁,共77頁,2024年2月25日,星期天三.中位數(Median)適用于表示任何分布資料的平均水平。但常用于非正態分布資料。由于中位數不受個別特大,特小數值的影響,因此它比均數穩健,常用于資料分布不明,或明顯偏態,或分布的一端無確定值的情況。第31頁,共77頁,2024年2月25日,星期天

四.眾數(Mode)

頻數最大的變量值稱為眾數。列成頻數表的資料,頻數最大的組段的組中值為眾數。

第32頁,共77頁,2024年2月25日,星期天集中趨勢的測度第33頁,共77頁,2024年2月25日,星期天

五.百分位數(Percentile)

第X百分位數以Px表示,它將總體或樣本的全部觀察值分成二個部分,其中有x%個觀察值小于Px,(100-x)%個觀察值大于Px。用途:1.描述一組資料在各個百分位置上的水平,用一組百分位數如P5,P25,P50,P75,P95,可以描述總體或樣本的分布特征,如集中位置、變異度等。第34頁,共77頁,2024年2月25日,星期天百分位數70%下側30%上側第70個百分位數值四分之一分位數=25%四分之二分位數=50%第35頁,共77頁,2024年2月25日,星期天五.百分位數(Percentile)

2.確定醫學正常值范圍。

P25稱為第1四分位數;記為Q1。P50稱為第2四分位數;記為Q2,就是中位數MP75稱為第3四分位數;記為Q3。

計算百分位數時,特別是靠近兩端的百分位數時,要求例數足夠大,大于100例。

第36頁,共77頁,2024年2月25日,星期天五.百分位數(Percentile)例:用直接法計算例3.2資料共120例的第5百分位數,用頻數表法計算第95百分位數,解:將原始觀察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,……

5.850,5.875先確定第x百分位數在第幾位。用公式:(n+1)×x%第37頁,共77頁,2024年2月25日,星期天五.百分位數(Percentile)本例(120+1)×5%=6.05,第5百分位數在第6.05位,即第6到第7位之間。簡單的算法是取第6和第7位數的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。第38頁,共77頁,2024年2月25日,星期天五.百分位數(Percentile)第39頁,共77頁,2024年2月25日,星期天五.百分位數(Percentile)計算P951.列出頻數分布表,計算累計頻數。2.計算nx%,120×95%=1143.對照累計頻數欄與nx%確定PX應落在哪一個組段中。114將在組限為5.5~的組中,該組段下限為L,組距為i,頻數為f,上一組累積頻數為Σfl。PX=L+i(nx%-Σfl)/f,P95=5.5+0.2×(114-108)/9=5.633(1012/L)第40頁,共77頁,2024年2月25日,星期天第三節離散程度的指標1.全距(Range)是最大與最小觀察值之差。全距計算方便,但僅利用最大與最小二個數據來代表全部數據的離散程度,信息利用差。全距受特大與特小值影響大,不穩定。

2.四分位數間距(InterquartileRange)

第41頁,共77頁,2024年2月25日,星期天第三節離散程度的指標四分位數間距是第3四分位數與第1四分位數之差,即P75-P25。四分位數間距受特大值或特小值影響小,較穩定。中位數和四分位數間距相結合常用于表示非正態分布資料的平均水平和離散程度。第42頁,共77頁,2024年2月25日,星期天第三節離散程度的指標3.標準差與方差(StandardDeviationandVariance)總體的標準差,方差符號為σ,σ2,樣本的標準差,方差符號為S,S2。第43頁,共77頁,2024年2月25日,星期天第三節離散程度的指標當為頻數表資料時,公式如下:方差S2是標準差S的平方值。標準差(或方差)越大,表示觀察值的分布越分散,反之,標準差(或方差)越小,表示觀察值的分布越集中。實際應用時常以均數±標準差的寫法綜合觀察值的集中和離散特征。

第44頁,共77頁,2024年2月25日,星期天第三節離散程度的指標4.變異系數(CoefficientofVariation)簡記為CV,它是標準差與均數之比,用百分數表達。由于CV無量度單位,而且消除了原始資料的平均水平的影響,因此常用于比較量度單位不相同的指標或者平均水平相差懸殊的指標的變異程度。第45頁,共77頁,2024年2月25日,星期天第三節離散程度的指標第46頁,共77頁,2024年2月25日,星期天

偏態系數(skewness):

評價正態分布對稱性的指標。對稱:skewness=0;正偏態:skewness>0;個別數據特別大。負偏態:skewness<0;個別數據特別小。

第47頁,共77頁,2024年2月25日,星期天

峰態系數(kurtosis):評價正態分布正態峰的指標。正態峰:kurtosis=0;

尖峭峰:kurtosis>0;

平闊峰:kurtosis<0;第48頁,共77頁,2024年2月25日,星期天第四節統計表與統計圖第49頁,共77頁,2024年2月25日,星期天統計圖表都是將已整理好的資料用簡明的格式或圖形表達出來,因此是表達和分析統計資料的重要工具。統計表可以代替冗長的文字敘述,便于計算、分析和對比。統計圖則具有問題突出,簡單明了,形象化等優點,能使人一目了然。但統計表不形象,統計圖對數字的反映不精確。因此在實際工作中,往往同時使用統計表和統計圖。第50頁,共77頁,2024年2月25日,星期天統計表統計表(statisticaltable)是以表格的形式,表達被研究對象的特征、內部構成及研究項目分組之間的數量關系。統計表的結構從外形看標題:說明表的名稱橫標目:說明各橫行數字的涵義縱標目:說明各縱欄數字的涵義總標目第51頁,共77頁,2024年2月25日,星期天表1某年某地消費者對有機食品的態度性別對有機食品的態度合計喜歡(%)不喜歡(%)男30(20.0)120(80.0)150女80(40.0)120(60.0)200合計110(31.4)240(68.6)350第52頁,共77頁,2024年2月25日,星期天從內容看主語:指研究的對象,通常列在表的左側謂語:說明主語的各項指標,通常列在表的右側主語和謂語連起來能讀成一句完整而通順的話。第53頁,共77頁,2024年2月25日,星期天統計表的種類簡單表:按一個研究特征/標志/標識分組復合/組合表:按二個或二個以上研究特征/標志/標識分組第54頁,共77頁,2024年2月25日,星期天表某大學某年的學生分布學院專業年級合計一二三四Aa1a2小計Bb1b2b3小計合計第55頁,共77頁,2024年2月25日,星期天繪制統計表的原則重點突出,簡單明了主謂分明,層次清楚繪制統計表的要求標題標目線條數字備注第56頁,共77頁,2024年2月25日,星期天統計圖統計圖(statisticalgraph)是用點的位置、線段的升降、直條的長短或者面積的大小等形式來表達統計資料之間的數量關系。統計圖形象、直觀,便于對比分析,但對數量的表達比較粗糙,不夠精確。第57頁,共77頁,2024年2月25日,星期天繪圖的基本要求根據資料的性質和分析目的,正確選擇合適的圖形;每圖應有標題;直角坐標系中繪圖時,縱橫軸都應有標目,并注明單位;縱:橫一般以5:7為宜;縱軸尺度一般應從“0”開始。比較不同對象時,用不同的線條或顏色表示,并要附圖例說明。圖例寫在圖的下面或圖的右上角。第58頁,共77頁,2024年2月25日,星期天幾種常用的統計圖直條圖(bargraph)直條圖用等寬直條的長短來表示相互獨立的各指標的數值大小。適用于相互獨立的、無連續關系的間斷性資料的比較。種類:單式直條圖和復式直條圖第59頁,共77頁,2024年2月25日,星期天第60頁,共77頁,2024年2月25日,星期天第61頁,共77頁,2024年2月25日,星期天直條圖的繪制要點縱軸應從“0”開始,中間不能折斷,否則不能正確反映比較指標之間的相對比例;各直條的寬度應當相等。單式直條圖直條之間要有間隔,間隔以直條的寬度或直條寬度的一半為宜。復式直條圖同一指標之間不要有間隔;復式直條圖中不同系列之間要用不同的圖案或顏色相區別,并用圖例說明;直條按某一系列中的長短順序從大到小或者從小到大排列,以便比較。第62頁,共77頁,2024年2月25日,星期天圓圖和百分條圖都適用于構成比資料。圓圖(piegraph):又稱餅圖以圓面積為100%,圓內各扇形面積為各部分所占的百分比,用來表示全體中各部分的構成。第63頁,共77頁,2024年2月25日,星期天第64頁,共77頁,2024年2月25日,星期天繪制圓圖的要點:每3.60為1%;從相當于時鐘12點或者9點的位置開始順時針方向繪圖;各部分用不同的圖案或者顏色表示,或在圖上標出各部分的百分比和名稱,或以圖例說明;同一組資料,按百分比大小順序排列;比較不同組資料,畫兩個或多個等圓,在每一個圓的下面注明組別,按固定順序排列各組成部分,用相同的圖例。第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論