




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于數據的計量尺度第一頁,共五十八頁,2022年,8月28日(1)定類尺度(NominalScale)也稱分類尺度例如:性別、民族、職業數據表現為“類別”各類之間無等級次序各類別可以用數字代碼表示根據定類尺度得到的數據為分類數據。第二頁,共五十八頁,2022年,8月28日(2)定序尺度(OrdinalScale)也稱順序尺度例如健康狀況、質量等級可對等級、大小等排序未測量出類別之間的準確差值根據定序尺度得到的數據為順序數據。第三頁,共五十八頁,2022年,8月28日(3)定距尺度(IntervalScale)也稱間隔尺度例如年份、攝氏溫度數據表現為“數值”可以進行加減運算“0”是只是尺度上的一個點,不代表“不存在”根據定距尺度得到的數據為間距數據。第四頁,共五十八頁,2022年,8月28日(4)定比尺度(RatioScale)也稱比率尺度例如體重、身高數據表現為“數值”可以進行加減、乘除運算“0”表示“沒有”或“不存在”根據定比尺度得到的數據為比率數據。第五頁,共五十八頁,2022年,8月28日四種計量尺度的比較四種計量尺度的比較定類尺度定序尺度定距尺度定比尺度
分類(=,≠)
排序(<,>)
間距(+,-)
比值(×,÷)√√√√√√√√√√計量尺度數學特性第六頁,共五十八頁,2022年,8月28日四種計量尺度的比較1、四種尺度所包含的信息量是依次遞增的,級別由低到高。2、根據較高層次的計量尺度可以獲得較低層次的計量尺度。3、不同的尺度數據對應著不同數據顯示方法和分析方法。第七頁,共五十八頁,2022年,8月28日8數據的基本類型第八頁,共五十八頁,2022年,8月28日9問卷題目的類型大致可以分為單選、多選、排序、開放題目四種類型,他們的變量的定義和處理的方法各有不同,詳細舉例介紹如下:第九頁,共五十八頁,2022年,8月28日3.2統計圖數據類型定性數據定量數據條形圖餅圖線圖莖葉圖箱線圖直方圖第十頁,共五十八頁,2022年,8月28日3.2.1線圖(LineChart)利用線形的升降起伏來表現描述的變量在一段時期內的變動情況,主要用于顯示時間數列的數據。1996年-2003年城鄉居民人民幣儲蓄存款年底余額第十一頁,共五十八頁,2022年,8月28日雙變項線形圖(延伸線)輸出結果雙變項線形圖(復線圖)輸出結果3.2.1線圖(LineChart)第十二頁,共五十八頁,2022年,8月28日3.2.2條形圖(BarChart)用寬度相同的條形高度或長短來表示數據變動的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復式等形式。2003年我國就業人員情況(萬人)第十三頁,共五十八頁,2022年,8月28日3.2.3圓形圖(PieChart)也叫餅圖,它是用圓形及圓內扇形的面積來表示數值大小的圖形。主要用于總體內部的結構,各組成部分所占比例等。2003年我國國內生產總值中各產業比重第十四頁,共五十八頁,2022年,8月28日3.2.4直方圖(Histogram)用來反映定量變量的分布狀況。在統計分組的基礎上,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖。注意對不等距分組:縱軸必須表示為頻數密度。頻數密度=頻數/組距(面積之和=總頻數)手工繪制直方圖時需要先對數據進行分組;用統計軟件spss作直方圖時統計軟件可以自動進行分組。第十五頁,共五十八頁,2022年,8月28日直方圖(等距分組)某會計師事務所對20家公司進行年終審計所需時間(天)的頻數分布表審計時間(天)頻數10-15415-20820-25525-30230-351合計20第十六頁,共五十八頁,2022年,8月28日直方圖(不等距分組)某會計師事務所對20家公司進行年終審計所需時間(天)的頻數分布表審計時間(天)頻數頻數密度10-1540.815-2081.620-255125-3530.3合計20-第十七頁,共五十八頁,2022年,8月28日直方圖與條形圖的異同都是用來反映數據的分布狀況,適用于不同類型的數據。條形圖是用條形的高度表示各類別頻數的多少,其寬度(表示類別)則是固定的。直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義。直方圖的各矩形通常是連續排列,條形圖則是分開排列。第十八頁,共五十八頁,2022年,8月28日主要用于顯示未分組的原始數據的分布。由“莖”和“葉”兩部分構成,其圖形是由數字組成的。通常以數據的高位數值作樹莖,低位數字作樹葉,樹葉上只保留一位數字。樹葉的豎列要對齊,以計算各組的次數。原始數據:
24,26,24,21,27,27,30,41,32,38從小到大排序后的數據:
21,24,24,26,27,27,30,32,38,413
0284
12
144677303.2.5莖葉圖(Stem-and-LeafDisplay)莖葉圖第十九頁,共五十八頁,2022年,8月28日SPSSStatistics生成的一個莖葉圖40名教師的年齡的數據:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-LeafPlot
FrequencyStem&Leaf
9.00
2.677888999
4.00
3.3344
8.00
3.55566679
10.00
4.0011222233
3.00
4.588
4.00
5.0112
1.00
5.5
1.00Extremes(>=64)
Stemwidth:10.00
Eachleaf:1case(s)
第二十頁,共五十八頁,2022年,8月28日常用的集中趨勢的測度指標:算術平均數中位數眾數集中趨勢:一組數據向其中心值靠攏的傾向和程度。集中趨勢測度:尋找數據水平的代表值或中心值。第二十一頁,共五十八頁,2022年,8月28日4.1.1算術平均數(均值,ArithmeticMean)總體均值常用表示。樣本均值常用表示。樣本均值的計算公式:簡單平均數:加權平均數(分組數據):
4.1
集中趨勢的測定第二十二頁,共五十八頁,2022年,8月28日算術平均數的性質1、 所有的定量數據都有算術平均數。2、計算算術平均數時使用了所有數據。3、一組數只有一個均值。4、各變量值與均值的離差之和等于零。張村有個張千萬,九個鄰居窮光蛋;統計平均算資產,個個都是張百萬。
缺點:易受極端值的影響。第二十三頁,共五十八頁,2022年,8月28日一組數據按大小順序排列后,處在數列中點位置的數值。特點:對一組數據是唯一的。不受極端值的影響。主要用于順序數據,也可用數值型數據,但不能用于分類數據。4.1.2中位數(Median)
4.1
集中趨勢的測定第二十四頁,共五十八頁,2022年,8月28日根據原始數據計算中位數n為奇數時等于第(n+1)/2個數。n為偶數時等于第n/2和n/2+1個數的平均值1,2,5,9,11中位數=51,2,5,9,11,18中位數=(5+9)/2=7第二十五頁,共五十八頁,2022年,8月28日一組數據中出現次數最多的變量值。主要特點:不受極端值的影響。有的數據無眾數或有多個眾數。對未分組定量資料很少使用。4.1.3眾數(Mode)
4.1
集中趨勢的測定第二十六頁,共五十八頁,2022年,8月28日眾數的不惟一性眾數無眾數眾數1眾數2第二十七頁,共五十八頁,2022年,8月28日眾數、中位數和算術平均數的關系對稱分布
均值=中位數=眾數左偏分布均值
中位數
眾數<<右偏分布眾數
中位數均值<<第二十八頁,共五十八頁,2022年,8月28日反映各變量值遠離其中心值的程度(離散程度),從另一個側面說明了集中趨勢測度值的代表程度。常用指標:全距(極差)四分位距方差和標準差離散系數
4.2
離散程度的測定三個不同的曲線表示三個不同的總體,其均值相同,但離散趨勢不同。第二十九頁,共五十八頁,2022年,8月28日全距也稱極差,是一組數據的最大值與最小值之差。R=最大值—最小值組距分組數據可根據最高組上限-最低組下限計算。受極端值的影響。
全距=?2,5,6,7,8,9,10,12,15,16,204.2.1全距(Range)
4.2
離散程度的測定7891078910第三十頁,共五十八頁,2022年,8月28日等于上四分位數與下四分位數之差反映了中間50%數據的離散程度,數值越小說明中間的數據越集中。不受極端值的影響。可以用于衡量中位數的代表性。
2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=154.2.2四分位距(Inter-QuartileRange)
4.2
離散程度的測定第三十一頁,共五十八頁,2022年,8月28日方差是一組數據中各數值與其算術平均數離差平方的平均數,標準差是方差正的平方根。總體方差和樣本方差的符號不同,計算公式也不一樣。是反映定量數據離散程度的最常用的指標。4.2.3方差和標準差
4.2
離散程度的測定4681012x=8.3第三十二頁,共五十八頁,2022年,8月28日方差的計算公式總體方差
樣本方差未分組
數據分組數據樣本方差用(n-1)去除,從數學角度看是因為它是總體方差σ2的無偏估計量。第三十三頁,共五十八頁,2022年,8月28日標準差與其相應的均值之比,表示為百分數。特點:反映了相對于均值的相對離散程度;可用于比較計量單位不同的數據的離散程度;計量單位相同時,如果兩組數據的均值相差懸殊,離散系數可能比標準差等絕對指標更有意義。4.2.4離散系數(CoefficientofVariation)
4.2
離散程度的測定第三十四頁,共五十八頁,2022年,8月28日偏態和峰度的類型偏態左偏分布右偏分布正態分布扁平分布峰態尖峰分布第三十五頁,共五十八頁,2022年,8月28日數據分布的不對稱性稱作偏態。偏態系數(SK)是對數據分布的不對稱性(偏斜程度)的測度。偏態系數有多種計算方法,在統計軟件中(如Excel等)通常采用以下公式:
4.3.1偏態及其測定(
Skewness)
4.3
分布形態的測定第三十六頁,共五十八頁,2022年,8月28日偏態系數的含義左偏分布(也稱負偏分布):偏態系數SK<0;偏態系數的絕對值越大,偏斜越嚴重數據向左邊延伸得更多右偏分布(也稱正偏分布):偏態系數SK>0;偏態系數的絕對值越大,偏斜越嚴重。數據向右邊延伸得更多對稱分布:偏態系數=0。
第三十七頁,共五十八頁,2022年,8月28日峰度:數據分布的扁平或尖峰程度。峰度系數(K):數據分布峰度的度量值,對數據分布尖峰或扁平程度的測度。統計軟件(如Excel等)中常用以下公式計算4.3.2峰度及其測定(Kurtosis)
4.3
分布形態的測定第三十八頁,共五十八頁,2022年,8月28日峰度系數的含義扁平分布尖峰分布峰度系數K<0,與正態分布相比該分布一般為扁平、瘦尾,肩部較胖。峰度系數K>0,與正態分布相比該分布一般為尖峰、肥尾,肩部較瘦。均值和方差相同的正態分布第三十九頁,共五十八頁,2022年,8月28日5.2.2相關系數的計算相關系數(CoefficientofCorrelation)是用來衡量變量之間相關程度的指標,根據變量的多少和屬性可以有多種不同的計算方法。衡量兩個定量變量之間線性相關程度的常用指標是皮爾遜(Pearson)相關系數。通常以ρ表示總體的相關系數,以r表示樣本的相關系數。第四十頁,共五十八頁,2022年,8月28日r的取值范圍為:-1≤r≤1;r越接近1,X與Y之間的線性關系越好;r=1為完全正相關關系;r=-1為完全負相關關系r=0,兩個變量之間不存在線性關系或不相關。一般可按三級劃分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。相關系數r的特征第四十一頁,共五十八頁,2022年,8月28日5.2.3相關系數的顯著性檢驗樣本相關系數r受到抽樣波動的影響,是一個隨機變量。相關系數非常高的樣本也有可能來自無相關關系的總體。為了排除這種情況,需要對相關系數進行假設檢驗。第四十二頁,共五十八頁,2022年,8月28日(1)MultipleR,又稱為相關系數,它用來衡量變量x和y之間相關程度的大小。R為0.9968,表示二者之間的關系是強正相關。1.回歸統計表實驗任務二:使用Excel的分析工具庫進行回歸第四十三頁,共五十八頁,2022年,8月28日R的取值范圍為:-1≤R≤1;R越接近1,X與Y之間的線性關系越好;R=1為完全正相關關系;R=-1為完全負相關關系R=0,兩個變量之間不存在線性關系或不相關。一般可按三級劃分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。實驗任務二:使用Excel的分析工具庫進行回歸第四十四頁,共五十八頁,2022年,8月28日(2)RSquare(擬合優度系數R2):用來說明用自變量解釋因變量變差的程度,以測量對因變量的擬合效果。擬合優度系數為0.9936,表明用自變量可解釋因變量變差的99.36%。實驗任務二:使用Excel的分析工具庫進行回歸第四十五頁,共五十八頁,2022年,8月28日決定系數的取值R2的取值范圍是[0,1]。R2越接近于1,表明回歸平方和占總離差平方和的比例越大,回歸直線與各觀測點越接近,回歸直線的擬合程度就越好。在一元線性回歸中,相關系數r的平方等于判定系數,符號與自變量x的系數一致。因此可以根據回歸結果求出相關系數。
所有的回歸程序都會給出R2的值.第四十六頁,共五十八頁,2022年,8月28日(3)AdjustedRSquare(調整的擬合優度系數):僅用于多元回歸才有意義,它用于衡量加入獨立變量后模型的擬合程度。當有新的獨立變量加入后,即使這一變量同因變量之間不相關,未經修正的R2也要增大,修正的R2僅用于比較含有同一個因變量的各種模型。(4)標準誤差:又稱為標準回歸誤差或估計標準誤差,它用來衡量擬合程度的大小,也用于計算與回歸有關的其他統計量,此值越小,說明擬合程度越好。實驗任務二:使用Excel的分析工具庫進行回歸第四十七頁,共五十八頁,2022年,8月28日實驗任務二:使用Excel的分析工具庫進行回歸擬合優度
1、決定系數
2、估計標準誤差顯著性檢驗
3、t檢驗
4、F檢驗第四十八頁,共五十八頁,2022年,8月28日季節指數乘法模型中的季節成分通過季節指數來反映。季節指數(季節比率):反映季節變動的相對數。1、月(或季)的指數之和等于1200%(或400%)。2、季節指數離100%越遠,季節變動程度越大,數據越遠離其趨勢值。第四十九頁,共五十八頁,2022年,8月28日因子分析因子分析在一定程度上可被視為主成分分析的深化和拓展。基本原理是將具有一定相關關系的多個變量綜合為數量較少的幾個因子,研究一種具有錯綜復雜關系的實測指標是如何受少數幾個內在的獨立因子所支配的。第五十頁,共五十八頁,2022年,8月28日SPSS因子分析操作6、單擊“得分”,選中“保存為變量”,“顯示因子得分系數矩陣”,單擊“繼續”;其余選項使用默認值。單擊“確定”。Displayfactorscorecoefficientmatrix第五十一頁,共五十八頁,2022年,8月28日因子分析結果分析除了“外貌”變量外其他變量的共同度都比較高。變量共同度表變量共同度:各變量中所含原始信息能被提取的公共因子所解釋的程度。變量的共同度越接近1,說明被變量公共因子解釋的程度越高,因子分析的效果越好。第五十二頁,共五十八頁,2022年,8月28日前4個因子的貢獻率為81.49%。旋轉之后各因子的方差貢獻率可能會發生變化!SPSS因子分析操作貢獻率第五十三頁,共五十八頁,2022年,8月28日旋轉前后的因子載荷矩陣旋轉成分矩陣,每行都有一個較大的值。
因子旋轉后1234簡歷格式.116.830.109-.136外貌.440.151.399.227研究能力.064.128.007.928興趣愛好.220.245.871-.081自
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省越崎中學2024-2025學年物理高二第二學期期末復習檢測試題含解析
- 云南省彝良縣民族中2024-2025學年數學高二下期末監測試題含解析
- 云南省安寧市實驗石江學校2025屆生物高二第二學期期末復習檢測模擬試題含解析
- 人工智能提示詞工程師試題含答案
- 車輛抵押貸款合同審查及范本
- 高層建筑立面測量勞務分包合作合同
- 高端寫字樓場地租賃合同范本-承租方
- 災害預防廠房租賃安全保證合同
- 勞務雇傭合同模板(18篇)
- 上半年內科醫生工作總結(19篇)
- 2024-2025學年度第二學期人教版八年級下冊物理暑假作業含答案第一天
- 2024年中國甘脲行業調查報告
- 浙江省2025年中考第二次模擬考試英語試題(含答案無聽力原文及音頻)
- 初創公司薪酬方案
- 2025年大學期末民法試題及答案
- 《輔助生殖技術探究》課件
- 中醫兒科學研究進展知到課后答案智慧樹章節測試答案2025年春浙江中醫藥大學
- 森林火災防控-深度研究
- 2016中國石油石化企業信息技術交流大會論文公示名單
- 地下車庫車位劃線合同
- DBJ04-T 241-2024 公共建筑節能設計標準
評論
0/150
提交評論