




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、學習目標學習目標1.了解數據預處理的內容和目的了解數據預處理的內容和目的2.掌握分類和順序數據的整理與顯示方法掌握分類和順序數據的整理與顯示方法3.掌握數值型數據的整理與顯示方法掌握數值型數據的整理與顯示方法4.用用Excel,Spss作作頻數分布表和頻數分布表和圖圖形形5.合理使用統計圖表合理使用統計圖表第1頁/共50頁第一節第一節 數據的預處理數據的預處理1.數據審核2.數據篩選3.數據排序4. 數據透視表第2頁/共50頁數據的審核數據的審核 原始數據原始數據二手數據二手數據完整性完整性準確性準確性邏輯檢查邏輯檢查計算檢查計算檢查適用適用 時效時效第3頁/共50頁數據篩選數據篩選(data
2、 filter)數據篩選的內容數據篩選的內容將某些不符合要求的數據或有明顯錯誤的數據予以剔將某些不符合要求的數據或有明顯錯誤的數據予以剔除除將符合某種特定條件的數據篩選出來將符合某種特定條件的數據篩選出來用Excel進行數據篩選1.篩選出統計學成績為75分的數據;2.統計成績為前三名的學生;3.4門課程成績都大于70分的學生第4頁/共50頁數據排序數據排序 (data rank)u 數據排序就是按一定順序排列數據數據排序就是按一定順序排列數據u 作用作用:n發現趨勢發現趨勢n為分類或分組提供依據為分類或分組提供依據n直接利用排序結果作分析直接利用排序結果作分析 u分類數據的排序n字母型數據n漢
3、字型數據數值型數據的排序u數值型數據的排序n遞 增 排 序 : 遞 增 排 序 后 可 表 示 為 :x(1)x(2)x(2)x(n)第5頁/共50頁數據透視表數據透視表(pivot table)u從復雜的數據中提取有用的信息從復雜的數據中提取有用的信息u對數據表中的重要信息按使用者的習慣或對數據表中的重要信息按使用者的習慣或分析要求進行匯總和作圖分析要求進行匯總和作圖u形成一個符合要求的交叉表形成一個符合要求的交叉表(列聯表列聯表)u在利用數據透視表時在利用數據透視表時,數據源表中的首行數據源表中的首行必須有列標題必須有列標題用Excel創建數據透視表步驟見p50-51頁第6頁/共50頁第二
4、節第二節 數據的整理數據的整理統計數據的分類統計數據的分類第7頁/共50頁分類數據的整理分類數據的整理u基本過程基本過程n 列出各類別列出各類別n 計算各類別的頻數計算各類別的頻數n 制作頻數分布表制作頻數分布表n 用圖形顯示數據用圖形顯示數據分類頻數比例百分比比率ABCDEu可計算的統計量n頻數(frequency) n比例(proportion) n百分比(percentage) n比率(ratio)第8頁/共50頁分類數據頻數分布表第9頁/共50頁順序數據的整理順序數據的整理(可計算的統計量可計算的統計量)1. 累積頻數累積頻數(cumulative frequencies):各類別頻數
5、的逐級累加2. 累積頻率累積頻率(cumulative percentages):各類別頻率(百分比)的逐級累加第10頁/共50頁順序數據的頻數分布表順序數據的頻數分布表(例題分析例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意? 1 非 常 不滿意;2不滿意;3一般;4滿意;5非常滿意。 表表3-3 甲城市家庭對住房狀況評價的頻數分布甲城市家庭對住房狀況評價的頻數分布回答類別回答類別甲城市甲城市戶數戶數(戶戶)百分比百分比(%)向上累積向上累積 向下累積向下累積 戶數戶數(戶戶)百分比百分比(%)戶數戶
6、數(戶戶)百分比百分比(%) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意 24108 93 45 30 836311510 24132225270300 8.0 44.0 75.0 90.0100.0300276168 75 30100.092562510合計合計300100.0第11頁/共50頁順序數據的頻數分布表順序數據的頻數分布表 (例題分析例題分析)表表3-4 乙城市家庭對住房狀況評價的頻數分布乙城市家庭對住房狀況評價的頻數分布回答類別回答類別乙城市乙城市戶數戶數(戶戶)百分比百分比(%)向上累積向上累積 向下累積向下累積 戶數戶數(戶戶)百分比百分比(%
7、)戶數戶數(戶戶)百分比百分比(%) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2199786438 7.033.026.021.312.7 21120198262300 7.0 40.0 66.0 87.3100.0300279180102 38100.0 93.0 60.0 34.0 12.7合計合計300100.0第12頁/共50頁分組方法分組方法等距分組等距分組異距分組異距分組單變量值分組單變量值分組組距分組組距分組第13頁/共50頁單變量值分組單變量值分組u要點要點:n 一個變量值一個變量值n 離散變量離散變量n 變量值較少變量值較少某生產車間50名工人
8、日加工零件數如下(單位:個)。試采用單變量值對數據進行分組。 第14頁/共50頁單變量值分組表單變量值分組表 (實例)(實例)表表3-5 某車間某車間50名工人日加工零件數分組表名工人日加工零件數分組表零件數零件數(個個)頻數頻數(人人)零件數零件數(個個)頻數頻數(人人)零件數零件數(個個)頻數頻數(人人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112第15頁/共50頁組距分組組距分組 (要點要點)u 要點要點:n一個區間一
9、個區間n連續變量連續變量n變量值較多變量值較多n原則原則: “不重不漏不重不漏”n等距分組或不等距分組等距分組或不等距分組u 概念n 下限(low limit) n 上限(upper limit) n 組距(class width) n 組中值(class midpoint) 第16頁/共50頁組距分組的步驟1、確定組數:通常為5到15 (20)組。Sturges 提出的經驗公式:分組組數K應滿足2 2、確定組距和各組界限,建議為、確定組距和各組界限,建議為5,105,10的倍數。的倍數。 組距組距( ( 最大值最大值 - - 最小值)最小值) 組數組數 3 3、根據分組整理成頻數分布表、根據
10、分組整理成頻數分布表 ,2Kn第17頁/共50頁等距分組表:上下組限間斷某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)105109110114115119120124125129130134135139358141064610162820128合計50100第18頁/共50頁等距分組表(上下組限重疊,上組限不在內)某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)105110110115115120120125125130130135135140358141064610162820128合計50100第19頁/共50頁等距分組表:(使用開口組)某車間50名工
11、人日加工零件數分組表按零件數分組頻數(人)頻率(%)110以下110115115120120125125130130135135以上358141064610162820128合計50100第20頁/共50頁第三節數據展示第21頁/共50頁條條形形圖圖餅餅圖圖環環形形圖圖分類數據品質數據品質數據直直方方圖圖折折線線圖圖分組數據分組數據莖莖葉葉圖圖箱箱線線圖圖原始數據原始數據線線圖圖時序數據時序數據雷雷達達圖圖多元數據多元數據數值型數據數值型數據數據的類型數據的類型氣氣泡泡圖圖順序數據累累積積頻頻數數分分布布圖圖帕帕累累托托圖圖散散點點圖圖 一、常用統計圖第22頁/共50頁條形圖(Bar Char
12、t) 用寬度相同的條形高度或長短來表示數據變動的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復式等形式。2003年我國就業人員情況(萬人)第23頁/共50頁圓形圖 (Pie Chart) 也叫餅圖,它是用圓形及圓內扇形的面積來表示數值大小的圖形。主要用于總體內部的結構,各組成部分所占比例等。2003年我國國內生產總值中各產業比重第24頁/共50頁順序數據的圖示順序數據的圖示累計頻數分布累計頻數分布圖圖 (例題分析例題分析)243001322252700100200300400 非常不滿意 不滿意 一般 滿意 非常滿意累積戶數(戶)(a)向上累積276168303007501002003
13、00400 非常不滿意 不滿意 一般 滿意 非常滿意累積戶數(戶)(b)向下累積第25頁/共50頁直方圖(Histogram) 用來反映數量變量的分布狀況。在統計分組的基礎上,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖。 注意對不等距分組:縱軸必須表示為頻數密度 頻數密度=頻數/組距 (面積之和=總頻數) 手工繪制直方圖時需要先對數據進行分組;用統計軟件作直方圖時統計軟件可以自動進行分組。第26頁/共50頁直方圖(等距分組)某會計師事務所對20家公司進行年終審計所需時間(天)的頻數分布表審計時間(天) 頻數10-15415-20820-25525-302
14、30-351合計20第27頁/共50頁直方圖(不等距分組)某會計師事務所對20家公司進行年終審計所需時間(天)的頻數分布表審計時間(天)頻數頻數密度10-1540.815-2081.620-255125-3530.3合計20-第28頁/共50頁直方圖與條形圖的異同 都是用來反映數據的分布狀況,適用于不同類型的數據。 條形圖是用條形的高度表示各類別頻數的多少,其寬度(表示類別)則是固定的。 直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義。 直方圖的各矩形通常是連續排列,條形圖則是分開排列。第29頁/共50頁折線圖 (Frequen
15、cy polygon) 折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉。 折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸。 組數越多,組據就越小,折線圖就越光滑,逐漸形成一條平滑的曲線,這就是頻數分布曲線。第30頁/共50頁審計時間的折線圖第31頁/共50頁 主要用于顯示未分組的原始數據的分布。由“莖”和“葉”兩部分構成,其圖形是由數字組成的。 通常以數據的高位數值作樹莖,低位數字作樹葉,樹葉上只保留一位數字。 樹葉的豎列要對齊,
16、以計算各組的次數。原始數據:24, 26, 24, 21, 27, 27, 30, 41, 32, 38從小到大排序后的數據: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41莖葉圖:3 0 2 84 12 1 4 4 6 7 7莖葉圖莖葉圖 (Stem-and-Leaf Display)30第32頁/共50頁 40名教師的年齡的數據:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,
17、64 Stem-and - Leaf Plot Frequency Stem & Leaf 9.00 2 . 677888999 4.00 3 . 3344 8.00 3 . 55566679 1 0.00 4 . 0011222233 3.00 4 . 588 4.00 5 . 0112 1.00 5 . 5 1.00 Extremes (=64) Stem width: 10.00 Each leaf: 1 case(s) SPSS Statistics生成的一個莖葉圖第33頁/共50頁線圖(Line Chart) 利用線形的升降起伏來表現描述的變量在一段時期內的變動情況,主要用于
18、顯示時間數列的數據。1996年-2003年城鄉居民人民幣儲蓄存款年底余額 第34頁/共50頁箱線圖箱線圖未分組的原始數據的分布未分組的原始數據的分布構成構成:5:5個特征值、一個箱子、兩條線段個特征值、一個箱子、兩條線段第35頁/共50頁1.顯示多個變量的圖示方法顯示多個變量的圖示方法2.在顯示或對比各變量的數值總和時十分有用在顯示或對比各變量的數值總和時十分有用3.假定各變量的取值具有相同的正負號,總的絕假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區域成正比對值與圖形所圍成的區域成正比4.可用于研究多個樣本之間的相似程度可用于研究多個樣本之間的相似程度雷達圖雷達圖(radar
19、chart)0.11101001000指標1指標2指標3指標4指標5上游中游下游圖3-16 河流污染指標雷達圖 第36頁/共50頁二、繪制統計圖時的注意事項 1、通過選擇恰當的圖形類型、刻度、長寬比例等,使圖形能夠準確反映數據中包含的信息。 時間一般繪在橫軸,指標數據繪在縱軸。 長寬比例要適當 ,其長寬比例大致為10:7。 一般情況下,縱軸數據下端應從“0”開始。數據與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷。第37頁/共50頁繪制統計圖時的注意事項 2、圖形要盡量簡明。圖形應該突出所要傳達的信息,不必要的標簽、背景、網格線、等會分散讀者的注意力。 3、圖形應該有清楚的標題和必要的
20、說明,明確圖形的含義、計量單位、坐標軸代表的變量、資料來源等等。 4、反復加工和修改是獲得優秀統計圖形的重要步驟。第38頁/共50頁下圖增長速度驚人。上圖增長速度緩慢。不恰當的統計圖形舉例:縱橫比例第39頁/共50頁不必要的三維效果:三維圖形可能比二維圖形更能吸引讀者的注意,但只能用來反映變化的趨勢,不能用來進行精確的比較。不恰當的統計圖形舉例:三維效果第40頁/共50頁不恰當的統計圖形舉例:圖形類型1960: $1.001970: $1.601980: $3.101990: $3.80Minimum Wage不好的圖形好的圖形Minimum Wage0241960197019801990$第41頁/共50頁不恰當的統計圖形舉例:壓縮縱軸Quarterly Sales不好的圖形0100200Q1Q2Q3Q4$好的圖形Quarterly Sales02550Q1Q2Q3Q4$第42頁/共50頁不恰當的統計圖形舉例:縱軸無零點好的圖形Monthly Sales不好的圖形36394245JFMAM J$Monthly Sa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業互聯網平臺NFV在通信網絡中的關鍵技術研究報告
- 電商平臺大數據分析在直播帶貨策略中的應用報告
- 便利店行業2025年轉型升級中的智能物流配送優化方案研究報告
- 中藥提取與分離技術在2025年生物制藥中的應用前景報告
- 教育與培訓行業教育行業信息化基礎設施建設報告:智能校園的構建
- 官渡區企業稅務管理制度
- 單位檔案室建設管理制度
- 書法室電子設備管理制度
- 公司物資出入庫管理制度
- 創業型公司嚴格管理制度
- 2024年西部機場集團榆林機場公司招聘35人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 銀行智能化方案設計
- 教師口語智慧樹知到期末考試答案2024年
- 從乙醇的結構看其發生化學反應時鍵的斷裂位置和方式
- 2024年江西贛州旅游投資集團限公司招聘13人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 小學信息技術所有知識點大匯總(最全)
- 好老師是民族的希望
- 跌倒墜床壓瘡預防與護理知識講座
- 《鋼鐵是怎樣煉成的》選擇題(含答案)
- 2024年中國融通文化教育集團有限公司招聘筆試參考題庫含答案解析
- 2024高海拔地區模塊化增壓式建筑技術標準
評論
0/150
提交評論