




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1應用統計學2幾種常用的統計軟件典型的統計軟件SASSPSSMINITABSTATISTICAExcel3本章教學目標:了解統計學的基本知識;統計數據的收集、調查; 第1章 統計和統計數據收集4本章主要內容1.1 統計學概述1.2 統計數據的收集1.3 問卷設計1.4 變量類型 51.1 什么是統計學? 統計學是一門收集、整理和分析數據的方法科學,其目的是探索數據的內在數量規律性,以達到對客觀事物的科學認識6Statistics的定義 Statistics: the science of collecting, analyzing, presenting, and interpreting d
2、ata. Copyright 1994-2000 Encyclopaedia Britannica, Inc. (不列顛百科全書)7統計數據的內在規律正常條件下新生嬰兒的性別比為107:100投擲一枚均勻的硬幣,出現正面和反面的頻率各為1/2;投擲一枚骰子出現16點的頻率各為1/6農作物的產量與施肥量之間存在相關關系8統計學的應用領域統計學經濟學管理學醫學工程學社會學9 基于統計學的數據轉換應用 10應用統計的領域actuarial work (精算)agriculture (農業)animal science (動物學)anthropology (人類學)archaeology (考古學)a
3、uditing (審計學)crystallography (晶體學)demography (人口統計學)dentistry (牙醫學)ecology (生態學)econometrics (經濟計量學)education (教育學) engineering (工程)epidemiology (流行病學)finance (金融)gambling (賭博)genetics (遺傳學)geography (地理學) geology (地質學)election forecasting and projection (選舉預測和策劃)fisheries research (水產漁業研究)historica
4、l research (歷史研究)human genetics (人類遺傳學)11應用統計的領域(續)hydrology (水文學) Industry (工業) linguistics (語言學) literature (文學)manpower planning (勞動力計劃)management science (管理科學)marketing (市場營銷學) medical diagnosis (醫學診斷)meteorology (氣象學) military science (軍事科學)nuclear material safeguards (核材料安全管理)ophthalmology (眼
5、科學) pharmaceutics (制藥學)physics (物理學) political science (政治學)psychology (心理學) psychophysics (心理物理學)quality control (質量控制) religious studies (宗教研究)sociology (社會學) survey sampling (調查抽樣)taxonomy (分類學) weather modification (氣象改善)12統計研究對象的特點1.數量性 統計學研究的對象是客觀現象的數量特征和規律性。2.總體性 統計學研究的是客觀現象總體的數量特征與規律性,而不是個體的
6、量。3.具體性 統計的對象是一定時間、地點、條件下事物的量,而不是抽象對象的量,這是統計學和數學的一個重要區別。4.差異性 組成統計研究對象總體的個體是有差異的,否則就不需要進行統計分析。統計研究中需要對總體中大量的個體進行觀察并進行綜合分析,由此才能獲得總體的數量分布特征。 13統計學的分類 統計學大致有以下兩種主要的分類方法。1.描述統計學和推斷統計學 這一分類方法既反映了統計學發展的兩個主要階段,同時也反映了各自不同的側重。 描述統計學是研究如何對客觀現象進行數量的計量、加工、概括和表示的方法。在二十世紀之前統計學基本上處于描述階段。描述統計學是統計學的基礎。 推斷統計學是研究如何根據樣
7、本數據去推斷總體的情況,概率論是其理論基礎。推斷統計學是近代統計學的核心,也是統計學中的主要內容。 14統計學的分科描述統計推斷統計統計學的分科理論統計應用統計15描述統計與推斷統計的關系反映客觀現象的數據總體內在的數量規律性推斷統計(利用樣本信息和概率論對總體的數量特征進行估計和檢驗等)概率論(包括分布理論、大數定律和中心極限定理等)描述統計(統計數據的搜集、整理、顯示和分析等)總體數據樣本數據統計學探索現象數量規律性的過程16理論統計學和應用統計學理論統計學 是研究統計學的數學原理,它基于概率論的原理,還包括不屬于傳統概率論的一些內容,如隨機化原則的理論、各種估計的原理、假設檢驗的原理以及
8、一般決策的原理。 在統計實踐中經常會遇到一些原有的統計方法不能適應的新問題,需要創造新的統計模型和統計分析方法,這就需要統計理論的研究與指導。應用統計學 將統計學的基本原理應用于各個領域就形成各種應用統計學的分支。它包括適用于各個領域的一般性的統計方法,如參數估計、假設檢驗、方差分析、回歸分析等,還包括在某一領域中特定的分析方法,如經濟統計中的時間數列分析和指數分析等。 應用統計學側重于闡明統計學的基本原理,并將理論統計學的成果作為工具應用于各個領域。17統計基本術語變量:事物的特征,是運用統計方法所分析的對象。例如,在商業模型中,銷售額、每年的開支和每年的凈利潤都是企業想要分析的變量。數據
9、:是與變量相關的值。變量可能隨時間變動,如某一公司的期望銷售額、開支和凈利潤每年都有所不同。這些不同的值就是與變量相關的數據,或者簡單地說,就是統計所要分析的“數據”。注意:變量需賦予可操作定義 ,否則會產生歧義。如:對銷售額的操作性定義可能會發生這樣錯誤的理解:一個人認為年銷售額是指全部連鎖店的年銷售額,而另一個人則認為是每家店的年銷售額。 18統計基本術語總體:所研究對象的全體。個體:指總體中的每個元素或單元。總體依其所包含的個體總數分為有限總體和無限總體。樣本:從總體中挑選出來用于分析的一部分。這種挑選通常是相對獨立的。樣本是進行推斷統計的依據。參數:參數是描述總體特征的數值。統計量:是
10、描述樣本特征的數值19 統計數據的收集是統計整理和分析,以及統計推斷和預測的基礎。社會經濟統計中所需要的數據與資料主要來源于統計調查。 統計數據的收集就是根據統計研究的目的和要求,有組織、有計劃地向調查對象搜集原始資料的過程。 確定數據最合適的來源和收集數據的合理方法是非常重要的任務,因為如果收集的數據有偏差,模糊不清或有其他類型的錯誤時,即使最復雜的統計方法也無法得到有用的信息,即需要避免“Garbage In Garbage Out(垃圾數據產生垃圾統計結果)”的統計應用情況。 1.2 統計數據的收集20一.數據采集的基本要求準確性及時性完整性系統性 統計調查的數據資料應配套,要能從不同側
11、面反映所研究總體的特征,才能為科學的判斷和決策提供依據。 在實際應用中,我們要依據特定的研究目的或工作任務,結合研究對象所具有的性質和特點,相應地選擇適合的調查方法,必要時也可以幾種調查方法結合使用。 21二.普遍調查普遍調查簡稱普查,是專門組織的一次性的全面調查 。如全國的人口普查、能源普查、工業普查等。 組織方式有兩種:1.建立專門的普查機構2.利用調查單位的原始記錄和核算資料,發放調查表,由登記單位填報。普查時注意的原則:規定統一的標準時點 規定統一的普查期限規定普查的項目和指標。 22普遍調查實例【例1.1】 2002年在國務院統一部署下,開展全國“基本單位普查”。關于這次普查的部分重
12、要要求與規定如下:調查目的:統計分析全國和各省市地區的單位總數、性質、隸屬關系、分布情況等。標準時間:2001年12月31日。調查對象:各類法人單位,各類法人單位所屬的產業活動單位。調查項目:單位總數; 性質分類(企業法人、事業法人、社團法人、機關法人、其他法人); 基本情況 性質劃分、隸屬關系(中央、省市、區縣、街道等); 主要構成(產業結構、行業分布、地區分布、經濟成分、規模結構); 分布情況。 23三.重點調查 在總體中選擇部分重點單位進行調查,以了解總體基本情況的一種非全面調查。重點調查的特點:(1) 重點調查適用于調查對象的標志值比較集中于某些單位的場合,這些單位的管理比較健全,統計
13、力量比較充實,能夠及時取得準確資料。(2) 重點調查的目的在于了解總體現象某些方面的基本情況,而不要求全面準確地推算總體數字。(3) 重點調查比實際調查的單位數目少,在滿足調查目的所要求的前提下,可以比全面調查節省人力、物力和時間。 24四.典型調查 也是專門組織的一種非全面調查,在總體中選擇有代表性的典型單位進行深入細致的調查。典型調查的作用和目的(1) 研究新事物或某種傾向性的社會問題 通過對典型單位深入細致的調查,可以發現新情況、新問題,探測事物發展變化的趨勢,形成科學的預見。(2) 分析事物的不同類型 通過研究造成它們間差別的原因,總結經驗教訓,研究對策,促進事物的轉化和發展。(3)
14、典型調查可用來研究事務的變化規律。(4) 典型調查的資料可用來補充和驗證全面統計的數字,推論和測算有關現象的總體。 25六.抽樣調查 是指按隨機原則從總體中抽取部分單位組成樣本。目的是利用樣本數據推斷(估計)總體的數量分布特征。 抽樣調查是現代推斷統計的核心,也是最重要的統計調查方法。 26抽樣調查中四種誤差涵蓋誤差 :當某一組代表性的樣本被排除在抽樣調查之外時所引起的選擇偏差。無回應誤差 :抽樣時,對樣本個體數據收集失敗會導致無回應偏差。 抽樣誤差:選擇抽樣調查是因為這種方法簡單、低成本和有效。但同時也意味著有的個體被抽中,有的個體沒有被抽中。 測量誤差:測量誤差是指由于樣本數據測量程序的設
15、計和應用不當所引起的誤差。 課堂討論:舉例說明這幾種誤差。 27七.網上調查 截至2009年6月底,中國網民規模達到3.38億人,較2008年底增長13.4%,上網普及率達到25.5%。網民規模持續擴大,互聯網普及率平穩上升。其中寬帶網民數達到3.2億,占比高達94.3%,較2008年底上升了3.7個百分點。另外,截至2009年6月底,作為國家域名,CN域名總計達到1,296萬個。作為我國互聯網的重要基礎資源,CN域名已經廣泛地應用在金融、汽車等各個行業中。截止2009年6月我國互聯網用戶發展情況如圖1.2所示。28圖 2008-2009年我國互聯網用戶發展情況(資料來源:第23次中國互聯網絡
16、發展狀況統計報告)29網上調查優勢及時性和共享性 便捷性和低成本 可靠性和客觀性 更好的接觸性 穿越時空性 30 問卷是一種特殊形式的調查表。其特點是表中用一系列按照嚴密邏輯結構組成的問題,向被調查者調查具體事實和個人對某問題的反映、看法,它不要求被調查者填寫姓名。問卷設計一般要遵循以下原則。合理性:合理性指的是問卷必須緊密與調查主題相關。 一般性:即問題的設置是否具有普遍意義。 邏輯性:問卷的設計要有整體感,這種整體感即是問題與問題之間要具有邏輯性,獨立的問題本身也不能出現邏輯上的謬誤。 明確性:所謂明確性,事實上是問題設置的規范性。 非誘導性:非誘導性指的是問題要設置在中性位置、不參與提示
17、或主觀臆斷,完全將被訪問者的獨立性與客觀性擺在問卷操作的限制條件的位置上。 便于整理和分析 1.3 問卷設計31統計學中將變量分為分類變量或數值變量。 分類變量(也稱為定性變量)的值只能按類別分開。數值變量(也稱為定量變量)的值表示數量。數值變量可進一步分為離散變量和連續變量。 1.4 變量類型32四種計量尺度數據的計量尺度定類尺度定序尺度定距尺度定比尺度33計量層次最低對事物進行平行的分類各類別可以指定數字代碼表示使用時必須符合類別窮盡和互斥的要求數據表現為“類別”具有=或的數學特性定類尺度(概念要點)34對事物分類的同時給出各類別的順序比定類尺度精確未測量出類別之間的準確差值數據表現為“類
18、別”,但有序具有或的數學特性定序尺度(概念要點)351.對事物的準確測度2.比定序尺度精確3.數據表現為“數值”4. 沒有絕對零點5.具有 + 或 - 的數學特性定距尺度(概念要點)361.對事物的準確測度2.與定距尺度處于同一層次3.數據表現為“數值”4. 有絕對零點5.具有 或 的數學特性定比尺度(概念要點)37四種計量尺度的比較四種計量尺度的比較定類尺度定序尺度定距尺度定比尺度 分類(, ) 排序( ) 間距( + ,- ) 比值( ,) 計量尺度數學特性“”表示該尺度所具有的特性38數據類型與統計方法數據類型與統計方法定類數據定序數據品質數據數量數據定距數據定比數據39本章教學目標:掌
19、握利用統計圖表整理和表示統計數據的基本方法;掌握利用 Office 軟件繪制各種統計圖表、計算各種統計綜合指標。掌握分類數據圖表的制作方法。掌握數值數據圖表的制作方法。了解圖表匯總和制作原則。 第2章 統計表和統計圖40 在獲得原始數據資料之后,需要使用一定的方法對數據進行整理和綜合,目的是從大量的原始數據資料中提煉所需要的信息,使之可以提供概要信息并能反映對象總體的基本數量特征,便于人們的理解和使用。表格和圖形是整理和反映統計資料的主要工具。 當數據是分類數據時,可以對每一分類數據制作頻率或百分比表格和圖表。2.1 分類數據的圖表 41 頻數分布表列出了一系列分類數據的頻率、總數或百分比,可
20、以看出不同類別數據間的區別。 表2-1 1 000美元用途的頻數分布表用錢做什么百分比/%購買奢侈品、旅游或禮物20向慈善機構捐款2還貸24儲蓄31購買必需品16其他71.頻數分布表422.條形圖433.圓餅圖44 在帕累托圖中,不同類別的數據是按其頻率降序排列的,并在同一張圖中畫出累積百分比圖。帕累托圖可以體現帕累托原則:數據的絕大部分存在于很少類別中,極少剩下剩余的數據分散在大部分類別中。這兩組經常被稱為“至關重要的極少數”和“微不足道的大多數” 4.帕累托圖45 當數據量很大時,首先可以將數值數據進行排序或用莖葉圖描述以獲得初步信息。 (1) 排序 從沒有排序的數據中很難看出數據的整體范
21、圍。排序是把數據從小到大(或從大到小)進行排列。 (2) 莖葉圖 莖葉圖就是將數據分成幾組(稱為莖),每組中數據的值(稱為葉)放置在每行的右邊。結果可以顯示出數據是如何分布的,以及數據中心在哪里。 為了制作莖葉圖,可以將整數作為莖,把小數(葉)化整。例如,數值5.40,它的莖(行)是5,葉是4;數值4.30,它的莖(行)是4,葉是3。也可以將數據的十位數作為莖,個位數作為葉。 2.2 數值數據的整理 46 當數據量很大時,排序和莖葉圖都很難得出結論。此時需要使用圖表。有多種不同類型的圖表可以用來精確描述數值數據,包括頻數分布表、折線圖、面積圖、柱形圖、條形圖、直方圖、頻數多邊形、圓餅圖、散點圖
22、、時間序列、曲線圖以及對數圖等等。 2.3 數值數據的圖表 47例:某公司汽車銷售量 (單位:輛) 481.頻數分布表 分組統計整理后, 將雜亂無章的 60 個原始數據壓縮到8組,清晰地反映了更多的有用信息。 49制作頻數分布表的注意事項分組的數量 實際應用中分組的數量和組距應根據對象的特點和分析的需要決定。如果分組是為了揭示數據的分布規律,則分組不能過多和過少。通常應在515 之間。在繪制直方圖時可以參照下表: 樣本容量 n 參考分組數 2050 56 51100 78 101200 89 201500 910 5011000 1011 1000以上 112050制作頻數分布表的注意事項2)
23、 分組的方法 分組的方法可以有等距分組和不等距分組兩類。采用哪種分組方法應根據數據的分布特點而定。通常,當數據在一定范圍內基本呈對稱分布時,宜采用等距分組;而當數據的分布狀態極度偏斜時,則宜采用不等距分組。 51例: 按雇工人數分組的私營企業規模統計 52制作頻數分布表的注意事項3)組限:組限也即各組區間的上、下限。確定各組區間的上限和下限時,應保證各組之間既不重疊,又不能遺漏任一數據,使每一個數據都屬于某一確定的分組。重疊和組限不重疊組限重疊組限相鄰組的上下限重合。適用于連續型變量。但各組上、下限中有一個不包含再內。通常按“上限不在內”處理,即組區間是 a, b)的形式。注意:Excel在制
24、作頻數分布表時采用的是“上限在內”的規則。不重疊組限相鄰組的上下限不重合。適用于離散型變量。53例:離散型變量的分組(不重疊組限)某公司某月汽車銷售量的頻數分布表 54例:連續型變量的分組(上限不在內)某企業職工工資的分組統計55制作頻數分布表的注意事項4) 組中值組中值是各組的代表值,在計算分組數據的許多統計指標時要用到。通常取該組上限和下限的平均值為組中值。如表2-7所示,1019的組中值是14.5,2029的組中值是24.5,等等。5) 表格線統計表中的表格線應當是兩邊開口的表格。56使用 Excel 制作頻數分布表利用 Excel 的 FREQUENCY 函數語法規則:格式:FREQU
25、ENCY(,) 接收區間各組上限值組成的一列區域功能:返回各組的頻數。使用【工具】“數據分析”“直方圖”功能 57 統計圖可以形象、直觀、生動、簡潔地顯示數據的特征。 常用的統計圖有以下幾種:1.折線圖 通常用來描述時間序列數據,用以表示某些指標的變化趨勢。 制作折線圖時應正確選擇坐標軸軸的刻度。對同樣的統計資料,延伸或壓縮某一坐標軸可能傳達不同的甚至是誤導的印象。 其它數值數據統計圖58圖1.2 失業人數統計圖過分壓縮了Y軸59圖1.3 失業人數統計圖過分壓縮了X軸602.面積圖 面積圖可以直觀地表示時間序列各組成部分的變化情況。圖 某地區各產業增加值構成比例的變化情況613.柱形圖、條形圖
26、和直方圖 柱形圖、條形圖和直方圖是使用的最為廣泛的統計圖表。通常將橫向繪制的柱形圖稱為條形圖,而將各柱形之間沒有間隔的稱為直方圖,但在Office中將直方圖和柱形圖統稱為柱形圖。 (1)柱形圖 主要用于表示時間序列數據。 62圖1.4 各類進口商品的變化情況柱形圖示例63(2)直方圖用以表示數據的頻數分布規律。圖1.5 比特公司啤酒銷售量的頻數分布64未分組數據的莖葉圖用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉對于n(20n300)個數據,莖葉圖最大行數不超過 L = 10 log 10 n 莖葉圖類似于橫置的直方圖
27、,但又有區別 直方圖可大體上看出一組數據的分布狀況,但沒有給出具體的數值 莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息65樹莖樹葉7880223477788890012222333344466777889013344579910111213數據個數3132410莖葉圖類似橫置的直方圖未分組數據莖葉圖(莖葉圖的制作)某車間工人日加工零件數的莖葉圖664.頻數多邊形 頻數多邊形是直方圖的另一種表現形式,是由直方圖的頂端中點(各組的組中值)連線而成,其中兩邊都要連接到橫軸上的某點,以便通過覆蓋的面積反映總頻數。當希望在一個圖上比較兩種頻數分布的特征時,就需要使用頻數多邊
28、形。 男、女學生的體重分布特征 675.圓餅圖 當要表示總體各組成部分的個體數量在總體中占的比率時,經常使用圓餅圖,圓餅中各扇形的大小代表了不同組成部分的相對重要性。 某企業資產、負債與所有者權益的構成情況 686.散點圖、時間序列圖和曲線圖Microsoft Office中的曲線圖屬于平滑線散點圖 。散點圖:在回歸分析中,經常需要用樣本數據的散點圖來分析兩個變量之間大致的曲線關系,如正相關關系,即一個變量的增長引起另一個變量的增長;負相關關系,即一個變量的增長引起另一個變量的減少。時間序列圖:研究數值變量隨時間變化的趨勢。X軸代表時間,Y軸代表數值。時間序列圖可用折線圖來實現。曲線圖:當變量
29、是連續型數據時,通常使用曲線圖來描述數據的分布情況,如連續型隨機變量的密度函數和分布函數曲線。 696.散點圖、時間序列圖和曲線圖 Office 中曲線圖的繪制方法一:使用“平滑線散點圖”繪制方法二:將折線圖轉換為曲線圖右擊折線后選擇“數據系列格式”,在“圖案”標簽下選“平滑線”復選框,就將折線圖轉換為曲線圖。 70經濟管理中幾種常見的頻數分布曲線正態分布曲線這是客觀事物數量特征上表現得最為普遍的一類頻數分布曲線。如人的身高、體重、智商,鋼的含碳量、抗拉強度,某種農作物的產量等等。正態分布曲線71偏態曲線圖1.8 偏態曲線右偏(正偏)左偏(負偏) 例如收入和財富的頻數分配曲線就是右偏的,大量財
30、富都集中在極少數富豪手中,而多數人則是低收入者。 此外,在產品質量管理中也普遍存在這種現象,如多數次品都集中出在少數工人手中;次品也大都出在少數幾道工序上。這就要求在管理和控制上需要突出重點、抓住關鍵因素。 按其長尾拖向哪一方又可分為右偏(正偏)和左偏(負偏)兩類。72 J 形曲線其典型的應用分別是經濟學中的供給曲線和需求曲線。供給曲線(正 J 形)表現為隨著價格的增加,供給量以更快的速度增加;需求曲線(倒 J 形)表現為隨著價格的增加,需求量以更快的速度減少。供給和需求曲線的交點即供求平衡點。 正 J 形倒 J 形圖1.9 J 形曲線73 U形曲線 人和動物的的死亡率、設備的故障率等通常都服
31、從于 U 形曲線分布。圖1.10 U形曲線 又稱生命曲線或浴盆曲線747.對數圖 人們經常對時間序列變量的相對變化率而不是絕對數值的變化感興趣,如各種經濟變量的環比發展速度。此時若要用統計圖直觀反映增長率等現象的變動趨勢,就需要使用對數圖。 對數圖是以時間為橫軸,以10為底的對數比率刻度為縱軸的折線圖。可以通過對數圖中各線段的斜率比較各時期增長率的大小。考慮以下統計數據:75對數圖可以直觀反映時間序列的環比變化趨勢 可以在Office圖表類型中選擇自定義類型中的“對數圖”,也可通過將一般折線圖縱軸“坐標軸格式” 中的“刻度”設為“對數刻度”來繪制對數圖。76例:某公司總成本和勞動成本的增長 該
32、公司總成本和勞動成本每年增加相同的數量,因而用絕對數據作圖時兩條線是平行的,不小心可能會得出勞動成本占總成本固定比例的誤解。實際上第1年占40%,第6年占60%。使用對數圖就可以清晰反映勞動成本有更高的增長率。77對數圖反映了勞動成本增長率大于總成本增長率78交叉表可以由列聯表和并行條形圖來表示。1.列聯表列聯表表示兩類變量的結果。橫軸表示一類變量,縱軸表示另一類變量。值位于橫縱軸的交叉處,稱為單元。根據列聯表的結構類型,每橫縱軸組合單元包含頻率、總值的百分比、橫行的百分比或列的百分比。2.并行條形圖一個更有效的顯示交叉分類數據的方式是作并行條形圖。 2.4 交叉表 79分析類型數據類型數值分
33、類單變量值的圖表排序,莖葉圖,頻數分布表,折線圖,直方圖,面積圖,柱形圖和條形圖,圓餅圖,頻數多邊形匯總表,條形圖,圓餅圖,帕累托圖兩變量關系的圖表散點圖,時間序列圖,曲線圖列聯表,并行條形圖圖表選擇指導2.5 圖表匯總和制作原則 80圖表制作原則 對于分類數據和數值數據,有些圖表是專用的,如帕累托圖專門用于分類數據的單變量值描述;而有些圖表是通用的,如條形圖既可以描述單變量的數值數據,也可以描述單變量的分類數據。為了提供圖表表述的合理性,在日常的統計數據整理中,應該遵循下列一些基本原則,以更精確、更形象地抽取統計數據中所蘊含的特征信息和意義:圖表不能扭曲數據。圖表不應有不必要的修飾圖(有時是
34、圖表垃圾)。任何兩維圖標應盡可能地在坐標軸上標上刻度。縱軸的起始點應該合理。所有的軸應合理布置。圖表應包含標題。使用最簡單的圖表。81本章主要介紹以下 3類綜合統計指標:度量中心(集中)趨勢的平均指標度量離散程度(變異性)的指標度量偏斜程度的指標度量兩種數值變量關系的指標 第3章 統計數據的描述度量82 常用的這類指標有以下五種:算術平均數、中位數、眾數、四分位數、幾何平均數、五數匯總和箱線圖。3.1 度量集中趨勢的指標83(1)基本公式:1.算術平均數84 (1)簡單算術平均數(2)算術平均數的計算 n 總體單位總數;xi 第 i 個單位的標志值。 (2)加權算術平均數 xi 第 i 組的代
35、表值(組中值或該組變量值); f i 第 i 組的頻數。 85使用 Excel 函數求加權算術平均數 利用 Excel“數學和三角函數”中的SUMPRODUCT 函數可以方便地計算出分組數據的加權算術平均數。 語法規則: 格式:SUMPRODUCT(,) 功能:返回兩個或多個區域中對應元素乘積之和。 例:利用比特啤酒公司各銷售點分組頻數分布數據,求各銷售點的平均銷售量。 862.幾何平均數 當統計資料是各時期的發展速度等前后期的兩兩比環數據,要求每時期的平均發展速度時,就需要使用幾何平均數。 幾何平均數是 n 個數連乘積的 n 次方根。 (1) 簡單幾何平均數 (2) 加權幾何平均數f i 各
36、比率出現的頻數 87例:某公司原料成本隨時間增長的情況如下表求原料成本的平均年增長率。 解一:解二: 年平均增長率 = 1.0688 - 1 = 6.88% 88(3)使用 Excel 求幾何平均數 可以使用 Excel 統計函數中的 GEOMEAN 函數返回幾何平均數。 語法規則: 格式:GEOMEAN(,) 功能:返回所有參數中數據的幾何平均數。 89 將總體各單位標志值按由小到大的順序排列后處于中間位置的標志值稱為中位數,記為Me 。 中位數是一種位置平均數,不受極端數據的影響。當統計資料中含有異常的或極端的數據時,中位數比算術平均數更具有代表性。 比如有 5 筆付款:9元,10元,10
37、元,11元,60元 付款的均值為 20 元,顯然這并不是一個很好的代表值,而中位數 Me = 10 元則更能代表平均每筆的付款數。3.中位數90 (1) 使用 Excel 的統計函數返回未分組數據的中位數 可以使用 Excel 統計函數中的 MEDIAN 函數返回未分組數據的中位數。 格式:MEDIAN(,) 功能:返回所有參數中數據的中位數。 91(2)分組數據中位數的確定 對于分組數據的統計資料,中位數要用插值法來估算。 (1)計算各組的累計頻數; (2)確定中位數所在的組 是累計頻數首次包含中位數位次f /2的組。其中:L 中位數所在組的下限; Sm-1 中位數所在組前一組的累計頻數;
38、fm 中位數所在組的頻數; d 中位數所在組的組距。 92例:計算下表數據的中位數解:f/2 = 27.5,中位數在“15-25”的組中, 934.眾數 是總體中出現次數最多的標志值,記為M 0。 眾數明確反映了數據分布的集中趨勢,也是一種位置平均數,不受極端數據的影響。但并非所有數據集合都有眾數,也可能存在多個眾數。 在某些情況下,眾數是一個較好的代表值。 例如在服裝行業中,生產商、批發商和零售商在進行生產和存貨決策時,更感興趣的是最普遍的尺寸而不是平均尺寸。 又如,當要了解大多數家庭的收入狀況時,也要用到眾數。 94(1) 未分組數據眾數的確定在數據量很大的時候,可以使用 Excel 統計
39、函數中的 MODE 函數返回眾數。格式:MODE(,)功能:返回所有參數中數據的眾數。 95(2) 分組數據眾數的確定對于分組數據的統計資料,眾數也要用插值法來估算。(1)確定眾數所在的組 對于等距分組,眾數組是頻數最高的組;(2)使用以下插值公式計算其中:L 眾數組的下限1 眾數組與前一組的頻數之差2 眾數組與后一組的頻數之差 d 眾數組的組距12眾數Ld96例:計算下表數據的眾數解:眾數組是“15-25”的組,則 97算術平均數、中位數和眾數間的關系 0 xf(Me,M0)0 xfMeM00 xfMeM02.頻數分布為右偏態 時,眾數小于中位數,算術平均數大于中位數。3.頻數分布為左偏態時
40、,眾數大于中位數,算術平均數小于中位數。1.頻數分布呈完全對稱的單峰分布,算術平均數、中位數和眾數三者相同。98補充習題補充題3:某地區私營企業注冊資金分組資料如下,求該地區私營企業注冊資金的平均數、中位數和眾數。99 補充題3答案f/2=143/2=71.5,中位數所在組為“100150”的組,眾數組為“100150”的組,1005.四分位數 (概念要點)1.集中趨勢的測度值之一2.排序后處于25%和75%位置上的值 3. 不受極端值的影響 4. 可用于定序數據,也可用于數值型數據,但不能用于定類數據QLQMQU25%25%25%25%101未分組數據:組距分組數據:下四分位數(QL)位置
41、=N+14上四分位數(QU)位置 =3(N+1)4下四分位數(QL)位置 =N4上四分位數(QL)位置 =3N4四分位數位置的確定102數值型未分組數據的四分位數 (7個數據的算例)原始數據: 23 21 30 32 28 25 26排 序: 21 23 25 26 28 30 32位 置: 1 2 3 4 5 6 7 N+1QL= 237+1QL位置 =4=4= 2QU位置 =3(N+1)43(7+1)4 = 6QU = 30103數值型未分組數據的四分位數(6個數據的算例)原始數據: 23 21 30 28 25 26排 序: 21 23 25 26 28 30位 置: 1 2 3 4 5
42、 6QL= 21+0.75(23-21) = 22. 5QL位置 =N+14=6+14= 1.75QU位置 =3(N+1)43(6+1)4= 5.25QU = 28+0.25(30-28) = 28.5104數值型分組數據的四分位數上四分位數: 下四分位數: 105數值型分組數據的四分位數QL位置50/412.5QU位置350/437.5表 某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105110110115115120120125125130130135135140358141064381630404650合計50【例】根據表中的數據,計算50名工人日加工零件數的四分位數
43、106使用Excel統計函數中的QUARTILE函數 在數據量很大的時候,可以使用Excel統計函數中的QUARTILE函數返回四分位數,語法規則如下:格式:QUARTILE (數據集, 第nthquart分位數) 功能:返回不同nthquart的四分位數。如果nthquart等于函數QUARTILE的返回值0最小值1第一四分位數(第25 個百分點值)2中位數(第 50個百分點值)3第三四分位數(第 75 個百分點值)4最大值1076.五數匯總和箱線圖 五數匯總包括最小值、第一分位數、中位數、第三分位數和最大值這樣五個數據,即 箱線圖(亦稱箱須圖)提供了基于五數匯總的幾何圖形 108箱線圖和四
44、種不同類型分布圖的聯系 c)右偏分布a)鐘形分布b)左偏分布d)矩形分布109x頻數 要分析總體的分布規律,僅了解中心趨勢指標是不夠的,還需要了解數據的離散程度或差異狀況。幾個總體可以有相同的均值,但取值情況卻可以相差很大。 變異指標就是用來表示數據離散程度特征的。變異指標主要有:極差、平均差、標準差和變異系數。 3.2 度量離散程度的指標110【案例】道格拉斯公司應如何選擇供應商 道森公司和克拉克公司是道格拉斯公司的兩家供貨商。兩家供貨商都表示大約需要10個工作日交付定貨。下表是兩家供應商定貨交付時間的歷史數據。今后道格拉斯公司應選擇哪家供應商供貨?1111.極差 極差也稱全距,是一組數據的
45、最大值和最小值之差,通常記為R。顯然,一組數據的差異越大,其極差也越大。 極差是最簡單的變異指標,它廣泛應用于產品質量管理中控制質量的差異,一旦發現超過控制范圍,就采取措施加以糾正,以保證產品質量的穩定。 但極差有很大的局限性,它僅考慮了兩個極端的數據,沒有利用其余數據的信息,因而是一種比較粗糙的變異指標。 1122.平均差 平均差是各數據與其均值離差絕對值的算術平均數,通常記為A.D。 平均差越大,反映數據間的差異越大。 但由于使用了絕對值,其數學性質很差,因而很少使用。 1133.四分位差1.離散程度的測度值之一2.也稱為內距或四分間距3.上四分位數與下四分位數之差 QD = QU - Q
46、L4.反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性1144.方差和標準差 方差和標準差是應用得最為廣泛的變異指標。標準差是方差的算術平方根,也稱均方差或根方差。 應注意總體方差、標準差與樣本方差、標準差是有區別的。(1)總體方差和總體標準差 總體方差是各總體數據與其均值離差平方的均值,記為 2,總體標準差記為。 115(2)樣本方差與樣本標準差 樣本方差記為 S 2,樣本標準差記為 S,在推斷統計中,它們分別是總體方差和標準差的優良估計。其中:n 為樣本容量,Xi 為樣本觀察值為樣本均值。 116未分組數據方差和標準差的計算方差和標準差的手工計算非常煩瑣,只要求掌握以下
47、兩種方法。使用計算器的統計功能(SD或STAT功能)使用 Excel 的統計函數VARP(,) 功能:返回所有參數中數據的總體方差。STDEVP(,) 功能:返回所有參數中數據的總體標準差。VAR(,) 功能:返回所有參數中數據的樣本方差。STDEV(,) 功能:返回所有參數中數據的樣本標準差。 1175.變異系數當需要比較不同總體的離散程度時,如果使用的度量單位不同,或它們在數量級上相差很大,則用絕對數值表示的方差和標準差就缺乏可比性,此時就應使用相對變異指標(變異系數)。例如,對汽車發動機的汽缸而言,0.05毫米的標準差就很大了,但對建筑工程而言則可完全忽略不記。相對變異指標中最重要的是標
48、準差系數,是標準差與均值之比,記為V。1186.Z值極端值是遠離均值的量。Z值有助于定義極端值。Z值越大,數據遠離均值的距離越大。Z值記為,是數據與均值的差再除以標準差。其計算公式如下:通常,Z值小于3.0或大于+3.0時,認為數據中含有極端值。 119 總體分布的特征不僅與均值和變異指標有關,而且與分布的偏斜程度有關,如對稱分布、右偏分布和左偏分布。這種分布形態上的數量特征,往往具有重要的社會經濟意義。偏度系數是度量偏斜程度的指標,主要有以下兩種計算方法:一、用標準差為單位計量的偏度系數 該偏度系數記為SK,計算公式為 SK是無量綱的量,取值通常在-3+3之間,其絕對值越大,表明偏斜程度越大
49、。當分布呈右偏態時,SK0,故也稱正偏態;當分布為左偏態時,SK0,故也稱負偏態。 3.3 度量偏斜程度的指標120二、使用三階中心矩計量的偏度系數 該偏度系數是用三階中心矩除以標準差的三次方來度量偏斜程度,記為,計算公式為 稱為三階中心矩。偏度系數 可以適用任何數據。 和SK的計算方法 不同,因此根據同一資料計算的結果也不相同。可以使用Excel統計函數中的SKEW函數返回數據的偏度系數,語法規則如下:格式:SKEW(,)功能:返回所有參數中數據的偏度系數。 1211. 協方差:協方差測試了兩數值變量(和)的線性聯系,表示為Cov(X,Y)。其計算用下列公式表示。2. 相關系數:相關系數測定
50、了兩數值變量間的線性相關強度。相關系數的值從完全負相關1到完全正相關+1。 3.4 度量兩種數值變量關系的指標122使用 Excel 求各種統計指標 當數據量很大時,手工計算統計指標是非常煩瑣的,尤其是標準差、方差數等的計算量很大。 使用Excel【工具】“數據分析”“描述統計”功能,可以方便地計算出各種綜合統計指標。123本章教學目標:簡要介紹概率的基礎知識,主要供學員回顧復習概率知識的參考,為統計學內容的學習提供所需的基礎知識;掌握查各種概率分布表時Excel統計函數的使用;能運用概率知識解決企業經營管理中的實際問題。運用動態模擬方法驗證中心極限定理;項目投資決策的應用案例分析。第4章 概
51、率論基礎124本章主要內容4.1 隨機試驗與隨機事件4.2 概 率4.3 隨機變量及其分布函數4.4 離散型隨機變量4.5 連續型隨機變量4.6 隨機變量的數學期望和方差4.7 大數定律和中心極限定理4.8 新產品投資決策案例分析 本章內容的重點:條件概率、事件的獨立性、二項分布、正態分布、Excel統計函數的使用。125 在市場經濟環境下,企業所面臨的是充滿不確定因素的市場經濟環境,企業的任何決策都存在不同程度的風險。正確的決策可以為企業帶來巨大的經濟效益和發展機遇,但重大的決策失誤也會給企業造成巨大的經濟損失,并有可能使企業從此陷入困境甚至破產倒閉。因此,如何提高決策的科學性,并盡可能降低
52、和規避決策的風險,是所有企業的高層經營管理決策者都面臨的共性問題。 利用概率論的知識,可以幫助決策者進行風險型決策分析,利用所能獲得的各種信息,還可以大大降低決策的風險程度,盡可能避免重大的經濟損失,并為企業帶來可觀的經濟效益和良好的發展機遇。引言126光大電器公司開發了一種新型洗衣機,生產該洗衣機的經濟規模為100萬臺/年,需要投入的生產線設備、模具、工裝等固定投資費用為2000萬元,項目的建設期為一年,固定投資費用在建設期初一次投入。產品投產時還需投入生產流動資金1000萬元。由于洗衣機產品的技術進步較快,估計該產品的市場壽命期為5年,5年末固定資產殘值為固定投資額的20%,流動資金可在壽
53、命期末全部收回。由于洗衣機的市場競爭非常激烈,該新型洗衣機投入生產后的經濟效益具有很大的不確定性。為了提高產品投資決策的科學性,該公司在決定是否投資生產該新型洗衣機之前,進行了一些市場調查預測和項目的經濟可行性研究。項目投資實例127 市場調查和預測分析估計,產品上市后銷售量將達到生產能力的80%以上(暢銷)、50%80%(銷售一般)、不足50%(滯銷)的可能性分別為40%、30%、30%。 另經財務部門所作的財務預測分析,在產品出現”滯銷”、”一般”和”暢銷”三種銷售狀況下,該項目投產后的年凈現金流量將分別為100萬元、600萬元和1000萬元。 考慮到籌資成本和資金的機會成本,貼現率應取6
54、%。128為使對該新產品項目的投資決策更具科學性,總經理召開了有銷售、生產、財務、技術等部門負責人參加的會議。會上銷售部經理建議,為減小決策風險,應在決定是否投資生產前先利用原有設備進行少量試生產(100臺),并將試生產的洗衣機免費贈送給不同地區的一些用戶進行為期3個月的試用,以取得用戶的反饋信息。為此,銷售部經理還設計了用戶試用后的信息反饋表,包括功能、使用效果、方便程度、外觀、可靠性五大類共25個指標,每項指標都由用戶按15分打分,加權平均后的滿分為100分。根據用戶試用后反饋結果的總平均分,可將用戶對該洗衣機的評價分為”不滿意”(低于60分)、”尚可”(6090分)和”滿意”(高于90分
55、)三種可能結果。銷售部經理的建議129 銷售部經理認為,為減少決策風險,應根據對用戶試用反饋情況進行分析后再作是否投資生產該洗衣機的決定。銷售部經理還提供了過去許多企業在產品正式投產之前采用類似試用或試銷方法的用戶反饋結果與產品正式生產上市后銷售狀況之間的統計數據,見表1表1 銷售狀況與試用結果間的統計資料130總經理指示財務部經理對銷售部經理所提方案的費用進行估算。在下一次的會議上,財務部經理給出了試生產、分發用戶試用及收集用戶反饋信息等項工作的總費用估算結果,估計需要100萬元。會上有人提出是否值得花100萬元進行試生產并免費贈送用戶試用,并展開了激烈的爭論。總經理希望能對各種可行方案的風
56、險及經濟效益進行科學的分析與評價。如何進行科學決策?131 以上案例屬于“有追加信息的風險型決策”問題,案例的分析需要用到一些概率知識,包括條件概率、全概率公式、貝葉斯公式和數學期望等,以及項目凈現值等知識。在本章的最后一節,我們將運用所學的概率知識對該例進行分析,并且還將討論信息的價值問題。132 一隨機試驗 人們在研究經濟管理以及其他社會問題中,通常總是通過調查或對社會現象的觀察來獲取所研究問題的有關數據;在自然科學領域中,人們也是通過科學實驗或對自然現象的觀察來獲取所需要的資料。 對社會現象的觀察和對自然現象的科學實驗在概率論和統計學中都統稱為試驗。如果試驗可在相同的條件下重復進行,而且
57、試驗的結果不止一個,每次試驗前不能確定將會出現哪一結果,這樣的試驗就稱為隨機試驗,簡稱試驗。 例如,在一批產品中任意抽取一件進行檢驗;企業市場調查人員就本企業的產品和服務進行的用戶滿意度調查;對某產品進行的壽命試驗等等都是隨機試驗。4.1 隨機試驗與隨機事件1331基本事件試驗中每一可能出現的結果,稱為該試驗的一個基本事件或樣本點。2復合事件由多個基本事件構成的集合。 基本事件和復合事件統稱為隨機事件,常用字母A,B,C, 表示。3樣本空間由試驗E所有基本事件組成的集合,稱為E的樣本空間,常用字母S表示。4必然事件每次試驗中必然發生的事件;樣本空間S是必然事件。5不可能事件試驗中不可能發生的事
58、件;不含任何基本事件的空集是不可能事件;記為。二. 隨機事件134【例1】擲一枚骰子,觀察出現的點數. 記A1為出現偶數點;A2為小于4的點,A3為不超過6的點,A4為大于6的點。 則:S =1,2,3,4,5,6; A1=2,4,6; A2=1,2,3; A3=S; A4=【例2】在一批產品中連續抽取二次,每次任取一件進行檢驗,分別記T、F為抽到正品和次品,并記A1為第一次抽到的是正品,A2為抽到一個正品,A3為兩次抽到的質量相同,則: S = (T,T),(T,F),(F,T),(F,F); A1=(T,T),(T,F); A2=(T,F),(F,T); A3=(T,T),(F,F)135
59、A BBASABABS1事件的包含若A發生必然導致B發生,則稱B包含A或A包含于B,記為BA或AB。 2事件的并 “A與B至少有一個發生”的事件,稱為A并B,記為AB三. 事件間的關系和運算136A與B互斥AB 3.事件的交“A與B同時發生”,稱為A交B,記為 AB或AB。ABAB4.互斥(互不相容)事件 若A與B不能同時發生,即AB=,則稱A與B互斥。 顯然,基本事件都是互斥的。137 5.事件的差“A發生而B不發生”的事件,稱為A與B的差,記為A-B。 A-BBA互逆事件A6.互逆(對立)事件 若試驗中,A與B必有且僅有一個發生,即同時滿足AB=S和AB=,則稱A與B互逆(對立), 并稱A
60、是B的逆事件,反之亦然,記為1387事件運算的性質(1)交換律:AB=BA; AB=BA(2)結合律:(AB)C=A(BC) (AB)C=A(BC)(3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC)(4)對偶律:ABC(AB)CABC(AB)C139【例3】如何表示復雜事件 在一批產品中連續抽檢3個產品,記Ai=第i個是次品,i=1,2,3, 用Ai間的關系表示以下事件: (1) 至少有一個次品:A1A2A3A1A2A3(4) 至少有一個正品:(3) 3個都是正品:(2) 3個都是次品: 其中(1)與(3)是互逆事件,(2)與(4)也是互逆事件。140課堂練習1 在一批
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年供電協議書
- 垃圾無償分類清運協議書
- 安全合同保健教師協議書
- 初創公司股權劃分協議書
- 學生教育機構安全協議書
- 夫妻離異土地分配協議書
- 提高農產品競爭力協議書
- 健身房會員卡活動協議書
- 妻子拿出美金補償協議書
- 買賣合同分期還款協議書
- 《應用文寫作》中職全套教學課件
- 新能源并網系統寬頻振蕩分析與抑制閱讀記錄
- 12J3-3蒸壓加氣混凝土砌塊墻
- 醫療器械經營質量管理體系文件模板
- 2024年天津高考英語第二次高考真題(原卷版)
- 浙江省2024年中考英語模擬試卷(含答案)
- 國開2024春《人文英語4》第5-8單元作文練習參考答案
- 2024建筑工程施工承包人工費合同書
- 社工招聘筆試考試試題及答案
- 四川省成都市2024年七年級下學期期末數學試題附答案
- 思辨與創新智慧樹知到期末考試答案章節答案2024年復旦大學
評論
0/150
提交評論