




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
生物統計與實驗設計BiologicalStatisticsAndExperimentalDesigns
2課程內容:生物統計與實驗設計I所涵蓋內容(學科基礎,預備課程)統計學基礎(統計的眼光看問題)統計學基本概念統計推斷——參數估計、假設檢驗統計分析方法及應用(統計的方法解決問題)方差分析、回歸分析、試驗設計等等統計與試驗設計II所涵蓋內容(方法合成,軟件應用)
協方差分析
統計軟件分析及應用(SPSS)課程簡介3學科基礎課36/2學分第一章統計學基本知識第二章置信區間估計第三章假設檢驗第四章方差分析第五章回歸分析第六章基本試驗設計及其統計分析考核方式:課堂開卷(需使用計算器)5從什么是統計談起6日常生活中我們常聽到很多關于“統計”的詞匯
例如:國家統計局公布,2004年全國GDP增長9%;國家氣象局預報,明天北京天氣陰,降水概率40%;2003年,北京市人平壽命77.93歲,嬰兒死亡率為5.56‰,兒童計劃免疫接種率98%.這些主要健康指標已接近或超過中等發達國家的水平.
北京日報.京報網,2003年11月207統計是人類思維的一個歸納過程
站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統計思維過程感受統計(之一)統計在戰爭中的例子:二戰時期,德國的潛艇非常猖狂,而盟國的雷達還不夠先進,給英國的運輸船隊造成巨大的損失,英國人通過多次統計觀察,發現有德國潛艇的上方,會聚集大量的海鳥。朝鮮戰場上,美國人對志愿軍感覺很奇怪,他們的一個軍事專家,通過統計發現,志愿軍的進攻大約是七天一個周期,打七天,志愿軍肯定會跑,或者叫轉移。8感受統計(之三)媒體的數字化傾向
——《統計視線里的社會和經濟》
文革時期媒體種類數量少得可憐不說,且在有限的報導中空話、大話和假話連篇,較典型和常見的情況就是不敢用數字來實打實地說話。隨著改革開放特別是市場經濟體制的確立,使得媒體開始“青睞”起數字來。但凡打開任何一張報紙的任何一個版面的任何一條消息,無不或多或少的“充斥”著統計數字。媒體的這種數字化傾向表現出在社會、經濟和生活中用數字解說相應問題的現實狀況。10后40回出自誰的手筆
之后,又進一步分析前80回是否為曹雪芹所寫?這時又找了一本曹雪芹的其它著作,做了類似計算,結果證實了用詞手法完全相同,斷定為曹雪芹一人手筆。而后40回是否為高鶚寫的呢?論證結果推翻了后40回是高鶚一個人所寫。這個論證在紅學界轟動很大,他們用多元統計分析方法支持了紅學界觀點,使紅學界大為贊嘆。1214Casestudy該案例的所有內容均來自網絡,課程不做任何評論,僅作為思考素材/view/73813.htm15/view/283249.htm16/question/43415709.html/view/939539.htm?fr=ala0_1_1一、統計學的產生和發展281、什么是統計?統計的原義——合計、匯總計算。統計——對大量現象數量方面進行的調查研究活動。即指人們為了說明所研究現象的某種數量特征和規律性而對有關數據進行搜集、整理和分析研究。302、統計的三種涵義統計工作——統計實踐活動,是人們為了說明所研究對象的某種數量特征和數量規律性,而對該現象的數據進行收集、整理與分析的活動。統計資料——即統計數據,是通過統計工作所獲得的能夠說明現象總體某種特征的數據,是統計實踐活動的成果。統計學——即統計科學,是一門研究收集數據、表現數據、分析數據、解釋數據,從而認識數量規律的方法論科學。31統計學是:“關于收集和分析數據的科學與藝術(art)”。3、另一種定義——來自《不列顛百科全書》的定義藝術性體現在:1)、數據有隨機性(帶偶然誤差)。2)、應用時有人的判斷和主動性(“藝術”),不是死套公式。4、統計實踐活動的產生和發展有文字記載的統計實踐活動,如埃及建造金字塔時期,中國大禹治水時期。資本主義生產方式出現以前,統計主要限于人口/土地/財產等;隨著資本主義生產方式的推進,統計飛速發展——統計內容擴展,專門統計機構成立;20世紀50年代以后,統計又得到了迅速發展。325、統計學的產生國勢學派(記述學派)——(德)海門爾.康令;阿亨瓦爾1749年提出“統計學”。有統計學之名,無統計學之實。
政治算術學派——威廉.配第,約翰.格朗特用數字描述經濟現象和人口狀況;雖無統計學之名,但有統計學之實。數理統計學派——凱特勒(比利時)。引入概率論,開創近代統計學。使統計學產生了質的飛躍——統計方法成為通用方法;重心從描述統計轉移到推斷統計…社會統計學派——恩斯特.恩格爾;梅爾。從實質論逐漸轉向(社會現象數量研究的)方法論,與數理統計學派從對立逐漸轉向融合。336、統計學的發展進程341.統計學的初創階段(17世紀中葉~19世紀末)。描述統計和概率論的基本內容和框架逐漸形成。2.以推斷統計為中心的現代統計學的形成階段,(20世紀上半葉)。概率論體系日臻完善,推斷統計迅速發展,逐漸構筑起了以推斷統計為中心的現代統計學的基本框架。3.統計理論方法與應用全面發展的新階段(20世紀50年代起)。統計學研究的新領域層出不窮,開拓了許多新分支和新方法;統計的應用領域也不斷擴展;計算機為統計理論和方法的不斷完善和深化提供了不可缺少的工具。35統計學可以應用于幾乎所有的領域:精算,農業,動物學,人類學,考古學,審計學,晶體學,人口統計學,牙醫學,生態學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業,法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等。36一句話,要記住:統計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。37根據研究領域和研究對象,統計學又分為:數理統計、經濟統計、生物統計、醫學統計、衛生統計……在上述學科已經有其特有的方法和特點;如生物統計(biostatistics)、經濟計量學(econometrics)以及目前很熱門的生物信息(bioinformation)和數據挖掘(DataMining)的方法主體都是統計。381.采用統計學方法,發現不確定現象背后隱藏的規律。變異(variation)是社會和生物醫學中的普遍現象。變異使得實驗或觀察的結果具有不確定性,如每個人的身高、體重、血壓等各有不同。
為什么要學統計學?39最大值=6.18,最小值=3.29,極差=2.89
算術均數=4.72,標準差=0.57。二、統計學的研究對象與研究方法1、統計學的研究對象群體現象的數量方面,即現象總體的數量特征和數量關系。數量性——統計研究現象的數量特征(從數量上來認識事物的性質和規律性).在質與量的辨證統一中研究;不同于純數量的研究。
總體性——研究大量個別事物構成的現象整體的數據?,F象的數量規律性只有在總體層面上才能體現出來;研究目的在于說明總體特征,但常常從觀察個體數量特征入手,分析時也要注意一般與個別的結合.402、統計學的研究方法1)大量觀察法
指對總體中的全部或足夠多數的單位進行調查觀察和綜合研究。其數理依據是大數定律——從數量關系上揭示了現象的偶然性與必然性的關系。實質上是統計研究的重要思想方法和原則,而不是一種具體的應用方法。2)分組法根據研究目的和現象的性質特點,按照一定的標志將總體分為若干部分的一種研究方法。其應用貫穿于整個統計工作的全過程。413)綜合指標法指運用各種綜合指標來反映和研究現象總體的數量特征和數量關系。數字(即指標數字)是統計的語言。綜合指標法既是描述統計的中心,也是推斷統計的基礎。4)統計模型法根據一定的理論和假定條件,用數學模型去模擬現象之間相互關系、現象變化趨勢等的一種研究方法。統計模型包括三個要素——變量、數學關系式和模型參數。統計模型的參數由實際觀察的數據來估計。425)歸納推斷法
從個別到一般、從具體事實到抽象概括的推理方法,稱為歸納法。以一定的可信程度,根據樣本數據來判斷總體數量特征的歸納推理方法稱為統計推斷法。43三、統計學的分類1、描述統計與推斷統計描述統計——研究如何對客觀現象的數量特征進行計量、觀察、概括和表述。用表和圖表示,計算特征量(如平均值)等,所論不超出已有數據。推斷統計(統計推斷)——據數據所提供信息對數據所來自的總體(母體)的性質作推斷,推斷會有錯誤、誤差,用概率論的術語和方法來描述和論證。誤差的產生源于數據有誤差。怎樣盡可能減少推斷的錯誤和誤差,是統計推斷的中心問題。442、描述統計目的描述數據特征找出數據的基本規律內容確定要研究的數量特征設計統計指標(說明這些數量特征的)搜集數據整理數據計算并顯示指標數據45x
=30s2=10502550Q1Q2Q3Q43、推斷統計目的——對總體特征作出推斷。內容參數估計假設檢驗相關回歸分析46樣本總體4、描述統計與推斷統計的關系47反映客觀現象的數據總體內在的數量規律性推斷統計(利用樣本信息對總體的數量特征進行估計和檢驗等)概率論(包括分布理論,大數定律和中心極限定理等)描述統計(統計數據的搜集、整理、顯示和分析等)總體數據樣本數據統計學探索現象數量規律性的過程5、理論統計學與應用統計學1)理論統計學是關于數據的搜集、整理和分析的最基本原理、原則和方法。適用于各種現象數量特征的分析研究。它是應用統計學共同的理論基礎。所謂統計學是一門通用方法論科學,就是指理論統計學而言。2)應用統計學運用于某一特定領域的統計理論和方法。例如:生物統計學、醫藥統計學、氣象統計學、科技統計學、經濟統計學(宏觀經濟統計學、企業經濟統計學、金融統計學、保險統計學、價格統計學、對外貿易統計學…)48統計學的應用領域49統計學經濟學管理學醫學工程學社會學…1、統計學與數學
聯系:一方面,統計學要用到數學知識,統計的數量分析要符合數學原理;另一方面,統計方法和數學方法一樣,并不能獨立地直接研究和探索現象的規律,而是為各學科提供研究和探索客觀規律的數量分析方法。
50四、統計學與其他學科的關系區別主要在于:(1)數學研究的是抽象的數量規律性,而統計學研究的是具體的、實實在在的數量規律性。數學研究的是沒有量綱或單位的數,而統計學研究的是有具體實物內容或計量單位的數據。(2)數學研究使用的是純粹的演繹,而統計學是演繹與歸納相結合,且占主導地位的是歸納。512、統計學與哲學
哲學是關于自然、社會和思維發展的普遍規律的科學,包括辨證唯物主義和歷史唯物主義,它不僅是正確的世界觀,也是科學的方法論。統計學作為一門探索客觀事物數量規律性的方法論科學,必然要以哲學作為它的方法論基礎。
523、統計學與其他學科的關系統計方法可以幫助其他學科探索內在的數量規律性,而這種數量規律性的解釋(和由數量規律性進而研究各學科內在的規律)只能由各學科的研究完成。53生物統計學的概念及主要內容一、概念
生物統計學(Biostatistics)是數理統計在生物學研究中的應用,它是應用數理統計的原理,運用統計方法來認識、分析、推斷和解釋生命過程中的各種現象和試驗調查資料的科學。屬于生物數學的范疇。54二、主要內容生的物基統本計內學容試驗設計統計分析基本原則方案制定常用試驗設計方法資料的搜集和整理數據特征數的計算統計推斷方差分析回歸和相關分析協方差分析主成分分析聚類分析對比設計隨機區組設計裂區設計拉丁方設計正交設計55三、生物統計學的基本作用提供整理和描述數據資料的科學方法,確定某些性狀和特征的數量特征。運用顯著檢驗,判斷試驗結果的可靠性或可行性。提供由樣本推斷總體的方法。提供試驗設計的一些重要原則。56四、常用統計學術語(一)總體與樣本具有相同性質或屬性的個體所組成的集合稱為總體
(population),它是指研究對象的全體;組成總體的基本單元稱為個體(individual);從總體中抽出若干個體所構成的集合稱為樣本(sample);總體又分為有限總體和無限總體:含有有限個個體的總體稱為有限總體(finitudepopuoation);包含有極多或無限多個體的總體稱為無限總體(infinitudepopuoation).57構成樣本的每個個體稱為樣本單位;樣本中所包含的個體數目叫樣本容量或樣本大小(samplesize),樣本容量常記為n。 一般在生物學研究中,通常把n≤30的樣本叫小樣本,n>30的樣本叫大樣本。對于小樣本和大樣本,在一些統計數的計算和分析檢驗上是不一樣的。研究的目的是要了解總體,然而能觀測到的卻是樣本,通過樣本來推斷總體是統計分析的基本特點。58(二)變量與常量
變量,或變數,指相同性質的事物間表現差異性或差異特征的數據。常數,表示能代表事物特征和性質的數值,通常由變量計算而來,在一定過程中是不變的。59變量定性變量定量變量連續變量非連續變量只有整數出現可以有任何小數出現60為了表示總體和樣本的數量特征,需要計算出幾個特征數,包括平均數和變異數(極差、方差、標準差等)。描述總體特征的數量稱為參數(parameter),也稱參量。常用希臘字母表示參數,例如用μ表示總體平均數,用σ表示總體標準差;描述樣本特征的數量稱為統計數(staistic),也稱統計量。常用拉丁字母表示統計數,例如用表示樣本平均數,用S表示樣本標準差。(三)參數與統計數總體樣本抽取部分觀察單位
統計量
參數
推斷inference61
基本統計參數1、平均數算術平均數幾何平均數622、變異數極差極差又稱全距,它是樣本變量中最大值和最小值之差,一般用R表示。方差(Variance)
樣本方差總體方差63標準差(standarddeviation)
樣本標準差總體標準差變異系數Variationcoefficient
變異系數是樣本變量的相對變異量,是不帶單位的純數。用變異系數可以比較不同樣本相對變異程度的大小。64(四)效應與互作通過施加試驗處理,引起試驗差異的作用稱為效應。效應是一個相對量,而非絕對量,表現為施加處理前后的差異。效應有正效應與負效應之分。
互作,又叫連應,是指兩個或兩個以上處理因素間相互作用產生的效應?;プ饕灿姓▍f同作用)與負效應(拮抗作用)之分。65(五)隨機誤差與錯誤變異效應誤差隨機誤差/機誤(Randomerror)系統誤差/錯誤(Systematicerror)66
隨機誤差,也叫抽樣誤差(samplingerror)。這是由于試驗中無法控制的內在和外在的偶然因素所造成。如試驗動物的初始條件、飼養條件、管理措施等盡管在試驗中力求一致,但也不可能達到絕對一致,所以隨機誤差帶有偶然性質,在試驗中,即使十分小心也是不可避免的。如果通過良好的試驗設計、正確的試驗操作,增加抽樣或試驗次數,隨機誤差可能減小,但不可能完全消滅。統計上的試驗誤差一般都指隨機誤差。隨機誤差越小,試驗精確性越高。67
系統誤差,也叫片面誤差
(lopsidederror)。這是由于試驗條件控制不一致、測量儀器不準、試劑配制不當、試驗人員粗心大意使稱量、觀測、記載、抄錄、計算中出現錯誤等人為因素而引起的。系統誤差影響試驗的準確性。只要以認真負責的態度和細心的工作作風是完全可以避免的。(六)準確度與可靠度準確度(accuracy)或真實性(validity):觀察值與真值的接近程度,受系統誤差的影響(常用指標:如靈敏度、特異度)??煽慷龋╮eliabiliy)——也稱精密度(precision)或重復性(repeatability):重復觀察時觀察值與其均值的接近程度,受隨機誤差的影響(常用指標:一致百分率、Kappa值)。686970
樣本的實際發生率稱為頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現f次,則事件A出現的頻率為f/n。
概率:隨機事件發生的可能性大小,用大寫的P表示;取值[0,1]。(七)頻率與概率
frequencyandprobability71必然事件P=1隨機事件0<P<1不可能事件P=0
P≤0.05(5%)或P≤0.01(1%)稱為小概率事件(習慣),統計學上認為不大可能發生。小概率事件CertainImpossible0.50172數據的組織與表達A數據與數據類型一、原始數據的組織二、變量的類型三、定量變量的離散化與有序分類變量的數量化B頻數分布表一、定量數據的頻數分布表二、定性數據的頻數分布表三、配對設計定性數據的頻數分布表C統計圖形表達73一、原始數據的組織每一行代表一個研究對象(單位)的觀測記錄每一列代表一個觀測指標(變量)
74SPSS軟件的數據界面SPSS-----StatisticalPackageforSocialScience(社會科學統計軟件包)現改為StatisticalProductandServiceSolutions(統計產品與服務解決方案)75SAS軟件的數據界面76SPSS軟件的數據界面二、變量的類型只有認識了變量的類型,才能正確地選用統計分析方法
按變量測量的精確程度由低到高,將數據分類為:名義變量(如性別、婚姻狀況)、有序變量(如療效,類別間差別大小難以度量)、區間變量(如攝氏體溫,類別間差別有實際意義)、比變量(如身高,除具有區間變量的特征外,還具有真實意義的零點。攝氏溫度的零點為水結冰時溫度,并非絕對意義的零點,所以它不屬于比變量)定量變量定性變量1、定性變量(QualitativeVariable)也稱為:計數數據(enumeration(counting)data)(1)名義變量(Nominalvariable)二項分類
性別分類,如男性為1,女性為0。多項無序分類
血型的A、B、AB、O型多項無序分類(2)有序(等級)變量(Ordinalorrankingvariable)多項有序分類療效觀測分為顯效、有效、好轉及無效4個類別。782、定量變量(QuantitativeVariable)(1)區間變量(intervalvariable)
或數值變量(numericalvariable)如:身高,血壓,血清膽固醇濃度,體溫,脈搏計數、紅細胞計數、玫瑰花環計數、住院天數等。(一般有度量衡單位,類別間的差別大小有實際意義)(2)比變量(ratiovariable)
以上例子中除體溫外(具有真實意義的零點)79
連續型變量(Continuousvariable)
與離散型變量(Discretevariables)
根據觀察數據之間有無縫隙(gap),常將數據分類為離散型變量(有縫隙)與連續型變量(無縫隙)兩大類,名義變量一定是離散型變量;連續型變量只能是比、區間和有序變量,但比、區間和有序變量也可以是離散型變量(見圖)
80三、定量變量的離散化
與有序分類變量的數量化811、實際年齡---------少年、青年、中年、老年2、有序療效等級:顯效、有效、好轉、無效
4321丟失信息賦值的合理性?定量變量--定性變量例:一組2040歲成年人的血壓以12kPa為界分為正常與異常兩組,統計每組例數
<8低血壓
8
正常血壓
12
輕度高血壓
15
中度高血壓
17
重度高血壓定量變量有序分類定性變量丟失信息住院號年齡身高體重住院天數職業文化程度分娩方式妊娠結局20256552716571.55無中學順產足月20256532216074.05無小學助產足月20258302515868.06管理員大學順產足月20225432316169.05無中學剖宮產足月20224662515962.011商業中學剖宮產足月20245352715768.02無小學順產早產20258342015866.04無中學助產早產20194642415870.53無中學助產足月20257832915457.07干部中學剖宮產足月觀察單位observations個體individuals變量variablesQuantitativedata定量數據Qualitativedata定性數據Units;elements頻數分布表一、定量數據的頻數分布二、(非配對設計)定性數據的頻數分布三、配對設計定性數據的頻數分布84
頻數(frequency)——將定量數據分類成若干個組段,或將定性數據分類成若干個類別,所清點得到的每一組段或類別的數據出現個數。一、定量數據的頻數分布
853.203.625.084.864.053.914.264.454.933.613.924.434.884.264.103.553.685.774.334.974.644.344.584.834.833.453.814.762.954.975.134.634.876.023.543.773.555.764.653.946.025.415.233.665.295.325.222.934.303.783.075.573.764.023.963.954.813.453.712.943.694.695.525.584.624.644.494.553.853.344.675.134.274.544.313.925.304.775.303.584.743.554.103.924.745.813.504.853.144.473.254.973.143.983.685.924.493.824.202.843.325.474.503.695.333.323.104.033.434.405.633.746.293.594.733.643.294.084.235.074.195.914.175.224.964.515.243.525.594.124.064.452.724.364.185.324.034.634.644.124.504.544.373.854.576.264.575.324.053.93150名成年男子血清總膽固醇水平(mmol/L)測定頻數表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全距。R=6.29-2.72=3.57mmol/L(2)決定分組組數、組距根據研究目的和樣本含量n確定分組組數,通常分為10~15個組。組距=極差/組數,為方便計,組距=極差/10,再略加調整。3.57/10=0.357≈0.4(3)列出組段第一組段的下限略小于最小值,最后一個組段上限必須包含最大值。2.7~3.1~……5.5~5.9~6.3(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。8687(5)
計算頻率:Pi=fi/n,如P1=f1/n=6/150=0.04(6)計算累計頻數(fc)(7)計算累計頻率:Pc=fc/n88
二、(非配對設計)定性數據的頻數分布一維頻數表二維頻數表高維頻數表200名學生的血型血型OABAB合計觀測數6572382520089普通二維表的常見類型9091由原始數據整理成一維頻數表婚姻狀況頻數單身
3已婚
5離異
2分居
4合計1414名成人的婚姻狀況編號性別身高婚姻狀況1男175單身2女167單身3男187單身4女176已婚5男167已婚6女178已婚7男174已婚8女170已婚9男167離異10女186離異11男182分居12女159分居13男167分居14女182分居14名成人的原始數據婚姻狀況性別頻數單身男2已婚男2離異男1分居男2單身女1已婚女3離異女1分居女292由原始數據整理成二維頻數表婚姻狀況性別男女單身21已婚23離異11分居22不同性別的婚姻狀況編號性別身高婚姻狀況1男175單身2女167單身3男187單身4女176已婚5男167已婚6女178已婚7男174已婚8女170已婚9男167離異10女186離異11男182分居12女159分居13男167分居14女182分居14名成人的原始數據三、配對設計定性數據的頻數分布1甲培養基乙培養基頻數11381050190024樣本編號甲培養基乙培養基1陽性陽性………38陽性陽性39陽性陰性………43陽性陰性44陰性陽性………52陰性陽性53陰性陰性………76陰性陰性93甲培養基乙培養基合計陽性1陰性0陽性138543陰性092433合計472976表2.7同一樣品經兩種培養基培養結果自身配對三、配對設計定性數據的頻數分布2對比法核素法頻數11581221332112242237318329331794統計圖形表達95變量類型一維情況二維情況定量數據定性數據定量數據1.莖葉圖2.盒式圖3.直方圖4.加分布曲線的直方圖1.散點圖2.加置信橢圓的散點圖1.分組盒式圖2.分組散點圖定性數據1.直條圖2.餅圖1.分組盒式圖2.分組散點圖1.城區圖2.馬賽克圖
1、直方圖(Histogram):用于描述定量變量的數據分布特征。962(1)、概率-概率散點圖(p-pplot)又稱為p-p圖或百分點圖,橫軸為觀察累積概率,縱軸為理論(如正態)累積概率,確定樣本數據對于理論分布的一致性97圖表2-3數據的p-p圖2(2)、分位數-分位數散點圖(q-qplot)又稱為q-q圖,橫軸為觀察值,縱軸為理論(如正態)分位數,確定樣本數據對于理論分布的一致性98圖表2-3數據的q-q圖繪P-P或Q-Q圖的數據992、莖葉(Stem-Leaf)圖100
StemLeaf#626926022258112356367354172789652223490022231150783344813356783677712462334445793446714440355799001445778164203667013467114023355680022789143812551222345681336124688991467813343550245558911320592246307044428434542621----+----+----+----+MultiplyStem.Leafby10**-13、盒式圖(Boxplot)1014、直條圖(Barchart):用直條反映定性變量不同類別下的某指標大小。
102四種營養素喂養小白鼠三周后所增體重(克)繪制直條圖注意事項
103
⑴縱軸的刻度必須從“0”開始,否則會改變各對比組間的比例關系。
(2)橫軸各直條一般按統計指標由大到小排列,也可按事物本身的自然順序排列。
(3)各直條的寬度要一致,各直條應有相等的間隔,其寬度一般與直條的寬度相等或為直條寬度的一半。
5、餅圖(pieChart):反映定性變量各個分類的構成情況。
200名學生的血型血型OABAB合計觀測數657238252001046.散點圖1057.線圖106(8)統計地圖(statisticalmap)107統計地圖(statisticalmap):用于表示某現象的數量在地域上的分布。108第二部分
概率論、基本分布第一節概率的有關概念第二節隨機變量及其概率分布概述第三節常用的概率分布
二項分布、泊松分布、正態分布
第四節常用的抽樣分布
卡方分布、t分布、F分布109第一節概率的有關概念
樣本的實際發生率稱為頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現f次,則事件A出現的頻率為f/n。
概率:隨機事件發生的可能性大小,用大寫的P表示;取值[0,1]。
一、頻率與概率
frequencyandprobability必然事件P=1隨機事件0<P<1不可能事件P=0
P≤0.05(5%)或P≤0.01(1%)稱為小概率事件(習慣),統計學上認為不大可能發生。二、隨機事件
RandomeventsCertainImpossible0.501樣本空間(samplingspace):隨機試驗的所有可能的結果稱為樣本空間。頻率與概率間的關系:
1.樣本頻率總是圍繞概率上下波動
2.樣本含量n越大,波動幅度越小,頻率越接近概率。隨著投擲次數n的增大,出現正面和反面的頻率穩定在1/2左右112試驗的次數正面/試驗次數1.000.000.250.500.750255075100125表
玉米種子發芽試驗結果種子總數(n)1020501002005001000發芽種子數(m)9194791186458920種子發芽率(m/n)0.9000.9500.9400.9100.9300.9180.920種子發芽與否是不能事先確定的,但從表中可以看出,試驗隨著n值的不同,種子發芽率也不相同,當n充分大時,發芽率在0.92附近擺動。例:頻率表明了事件頻繁出現的程度,因而其穩定性說明了隨機事件發生的可能性大小,是其本身固有的客觀屬性,提示了隱藏在隨機現象中的規律性。概率一、隨機變量115每次拋兩個硬幣,記錄正、反面結果;結果可記錄為:硬幣1正面朝上,硬幣2正面朝上;2個正面硬幣1正面朝上,硬幣2反面朝上;1個正面硬幣1反面朝上,硬幣2正面朝上;1個正面硬幣1反面朝上,硬幣2反面朝上0個正面正面數就是一個隨機變量,記為x,我們通常對x的每個取值的概率感興趣。對于本例,x的取值為0、1、2。第二節隨機變量及其概率分布概述二、離散型隨機變量與連續型隨機變量116
離散型隨機變量(discreterandomvariable):數據間有縫隙,其取值可以列舉。
例如拋硬幣10次,正面的可能取值x為0、1、2、3、4、5、6、7、8、9、10
連續型隨機變量(continousrandomvariable)數據間無縫隙,其取值充滿整個區間,無法一一列舉每一可能值例如身高、體重、血清膽固醇含量三、概率分布(probabilitydistribution)離散型隨機變量概率分布連續型隨機變量概率分布117概率分布:描述隨機變量值xi及這些值對應概率P(X=xi)的表格、公式或圖形。
1.離散型隨機變量的概率分布118離散型隨機變量的概率分布舉例1192.連續型隨機變量的概率分布120
變量的取值充滿整個數值區間,無法一一列出其每一個可能值。一般將連續型隨機變量整理成頻數表,對頻數作直方圖,直方圖的每個矩形頂端連接的階梯形曲線來描述連續型變量的頻數分布。
121
如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線可變成光滑的分布曲線。大多數情況下,可采用一個函數擬合這一光滑曲線。這種函數稱為概率密度函數(probabilitydensityfunction)122如果連續型隨機變量X的密度函數記為:則在區間[x1,x2]范圍內的概率可由微積分函數定義123第三節常用的概率分布
離散型隨機變量分布
一、二項分布
二、泊松分布
連續型隨機變量分布
三、正態分布124一、二項分布毒性試驗:白鼠死亡——生存臨床試驗:病人治愈——未愈臨床化驗:血清陽性——陰性事件成功(A)——失?。ǚ茿)這類“成功─失敗型”試驗稱為Bernoulli試驗。125Bernoulli試驗序列n次Bernoulli試驗構成了Bernoulli試驗序列。其特點(如拋硬幣)如下:(1)每次試驗結果,只能是兩個互斥的結果之一(A或非A)。(2)每次試驗的條件不變。即每次試驗中,結果A發生的概率不變,均為π
。(3)各次試驗獨立。即一次試驗出現什么樣的結果與前面已出現的結果無關。126成功次數的概率分布─二項分布例設某毒理試驗采用白鼠共3只,它們有相同的死亡概率π,相應不死亡概率為1-π
。記試驗后白鼠死亡的例數為X,分別求X=0、1、2和3的概率127128129二項分布的概率計算130二項分布的性質131132133134135(二)樣本率與總體率的比較136二項分布的應用137二項分布
(用Excel計算概率)第1步:進入Excel表格界面,將鼠標停留在某一空白單元格第2步:在Excel表格界面中,直接點擊“f(x)”(粘貼函數)命令第3步:在復選框“函數分類”中點擊“統計”選項,在“函數名”中點擊“BINOMDIST”選項,然后確定第4步:在Number_s后填入試驗成功次數(本例為1)
在Trials后填入總試驗次數(本例為5)
在Probability_s后填入試驗的成功概率(本例為0.04)
在Cumulative后填入0(或FALSE),表示計算成功次數恰好等于指定數值的概率(填入1或TRUE表示計算成功次數小于或等于指定數值的累積概率值)138二、泊松分布當二項分布中n很大,π很小時,二項分布就變成為Poisson分布,所以Poisson分布實際上是二項分布的極限分布。由二項分布的概率函數可得到泊松分布的概率函數為:139140在m處的概率最大141在m處的概率最大Poisson分布主要用于描述在單位時間(空間)中稀有事件的發生數
例如:1.放射性物質在單位時間內的放射次數;2.在單位容積充分搖勻的水中的細菌數;3.野外單位空間中的某種昆蟲數等。142泊松分布的其它例子一定時間段內,某航空公司接到的訂票電話數一定時間內,到車站等候公共汽車的人數一定路段內,路面出現大損壞的次數一定時間段內,放射性物質放射的粒子數一匹布上發現的疵點個數一定頁數的書刊上出現的錯別字個數
143Poisson分布概率的計算144Poisson分布的性質(1)一、Poisson分布的均數與方差相等即σ2=m
二、Poisson分布的可加性
145第五節Poisson分布的性質(2)三、Poisson分布的正態近似
m相當大(≥20)時,近似服從正態分布:N(m,m)
四、二項分布的Poisson分布近似
146泊松分布
(用Excel計算概率)第1步:進入Excel表格界面,將鼠標停留在某一空白單元格第2步:在Excel表格界面中,直接點擊“f(x)”(粘貼函數)命令第3步:在復選框“函數分類”中點擊“統計”選項,并在“函數名”中點擊“POISSON
”選項,然后確定第4步:在X后填入事件出現的次數(本例為6)
在Means后填入泊松分布的均值(本例為7)
在Cumulative后填入0(或FALSE),表示計算成功次數恰好等于指定數值的概率(填入1或TRUE表示計算成功次數小于或等于指定數值的累積概率值)147三、正態分布
(NormalDistribution)1.概率密度函數1482.概率分布函數149正態分布特征(1)正態分布在橫軸上方均數μ處最高。(2)
正態分布以均數μ為中心,左右對稱。(3)正態分布由參數μ和σ確定。μ是位置參數,當σ不變時,μ越大,則曲線沿橫軸越向右移動;反之,μ越小,曲線沿橫軸越向左移動。σ是變異度參數,當μ不變時,σ越大,表示數據越分散,曲線越平坦;σ越小,表示數據越集中,曲線越陡峭。(4)正態分布曲線與X軸所圍成的面積為1。(5)在μ±σ的區間內占總面積的68.27%,在μ±1.96σ的區間內占總面積的95%;在μ±2.58σ的區間內占總面積的99%。150151
和對正態曲線的影響152xf(x)CAB=1/212=1正態分布
(用Excel計算概率)第1步:進入Excel表格界面,將鼠標停留在某一空白單元格第2步:在Excel表格界面中,直接點擊“f(x)”(粘貼函數)命令第3步:在復選框“函數分類”中點擊“統計”選項,并在“函數名”中點擊“NORMDIST
”選項,然后確定第4步:在X后填入正態分布函數計算的區間點(本例為70)
在Mean后填入正態分布的均值
(本例為50)
在PStandard_dev后填入標準差
(本例為10)
在Cumulative后填入1(或TRUE)表示計算事件出現次數小于或等于指定數值的累積概率值153標準正態分布標準正態離差標準正態分布:N(0,1)154此概率密度函數實質上就是正態分布的概率密度函數中μ=0,σ=1的情形。從幾何意義上說,此變換實質上是作了一個坐標軸的平移和尺度變換,使正態分布具有平均數為μ=0,標準差σ=1。這種變換稱為標準化正態變換。因此將這種具有平均數為μ=0,標準差σ=1的正態分布稱為標準正態分布,記為N(0,1)。155156普通正態分布與標準正態分布XZΦ(Z)φ(Z)標準正態分布的累積概率函數正態分布概率密度曲線在-1~+1的區間內占總面積的68.27%,在-1.96~+1.96的區間內占總面積的95%;在-2.58~+2.58的區間內占總面積的99%。157曲線下面積分布規律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%偏度系數和峰度系數正態分布的特征,歸納起來有兩點:一是對稱性(symmetry)
若分布不對稱就是偏態,長尾拖向右側(變量值較大的一側)叫做正偏態,或右偏態;長尾拖向左側(變量值較小的一側)叫做負偏態,或左偏態。
二是正態峰(mesokurtosis)
峰態系數是描述隨機變量陡峭度的參數,分為:正態峰、平闊峰、尖峭峰。159
a.尖峭峰
b.正態峰
c.平闊峰
正態分布:中間高、兩邊低、左右對稱正偏態分布:長尾向右延伸負偏態分布:長尾向左延伸常用的抽樣分布如果總體服從正態分布N(m,s2),則從該正態總體中抽取樣本,得到的樣本均數也服從正態分布,但該分布為N(m,s2/n
),此時的方差是總體的1/n倍,即有162中心極限定理如果總體不是正態總體,但其均數和標準差分別為μ和σ,則當樣本含量n不斷增大時,樣本均數的分布也趨近于正態分布,且其均數為μ,標準差為不論總體的分布形式如何,只要樣本含量n足夠大時,樣本均數的分布就近似正態分布,此稱為中心極限定理。
163常用的三種抽樣分布一、分布二、t分布三、F
分布164均為連續型隨機變量分布,分布只與自由度,即樣本含量有關(一)、2分布
(也稱樣本方差的分布)165對于來自正態總體的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)
2分布,即2分布(2distribution)由阿貝(Abbe)
于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)分別于1875年和1900年推導出來設,則令,則Y服從自由度為1的2分布,即
當總體,從中抽取容量為n的樣本,則1662分布的性質和特點分布的變量值始終為正
分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱期望為:E(2)=n,方差為:D(2)=2n(n為自由度)可加性:若U和V為兩個獨立的2分布隨機變量,U~2(n1),V~2(n2),則U+V這一隨機變量服從自由度為n1+n2的2分布167c2分布(圖示)168
選擇容量為n的簡單隨機樣本計算樣本方差S2計算卡方值2=(n-1)S2/σ2計算出所有的
2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20
ms總體1691701713.847.8112.59P=0.05的臨界值χ2分布(chi-squaredistribution)5.99172χ2分布
173χ2
f(χ2)
χ2分布曲線下的面積與概率174(二)
t分布(也稱Student分布)175
分布是類似正態分布的一種對稱分布,它通常要比正態分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數。隨著自由度的增大,分布也逐漸趨于正態分布Xt
分布與標準正態分布的比較t分布標準正態分布t不同自由度的t分布標準正態分布t(df=13)t(df=5)Zt分布定義:設隨機變量X與Y獨立,且X服從標準正態分布N(0,1),Y服從自由度為n
的分布,則稱統計量服從自由度為n的t分布,記為t~t(n)(2)t分布的概率密度為176177圖
不同自由度下的t分布圖t分布的特征
①以0為中心,左右對稱的單峰分布;
②t分布曲線是一簇曲線,其形態變化與自由度的大小有關。自由度越小,則t值越分散,曲線越低平;自由度逐漸增大時,t分布逐漸逼近Z分布(標準正態分布);當趨于∞時,t分布即為Z分布。178179t界值表(附表3)1.8122.228-2.228tf(t)ν=10的t分布圖t分布曲線下面積雙側t0.05/2,9=2.262
=單側t0.025,9單側t0.05,9=1.833雙側t0.01/2,9=3.250
=單側t0.005,9單側t0.01,9=2.821雙側t0.05/2,∞=1.96
=單側t0.025,∞單側t0.05,∞=1.64(三)
F分布(也稱兩個樣本方差比的抽樣分布)181
兩個總體都為正態分布,即X1~N(μ1,σ12)的一個樣本,Y1,Y2,…,Yn2是來自正態總體X2~N(μ2,σ22)從兩個總體中分別抽取容量為n1和n2的獨立樣本兩個樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1)F分布,即F分布(Fdistribution)由統計學家費舍(R.A.Fisher)提出的,以其姓氏的第一個字母來命名則設若U為服從自由度為n1的2分布,即U~2(n1),V為服從自由度為n2的2分布,即V~2(n2),且U和V相互獨立,則稱F為服從自由度n1和n2的F分布,記為182F分布曲線183四、樣本指標分布律的應用范圍
大樣本:通常將的樣本稱為大樣本小樣本:通常將的樣本稱為小樣本在大樣本下:當總體分布為正態分布,則樣本指標的分布也采用正態分布,即用Z分布來進行統計推斷。當總體分布為二項分布(n很大,P有很?。串敃r,則樣本指標的分布采用泊松分布來進行統計推斷。反之,當時,可用正態分布近似代替二項分布,則樣本指標的分布采用正態分布來進行統計推斷。184在小樣本下:當總體分布為正態分布,而總體方差已知,則樣本指標的分布應采用正態分布,即用Z分布來進行統計推斷。當總體分布為二項分布(n很小)時,則樣本指標的分布需要直接用二項分布來進行統計推斷。其他當總體分布為正態分布,而總體方差未知,則樣本指標相應地可采用t分布,分布和F分布來進行統計推斷。185五、幾種后繼章節常用的統計量Z統計量:設是一個隨機變量,則Z應服從N(0,1),記作186五、幾種后面常用的統計量t統計量:設是一個隨機變量,由于未知,而用估計,則t應服從k=n-1的t分布。187五、幾種后面常用的統計量統計量:設是一個隨機變量,則應服從k=n-1的分布。188常用統計軟件統計分析軟件是數據分析的主要工具完整的數據分析過程包括:數據的收集數據的整理數據的分析結果的解釋和推論統計學為數據分析過程提供一套完整的科學的方法論。統計軟件為數據分析提供了實現手段。189統計分析軟件的一般特點功能全面,系統地集成了多種成熟的統計分析方法;有完善的數據定義、操作和管理功能;方便地生成各種統計圖形和統計表格;使用方式簡單,有完備的聯機幫助功能;軟件開放性好,能方便地和其他軟件進行數據交換。190常用統計軟件簡介SAS--真正的巨無霸。被譽為國際上的標準統計軟件和最權威的組合式優秀統計軟件。人機對話界面太不友好圖形操作界面比較欠缺一切圍繞編程設計學習起來較困難(編程)說明書不容易讀懂價格昂貴191常用統計軟件簡介SPSS(Ver13)--統計軟件中的貴族操作界面極為友好所有統計軟件中最友好的精心設計的圖形操作界面美觀的結果輸出強大的輔助教學功能輸出結果與中文WORD尚存在一定兼容問題在國內深受歡迎,特別是市場調研行業在歐洲各研究機構中得到廣泛應用192常用統計軟件簡介S-Plus(Ver6)S語言(AT&T貝爾實驗室)的后續發展極為強大的統計功能和繪圖能力應用上以理論研究、統計建模為主需要有較好的數理統計背景對編程能力要求極高193常用統計軟件簡介Stata(Ver7)軟件小巧繪圖美觀統計分析能力極強數據接口差不提供對話框界面,命令行方式操作194國產統計軟件的佼佼者-DPS(v6.05)一套通用多功能數據處理、數值計算、統計分析和模型建立軟件;較強的統計分析和數學模型模擬分析功能;是目前國內功能最完整的統計軟件包。自稱:DPS=Excel+SPSS網站地址195學習使用統計分析軟件的基本方法弄清分析的目的正確收集待處理和分析的數據(目的、影響因素的剔除)。弄清統計概念和統計含義,知道統計方法的適用范圍,無需記憶公式。選擇一種或幾種統計分析方法探索性地分析數據。讀懂計算機分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025公司安全管理人員安全培訓考試試題及參考答案【基礎題】
- 2024-2025各個班組三級安全培訓考試試題附答案【研優卷】
- 2025各個班組三級安全培訓考試試題含完整答案【奪冠系列】
- 25年公司廠級安全培訓考試試題含答案【A卷】
- 2025一般生產經營單位安全培訓考試試題及答案解析
- 2025公司級員工安全培訓考試試題可下載
- 2025年公司項目負責人安全培訓考試試題含完整答案【名校卷】
- 2025年中國全屋空氣凈化器行業市場前景預測及投資價值評估分析報告
- 2024-2025車間安全培訓考試試題答案完整
- 2025年企業員工安全培訓考試試題帶答案(突破訓練)
- 鄉村文化傳承與發展路徑研究
- 班委工作職責一覽表
- 兩位數加一位數口算練習題4000道48
- 幼兒園情緒管理
- 2025年度消防員心理健康教育培訓
- 廣東省廣州市2025屆高三二診模擬考試英語試卷含解析
- GB/T 25229-2024糧油儲藏糧倉氣密性要求
- 《立體庫操作方式》課件
- CNC車間績效考核管理制度
- 物業客服培訓課件
- 制造業生產流程標準化管理手冊
評論
0/150
提交評論