心理統計學課件_第1頁
心理統計學課件_第2頁
心理統計學課件_第3頁
心理統計學課件_第4頁
心理統計學課件_第5頁
已閱讀5頁,還剩457頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

心理統計

教學計劃1.緒論、統計圖表、統計量數2.相關分析、概率與分布3.抽樣與參數估計4.假設檢驗5.方差分析、回歸分析6.卡方檢驗、非參數檢驗、復習和測驗注意事項統計是一門不易理解的“數學”人為的規定抽象的術語繁多的公式如何學習聽課、看書、做題、多思考上課帶紙、筆、計算器(機)盡可能地在工作中應用學到的知識緒論什么是統計學為什么需要統計學統計學的分類描述統計和推論統計 現代統計理論的發展預備知識變量、連續變量和離散變量、符號1.什么是統計統計是任何方面的專家們用以支持其論點的一大堆數據統計是計算用以代表和解釋一堆數據的量數(如平均數與標準差)的方法統計是依少量數據(樣本)所提供的資料以估計預測某研究對象(總體)的方法統計為面對不確定狀況制定決策提供方法的科學2.為什么需要統計學?數據不能說明一切,但是是某種事實InGodwetrust.Othersbringdata.績效評定、升級留級我們需要概率來理解抽獎,保險,醫學試驗,工業質量控制,天氣預報,運動創傷,基因和現代物理在面對不確定情況下,統計是一種能夠幫助我們做出聰明決策的科學方法2.1趣味統計問題父親高兒子一定高賭徒的謬論倉促的結論出租車問題估計野生動物的存量賭徒的謬論甲:我準備可以買車了!乙:哦,你升職了嗎?甲:沒有,但你知道這些年我一直在買彩票。乙:是的,每次你都買。甲:但我每次都沒有中獎。乙:那你為什么覺得你這次會中獎呢?甲:以前都沒中過,這次該輪到我了!倉促的結論英格蘭的Smith到美國的俄亥俄州某大學讀研究生。他從來沒有到過美洲,很多東西對他來說都很新奇。有一天,他從學校禮堂回宿舍時看到了兩只松鼠,令人驚奇的是兩只松鼠都是白色的。晚上email的時候,他把這個發現告訴了他的父母,他興奮地寫道:“…美國的松鼠都是白色的…”出租車問題國外某地的出租車較少,一位統計學者在該地的某街角等候出租車,眼看來了幾部出租車都載客而過,這位統計學者開始懷疑這個城市到底有幾部出租車,以致于不夠用。于是他開始記下載客而過的出租車車號,依次如下:

405,280,73,440,179

接著來了一部空車,載走了統計學者。

假如該城市出租車的編號是從1號開始連續編排下來,而且空的出租車走在城里做隨機性的環繞,那么,你若是這位統計學者,你將如何從上述記錄的資料來推測該城市共有幾部出租車?估計野生動物的存量在報紙雜志上,我們經常看到某種動物已瀕臨滅絕邊緣的報導。科學家如何知道那些野生動物的數量呢?例如:鯨漫游在占全球表面積約2/3強的海洋內,而且大部分的時間又都潛伏在水底,我們如何來估計各類鯨的存量呢?2.2常見統計問題本批產品是否是合格品?吸煙與得癌癥有關嗎?張三會于下屆選舉中獲勝嗎?3.統計的分類

3.1描述統計和推論統計描述統計我們的興趣只限于手頭現有的數據,而不準備把結果用來推論總體則稱為描述統計。例:每年來京旅游的人數,平均每人在京停留的日數,平均每人每天在京的花費,十年內那一年創最高記錄推論統計任何對數據(即樣本)的處理導致預測或推論總體的統計稱為推論統計例:根據歷年數據預測來年可能來京旅游的人數3.2推論統計的分類估計張三想競選香港某區議員,他想估計一下可能有多少人會投票給他,于是他以隨機抽樣的方式,詢問100位有投票權的市民的意見,而后根據所得結果推論可能全區有多少人會選他檢驗某家庭主婦想知道她心中懷疑潔王牌洗衣粉的洗凈力是否比愛王牌洗衣粉強分類與選擇新制造的三種藥品中那幾種比目前所用的這種藥品有效4.現代統計理論發展的四個階段

4.1高爾頓和皮爾遜1899年高爾頓(SirFrancisGalton,1822~1911)的《NatureInheritance》一書的出版所有知識都基于統計基礎引入中數、創立相關概念、把成績評分和正態分布聯系起來卡爾.皮爾遜(KarlPearson,1857~1936)眾數、標準差、相關系數我不記得那時是幾歲,但是我記得是坐在高椅子上吮吸著大拇指,有人告訴我最好停止吮它,不然被吮的大拇指會變小。我把兩手的大拇指并排看了很久,它們似乎是一樣的,我對自己說:我看不出被吸吮的大拇指比另一個小,我懷疑她是否在騙我4.2費雪1915年,費雪(RonaldAylmerFisher,1890~1962)發表關于樣本相關系數統計量的精確分布的論文小樣本統計、估計量的判定準則、最大似然估計抽樣技巧和隨機程序《StatisticalMethodsforResearchWorkers》和《DesignofExperiments》分別于1925年和1935年出版,對于統計有重大的影響費氏提到有一位女士聲稱她能分辨出她的茶中牛奶是在泡茶之前或之后加入的,而后他描述一種實驗計劃來證明或否定該女士的聲稱據說費雪是個早熟的孩子,在很小的時候就已精通如球面三角之類艱深的學問。他曾對物理科學深感興趣,1912年自劍橋大學得到天文學的學士學位。4.3聶曼和伊根·皮爾遜第三個時期以1928年聶曼(JerzyNeyman)和伊根·皮爾遜(EgonPearson,卡爾·皮爾遜之子)的共同論文多篇的發表為開端介紹和強調諸如假設檢驗中的第二種錯誤,檢驗的power和置信區間之類的觀念4.4華德1939年,華德(AbrahamWald,1902~1950)論文關于順序抽樣(sequentialsampling)的論文的發表最大的貢獻之一是他介紹一種對統計問題的新看法(1945),那就是以對局的觀點去處理統計方面的問題,這就是今日所稱的統計決策理論(statisticaldecisiontheory)統計被視為以自然為對手的對局的藝術5.預備知識

5.1幾個概念和術語(1)隨機變量(P6)在一定的條件下觀測結果不確定(2)隨機變量的分類稱名變量、順序變量、等距變量、比率變量因變量和自變量Y=f(X)連續變量和離散變量連續變量在任何兩個取值之間都還可以細分離散變量在任何兩個取值之間只有有限個可能的取值(3)總體、個體和樣本(P7)總體(population):指具有某種特征的一類事物的全體,又稱母體個體(unit):構成總體的每個基本單元樣本(sample):從總體中抽取的一部分個體,即總體的一個子集(4)參數和統計量總體參數樣本統計量5.2符號變量:大寫英文字母變量的取值(觀測到的結果,數據):小寫英文字母如18周歲中國人的身高:X170,180,172,168,…x1,x2,x3,x4數據和圖表內容基礎知識變量、尺度、數據數據類型與分析方法類別數據、順序數據、等距數據、比例數據數據的來源數據的整理和統計圖表次數分布表、條形圖、餅圖、線圖、直方圖1.基礎知識

1.1變量、尺度、數據身高高、矮、中等個頭180cm變量variable:事物的某種特征,這種特征在不同個體之間有差異

尺度scale:測量的標準

數據data:測量的結果對同一個研究對象,用不同的尺度進行測量,也可以得到不同的結果變異variation研究對象中各觀察個體之間的差異1.2四種測量尺度(P6~7)類別尺度(NominalScale)順序尺度(OrdinalScale)等距尺度(IntervalScale)比例尺度(RatioScale)類別尺度(NominalScale)例子性別(男、女)、企業性質、職業、地區檢驗(陰性、陽性)、血型特性也叫稱名尺度或列名尺度只能按照事物的某種屬性對其進行平行的分類或分組只能區分事物是同類或不同類(=和

)通常計算每一類別中各元素或個體出現的“次數”或“頻率”來進行分析順序尺度(OrdinalScale)例子績效評定:優、良、中、及格、不及格病情:輕、中、重特性對事物之間等級差別或順序差別的一種測度可以將事物分成不同的類別,還可以確定這些類別的優劣或順序該尺度具有“>和<”、“=和≠”的數學特性,但不能進行加、減、乘、除運算等距尺度(IntervalScale)例子溫度特性測量結果表現為數值,有相等的單位,但沒有絕對零點等距尺度具有類別尺度、順序尺度的數學特性外,其結果還可以進行加、減運算比例尺度(RatioScale)例子長度、重量、收入、心率特性測量結果表現為數值,有相等的單位,且有絕對的零點比例尺度具有類別尺度、順序尺度和等距尺度的數學特性外,其結果還可以進行乘、除運算2.數據類型和分析方法

2.1數據的類型四分法類別數據、順序數據、等距數據、比例數據二分法定性數據(QualitativeData)類別數據、順序數據定量數據(QuantitativeData)等距數據、比例數據四類數據的比較有個從未管過自己孩子的統計學家,在一個星期六下午妻子要外出買東西時,勉強答應照看一下四個年幼好動的孩子。當妻子回家時,他交給妻子一張紙條,上面寫著:“擦眼淚11次;系鞋帶15次;給每個孩子吹玩具氣球各5次;每個氣球的平均壽命10秒鐘;警告孩子不要橫穿馬路26次;孩子堅持要穿馬路26次;我還要再過這樣的星期六0次。”不同類型數據之間的變換一般的變化方向數值型等級(順序)類別偶爾順序數值2.2數據類型與統計方法統計量數統計檢驗類別數據頻數、頻率,眾數、異眾比率列聯分析

2檢驗順序數據中數、四分位差、等級相關系數非參數分析等距、比例數據平均數、方差、標準差、積差相關系數參數估計、參數檢驗3.統計數據的來源直接來源調查普查、抽樣調查觀察與實驗間接來源(二手數據)不是自己親自調查的,是別人的數據、公開出版或報道的數據統計年鑒;報刊、雜志、圖書、廣播、電視傳媒中的各種數據資料4.數據的整理和統計圖表

4.1數據的整理數據整理通過各種渠道搜集到統計數據之后,首先應對其進行加工整理,使之系統化、條理化,以符合分析的需要。整理可以大大簡化數據,更容易理解和分析。數據整理的步驟數據的預處理數據的審核與篩選——檢查每個樣本點是否完整、準確;將不符合要求的數據刪除,符合條件的選出來。數據的排序——便于發現數據特征或趨勢,也有助于檢查錯誤分類或分組匯總數據整理的原則對定性數據主要做分類整理對定量數據主要做分組整理4.2類別數據的整理與圖表展示整理列出事物的類別,計算出每一類別的次數、頻率或比例、比率圖表展示次數分布表列出不同類別所對應的次數或比例條形圖、餅圖次數分布frequencydistribution條形圖bargraph(P28)餅圖piegraph(p30)4.3順序數據的整理與顯示類別數據的整理和顯示的內容都適用于順序數據。除此之外順序數據還可以計算累積次數,圖形顯示用到累積次數分布圖和環形圖累積次數(cumulativefrequencies)

將各類別的次數逐級累加起來向上累積:從類別順序開始一方向最后一方累加頻數向下累積:從類別順序最后一方向開始一方累加頻數累積百分比(cumulativepercentages)條形圖bargraph環形圖向上累加分布圖

cumulativedistribution向下累加分布圖4.4定量數據的整理和圖表顯示數據的分組定量數據包括等距數據和比例數據,在整理時通常要進行分組,然后再計算出各組中出現的次數。分組方法一般用組距分組法圖表顯示次數分布表直方圖、次數多邊形圖、累加直方圖4.4.1組距分組的步驟(P12)1.求全距R=Max-Min2.定組數組數過多過少都不合適經驗公式

組數k=1.87(N-1)0.4,

N為數據個數3.定組距組距是一個組的上限與下限之差

組距=(最大值-最小值)/組數

4.寫出組限建議用精確組限(P14表1-2)5.求組中值組中值=(精確上限+精確下限)÷26.歸類劃記7.登記次數4.4.2定量數據的圖表展示直方圖histogram次數多邊形累加直方圖cumulativehistogram(P23)頻數分布圖的形態

正態分布正偏態分布右偏分布(右尾巴比較長)負偏態分布(左尾巴比較長)左偏分布J型分布U型分布

反J型分布思考題在某小鎮對下面變量進行調查父母雙方均小于25歲的家庭中所有成員的身高已婚夫婦的身高全體居民的身高所有汽車的高度把變量與其直方圖相匹配,并解釋理由205080(英寸)思考題1960和1980年,對美國婦女進行調查:“你有幾個孩子?”結果如下所示。變量是離散的還是連續的?畫直方圖(“9或更多可以”可以取為9)從圖中能得出什么結論?思考題:不等距分組的直方圖繪制1973年美國家庭收入分布如下,請繪制直方圖。不等距分組時不能以絕對頻次/百分比繪制直方圖不等距分組時應該采用密度尺度相關分析本節要點1.相關和相關系數的概念2.各種相關系數的計算(適用條件、計算方法)2.1積差相關2.2等級相關2.2.1斯皮爾曼相關2.2.2肯德爾和諧系數2.3質量相關2.3.1點二列相關2.3.2二列相關思考題什么情況下我們對兩個變量之間的關系感興趣?1.什么是相關事物之間的關系因果關系、共變關系和相關關系因果:A→B下雨地上會濕共變:C→A,C→B

嚴格的說不叫相關,只是A和B之間有某些共同點嬰兒身高和樹苗高度的關系相關:指兩類現象在發展變化的方向和大小方面存在一定的關系,不能確定是否為因果關系,但不存在共變關系廣告費支出與商品銷售額的關系相關系數相關系數:兩列變量間相關程度的數量化指標總體

(讀rou希臘字幕)樣本r|r|≤1相關數量的值總是小于等于1的。幾個概念完全相關:-1.00或1.00不完全相關:0<|r|<1不(零)相關:r≈0正相關:兩個變量的變化方向一致,0<r≤1負相關:兩個變量的變化方向相反,-1≤

r<0(a)完全正相關(b)完全負相關(c)無相關關系(d)非線性關系(e)正相關(f)負相關計算相關系數時應注意的問題相關系數受樣本容量n的影響如果n很小,可能完全沒有相關的兩事物,卻計算出較大的相關系數。一般以N大于30為宜相關系數不是等距數據也不是比例數據計算相關系數要求成對數據

沒有線性相關,不一定沒有關系,可能是非線性的相關系數的計算不受以下因素影響互換兩個變量某一變量的所有值都增加同一數值某一變量的所有值都乘以同一正數散點圖scatterdiagram2.1積差相關也稱積矩相關、皮爾遜相關適用條件兩列變量為正態等距或等比,且具有線性關系。積差相關系數(P58)Sx為x的樣本標準差,SY為Y的樣本標準差P59例2-132.2等級相關斯皮爾曼等級相關肯德爾和諧系數2.2.1斯皮爾曼等級相關適用條件兩列變量是等距或比例變量,但不是正態分布兩列順序變量斯皮爾曼等級相關系數P61例2-14一家廣告代理商想了解一家公司產品質量等級是否與其商場份額等級有關。斯皮爾曼等級相關系數的修正P63例2-152.2.2肯德爾和諧系數(肯德爾W系數)ssRi表示Ri的平方和,Ri的離均差的平方和多列等級變量P65

例2-16肯德爾W系數的校正t表示相同等技數當出現相同等級時(P65例2-17)2.3質量相關P66一列變量為正態的等距或比例數據,另一列變量為類別變量,求兩列變量的直線相關,稱為質量相關。點二列相關二列相關多系列相關2.3.1點二列相關縮寫PB

point-biserialcorrelation適用條件兩列變量中一列為等距或等比的測量數據而且總體分布為正態,另一列變量為二分的類別變量。應用點二列相關多用于編制是非測驗題評價測驗內部一致性等問題。注:每個題目(二分類別變量)與總分(數值)變量的相關,稱為每個題目的區分度。相關高說明該題答對答錯與總分的一致性高,即區分度高。點二列相關系數P67例2-182.3.2二列相關biserialcorrelation適用條件兩列變量都為正態等距(比例)變量,但其中一列變量被人為地劃分成兩類。應用教育和心理測量中問答題的區分度指標二列相關與點二列相關的主要區別在于二分變量是否正態。二列相關系數P68例2-19概率與分布本章主要內容概率古典和統計定義、概率的性質、加法和乘法定理二項分布適用條件正態分布性質、查表、應用標準正態分布、標準分數1.概率probability

1.1幾個概念

確定性現象:一定條件下必然發生某種結果必然現象 沸騰乙肝,乙肝表面抗原一定為陽性不可能現象 隨機現象randomevent:一定條件下結果不定如:擲硬幣后哪面朝上?某患者服用某降壓新藥后:降?不變?生偶然性和必然性隨機試驗和隨機事件隨機試驗對隨機現象的一次觀察隨機事件簡稱事件,指隨機現象中出現的各種可能的結果必然事件:包含所有可能結果不可能事件:不包含任何結果試驗

試驗結果(事件)拋擲一枚硬幣 正面,反面對某一零件進行檢驗 合格,不合格投擲一顆骰子 1,2,3,4,5,6進行一場足球比賽 獲勝,失利,平局頻率和概率頻率frequencyN次重復試驗中A事件發生的次數為n,那么事件A發生的頻率概率probability當N趨向于無窮大時,事件A發生的頻率趨向于一個固定值,這就是事件發生的概率P(A)實驗者 N nH nH/N德·摩根 2048 1061 0.5181蒲豐 4040 2048 0.5069K·皮爾遜 12000 6019 0.5016K·皮爾遜 24000 12012 0.5005N為投擲硬幣的次數,nH為正面朝上的次數1.2概率的定義

1.2.1概率的統計定義(P74)當試驗次數N無限增大時,事件A發生的頻率n/N穩定在一個確定的常數附近,這就是事件A發生的概率注:試驗滿足條件每次試驗中某一事件發生的可能性不變試驗能大量重復,且每次試驗相互獨立1.2.2概率的古典定義如果某一隨機試驗的結果有限(注:任何一個可能的結果就是一個基本事件),且各個結果出現的可能性相等,則某一事件A發生的概率為注:概率的統計定義是后驗概率,而古典定義為先驗概率思考題:判斷以下哪些試驗符合概率的古典定義的要求?試驗

試驗結果(事件)拋擲一枚硬幣 正面,反面對某一零件進行檢驗 合格,不合格投擲一顆骰子 1,2,3,4,5,6進行一場足球比賽 獲勝,失利,平局求擲一顆骰子其點數小于5的概率是多少解:投擲骰子試驗中,可能的點數{1,2,3,4,5,6},試驗結果有限,6個試驗結果以均等的可能發生

事件A={1,2,3,4},P(A)=4/6=2/31.3概率的性質對任意事件A,0≤P(A)≤1必然事件的概率為1,即P(W)=1

不可能事件的概率為0,P(

)=0逆事件的概率P(ā)=1-P(A)什么是逆事件?1.4概率的加法定理和乘法定理加法定理若A、B是兩個相互獨立的事件,則A和B至少有一個發生的概率是

P(A+B)=P(A)+P(B)推廣到n個獨立事件P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)例求擲一顆骰子其點數小于5的概率某一考生完全憑猜測答兩道是非題,求其答對一題的概率乘法定理若A、B是兩個相互獨立的事件,則A和B同時發生的概率是

P(A·B)=P(A)·P(B)推廣到n個獨立事件

P(A1A2…An)=P(A1)P(A2)…P(An)例求擲兩顆骰子其點數為12的概率和為11的概率求擲兩顆骰子其點數不等的概率憑猜測完全答對10題4選1選擇題的概率二戰中飛行員在每次轟炸任務中被擊中的機會是2%,那么執行50次任務“在數學上”就一定被擊中嗎?因為50×2%=100%N個人當中至少有兩個人的生日是同一天的概率是多少?2.二項分布

2.1排列permutation從n個不同的元素中,任取m(m≤n)個不同的元素,按一定順序排成一列P78例3-6用四個數字1,2,3,4可以組成多少個沒有重復數字的二位數?多少個沒有重復數字的四位數?思考題:如果數字可以重復,上題的答案又是多少?2.2組合combination從n個不同的元素中,任取m(m≤n)個不同的元素,不管順序并成一組組合的性質(P79例3-6)從100個元素中每次取97個不同元素的組合數是多少?2.3隨機變量的期望和方差隨機變量的方差方差的性質2.4二項分布

binominaldistribution離散型分布的一種每次隨機試驗只有兩種可能的結果:A及ā,P(A)=p,P(ā)=1-p=q(0<p<1)。n次獨立試驗下,事件A發生的次數為x的概率分布醫學中常見結果為兩種互斥的情況之一的例子陰性、陽性治愈、未愈傳染、未傳染致死、存活P82例3-9全憑猜測答10道是非題,問分別答對5、6、7、8、9、10題的概率各為多少?至少答對5題的概率又是多少?P83例3-10全憑猜測答10道4選1選擇題,問分別答對8、9、10題的概率各為多少?至少答對1題的概率又是多少?至少答對9題的概率是多少?馬丁服裝店問題商店經理估計進入該服裝店的任一顧客購買服裝的概率是0.30,那么三個顧客中有兩個購買的概率是多少?分析:試驗包含了三個相同的試驗,進入商店的三個顧客中的任一個即為一次試驗每次試驗都有兩個結果:顧客購買或不購買顧客購買的概率(0.30)或不購買的概率(0.70)被假設為對所有顧客都相等某個顧客的購買決定獨立于其他顧客的購買決定某保險公司有2500個同一年齡同一階層的人參加了壽命保險。已知1年內這批人的死亡水平為0.002,每個參加保險的人需在年初支付保險費12元,如果發生死亡,保險公司賠付2000元。保險公司虧本的概率是多少?保險公司獲利不少于10000元的概率是多少?解:設X為死亡人數,如果12×2500<2000X,即X>15時,保險公司要賠本。p=0.002

獲利10000元,即12×2500-2000X≥10000,即X≤101.當n趨向于無窮大時,二項分布趨向于正態分布

2.二項分布的均值、方差和標準差2.5其他離散型概率分布

2.5.1負二項分布某隨機試驗結果只有兩種可能,出現某結果的概率為p,則不出現該結果的概率為q=1-p。現在一直進行試驗,直至這一結果出現r次為止,以X表示試驗共需要進行的次數,則有一個市場調查員需要完成500份調查表的訪問任務,隨機碰到的行人大約3/10的人樂意回答他的問題,每找到一個人需花6分鐘的時間。問該調查員完成500份問卷約需多長時間?2.5.2多項分布現有一批產品,已知合格品占11/18,次品占2/9,廢品占1/6,從中隨機抽取6件,問抽到3件合格品、2件次品和1件廢品的概率有多大?2.5.3幾何分布在一個伯努利試驗中,某個時間出現的概率為p,現在一個一個地進行試驗,直至出現該事件為止,如果X表示試驗所需進行的次數,則X服從幾何分布,其概率分布函數

f(x)=qk-1p,k=1,2,…E(X)=1/p,Var(X)=q/p22.5.4超幾何分布在50個零件中,已知有5個不合格,如果隨機從中抽4個,問4個樣品中恰好有1個不合格的概率是多少?不超過2個不合格零件的概率是多少?超幾何分布的推廣一家商業零售集團開設了100家分支商店,其經營業績如下:

經營業績 優 良 中 差

分店數 24 38 28 10

從100家分店中隨機抽取20個,問其中有8個優、7個良、3個中、2個差的概率是多少?2.5.5泊松分布泊松分布的醫學應用舉例單位時間內某事件發生次數的分布,如細菌、血細胞等單位面積(容積)內計數結果的分布人群中某些發病率很低的傳染病,如某惡性腫瘤的患病數或死亡數的分析放射醫學中同位素計數的數據處理某些疾病的地區或家族集積性,某種基因突變而引起的遺傳性疾病的分布世界杯中的統計學

作者:陳峰2002年韓日世界杯64場比賽中,各隊進球數有多有少。大部分是0,1,2個進球,個別隊是5個以上進球,最多的是8個進球。宏觀上來說,各隊進球數服從Poisson分布!下面是各隊進球數(不包括點球),平均進球數1.2578,擬合Poisson分布結果如下:每場各隊進球數 場數 理論數

0 37 36.391 47 45.772 27 28.783 13 12.074 2 3.795 1 0.95≥6 1 0.25合計 128 128.00

如果包括點球數,同樣服從Poisson分布。3.正態分布

3.1連續型隨機變量不可能一一列舉可能的取值取任一指定實數值的概率為0我們對落入某個區間內的概率更感興趣3.2正態分布

3.2.1正態分布的概率密度函數設連續型隨機變量x具有概率密度

稱x服從參數為

,

的正態分布normaldistribution或高斯分布Gaussiandistribution,記為x~N(

,

2)

其中,

為隨機變量x的均值

為隨機變量x的標準差

為圓周率3.14159…

e為自然對數的底2.71828…3.2.2正態(概率密度)曲線的特點概率密度曲線和x軸之間的面積等于1概率P{x1<x≤x2}關于x=

對稱對任意h>0,有P{-h<x<

}=P{

<x<+h}當x=

時有最大值

x離

越遠,f(x)的值越小并逐漸趨向0這表明對于同樣長度的區間,當區間離

越遠,X落入區間上的概率越小如果固定

改變

的值,則圖形沿x軸平移,而不改變形狀如果固定

改變

,由于最大值

可知當

越小時圖形就變得越尖,因而x落在

附件的概率就越大如何理解概率密度曲線假設有一根無限長的棍子,總的質量為1。棍子的中心部分密度比較大,而兩端較輕如果把棍子切成同樣長度的一段一段,那么中間部分的一段比邊上的重3.2.3標準正態分布

=0,

=1時,有3.2.3.1標準分數(P94)又稱為Z分數,以標準差為單位,反映了一個原始分數在團體中所處的位置Z分數的性質Z分數的平均數為0Z分數的標準差為1標準分數的應用比較分屬性質不同的觀測值在各自數據分布中相對位置的高低.如:某人Z身高1.70=0.5,Z體重65=1.2,則該人在某團體中身高稍偏高,而體重更偏重些當已知各不同質的觀測值的次數分布為正態時,可用Z分數求不同的觀測值的總和或平均值,以表明在總體中的位置.3.2.3.2正態分布的標準化3.2.3.3標準正態分布表(P.466)僅給出Z為正值時的P和對應的Y當Z為負值時利用對稱性求相應的P和Y對于X~N(

,

2)先化為標準正態分布再查表p(0<z<Z)=P例:X~N(0,1),求以下概率1)P(0<x<1)

2)P(x<1) 3)P(x<-1)4)P(1<x<2) 5)P(|x|

1) 6)P(x>-1)寫出以下區間如果X~N(

,

2)X~N(0,1)平均數左右1個標準差平均數左右z個標準差需要記住的一些Z值P96例3-17

在某年高考的平均分數為500,標準差為100的正態總體中,某考生得到650分。設當年高考錄取率為10%,問該生成績能否入圍?解:該生的標準分數為

Z=(650-500)/100=1.5

查正態分布表,

當Z=1.5時,p=0.433

從低分到高分的順序中他處于93.3%的位置

從高分到低分的順序中他處于6.7%的位置某市參加數學奧林匹克業余學校入學考試的人數為2800人,只錄取學生150人,該次考試的平均分為75分,標準差為8,問錄取分數應定為多少?解:考試成績服從正態分布,即

X~N(75,82),轉換成標準正態分布Z~N(0,1)。

根據題意招生人數的概率為

P(Z≥Z0)=150/2800=0.05357

P(0<Z<Z0)=0.5-0.05357=0.44643

查正態分布表,得Z0=1.6112

X0=75+1.6112×8=87.8894≈88假設成人智商服從均數為100,標準差為15的正態分布。如果智商大于160的都是天才,那么請問100萬人里有幾個天才?3

準則當X~N(

,

2)時,有P(|x-

|

)=0.6826P(|x-

|2

)=0.9545P(|x-

|

3

)=0.9973當X~N(0,1)時有P(|x|

1)=0.6826P(|x|

2)=0.9545P(|x|

3)=0.9973X的取值幾乎全部集中在[-3,3]區間內,超出這個范圍的可能性僅占不到0.3%

如果某個值在|x-

|3

之外,可以判定為異常值資料:例如根據我國國家體委、原教育部、衛生部1978年至1980年對全國16個省市20余萬名青少年兒童進行的“中國青少年兒童身體形態、機能、素質調查研究”的資料,其中18~25歲男青年的平均身高是170.5厘米,標準差5.75厘米,這可以作為確定我國城市成年男性平均身高的重要依據。姚明的身高為224cm,求所對應的Z,以及身高在224cm以上的成年男性所占的比例。姚明:如果上天再給我一次機會我不要2米24身高但除了打籃球,長得高還有什么好處呢?“上面的空氣新鮮一些。”這是姚明的回答。醫學應用確定醫學參考值范圍生理、生化指標及其組織代謝產物含量中符合正態分布者如身高、體重、白細胞等其他3.2.4散點圖和分布2Sx2Sx

2SY2SY大部分點散布在均值左右2個標準差內抽樣理論和參數估計本章基本內容基本概念總體、個體、總體容量、樣本、樣本容量、抽樣、參數、統計量抽樣方法隨機、等距、分層抽樣分布樣本平均數:Z分布、t分布樣本方差:卡方分布、F分布參數估計點估計:充分性、無偏性、有效性、一致性區間估計:顯著性水平、置信度、置信區間1.抽樣的基本概念總體(population):要研究的事物或現象的全體個體(unit):組成總體的每個元素(成員)總體容量(populationsize):一個總體中所含個體的數量樣本(sample):從總體中抽取的部分個體樣本容量(samplesize):樣本中所含個體的數量抽樣(sampling):為推斷總體的某些重要特征,需要從總體中按一定抽樣技術抽取若干個體的過程參數(parameter):反映總體數據特征的量數統計量(statistic):反映樣本數據特征的量數統計量是樣本的函數,只依賴于樣本;樣本均值、樣本方差等都是統計量放回抽樣和不放回抽樣放回抽樣(重置抽樣)從總體N個單位中抽取n個單位作為樣本時,每次只從總體中抽取一個單位,進行登記后再把它放回原來的總體中去某次被抽取的單位在下一次還有可能被抽到總體單位數每次抽樣都不變不放回抽樣(不重置抽樣)從總體N個單位中抽取n個單位作為樣本時,每次從總體中抽取一個單位后,被抽取單位不放回總體中,僅從余下部分進行下一次抽取。相當于一次從N個總體單位中抽取n個單位抽樣的實例血常規:用一滴外周血的化驗結果,代表一個人的全血成分2.抽樣方法

2.1簡單隨機抽樣

simplerandomsampling完全隨機地選取樣本,要求有總體中每一個個體的詳盡名單,給總體N個元素編號抽簽隨機數字表在農村推行聯產承包責任制時,如何把地力、水利等各方面條件存有差異的田地分到各家各戶,確實難上加難。最終還是采用“抽簽”來確定挑選田地先后順序的辦法解決的。簽號排在后面的自然挑不到理想的田地。但人們都認為“碰運氣”的辦法是最“公平”的。沒有抽到好簽,只能怨自己“倒霉”。有意見也不好說。2.2等距抽樣又稱系統抽樣(systematicsampling)給總體N個元素編號抽樣間距k=N/n隨機確定起點a(1≤a≤k)a,a+k,a+2k,…,a+(n-1)k缺點:受總體數據的周期性的影響電話號碼交通高峰期例:從N=800的總體中抽取50個樣本2.3分層抽樣stratifiedrandomsampling先將總體分成不同的“層”,然后在每一“層”內進行簡單隨機抽樣分層原則:層內變異要小,層間的變異要大可防止簡單隨機抽樣造成的樣本構成與總體構成不成比例的現象。比例分層抽樣例:總體20人,其中男5,女15,抽樣4人

解:“男”在總體的比例為5/20=1/4

因此應抽取“男”4×0.25=1人,抽取“女”3人2.4其他抽樣方法方便抽樣(Conveniencesampling)由調查人員自由、方便地選擇被調查者的非隨機選樣判斷抽樣(Judgementsampling)通過某些條件過濾選擇某些被調查者參與調查的判斷抽樣法如:focusgroup3.抽樣分布總體

3.1.1總體方差已知的樣本平均數分布

3.1.1.1總體分布正態3.1.1.2總體分布未知中心極限定理CentralLimitTheorem設從均值為,方差為

2(有限)的任意一個總體中抽取大小為n的樣本,當n充分大時,樣本均值X的抽樣分布近似服從均值為,方差為

2/n的正態分布。注:什么叫n充分大呢?總體偏離正態越遠,則要求n就越大。在實際應用中常要求n30或者n503.1.1.3標準誤standarderror樣本平均數的標準差稱為標準誤例:某電梯承受的最大拉力為1000千克,可乘坐13人。已知人群的平均體重為60千克,標準差為14千克,且服從正態分布。問電梯發生事故的概率是多少?例:某廠聲稱生產的電池

=54個月,=6個月的壽命分布。某消費團體為檢驗該廠的說法是否準確,購買了50個該廠生產的電池進行試驗。

⑴若廠商聲稱是正確的,描述50個電池壽命的抽樣分布;

⑵若廠商聲稱是正確的,則50個樣品組成的樣本的平均壽命不超過52個月的概率是多少?3.1.2總體方差未知的樣本平均數分布當總體方差

2未知時,用S2作為

2的估計值3.2t分布3.2.1自由度degreeoffreedom可以自由取值的變量的個數任意說出三個整數任意說出三個和為100的整數3.2.2t分布的特點

student’stdistribution對稱:左側為負,右側為正,均值為0-

<t<+

n→

時,t分布為正態分布,方差為1n>30時,t分布為接近正態分布,方差>1,n<30時,t分布與正態分布相差較大,隨n-1減小方差越大n>45時,t分布與正態分布沒有多大差異在小樣本n<30時,t分布具有重要作用3.2.3t分布的一些推論P1123.3樣本方差的分布樣本方差的分布較復雜,它與總體分布有關。在這里只研究當總體為正態分布時,樣本方差的分布。設x1,x2,…,xn為來自正態分布N(

,2)的樣本,則從數學上可以推導出正態總體下樣本方差S2的分布為:3.4

2分布Chi-squaredistribution3.4.1

2分布的特點正偏態分布當df→∞時,

2分布為正態分布

2值都是正值可加性k個

2分布的和也是

2分布

2=df;22=2df(df>2)連續型分布3.4.2

2分布表P490例4-4P108

df=5,求

=0.05和

=0.01時的單側臨界值解:

3.5F分布Fdistribution3.5.1F分布的特點F(n1,n2)分布形態是正偏態分布,形式隨n1,n2不同而不同,當n1,n2的增加而漸趨正態分布F為兩個方差比率,所以為正值n1=1,n2任意時,F值與自由度為n2的t值的平方相等,即F(1,n2)=t2(n2)F

(n1,n2)=1/F1-(n2,n1)(114)3.5.2F分布的應用F分布是統計學家費歇爾(R.A.Fisher)于1924年首先發現的假設檢驗區間估計方差分析回歸分析4樣本容量的計算(115)根據最大允許誤差確定樣本容量樣本容量n,總體方差

2,允許誤差d,可靠性系數Z

/2的關系總體方差越大,需要的樣本容量越大;允許誤差越大,需要的樣本容量越小;可靠性系數越大,需要的樣本容量越大;例:要使95%置信區間的允許誤差為5,應選取多大的樣本容量?假定總體的標準差為25。例:一家廣告公司想估計某類商店去年所花的平均廣告費有多少。檢驗表明,總體方差約為1800000。如置信度取95%,并要使估計值處在總體平均值附近500元的范圍內,這家廣告公司應取多大的樣本?例:一家市場調研公司想估計某地區有彩色電視機的家庭所占的比例。該公司希望對p的估計誤差不超過0.05,要求的可靠程度為95%,應取多大容量的樣本?例:一項調查中,總體比率的計劃值為0.35,則當允許的最大絕對誤差為0.05時,在求其95%置信區間時應采用多大的樣本容量?5參數估計設總體有待估參數,自總體中抽取樣本x1,x2,…,xn點估計pointestimate用樣本的某一統計量估計

如用樣本均值估計總體均值區間估計intervalestimate求出一定概率下的取值范圍5.1點估計統計量作為估計量estimator充分性sufficiency用到樣本的所有數據無偏性unbiasedness估計值的平均值與真值一致有效性efficiency當總體參數的無偏估計量有不止一個統計量時,無偏估計變異性最小者有效性高,變異大者有效性低一致性consistency當樣本容量無限增大時,估計值越來越接近所估計的總體參數總體5.1.1有效性哪個是更好的估計量?算術平均數vs.中數5.1.2無偏估計量

unbiasedestimator5.2區間估計區間估計的原理樣本統計量的分布規律5.2.1幾個概念顯著性水平

significancelevel指估計總體參數可能落入某區間時允許犯錯誤的概率

通常有三個標準:

:0.05,0.01,0.001

1-

:0.95,0.99,0.999置信水平、置信度confidencelevel1-

置信區間confidenceinterval指在某一置信水平時,總體參數所在的區域距離或區域長度5.2.2總體平均數的估計

5.2.2.1總體正態、方差已知5.2.2.2

總體正態、方差未知5.2.2.3總體非正態、方差未知5.2.3總體方差的區間估計5.2.4方差差異的區間估計假設檢驗本章基本內容假設檢驗的基本原理和步驟虛無假設和備擇假設錯誤和錯誤單側檢驗和雙側檢驗差異的顯著性檢驗均值方差比例、相關系數1.假設檢驗的原理和步驟

1.1從一條聽到的新聞談起“昨天晚上A足球隊以26:13大敗了B隊”這是一場足球賽嗎?你的推理過程是怎樣的?可能的推理過程如果是足球賽,那么比分(基本上)不可能是26:13因此(很可能)不是足球賽對以上過程的分析反證法有犯錯誤的可能1.2假設檢驗和參數估計

Hypothesistesting參數估計用樣本統計量估計總體參數假設檢驗先對總體參數提出一個假設,然后利用樣本信息檢驗這個假設是否成立根據以往的比分(總體信息)推斷該比分是否足球賽比分從樣本的差異推論總體差異的過程1.3假設檢驗的主要內容:

差異檢驗樣本統計量與總體參數的差異兩個樣本統計量之間的差異該樣本基本不屬于已知總體兩個總體的參數之間存在差異差異顯著差異顯著1.4假設檢驗的基本原理小概率原理小概率事件在一次試驗中幾乎不可能發生小概率一般指p<0.051.5假設檢驗的步驟P135建立虛無假設和備擇假設確定適當的檢驗統計量指定檢驗中的顯著性水平,計算檢驗統計量的值,建立拒絕虛無假設的規則作出統計決策將檢驗統計量的值與拒絕規則所指定的臨界值相比較,確定是否拒絕虛無假設(計算p值,利用p值確定是否拒絕虛無假設)昨天晚上A足球隊以26:13大敗了B隊1.5.1假設檢驗的一個例子某校一個班進行比奈智力測驗,X=110,班級人數n=50,該測驗常模

0=100,0=16。該班智力水平1(不是這一次測驗結果)是否與常模水平有差異?研究假設和虛無假設

研究假設H1researchhypothesis

又叫備擇假設alternativehypothesis,指待驗證的假設,一般假設差異顯著虛無假設H0nullhypothesis又叫零假設zerohypothesis,原假設,與研究假設對立的假設,一般假設差異不顯著H1:1

0 H0:1=0Z檢驗取

=0.05

1.5.2錯誤和錯誤

錯誤(I型錯誤)typeIerrorH0為真時卻被拒絕,棄真錯誤錯誤(II型錯誤)typeIIerrorH0為假時卻被接受,取偽錯誤

假設檢驗中各種可能結果的概率

接受H0 拒絕H0,接受H1H0為真

1-

(正確決策) (棄真錯誤)H0為偽

(取偽錯誤) 1-(正確決策)

錯誤和錯誤的關系

+≠1對于固定的樣本容量n,與不能同時減小減少與的一個方法是增大樣本容量n1.5.3單側檢驗和雙側檢驗問題的提法雙側檢驗:和已知常數0是否有顯著性差異?單側檢驗:是否顯著高(低)于已知常數0?建立的假設雙側檢驗:H0:

=0 H1:0單側檢驗:H0:

≤0 H1:>0

H0:

≥0 H1:<0拒絕域rejectionregion(相關概念:臨界值)雙側檢驗:Za/2單側檢驗:ZaP133例5-3某高校參加同專業的統一考試,隨機抽查64份試卷,由此求得平均成績為69分,標準差為9.5分。已知該科全體考生成績服從正態分布,且總平均分為65分,問該高校考生的平均成績是否顯著高于全體考生的平均水平?用單側檢驗還是雙側檢驗?做題根據題意做研究事先確定一般傾向于用雙側檢驗思考題某人懷疑他得了某種疾病,到醫院檢查待驗證的假設是“有病”還是“沒病”?醫生什么時候犯錯誤?什么時候犯錯誤?認定實際沒病的他“有病”認定實際有病的他“沒病”取多大?能不能直接驗證一個假設?所有天鵝都是白的如果檢驗結果接受了H0,我們可以說H0得到了證明嗎有一只天鵝是黑的2.總體均值的顯著性檢驗

2.1總體正態且總體方差己知P137例5-4全市統一考試的數學平均分

0=62分,標準差0=10.2,一個學校的90名學生該次考試的平均成績為68分,問該校成績與全市平均差異是否顯著。(取=0.05)P137例5-4解答例:有人調查早期教育對兒童智力發展的影響,從受過良好教育的兒童中隨機抽取70人進行韋氏兒童智力測驗(

0=100,0=15)結果X=103.3,能否認為受過良好早期教育的兒童智力高于一般水平。2.2總體正態但總體方差未知P139例5-6學生的學習成績與教師的教學方法有關。某校一教師采用了一種他認為新式有效的教學方法。經過一學年的教學后,從該教師所教班級中隨機抽取了6名學生的考試成績,分別為48.5,49.0,53.5,49.5,56.0,52.5,而在該學年考試中,全年級的總平均分數為52.0,試分析采用這種教學方法與未采用新教學方法的學生成績有無顯著的差異(已知考試成績服從正態分布,取

=0.05)例:一個汽車制造商聲稱,某一等級的輪胎的平均壽命在一定的汽車重量和正常行駛條件下大于40000公里,對一個120個輪胎的隨機樣本作了試驗,測得平均值和標準差為X=41000,S=5000。已知輪胎壽命的公里數近似服從正態分布。該制造商的產品同他所說的標準相符嗎?(=0.05)2.3總體非正態P140例5-7某省進行數學競賽,結果分數的分布不是正態,總平均分43.5。其中某縣參加競賽的學生168人,X=45.1,S=18.7,該縣平均分與全省平均分有否顯著差異?(=0.05)Z檢驗和t檢驗兩種檢驗的前提之一總體正態分布當n≥50時,兩種檢驗的臨界值差不多相等,即Za/2≈ta/2(n)

(Z0.05/2=1.960,Z0.01/2=2.576)小結P141思考題1、某市場研究有限公司假定電話調查可在15分鐘以內結束。如果調查所需時間超過該值,則需要加收額外費用。假定由35個電話調查所組成的一個樣本表明,其樣本均值為17分鐘,樣本標準差為4分鐘。取顯著性水平=0.01,問是否需要額外收費?思考題2、據美國商業部的經濟分析局報道,北加利福尼亞居民年收入的均值為18688美元。一名研究者想對南加利福尼亞州檢驗H0:=18688,H1

:18688,其中

為南加利福尼亞州居民年收入的均值。假定由400名南加利福尼亞州居民所組成的樣本表明,其年收入的樣本均值16868美元,樣本標準差為14624美元,則假設檢驗的結論是什么?取顯著性水平為0.05。3.兩總體均值差異的顯著性檢驗

3.1兩總體方差已知3.1.1總體方差已知,獨立樣本附:例:某地區的六歲兒童中隨機抽取男生30人,其平均身高為114cm,抽取女生27人,平均身高112.5cm。根據以往資料,該區六歲男女兒童身高的標準差男童為5cm,女童為6.5cm,問該區六歲男女兒童身高有無顯著差異?(=0.05)3.1.2總體方差已知,相關樣本例:某幼兒園在兒童入園時對49名兒童進行了比奈智力測驗(=16),結果平均智商X1=106,一年后再對同組被試施測,結果X2=110,已知兩次測驗結果的相關系數r=0.74,問能否說隨著年齡增長與一年的教育,兒童智商有了顯著提高。(=0.01)3.2兩總體方差未知

3.2.1兩總體方差相等獨立樣本P144例5-9:某校進行一項智力速度測驗,共有19名學生參加,其中男生12人,女生7人。測驗共200道題目,在規定時間里,答對一題記1分,測驗結束后,得到以下的測驗成績男生12人:83、146、119、104、120、161、134、115、129、99、123女生7人:70、118、101、85、107、132、94試確定男、女生的平均成績有無顯著的差異(取=0.05)3.2.2兩總體方差不等,獨立樣本3.2.3兩總體方差未知,相關樣本,相關系數未知(p.148)3.2.4兩總體方差未知,相關樣本,相關系數已知3.3兩個非正態總體

n>30或n>50時用Z’檢驗4方差的差異檢驗4.1樣本方差與總體方差的差異檢驗4.2兩個樣本方差差異檢驗4.1樣本方差與總體方差的差異檢驗P154例5-16全區統考中,全體學生的總方差為182,而某校51名學生成績的方差為122,問該校學生成績的方差與全區方差有無顯著差異?(取=0.05)4.2兩個樣本方差的差異檢驗

4.2.1獨立樣本P156例5-17某次教改試驗后,從施行兩種不同教學方法的班級中隨機各抽取10份和9份試卷,得到如下的成績數據:

試驗班:85,76,83,93,78,75,80,79,90,88

對比班:75,86,96,90,62,83,95,70,58

擬比較試驗的效果,請先檢驗方差是否齊性,以便于選取恰當的檢驗方法(=0.05)P156例5-18隨機抽取男生41人,女生31人進行測驗,男女的樣本標準差分別是7和6。問男女生測驗結果的方差是否有顯著差異?(=0.05)兩個樣本方差的差異檢驗

4.2.2相關樣本5其他的假設檢驗5.1總體比例差異的假設檢驗5.2兩總體比例差異的假設檢驗5.3總體相關系數的假設檢驗5.4兩總體相關系數差異的假設檢驗5.1總體比例差異的假設檢驗例:一項調查結果表明某市老年人口比重為14.7%,該市老年人口研究會為了檢查該項調查是否可靠,隨機抽取了400名居民,發現其中有57人年齡在65歲以上。調查結果是否支持該市老年人口比重為14.7%的看法?(

=0.05)5.2兩總體比例差異的假設檢驗P159例5-20

分別在初一40人和初二45人中征求對學科興趣的意見,對外語表示愛好的比例分別為0.457和0.543。能否說明對外語的愛好同年級高低有關?5.3總體相關系數的假設檢驗

假設總體相關

=0時P160例5-21某年級25名學生進行了兩門課程的測驗,結果r=0.25,問該年級這兩種課程是否存在相關?(

=0.05)實際應用查相關系數檢驗表P486df=23,

=0.05

0.396假設總體相關

≠0時r的樣本分布不是正態,不能用t檢驗,這時將r轉換成費舍Zr(P487),而

例:對于10歲兒童而言,比奈智力測驗與韋氏兒童智力測驗的相關為0.70。隨機取出10歲兒童50名進行上述兩種智力測驗,結果相關系數r=0.54。問實測結果是否和總體相符。(

=0.05)5.4積差相關系數差異的顯著性檢驗P161例5-22從某市的重點中學和一般中學各抽取50名和60名考生,分別計算其數學成績和瑞文推理測驗分數的相關系數為r1=0.79,r2=0.49,問兩相關系數差異是否顯著。(

=0.01)方差分析1.方差分析的原理估算誤差方差平方和分解2.單因素方差分析完全隨機隨機區組3.多重比較4.多因素方差分析1.方差分析的原理

1.1什么是方差分析AnalysisofVariance簡稱ANOVA,檢驗多個總體均值是否相等分析實驗數據中不同來源的變異對總體變異的貢獻大小,從而確定實驗中的自變量是否對因變量有重要影響(見P167第二段)比較兩個以上的樣本平均數可以把方差分析看成是t檢驗的擴展分析兩個以上的自變量的效應及其變量之間的交互作用1.2從一個例子看方差分析的原理Craik&Lockhart(1972)記憶效果和加工方式有關Eysenck(1974)50名55~65歲的被試隨機分組Counting計算字母的數目Rhyming想出押韻的詞Adjective想出一個修飾詞Imagery把詞想象成畫Intentional告知有記憶測驗(前4組都不知道要測驗)過程:包含27個詞的表過3遍后要求被試寫下記住的詞1.2.1幾個概念因素:自變量independentvariable,處理treatment

如:加工方式因素的水平:一個因素的不同情況或取值,不同的實驗處理如:Counting,Rhyming,Adjective,Imagery,Intentional因變量:自變量影響的結果如:記憶效果單因素方差分析one-wayANOVA只有一個因素,一個因變量多因素方差分析two,three,…-wayANOVA多個因素,一個因變量1.2.2虛無假設、前提假設虛無假設H0:m1=m2=m3=m4=m5方差分析的前提假設正態normality方差齊性homogeneityofvariance誤差方差errorvariance:和實驗處理無關的方差某種實驗處理的效果相當于在每個人的分數的基礎上加一個常數獨立independenceofobservations1.2.3估計總體方差的兩種方法

方法一方法二方差分析的邏輯用兩個方法來估計總體方差一種方法與虛無假設是否成立無關另一種方法以虛無假設成立為前提如果兩種方法算出來的結果一致,接受H0,否則拒絕H0處理效應treatmenteffect1.2.4平方和的分解sumofsquares平方和的優越性在于其可加性均方和方差只有在自由度相等時才可加變異的分解均方如果當F≤1,數據的總變異中大部分是由實驗誤差或個體差異造成的,不同的實驗處理之間差異不大,即實驗處理基本無效如果F>1且落入F分布的臨界區外,實驗處理的作用顯著大于組內變異的作用,可以確認實驗處理的有效作用,至少有兩個處理之間的差異顯著方差分析就是檢驗組間變異在統計上是否顯著地大于組內變異用原始數值計算方差分析表1.2.5方差分析的基本過程建立假設H0:無處理效應H1:有處理效應求平方和確定自由度求均方進行F檢驗,單側列出方差分析表1.2.6方差齊性檢驗

哈特萊Hartley法1.2.7方差分析和實驗設計因素單因素多因素設計完全隨機設計隨機區組設計1.2.7.1完全隨機設計

Completerandomizeddesign把被試隨機分成若干組,每個組隨機指派一種實驗處理。完全隨機分組后,各實驗組的被試之間是相互獨立的,因而這種設計又稱“獨立組設計”或“被試間設計”不足之處誤差項包括實驗本身的誤差又包括個體差異引起的誤差1.2.7.2隨機區組設計

randomizedblockdesign原則:同一組內的被試應盡量“同質”一個被試作為一個區組,不同的被試(區組)均需接受全部k個實驗處理每一區組內被試的人數是實驗處理的整數倍區組內的基本單元標識是以一個團體為單元同一區組接受所有實驗處理,實驗處理之間有相關,所以也稱為“相關組設計”或“被試內設計”區組效應和誤差變異的分離總平方和=組間平方和+區組平方和+誤差平方和2.單因素方差分析

2.1單因素完全隨機設計等重復設計各實驗處理組的樣本容量相同不等重復設計各實驗處理組樣本容量不同有各組均值、方差、樣本容量而無原始數據2.1.1等重復設計各實驗處理組的樣本容量相同k個處理組,每個組樣本容量均為n例為研究不同科目的教師當班主任,對學生某一學科的學習是否有影響。把40名學生隨機分派到5名教不同科目的班主任負責的班級中,經過一段時間以后對這40名學生進行數學考試,結果見下表。請檢驗5組不同班主任的學生數學成績是否有顯著差異。2.1.2不等重復設計各實驗處理組樣本容量不同計算組間平方和時,注意公式中的各組的nj不同2.1.3有樣本統計量無原始值(p.173)例:把20名被試隨機分成4組,每組(5人)接受一種教學方法,問四種教學方法是否有顯著差異? 教學方法:ABCD

每組人數:5555

每組平均數:55.487.2

每組方差:1.991.041.20 1.762.2單因素隨機區組設計方差分析有四種小學語文實驗教材,分別代號為A、B、C、D。為比較其教學效果,按隨機區組設計原則,將小學分為城鎮重點小學、城鎮一般小學和鄉村小學三個區組,分別代號為I、II、III,并分別在每個區組中隨機地抽取4所小學,它們分別被隨機地指派實驗一種教材。經一年教學后通過統一考試得到各校的平均成績如下表。問四種教材的教學效果是否一致?隨機區組設計-平方和分解隨機區組設計方差分析的步驟隨機區組設計的方差分析表3.多重比較multiplecomparison如果方差分析的結果表明差異顯著,只能說明多個平均數之間至少有兩個之間的差異顯著,但沒有指出哪些平均數之間的差異顯著是否可以用t檢驗對平均數兩兩比較來尋找哪些有顯著差異的平均數對呢?

不行!因為犯a錯誤的概率增加若H0為真,一次比較犯錯誤的概率是a若一次實驗中做了n次獨立的比較,那么這n次比較中犯錯誤的次數是na這n次比較中至少有一次犯a錯誤的概率是

1-(1-a)nN-K法Newman-KeulP184例6-52×2肥料:A、B土壤:紅、黑4多因素方差分析4.1幾個基本概念析因設計factorialdesign實驗處理包括所有自變量的所有水平之間的兩兩組合,如5×2,3×3×3,2×2×2×2因素和水平主效應maineffect單個自變量和單個因變量之間的基本關系交互作用interaction兩個或多個自變量的效應是彼此依賴的4.2多因素方差分析總平方和分解在兩因素的完全隨機設計中SSt=SSA+SSB+SSAB+SSe在兩因素的隨機區組設計中

SSt=SSbk+SSA+SSB+SSAB+SSe4.3二因素完全隨機設計方差分析例:研究不同的教學態度(因素A)和不同的教學方法(因素B)對兒童識字量的作用,將20名被試隨機分成四組(每組5人),每組接受一種實驗處理,結果見下表A因素:A1為“嚴肅”,A2為“輕松”B因素:B1

為集中識字,B2為分散識字因變量為“識字量”二因素完全隨機設計方差分析表4.4交互作用和主效應兩因素之間的交互作用非常顯著,表明集中識字與分散識字效果的不同是受不同教學態度影響的。同樣,不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論