心理與教育測量第四章_第1頁
心理與教育測量第四章_第2頁
心理與教育測量第四章_第3頁
心理與教育測量第四章_第4頁
心理與教育測量第四章_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于心理與教育測量第四章第四章測量信度信度概述信度的估計方法提高測量信度的方法第2頁,共46頁,2024年2月25日,星期天第一節信度概述信度的定義信度的作用第3頁,共46頁,2024年2月25日,星期天一、信度的定義信度的描述性定義信度(reliability)指測量結果的穩定性程度,有時也叫測量結果的可靠性。信度系數()是表示測量信度高低的指標,其值域為[0,1]。世界上沒有百分之一百可靠的測量。只是理論上的。信度也是多次測量同一對象的一致性程度。第4頁,共46頁,2024年2月25日,星期天信度的統計定義(統計等價定義)信度是被試團體真分數方差與實得分數方差之比,即:信度是被試團體真分數與實得分數相關系數的平方,即:信度是一個測驗與它的任意一個平行測驗的相關系數,即:第5頁,共46頁,2024年2月25日,星期天二、信度的作用信度是測量過程中所存在的隨機誤差大小的反映。測量中隨機誤差越大,測量的信度越低。(但信度與系統誤差無關!)信度可以用來解釋個人測驗分數的意義。信度可以幫助進行測驗分數的比較第6頁,共46頁,2024年2月25日,星期天1、解釋個人分數的意義測量標準誤的作用:估計真實分數的范圍;了解實得分數再測時可能的變化情形。真分數的估計,或再測時實得分數的變化范圍計算:根據SE=Sx×sqrt(1-rxx)

,求SE。根據顯著性水平α或置信水平(1-α)。則真分數的置信區間或再測時X的變化范圍是:X-Zα/2SE<T≤X+Zα/2SE第7頁,共46頁,2024年2月25日,星期天真分數估計舉例在一個人格測驗中,某個被試的外向性得分為20分,已知該分測驗的標準差為10,信度系數為0.91。試問該被試外向性的真實水平處于什么范圍(α=0.05)?如果對該被試重新施測,他的分數將不會落在什么范圍外?第8頁,共46頁,2024年2月25日,星期天2、比較不同測驗分數的差異已知X,Y,求X,Y是否差異顯著。根據SEd=S(2-rxx-ryy)1/2,求SEd,這里要求兩個測驗的標準差相同。比較|X-Y|/SEd和Zα/2的大小,如果|X1-X2|/SEd>Zα/2,則差異顯著;反之,則差異不顯著。第9頁,共46頁,2024年2月25日,星期天不同測驗分數的差異比較舉例某被試在韋氏成人智力測驗中言語智商為100,操作智商為105,已知兩個分數都是以100為平均數,15為標準差的標準分數,假設言語分量表和操作分量表的分半信度為0.87和0.88,問言語智商和操作智商是否存在顯著性差異(α=0.05)。第10頁,共46頁,2024年2月25日,星期天需要注意的問題一個測驗可以有多個信度估計值,因而其誤差估計值也會有多個。本理論假定同一個團體中所有人的測量誤差是相同的,但實際上水平高的人與水平低的人在做測量時會有不同的隨機誤差。測量的結果不能僵硬地看成是一個點,而應看成是一個以該點為中心,以SE的某個倍數為半徑上下波動的一個范圍。例如,真正IQ一般在實得IQ±5的范圍內波動。第11頁,共46頁,2024年2月25日,星期天第二節信度的估計方法重測信度復本信度分半信度同質性信度分半信度和同質性信度也叫內部一致性系數。評分者信度成套測驗綜合分數的信度第12頁,共46頁,2024年2月25日,星期天一、重測信度定義:同一測驗對同一批被試先后施測量兩次所得結果的一致性程度,其大小為兩次分數的積差相關系數。也叫穩定性系數。用于考查測量結果跨時間的穩定性。計算公式:第13頁,共46頁,2024年2月25日,星期天舉例:假設有一份考試焦慮調查表,先后兩次施測于10名學生,時間間隔為半年,結果如表所示,求該測驗的重測信度。第14頁,共46頁,2024年2月25日,星期天使用條件①所測心理品質相對穩定,否則無法判斷是量具信度低,還是品質本身穩定性差。②前后間隔時間要恰當,遺忘和練習的效果基本上相互抵消。時間間距依問題的性質和測量目的而定。通常,以2-4周為宜。智力測驗的間隔一般在6個月左右。③間隔期間被試在所測品質方面無更多學習和訓練。④有被試的真誠合作。第15頁,共46頁,2024年2月25日,星期天需要注意的問題當某個測驗涉及多個年齡或年級等不同層次的考生(被試)時,重測信度不能直接用測驗的原始分數進行估算,而必須使用經過常模量表轉換之后的量表分數或其他類型的標準分數進行估算。否則會高估。當極少數考生的前測分數與后測分數相差特別明顯時,應去除這些異常的極端值(控制在2%以內),以避免低估重測信度。第16頁,共46頁,2024年2月25日,星期天評價優點:能提供有關測驗是否隨時間而變異的資料,可作為被試將來行為表現的依據。缺點:難以消除記憶和練習及學習的影響;難以取得被試的全面合作。第17頁,共46頁,2024年2月25日,星期天二、復本信度定義兩個平行測驗測量同一批被試所得結果的一致性程度。其大小為兩次分數的積差相關系數。分類等值性系數(通常指復本信度):兩個復本測驗同時連續施測。穩定性與等值性系數(通常指重測復本信度):兩個復本測驗相距一段時間分兩次施測。是對信度的最嚴格的檢驗。實施平衡設計:將被試隨機分成兩半,一半先測A卷,再測B卷;另一半先測B卷,再測A卷。第18頁,共46頁,2024年2月25日,星期天計算公式類似于重測信度。舉例假設用A、B兩型智力復本測驗對五年級10個學生施測。結果見下表。試求該測驗的復本信度。第19頁,共46頁,2024年2月25日,星期天測驗被試12345678910X1

1617181415131220119X2

1516191816121119108第20頁,共46頁,2024年2月25日,星期天使用前提條件要命制出真正等值的平行測驗。被試要有條件(時間、經費等)接受兩個測驗。評價優點:能減少練習和記憶效應。缺點:很難構造出兩份以上的平行測驗;只能減少而不能消除練習效應;無法消除遷移效應。第21頁,共46頁,2024年2月25日,星期天三、分半信度定義:將一個測驗隨機分為對等的兩半(常用奇偶分半),所有被試在這兩半測驗上得分的一致性程度。計算通常也采用積差相關系數求取。由于測驗長度變短,通常需要校正,公式為:,其中為兩半的相關系數。第22頁,共46頁,2024年2月25日,星期天舉例已知某量表的分半信度為0.63,請算出原長度的信度系數。第23頁,共46頁,2024年2月25日,星期天上式為Spearman-Brown公式,使用條件為兩半分數的方差(變異數)相等。如果不等,可采用下列兩個等價公式直接計算。Flanagan公式:Rulon公式:其中、為兩半測驗分數方差,為兩半測驗分數之差數的方差,為總方差。第24頁,共46頁,2024年2月25日,星期天使用條件隨機分成的兩半必須是對等的兩半。通常在只能施測一次或沒有復本的情況下使用。評價優點:只需施測一次便能求取信度。缺點:有些題目,很難分為對等的兩半,比如語文考試里的作文,就沒辦法分半;分半方法很多,所估信度很可能有差異。第25頁,共46頁,2024年2月25日,星期天四、同質性信度定義測驗內部所有題目間的一致性程度。一致性包含兩重含義:所有題目都是測同一種心理特質。所有題目得分之間都有較高的正相關。兩者的關系:正相關高是同質性高的必要而非充分條件。第26頁,共46頁,2024年2月25日,星期天計算求所有分半信度的平均值。缺點:分半的方法太多,有Cnn/2個,計算太麻煩。例如,有20個題目,則分半的數量有:C2010個。先求所有題目間相關系數的平均值,再用下列公式計算:其中K為一個測驗題目個數,為所有題目間相關系數的平均值。第27頁,共46頁,2024年2月25日,星期天Kuder-Richardson(K-R)公式K-R20公式(只適用于兩級評分,例如0,1):其中K為題目數,為答對第i題的人數比例,為答錯第i題的人數比例,為測驗總分的變異。K-R21公式(在KR20基礎上要求各題難度相同):其中為所有題平均答對率,為所有題目平均答錯率。第28頁,共46頁,2024年2月25日,星期天克龍巴赫

系數(適用所有題目):

其中,Si2為每個題目的方差。注意:大,信度必高,但小,信度不一定低。荷伊特信度(采用方差分量比方法):第29頁,共46頁,2024年2月25日,星期天克龍巴赫

系數計算舉例

語文測驗模擬資料如表,試求內部一致性系數α的值(注:第一行數字為被試編號,第一列為項目編號)。12345678910①②③④⑤35263436545416423562864957587589610786910712141015111313151512第30頁,共46頁,2024年2月25日,星期天荷伊特信度舉例第31頁,共46頁,2024年2月25日,星期天五、評分者信度定義多個評分者給同一批人的答卷進行評分的一致性程度。計算兩個評分者:采用積差相關或等級相關多個評分者:無相同等級情況:肯德爾W系數有相同等級情況:校正之后的肯德爾W系數。W系數的顯著性檢驗:查W表(K:3~20人,N:3~7個);計算χ2值:χ2=K(N-1)W,df=N-1。第32頁,共46頁,2024年2月25日,星期天肯德爾W系數校正后的W系數(略)第33頁,共46頁,2024年2月25日,星期天評分誤差產生的原因試題原因試題答案不唯一,評分標準還客觀,要依賴于評分者主觀經驗,因此評分誤差嚴重主要在自由反應性試題上,特別是論文式試題。評分者原因:①評分者專業知識水平不夠;影響對試題和答案的理解,尤其是綜合性試題,創造性答案。②評分者評判能力不夠;缺乏評判能力,特別是缺乏計量評判能力,評分勿高忽低,或偏高、偏低。③評分者個性傾向影響:寬、嚴不同,導致評分不一致。④評分者心理狀況和工作態度不同。第34頁,共46頁,2024年2月25日,星期天評分閱卷中各種客觀效應的影響:①“名片效應”②“光環效應”③“對比效應”④“先后效應”環境與組織管理的影響。第35頁,共46頁,2024年2月25日,星期天控制論文式試題評分誤差的方法。命題進盡量控制作答的發散范圍,預先制定好評分規則,并盡是客觀、精細,但不吹毛求疵。選擇和培訓閱卷人員,統一評分標準,規范閱卷行為。流水作業評分。分因素評分。第36頁,共46頁,2024年2月25日,星期天組織復查。自覺防止各種客觀效應的影響。在規模閱卷中可考慮采用統計手段控制和調整評分誤差。①均數、標準差。②網上閱卷。③電子閱卷員。第37頁,共46頁,2024年2月25日,星期天六、成套測驗綜合分數的信度略第38頁,共46頁,2024年2月25日,星期天第三節提高測量信度的方法影響測量信度的主要因素提高測量信度的常用方法幾點說明第39頁,共46頁,2024年2月25日,星期天一、影響測量信度的主要因素被試方面:單個被試心理的穩定性;團體被試水平的離散程度及平均水平的過高或過低。主試者方面施測人員不按規定施測或給學生加壓、暗示。閱卷人員標準掌握一致、不準確。第40頁,共46頁,2024年2月25日,星期天施測情境方面考場條件聲、光、空間、桌面、儀器質量等。測量工具方面:量具性能是否穩定,包括試題取樣代表性、穩定性,試題同質性,試題難度及其分布。兩次施測估計信度的間隔時間。時間間隔會影響重測信度和穩定性與等值性系數(有時也叫重測復本信度)時間間隔越長則信度越低。第41頁,共46頁,2024年2月25日,星期天二、提高信度的常用方法適當增加測驗長度。(其本質是加大行為樣本容量)注意:加長部分必須與原測題同質,而且不可無限加長。加長測驗的效果可用rk

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論