




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
測量信度與隨機誤差控制心理測量第1頁,課件共61頁,創作于2023年2月學習目標:1.什么是信度?信度與測量隨機誤差的關系?2.信度的統計定義?3.描述信度的指標有哪些?4.分析測驗信度應注意哪些問題?5.信度的標準與作用?6.經典測量理論信度系數的估計方法。7.提高測量信度的主要方法有哪些?第2頁,課件共61頁,創作于2023年2月第一節信度概述解答本章學習目標中的第1-5個目標。第3頁,課件共61頁,創作于2023年2月一、信度與測量誤差1.經典測量理論的假設式中,X為觀察分數,T為一般真分數,E為隨機誤差分數,V為目標真分數,I為非目標真分數(系統誤差)。
第一節信度的概述第4頁,課件共61頁,創作于2023年2月一、信度與測量誤差2.信度的定義測量追求的初步目標:T占X的比例越大越好。測量追求的終極目標:V占X的比例越大越好。第一節信度的概述當T占X的比例很大時,那么測值就會是穩定的。一般來說,穩定的測值是可靠的、可信的,因此,信度可被認為是測量結果的穩定性程度。第5頁,課件共61頁,創作于2023年2月一、信度與測量誤差2.信度的定義第一節信度的概述信度(reliability)是指在不同時間,使用同一測驗,或者使用兩個不同項目的等值測驗,抑或在其他不同的測試條件下,對同一組被試實施兩次或多次測試所得分數的一致性。測驗信度表示測驗分數中個體差異可歸因于所測特質中“真實”差異的程度,以及可歸因于隨機誤差的程度。第6頁,課件共61頁,創作于2023年2月二、信度的統計定義1.經典測量理論假設的推論第一節信度的概述第7頁,課件共61頁,創作于2023年2月二、信度的統計定義2.信度的統計定義定義1:信度是被試團體真分數方差與實得分數方差之比定義2:信度是被試團體真分數與實得分數相關系數的平方定義3:信度是一個測驗X(A卷)與它的任意一個平行測驗(B卷)的相關系數第一節信度的概述第8頁,課件共61頁,創作于2023年2月三、描述信度的指標1.經典測量理論的信度系數信度系數是表示測量結果的穩定性程度的指標。記為:第一節信度的概述信度系數的值域:[0,1]沒有百分之百可靠的測量,因此,rXX=1只是理論上的值,實際當中是不會存在的。?相關系數的值域是[-1,+1],信度系數的值域:[0,1],為什么?第9頁,課件共61頁,創作于2023年2月三、描述信度的指標1.經典測量理論的信度系數(1)重測信度(test-retestcoefficients),是指用同一個量表對同一組被試施測兩次所得結果的一致性程度,其大小等于同一組被試在兩次測驗上所得分數的相關系數。(2)復本信度(alternative--formcoefficients),是指兩個平行的測驗測量同一批被試所得結果的一致性程度,其大小等于同一批被試在兩個復本測驗上所得分數的相關系數。(3)內部一致性系數(internalconsistencycoefficients)也叫同質性信度(homogeneityreliability),是指測驗內部所有題目間的一致性程度,主要的計算方法有KR20公式、KR21公式、克龍巴赫α系數,以及荷伊特信度等。第一節信度的概述第10頁,課件共61頁,創作于2023年2月三、描述信度的指標
(4)分半信度(split-halfreliability)指的是將一個測驗分成對等的兩半后,所有被試在這兩半上所得分數的一致性程。(5)評分者信度(scorerreliability)指的是多個評分者給同一批人的答卷進行評分的一致性程度。第11頁,課件共61頁,創作于2023年2月三、描述信度的指標2.經典測量理論的測量標準誤測量標準誤差(standarderrorofmeasurement)是測量誤差的假設分布的標準差。用下列公式能夠容易地計算測量標準誤差:第一節信度的概述式中,SDt表示測驗分數的標準差,rXX表示信度系數。3.概化理論的概化系數(generaliabilitycoefficients)4.IRT的測驗信息函數(testinformationfunction)第12頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標(1)傳統的信度概念適合于常模參照測驗,這種測驗的主要目的是為了區分個體在特定特征上所表現出的差異性。個體在測驗分數中表現出的差異范圍越大,該測驗的信度也就越高。第一節信度的概述第13頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標(2)標準參照測驗(內容參照或領域參照測驗)的目標是要確定被試是否達到或未達到某個標準,從而將個體分到不同的組別:“達標”和“未達標”。這種情況下,傳統的重測信度、復本信度以及內部一致性系數就不再適用。標準參照測驗可根據具體情況分別采用如下指標:適用于簡單的掌握與否的兩分決策,即所有的分類誤差都被認為同樣嚴重而不管它們離開臨界分數的距離。在這種情況下,可以使用平行型式進行再測,以便得出在兩次測驗上得到相同決策的個體的百分比,進一步可算得分類一致性系數(coefficientofagreement)。
第一節信度的概述第14頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標不僅僅關心對掌握者和未掌握者的質的區分,同時也在分數連續體上描述了關于掌握和未掌握的量的差異。這類信度主要采用K2(X,T)指標:
第一節信度的概述式中,、分別為被試總體在測驗上的真分數方差和觀測分數方差;、分別為真分數和觀測分數的平均值;ng為測驗題目數,c是以做對題目百分比表示的區分標準。第15頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標K2(X,T)值越大,說明觀測分與區分標準分數(劃界分數)之間的差異代表真分數的對應差異量的可能性越大,因而觀測分與劃界分數的差異就越能反映真實能力上的差異。換言之,測驗就更可信。就單個測驗的結果而言,K2(X,T)的計算公式如下:第一節信度的概述式中,是由庫德-理查德KR20公式求出的信度系數,其余符號意義同前。第16頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標(3)在純速度測驗(speedtest)中,個體差異完全取決于速度,此時,就無法恰當地解釋施測一次測驗的信度系數。如果條件許可,可采用重測法或是復本法,這是比較合適的。分半法也可以使用,但是此時的分半是按時間分半,而不是按照項目來分半。也就是,兩半分數必須根據分別規定時間的兩個半測驗。例如,可以把奇偶項目分別印制在兩張卷上,每組項目的用時為全測驗的一半。這種方法等于在同一時間實施了兩個等值測驗。
第一節信度的概述第17頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題1.針對測驗類型選用恰當指標還有一種替代實施兩個半測驗的方法,就是把總時間四等分,算出每段時間的分數。這種方法簡便易行,施測時每當主試發出事先安排的信號,就要測驗參加者在他們正在做的項目上打個記號。然后,把第一段和第四段時間內答對的項目數相加,得出一個半測驗分數;把第二段和第三段時間內答對的項目數相加,得出另一個半測驗分數。四段時間如此相加,往往可以平衡練習、疲勞和其他因素的累積效應。特別是當項目難度水平前后一致,而不是逐漸增加時,這種方法尤其令人滿意。第一節信度的概述第18頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題2.信度的報告(1)任何一個信度系數是針對引起測驗誤差的特定因素而言的。有多少種影響測驗分數的條件,就有多少種測驗信度,因此,報告信度時,應該詳細說明測試樣本的特性和所報告的信度類型。在信度報告時只是報告信度系數,而缺乏說明估算系數的方法細節,推導系數時所用的被試群體的特征,以及獲取數據當時的施測條件,等等,這種信度報告是不合格的。
第一節信度的概述第19頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題2.信度的報告(2)沒有一個單一的、最優的方法來量化信度,沒有一個單獨的指數能恰當地表達所有的相關事實,沒有一個單獨的研究方法在所有的情形下都是最佳選擇,且測驗編制者也不應局限于將某一種方法運用到任何一種測量手段上去。所以,測驗編制者在報告測驗信度時,可以從多方面予以報告。
第一節信度的概述第20頁,課件共61頁,創作于2023年2月四、分析測驗信度應注意的問題2.信度的報告(3)提供詳細的信度分析報告,讓了解相關知識的人能夠對結果進行評定,并能夠重復信度分析的過程。
例如,簡單說一句“某測驗的信度是0.92”是不能接受的。較恰當的說法是“某測驗的信度系數為0.92,該數值是通過計算一份能力測驗間隔兩周兩次測試成績的相關系數得出的。數據來源是從某市隨機抽取的500名小學5年級的學生施測……”。第一節信度的概述第21頁,課件共61頁,創作于2023年2月五、信度的標準與作用1.信度是評價測驗質量的重要指標之一。測驗類型
信度系數
低中高學業成就測驗0.660.920.98學術能力測驗0.560.900.97特殊能力傾向測驗0.260.880.96人格測驗0.460.850.97興趣測驗0.420.840.93態度測驗0.470.790.98注:表中數據來源,LewisR.Aiken:Psychologicaltestingandassessment(eighthedition),AllynandBacon,Inc,1994.第一節信度的概述第22頁,課件共61頁,創作于2023年2月五、信度的標準與作用2.信度是測量過程中所存在的隨機誤差大小的反映。第一節信度的概述例如,我們已知高考文科試卷的總信度rXX
=0.965,文科考生總分的標準差為53.42,那么,文科考試成績的標準誤為:3.信度可以用來解釋個人測驗分數的意義——測量標準誤。如果某生的考試成績為495分,在置信度為0.95時,其真分數的置信區間為:第23頁,課件共61頁,創作于2023年2月五、信度的標準與作用4.信度可以幫助進行不同測驗分數的比較。第一節信度的概述考察兩個分數的差異是否可靠,是否真有差異的問題。比如,某人的物理成績是否真的優于化學?某人的數學技能本學期是否真有進步?某人在韋氏智力量表上操作智商與言語智商的差異是否真有顯著意義等。
當兩測驗的方差相等時,差異分數的信度系數可用如下公式求出:式中,rXXdiff是差異分數的信度系數;rXX和rYY是兩個測驗各自的信度系數;rXY是兩測驗間的相關系數。第24頁,課件共61頁,創作于2023年2月五、信度的標準與作用4.信度可以幫助進行不同測驗分數的比較。第一節信度的概述差異分數的測量標準誤可用如下公式求出:式中,SEdiff是差異分數的測量標準誤;rXX和rYY是兩個測驗各自的信度系數;SD是兩測驗間使用的相同的標準差。在比較分數之前,必須將兩個測驗分數轉為具有相同量表的標準分數。第25頁,課件共61頁,創作于2023年2月五、信度的標準與作用4.信度可以幫助進行不同測驗分數的比較。第一節信度的概述例如,在韋氏成人智力量表中,言語和操作分測驗的信度為0.97和0.93,而它們的智商的平均數為100,標準差為15,故言語和操作智商差數的標準誤為:因為4.74×1.96=9.29,因此,言語和操作智商相差10分時,在0.05水平上,我們說存在顯著差異。若要在0.01水平上作出差異顯著的結論,就要相差13分。第26頁,課件共61頁,創作于2023年2月第二節信度的種類
與評估方法詳細介紹第一節中提出的各種信度估計方法的計算。第27頁,課件共61頁,創作于2023年2月一、重測信度1.含義同一個測量工具在兩個不同時間對同一組被試施測所得結果的一致性程度。重測信度主要考察了一個測量工具是否能夠保證在不同時間測量結果的一致性,他反映了測量工具的結果受到時間間隔因素影響的大小。一般來說,重測的時間間隔越短,那么各種施測情境的變化就越小,重測信度系數就會越大。重測信度系數較大時,說明該測量工具前、后兩次的測量結果比較一致。結果具有較好的跨時間上的穩定性。第二節測驗信度的種類與評估方法第28頁,課件共61頁,創作于2023年2月一、重測信度2.評估方法重測信度的大小可以通過計算測量工具的重測系數(test-retestcoefficient)或叫穩定性系數(coefficientofstability)來標志。具體來說,就是求取同一組被試在兩個不同時間施測同一個測量工具所得結果分數的相關系數。第二節測驗信度的種類與評估方法第29頁,課件共61頁,創作于2023年2月一、重測信度3.應用條件測量工具所測量的個體心理特質在時間上應該是相對穩定的。測量工具所測量的個體心理特質應該不存在明顯的練習效應和遺忘效應。在兩次施測間隔期間不應該進行專門的訓練和培訓,以保證重測信度反映的是隨機因素的影響效應。第二節測驗信度的種類與評估方法第30頁,課件共61頁,創作于2023年2月一、重測信度4.使用重測信度時需要注意的問題兩次施測時間間隔的長短會影響重測信度系數估計值的大小,因此,在報告重測信度系數時應該報告間隔的時間長度。應該根據已有的相關研究結論考慮所測心理特質本身的穩定性程度,以確定前后兩次施測時間的間隔究竟應該多長比較合適時,不應該隨便選擇間隔時間的長短。第二節測驗信度的種類與評估方法第31頁,課件共61頁,創作于2023年2月二、復本信度1.含義兩個平行的測驗(復本測驗)測量同一批被試所得結果的一致性程度。復本信度反映了由于題目的不同以及時間間隔所導致的測量誤差。平行測驗或復本測驗指的是兩個在題目內容、數量、形式、難度、區分度、指導語、時限以及所用的例題、公式和測驗等其他方面都相同或相似的測驗。也就是用不同的題目測量同樣的內容而且其測驗結果的平均值和標準差都相同的兩個測驗。第二節測驗信度的種類與評估方法第32頁,課件共61頁,創作于2023年2月二、復本信度2.評估方法復本信度的估計過程就是計算同一批被試在兩個平行的復本測驗上所得分數的相關系數,也叫作等價系數(coefficientofequivalence)。測試設計:同時測試和延時測試。同時測試是在同一個時間段內進行測試,而延時測試則是在兩個時間段進行測試,同時測試可能會存在作答疲勞的效應,而延時測試則可能會存在學習或培訓效應。第二節測驗信度的種類與評估方法第33頁,課件共61頁,創作于2023年2月二、復本信度3.應用條件要構造出兩份或兩份以上真正平行的測驗;計算復本信度需要對同一批被試測試兩份平行測驗,這就需要掌握一個合理的時間安排。應該盡量在測試結果報告中,詳盡地說明兩次測試的時間間隔、測試順序安排、測試過程中被試的有關測驗經歷等。第二節測驗信度的種類與評估方法第34頁,課件共61頁,創作于2023年2月三、內部一致性信度1.含義內部一致性信度主要評價了測驗各隨機組成部分之間是否測量了相同的心理特質,因此,它反映的是題目內容的抽樣一致性程度。具體估計方法主要包括分半信度評估法、庫德-理查森信度評估法、克龍巴赫Alpha系數評估法。與重測信度和復本信度不同,在估計測驗的內部一致性信度時,只要用同一個測驗對一批被試測試一次。第二節測驗信度的種類與評估方法第35頁,課件共61頁,創作于2023年2月三、內部一致性信度2.分半信度含義我們總是可以把一個測驗的所有題目隨機地劃分成對半的兩個部分,然后估計所有被試在這兩個部分題目上得分的一致性程度,這樣得到的測驗一致性估計稱為分半信度。分半信度評價了測驗兩個隨機組成部分的題目是否測量了相同的心理特質。第二節測驗信度的種類與評估方法第36頁,課件共61頁,創作于2023年2月三、內部一致性信度2.分半信度評估方法計算出被試在測驗兩個隨機組成部分的題目上得分之間的相關系數。由于在用分半測驗得分計算相關系數時,測驗題量被縮短,信度系數需要通過以下這個公式對分半相關系數進行矯正而得到。為兩個分半測驗之間的相關系數,為完整長度測驗的信度系數估計值。第二節測驗信度的種類與評估方法第37頁,課件共61頁,創作于2023年2月三、內部一致性信度2.分半信度評估方法另外一個估計分半信度系數的方法是Rulon公式,他只需要計算所有被試在兩部分測驗上得分之差的方差以及總分方差:式中,為完整測驗的信度估計值,為被試在兩部分測驗上得分之差的方差,為完整測驗總分方差。
Rulon公式中分子方差反映了由于題目不同等條件帶來的誤差方差,他與總方差之比反映了誤差方差在總方差中所占的比例。第二節測驗信度的種類與評估方法第38頁,課件共61頁,創作于2023年2月三、內部一致性信度2.分半信度使用時需注意的問題在估計測驗的分半信度時,雖然要求把一個測驗的所有題目隨機地劃分成對半的兩個部分,但是在實踐中對測驗分半時,為了盡量減少無關因素的影響,通常需要考慮題型、題分、題目測試先后順序等因素的平衡問題,比如按照題目順序奇偶分半就是一個經常選擇的方法第二節測驗信度的種類與評估方法第39頁,課件共61頁,創作于2023年2月三、內部一致性信度3.庫德-理查森信度含義在估計分半信度時,把一個測驗的題目分成兩半的方式是非常多的。而每種分半方式得到的信度估計值總會存在一些差異,但我們無法知道究竟哪種分半結果所得到的信度估計值是最合適的。估計所有可能的分半信度系數的平均數,作為完整測驗的內部一致性最佳估計值。第二節測驗信度的種類與評估方法第40頁,課件共61頁,創作于2023年2月三、內部一致性信度3.庫德-理查森信度評估方法:所有分半信度系數的平均數的估計方法。第二節測驗信度的種類與評估方法第41頁,課件共61頁,創作于2023年2月三、內部一致性信度3.庫德-理查森信度使用條件Kuder-Richardson信度系數的估計只能針對1、0記分題型,對于其他題型需要使用更加一般化的估計方法。K-R21公式假設測驗中所有項目的難度是相同的。Kuder-Richardson信度反映的是項目間一致性程度,他會嚴重地受到測驗所測行為特質的同質性程度的影響。第二節測驗信度的種類與評估方法第42頁,課件共61頁,創作于2023年2月三、內部一致性信度4.Cronbach’sAlpha系數含義是一種比Kuder-Richardson方法更加一般化的信度估計方法,它可以針對各種記分方式的題型進行估計。第二節測驗信度的種類與評估方法第43頁,課件共61頁,創作于2023年2月三、內部一致性信度4.Cronbach’sAlpha系數評估方法第二節測驗信度的種類與評估方法公式中,k是測驗題目個數,是被試在題目i上得分的方差,是被試測驗總分方差。第44頁,課件共61頁,創作于2023年2月三、內部一致性信度4.Cronbach’sAlpha系數使用條件可以估計各種記分方式的測驗內部一致性信度系數,是更一般化的測驗內部一致性信度系數估計方法。第二節測驗信度的種類與評估方法第45頁,課件共61頁,創作于2023年2月四、評分者信度1.含義在評價通過主觀評分方式得到的分數時,我們必須了解不同的評分者在評價被試作答反應時給的分數值的一致性程度(信度)。一般的客觀型題目在評分時很少出現誤差,然而,對于諸如作文測驗、語言類測驗、以及其他的評價性測驗(如人格特質評級、投射測驗評分等),這些測驗類型的評分過程就顯得非常主觀。第二節測驗信度的種類與評估方法第46頁,課件共61頁,創作于2023年2月四、評分者信度2.評估方法兩個評分者時:計算這兩個評分者評定分數之間的相關系數。多個評價者評價同一批被試:計算和諧系數。第二節測驗信度的種類與評估方法第47頁,課件共61頁,創作于2023年2月五、信度系數及其估計方法小結1.測試次數和測試卷份數與信度系數估計方法第二節測驗信度的種類與評估方法測試次數測試卷份數1份2份1次分半信度Kuder-Richardson信度Alpha系數復本信度(同時測試)2次重測信度復本信度(延時測試)第48頁,課件共61頁,創作于2023年2月五、信度系數及其估計方法小結2.各種信度估計方法的誤差方差來源第二節測驗信度的種類與評估方法復本信度(延時測試)復本信度(延時測試)重測信度復本信度(同時測試)復本信度(延時測試)分半信度Kuder-Richardson
和Alpha系數評分者信度時間間隔題目內容時間間隔與題目內容題目內容題目內容與心理行為特質的同質性評分者間差異第49頁,課件共61頁,創作于2023年2月第三節測量的隨機誤差控制第50頁,課件共61頁,創作于2023年2月一、影響測量信度的因素影響測量信度的因素施測間隔的時間被試主試施測情境測量工具第三節測量的隨機誤差控制第51頁,課件共61頁,創作于2023年2月二、提高測驗信度的常用方法提高測驗信度的常用方法規范施測程度、統一施測環境適當增加測驗的長度控制試題的難度分布努力提高每道題的區分度維持測驗的同質性努力提高測驗在被試中各個同質亞團體上的信度保證被試有充裕的作答時間嚴格控制評分誤差第三節測量的隨機誤差控制第52頁,課件共61頁,創作于2023年2月第四節評分者信度及
評分誤差的控制第53頁,課件共61頁,創作于2023年2月一、評分誤差存在的嚴重性嚴重到什么程度?歷史教授的答案被評閱為“不及格”高考作文《一幅漫畫的啟示》,67位評閱者,6至25分都有,最高分與最低分相差19分1984年,高考作文評分調查,438位老師,4篇作文,。最高得分為41.25,最低分為20.75,標準差為2.98。1985年,對1984年的四篇作文再研究,347位老師(有部分年參加研究的老師),最高得分為42.5,最低分為24.75,標準差為3.3。第四節評分者信度及評分誤差控制第54頁,課件共61頁,創作于2023年2月二、評分者信度定義:多個評分者對同一批答卷評分結果的一致性程度。估計方法:①兩位評分者評同一批試卷;②三位或三位以上評分者評
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東省惠州市惠城區中考數學二模試卷(含答案)
- 財務會計入門實操指南
- 高等土力學:本構模型
- 2025年android自學視頻!一起看看這些大廠面試真題查漏補缺吧分享一點面試小經驗
- 2023-2024學年山西省長治市部分學校高二下學期期末考試數學試題(解析版)
- 2025屆河南省許昌、平頂山、汝州名校高三二模語文試題(解析版)
- 2025屆福建省高三模擬練習聯合檢測語文試題(解析版)
- 2024屆湖南省益陽市七校高三下學期第二次模擬考試語文試題(解析版)
- 2024-2025學年浙江省湖州市高二上學期期末考試語文試題(解析版)
- 2024-2025學年山西省晉城市部分學校高二下學期開學檢測語文試題(解析版)
- 2025年入黨積極分子培訓結業測試題及答案
- 人教版(2024)七年級下冊生物期末復習重點知識點提綱
- 2025年中考語文二輪復習:標點符號 專題練習題(含答案解析)
- 跌倒墜床防范試題及答案
- 2024-2025學年人教版(2024)初中英語七年級下冊(全冊)知識點歸納
- XXX社區居委會、業主委員會和物業管理機構三方聯席會議制度
- 三伏貼不良反應應急預案
- 簡陽市2024-2025學年五年級數學第二學期期末統考模擬試題含答案
- 2025年廣東省佛山市中考英語一模試卷
- 防塵網施工方案
- 垃圾發電行業安全培訓
評論
0/150
提交評論