




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、經典測量理論(classical test theory,CTT)2022/7/171904年斯皮爾曼首次提出了經典測量理論,1950年,美國學者格立克森(Gulliksen)出版了“Theory of Mental Tests”一書,標志著經典測驗理論的成熟。經典測量理論主要是以真實分數模型 (true score model)為基礎,圍繞被試對試題的應答結果(觀測分數)和被試所具有的真實的心理特質(真分數)之間存在的誤差進行分析,發展并形成了包括信度、效度、區分度、等值等概念在內的比較完整的心理與教育測量理論體系,故經典測量理論又稱為真分數理論。2022/7/17X=T+E任何一個測驗成績
2、都看做是真分數和測量誤差之和,這是經典測量理論的基本思想。真分數理論的基本假設:在討論范圍內,真分數具有某種程度的穩定性,即真分數不變,是常數;測量誤差的期望值為0,即E=0;測量誤差與真分數相互獨立,真分數與測量誤差相關為0;不同測量誤差之間的相關為0;平行性假設:以相同的程度測量同一心理特質的測驗稱為平行測驗。每個平行測驗的平均數相等,等于同一心理特質,即真分數;測量誤差的平均數相等,且等于0;測量誤差方差相等。2022/7/17根據上面的假設,可以將真分數定義為:一個被試在某一測量中無限多次測量的均值或數學期望,即經典測量理論的優點與局限性優點:在20世紀大部分年代里,心理與教育測量的理
3、論與實踐一直建立在真分數模型基礎上。真分數模型是以弱假設為基礎的, 采用的計算公式簡單明了、淺顯易懂,能夠對測試結果做出合理的解釋,并且可操作性強,便于在實際測驗情境(尤其是小規模資料)中實施,能滿足人們對將測試作為一種選拔工具的需要,在測驗實際工作中有著較強影響力,并發揮著重要的指導作用。局限性:2022/7/17(1)信度估計精確性不高 經典測量理論對信度的假設是建立在平行測驗的概念假設上的,但很難找到兩個測驗的測量誤差完全相等,不可能要求每位受試者接受同一份測驗無數次,而每次測量間都彼此獨立不相關。因此平行測驗的理論假設很難滿足。在平行測驗條件不滿足的情況下,估計的各種信度可能有較大誤差
4、。(2)各參數估計受樣本依賴性太大 難度、區分度和信度等各項指標,依賴于它們所來自的特定的被試樣本。這些指標會因接受測驗的受試者樣本的不同而不同,因此,同一份試卷很難獲得一致的難度、區分度或信度。2022/7/17(3)等測量標準誤差難做到 真分數模型已經指出測量誤差的存在,以一個相同的測量標準誤作為每位受試者的測量誤差,顯然不適當。當測驗施測于能力水平高于(或低于)測驗難度的被試時就容易產生較大的測量誤差,且誤差會隨著被試水平與測驗難度距離的增加而變大。(4)能力量表與難度量表不配套 在經典測量理論中,被試能力量表是卷面總分,項目的難度量表是題目難度。因而不能提供不同能力水平的被試如何對項目
5、進行反應的預測信息,找不到驗證某個項目是否匹配某種能力水平被試的計量方法,這使得在選題時帶有一定盲目性,失去了精確指導測驗編制的作用。概化理論(generalizability theory, GT)2022/7/17克朗巴赫等人(Cronbach)于1972年出版的The Dependability of Behavioral Measurement一書是概化理論形成的標志。GT是關于行為測量的可信賴度的統計學理論。概括性:分數能夠推論的范圍。可信賴度:推廣應用時,推廣或概括化的準確程度。2022/7/17GT理論的基本思想是,任何測量都處在一定的情境關系之中,應該從測量的情境關系中具體地考
6、察測量工作,提出了多種真分數與多種不同的信度系數的觀念,并設計了一套方法去系統辯明與實驗性研究多種誤差方差的來源。用“全域分數”(Universe Score)代替“真分數”(True Score) ,用“概括化系數,G系數”(Generalizability Coefficent)代替了“信度”。2022/7/17概化理論把全域分數方差對總方差的比稱為為概括力系數(簡稱G系數)。而總方差可以分成全域分數方差2(p)和誤差分數方差2()。概化理論的研究程序2022/7/17G研究(G study):測量的過程中有哪些因素會影響被試的測量結果。測量目標主效應方差、測量面的主效應方差、各種交互效應
7、方差。D研究(D study)概化系數可信賴指數2022/7/17測量工作中要加以認識和應用的心理特質水平是測量目標。而構成測量條件與具體情境關系的因素,稱為測量側面(Facets of Measurement)。測量側面又分為隨機側面和固定側面。進行測驗的標準化就是對某些測量側面進行固定。固定測量側面可以減少測量誤差,但卻會使測量目標變得更為局限,這樣,測驗所得的分數就不能再推廣到原來那么寬廣的范圍了。GT與CTT的幾點比較2022/7/17(1)CTT要求嚴格平行測驗的“強假設”,即兩個平行測驗的實測分數必須具有相同的平均數和方差,否則無法確定測驗信度的意義;而GT只要求隨機平行的“弱假設
8、”,所謂隨機平行測驗是指隨機取自同一題庫的長度相同的測驗。因而CTT的應用范圍受到許多限制,而GT的應用范圍則更廣泛,應用也更合理。(2)CTT把測驗分數簡單劃分為真分數和誤差分數兩個部分,誤差分數是單一的、含混的、隨機的,這就導致不能有效地解釋影響人的心理活動因素的多樣性,從而在實踐上對控制誤差缺乏有效指導。GT采用方差分析方法,充分考慮了影響分數的所有誤差來源,并進一步提出絕對誤差和相對誤差的劃分及其對絕對誤差和相對誤差的度量。2022/7/17(3) CTT主要關注的是個體之間的差異,而GT除了個體之間的差異以外,還關注個體的絕對水平。(4)在CTT中,測量誤差的估計方法導致同一個測量量
9、表往往表現出多種測量信度并存現象,如重測信度、復本信度、同質信度等,這些信度系數之間沒有必然的內在關系。而GT則采用具有內在邏輯關系的概化系數、可靠性系數或信噪比等指數來反映各種因素可能對測驗分數的影響程度。2022/7/17盡管CTT和GT之間存在著基礎性差異,但是在某種程度上,GT仍然可以看做是通過應用適當的方差分析ANOVA程序對CTT的一種拓展。由于統計計算相當繁雜,前在我國還處于實驗研究階段,在面試、考核等主觀性測評中有一些應用。項目反應理論(item response theory,IRT)2022/7/17無論是CTT還是GT,其測驗內容的選擇、項目參數的獲得和常模的制定,都是通
10、過抽取一定的樣本(行為樣本或被試樣本)實現,二者都建立在隨機抽樣理論基礎之上。它們的局限性主要表現在以下四個方面:(1)測量結果的應用范圍有限。(2)測量分數賴性于具體的測驗(內容)。(3)測量參數依賴于被試樣本。(4)信度估計的精確性不高。2022/7/17 項目反應理論也稱項目特征曲線理論或潛在特質理論,它是依據一定的數學模型,用項目特征參數估計潛在特質的一種測量理論。該理論中最重要的兩個基本概念是“潛在特質”和“項目特征曲線”。項目反應理論的基本假設17(一)潛在特質空間假說潛在特質空間是指由心理學中的潛在特質組成的抽象空間。如果考生在測驗項目上的反應是有K種潛在特質所決定的,那么這些潛
11、在特征就定義了一個K維潛在空間,考生的各個潛在特質分數綜合起來,就決定了該考生在該潛在空間的位置。如果影響考生測驗分數的所有重要的心理特質都被確定了,那么該潛在空間就稱為完全潛在空間。 2022/7/17目前比較成熟的大多數項目反應模型都假設完全潛在空間是單維的,即只有一種潛在特質決定了考生對項目的反應,也就是說組成某個測驗的所有項目都是測量的同一個心理變量。單維項目反應理論多維目反應理論(二)局部獨立性假設2022/7/17指某個考生對于某個項目的正確概率不會受到他對于該測驗中其他項目反應的影響,也就是說只有考生的特質水平和項目的特性會影響到考生對該項目的反應。在實際的教育和心理測量問題中,
12、如果前一個項目的內容為后一個項目的正確反應提供暗示或其它有效的信息,局部獨立性的假設就會遭到破壞,例如所謂的鏈狀試題就會出現這種情況。局部獨立性是建立在統計的意義上的,對每一個測驗者來說,對整個試題作出某種反應的概率等于對組成試卷的每個項目的反應的概率的乘積。(三)項目特征曲線假設2022/7/17項目反應理論的一個關鍵就是在被試者對項目作出的反應或作出反應的概率與被測試者的潛在特質之間建立某種函數關系。所謂的項目特征曲線(item charecteristic curve, ICC),就是相應函數關系的圖象。項目反應理論之所以要作出項目特征曲線形式的假設,是因為項目反應理論的建立不是首先從理
13、論上推導出函數關系的存在,而是先假定有某種形式的項目特征曲線,然后找出滿足相應曲線的函數形式。所以,關于項目特征曲線的特征形式的假設實際上就是對未來函數關系的假設。項目特征曲線有3個特點:2022/7/17人的潛在特質量表應定義在正負無窮的區域內;被試在項目上正確作答的概率P()取值在0,1區間之內;若題目質量好,則被試的正確作答率應隨被試的特質水平的提高而提高,項目特征曲線應是一條從負無窮到正無窮的遞增曲線。三、項目反應模型2022/7/17IRT模型是一種數學模型,它的特點是以概率的概念來解釋應試者對試題的反應和其潛在能力特質之間的關系。IRT的模型有20余種,但比較常用的有洛德提出的著名
14、的正態卵形模型和伯恩鮑姆提出的邏輯斯蒂模型(Logistic模型)。這兩種函數模型在計算結果上并無大的區別,所繪制的曲線也大體相同,然而,在實際中大多采用后者。其中主要有以下兩個方面的原因:首先是它形式上的簡潔,更具數學模型的特點;其次是它便于用對數關系作處理,因而模型的項目質量參數和能力參數估計起來較為方便。邏輯斯蒂模型(Logistic模型)2022/7/17由于Logistic模型相對比較簡單,準確性較高,計算量較其他模型小,因此在建立自適應考試系統時,常采用Logistic模型。由于參數的不同,分為單參數、雙參數和三參數,其中以三參數的Logistic模型最為常用,由于計算機和網絡技術
15、的發展,對考試的準確性的要求也越來越高,對三參數的Logistic模型的研究也比較成熟,現在逐步趨向使用三參數模型。 式中 表示能力為的被試在項目上正確作答的概率; 表示被試的能力; 表示項目 的難度參數; 表示自然對數之底=2.71828; D表示量表因字常數=1.7; 表示項目 的區分度參數; 表示項目 的偽隨機水平參數,習慣稱猜測參數。 2022/7/17項目反應理論的優點:2022/7/17( )特質水平的估計可以從任何一組項目屬性已知的項目中得出。( )項目屬性直接與測驗行為聯系在一起。( )自變量,即特質水平和項目屬性,可以不借助額外數據而分別估計。四、項目反應理論的應用-計算機自適應測驗2022/7/17computerized adaptive testing(CAT)是建立在項目反應理論基礎上的,由計算機根據被試能力水平自動選擇測題,最終對被試能力做出估計的一種新型測驗。其目的在于通過被試正確回答題目難度的高低來評價其能力,而不是像傳統的紙筆測驗那樣通過被試能正確回答題目的多少來評價其能力。2022/7/17與傳統的紙筆測驗相比,計算機自適應測驗在理論上可以允許被試在任何時間進行測試,而且測試的時間要比紙筆測驗所需時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 民宅出租改造合同協議
- 母女住房買賣合同協議
- 和平精英合同協議
- 和解協議書還款協議
- 2025年專利權許可使用合同范本
- 2025勞務合同范本
- 和淘寶商家合同協議
- 商場餐飲翻修合同協議
- 欠款購買協議書范本
- 商場服裝合同協議
- 2025-2030全球及中國電動和混合動力汽車動力傳動系統行業市場現狀供需分析及投資評估規劃分析研究報告
- 科學控糖與健康體重管理
- 2025年廣東省高三高考模擬測試二生物試卷(有答案)
- 2024年銀行從業資格考試(中級)《風險管理》試題及答案指導
- 法律職業資格(主觀題)題庫附答案2025
- 四川農商銀行招聘筆試真題2024
- 右足底皮膚裂傷護理查房
- 2025年普通高中學業水平選擇性考試沖刺壓軸卷一英語試卷(含答案)
- 陜西師大附中2025年高三5月總復習質檢(二模)生物試題含解析
- 2025年生豬屠宰獸醫衛生檢疫人員考試題(附答案)
- 2025年中國鐵路信號電源屏數據監測報告
評論
0/150
提交評論