SPSS信度和效度檢驗(yàn)全套資料.doc_第1頁
SPSS信度和效度檢驗(yàn)全套資料.doc_第2頁
SPSS信度和效度檢驗(yàn)全套資料.doc_第3頁
SPSS信度和效度檢驗(yàn)全套資料.doc_第4頁
SPSS信度和效度檢驗(yàn)全套資料.doc_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余6頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于調(diào)查問卷的信度和效度檢驗(yàn)(一)信度1 、信度的含義測驗(yàn)的信度又稱測驗(yàn)的可靠性 , 是指同一個(gè)測驗(yàn)對(duì)同一組被試施測兩次或多次 , 所得結(jié)果一致形程度。一個(gè)好的測驗(yàn)必須是穩(wěn)定可靠的 , 多次使用所獲得的結(jié)果是前后一致的。例如 , 用直尺測量長度 , 其結(jié)果是穩(wěn)定可靠的 ; 用橡皮筋測長度則是不可靠的 , 前后測量結(jié)果缺乏一致性。在測量理論中 , 信度被定義為 : 某次測驗(yàn)分?jǐn)?shù)的真變異數(shù)與總變異數(shù)(即實(shí)測分?jǐn)?shù)ST2) 之比 : RxxSx 2式中 Rxx 表示測量的信度 ,ST 2代表真分?jǐn)?shù)的變異數(shù)(方差 ),Sx 2表示實(shí)得分?jǐn)?shù)的變異數(shù)(方差 )。從上式可看出, (1 )信度是指實(shí)測值和真值相

2、差的程度,實(shí)測值是指對(duì)某物實(shí)際進(jìn)行測量時(shí)所獲得值,也稱實(shí)測分?jǐn)?shù)(X);真值是指被測事物的真實(shí)規(guī)模取值,也稱真分?jǐn)?shù)(T) 。由于各種原因, 實(shí)得分?jǐn)?shù)常不等于真分?jǐn)?shù), 兩者之差稱為測量誤差或誤差分?jǐn)?shù)(E) 。從理論上看, 實(shí)得分?jǐn)?shù)由真分?jǐn)?shù)和誤差分?jǐn)?shù)兩部分組成即:X=T+ERxx就是對(duì)一組測驗(yàn)數(shù)據(jù)的實(shí)測分?jǐn)?shù)與真分?jǐn)?shù)相差程度的最好估計(jì)。( 2)信度又是指相同的測驗(yàn)對(duì)相同的被試再次測量時(shí)引起的同樣反應(yīng)的程度。如果兩次測驗(yàn)中,受測者所得分?jǐn)?shù)或所處等級(jí)前后一致, 則說明測驗(yàn)結(jié)果的信度較高; 反之 , 兩次測驗(yàn)結(jié)果一致性低,說明測驗(yàn)結(jié)果的信度低。信度是任何一種測量的必要條件( 但不是唯一條件), 只有測量值接

3、近或等于真值, 用同一工具多次測量同一特性獲得相同或相近的結(jié)果, 才能認(rèn)為這個(gè)測量結(jié)果是可靠的。信度對(duì)于教育測量尤其重要, 只有信度高的教育測驗(yàn)才能成為教育工作者有用的工具, 才能為教育工作者提供可靠的信息, 為教育預(yù)測和決策提供客觀依據(jù)。2 、信度的估計(jì)方法測驗(yàn)的信度是用信度系數(shù)的大小來表示的, 根據(jù)測量理論, 信度系數(shù)ST2RxxSx 2但是在實(shí)際測量中, 一般只能獲得實(shí)得分?jǐn)?shù)(X) 及實(shí)得變異數(shù)(Sx 2 ), 而真分?jǐn)?shù) (T) 及真變異數(shù) (ST 2 )是不知道的 ,因此, 依據(jù)上述公式還無法機(jī)算信度系數(shù)。在統(tǒng)計(jì)上, 主要采用 相關(guān)分析的方法即機(jī)算兩列變量的相關(guān)系數(shù), 用相關(guān)系數(shù)的大小

4、來表示信度的高低。主要用以下方法來求得信度:( 1)再測法: 用同一測驗(yàn)對(duì)同一被試, 前后施測兩次, 根據(jù)兩次測驗(yàn)分?jǐn)?shù)計(jì)算相關(guān)系數(shù), 即是再測信度。該信度反映了測驗(yàn)的穩(wěn)定性程度, 故又稱穩(wěn)定性系數(shù), 是用皮爾遜積差相關(guān)公式計(jì)算X1X 2/ NM1M2的 : RxxS1 S2式中 X 1 .X 2 為同一被試的兩次測驗(yàn)得分,M1.M2為兩次測驗(yàn)的平均分?jǐn)?shù),S 1 .S 2 是兩次測驗(yàn)的標(biāo)準(zhǔn)差 ,N 是被試人數(shù)。用再測法估計(jì)信度, 可以得到有關(guān)測驗(yàn)結(jié)果是否隨時(shí)間而變化及變化程度的資料, 可以作為預(yù)測被測者將來行為表現(xiàn)的依據(jù)。但也存在明顯的局限性: 前后兩次測驗(yàn)結(jié)果易受到練習(xí)和記憶的影響,前后兩次施

5、測的時(shí)間間隔影響穩(wěn)定性系數(shù), 特別是對(duì)學(xué)績測驗(yàn)的影響較大。如果時(shí)間間隔太長, 被測者的身心因受環(huán)境影響將發(fā)生大的變化, 從而對(duì)第二次施測結(jié)果產(chǎn)生較大影響, 使穩(wěn)定性系數(shù)降低; 如果間隔太短 , 則被試第一次完成測驗(yàn)時(shí)練習(xí)和記憶會(huì)對(duì)第二次測驗(yàn)產(chǎn)生較大影響, 使第二次測驗(yàn)性質(zhì)發(fā)生變化。另外 , 有些測驗(yàn)不宜用再測法估計(jì)信度, 如測量創(chuàng)造力測驗(yàn) ,被試一旦掌握了解決問題的辦法、原則,重測時(shí) , 他將很容易作出反應(yīng), 這樣測驗(yàn)的性質(zhì)就發(fā)生了改變。因此, 只有在沒有復(fù)本可用,測驗(yàn)不易受重復(fù)使用影響, 現(xiàn)實(shí)條件又允許重復(fù)施測的情況下才使用重測法估計(jì)信度。用重測法估計(jì)信度, 間隔時(shí)間長短沒有嚴(yán)格的規(guī)定,一般

6、說 ,間隔時(shí)間越長,穩(wěn)定性系數(shù)越低, 最適宜的時(shí)距應(yīng)根據(jù)測驗(yàn)?zāi)康摹⑿再|(zhì)及被試特點(diǎn)而定,最好不超過六個(gè)月。對(duì)兒童的時(shí)距應(yīng)該短些,對(duì)成年人的時(shí)距可適當(dāng)長些, 因?yàn)閭€(gè)體早期的身心特征變化較大, 而成年人的身心特征則相對(duì)穩(wěn)定。( 2 )復(fù)本法 . 根據(jù)同一測驗(yàn)?zāi)康木幹频脑S多平行德等值測驗(yàn),可測定被試的同一特征, 這些等值的測驗(yàn)叫做復(fù)本。對(duì)一組受測者間隔一定時(shí)間或同時(shí)施測兩個(gè)復(fù)本, 根據(jù)兩次測驗(yàn)結(jié)果求得相關(guān)系數(shù), 即得等值性系數(shù) ,又稱復(fù)本信度 。對(duì)一組受測者間隔一定時(shí)間后施測兩個(gè)復(fù)本所求得的穩(wěn)定性系數(shù)又稱等值穩(wěn)定性系數(shù)。因?yàn)橛眠@種方法求得的信度不僅受復(fù)本質(zhì)量的影響,而且受時(shí)間練習(xí)等因素的影響,因此 ,

7、等值穩(wěn)定性系數(shù)更全面地反映了測驗(yàn)的信度。計(jì)算等值穩(wěn)定性系數(shù)是對(duì)兩個(gè)復(fù)本測驗(yàn)結(jié)果計(jì)算斯皮爾曼積差相關(guān)系數(shù) (具體公式見前) 。( 3 )分半法. 當(dāng)測驗(yàn)沒有復(fù)本(復(fù)本的編制是很復(fù)雜的) 而且測驗(yàn)只適合施測一次的情況下, 可用分半法估計(jì)信度,即將測驗(yàn)題目分成對(duì)等的兩半,根據(jù)每人在這兩半測驗(yàn)中的得分,計(jì)算其相關(guān)系數(shù),這個(gè)系數(shù)又稱內(nèi)部一致性系數(shù)。要求得分半信度,首先要將測驗(yàn)分成對(duì)等的兩半。絕大多數(shù)測驗(yàn)是由許多題目排列組成的, 但是若將測驗(yàn)簡單地分成前后兩部分, 常常是不對(duì)等的, 對(duì)等的兩部分起碼有兩個(gè)要求:一是測驗(yàn)的兩部分在難度、區(qū)分度及測驗(yàn)?zāi)繕?biāo)上基本是相同的;一是被測者以同等的態(tài)度來對(duì)待兩部隊(duì)測驗(yàn),

8、 即在完成兩部分測驗(yàn)過程中 , 練習(xí) , 疲勞 , 情緒等因素對(duì)被試產(chǎn)生了同等的影響。因此 ,將一個(gè)測驗(yàn)分成兩部分時(shí),常用的是奇偶分半法, 即將奇數(shù)題分為一部分,將偶數(shù)題分為一部分。特別是測驗(yàn)題目是按由易到難排列時(shí) , 這種分法可以將測驗(yàn)分為大致相等的兩半, 但是 , 對(duì)于速度型的測驗(yàn)不適合用奇偶分半法。用分半法求出的測驗(yàn)的信度系數(shù)并不能反映整個(gè)測驗(yàn)的信度。這是因?yàn)樾哦仁軠y驗(yàn)的長度的影響, 測驗(yàn)越長 , 信度越高, 將測驗(yàn)分成兩半求得的信度系數(shù), 低估了整個(gè)測驗(yàn)的信度,因此 ,需對(duì)測驗(yàn)系數(shù)加以校正 , 校正公式是斯皮爾曼布朗(Spearman Brown)公式 : Rxx2Rhh1RhhRxx

9、 是整個(gè)測驗(yàn)的信度估計(jì)系數(shù),Rhh 是兩個(gè)分半測驗(yàn)的相關(guān)系數(shù)。上述公式的前提假設(shè)是兩個(gè)半測驗(yàn)分?jǐn)?shù)的變異性相等,但是若測驗(yàn)資料不符合這個(gè)假定, 可用下列公式求得信度:弗朗那根 (Flanagan) 公式 :Rxx2(1Sa2 Sb2)Sx2Sa 2 和 Sb 2分別代表兩個(gè)分測驗(yàn)分?jǐn)?shù)的變異數(shù),Sx 2 代表整個(gè)測驗(yàn)的變異數(shù)。盧倫 (Rulon)公式: RxxSd21Sx2Sd 2 代表兩個(gè)半測驗(yàn)分?jǐn)?shù)之差的變異數(shù),Sx 2代表總測驗(yàn)變異數(shù)。對(duì)于由客觀性題目組成的測驗(yàn)(即答對(duì)一題得一分,答錯(cuò)得 0分 ), 則可用庫得理查遜(KuderRichardson) 公式估計(jì)測驗(yàn)的內(nèi)部一致性: Rkk(k)(

10、1( pq) )k1Sx2k 為測驗(yàn)的總題目數(shù),p 為某一個(gè)題目的答對(duì)率或通過該題目的人數(shù)比例,q 為未通過該題目的人數(shù)比例 ,p=1-q,Sx 2 為測驗(yàn)總分的方差。對(duì)于由客觀性題目和主觀性題目組成的測驗(yàn), 有些題目是多重計(jì)分的情況下, 則要用克倫巴赫(Cronbach)公式計(jì)算 系數(shù)來估計(jì)測驗(yàn)的內(nèi)部一致性:(k)(1k1Si2 Sx2)k 為測驗(yàn)題目總分,Si 2 是某一題目得分的方差,Sx 2 是整個(gè)測驗(yàn)分?jǐn)?shù)的方差。上面這些公式不適用于速度性測驗(yàn), 因?yàn)橹挥忻總€(gè)人做完所有的題目, 題目的方差才是準(zhǔn)確的。3 、提高測驗(yàn)信度的方法:影響測驗(yàn)信度的誤差歸納起來主要有:(1) 抽樣誤差 : 簡單

11、說 , 這是在抽樣過程中由于被試間的差異所造成的誤差。被試間的差異可以用全距和方差大小來表示。 全距是指某一心理量最大值與最小值之差。全距大說明被試間差異大, 全距小說明被試間差異小。被試間在某一心理量上參差不齊, 差別懸殊 , 則該心理量的方差大 ; 反之 , 方差小。對(duì)于方差小的樣本 , 被試間在某一心理特征上相差較小,則前后兩次測驗(yàn)結(jié)果的一致性較低,即降低了信度。因?yàn)楸辉囍g的差別越小其同質(zhì)性越高, 被試的分?jǐn)?shù)只要發(fā)生小的變化,其名次就可能改變, 從而降低信度。(2) 隨機(jī)誤差 : 由于各種偶然因素的影響而產(chǎn)生的誤差,表現(xiàn)為用同一方法多次測量同一對(duì)象時(shí)結(jié)果上不一致。隨機(jī)誤差是由許多因素造

12、成的, 如量標(biāo)的質(zhì)量,測量的程序, 被試的身心狀態(tài),測量的環(huán)境等。根據(jù)影響測驗(yàn)信度的因素, 可從以下幾方面來提高測驗(yàn)的信度: 一是從測驗(yàn)本身考慮,如測驗(yàn)的長度、難度、區(qū)分度、速度、程序、環(huán)境條件與計(jì)分方法等;一是從被試自身考慮,如被試在被測心理特征上的差異大小 , 參加測驗(yàn)的動(dòng)機(jī)水平, 對(duì)測驗(yàn)的態(tài)度和積極性等。在此主要介紹如下幾種提高測驗(yàn)信度的方法 :( 1)適當(dāng)延長測驗(yàn)的長度:測驗(yàn)的長度主要指量表所包含的題目多少。對(duì)一個(gè)測驗(yàn)來說, 測驗(yàn)的題目越少, 得分越容易受偶然因素的影響 , 故測驗(yàn)的信度越低。反之如果測驗(yàn)題目較多,即測驗(yàn)長度延長,擴(kuò)大了被試得分范圍,可在一定程度上排除偶然因素的影響,

13、從而提高測驗(yàn)信度。但是測驗(yàn)信度的增加并不是等比例提高信度系數(shù)。當(dāng)信度系數(shù)較小時(shí) , 延長測驗(yàn)長度信度系數(shù)增加較大; 當(dāng)信度系數(shù)已經(jīng)較大時(shí),延長測驗(yàn)長度對(duì)信度系數(shù)的影響就較小了。而且, 在延長測驗(yàn)長度時(shí), 還需考慮其他因素的影響, 如被試在回答問題時(shí)是否疲倦或產(chǎn)生厭煩情緒 , 是否節(jié)省時(shí)間、物力和財(cái)力,測題是否附合測驗(yàn)?zāi)康牡取#?2)測驗(yàn)的難度要適中: 難度即測驗(yàn)的難易程度,當(dāng)測驗(yàn)難度太大時(shí), 被試得分普遍太低,呈負(fù)偏態(tài)分布 ; 當(dāng)測驗(yàn)難度太小時(shí), 被試得分普遍較高, 呈正偏態(tài)分布。太難太易的測驗(yàn)都使被試得分差異減小 ,使實(shí)得分?jǐn)?shù)方差減小, 從而降低測驗(yàn)信度。參見公式:RE 21( 3x2: 性

14、質(zhì)相同的測驗(yàn)內(nèi)容, 對(duì)被試也要求相同的能力、; 而內(nèi)容不)測驗(yàn)的內(nèi)容盡量同質(zhì)知識(shí)和技能同質(zhì)的測驗(yàn) , 則要求被試不同的能力、知識(shí)和技能。因而為了提高測驗(yàn)信度, 測驗(yàn)內(nèi)容應(yīng)盡量同質(zhì)。( 4)測驗(yàn)的時(shí)間要充分: 對(duì)某一測驗(yàn)而言,應(yīng)保證絕大多數(shù)被試在規(guī)定時(shí)間內(nèi)完成測驗(yàn);否則 ,如果被試不能從容回答所有問題, 就不能反映被試的真實(shí)水平。( 5 )測驗(yàn)的程序要統(tǒng)一 : 包括測驗(yàn)的題目統(tǒng)一 , 指導(dǎo)語、回答問題的方式、分收試卷的方法、測驗(yàn)時(shí)間等都要統(tǒng)一。( 6 )評(píng)分要客觀: 評(píng)分是否客觀對(duì)測驗(yàn)信度有直接的影響。對(duì)于客觀性題目, 評(píng)分標(biāo)準(zhǔn)明確, 評(píng)分容易做到客觀; 但對(duì)于主觀性題目, 受評(píng)分者影響較大,

15、不易做到客觀。 為了盡可能客觀評(píng)分, 應(yīng)制定明確而易掌握的評(píng)分標(biāo)準(zhǔn), 盡量做到一卷多評(píng), 或一人只評(píng)一題等。(二)效度1 、效度的含義效度(Validity) 是指測量的有效程度或測量的正確性, 即一個(gè)測驗(yàn)?zāi)軌驕y量出所要測量特性的程度。例如 ,用直尺測量長度是有效的, 而用來測量溫度則是無效的。對(duì)效度的定義可作如下理解:( 1)任何一種測驗(yàn)只是對(duì)一定目的來說才是有效的。( 2)測驗(yàn)的效度是對(duì)測量結(jié)果而言的, 即一種測量工具只有經(jīng)過實(shí)際測量, 才能根據(jù)測量結(jié)果判斷它的效度。( 3)測驗(yàn)的效度是相對(duì)的而非絕對(duì)的。測驗(yàn)是根據(jù)行為樣本, 對(duì)所要測量的心理特性作間接推斷, 只能達(dá)到某種程度的準(zhǔn)確性, 而

16、沒有全有、全無的差別。在測量理論中 , 效度被定義為: 在一系列測量中 ,與測量目的有關(guān)的真變異數(shù)( 即有效變異) 與總變異數(shù)之比 :Sy2rxy 2Sx2rxy 表示測量的效度系數(shù),Sv 2 代表有效變異數(shù),Sx 2 代表總變異數(shù)。根據(jù)上述公式, 可看出效度與信度的關(guān)系: Sx 2 =Sv 2 +SI 2 +SE 2ST 2 =Sv 2 +SI 2Sy2ST2SI2SI2rxy 2Sx2Sx2Sy2 rxy 2 rxxSI 2 表示系統(tǒng)誤差方差, 它穩(wěn)定地與有效方差結(jié)合在一起, 對(duì)信度沒有影響, 而影響效度。從以上證明看出 , 測驗(yàn)的效度受測驗(yàn)的信度所制約, 而且效度系數(shù)不會(huì)大于信度系數(shù)。效

17、度高的測驗(yàn) , 信度必定高;但信度高的測驗(yàn) , 效度則未必高。效度在教育測量中有重要的意義。對(duì)一個(gè)測驗(yàn)來說, 效度比信度更為重要, 測驗(yàn)首先要保證能如實(shí)地測量出所要測量的東西, 否則 , 這種測量將是沒有意義的。在教育測量中 , 效度問題尤其重要,首先 ,教育測量的對(duì)象大多是精神現(xiàn)象, 只能對(duì)被測者的外部表現(xiàn)進(jìn)行測量, 以間接了解其心理活動(dòng)特點(diǎn)或知識(shí)技能水平。其次 , 學(xué)生的心理活動(dòng)特征與其外部表現(xiàn)之間, 僅有相關(guān)關(guān)系而沒有嚴(yán)格的函數(shù)關(guān)系, 外部行為有時(shí)并不能準(zhǔn)確地反映某種心理狀態(tài)。再次, 教育測量對(duì)象是有主觀能動(dòng)性的人, 人是能夠有意識(shí)地調(diào)節(jié)自己的外部行為, 掩蓋自己的內(nèi)心活動(dòng), 這就更增加

18、了教育測量的難度。2 、效度的類型與估計(jì)(1) 內(nèi)容效度 (Content Validity):是指測驗(yàn)?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度。例如,以考查學(xué)習(xí)成績?yōu)槟康牡臏y驗(yàn)來說, 所欲測量的內(nèi)容 是指教學(xué)大綱所規(guī)定的全部教材; 起預(yù)期反應(yīng) 是指學(xué)生學(xué)習(xí)這些教材所產(chǎn)生的行為變化, 如對(duì)教材的記憶、理解和應(yīng)用。在編制測驗(yàn)時(shí), 內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜的問題, 例如教師編制學(xué)績測驗(yàn),其目的是了解學(xué)生在某一學(xué)科或?qū)n}上對(duì)知識(shí)掌握情況, 若條件允許 ,應(yīng)該對(duì)大綱規(guī)定的所有內(nèi)容進(jìn)行全面考試,這顯然是行不通的 , 只能從這一范圍總體內(nèi)容中選取有代表性題目(樣本 ),組成測驗(yàn), 根據(jù)測驗(yàn)分?jǐn)?shù)推論學(xué)

19、生對(duì)該范圍總體知識(shí)的掌握。若測驗(yàn)題目較好地代表了這個(gè)知識(shí)范圍,則推論是有效的,即測驗(yàn)的內(nèi)容效度高 ; 若選題有偏差, 則推論是無效的, 即測驗(yàn)的內(nèi)容效度低。從另一方面看, 測驗(yàn)題目所引起的被試反應(yīng) ( 是一個(gè)樣本), 若能代表其對(duì)本學(xué)科或?qū)n}的全部行為反應(yīng), 也說明該測驗(yàn)是有效的;反之 ,則是無效的。因此, 一個(gè)測驗(yàn)要有較高的內(nèi)容效度應(yīng)具備如下兩個(gè)條件:1. 要有定義好的內(nèi)容范圍。2.測驗(yàn)題目取樣應(yīng)有代表性( 對(duì)所界定的內(nèi)容范圍而言) 。估計(jì)內(nèi)容效度的方法:A 、由專家進(jìn)行邏輯分析: 即請(qǐng)有關(guān)專家對(duì)測驗(yàn)題目與原來的內(nèi)容范圍是否符合進(jìn)行分析, 作出判斷,看測驗(yàn)題目是否較好地代表了原來的內(nèi)容。B

20、、統(tǒng)計(jì)分析: 克倫巴赫 (Cronbach) 認(rèn)為內(nèi)容效度可以進(jìn)行數(shù)量估計(jì), 方法是從同一教學(xué)內(nèi)容總體中抽取兩套測題 ,分別對(duì)同一組被試進(jìn)行測驗(yàn), 兩種測驗(yàn)的相關(guān)系數(shù)可用來估計(jì)內(nèi)容效度。若相關(guān)系數(shù)大,則內(nèi)容效度高; 若相關(guān)系數(shù)小, 則兩個(gè)測驗(yàn)中至少有一個(gè)內(nèi)容效度低。另外 , 有經(jīng)驗(yàn)的任課教師對(duì)本學(xué)科測驗(yàn)的內(nèi)容效度有較好的判斷。當(dāng)然, 若能與有關(guān)專家配合會(huì)更好些。( 2 )結(jié)構(gòu)效度 (Construct Validity): 又稱構(gòu)想效度, 是測驗(yàn)對(duì)某一理論概念或心理特質(zhì)量的程度。即某測驗(yàn)對(duì)所要測量的結(jié)構(gòu)或心理特質(zhì)實(shí)際測量的程度。心理測驗(yàn)都是建立在心理學(xué)理論基礎(chǔ)的, 例如比納西蒙智力量表的制訂,

21、心理學(xué)家比納(Binet) 首先詳細(xì)研究了智力的結(jié)構(gòu), 他認(rèn)為智力行為是一種連鎖性的過程 , 包括判斷、推理、解決問題等。他根據(jù)這一理論編制的智力測驗(yàn), 確實(shí)測量出被試的判斷、推理和解決問題能力,可以認(rèn)為他所編制的測驗(yàn)具有結(jié)構(gòu)效度。一般說,學(xué)科測驗(yàn)主要看內(nèi)容效度,心理測驗(yàn)主要看結(jié)構(gòu)效度。判斷內(nèi)容效度更容易一些,有教學(xué)大綱作依據(jù);判斷結(jié)構(gòu)效度更難一些,因?yàn)槔碚摻Y(jié)構(gòu)和心理特質(zhì)不易把握。因此 ,要制訂有構(gòu)想效度的測驗(yàn), 首先要建立理論結(jié)構(gòu),例如智力測驗(yàn),先要確定關(guān)于智力的一套理論, 如智力的概念、結(jié)構(gòu)、與環(huán)境的關(guān)系、與年齡的關(guān)系、與性別的關(guān)系等,在理論的基礎(chǔ)上提出若干假設(shè)并編制測題。確定結(jié)構(gòu)效度的方

22、法:A 、對(duì)測驗(yàn)題目進(jìn)行分析: 主要是分析測驗(yàn)的內(nèi)容, 被試對(duì)題目所作的反應(yīng), 測驗(yàn)題目的同質(zhì)性以及分測驗(yàn)之間的關(guān)系來判斷測驗(yàn)的構(gòu)想效度。B 、計(jì)算與同類權(quán)威測驗(yàn)的相關(guān): 某一個(gè)新測驗(yàn)如果與同類的大家公認(rèn)有效的已有測驗(yàn)之間,在測驗(yàn)結(jié)果上相關(guān)很高, 說明這兩個(gè)測驗(yàn)測的是相同特質(zhì), 即新測驗(yàn)也有較高的結(jié)構(gòu)效度, 如后編的智力測驗(yàn)常與斯坦福比納智力量表進(jìn)行比較。C 、因素分析: 通過因素分析找到影響測驗(yàn)分?jǐn)?shù)的共同因素, 在測驗(yàn)分?jǐn)?shù)的總變異中來自有關(guān)因素的比例 , 可以作為構(gòu)想效度的指標(biāo)。(3) 預(yù)測效度 (Predictive Validity): 又稱實(shí)證效度 , 是指一個(gè)測驗(yàn)對(duì)個(gè)體將來的行為或獲

23、得的成就進(jìn)行預(yù)測時(shí)的準(zhǔn)確性。 一個(gè)測驗(yàn)預(yù)測得越準(zhǔn)確, 預(yù)測效度越高。 被預(yù)測的行為或成績是檢驗(yàn)預(yù)測效度的標(biāo)準(zhǔn),簡稱效標(biāo)(Criterion), 即衡量測驗(yàn)有效性的參照標(biāo)準(zhǔn)。效標(biāo)是估計(jì)預(yù)測效度的主要依據(jù),應(yīng)具備如下一些條件 1)有效性 : 即效標(biāo)測量本身必須有效。(2)可靠性 : 效標(biāo)測量要具有較高的信度。(3) 客觀性 :在效標(biāo)測量時(shí)要防止受評(píng)定者主觀印象和成見的影響,要防止效標(biāo)污染, 即由于主試知道某個(gè)人原來的測驗(yàn)成績, 因而影響了在效標(biāo)測量中對(duì)這個(gè)人的評(píng)定分?jǐn)?shù)。(4)效標(biāo)測量應(yīng)該簡單省時(shí),花費(fèi)少, 經(jīng)濟(jì)實(shí)用。一般常用學(xué)業(yè)成就, 等級(jí)評(píng)定, 臨床診斷, 實(shí)際的工作表現(xiàn)作為效標(biāo)。例如, 一個(gè)智

24、力測驗(yàn)其預(yù)測效度既可用被試的學(xué)業(yè)成就作效標(biāo), 也可用熟悉的班主任對(duì)其進(jìn)行等級(jí)評(píng)定作效標(biāo)。估計(jì)預(yù)測效度的主要方法是:A 、相關(guān)法 :即求某測驗(yàn)分?jǐn)?shù)與效標(biāo)測量間的相關(guān),所得結(jié)果即效標(biāo)系數(shù)。當(dāng)測驗(yàn)分?jǐn)?shù)與效標(biāo)測量分?jǐn)?shù)都是連續(xù)變量時(shí), 用積差相關(guān)公式求相關(guān)系數(shù)( 具體公式見統(tǒng)計(jì)教材) 。當(dāng)測驗(yàn)分?jǐn)?shù)是連續(xù)變量, 而效標(biāo)測量分?jǐn)?shù)是二分變量時(shí), 可用二列相關(guān)公式計(jì)算效度系數(shù)( 具體公式見統(tǒng)計(jì)教材 ) 。B 、區(qū)分法 :即看原先測驗(yàn)的分?jǐn)?shù)是否可以區(qū)分由效標(biāo)測量所化分的團(tuán)體。例如, 某工廠通過測驗(yàn)錄用了一批工人 ,過一段時(shí)間后, 根據(jù)工作成績將其分為稱職和不稱職兩種, 然后回過頭來檢查他們的測驗(yàn)分?jǐn)?shù) , 運(yùn)用 t

25、檢驗(yàn)看看兩組在測驗(yàn)上的平均分?jǐn)?shù)是否有顯著差異。若有顯著差異, 說明測驗(yàn)是有效的;若差異不顯著, 說明測驗(yàn)是無效的。C 、功利率 :為了測定測驗(yàn)的功效, 人們還可對(duì)使用測驗(yàn)所化掉的費(fèi)用與得到的利益進(jìn)行比較, 看其利弊大小, 這種效度指標(biāo)叫功利率。U=B(Ns)-C(Nu)-SU 代表功利率,B 表示錄用一個(gè)合格的工人所產(chǎn)生的平均利潤,C 表示錄用一個(gè)不合格的工人所造成的損失 ,Ns 和 Nu 分別代表所錄用的人中成功和不成功的人數(shù),S 代表整個(gè)選人程序的費(fèi)用。計(jì)算功利率說明, 如果一個(gè)測驗(yàn)簡單易做, 適合于團(tuán)體施測, 即使效度低些, 也會(huì)有人采用;反之 ,如果測驗(yàn)復(fù)雜, 只能個(gè)別施測 ,費(fèi)時(shí)費(fèi)力

26、, 那么只有效度極高, 給人帶來極大好處時(shí), 人們才會(huì)使用它。提高測驗(yàn)效度對(duì)教育測驗(yàn)非常關(guān)鍵, 效度系數(shù)多大合適? 要根據(jù)測驗(yàn)的具體情況而定:(1) 智力測驗(yàn)分?jǐn)?shù)與熟悉教師對(duì)學(xué)生智力等級(jí)評(píng)定之間的效度系數(shù)一般在0.30 0.50之間。教師評(píng)定常受許多其他因素的影響。(2) 某一科目的標(biāo)準(zhǔn)測驗(yàn)成績與任課教師對(duì)學(xué)生名次排列之間的相關(guān)系數(shù)應(yīng)達(dá)到0.60 0.70 。(3) 兩種不同的智力測驗(yàn)或兩種標(biāo)準(zhǔn)測驗(yàn)之間的相關(guān)系數(shù)應(yīng)達(dá)到0.60 0.80效度系數(shù)可解釋為效標(biāo)分?jǐn)?shù)中的變異有百分之幾來源于測驗(yàn)的變異。例如效度系數(shù)為0.50,則說明效標(biāo)分?jǐn)?shù)中有 0.502=25% 的變異來自原測驗(yàn)分?jǐn)?shù)的變異; 若效度

27、系數(shù)為 0.71, 則效標(biāo)分?jǐn)?shù)中有50% 的變異來自原測驗(yàn)分?jǐn)?shù)。3 、提高測驗(yàn)效度的方法:( 2 )控制系統(tǒng)誤差: 系統(tǒng)誤差是影響測驗(yàn)效度的主要因素。它主要包括儀器不準(zhǔn), 題目和指導(dǎo)語有暗示性 , 答案按排不當(dāng)( 被試可以猜測) 等 , 控制這些因素可以降低系統(tǒng)誤差, 提高效度。(2) 精心編制測題和測驗(yàn)量表: 首先測題內(nèi)容要適合測驗(yàn)?zāi)康? 如知識(shí)性測題就不能全面反映被試的智力水平 , 它主要測量其知識(shí)水平。其次, 測題要清楚明了, 用語要讓被試?yán)斫? 排列由易到難。第三,測題的難度和曲分度要合適。(3) 嚴(yán)格按照測驗(yàn)程序進(jìn)行測量, 防止測量誤差: 要嚴(yán)格按照測驗(yàn)手冊(cè)進(jìn)行測量, 不能作過多的解

28、釋,按標(biāo)準(zhǔn)評(píng)分, 兩次測驗(yàn)間隔要適當(dāng)。(4) 樣本容量要適當(dāng):當(dāng)樣本容量增大時(shí), 樣本對(duì)總體的代表性提高, 樣本大, 被試的內(nèi)部差異增大,擴(kuò)大了真分?jǐn)?shù)的方差,使效度提高。樣本容量一般不應(yīng)低于30。另外 , 抽樣方法也很重要, 一般用隨機(jī)抽樣 , 當(dāng)群體很大時(shí), 可分層抽樣, 樣本容量擴(kuò)大時(shí) , 其代表性才隨之增大。(5) 正確處理好信度與效度的關(guān)系:信度是效度的必要條件, 但信度高的測驗(yàn) ,效度不一定高 ; 而效度高的測驗(yàn) , 信度卻比較高。但是, 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度(信度)要求測驗(yàn)項(xiàng)目之間有高度的組間相關(guān);最大預(yù)測有效度卻要求低度的組間相關(guān)。最大可靠度(信度)要求項(xiàng)目等同的難度;最大預(yù)測有效度卻要求項(xiàng)目的難度有所區(qū)別。中等程度的組間相關(guān)(0.10 0.60),通常可產(chǎn)生良好的效度(0.30 0.80), 并且產(chǎn)生滿意的信度(0.90)。” (郝德員 : 教育與心理統(tǒng)計(jì) ,教育科學(xué)出版社 ,1962 年版 .P429)(6) 適當(dāng)增加測驗(yàn)的長度: 增加測驗(yàn)的長度可提高測驗(yàn)的信度,也可以提高效度, 但增加測驗(yàn)的長度對(duì)信度的影響大于對(duì)效度的影響。如果增加測驗(yàn)長度到原來的n 倍 , 則新測驗(yàn)的效度系數(shù)Rnxy 計(jì)算公式 : RnxyRxyRxx1Rxxn式中 Rxy 、 Rxx分別是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論