教育測量與評價教案.doc_第1頁
教育測量與評價教案.doc_第2頁
教育測量與評價教案.doc_第3頁
教育測量與評價教案.doc_第4頁
教育測量與評價教案.doc_第5頁
已閱讀5頁,還剩140頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

教育測量與評價教案第一篇 教育評價的基本原理與方法第一章 教育測評概述第一節 教育測量概述一、測量的定義一般認為,測量系根據法則給事物分派數字。這里包含了測量三個方面的特性:法則,指測量的標準,也就是測量的依據和準則,即我們根據什么原理來進行測量。法則也有好壞之分,使用好的法則可以得到比較理想的測量結果,而較差的法則只能導致不準確的測量結果。要尋找和建立較好的測量法則是一件極為困難的事情。但不管什么法則的建立都是一個漸進的過程。事物,指測量的對象,也就是對什么進行測量,更明確地說,就是引起我們興趣的事物的屬性或特征。不同的事物具有不同的屬性或特征,所測量的事物是否具有一致性,這是影響測量結果是否精確的一個重要原因。數字,這是測量結果的表現形式,是區別測量與定性評價的一個標志。數字大多時候具有量的意義,這樣它是代表一定的數值。這些數值具有自然數的特點,如區分性、序列性或等級性、等距性和可加性。這些性質是我們進行運算的基礎。必須指出,在測量中,我們是根據事物的屬性和屬性的大小來分派數字的,因此,必須考慮數字是否具有如上性質,同時還要考慮事物的性質和指派數字的原則。二、測量的三要素1、單位。是我們用于計算的標準。理想的單位必須具備兩個條件:一是要有確切的意義,即對同一單位,所有人的理解意義要相同,不能出現不同的解釋;二是要有相等的價值,即等值性,也就是相鄰兩個單位點之間的差別是相等的。2、參照點。是計算的起點。一般分為絕對零點和相對零點。絕對零點指客觀地存在著“0”這個數字,即完全沒有;相對零點則是人們為了區分或分出等級人為地指定出一個零點,即即使在“0”這個位置,也不說明事物的屬性是不存在的。3、量表。這是測量的工具,是具有一定單位和參照點的連續體。由于制訂量表的單位和參照點不同,量表的種類也不同,一般從低到高,分為四種水平:類別量表水平(稱名量表)、順序量表水平(等級量表)、等距量表水平(等距量表)、比率量表水平(比率量表)。類別量表是最低水平的一種測量量表,它只是用數字代表事物和事物的歸類,沒有任何數量的意義,如對性別、民族等可分類事物進行分類。其產生的數值不能用于數量化分析,不能進行數學運算,最多只能進行百分比分類。順序量表比類別量表要精確一些,其中數字不僅指明了事物類別,同時指明不同類別的大小等級或具有某種屬性的程度。等距量表不僅有大小關系,而且有相等的單位和相對的零點。這時數值可以進行加減運算,但由于只是相對零點,所以不能進行乘除運算。比率量表是最高級和體現最精確的測量水平的一種測量量表。它既有等距的單位,又有絕對零點,因此可以加減乘除。大多數物理測量量表是比率量表,而教育測量中的量表很難達到這一水平。三、什么是教育測量教育測量是根據測量學的原理和方法對教育現象及其屬性進行數量化研究的過程。主要包括對學生內在的精神屬性的測量,如測量學生的學習成績、智力水平、品德狀況、人格特征等。這里,要注意的是第一,教育測量是一個數量化研究過程。所以,在進行教育測量時,要解決的第一個問題是如何將我們所要測量到的人的各種屬性量化表示的問題。在教育問題中,有許多往往很難加以量化,有時即使加以量化,但量化水平只能停留在類別變量或順序變量的層次,難以實現數量化分析,意義。這也是我們現在教育測量和教育評價在社會上討論非常激烈,人們十分關注,但又成效不大的原因所在。第二,教育測量主要測學生內在的精神屬性,因而具有間接性。這就導致了誤差甚至錯誤的存在。(一)、教育測量的特點1、測量結果的間接性。我們無法直接測量學生的內在心理特征,而只能通過其外顯行為,來間接測量其心理活動的特點與水平。也就是說,我們只能通過學生對測驗韙的反應和一些行為表現,運用推理、判斷的方法,來間接地測量出他們的知識水平、智力高低和品德好壞。2、度量單位的相對性。教育測量的另一個特點是它的度量單位一般是相對的,即是相對零點,必須經過轉換后才能進行相應的數學分析。3、測量對象的復雜性。首先,學生的精神屬性是內在的,不能直接測量;其次,它是多變的,因為學生是發展的;第三,有些主、客觀因素也會影響測量的結果,如精神狀態、注意力、天氣因素、緊張等。4、測量目的的針對性。四、教育測量的誤差問題測量中,誤差是不可避免的。產生誤差的原因主要有:(一)測量的儀器和設備。測量工具的精度會影響測量的精確程度。(二)所測量的事物的一致性程度。(三)測量者的因素。五、教育測量學的作用(一)有利于提高教育教學水平(二)有利于提高教育管理水平(三)有利于發展教育研究方法第二節 教育評價概述一、什么是評價“評價”一詞早在900多年前我國北宋時期就已出現。評價就是根據某種價值觀對事物及其屬性進行判斷、衡量,也就是對人或物做出好與壞、真與假、善與惡、美與丑、優與劣等判斷。這里,價值觀在評價中起著十分重要的作用。價值觀不同,對同一事物會有不同的評價。價值是客觀的,但評價帶有主觀性。在哲學史上有幾種不同的價值觀:一種是客觀主義的價值觀,認為價值是客觀對象所固有的本性,是純客觀的東西;一種是主觀主義的價值觀,認為價值是用來表達個人對事物的好惡情感的,是純主觀的東西;另一種是辯證唯物主義的價值觀,認為價值是一種表明客體對主體的特殊效用性,是主觀性與客觀性的統一。客觀事物的效用性與主觀的需要和愿望相結合,就具有了一定的價值,符合的程度大,價值就越大。二、教育評價的定義(一)早期的界說泰勒在20世紀40年代初將教育評價解釋為:“確定教育目標在實際上被理解到何種程序的過程。”后來日本學者進一步把它界定為:“教育評價就是系統地、有步驟地從數量上測量或從性質上描述兒童的學習過程和結果,據此判定是否達到了所期望的教育目標的一種手段。”這種解釋和界說,認為以教育目標為依據,評量學習結果達到目標的程度,就是教育評價。(二)60年代的界說克龍巴赫對教育評價的闡釋是基于突破行為目標模式的觀點,提出“評價是為決策提供信息的過程”,后來有人對這一界說做了具體的描述:“教育評價是一種有系統地去尋找并搜集信息資料,以便協助決策者在諸種可行的途徑(方案)中擇一而行的歷程。”這種觀點強調了評價的信息作用,擴大和拓寬了評價的功能、范圍,從廣義上、宏觀上對評價進行了創造性的解釋。(三)較深層的定義斯克里文和豪斯的定義:“評價是一種對優缺點和價值的評估,是一種既有描述又有判斷的活動。”日本心理學家大橋正夫認為:“教育評價就是對照教育目標,對教育行為產生的變化進行價值上的判斷。”這種評價觀點認為教育評價的著眼點在于教育現象的價值,也就是評價應當著重判斷教育的效果,看其是否具有價值。這里的關鍵主要是價值判斷。盡管各國評價學者對教育評價有不同的界說,但在這一點已相當一致。(四)對教育評價的初步界定和理解20世紀80年代以來,我國教育界也對教育評價理論進行了初步探討,對教育評價的概念也進行了專門研究,在系統地學習、借鑒國外評價理論的同時,力圖從我國實際出發,對教育評價的含義作了一些描繪和闡釋。在這些觀點中,有些共同的認識:(1)承認評價是一個過程;(2)價值判斷是評價的本質特征;(3)以一定的教育價值觀為依據;(4)采用一切可行的科學手段。根據上述觀點,我們把教育評價界定為“教育評價是根據一定的價值觀或教育目標,運用可行的科學手段,通過系統地搜集信息、分析解釋,對教育現象進行價值判斷,從而為不斷優化教育和教育決策提供依據的過程。”這一概念,包含以下幾個方面:1、教育評價的對象、范圍和地位其對象不僅包括學生學習結果,而指以教育的全部領域為對象(不僅包括現象,還包括結果、計劃、活動、過程等)。2、教育評價的目的和作用它涉及評價的指導思想和教育觀等基本理論問題。教育評價是為鑒定、考核,還是為了推動、改進;是為了選拔、淘汰,還是為了教育、發展,這是兩種不同的教育觀和評價觀。過去的教育評價偏重于鑒定、篩選的功能,其目的是為了“選拔適合教育的兒童”,是為“應試教育”服務的。而現代教育評價則強調評價的反饋、矯正功能即調控功能,其目的是為了“創造適合兒童的教育”,即評價是為了診斷評價對象的現狀,以便發現問題,使教育教學工作不斷改進、不斷完善,不斷適合教育對象的需要,為促進兒童個性全面發展和提高教育質量服務。教育評價的目的是為教育決策提供信息和依據,為改進教育服務,也是為不斷完善和改進教育過程、為提高教育質量服務。3、教育評價的依據價值判斷是教育評價的本質特征,是教育評價的核心。根據什么進行價值判斷?如何進行判斷?這就是價值判斷的實質和關鍵。也就是必須一個衡量和判斷的客觀依據和標準,是教育價值目標和標準問題。它涉及什么是價值、教育價值、教育價值觀的問題。我們應當根據馬克思主義價值觀和社會主義現代化建設的需要,根據人才成長發展規律,確立我們的教育價值觀和價值取向,確定教育評價的價值目標和標準。從這個意義上說,教育方針、政策和教育目標就是我們的教育價值觀的集中體現,我們應當以教育方針和教育目標為依據確定評價的目標和標準。4、教育評價的手段(五)教育評價與教育測量的關系測量是工具,評價是目標。三、教育評價的功能和意義(一)教育評價的系統結構1、價值目標和標準2、組織機構和人員3、評價方法和技術4、評價對象與評價人員的心理調控(二)教育評價的功能根據系統論的觀點,評價功能是教育評價系統結構的內在機制,是構成評價系統的各個要素的組成形式在運動狀態下所發揮的功效,是評價系統內部所固有的一種潛在能量。這種潛能只有在評價實踐中才能表現或釋放出來,這種功能的外在表現即是作用。1、教育評價的意義(1)教育評價是教育管理的重要組成部分。教育管理的各個環節都需要評價。沒有評價的管理是一個開放式的管理系統,無反饋機制,這是一種不科學、不健全的管理。(2)教育評價是深化教育改革的重要措施。要進行一項教育改革,首先要進行改革方案的可行性評估;在改革進程中,必須加強形成性評價;在某一改革告一段落時必須進行終結性評價。只有這樣才能避免盲目性,確保教育改革沿著健康的軌道發展。(3)教育評價是全面提高教育質量的重要手段。(4)教育評價是教育科學研究的重要內容。2、教育評價的功能(1)導向功能。(2)監督檢查功能。(3)激勵功能。(4)篩選擇優功能。(5)診斷改進功能。四、教育評價的種類(一)根據評價對象和范圍不同,可分為宏觀教育評價、中觀教育評價和微觀教育評價。宏觀教育評價是以教育的全領域及宏觀決策方面的教育現象、措施為對象的教育評價,或對一個具有相當規模的地區的教育進行的評價,屬于總體的、全局性的、高層次的評價。中觀教育評價是以學校為對象,對學校內部各方面的工作進行的評價。微觀教育評價是以學生為對象的教育評價。(二)根據評價的時間和作用不同,可分為診斷性評價、形成性評價和總結性評價(三)根據評價的基準不同,可分為相對評價和絕對評價相對評價指在評價對象團體中確定一個基準,或以某一團體的評價狀況為基準,對團體中的個體成員在這個團體中所處的相對位置進行評價。其特點是:評價基準是在評價對象團體內部確定的;參照的標準是對團體進行測量以后確定的;它關心的是團體成員在該團體中所處的相對位置。絕對評價指以預先制訂的目標為評價基準,評價每個對象達到目標或基準的程度,也稱目標參照評價。其特點是:評價基準是在評價對象團體以外確定的;參照標準是在對團體進行測量以前確定的;它關心的是評價對象達標的程度。(四)根據評價的性質不同,可分為需要性評價、可行性評價和配置性評價需要性評價是指根據某種需要,對新提出的教育目標、計劃方案的必要性作出價值判斷。其目的是要判斷新提出的教育目標、計劃方案或活動是否有必須進行或開展。一般是在某種教育改革項目開始前或對教育活動整個過程進行總體反思時進行。可行性評價是指對教育目標、計劃、方案實現的條件、可行性程度的評價。目標是了解實施教育目標、計劃、方案的物質條件、技術條件和經濟效益。配置性評價是指對教育目標、計劃、方案所需要的資源條件、人員與技術條件的配置進行價值判斷。目的是合理安排和利用人力、物力和財力。(五)根據評價的主客體不同,可分為自我評價和他人評價自我評價指被評者按照一定的評價目的與要求,對自身的工作、學習和品德等方面的表現進行價值判斷。他人評價指被評者以外的人進行的評價,也叫外部評價。第三節 教育測評的發展階段一、 教育測量的發展階段(一)教育測量的萌芽階段(1864年以前)根據學記記載,我國早在西周時期,就實行了教育考評。自隋煬帝大業三年(公元606年)始置進士科開始的科舉制度,到清末光緒三十一年(1905年)廢止,正好1300年,對我國進一步完善高等學校招生制度乃至整個干部選拔制度,都有重要的借鑒意義。科舉制度的特點:第一,要經過嚴格的政治條件方面審查;第二,要進行嚴格的文化考查;第三,歷代對考生都有健康方面的標準。科舉制度可取之處:第一,政治理論考試是最主要的考試項目;第二,文化素養特別是寫作能力是必考項目;第三,注意考查分析問題和解決問題的能力。錄取原則:第一,對已被錄取者一律要進行復試;第二,對落選者要給予其他出路;第三,錄取時要參考平時成績。注意的問題:第一,考生入場挾帶文書,是歷代都極為注意的;第二,考場秩序也是歷代都極為重視的問題;第三,試卷是評定成績高低,錄取與否的唯一依據,它屢經考生和各類考試工作人員之手,如不嚴格管理,很容易使舞弊者有機可乘。科舉制度實際上就是一個關于學生學力檢測、評價制度,但是它缺乏對人全面的、科學的考察,并且存在著許多弊端。在18世紀以前的西方各國,由于學校尚未普及,學校考試主要是口試。1702年,英國劍橋大學首先以筆試代替口試,開西方學校考試先河。1845年,美國初等學校普及,學生數激增,對畢業生一一口試已不可能,于是,波士頓市教育委員會率先在美國相繼以筆試代替口試。由于筆試客觀性、可靠性比口試高,并且節約時間,測試結果大大優于口試,但因為評分易受主觀偏見影響,況且題目太少,不足以反映學生所獲知識與能力的全貌,因此,為矯正弊端,力求考試客觀化,于是測驗方法隨之出現。(二)教育測量的蓬勃興起階段(18641940年)1864年英國格林威治醫院附屬學校一位名叫費舍的教師收集了許多學生成績樣本,匯集了一本量表集,作為度量學生各科成績的標準。可以說是客觀標準化測量的萌芽。1897年萊斯發表了他對20所學校3000余名學生所作的拼字測驗研究結果,測驗表明:8年中每天花45分鐘時間進行拼字練習同每天花15分鐘進行練習的成績并沒有多大差別。這一結論盡管遭到了不少人反對,但它引起了人們對測驗問題的普遍關心,推動了教育測驗問題的研究。中世紀以后,西方自然科學由于在方法論上引入了測定、觀察和實驗,一些傳統科學取得了長足發展。1879年馮特在德國萊比錫建立了第一個心理學實驗室,為進一步揭示人的心理本質而設計了種種周密的實驗方案與實現方案的各種嚴密的測量方法。所有這些方法論的變革促進了教育測量運動的興起。1882年英國高爾頓受達爾文影響,在倫敦建立了人類學測驗實驗室,與德國馮特的心理學實驗室相對峙。德國實驗心理學派通過專門研究人類的一般行為規律來進一步揭示人的心理本質,而英國人類學派則對人類個別差異寄予了關心。高爾頓在統計學家皮爾遜的幫助下,設計了許多統計方法。這些統計方法不僅對美國的人事工程思想甚有幫助,而且一些教育家借鑒這些方法,在教育上把不同學生的學習能力與學習效果量化,并加以客觀比較,促進了教育測量運動的發展。19世紀末,法國在“自由”“平等”“博愛”等進步思想的影響下,提出社會不僅要對身體有缺陷的兒童加以關懷,還要結心理、精神智能有缺陷的兒童給予關懷。恰好當時巴黎一帶的學校有許多學習效果低劣的孩子很成問題,比納想鑒別這些孩子是因為懶惰,還是因為智能低下而不能適應,并且想在教育上嘗試如何加以輔救。因此,1895年,比納等設計了一套智力測驗的方法,1905年在西蒙的協助下,制成了著名的比納西蒙智力量表。20世紀20年代,美國的教育測驗運動蓬勃發展起來。可分為三個時期:開拓期(1904-1915),這一段時間是方法的探索與初步的發展時期。在美國心理學家卡特爾研究的基礎上,1904年桑代克發表了精神與社會測驗學導論,這是一本在測驗學史上劃時代巨著,標志教育測驗運動的開始。桑代克在書中宣稱:“凡是存在的東西都有數量;凡是有數量的東西都可測量。”興盛期(1915-1930),這一時期對桑代克提出的信條不但在技術方面努力求得正確應用,而且不斷提高到理論上加以證實。這一時期已發展了三種不同性質的測驗,即學力測驗、智力測驗和人格測驗。批判期(1930-1940),隨著教育測驗運動的不斷發展,人們逐漸認識到,教育測驗盡管能使考試客觀化、標準化,并能把人的能力換算成數字,甚至個別差異的程度也可以量化,但它畢竟不能測出人的全部,即使是研究最多最富成果的學力測驗也不能測得學力的全部領域。在人格測驗方面,單純的測驗是無法把握的,如社會態度、興趣、情緒、鑒賞力等。1931年,塞蒙茲發表了人格與行動的診斷一書,主張人格測量應用評定法、問卷法、軼事記錄法等,從而從思想上否定了單純的人格測量法。從此,教育測量運動逐步過渡到教育評價時期。(三)教育測量的深入發展階段(1940至今)在經過以上批判期以后,現代教育測量在以下方面有了新的發展:第一,開始重視學生智力和思想品德的測量。第二,現代教育測量量表的編制突破了過去單一答案的求同式思維題,發展為包括多種答案的求異式思維題和論文式試題。第三,教育測量的范圍由過去偏重于學生學習成績的測量,發展到涉及到課程設置、教材、教育改革方案等效益方面的測量。第四,現代的教育測量由過去單一的常模參照性測驗模式發展到常模參照性測驗與目標參照性測驗相結合的模式。第五,教育測量本身的理論研究與技術開發更加深入與完善。如關于測驗等值、項目反應理論(IRT)、測驗信度、評分誤差控制的研究等都有了較大的發展。二、教育評價的發展階段教育評價作為科學概念,是20世紀30年代在美國進步主義教育聰明的新教育課程的改革實驗“八年研究”中正式誕生的。(一)教育評價產生的歷史淵源與社會背景1、我國古代教育考試制度自人類社會形成,人類祖先為了生存、延續,自發地產生了原始生產經驗和生活規范的傳遞,這種傳遞就是教育的萌芽。隨著社會經濟、政治和文化的發展,特別是由于古文字的出現,產生了學校。各種教育機構都有了相應的教育內容,從而產生了衡量教育結果的手段和規定。從我國教育史上看,早在西周時代,已經形成了較為完備的考試制度,如學記中記載的“比年入學,中年考校”就是典型例子。更多的科舉制度更是歷時1300年。2、西方教育測量運動的興起古代西方教育盛行以口頭提問和實際操作來評定學生的學業。從中世紀到19世紀的學校基本以口試作為考查學生成績的方法。進入資本主義發展時期以后,由于社會需要大量掌握讀寫算的人力,學校和學生激增,口試被筆試取代。但筆試也有很多弊端。為追求測驗、考試的客觀性,受實驗心理學、個別差異研究和智力測驗的影響,20世紀初,在美國,教育測量取代了傳統的考試,并形成了一種趨勢和運動;20年代末,由于新教育思潮的出現,教育測量已不能完全適應教育發展的需要,因而出現了對教育測量的批判。3、社會背景20世紀20年代末30年代初,美國爆發了空前的經濟危機,許多工廠倒閉,工人失業,大批青年為了加強勞動力市場的競爭能力,重新涌入中學學習,謀求新職業。但當時美國的中學所開設的課程是為了升大學服務的,不適應整個社會與失業青年的需要,這就使學生與學校課程之間發生了尖銳矛盾。在這種情況下,美國一些受杜威教育思想影響的教育家,組織了進步主義教育同盟(PEA),他們提出教育的目的在于生活,在于兒童,反對舊的傳統的死記硬背的考試測驗。他們以新教育理論為依據,以全面發展人的才能為主要目標,設計了一套新的課程,并在7所大學30所中學進行教育實驗。為達到實驗目標,需要研究一套新的考查教育成就的方法,經推薦,組成了以泰勒為首的評價委員會,時間從1933年到1940年,歷時8年,史稱“八年研究”。1940年,泰勒教授提出了第一個報告,第一次提出了“教育評價”這個概念,認為實施教育評價首先必須分析教育應達到的目標,再用這個目標來評價教育的效果,運用評價來促進教育活動向理想的目標逼近。被人們稱為“劃時代的教育評價宣言”。(二)現代教育評價的發展階段1、教育評價的開創時期(1930-1958)“八年研究”后,現代教育評價正式誕生,終于取代了教育測量成為考查教育效果,促進教育改革的重要理論和手段。在這一階段中,教育評價方法論的實證化特點非常明顯。主要表現在目標導向評價模式之中。首先,泰勒認為開展評價的論據是把所要評價的內容分成具體可見的、可操作的學生行為目標,以便在評價中能夠圍繞這些行為目標進行觀察和測定。其次,泰勒在他的評價模式中非常強調對學習和教育結果進行客觀的測量、統計。他提出三種評價手段:專家測驗、情境考察、提問作答。并提出運用時三個重要準則:客觀性、信度和效度。2、大發展時期(1958-1972)1957年前蘇聯的人造衛生上天后,美國朝野一片震驚,并對教育進行了深刻的反思。在加大教育投資力度的同時,教育評價很快從過去僅是學術機構和民間的研究轉而被納入各級政府和各地方教育當局的議事日程。1963年美國政府正式提出要對教育的效能和質量進行評價,并撥出大量專款用于教育評價理論與技術、方法的研究和培養專門的教育評價工作人員。1963年,克龍巴赫發表通過評價改革課程,提出評價的內容不應僅僅是課程或教學目標及其被達到的程度,而應更關心對教育決策及其所依據的準則的評價。為決策提供信息更應是評價的中心。1963年格拉澤發表文章,在指出相對評價的不足時,提出在學校教育中應著重絕對評價。1967年斯克里芬發表評價史上具有深遠影響的評價方法論,指出過去的評價不僅在理論上而且在實踐中都很不全面。他第一次對形成性評價與終結性評價、專業性評價與業余性評價、對目標到達程度的評價與對目標本身價值及比較性評價與非比較性評價等作了明確的闡述和區分。1969年,艾斯納對泰勒的目標評價理論進行了抨擊,認為對教育本質的不同理解,可以造成對目標的不同表述,泰勒的評價方法不一定適用于教育實際,因為它既沒有提供評價目標本身的方法,也沒有提出判斷評價目標與結果之間差異的標準。從此,以目標為中心的評價模式不再是唯一的了。其它評價模式相繼出現,目標的價值結構受到了挑戰。在這一段時間里,出現了40多種評價模式,各適用于不同的范圍,采取不同的方式方法。3、專業時期(1973至今)在這一階段中,教育評價方法論的人文化特點得到迅速發展并有超過實證化傾向的勢頭。這些評價模式的共同特點就是在評價中不只是單純從評價者的需要出發,而是考慮到所有參與人的需要,強調個體的經驗、活動和主觀認識的作用,不過分追求客觀化,并試圖摒棄數量特征,而是從人的角度出發,重視人文社會科學方法在評價中的運用。如應答評價模式的應答,就是讓評價對象和其他與評價有關人員提出他們關心的問題,并表達他們各自的意見,在評價過程中,評價者的職責就是把收集到這些資料與眾人討論,并以磋商的形式,逐漸消除分歧,最近達成共同的、公認的、統一的觀點。第二章 教育測量的基本問題(添加內容)一、測驗必須注意的問題我們前面已經說過,教育測量實際上是基于心理結構的分析而進行的間接測查,這一特點給相應的測量工具的設計帶來了幾個難題,如人事部門的一位心理學家想編制用于測試某工廠求職人員機械能力的測驗,一位學校心理學家想編制教師對身體殘疾學生的態度量表,一位教師想編制一套五年級學生解答多位數除法技能的單元測驗這里,每個人要測的東西結構上完全不同,那么應該怎么來設計呢?其實,對于所有的心理測評,測驗編制者至少要考慮五個問題:首先,對任何結構的測量不存在普遍認同的一種方法,因為對某種心理結構的測量總是建立在被認為與該結構相關的行為研究的基礎上間接進行的,當人們談到同一結構時卻往往選擇不同類型的行為給該結構下操作性定義,也可能要求學生解答一系列問題,也可能要求學生寫出每一步的結果,也可能要求他們找出答錯的題目中的錯誤,也可能要求學生用多種方法解答,因而不同的操作性定義會得出不同的測量程序,這又很可能導致對學生知識水平的不同評價。其次,心理測量通常是基于有限的行為樣組的。我們不可能考核所有我們要考查的行為,只能從其中抽樣,這就涉及測量題目的數量和內容廣度,這是產生一個良好測量的最主要的步驟。第三,測量的結果總人受到誤差的影響。第四,測量量表缺乏定義清晰的單位。受測者未能回答出多位數除法測驗的任一測題是否意味著他們沒有這種技能?如果一位同學答對了5個題,另一同學答對了10個題,第三位同學答對了15道題,是否能認為前兩位同學之間的差異與第二、三位同學之間的差異一樣呢?三個學生在測驗所測驗的能力連續體上的差距是否相等?第五,心理結構不能僅以操作定義來界定,還必須說明它與其他結構或可觀察現象間的關系。雖然心理測量建立在可觀察到的反應基礎之上,但只有它能夠按照所依賴的理論結構進行合理解釋時,它才具有意義。因此(1)必須根據可觀察行為來界定結構,這類定義具體說明了如何進行測量;(2)必須在理論系統內根據它與別的結構間的邏輯或數學關系來界定結構,這類定義為的獲得的測量結果的解釋提供了基礎。測驗理論在研究和評估中的作用為了闡明測驗理論在廣義的研究和評估方法學中的作用,把教育和社會科學研究看作是由幾個明確界定的步驟所組成的調查過程,將有助于問題的說明。這個過程可以分為以下幾個步驟:1簡潔明白地陳述研究的問題或假設; 2通過決定在研究中如何控制和測量變量,對假設中的每個變量下操作定義;(即選擇模型)3編制或選擇獲取和量化每一變量觀察值的工具及程序;(確定測驗分數的使用目的確定代表該結構的行為(包括內容分析、研究回顧、關鍵事件、直接觀察、專家判斷、教學目標等方法)領域取樣(包括隨機抽樣、系統抽樣、多階段抽樣、分層抽樣、整群抽樣、分層整群抽樣、重復抽樣、配額抽樣、判斷抽樣等多種方法)準備測驗說明書項目編制(包括最佳行為測驗法(包括是非、多選、配對)、調查問卷項目形式(包括二分法、五級連續法、兩極形容詞列表法)4檢查所使用的工具和程序的準確性及敏感性;(注意精確性、與測驗說明相符或相關程度、項目編制的技術性缺點、語法、攻擊性語言或“偏見”的出現、可讀性水平等問題,然后進行試測檢查,進行項目分析,得出項目的相關指標,即信度、效度、難度、區分度等)5收集實驗設計框架內的實驗資料,以回答最初提出的問題;6用數學方法處理數據資料,適當地利用統計檢驗去判斷觀察結果歸因于機遇的可能性。在這個過程中,測驗理論的內容與步驟2、步驟3和步驟4有很大關系。有必要指出,在進行大范圍的實驗研究(步驟5和6)之前,步驟4通常要求收集預試樣組試測結果的數據并進行統計分析,以確保工具的有效性。編制和預試研究工具失敗的部分原因是與教育和社會科學研究經常具有矛盾和模糊的結果的特點有關。在物理和生物科學中,測量程序在實驗使用之前全都要經過檢驗。一位生物化學家在沒花大量時間校準分光儀,以保證它能夠提供精確的波長讀數時,是絕不會試圖去分析實驗室中未知的化合物的。然而,相比之下社會科學家們更經常地嘗試通過實際上從未試用過的測驗去評估實驗程序如何影響了一個復雜的變量,如心理病人的焦慮水平或學前兒童的語言發展。從提出研究問題和定義變量直接跳到收集實驗資料的研究者很可能會一無所獲。假如研究者沒有觀察到各種處理之間的差異,那么他們也就不可能知道是各種處理無效,還是測量不那么精確以致處理的真實效果未被覺察到。在實施最后的正式實驗前,嚴格地遵照優秀測驗編制程序和在實踐中試測的原則將對提高教育學和心理學研究的總體質量大有裨益。三、測驗理論中的統計概念(主要是復習)(一)頻數表和分布圖(二)集中量數(眾數、中位數、平均數)(三)差異量數(全距、離差、方差、標準差)(四)Z分數(后面還會再講)(五)正態分布(六)用于描述兩個變量間關系的量(散點圖、相關系數,包括皮爾遜積差相關、斯皮爾曼等級相關、點二列相關、列聯相關等)(七)用于預測個體表現的量(回歸分析、估計的標準誤等)第二章 教育測量的質量指標第一節 信度一、 信度的概念信度指測量結果的穩定性或可靠性程度,亦即測量的結果是否真實、客觀反映了老先生的實際水平。可從三個方面來考慮:第一,信度指實測值和真值相差的程度測量的目的之一,就是希望通過測量得到的實測值能夠接近事物的真值。但由于各種原因,實測值與真值之間必然存在誤差。但誤差越小,說明信度越高。x(實測值) = T(真值) + E(誤差)由于真值是未知的,因此誤差值是大是小也是未可知的。一般為求得最接近的實測值都是通過多次實測取其平均值來作為真值的近似值。但這一方法缺乏實際可操作性,也無法求得信度的大小。第二,信度是指統計量與參數之間的接近程度統計量和參數是統計學中的兩個基本概念。統計量是指樣本上的各種數字特征(如樣本的平均數、標準差等),參數是總體上的各種數字特征(如總體的平均數、標準差等)。統計量越接近參數,這個統計量的可靠性程度就越高,因此信度越高。而要知道統計量與參數的接近程度高,可以對參數進行區間估計,這種方法對估計真分數有用,但仍然無法計算出信度。第三,信度指兩次重復測量或等值測量之間的關聯程度。如果對同一對象進行兩次重復測量或者等值測量后,計算兩次測量的相關系數,相關系數越高,說明測量的信度越高;反之,信度越低。但應注意的是,重復測量會受到被試的經驗、知識的增長等因素的影響,等值測量又較難編制,因此,采用這種方法計算信度時,也是有誤差的。信度是任何一個測量的必要條件,對于教育測量來說,它具有更為重要的意義。因為教育測量的對象主要是精神現象,所測量的特性不易把握,為了能真實地反映測量對象的某種特點,更加需要注意測量的信度。二、信度的理論公式見P32。這里需要注意的是,對實得分數進行分解后,可以分解成真分數的方差、隨機誤差的方差兩部分。很明顯,隨機誤差的方差越小,測量的信度就越高。信度取值范圍為0,1。三、信度的類型用上面的理論公式計算不了信度,因為真分數根本不知道,如果知道就不用算了。實際中常用以下幾種方法(也就是幾種不同的信度):(一)穩定性系數(重測信度)指用同一測驗試卷,在先后兩個不同時間內對同一組被試進行測驗,兩次測驗實得分數的相關系數。這是最簡單的估量信度的方法。要注意的是:(1)重測法只適用于速度測驗而不適用于難度測驗;(2)所測的信度大小,常常受到兩次測驗時間間隔長短影響;(3)第二次測驗沒有吸引力,不易引起被試的興趣;(4)要實施兩次測驗,耗費人力、物力和時間較多。(二)等值性系數當同一測驗的一種型式不能或不適合實施兩次時,就需要采用該測驗的另一個平等測驗或者復份(復本)。復份要求在測驗的內容、題數、格式、難度、平均數、標準差等方面應與原測驗一樣,否則,估計的等值系數就會出現較大誤差。決定等值系數的方法是,先實施第一次測驗,然后在最短時間內實施第二份等值的測驗,再求它們的相關系數,這個相關系數就是信度的等值性系數。采用復份法估計信度系數要注意:(1)兩次測驗試卷要等值,即在內容范圍、題型、題數、難度、區分度等方面要基本相同;(2)兩次測驗要盡可能在較短的時距內進行;(3)確定兩次測驗是否等值,還要考察兩次測驗結果的平均數與標準差。但在實際操作中,要編制兩份等值的測驗是非常困難的。(三)內部一致性系數前面兩種估計信度系數的方法都是要測驗兩次的,但在實際的測驗之中,一方面教師很難編制兩份等值的試卷,學生也沒有那么多時間和精力重復參加測驗。因此需要根據一次測驗來估計測驗的信度系數。這就是內部一致性系數,即把一次測驗人為地分成兩個部分,比較兩個部分的一致程度,從而估計信度系數。按照分成兩個部分的不同,內部一致性系數的估計方法有兩種:1、分半信度這種方法是將一次測驗分成兩個假定相等而獨立的部分來記分,通常是以題目的奇數為一組,偶數為一組,計算兩組的相關系數,最后用斯皮爾曼布朗公式校正,求得整個測驗的信度系數。(公式見教材)2、庫德爾理查森公式法用這種方法只需要測驗一次,然后以各個問題的正確反應數為基礎(此可視為各題難度的信息),或根據各人部分的平均數和標準差,計算信度系數。庫德爾理查森公式有好幾個,最常用的是rKR20和rKR21。rKR20的用法:以每題能正確回答的人數占總人數的百分數為基礎計算(每題只有通過或未通過兩種分數)。具體公式見教材。rKR21的用法:這個公式以各反應者總分的平均數和方差為基礎計算,無需各題難度的信息。公式見教材。計算內部一致性系數,需要注意下列問題:A、若用分半法時,以按奇數題和偶數題分為兩半為宜。若把整個測驗分為前后兩半,一方面前半部試題與后半部試題未必等值,另一方面被試者在完成后半部試題時,可能因疲勞、厭倦等原因而影響回答質量,以致前后反應不一致,影響信度。B、若速率是測驗的重要因素,則不宜用分半法,因為速度測驗中試題的難度低,被試者得分多少,在很大程度上是因為答題的多少,分半法易使得分相同,從而夸大分半法的信度估計。C、如果答案多種多樣,得分也多種多樣時(如論文式考試),則不能用上列公式計算一致性系數。(四)論文式測驗的信度系數論文式測驗的評分,沒有嚴格的評分標準,以致同樣一個題目,不同的應試者的回答和得分都不一樣,所以無法用前面的公式,而要用克龍巴赫所創的系數公式(見教材)。(五)評分者信度一般論文式考試,只能提供列出答案要點的參考答案而無固定的標準答案,因而不同的評分者對同一份試卷往往給分不同,甚至有很大懸殊。在作文測驗、投射測驗、品德測驗、創造力測驗等的評分中,都存在這個問題。計算這種信度需要區分評分者的人次數。若為2人評N份試卷,可用斯皮爾曼等級相關計算;若為三人以上評N份試卷,則用肯德爾和諧系數計算。四、提高信度的方法(一)信度以多大為宜:對于學科測驗,要求達到0.9以上;智力測驗要求達到0.8以上;品德測驗能達到0.6以上就不錯了。(二)測量誤差的來源1、測驗本身所引起的誤差:測驗本身的有些因素會直接產生誤差:如題目格式中的判斷題猜測的可能性會很大;規定的時限;用詞不準確引起的誤解;題目的多少等。測驗所包括的測題樣本也會引起測量誤差。2、測驗的實施所引起的誤差:如指導語錯誤,對答案紙的錯劃、時間記錄的錯誤、主試本身的主觀影響、記分誤差等。3、被試引起的誤差:這是最難控制的誤差,具體表現為動機的作用;學習、發展和教育的影響;對于測驗的經驗;測驗的焦慮;生理因素等。(三)提高測驗信度的方法1、適當增加測驗題目的數量,即可提高信度也可提高效度;2、測驗的難度要適中,這樣信度能達到最大,也能使測驗區分度達到最大;3、測驗的內容應盡量同質;4、測驗的程序應統一,包括試卷統一、測驗開始時的指導語、回答問題的方式、分發及收回試卷的辦法、測驗時間的掌握等,特別應該提到的是,考試的組織問題、監考問題等,這是關系到測驗信度的重要因素;5、測驗的時間要充分;6、評分要盡量做到客觀化、減少評分誤差。第二節 效度一、 概念指測量結果的準確性和有效性的程度,亦即測量是否達到了預期目的。首先,測量的效度始終是對一定的測量目的而言的。一般而言,任何測量都有某種特定的目的和功能,判斷效度高低,就是判斷測驗達到目的的程度。其次,測量的效度也是對測量的結果而言的。一種測量工具只能經過實際測量,才能根據出來的結果判斷它的效度。所以也可以把效度理解為測量的結果正確反映所欲測量的特性或功能的程度。對于任何一種測量來說,只有當它的測量結果真實、正確地反映所欲測量的功能和特性時,才能認為這種測量是較為有效地或效度較高的。第三,一種測量的效度只是高或低的問題。因為,一種測量在編制時,總是針對一定目的而編制的。不存在無效度的測量,只是高或低的問題而已。第四,在教育測量中,效度問題比在其他領域的測量更為重要。因為,首先,教育測量的對象大多是精神現象,只能通過對其具有可測性的外部表現(如言語或動作等)的測量,以間接認識其心理活動、心理特征或知識水平等。其次,學生的心理活動、心理特征與其外部表現之間,一般僅具有相關關系而無函數關系,外部行為并不能準確無誤地反映某種心理狀態。此外,教育測量的對象不是物而是具有主觀能動性的人,人能有意識地調節自己的外部行為,掩蓋自己的內心活動,這就增加了認識其精神現象的難度。二、效度的理論公式實得分數可分解為潛在真分數,系統誤差,隨機誤差三部分。具體關系見教材P43。三、效度的分類及估計(一)、內容效度指測驗目的代表所欲測量的內容和引起預期反應所達到的程度,也就是測量內容的代表性程度。在編制測驗時,內容效度是一個相當復雜和不易解決的問題。以成績測驗來說,固然要求測驗題目能代表所學習過的全部內容,但僅僅在形式上做到這一點還不能保證足夠的內容效度,因為學習成績的高低要從學習內容的鞏固程度、理解程度和應用能力幾種行為反應去考察。如果測驗題目大多是只需要牢記教材就可以回答的問題,那么,對全面測驗學生的成績這一目的來說,內容效度仍然不高。估計內容效度的方法:1、邏輯分析的方法。這是根據教育學和心理學的理論,根據教學大綱要求,勾畫出學生掌握知識內容的范圍和深度,提出應形成的技能名稱,然后以邏輯分析的方法估計測驗在多大程度上代表了這些內容,在多大程度上能夠測量出所要測量的特性和功能。2、用測驗題目與教材內容比較的方法。這需要先制兩個表:一個是測驗的雙向細目表(見第三章),分別列出所要測驗的各單元教材內容在考題中應占的百分比和所要求的各種行為的反應在全部反應中的百分比。另一個表是測驗試題分類表,根據各單元教材內容列出試題,并注明該題所要求的行為反應及其應占的百分比。然后對照這兩個表,根據各個部分相符合的程度判斷內容效度的高低。(二)效標關聯效度又稱經驗效度或統計效度,是以測驗分數和效標之間的相關系數來表示測驗的效度高低的。效標就是足以顯示測驗所欲測量的特性的變量或足以顯示測驗所欲測量的特性的變量,作為檢定效度的參照尺度。效標關聯效度又可分為同時效度和預測效度。同時效度指測驗與當前效標之間的關系程度;預測效度指測驗與將來的效標之間的關聯程度。如用全國高考的成績作為效標來檢驗高中畢業會考的成績,計算兩者的相關系數就是會考的同時效度;而用大學一年級的成績作為效標來檢驗高考的成績,兩者的相關系數就是高考的預測效度。效標是用來衡量測驗效度的尺度。具體而言,效標是辨別真偽的尺度,當事物滿足該原則要求時,才能存在。效標是不能違反的。當然,標準可以提高,也可以降低。效標不僅隨著測驗的種類不同而不同,也可能隨時間而改變。選擇效標是件困難而重要的事情。通常教育測驗所依循的效標,可采用各學科成績和教師的評定結果;智力測驗的效標,可采用學科成績、教師評判的結果、學生總成績、受教育年限、年齡以及其他相關事物;能力傾向性測驗的效標,可采用特殊課程或特殊訓練的成績等;職業興趣測驗的效標,可采用從業人員實際服務成績或記錄;人格測驗的效標,很難找到,只能按編制者的主觀標準判斷,或以被試以后的行為或臨床資料作為效標。效標關聯效度的計算主要通過計算相關系數求得,可用積差相關、二列相關或點二列相關、四格相關和多元相關系數等。(參見有關教育統計學教材)。(三)結構效度指一個測量能實際測量出理論上的概念或心理特性的程度。它的目的在于用心理學的概念來說明分析測驗分數的意義,也就是說從心理學的理論觀點就測驗的結果加以解釋和探討。結構效度的研究是較困難和有爭議的,至今從概念上和數學上作了部分解釋。確定一個測量的結構效度之所以困難,是因為效標、構想不是直接可測的,因而不能計算測量與效標的相關。結構效度確定的方法如下:首先從某一結構理論出發,導出各項關于心理功能或行為的基本假設;據此編制測驗;然后由果溯因,以相關、實驗和因素分析的方法,檢驗測驗結果是否符合心理學上的理論見解。例如,從現代智力理論,可以推斷四項主要功能上的假設:()智力隨年齡增長;()智商是相對穩定的;()智力受遺傳影響;()智力與學業成就有密切關系。因此,在根據上述的假設編制智力測驗后,就要從上述四個方面進行檢驗。由此可見,結構效度是由累積的證據來評價,不可能有單一的結構效度指標。確定一個測量的結構效度需要兩個重要步驟。首先,必須指出,這個測量和所用理論上認為應與之有關的其它測量,有顯著的相關。其次,必須指出,必須指出這個測量與所有理論上認為不應與之有關的其它測量,沒有明顯相關。四、提高效度的辦法(一)各種效度的要求不同測驗對效度系數有不同要求。例如,智力測驗分數與教師對學生的等級評定之間的效度系數一般在0.30.5的范圍內;相同科目的標準測驗成績與教師對學生名次排列之間的相關系數一般應達到0.600.70之間;兩種不同的智力測驗或標準測驗之間的相關系數應達到0.600.80,才能符合要求。對效度系數大小的要求,也受原始與獲得效標的測驗之間的相似性制約。若二者不相似,則效度系數偏低;若相似,則效度系數會高些。(二)影響效度的因素1、測驗組成方面:測題的性能是影響測驗效度的因素之一,如測驗的取材、長度、辨別力、難度及其編排方式等都和效度有關。2、測驗實施方面:一個測驗的效度要保證,主試應適當控制測驗情境,遵照測驗守則的各項規定實施。3、被試主觀狀態方面:被試的動機、興趣、情緒、態度和身體健康及是否充分合作與盡力而為等都能影響結果的可靠性和正確性。4、估計效度所依循的效標:選擇適當的效標是統計效度的先決條件。如因所選效標不當,以致測驗的效度不能顯出,則測驗的價值可能被淹沒。一個測驗因其所采用的效標不同,其效度可能大相徑庭。從統計觀點來看,一個效標關聯效度受下列三個因素影響:(1)測驗信度;(2)效標變量測量的信度;(3)測驗變量和效標變量之間真正的相關程度。5、樣本方面:效度確認所依據的樣本,必須能代表某一測驗所擬應用的全體對象。一個測驗應用于不同的對象,由于他們在性別上、年齡上、教育程度上以及經驗背景上的差別,其測驗功能不一致,效度也隨之而異。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論