




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
二外語寫作測試評分研究綜述
1.自動化評分sqp通過行為(反映行為)的語言測試(作文測試、口語測試等),提高了效率,因為它的固有復雜性和多樣性(例如作文測試、口語測試等)。引入了許多誤差因素(schonen20005)。當前使用的寫作測試大都需要人工評分。在評分過程中,測試任務、評分方法、評分標準、評分員的評分策略、評分風格等方面的變量對評分員的評分決定起著很大作用(Weigle2002)。國內外的語言測試界已經對該領域做了一些探索。鑒于人工評分的諸多缺陷,計算機自動化評分成為當前研究開發(fā)的熱點。本文擬對評分方法、評分標準及其設計方法、評分模式、評分員差異性(variability)、計算機評分等相關方面的研究加以綜述。2.2.外語寫作考試評分研究2.1于寫作測試的反思評分方法可分為關鍵屬性評分法(primarytraitscoring)、整體式(holisticscoring)和分項式(anyliticscoring)(1)。第一種評分方法是針對某個特定寫作任務設計的,分數的意義不能外推到其它任務。這種方法多用于母語(L1)寫作評分,在二/外語(L2)寫作評分中極少使用。整體式評分法是評分員根據對受試文本的總體印象給出一個分數,分項式評分法則是對受試文本的不同方面的質量分別給分,然后把分項的分數加起來作為受試的寫作成績。在分數報道時,前者只有一個總分,后者則可以提供各分項的分數和總分,均可外推到其它寫作任務。二者的優(yōu)劣在學界爭論已久。Bacha(2001),Kroll(1990),Hamp-Lyons(1991,1995),Shi(2001)等學者主張,分項式評分法更適用于二/外語寫作測試。按照Bachman&Palmer(1996)的語言測試質量評價標準——“實用性”(usefulness)原則,兩種常用評分方法可以比較如下(見表1,H表示較高,L表示較低)(Weigle2002;Shaw&Weir2007)。兩種評分方法的優(yōu)勢和不足可以歸納如下。整體式評分法的優(yōu)點:(1)可行性較強,省時省力,效率高;(2)重視受試的優(yōu)勢而不是缺點;(3)符合真實自然的閱讀特點。但其缺陷也很明顯:(1)不能為教學提供足夠的診斷性反饋信息;(2)分數不易解釋,因為同樣的分數可能具有不同的意義;(3)盡管整體式評分法強調整體印象,要求評分員對文本的質量全面把握,但是,在實際評分中,評分員對不同方面的側重可能存在較大差別;(4)一些實證研究表明,整體式評分法得出的分數與文本的表面特征高度相關(Weigle2002)。分項式評分法的優(yōu)點是:(1)能提供較詳盡、具體的診斷性信息;(2)有利于準確評價寫作能力發(fā)展不平衡的L2學習者;(3)有利于評分員的培訓;(4)信度較高。但是這種評分法也有很多不足之處:(1)花費高,效率低,可行性不強;(2)把分項的分數加起來構成總分后,分數包含的信息也大多失去了;(3)評分員傾向于根據得出的總分調整分項的得分,分項分的意義值得懷疑。在EFL/ESL寫作測試領域對兩種評分方法比較的實證研究并不多見。Carr(2000)比較了整體式評分法和分項式評分法對ESL作文評分的影響。因子分析和回歸分析發(fā)現,不同評分法得出的分數的意義存在差異,兩種評分法得出的分數無法比較。整體式得分似乎僅僅反映了一個構念(寫作能力的整體),而分項式得分則反映了不同的構念成分。Bacha(2001)探索了EFL分班寫作測試評分時兩種評分法的差異。兩位評分員分別根據Jacobsetal.(1981)的評分標準對學生的30篇作文進行整體式和分項式評分。其研究表明,兩種方法得出的分數之間的相關很高,評分員內部及之間的信度也都較高;但是,分項式評分方法提供了受試在不同寫作能力方面表現的更多具體信息。Barkaoui(2007)結合概化理論(G-theory)和有聲思維(think-aloudprotocol)研究方法考察了整體式評分法(Tydall&Kenyon1996)和分項式評分法(Brown&Bailey1984)對EFL作文得分、評分員評分過程和評分員的認可程度的影響。他發(fā)現整體式評分比分項式評分的信度(評分員之間的一致性)更高,但兩種評分法的評分過程基本相同;整體式評分法信度高的原因可能是評分員傾向于依靠自己的評分經驗而不是所提供的評分標準,評分員是決定評分和評分行為的最重要的因素。羅娟(2007)對整體與分項兩種作文評分方法比較研究表明:(1)整體評分法的評分效率顯著高于分項評分法,整體評分法在經濟性與可操作性方面比分項評分法更具優(yōu)勢;(2)整體評分法的評分結果概化系數及可靠性系數與分項評分法相比都更高;(3)在大規(guī)模的寫作測試評分中,使用整體評分標準更加合適。李清華(2010)比較了TEM-4寫作新的分項式評分標準與原整體式評分標準。肯德爾和諧系數和多層面Rasch模型分析表明,分項式評分標準在區(qū)分受試寫作能力、評分員之間及內部一致性、評分員與受試之間的交互作用偏差、評分量表的區(qū)分性等方面優(yōu)于整體式評分標準。問卷調查發(fā)現,盡管評分員對新標準的一些方面還不太滿意,但他們傾向于選擇新的分項式評分標準。該研究的初步結論是,對于TEM-4這種EFL寫作測試而言,在其寫作部分評分中分項式評分標準好于整體式評分標準,根據新的分項式評分標準評分可以在一定程度上提高TEM-4寫作的評分效度。這幾項研究的局限性在于,受試樣本較少,研究結果的外推力不夠強。整體式和分項式評分方法孰優(yōu)孰劣似乎沒有定論。在設計評分標準時,評分方法的選擇應當主要取決于測試目的和當地的實際條件(Barkaoui2007;Knoch2009)。對于大規(guī)模語言測試而言,如果僅僅為了達到甄別選拔的目的,效率高的整體式評分方法更合適;如果需要對受試及其他相關人員提供詳盡的反饋信息,分項式評分方法則是更好的選擇。在制定評分標準時,既要有專家參與,也有必要充分了解廣大教師評分員的意見。評分標準初步方案應在評分員中反復討論,并且在試評后進行修正。在具體的評分標準制定之后,仍有必要對評分員進行培訓,以便調整他們的評分行為和策略,盡可能用評分標準指導評分實踐。2.2感官評分interpersonal評分標準(量表)是評分員判斷受試文本質量的依據,應充分反映寫作能力的構念,并且有較強的可操作性。一般來說,評分標準應包括寫作能力的維度、每個維度的詳盡描述語;如果采用分項式評分法,還應為每個維度賦分或設定權重。從使用者的角度看,評分標準可以分為三類:(1)供命題人用(constructor-oriented)——提供命題人所需的信息,如對測試任務的詳細描述;(2)供評分員用(assessor-oriented)——指導評分員的評分行為和過程,應對每個維度及其權重進行詳細說明;(3)供用戶用(user-oriented)——用戶能夠參照評分標準解釋分數的意義(Alderson1990;Weigle2002)。2.2.1ask的寫作任務等級總起來說,在ESL/EFL寫作測試中,以英國為代表的歐洲多采用分項式評分法,如IELTS,而以美國為代表的北美則多用整體式評分法,如TOEFL。有代表性的整體式評分標準主要有:TOEFL作文評分標準(ETS2000),Tyndall&Kenyon(1996),TOEFLCBT寫作部分的整體式評分標準(Leeetal.2008)等。下面以TOEFL作文評分標準為例加以說明。在TOEFL作文包括三種寫作任務:獨立寫作任務(IndependentWritingTask),讀—寫結合寫作任務(Reading/WritingTask)和聽—寫結合寫作任務(Listening/WritingTask)。獨立寫作任務含六個等級(0到5),讀—寫和聽—寫任務則沒有0分。所有等級都包含4個維度:(1)切題;(2)論證充分;(3)結構統(tǒng)一,銜接連貫;(4)語言的豐富性和恰當性。每個等級都有明確的描述語,如滿分(5分)的標準是:“完全切題,充分完成任務;結構完整,論證清晰,例證豐富;銜接和連貫;語言使用自如,句式多樣,用詞恰當,語言地道,允許有少量詞匯或語法錯誤?!蹦壳?比較有影響的ESL/EFL分項式作文評分體系有Jacobsetal.(1981),Weir(1990),Hamp-Lyons(1991),IELTS(2005)等。我們以“以英語為第二語言的作文評分標準”(ESLCompositionProfile,縮寫為ESLCP)為例作簡要說明。ESLCP由Jacobs及其同事一起開發(fā)(Jacobsetal.1981),包括5個維度,其權重不完全相同:(1)內容30%;(2)結構20%;(3)詞匯20%;(4)語言使用25%;(5)寫作規(guī)范(Mechanics)5%。對每個維度的評價又分為四個分數段:優(yōu)秀、良好、一般、差。該標準是最早的分項式評分標準之一,經過多年的檢驗,證明是較為可靠的,成為分項式評分標準的典范,廣泛應用于L2寫作評分研究。后來開發(fā)的L2寫作分項式評分標準大多以此為藍本(如Sasaki&Hirose1999;Eckes2008;Schaefer2008),對L2寫作研究的分項式評分也多以此為工具(如Bacha2001)。2.3語言行為特征Fulcher&Davidson(2007)主張,評分標準的設計方法有兩種:(1)基于直覺式(intuitionbased):相關專家根據直覺制定評分標準。當然,專家并不是依靠自己的主觀印象,而是基于他們的理論和經驗決定評分標準所應包括的維度及其權重。(2)基于實驗數據式(databased):通過對受試的語言行為樣本進行語篇分析或話語分析得出受試的語言行為特征,也可以讓評分員對受試的語言行為進行評價,并歸納出他們作為評判依據的語言行為特征。越來越多的學者主張采用第二種方法(如,Bacha2001;East&Young2007;Fulcher&Davidson2007;Hamp-Lyons1991;Knoch2009;McNamara1996;Weigle2002)。對于L2寫作測試而言,這種方法表現為兩種模式:第一,文本特征模式(textcharacteristicsmodel):經過實驗研究,歸納出能夠反映受試寫作能力的文本特征;第二,讀者—作者互動模式(reader-writermodel):根據評分員的評分行為,歸納出評分員評閱作文時所關注的文本特征。一般說來,這兩種方法得到的數據可以互相補充(Cummingetal.2001)。當代大規(guī)模、高風險寫作測試的評分標準大都是基于實驗數據設計的,如新IELTS的寫作評分標準(Shaw&Weir2007;Shaw&Falvey2008)、新TOEFL的寫作評分標準(Cummingetal.2001,2002;Leeetal.2008)、TEM-4寫作測試分項式評分標準(李清華2010)等。2.4s12寫作測試模式鑒于行為測試評分的復雜性,為了探究影響評分的諸多因素的作用,一些學者試圖構建評分模式,以期通過圖解的方式使評分過程中的因素及其關系明晰化。下面試歸納行為測試,特別是寫作測試領域的相關成果。McNamara(1996)在比較客觀語言測試與語言行為測試時,提出了“語言行為測試評分模式”。他強調,受試的語言能力通過考試工具(測試任務)表現為“語言行為”,評分者需要根據評分量表對受試在測試中的行為表現評出等級或分數。這一模式具有開創(chuàng)性但卻失之簡單,各變量之間的關系不夠清楚。隨后,Fulcher(2003)基于口語測試和語言測試其它領域的研究成果,提出了口語測試行為模式。這一模式突出了構念的核心地位:評分標準和細則應依照測試的目標——構念來設定,所得出的分數是用來推測受試的語言能力(構念)的;強調評分標準的重要性:評分標準制定的依據和過程會影響分數意義的解釋和基于分數作出的決定;強調除了語言能力之外,受試的背景知識、應試過程等個人因素以及測試任務的特征、測試的物理條件、其他參與者等外部因素也會影響其測試表現。該模式反映了當代語言測試效度觀,對口語測試及其它行為測試的評分研究具有較大的指導意義。但是,該模式沒有明確“評分標準的設計依據”、“評分標準”和“構念”的關系。在L2寫作測試領域,較有影響的評分模式包括Milanovicetal.(1996)的試探性評分過程模式、Upshur&Turner(1999)的行為測試評分模式、Sakyi(2000)的整體性評分試探性模式(atentativefactorsmodel)、Lumley(2005)的寫作評分過程模式及TOEFL作文評分過程模式(Cummingetal.2002)等。Upshur&Turner(1999)的實驗研究表明,評分員在評分時不僅參照評分標準評價受試文本,而且會受到測試任務的影響。他們據此提出了行為測試評分模式:第一層次是受試的應試過程,即受試完成測試任務的過程;第二個層次是影響評分員評分的外在因素,包括受試寫出的文本和評分標準;第三個層次表示評分員作出評分的決定。Milanovicetal.(1996)根據Cumming的評分員評分行為和Milanovic等人的研究結果,總結出一個試探性評分過程模式(見圖1):第一步,評分前對評分標準、寫作任務的理解和內化;第二步,跳讀,觀察文本的表面特征,如,篇幅、書寫等;第三步,快速閱讀,形成對文本質量的整體判斷;第四步,打分;第五步,調整分數;第六步,作出評分的最后決定。該模式包括評分員的評分行為(如,掃讀、速讀、調整、重評、最終打分等)和評分員在評分過程中所關注的文本特征(如,掃讀時注意文章的長度、書寫、結構等)。Sakyi(2000)采用有聲思維方法對6位ESL評分員的寫作評分過程的研究表明,有多種變量影響評分決定。他提出了整體評分的試探性模式(圖2)。該模式涉及兩個方面的因素(變量):左側內容因素和語言因素指作文文本的特征,這兩個方面的因素使評分員形成“總體印象”(generalimpression)。同時,評分員的個人傾向或期望及其個人調整因素也可能影響其印象(用虛線表示)。中間的三個圓所表示的評分員個人因素決定了評分結果。Cummingetal.(2002)發(fā)現,ESL/EFL評分員評閱TOEFL作文的典型評分過程(PrototypicalSequence)可分為三個階段:第一、掃視作文的表面特征(surface-levelidentification),如篇幅長短、分段、格式等;第二、運用解釋性評分策略和評價性評分策略對文本質量作出判斷:(1)辨別錯誤類別,以便確定受試的語言掌握情況;(2)判斷文本的可理解程度(comprehensibility),以便評價其語言使用和修辭的恰當性;(3)根據銜接連貫和思維邏輯判斷文本的內容表達和組織結構;(4)設想寫作的交際情景,決定對受試的個人看法;第三、總結或調整以上判斷,作出評分決定。Lumley(2005)的研究也表明,評分員評分的基本過程可以分成三個階段:(1)閱讀——評分員讀文并形成對文本質量的總印象;(2)打分——按照評分標準給分;(3)證實或調整/校正——對評分做出明示或內隱的確認或修改。但是,這一過程不總是直線性,是循環(huán)反復的過程。他還發(fā)現,評分員的評分不僅僅是一種個人行為,會涉及三個層面,一是機構層面(institutionallevel):評分員的評分受到相關機構制定的評分標準的限制,還要接受機構的培訓等;二是工具層面(instrumentallevel):評分員使用評分標準,參照寫作任務對受試的文本質量作出評價;三是解釋層面(interpretationlevel):評分員會在個性化的主觀印象與機構要求的評分客觀性之間取得平衡。2.5評分員間的一致性大量研究表明,行為測試的評分差異更多來自于評分員的差異而不是受試行為表現的差異或評分標準(如Bachmanetal.1995;Engelhard&Myford2003;Eckes2008;Lumley2005;Lumley&McNamara1995;Schoonen2005;Weigle1998)。在很多情況下,嚴格的培訓可以提高評分員的內部一致性,但評分員之間差異性并沒有顯著減少(Lumley&McNamara1995;Weigle1998),甚至于在評分員得到反饋信息之后,評分行為也未發(fā)生明顯變化(Elderetal.2007)。評分員的差異性表現在很多方面,目前研究較多的是評分風格和評分策略。2.5.1通過文本評分篩選Milanonicetal.(1996)對評分員的即時口頭報告(introspectiveverbalreport)和回顧式書面報告(retrospectivewrittenreport)及訪談數據的分析,發(fā)現4種評分風格:(1)原則性兩次閱讀(principledtwo-scan/read):總是讀兩遍文本,在讀第二次時,把該文本與其它文本作比較;(2)實用性兩次閱讀(pragmatictwo-scan/read):只有當第一次讀后仍難以作出評分決定時才不得不讀第二次;(3)通讀一次:從頭到尾讀文本一遍,找出其優(yōu)點和不足,然后評分;(4)打出預測分(provisionalmark):邊讀邊給出一個暫時分數,然后在后面的文本中找出更多證據支持或修正已給出的分數。在Sakyi(2000)的研究中,通過對6位評分員分別評閱12篇作文過程的觀察,研究者發(fā)現了4種評分風格:(1)專注于文本中的錯誤;(2)專注于思想表達;(3)受個人情感反應的影響;(4)專注于評分標準。Cummingetal.(2001,2002)的研究發(fā)現了3種風格:(1)自我調整(self-monitoringfocus):讀或重讀文本,與其它文本比較;(2)關注思想表達、任務完成的程度;(3)關注語言質量:詞匯、句法、錯誤出現的頻率。Eckes(2008)對65位評分員進行問卷調查,了解他們對TestDaf所使用的分項式評分標準的看法。多層面Rasch模型和聚類分析發(fā)現,盡管該評分標準呈現出單維性(unidimensionality),但評分員之間的差異顯著。按照評分標準各維度所得到的重視程度,所有的評分員可以分成6種風格,其中4種類型最重要:(1)關注句法(syntaxtype);(2)關注準確性(correctnesstype);(3)關注結構(structuretype);(4)關注流利度(fluencytype)。另外,這些類別的評分員都未能全面重視評分標準的所有維度,而且評分員的差異與他們的背景變量(年齡、海外經歷、掌握的外語種類等)顯著相關。該研究表明,即使有評分經驗的評分員在經過嚴格細致的培訓后,其評分行為仍存在較大差異,表現出不同的評分風格。上述研究結果表明,評分員的評分風格具有較大差異,表現在所關注的焦點及其評分決定依據往往不同。但這些研究的參加者較少,研究結果的外推力不大。2.5.2egies和評判評分員的差異還表現在他們所使用的評分策略(decision-makingstrategy)方面。Cummingetal.(2002)對TOEFL評分員的研究發(fā)現,評分員主要使用了兩類策略:解釋(InterpretationStrategies)和評判(JudgmentStrategies)。按照評分員關注的焦點,評分策略可以分為三種:自我調整(MonitoringFocus)、關注修辭和思想表達(RhetoricalandIdeationalFocus)、關注語言(LanguageFocus)。Lumley(2005)對四位有經驗的評分員評分策略的分析顯示:(1)評分員在做出評分決定時,往往要在自己對文本特征的印象、文本的具體特征和評分標準說明語之間進行調整;(2)評分員似乎能夠對評分標準達成一致理解,但在實際評分時使用方式和側重仍有不同;(3)評分員可能先做出評分判斷,然后再到評分標準中找依據并對評分判斷加以調整。Lumley的研究結果也支持Barkaoui(2007)的結論:在作出評分決定時評分員因素比評分標準的作用更大。2.6心理情感智能的自動作文評分系統(tǒng)鑒于人工評分存在的諸多問題,近年來自動作文評分(AutomatedEssayScoring,AES)系統(tǒng)的研究與開發(fā)成為研究的熱點。該領域的開拓者Page在1966年開發(fā)了ProjectEssayGrader(PEG)系統(tǒng),但這個系統(tǒng)只是通過文章的淺層語言形式特征的分析對作文進行評分,沒有觸及文章結構或者內容,因而受到人們的批評。上世紀90年代,自然語言處理(NaturalLanguageProcessing,NLP)與信息提取(Informat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畜牧資源利用與疫病防控責任協(xié)議
- 營銷渠道拓展合作合同內容
- 行政管理中員工行為的心理學分析題及答案
- 游戲行業(yè)游戲引擎優(yōu)化方案
- 施工質檢規(guī)范試題及答案
- 行政管理心理學與員工心理契約的關聯研究試題及答案
- 2025關于餐廳轉讓合同的范本
- 2025年心理學學習方法試題及答案
- 2025年建筑工程考試的項目管理試題及答案
- 行政管理心理學實踐案例分析試題及答案
- 圍術期室性早搏處理
- 違反公務用車管理制度談心談話記錄內容
- 《心理健康教育》課件-關愛心靈擁抱陽光
- 辦理證件協(xié)議書
- PAC(流產后關愛)項目之流產與避孕培訓課件
- 腸道疾病的診療培訓課件
- 山東省施工現場監(jiān)理表格目錄及格式匯編
- 山西煤炭運銷集團三元石窟煤業(yè)有限公司礦山礦產資源開發(fā)利用、地質環(huán)境保護與土地復墾方案
- 團隊項目任務完成進度跟進表模板
- 山東省應急管理普法知識競賽參考題庫-中(多選題)
- 色彩與服裝色彩搭配
評論
0/150
提交評論