簡明英語測試教程市公開課金獎市賽課一等獎課件_第1頁
簡明英語測試教程市公開課金獎市賽課一等獎課件_第2頁
簡明英語測試教程市公開課金獎市賽課一等獎課件_第3頁
簡明英語測試教程市公開課金獎市賽課一等獎課件_第4頁
簡明英語測試教程市公開課金獎市賽課一等獎課件_第5頁
已閱讀5頁,還剩351頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、英語測試概述:過去、現在與未來語言測試是一門古老而又年輕學科,盡管當代語言測試歷史不到1,語言測試歷史淵源卻能夠追溯到很久以前(Spolsky 1995)。語言測試是應用語言學一個主要分支,它包括教學法、二語習得理論、語用學、心理語言學、認知心理學、教育測量學、計算機科學等各種學科。語言測試是伴伴隨語言教學出現,并伴隨語言教學發展而發展,不一樣時期,人們語言觀不一樣,采取語言測試方法也不一樣。世界語言測試理論經歷了四個發展階段,反應了三個語言測試理論模式。伴隨語言測試理論發展,語言測試在實際應用和理論研究方面也出現了許多新改變,已引發越來越多學者們注意。第1頁語言測試主要用于語言教學、語言

2、研究和教學研究、選拔人才三個方面,其中最為普遍是用于語言教學。語言測試與語言教學之間存在著一種相互依賴關系。語言測試是衡量語言教學成效和提高語言教學質量重要伎倆,是語言教學過程中重要組成部分。語言測試目是提供一種科學衡量工具,一方面對學生語言能力進行客觀、準確、公正評價,其次檢測教學效果,反映教學中長處與短處,為提高教學質量服務。由此可見,語言測試是語言教學過程中不可欠缺重要環節,語言教學離不開語言測試。第2頁語言測試與語言教學是同時存在,息息相關,緊密聯絡而且相互作用。然而,語言教學與語言測試發展并非總是同時。一個語言測試體系一經確定,在一定時期以內就含有相對穩定性,會對語言教學產生主動或消

3、極反撥作用。 第3頁語言教學與測試關系 語言測試是伴伴隨語言教學出現,語言教學與語言測試親密相關,這是毋庸質疑。但對于語言教學與測試之間關系或隸屬地位人們卻有各自不一樣看法,基本上能夠歸納為兩種:主仆關系與搭檔關系。持有主仆關系觀點人認為持有這種觀點人認為語言測試是語言教學一部分,并服務于語言教學。代表人物為英國語言測試教授Alan Davies。持另一個主仆關系觀點人沒有代表人物,卻在實際中廣為應用,即“考試是教學指揮棒”。持搭檔關系觀點代表人物是世界著名語言測試教授Arthur Hughes,他認為教學與測試是“搭檔關系”(partnership) 測試與教學既相互促進又彼此制約。第4頁1

4、. 主仆關系 語言教學是第一性,語言測試為語言教學服務 考試是左右教學指揮棒2. 搭檔關系持這一個看法人認為,測試與教學既相互促進又彼此制約,教學從目標、內容、方法與伎倆等方面制約著測試,而測試又在目標、內容和方法上對教學起著主要反撥作用。第5頁世界著名語言測試教授Arthur Hughes認為,教學與測試是“搭檔關系”(partnership) (Hughes 1989)。他說,“The proper relationship between teaching and testing is surely that of partnership. We cannot expect testin

5、g only to follow teaching. What we should demand of it, however, is that it should be supportive of good teaching and, where necessary, exert a corrective influence on bad teaching.” (Arthur Hughes )下面圖示反應了教學與測試相互關系。第6頁第7頁考試是外語教學過程中一個主要組成部分,外語考試與外語教學之間存在著相輔相成,互為影響關系。在教學中教學目標起著決定性作用,它決定了教什么(教學內容)和怎么教

6、(教學方法);教學目標是否到達需要考試作為它評定伎倆,所以考試測試目標必須以教學目標為依據,這么才能起到評定教學目標作用。在教學考試中,教學內容決定了考試內容(考什么),而教學方法決定了考評方法(怎么考),所以從理論上說,考試只是教學一個組成部分,它考評內容與方法由教學目標、教學內容和教學方法所決定。考試應在教學目標指導下進行,并不是說考試可有可無。在教學實踐中,我們發覺考試占有很主要地位。有時甚至影響到整個教學過程,使教學圍繞考試進行,其經典例子就是應試教育。第8頁這是因為考試除了有受教學其它步驟和原因影響一面外,它反過來對教學其它步驟又有反作用一面,亦即所謂反撥作用(backwash)。因

7、為外語測試結果不但能判斷外語教學目標設置正確性、可行性及實現程度,而且也能反饋、控制外語教學活動。過分強調考試反撥作用,尤其是強調考試評定和選拔功效,必定造成考試在教學過程中錯位。教師、學生、家長、教育部門對考試作用過分強化所形成協力就會造成應試教育,使考試成為教學關鍵和教學目標,這應該加以防止。 第9頁鄒申()則認為,語教學與語言測試之間存在一個相互依賴關系,教學(或課程設置)有效性能夠經過測試加以檢驗,而我們從測試中得到信息反饋也有利于改進和提升教學質量,或完善課程設置。第10頁四種英語語言測試法1.寫作-翻譯法(the essay-translation approach).這種方法主要

8、有以下特征:1.對測試技能或專長沒有特殊要求,主要是依據教師主觀判斷力;2.試卷通常包含翻譯、寫作和語法分析等項目;3.試卷內容帶有濃厚文學或文化色彩;4.試卷普通采取書面回答形式,試卷需要人工評閱。因為寫作-翻譯法不強調測試科學性或理論基礎,故有時被一些學者稱為語言測試前學科階段。(科舉考試,博士,碩士碩士考試)第11頁2.結構主義/心理測量法(the structuralist-psychometric approach).這種測試法以結構主義語言學為其理論基礎,強調不一樣語言成份能夠分別測試,比如語音、語法和詞匯都能夠脫離上下文進行單獨測試。另外,聽、說、讀、寫等項語言技能也能夠分開測試

9、,因為這個測試法主要特征是一道題能夠單獨測試一個語言成份或技能。這種方法另一大特點是采納了心理測量學一些方法,強調語言測量可靠性和客觀性。結構主義/心理測量法在語言測試中經典表現形式是多項選擇題,一個既能到達一題測試一成份要求,同時又適合于進行考后統計分析題型。第12頁3.綜正當(the integrative approach).綜正當有以下特點:1. 語言測試要在一定上下文(context)中進行;2.不在測試中刻意追求區分各單項語言成份、技能或能力,而是強調兩項或兩項以上綜合評定。較能表達綜正當考試題型有完形填空、聽寫、翻譯、寫作等。以完形填空為例,這類形式能夠同時測試學生語法、詞匯知識

10、以及閱讀了解能力。另外,語法、詞匯知識以及閱讀了解能力測試在一個特定上下文(即所給完形填空材料)環境中進行。但,上下文環境在綜正當中不是真正意義上語用環境,只是起到輔助測試語言知識作用。第13頁4.交際法(the communicative approach)。有學者認為交際法與綜正當在某種程度上有相同之處,即二者都強調語言意義而不是語言形式和結構;但同時二者之間又存在根本區分:交際法更重視語言在交際過程中使用。這里牽扯到兩個概念:usage和use。Usage主要指語言形式和結構,而use則是相關語言交際功效以及使用。語言利用是語言學習最終目標,語言形式掌握是實現這一目標方法。所以,衡量一個

11、人語言熟練程度最終標準是看此人能否在語言使用環境中有效進行交際。交際法包含usage成份,但更多是評價學生在特定語言使用環境中交際能力(use)。第14頁伴隨交際教學法在語言教學領域日漸盛行,從20世紀80年代起語言測試界也逐步受到其影響,并出現了一系列意在測試交際能力探索性考試,這類考試大約有以下幾個特點:1.考試內設計“信息溝”(information gap),要求學生經過各種已饋入信息來獲取未知信息。2.考試任務或項目之間存在關聯性(task dependency), 即一個項目要基于前一個項目完成基礎上,比如學生先聽一個電話交談,然后依據交談內容寫一封信。3.考試強調針對性,依據學生

12、詳細需求設計考試內容,比如在專門用途英語(English for Specific purpose)考試中,要依據學生詳細語言要求,確定測試內容、所需語言交際模式及其相關語言技能。4.側重更廣泛地測試語言能力,包含語言知識、語言功效,語言使用適當性等。 第15頁5.考試采取定性評定方式(qualitative modes of assessment),以取代純粹定量評定方式(quantitative modes of assessment)或作為其補充。前者屬于標準參考性質(criterion-referenced),后者屬于常模參考性質(norm-referenced).第16頁1.3當代國

13、內外大規模考試一覽1.3.1全國英語等級考試(Public English Test System,簡稱PETS)1.3.2大學英語四六級考試1.3.3英語專業四八級考試1.3.4美國托福考試1.3.5英國雅思索試1.3.6商務英語考試1.3.7人事部翻譯資格證書考試1.3.8教育部翻譯資格證書考試1.3.9上海市口譯資格證書考試第17頁縱觀上述考試設計宗旨和測試目標,我們能夠歸納出以下幾個特點:1.全部考試都意在全方面測量考生語言水平,故無一遺漏地測試各主要單項語言能力(聽說讀寫)。2.考試日趨重視對口語能力測試,而且口試與筆試分開時間間隔也越來越短;托福考試在實施了后于1981年推出托福口

14、試;CET考試在開考后于1999年增加CET-SET考試,而在1999年開始正式實施PETS考試,在推出時已包含了口語測試項目。第18頁3.考試在測試考生接收性語言技能(receptive)同時,愈加重視評價他們產出性語言技能(productive skills),所以在題型選擇上絕大多數采取多樣化形式,現有多項選擇題,又有其它形式,如簡答題、填空題、匹配題、翻譯題、寫作題等。4.考試不但考慮到信度(如分數可靠性),而且愈加重視其效度(是否到達預期測試目標等)。增加口語/寫作考試和各種題型有機組合都是為了能夠考評學生綜合利用英語進行交流能力,以提升考試效度。第19頁考試今后發展趨勢首先,伴隨計

15、算機普及,考試計算機化或無紙化進程將加緊,國外托福考試已在推行考試計算機化(CBT,CAT)。我們國內相關人士也已完成了這方面理論研究;有地方性考試已開始實施外語考試網絡化,如上海市高考英語口試已連續幾年實施網上口試和網上評分。我們能夠預測在很快未來CBT和CAT將成為考試常見形式。第20頁第二,在考試方式作用、考試分析伎倆、考生特征以及語言能力性質等方面研究將會繼續深入下去。第三,對常規考試以外其它評定方法可行性探討也會成為研究熱點,比如小組測試方式(group testing),以學習者為中心測試方式(learner-centered testing),自我評定(self-assessme

16、nt)等。第四,考試后效作用(washback effects),即考試對社會、教育機構以及學生個人影響等,也將成為研究焦點之一。以上方面研究結果無疑將會給考試注入活力,使考試成為一個更完善評定伎倆。第五,考試開發設計將愈加重視以考生為本理念;考生群體特殊要求將引導考試開發;考試社會服務功效將深入凸現。第21頁比如,英國劍橋大學地方考試委員會(UCLES)開發劍橋商務英語證書(Business English Certificate,簡稱BEC)考試專門針對商務從業人員群體。該考試從聽說、說、讀、寫4個方面,綜合考查考生在商務及普通生活環境下使用英語能力。又如,美國教育考試服務中心(ETS)推

17、出國際交流英語考試托業考試(Test of English for International Communication,簡稱TOEIC),其考試設計對象為到國外出差或國際交往頻繁非英語母語人士,如跨國企業雇員等。第22頁第二章考試功效及其類別2.1測量、考試與評定1測量。什么是測量? Stevens(195)認為,“廣義而言,測量(measurement)就是依據法則賦予事物數量。”也就是說,按照一定規則給事物屬性指派數字或符號過程就是測量。這是迄今為止公認測量定義。舉例來講,要測量一下桌子高度,我們能夠拿尺子來量一量,看看它有多高。尺子是人們依據一定法則制訂量具,利用它就能夠把事物屬性,

18、即桌子高度用數字表示出來,如,0.75米。這種測量屬于客觀察量,因為它基本上不受觀察者主觀判斷影響。第23頁測量這一定義包含三個要素: 1) 事物及其屬性。這是測量對象或目標。上面提到對桌子高度進行測量,屬于對物體進行測量,其屬性高度,是能夠觀察到,能夠進行客觀察量。在外語教學領域,我們感興趣是學生語言能力,而學生語言能力屬于人心理特征,是無法直接測量,不過人心理活動會在人詳細活動和行為中表達出來,所以只能經過測量其外顯行為或外在表現特征來推論一個學生語言能力高低。 第24頁2) 指派數字或符號。所謂指派數字或符號,就是用數字或符號來代表某一事物或事物某一屬性量。如張三在此次閱讀考試中得了87

19、分,李四得了92分,我們說李四比張三多考了5分。數字本身沒有意義,只是一個符號。我們用它來代表考生閱讀成績,這時它就變成了量化數,能夠對其進行解釋和分析。在一定條件下,還能夠對數據進行運算從而對事物屬性進行推測。第25頁3) 法則 。法則是指測量所依據規則和方法,是測量關鍵。法則不好或不可靠,得到測量結果就會出偏差,失去測量意義。簡單來說,尺子不準,測量結果就無法使人信服。對客觀世界物體進行測量時,因為有公認測量法則或尺度,如測量物體高度、重量等;普通不會出現大偏差。而對人一些特征(心理特征)進行測量時,則往往會出現較大偏差。舉例來講,有幾個評委對某學生英語口語進行評定。評委A認為一個人口語要

20、好,必須發音準確,而該學生發音好,所以他給打了個5分。評委B認為流利性最能表示一個人口語水平,該同學盡管發音不錯,但流利性差一些,所以她給他3分。同一名學生,讓不一樣評委去打分,成績出現了偏差。這也很自然,原因是他們沒有按照一個評定口語成績統一法則(rules)去給這名學生打分,結果造成了偏差。這個例子提醒我們,在對人一些心理特征,如口語表示能力、閱讀了解能力等等進行測量時,首先要制訂一個便于操作,穩定法則或標準。這么得到測量結果才可靠,才含有可比性。 第26頁2測試 測試(test)又稱測驗。不一樣心理學家對此下定義不一樣。Anastasi(1982)認為,“測試實質上是對行為樣本所做客觀標

21、準化測量。”這個定義是人們公認最權威定義,它包含以下三個基本要素: 1) 行為樣本語言測試目標是要測量受試者語言能力。上面提到,語言能力是無形,怎樣測量?只能測量它有形表現,這里所說有形表現,是指語言表現,如說出來話,寫出來句子,對測試題目所做各種反應等等、這些行為,都是無形語言能力有形表現,專心理學術語叫“表征”(manifestation)。 第27頁所謂行為樣本,是指對語言能力表現行為有效抽樣。我們知道,一個人語言能力表現行為會有各種各樣形式,測試時不可能也沒有必要把它全部表現行為都測到,只能選取一部分有代表性抽樣進行測量,然后據此對受試者語言能力作出推測。2) 客觀測量。所謂客觀測量是

22、指測量標準是否符合實際。對于一項測試客觀性程度能夠從這么幾個方面去評價: 測試題目標難易度和區分度怎樣; 測試結果可靠性程度怎樣?測試結果有效性怎樣?這幾項指標是衡量一項測試質量主要指標。3) 標準化測量標準化測量是指在測試題目標編制、測試實施、記分以及對分數解釋等方面有一套嚴密系統程序。只有這么,測試才有統一標準,對不一樣人測量結果才有可比性。凡是不標準化測量,都沒有可比性。第28頁3評價 Weiss(1972)認為,“評價(evaluation)是指為作出某種決策而收集資料,并對資料進行分析,作出解釋系統過程。”與測量、測試相比,評價含義更廣、綜合性更強。Bachman(1990)指出,決

23、策正確與否,一方面取決與決策者本身能力,其次則取決于收集到信息質量。在其它條件等同情況下,如果收集到信息越可靠,相關性越強,那么,作出正確決策可能性就越大。所以說,評價一個很重要方面就是要獲得可靠、相關信息。在談到評價與測量及測試關系時,Bachman指出,在對個體(學生)作出評價時,我們可以從質量和數量兩個方面進行描述,或只描述其中一個方面。所謂質量方面描述是指對學生行為作出定性描述,如某某學生口頭表達能力優異,書面表達能力優等;數量方面描述則是指某次測驗分數等。第29頁測試、測 量及評價三者之間關系,使用下面圖來表示。 第30頁從圖中能夠看出,我們在對某教育目標(或學生行為)作出評價時不一

24、定用到測試或測量(如面積1所表示),這種評價屬于質量評價,或叫定性評價,如指出學生在學習方面存在問題。有時在作出評價時只需測量,而無需測試(如面積2所表示),對學生口頭表示能力定出級別就屬于這種性質評價。假如要檢驗學生學習進步情況,通常就要對學生實施測試,這又是另一個性質評價,即只經過測試對學生成績作出評價(如面積3所表示)。許多情況下,測試只是作為一個科研工具或伎倆,而不是用來作出評價(如面積4所表示),在外語教學、第二語言習得研究領域,我們經常拿水平測試作為研究工具。不用測試便可進行測量情況(如面積5所表示)在外語教學研究領域也經常碰到,在研究學生第二語言習得時,假如研究對象為來自不一樣國

25、家學生,人們普通按其母語情況編號。總而言之,并非全部測量都是測試,并非全部測試都屬于評價,而且并非全部評價活動都包括到測試或測量。第31頁2.2考試功效普通說來,考試不一樣用途賦予其不一樣功效。比如,用來挑選學生考試含有篩選功效。這里主要介紹與教學和科研相關兩大功效:教學功效及科研功效。2.2.1教學功效毋庸置疑,考試在教學過程中起到主動、必不可少作用。使用得當考試有利于教學順利開展,有利于提升教學效果。讓我們來比較以下兩個教學流程圖:第32頁圖一:入學課程結業第33頁圖一所顯示教學流程圖中只包含3個階段:入學、課程和結業。在學校課程設置中有些課程與圖一相同,如學校開設課外興趣活動課、小區志愿

26、服務等。這類課程主要目標是擴大學生知識面,拓寬學生與社會接觸渠道,故課程流程中只有3個部分。不過,假如課程是主要科目(如英語)時,圖一流程圖就顯得過于簡單。有以下幾個原因:1.主要科目課程普通要進行階段性評定以確保課程質量,而評定方法之一是考試。第34頁2.學生入學后假如隨即分班學習,自然班中水平很有可能參差不齊。這實際上不利于教師因人施教,也不利于提升教學效率。假如在分班學習前進行摸底考試,教師就能了解學生水平,并以此為依據制訂出有效教學計劃。3.如學生結業時沒有檢驗方法(如結業考試),那么學生不清楚自己學習進展,教師也無法了解教學效果。第35頁圖2入學課程結業考試考試第36頁圖2是在圖1基

27、礎上擴展流程圖,考試作為教學一部分被包含在其中。這么,課程開始前考試能夠幫助教師調整現有教學計劃,或制訂適合當前學生水平教學計劃,以到達最大程度地提升教學效果目標。課程結束時考試則能夠使教師了解實際教學效果。從中我們能夠得出這么一個結論:考試在教學過程中有其必不可少作用。以上主要從教師角度談了考試教學功效。從廣義上講,教師是考試使用者(test users)一部分。其它相關使用者包含學生本人、家長和教育管理部門。對后者來說,考試教學功效主要表達在考試信息反饋與使用上。對學生而言,考試反饋信息在一定程度上反應學習上進展與存在問題。對于家長,考試反饋信息是他們了解自己兒女學業進展主要路徑之一。至于

28、教育管理部門,考試反饋信息能夠作為評定教學或課程設置一部分。第37頁2.2.2科研功效考試另一大功效表達在科研領域。這里我們主要以語言研究為例。在該領域基礎研究或應用研究中,考試作為一個詳細測量形式,有其潛在主要價值。比如,語言測試能夠用在語言能力性質(the nature of language proficiency)、語言處理(language processing)、語言習得(language acquisition)、語言流失(language attrition/loss)及語言教學(language teaching)研究中。讓我們來看兩個例子。第38頁例1.一位語言研究者注意到

29、,使用同一母語人之間語言能力參差不齊。由此他想了解,他所執教美國學生母語(英語)與他們所學法語(學習時間為3年)之間有沒有關系。為了做調查,他讓研究對象參加了兩場考試,一個用來測量學生母語能力,后者則檢驗學生法語水平。例2.在一個閱讀課教學方法調查中,研究人員將兩種不一樣方法做比較。一個方法強調閱讀過程中詞匯與句法主要性,另一個方法則偏重于閱讀技巧訓練。為了得知接收不一樣方法訓練學生閱讀能力是否存在區分,并希望獲取量化指標,研究人員采取兩次統一考試方法,即課程開始前考試和課程結束后考試。第39頁例1屬于語言習得研究范圍,例2屬于語言教學研究范圍。盡管兩例研究目標、內容等不盡相同,它們都不約而同

30、地把考試作為一個獲取量化指標方法。例1用考試方法來檢驗母語與所學外語之間有沒有關系假設。例2經過對兩組學生在兩次考試中成績分析和比較來證實不一樣方法是否會造成閱讀能力上區分。從這兩個例子中我們能夠看出,考試用途不限于教學領域,它在科研方面也應用廣泛。考試所提供一些數據能夠使我們科研匯報論證過程更含有科學性,結論更含有說服力。第40頁2.3考試類別2.3.1依據考試目標分類從考試設計者角度來說,每一個考試,不論是小型還是大規模,都應有一個明確目標,即所設計考試意在獲取何種信息。所以,依據考試目標,考試大致能夠分成以下幾個:1.水平考試(proficiency tests)通慣用來衡量考生語言能力

31、考試屬于這類考試。比如,國內高考英語考試、碩士入學英語考試、英語等級考試(PETS)、國外托福考試,等等。第41頁水平考試含有以下兩大特點。第一,它是選拔性考試(selection tests),如前面提到幾個考試都含有選拔性質,目標是從眾多考生中選拔出佼佼者。第二,它不是與某一詳細課程掛鉤考試;它設計基礎是語言理論,即theory-based;換句話說,水平考試目標不是看考生對某一課程內容了解,掌握程度怎樣,而是依據語言理論所設計標準來測試考生現有語言能力。這里值得一提是,水平考試不完全是通用英語考試(English for general purpose);在一些情況下,水平考試內容可能只

32、包括某一詳細語言應用領域(English for specific purpose),比如,上海市中高級口譯資格證書考試,劍橋商務英語等級考試。第42頁2.成就考試(achievement tests)這類考試目標是檢驗學生在某一課程中學習進展情況。在教學過程中教師參加設計命題大都是這類考試。依據考試舉行時間,成就考試又可詳細分為兩種:期中考試(midterm tests)和期末考試(final tests)。期中考試又可稱為progress tests。從評定角度看,其中考試性質屬于進行性評定(formative evaluation),因為它主要是對學生課程學習進行中期檢驗;第43頁期末考

33、試屬于終止性評定(summative evaluation),它在課程結束或告一段落時組織實施。成就考試最大特點顯示在它與教學綱領關系上。成就考試能夠說是基于教學綱領內容上考試,即syllabus-based。成就考試內容必須在教學綱領范圍內,這是成就考試與水平考試區分所在。第44頁3.分班考試(placement tests)在教學活動中我們經常采取這類考試來確定學生(新生)中不一樣語言水平,方便制訂或依據實際情況調整教學內容或計劃。同時,教師依據考試成績把學生編入不一樣進度班級。分班考試內容既可基于語言理論之上,也能夠實際教學綱領中高一級要求為起點。比如,對于剛入學新生,我們能夠使用第一學

34、期其中或期末試卷。由此能夠說,分班考試內容選擇含有靈活性。對于教師來說,更須關注是這類考試難易程度以及考試內容代表性。能否把握好難易度關系到分班考試能否成為有效地測量工具。假如考試難度大大超出學生現有水平,那么,考試就極難起到區分學生水平作用。另外,選擇考試內容要能夠均衡地考查學生水平,不偏重某首先。第45頁4.診療考試(diagnosis tests)這類考試目標是了解學生在某一階段學習上優點與短處,其最終目標是給教師提供教學效果或質量方面信息.我們在教學中經常采取課堂小測驗(quiz)實際上就是一個診療考試。這類考試有以下幾個特點。第一,在教學過程中能夠隨時使用,不受階段性限制。第二,考試

35、內容普通與所教內容相關,即syllabus-based。第三,考試內容選擇能夠更有針對性或側重點。比如,假如想了解學生現階段對一些動詞短語掌握情況,我們能夠專門設計一份試卷。第四,試卷長度視情況而定,能夠短則一頁,長則數頁。第46頁5. 潛能測試 (apititude tests)語言潛能測試也叫做預測性測試(prognostic tests),是經過衡量學生在一門陌生語言中語言表現,以預測其是否有學好這門語言潛力。語言學習潛力受到多方面原因影響,如智商、年紀、動機、記憶力、語言敏感度和語法結構敏感度等。語言潛能測試與之前所學知識無關,很多情況下是學生以前從未接觸過語言。一些教授認為在實際操作

36、中不太可能對應試者語言潛能進行全方面測試,所以多數測試只是衡量考生某一部分潛能如聽、譯領域潛能。詞匯測試常被認為是有效潛能測試方法,因其與智商緊密相連而且能反應出應試者對這一領域興趣。測試語言多采取人工語言,多關注音位區分能力和系統利用語言結構能力,潛能測試題目數量較多,如The Modern Language Aptitude Test。第47頁2.3.2依據考試分類依據考試方式進行分類,英語語言測試能夠分為直接測試(direct tests)和間接測試(indirect tests)。1. 直接測試 (direct tests)在這類考試中,學生被要求直接利用被試技能或能力。比如,要了解學

37、生英語語音、語氣,我們能夠讓他們朗誦一篇短文,或者讓他們用英語會話。朗誦和會話都直接包括到語音和語氣使用。經過這兩項活動,教師能夠比較直觀地了解到學生這方面能力。一樣,假如我們想知道學生寫作水平怎樣,最簡單、也是最直接方法就是讓學生寫一篇作文,因為學生在完成作文過程中必須利用他們英語寫作能力。第48頁歸納起來,直接考試有以下幾個特點。第一,直接考試側重考試形式真實性(authenticity),及考試內容與現實語境緊密性(close resemblance)。第二,直接考試便于從總體上考查產出性技能(productive skills),如口語能力、寫作能力、翻譯能力等。第三,從命題人員角度出

38、發,直接考試含有比較明確測試目標。通俗點說,也就是命題人員清楚地知道要考什么。第49頁當然,這并不意味著直接考試是完美無缺。它本身帶有一些問題,如評分標準制訂與統一、分數可靠性、分數可解釋性等。第50頁2.間接考試(indirect tests)在介紹間接考試之前,我們先來看一看能力(ability)與技能(skill)之間區分。簡單地說,能力指是一個人在某首先能干什么,即what he is able to do。它是一個較為籠統概念。比如,我們常說某某人有較強英語寫作能力、英語會話能力。然而,寫作能力或會話能力有哪些詳細表達和組成原因呢?這就包括到一些詳細技能。比如說,一個人寫作能力強弱能

39、夠表達在文章組織(organization)、用詞(vocabulary)、語法(grammar)、連貫性(coherence)等方面。又如,在語法上詳細表達可為英語冠詞使用、主謂一致等。第51頁能夠這么說,某一能力是由其相關技能所組成。間接考試是試圖測試那些相關技能,以到達評定能力目標。它之所以被稱為“間接”,是因為它采取了迂回方法來評定語言能力。間接考試一個經典例子是形式各異改錯練習。請看下例:The population of China is much more A B Clarger than that of Canada. D這道多項選擇題從表面上看是考比較級使用方法,實際上是一道

40、間接測試寫作能力題目,因為比較級正確使用是寫作能力中一項詳細技能。第52頁概括起來,間接考試有這么幾個特點。第一,它不強調考試形式上真實性,考試形式無需與實際語用環境相一致。第二,因為不受語用環境限制,所選擇測試技能能夠更含有代表性和概括性。第三,間接考試可選取多項選擇題型,這能夠提升考試信度。不過,對于間接考試是否能夠真正測試預期能力,人們還是存有疑慮。這主要反應在考試成績與該考試所測試能力關系上。我們是否能十分必定地說,在測試寫作能力間接考試中(如語法試卷)獲取高分人,他寫作能力也相對突出?盡管經驗告訴我們二者之間相關聯,我們仍無法百分之百地確定它們之間絕對關系。對于我們教師來說,在選擇考

41、試方式時,要切記寸有所長,尺有所短。兩種考試方式各有優缺點,正確合理使用或組合才能揚長避短。第53頁2.3.3.依據語音測量形式分類就詳細測試語言而言,考試可分為分離式考試和綜合式考試兩類。1.分離式考試(discrete point tests)在這類考試里,一道題目一次只牽涉到一個考點。讓我們來看一道分離式考題:We are all going to the games. Why dont you come_?A. up B. across C. along D. to這道題考點是come along使用方法,除此之外,沒有其它考點,比如時態或冠詞。這是分離式考題一大特點。第54頁分離式考

42、試其它特點以下。第一,每道題提供信息反饋明確、詳細,不摻和其它原因。假如學生答對上述這道題,在普通情況下,我們能夠得知該學生了解或掌握了這個動詞詞組含義及使用方法。第二,分離式試題通常采取多項選擇題形式。第三,分離式考試因為采取了多項選擇題形式,較易到達理想信度。然而,人們經常對該類考試有效性產生懷疑。受結構主義語言學影響,分離式考試把語言學習看成是系統語言習慣獲取過程,認為能夠經過測試獨立語言成份來檢驗一個人語言能力。因而,分離式考試題目往往是相互間沒相關系,同時也不提供上下文情景。所以,分離式考試主要測量學生語言知識,而不是語言能力。第55頁2.綜合式考試(integrative test

43、s)這類考試要求學生在答題時利用各種語言成份或技能,因為綜合式考試項目不只含一個考點。讓我們來看幾個綜合式考試例子。我們在教學中慣用聽寫練習(dictation)實際上屬于綜合考試項目。聽寫練習所要檢驗不只是拼寫(spelling),它還包括詞匯知識(vocabulary)、語法知識(grammar)、聽力技巧(listening)等。另外一個我們較熟悉例子是完形填空(cloze)。要完成完形填空項目,學生不但要掌握詞匯、語法知識,同時還要具備必要閱讀技巧。從中我們能夠總結出綜合考試幾個特點。第一它是在一定上下文中考查語言知識或技能。第二,它比較側重考查語言意義(meaning)而不是語言形式

44、(form)。第三,因為要求同時利用各種技能或知識,綜合式考試強調語言熟練度整體性。第56頁2.3.4.依據評分方式分類按照試卷評分方式不一樣,英語語言測試可分為主觀性測試 (subjective tests)和客觀性測試 (objective tests)。1. 主觀性測試 (subjective tests)試題答案含有開放性或靈活性考試稱為主觀考試。主觀性測試和客觀性測試區分在于評分方式不一樣。主觀性測試需要評分人對答案做出觀念性判斷,這種判斷往往基于評分人經驗和所受過相關訓練。主觀性測試題目主要有簡述題、翻譯題、作文、口試等。但這些題目在主觀性程度上有所不一樣,比如自由寫作比基于閱讀簡

45、答題顯著含有更高主觀性。主觀性測試因為需要評分人做出主觀性判斷,所以在信度上顯著稍差。一篇作文,讓不一樣評分人去評閱,就會出現不一樣分數,甚至相差很多分數,這主要是因為評分人觀點、知識背景等各不相同。信度是主觀性測試一直追求目標。實現主觀性測試信度主要要考慮以下幾點:對評分人給予足夠培訓。主觀性測試評分人最好要有相關經驗,在每次評分前,都要針對此次測試主觀性試題進行培訓,以熟悉試題內容、評分標準。同時還要進行試評,每輪試評后,應對每一位評分人評分結果進行分析,假如某位評分人分數總是與標準分數相差甚遠或不符合標準,則應不再使用該評分人。第57頁以雅思為例,依據IELTS評分、分數匯報和解釋,對于

46、受考官主觀性影響較強寫作和口語考試部分,IELTS官方強調:考官均須按照已制訂明確標準進行招聘及培訓,且須每兩年接收檢驗證實其評分符合標準。在評分初始,就要確定可接收答案,考試結束后應該馬上選樣。比如作文測試,應該選取不一樣層次樣本,供評分人進行討論,當全部評分人意見一致后,才能夠進行大規模評閱。對于簡述題、翻譯題等,考試結束后也應該馬上選取一定數量樣本,在試評中應注意把握準是否給分語言點,尤其是共性問題,然后進行討論訂立標準,并通知全部評分人引發他們注意。使用多名獨立評分人。普通來說,對于主觀題應最少有兩名獨立評分人,兩人應在不知道對方所給分數前提下進行各自評分,最終由他人匯總兩位評分人分數

47、,進行比較。假如相差太大,則退回重評或交予權威教授進行評判。防止給予應試者過多項選擇擇權利。在主觀性測試中,應防止讓考生從一系列題目中選取某一題目回答。比如,在寫作中提供多個題目,讓學生從中選取一個題目進行寫作,這只會干擾測試信度,并有不公平之嫌。第58頁2. 客觀性測試(objective tests)試題答案含有要求性或排他性考試,普通稱為客觀考試。客觀性測試是指不需要評分人主觀判斷、答案唯一或固定測試形式。客觀性測試不需要對評分人進行培訓,也不需要評分人專業性判斷,甚至直接使用閱卷機就能夠完成閱卷工作。客觀性測試經典題目是單項選擇題。不過單項選擇題不是唯一客觀性測試題型,單詞拼寫、動詞填

48、空、正誤判斷、配伍題等都是客觀性試題。客觀性測試內容較為廣泛,比較適合分離式測試。但這也使客觀性測試只能間接反應考生語言能力,同時加強了考試內容取樣主觀性。客觀性測試效度差,它往往只要求考生涂卡、打鉤等,答題存在猜測性原因,無法考查考生實際語言應用能力。客觀性測試信度好,唯一或固定答案保持了評分標準準確性。客觀性測試能夠對語言點有所控制,閱卷省時省力。但有一點我們需要注意,客觀性測試并不是完全客觀,決定考點過程、制作試題過程本身就是主觀。第59頁2.3.5依據考分解釋分類考試分數怎樣解釋?參考依據是什么?在這點上,考試能夠分為兩個類別:常模參考考試與標準參考考試。1. 常模參考性測試(norm

49、-referenced tests)所謂“常模”,劉潤清認為:“常模是指一群類型相同人在一類考試中成績,這個常模普通用該考試平均分與標準差來表示”(劉潤清 :13)。所以,常模參考性測試是指對同一次測試結果進行比較,參考考試目標與要求設定合格分數線。合格分數線設定主要以平均分數為依據。 第60頁常模正態分數特點是能夠報道考生在常模群體中所處百分位置。如某考生四級報道總分是550分,則依據大學英語四級考試(CET-4)報道分數百分位對照表,可判斷其在常模群體中百分位是76%,表示這名考生英語成績優于常模群體中76%人。如某考生六級報道總分是600分,則依據大學英語六級考試(CET-6)報道分數百

50、分位對照表,可判斷其在常模群體中百分位在87%92%之間,表示這名考生英語成績最少優于常模群體中87%人,但不會優于92%人。 第61頁常模參考性測試以與其它考生分數進行比較來衡量某一考生成績,確定其在全體考生中位置,所以常模參考性測試適合用于選拔性測試,我國比較主要考試大都是常模參考性測試,如中考、高考、碩士入學考試等。常模參考性測試選拔性目標決定了其獨有特點,從命題角度而言,命題內容覆蓋面寬,命題難易度離散程度較高,有利于拉開分數段;分數主要采取百分或標準分數形式。第62頁2. 標準參考性測試(criterion-referenced tests)與常模參考性測試不一樣,標準參考性測試在考

51、試之前就已經預先定好了衡量標準,然后依據這些標準來判斷學生是否經過和不經過。在標準參考性測試中學生表現并不取決于與其它學生所做比較。標準參考性測試依據考生能否令人滿意地完成一些任務來劃分檔次。第63頁比如,雅思中學術類作文考試,假如某一學生得到6分,那么與這一分級對應寫作水準以下:(A)在任務完成方面,到達寫作任務各項要求、能確切選擇有用信息進行全方面評述、展現并強調主要特點或關鍵點,但細節可能與關鍵點無關、不恰當或不準確。 (B)連貫及銜接方面,信息和分論點安排連貫,論證過程清楚,有效使用銜接伎倆,但句內或句間銜接有錯誤或顯機械呆板,有時指代不清楚或不恰當。 (C)詞匯量方面,相對寫作任務而

52、言,所利用詞匯量充分,嘗試利用非常見詞匯但有時出現錯誤,拼寫和構詞出現一些錯誤,但不影響交流。 (D)句式多樣性及語法準確性方面,混合使用簡單和復合句,語法和標點出現一些錯誤但基本不影響交流。 第64頁一樣在口語部分,考官會以流利度及連續性,詞匯內容豐富性及語法標準性與語音作為評分標準。假如一名考生得到6分,那么他已到達對應口語標準以下:(A)流利度及連貫性方面,愿意進行詳細描述,但有時因重復、自我更正或停頓而造成不連貫,利用不一樣連接詞和語篇標識但有時不恰當。 (B)詞匯方面,盡管有時詞匯利用不恰當,但詞匯量足以詳細表述主題,表意清楚;總體上能成功地變換措辭進行復述。 (C)句式多樣性及語法

53、準確性方面,混合使用簡單和復合句式,但不夠靈活;經常在使用復合句式時犯錯,但極少所以給了解帶來障礙。(D)語音方面,總體能聽懂,偶然因發音錯誤給聽者了解造成負擔。第65頁標準參考性測試與常模參考性測試相比較含有以下優勢:首先,它以實際語言要求為標準確定衡量標準,從而更傾向于直接反應并描述語言能力;其次,標準參考性測試能夠激勵學生實現標準。考生以事先確定標準做為目標,不用擔心自己比他人差,就一定會被淘汰。標準參考性測試不以淘汰多少考生為目標;另外,標準參考性測試與教學目標緊密相連。考生表現可促進課程、教學方法、教學目標改進。標準參考性測試缺點在于:首先,考試內容范圍狹窄,只包括標準要求內容;其次

54、,考生不能夠經過與他人比較知道自己在考試人群中所處地位。尤其對于好學生而言,缺乏取得更高成績動力;另外,標準設定難免有隨意性之嫌。 第66頁2.3.6.其它類型除以上談到測試類型,近年來比較流行測試還包含交際性測試(communicative testing)和計算機輔助測試(computer-assisted testing)。 1. 交際性測試(communicative testing)自從Hymes提出了交際能力理論,語言教學開始重視學生交際能力培養,所以交際性測試也就應運而生。Hymes語言交際能力框架由possible(可能)、feasible(可行)、appropriate(恰當

55、/得體)、done(完成)組成,換句話說語言能力不但包含語言知識(詞匯、語法知識)而且也包含交際能力,即有能力使用這些語言知識來得體地完成交際任務。 第67頁1995年Bachman對語言能力進行了概括,即語言能力包含組織能力(organizational competence)和語用能力(pragmatic competence)。組織能力二分為語法能力(grammatical competence)和語篇能力(textual competence);語用能力二分為施為能力(illocutionary competence)和社會語言能力(sociolinguistic competence

56、)。交際能力發展對于交際性測試有很大推進作用。比如,Bachman社會語言能力包含方言能力。方言使用符合交際性測試對語言材料要求,即語境真實性。在英國劍橋大學地方考試委員會熟練英語證書考試(CPE,五級水平考試中最高級)聽力材料中就有帶地方口音講話。 第68頁McNamara提出交際語言測試應含有兩種特征(McNamara :16-17):交際語言測試是語言表現測試(performance tests),其評價需要在學習者從事交際擴展行為時進行。這種擴展行為能夠是接收性,也能夠是產出性,或二者兼而有之。交際語言測試側重參加者在實際場景中可能飾演社會角色,并提供詳細說明這些角色需要方法。第69頁

57、Weir在Communicative Language Testing一書中提到了交際語言測試一些主要特征:重點是意義語境化語言活動帶有可接收目標性有實際意義言語使用真實語言材料文本處理有真實性考試結果不可預見以互動為基礎考生在真實心理狀態下展示語言能力依據實際結果判斷成績。(Weir 1990:167)第70頁交際性測試在英國和澳大利亞等國家很受歡迎,比如,澳大利亞為以英語為第二語言健康從業人員設計考試。在考試中,任務設計以真實診所常見場景為背景,包含:與病人交流,為同事提供病例等。分數以交際復雜性、流利性做為標準。我國交際語言測試主要是全國英語等級測試,其考試綱領中就明確了該考試是交際性語

58、言測試,即“其語言利用能力分類和定義建立在交際性語言活動模式基礎上”(全國英語等級考試考試綱領第五級 1999:7)。其不一樣級別描述了不一樣交際能力,及這些能力所能應付語言需要。比如:該考試對三級水平描述“經過該級考試考生,其英語已到達高等教育自學考試非英語專業本科畢業水平或符合普通高校非英語專業本科畢業要求,基本符合企事業單位行政秘書、經理助理、普通管理人員或科技工作者、外企職員工作要求,以及同層次其它工作在對外交往中基本需要”(全國英語等級考試考試綱領第三級 :11-12)。五級水平為“經過該級考試考生,其英語水平基本滿足在國外攻讀碩士碩士非英語專業或從事學術研究工作需要。該水平英語也能

59、滿足他們在國內、外從事專業和管理工作基本需要”(全國英語等級考試考試綱領第五級 1999:8-9)。第71頁2. 2. 計算機輔助測試(computer-assisted testing)計算機輔助測試(computer-assisted testing, CAT),是指利用計算機幫助對于學生學習效果進行測試和對學生能力進行評定。它以當代教育測試測量理論項目反應理論(item response theory)為基礎,以計算機和網絡技術為依靠,力圖快速準確地測量考生潛在語言能力。計算機輔助測試有聯機測試與單機測試兩種方法。著名Educational Testing Service于1998年設計

60、出了TOEFLCAT,并于年開始全部在互聯網上進行測試。The University of Cambridge Local Examinations Syndicate開發了不一樣語種,不一樣用途計算機輔助語言測試,并與劍橋大學出版社共同開發了Quick Place Test(computer based version, QPT)方便于學生分級、分班。第72頁計算機輔助測試能夠使用先進測試模式,如計算機自適應性語言測試(computer adaptive language testing, CALT)和網絡化語言測試(Internet-based test)。網考經典性代表就是新托福考試,它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論