語料庫語言學(xué)_第1頁
語料庫語言學(xué)_第2頁
語料庫語言學(xué)_第3頁
語料庫語言學(xué)_第4頁
語料庫語言學(xué)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語料庫語言學(xué)第1頁,課件共27頁,創(chuàng)作于2023年2月

什么是語料庫?語料庫(corpus,復(fù)數(shù)形式corpora)顧名思義就是存放語言材料的倉庫(或數(shù)據(jù)庫)。現(xiàn)指存放在計(jì)算機(jī)里的原始語料文本或經(jīng)過加工后帶有語言學(xué)信息標(biāo)注的文本。

語料庫語言學(xué)的定義第2頁,課件共27頁,創(chuàng)作于2023年2月

什么是語料庫語言學(xué)?作為一個(gè)學(xué)科的名稱“語料庫語言學(xué)”與“語法學(xué)”或“語義學(xué)”不同,它不屬于語言自身某個(gè)側(cè)面的研究,而是一種以語料庫為基礎(chǔ)的語言研究方法。它實(shí)際上包括兩方面的內(nèi)容:一是對自然語料進(jìn)行加工、標(biāo)注;二是用已經(jīng)標(biāo)注好的語料進(jìn)行語言研究和應(yīng)用開發(fā)。第3頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)的發(fā)展史一般以喬姆斯基(N.Chomsky)轉(zhuǎn)換生成語法的興衰史為參照點(diǎn),將語料庫語言學(xué)的發(fā)展史大致分為三個(gè)時(shí)期:早期的語料庫語言學(xué)喬姆斯基的轉(zhuǎn)換生成語法時(shí)期語料庫語言學(xué)的復(fù)蘇時(shí)期第4頁,課件共27頁,創(chuàng)作于2023年2月早期的語料庫語言學(xué)

早期的語料庫語言學(xué)是指20世紀(jì)50年代中期以前,即以喬姆斯基提出轉(zhuǎn)換生成語法理論之前的所有基于語言材料的語言研究。在50年代,語料庫語言學(xué)曾被廣泛使用,主要集中體現(xiàn)在以下幾個(gè)方面:1)語言習(xí)得2)方言學(xué)3)語言教學(xué)4)句法和語義5)音系研究第5頁,課件共27頁,創(chuàng)作于2023年2月喬姆斯基的轉(zhuǎn)換生成語法時(shí)期1957年喬姆斯基《句法理論》及其以后一系列論著的發(fā)表,根本改變了語料庫語言學(xué)的早期發(fā)展?fàn)顩r。在這段時(shí)期中,笛卡爾的理性主義占據(jù)主導(dǎo)地位,經(jīng)驗(yàn)主義幾乎無立足之地,被視為經(jīng)驗(yàn)主義產(chǎn)物的各種語料庫自然被完全否定。經(jīng)驗(yàn)主義empiricism理性主義rationalism第6頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)的復(fù)蘇時(shí)期80年代以來,語料庫語言學(xué)在相對沉寂了近20年后,開始復(fù)蘇,并得到迅速發(fā)展。主要表現(xiàn)在下面兩方面。

(1)第二代語料庫的相繼建成。1)LOB2)TLF3)赫爾辛基歷史英語語料庫4)ICE

(2)基于語料庫的研究項(xiàng)目增多。

第7頁,課件共27頁,創(chuàng)作于2023年2月1959-1991年語料庫研究項(xiàng)目統(tǒng)計(jì)表起止年限研究項(xiàng)目數(shù)目1959-1965101966-1970201971-1975301976-1980801981-19851601986-1991320第8頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)的主要研究內(nèi)容語料庫的建設(shè)與編纂語料庫的加工和管理技術(shù)語言研究中語料庫的使用語料庫在計(jì)算語言學(xué)中的應(yīng)用第9頁,課件共27頁,創(chuàng)作于2023年2月語料庫設(shè)計(jì)和編纂中的問題語料庫設(shè)計(jì)和編纂的出發(fā)點(diǎn)是:如何使得在其基礎(chǔ)上開展的語言調(diào)查是合理的和可靠的。因此Kennedy(1998)指出了語料庫設(shè)計(jì)師所面臨的最基本問題:這個(gè)語料庫所采集的語言數(shù)據(jù)是否真正代表了某種期望的語言或語體。在語料庫的建設(shè)和編纂過程中應(yīng)考慮的問題包括:(1)靜態(tài)與動態(tài)(2)代表性和平衡(3)規(guī)模第10頁,課件共27頁,創(chuàng)作于2023年2月語料庫的加工和管理技術(shù)主要是指用于語料分析、標(biāo)注、維護(hù)和檢索軟件的工具。語料庫不僅僅是文本的集合,它應(yīng)該具有良好的存取性能,一邊是各種研究人員都能從中檢索出自己需要的信息。因此語料的檢索是其中一項(xiàng)重要的工作。目前普遍使用的檢索技術(shù):1)逐詞索引(concordance)2)詞簇(cluster)3)搭配(collacates)4)詞表(wordlist)5)關(guān)鍵詞表(keywordlist)27第11頁,課件共27頁,創(chuàng)作于2023年2月語言研究中語料庫的使用1.言語研究:(1)語言學(xué)理論。(2)語言史研究。(3)句法、詞法及自動語法分析。2.詞匯研究:編纂詞典及工具參考書。3.語義學(xué)4.語用學(xué)和話語分析(很少)4.社會語言學(xué)5.心理語言學(xué)6.外語教學(xué)第12頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)在計(jì)算語言學(xué)中的應(yīng)用20世紀(jì)90年代以來在自然語言處理(NLP)和計(jì)算語言學(xué)的研究中,語料庫方法和統(tǒng)計(jì)語言模型迅速崛起,成為主流技術(shù)。主要用法如下:1)漢語文本中交集型切分歧義的研究2)漢語基本名詞短語識別研究3)基于結(jié)構(gòu)詞義空間的漢語詞義排歧模型第13頁,課件共27頁,創(chuàng)作于2023年2月語料庫的分類按應(yīng)用取向分為:通用型和專用型語料庫按信道分為:筆語和口語語料庫按語言屬性分為:單語、雙語、多語語料庫按語言變體分為:本族語、譯語、學(xué)習(xí)者語料庫按時(shí)間分為:共時(shí)和歷時(shí)語料庫按語料狀態(tài)分為:靜態(tài)和監(jiān)控語料庫第14頁,課件共27頁,創(chuàng)作于2023年2月國外語料庫的介紹類型時(shí)間容量語料用途SEU1959年起100萬書面語50%口語50%第一個(gè)大型計(jì)算機(jī)語料庫LLC1975-198150萬口語以計(jì)算機(jī)自動化處理方式獲取SEU語料庫的英語口語原始語料BROWN1960s100萬書面語研究當(dāng)代美國英語LOB1970s100萬書面語研究當(dāng)代英國英語COBUILD1980s3.2億書面語75%口語25%在語料庫支持下從事詞典學(xué)研究LONGMAN1988-19902800萬書面和口語編纂詞典和供學(xué)術(shù)界使用BNC1991-19951億書面語90%口語10%其口語語料庫可以精細(xì)分析語音研究ICE1988年起2000萬書面語40%口語60%對講英語的不同國家的英語進(jìn)行對比研究第15頁,課件共27頁,創(chuàng)作于2023年2月國內(nèi)語料庫介紹漢語現(xiàn)代文學(xué)作品語料庫(1979年),527萬字,武漢大學(xué)現(xiàn)代漢語語料庫(1983年),2000萬字,北京航空航天大學(xué)現(xiàn)代漢語詞頻統(tǒng)計(jì)語料庫(1983年),182萬字,北京語言大學(xué)臺灣中央研究院平衡語料庫,500萬詞,是世界上第一個(gè)帶有完整詞類標(biāo)記的漢語平衡語料庫。中文五地區(qū)共時(shí)語料庫(1995年),香港城市大學(xué)漢語精加工語料庫特殊英語語料庫中國英語(ChinaEnglish)語料庫,河南師范大學(xué)軍事英語語料庫(CorpusofMilitaryTexts),解放軍外語學(xué)院《人民日報(bào)》語料庫(2700萬字),北京大學(xué)計(jì)算機(jī)語言學(xué)研究所第16頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)的不同研究方法由于語料庫語言學(xué)依賴自然數(shù)據(jù),因而語料庫語言學(xué)從本質(zhì)上說是實(shí)證性的,其語言觀是經(jīng)驗(yàn)主義的語言觀。按照研究中對語料庫依賴程度的不同,可以把依賴語料庫的研究方法大致分為三類:1)語料庫指導(dǎo)的方法242)基于語料庫的方法253)語料庫的驅(qū)動方法26第17頁,課件共27頁,創(chuàng)作于2023年2月語料庫研究的方法論特色(1)數(shù)據(jù)的區(qū)別性特征:語料庫語言學(xué)數(shù)據(jù)以其驗(yàn)證性、大數(shù)量性、自動化、計(jì)量性等特征有別于其它類型的數(shù)據(jù)。(2)特征性分析技術(shù):包括頻數(shù)統(tǒng)計(jì)、詞語索引分析、搭配分

析、詞從、主題詞等。(3)自下而上與自上而下兼用的精密分析過程:經(jīng)典語料庫語言學(xué)研究中的歸納與推演,數(shù)據(jù)觀察與理論討論,往往是層層展開,步步深入,窮盡一切可能,逐漸逼近,到達(dá)結(jié)論。第18頁,課件共27頁,創(chuàng)作于2023年2月語料庫研究方法的局限性(1)語料庫語言學(xué)理論尚需要體系化和簡約化。(2)其研究思路和方法存在一定的分歧。(3)分析方法和技術(shù)需要進(jìn)一步突破(4)語料庫研究的應(yīng)用尚需要更深入的探討。第19頁,課件共27頁,創(chuàng)作于2023年2月國內(nèi)語料庫研究的局限性(1)缺乏應(yīng)有的精密分析過程,顯示不出應(yīng)有的分析力量(analyticalpower)。(2)一些研究將事實(shí)與譯論混在一起,將語料庫數(shù)據(jù)與直覺數(shù)據(jù)雜合,宏觀概述多而語境分析少。(3)數(shù)據(jù)與觀察與結(jié)論之間,不同理論之間跳躍大,缺失環(huán)節(jié)多,沒有語料庫語言學(xué)所熟悉的范式特征。第20頁,課件共27頁,創(chuàng)作于2023年2月語料庫語言學(xué)需要解決的問題語料庫設(shè)計(jì)的目的。收集語料時(shí)的文本形式、文本所有權(quán)和版權(quán)問題。需要不斷更新應(yīng)用軟件以滿足語料庫的發(fā)展。語料庫的規(guī)模問題。語料庫的代表性問題。語料的時(shí)限問題。由于語料庫須不斷更新的需要和檢索手段的改良而對語料庫標(biāo)準(zhǔn)化提出的更高要求。第21頁,課件共27頁,創(chuàng)作于2023年2月

檢索實(shí)例第22頁,課件共27頁,創(chuàng)作于2023年2月參考文獻(xiàn)//楊惠中等:語料庫語言學(xué)導(dǎo)論上海外語教育出版社2002梁茂成,李文中,許家金:語料庫應(yīng)用教程外語教育與研究出版社2010Kennedy,G.語料庫語言學(xué)入門外語教育與研究出版社Biber,D.語料庫語言學(xué)外語教育與研究出版社Meyer.英語語料庫語言學(xué)導(dǎo)論上海外語教育出版社2008劉澤權(quán):《紅樓夢》中英文語料庫的創(chuàng)建及應(yīng)用研究光明日報(bào)出版社《語料庫語言學(xué)》(半年刊)外語教學(xué)與研究出版社第23頁,課件共27頁,創(chuàng)作于2023年2月語料庫指導(dǎo)的方法

corpus-informedapproach這種方法:對語料庫進(jìn)行分析,得到各種詞語、搭配和結(jié)構(gòu)在語料庫中的出現(xiàn)頻率、使用場合、語體等信息,然后在這些語料庫信息的指導(dǎo)下編寫合適的教學(xué)材料,較為間接地把語料庫的信息用于語言教學(xué)中,語料庫主要起到一種指導(dǎo)性作用。17第24頁,課件共27頁,創(chuàng)作于2023年2月基于語料庫的方法

corpus-basedapproach由研究者根據(jù)以往的語言研究成果或?qū)φZ言的認(rèn)識,首先提出假設(shè),然后到語料庫中去驗(yàn)證假設(shè)。假設(shè)是否成立取決于語料庫中的語言實(shí)例。基于語料庫的研究方法以概率為基礎(chǔ),是統(tǒng)計(jì)學(xué)和實(shí)證研究方法在語料庫語言學(xué)領(lǐng)域的具體應(yīng)用。

17第25頁,課件共27頁,創(chuàng)作于2023年2月語料庫驅(qū)動的方法

corpus-drivenapproach

這種方法主張,我們在對語料庫進(jìn)行分析之前并無任何假設(shè),通過對語料庫中的所有例證進(jìn)行窮盡性的分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論