




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章語(yǔ)料庫(kù)基本技術(shù)提綱2.1文本整理與加工
2.1.1文本與標(biāo)注
2.1.2詞目與詞形還原2.2語(yǔ)料檢索
2.2.1索引與索引行
2.2.2正則表達(dá)式2.3檢索結(jié)果解讀
2.3.1形符與類符
2.3.2頻數(shù)與頻率
2.3.3詞匯搭配與語(yǔ)法搭配
2.3.4詞表、詞簇表、主題詞表2.1文本整理與加工2.1.1文本與標(biāo)注2.1.2詞目與詞形還原BACK2.1.1文本與標(biāo)注語(yǔ)料庫(kù)是由大量文本(Text)構(gòu)成的,那什么是文本呢?在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,文本可理解為代表真實(shí)的連續(xù)話語(yǔ)并可由計(jì)算機(jī)讀取的電子文檔,以ASCII或Unicode呈現(xiàn)。文本可以保存生語(yǔ)料,即未經(jīng)任何標(biāo)注的語(yǔ)料,稱為生文本(RawText)。BACK文本可以保存生語(yǔ)料,即未經(jīng)任何標(biāo)注的語(yǔ)料,稱為生文本(RawText)。文本也可保存經(jīng)過(guò)人工或自動(dòng)標(biāo)注的語(yǔ)料,這時(shí)稱為標(biāo)注文本(AnnotatedText)。BACK標(biāo)注(Annotation)指利用各種標(biāo)簽(Tag)對(duì)文本的各種屬性加以標(biāo)記。最常見(jiàn)的標(biāo)注:詞性賦碼(Part-of-speechTagging)句法標(biāo)注(SyntacticParsing)語(yǔ)義標(biāo)注(SemanticAnnotation/SenseDisambiguation)語(yǔ)音標(biāo)注語(yǔ)誤標(biāo)注BACK2.1.2詞目與詞形還原在英語(yǔ)語(yǔ)料庫(kù)文本中,一些實(shí)詞有大量的屈折變化形式(Inflection),如go這一動(dòng)詞就有g(shù)o、goes、went、going和gone共5種不同的屈折變化形式。該詞原形go被稱為詞目(Lemma,復(fù)數(shù)形式Lemmata)。BACK在分析語(yǔ)言(如統(tǒng)計(jì)頻率)時(shí),如果把這5種形式作為5個(gè)詞來(lái)看,就可能顯得不妥,因此需要將它們?nèi)繗w并到go名下。這個(gè)過(guò)程叫做“詞目歸并”或“詞形還原”(Lemmatization)。BACK下框中第一行句子詞形還原后變成第二行的形式:BACK2.2語(yǔ)料檢索2.2.1索引與索引行2.2.2正則表達(dá)式BACK2.2.1索引與索引行
索引(Concordance),又稱檢索、語(yǔ)境共現(xiàn)或“語(yǔ)境中的關(guān)鍵詞”(KeyWordinContext,KWIC),指的是運(yùn)用索引軟件在語(yǔ)料庫(kù)中查詢某語(yǔ)言單位的使用實(shí)例,然后將所有符合條件的語(yǔ)言使用實(shí)例及其語(yǔ)境以清單的形式列出。該清單中的各行就叫索引行或語(yǔ)境共現(xiàn)行。被查詢的詞被稱為節(jié)點(diǎn)詞(NodeWord),位于界面正中間,一般用不同顏色顯示。BACK常用的綜合性檢索工具有很多,例如商業(yè)軟件WordSmithTools和免費(fèi)軟件AntConc等。BACK2.2.2正則表達(dá)式正則表達(dá)式(RegularExpression,簡(jiǎn)稱Regex),是計(jì)算機(jī)匯編語(yǔ)言的一種技術(shù),用于匹配文本中的字符串。BACK序號(hào)符號(hào)含義舉例或說(shuō)明1\b詞的邊界\band\b匹配and,不匹配a、an、Andy或land2\w任何字母或數(shù)字\w匹配字母a-z,A-Z,數(shù)字0-9及下劃線3.任何字符或非字符4.1匹配401、411、4t1、41、4.1或4-14+重復(fù)1次或多次B+匹配B,BB,BBB等5*重復(fù)0次或更多BA*匹配B,BA,BAA,BAAA等6?有或者無(wú)BA?匹配B和BA7()組合,使得括號(hào)中的部分可以當(dāng)作一個(gè)符號(hào)處理discover(ing)可以匹配discover和discovering8[]方括號(hào)中的任意字符[abc]匹配a、b或c[abc]+匹配9\s空格\w+\s+\w匹配任何二元序列10|或者(|號(hào)在回車鍵上面)(analyze|analyse)匹配analyze或analyseBACK2.3檢索結(jié)果解讀2.3檢索結(jié)果解讀
2.3.1形符與類符
2.3.2頻數(shù)與頻率
2.3.3詞匯搭配與語(yǔ)法搭配
2.3.4詞表、詞簇表、主題詞表BACK2.3.1形符與類符
詞(word):實(shí)義詞(ContentWords)和功能詞(FunctionWords)實(shí)義詞:名詞、動(dòng)詞、形容詞及副詞等詞類(如flower、search、tall和quickly)功能詞:限定詞、介詞、連詞及代詞等詞類(如the、of、because和it)BACK在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,我們?nèi)粘Uf(shuō)的“詞”通常被稱作形符(Token)。下面句子分別有多少個(gè)形符?Totheworldyoumaybeoneperson,buttoonepersonyoumaybetheworld.類符(Type)指不重復(fù)計(jì)算的形符數(shù)。下面句子形符數(shù)和類符數(shù)各多少?Lovemelittle,lovemelong.BACK我們可以計(jì)算這個(gè)句子的類符/形符比(type-tokenratio,TTR,又稱形次比),即TTR=(4/6)*100≈66.7TTR是衡量文本中詞匯密度的常用方法。可輔助說(shuō)明文本的詞匯難度。BACKTTR衡量詞匯密度是否合理?文本中有大量功能詞反復(fù)出現(xiàn),文本每增加一個(gè)詞,形符就會(huì)增加一個(gè),但類符卻未必隨之增加。這樣文本越長(zhǎng),功能詞重復(fù)次數(shù)越多,TTR會(huì)越低。為解決這一問(wèn)題,引入標(biāo)準(zhǔn)化類符/形符比(STTR,StandardizedType/TokenRatio)。例如,計(jì)算每個(gè)文本每1000詞的TTR,均值處理,得出STTR。BACK2.3.2頻數(shù)與頻率
頻數(shù)(Frequencies/Occurrences)通常指某語(yǔ)言單位在文本中出現(xiàn)的次數(shù)。單位形符量中,某語(yǔ)言單位出現(xiàn)的頻數(shù)稱為頻率(Frequency)。Man和woman哪個(gè)更常用?在BNC中,man一詞的頻率是每百萬(wàn)詞602.91次,而woman的頻率是每百萬(wàn)詞225.43次(梁茂成等,2010)BACK2.3.3詞匯搭配與語(yǔ)法搭配
如果我們觀察多個(gè)文本,會(huì)發(fā)現(xiàn)許多詞都有較為固定的伴侶,這種伴侶被稱為搭配詞(Collocate)。搭配(collocation):詞語(yǔ)間的橫向聚合關(guān)系。例如commit這個(gè)動(dòng)詞經(jīng)常與名詞suicide和crime搭配。詞匯搭配是最常見(jiàn)的搭配。BACK
語(yǔ)法搭配,又稱為類聯(lián)接(Colligation)。它是一種句法結(jié)構(gòu),指的是文本中語(yǔ)法范疇問(wèn)的結(jié)合,是從文本中“概括或抽象出來(lái)的用句法范疇表述的搭配類(衛(wèi)乃興,2002)。例如“hesays”,“thingssuggest”就是N+V的搭配實(shí)例,這里N+V就是一個(gè)類聯(lián)接,代表一類搭配。BACK2.3.4詞表、詞簇表、主題詞表詞表(WordList)就是指詞頻表(FrequencyList),而不是簡(jiǎn)單的單詞列表。BACKBACK詞簇(Cluster):在語(yǔ)料文本中反復(fù)出現(xiàn)的兩詞或兩詞以上的結(jié)構(gòu)。這樣的結(jié)構(gòu)未必是語(yǔ)法和語(yǔ)義上完整的結(jié)構(gòu)。BACK詞簇常常又稱:詞叢語(yǔ)塊(chunk)N元組(N-gram)短語(yǔ)結(jié)構(gòu)(phraseology)多詞序列(multi-wordexpression/multi-wordunit)BACK如果拿某個(gè)或多個(gè)文本跟別的文本相比,往往會(huì)發(fā)現(xiàn)其中有一些詞出現(xiàn)的頻率特別高,那些詞叫做主題詞或關(guān)鍵詞(Keyword)。通過(guò)觀察主題詞,可以發(fā)現(xiàn)某一給定文類或主題文本的詞語(yǔ)特征。在旅游英語(yǔ)語(yǔ)篇中,ticketbooking、luggage、tourguide、routes、flight和coach等詞出現(xiàn)的頻率特別高,被視為主題詞。BACKBACK鏈接免費(fèi)詞形還原網(wǎng)站http://www.cst.dk/online/lemmatiser/uk/index.html免費(fèi)詞
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年兒童教育游戲化教學(xué)設(shè)計(jì)研究:實(shí)踐案例與效果評(píng)價(jià)報(bào)告
- 【龍巖】2025上半年福建龍巖市上杭縣事業(yè)單位公開(kāi)招聘工作人員48人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 【呂梁】2025年山西呂梁市使用事業(yè)編制引育重點(diǎn)產(chǎn)業(yè)人才招聘工作人員24人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 智能化樓宇水暖設(shè)備安裝與節(jié)能服務(wù)合同
- 旅游景區(qū)酒店及客房租賃服務(wù)合同
- 股權(quán)變更撤銷及股權(quán)價(jià)值重新評(píng)估合同
- 時(shí)尚購(gòu)物中心場(chǎng)地使用權(quán)及商業(yè)運(yùn)營(yíng)合同
- 傳媒公司參股合作協(xié)議范本
- 專題05 閱讀理解(Units1-8緊貼新教材熱點(diǎn)預(yù)測(cè))20篇(原卷版)
- 2025年高中數(shù)學(xué)北師大版選擇性必修第一冊(cè)課時(shí)作業(yè)(五十四)
- 經(jīng)濟(jì)地理學(xué)講義(2024級(jí))
- 無(wú)處不在-傳染病知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋南昌大學(xué)
- 中醫(yī)外科學(xué)(云南中醫(yī)藥大學(xué))知到智慧樹(shù)章節(jié)答案
- 幼小銜接親子活動(dòng)策劃方案
- 梵高星空課件
- 北京市2024年中考?xì)v史真題【附參考答案】
- 2024年家庭防水施工合同范本
- 10kV電纜線路穿越樂(lè)山至成都高速公路涵洞-專項(xiàng)施工方案
- 螺桿空壓機(jī)微電腦控制器MAM880
- 小學(xué)數(shù)學(xué)對(duì)教學(xué)評(píng)一體化的實(shí)踐與思考
- 出廠檢驗(yàn)大綱
評(píng)論
0/150
提交評(píng)論