基于語料庫的工作-市場研究-全文在線閱讀-文檔投稿賺錢網_第1頁
基于語料庫的工作-市場研究-全文在線閱讀-文檔投稿賺錢網_第2頁
基于語料庫的工作-市場研究-全文在線閱讀-文檔投稿賺錢網_第3頁
基于語料庫的工作-市場研究-全文在線閱讀-文檔投稿賺錢網_第4頁
基于語料庫的工作-市場研究-全文在線閱讀-文檔投稿賺錢網_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于語料庫的工作張宇*1中文信息處理--基于語料庫的工作大綱什么是語料庫語料庫的發展簡史語料庫建設中處理的問題數據標注1/20/2020中文信息處理--基于語料庫的工作2什么是語料庫語料庫,英文為Corpus存儲語言材料的倉庫現代的語料庫是指存放在計算機里的原始語料文本或經過加工后帶有語言學信息標注的語料文本.1/20/2020中文信息處理--基于語料庫的工作3關于語料庫的三點基本認識語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源;1/20/2020中文信息處理--基于語料庫的工作4語料庫示例1/20/2020中文信息處理--基于語料庫的工作5北京大學計算語言所富士通人民日報標注語料庫樣例:歷史/n將/d銘記/v這個/r坐標/n:/w北緯/b41.1/m度/q、/w東經/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t1

50分/t。/w……[中國/ns政府/n]nt順利/ad恢復/v對/p香港/ns行使/v主權/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩定/an。/w語料庫的分類1/20/2020中文信息處理--基于語料庫的工作6生語料庫/熟語料庫生語料庫就是未經加工的,沒有任何切分,標注標記的原始語料庫熟語料庫就是指經過加工,帶有切分,標注標記的語料庫系統型語料庫/專用型語料庫系統型語料庫就是依據事先確定的選材原則和比例選取語料的語料庫專用型語料庫就是指專門服務于某個特定目的的語料庫單語種語料庫/多語種語料庫語料庫發展簡史第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代-)1/20/2020中文信息處理--基于語料庫的工作7第一代語料庫Brown語料庫LOB語料庫LLC語料庫百萬詞級以語言研究為導向1/20/2020中文信息處理--基于語料庫的工作8第二代語料庫COBUILD語料庫Longman語料庫千萬詞級詞典編纂-應用導向1/20/2020中文信息處理--基于語料庫的工作9第三代語料庫ACL/DCI語料庫The

Association

for

ComputationalLinguisticsData

Collection

InitiativeUPenn樹庫LDC(

Linguistic

Data

Consortium

)超大規模(上億詞級)標準編碼體系深度標注/多語種NLP應用1/20/2020中文信息處理--基于語料庫的工作10語料庫建設中處理的問題文本生文本標注文本語料庫建設中處理的問題低級格式問題標記化:什么是一個詞?詞法句子1/20/2020中文信息處理--基于語料庫的工作11低級格式問題垃圾格式由于語料庫的來源復雜,語料庫中可能存在無法處理的各種各樣的格式或內容,他們是沒有用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表如果數據來源于OCR,會引入錯誤識別的問題1/20/2020中文信息處理--基于語料庫的工作12低級格式問題大小寫the,The,THERichard

Brown

brown

paint識別句子中人名的啟發式方法把每個句子開頭的大寫字母轉換成小寫字母把一串連續大寫的詞當作標題和副標題這樣,其余的大寫字母就可以認為是名字1/20/2020中文信息處理--基于語料庫的工作13標記化:什么是一個詞什么是詞前后有空格的連續字母組成的字符串,可以包含連字符和省略號,但是不能包含其它的標點符號。–

Kucera

and

Francis(1967)$22.50,Micro$oft,C|net1/20/2020中文信息處理--基于語料庫的工作14標記化:什么是一個詞句點大多數句點的作用是表明句子結束,其它情況表示縮寫,例如:etc.,Calif.。保留句點的意義Wash.(Washington)--

Washetc.出現在句子的末尾的時候,只保留一個句點,這個句點同時表示兩種意思。1/20/2020中文信息處理--基于語料庫的工作15標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作16單撇號I’m,isn’t

……I

am,is

notdog’s表示什么?dog

is,dog

has,還是所有格形式?詞末尾的單撇號如何處理??通常代表一對引號的結束,不是該詞的一部分如果它跟著一個s出現boys’

toys標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作17連字符:不同形式表示相同形式的詞–

帶有連字符的一串字母應該看成一個詞還是兩個?(有時候是一個,有時候是兩個)?–一個,來源于排版印刷找到一行中最后的連字符,丟棄它,把本行的詞和下一行的連起來?e-mail,

co-operate連字符用于表示引用的短語或者數量、比率the

26-year-olddatabase,

data

base,

data-base破折號和詞語之間的空格標記化:什么是一個詞相同形式表示不同的“詞語”saw–工具saw–see的過去時1/20/2020中文信息處理--基于語料庫的工作18標記化:什么是一個詞其它語言中的分詞?–

中文、日文、泰文嚴守一把手機關上—嚴守一把手機關上–

德語中大多數的詞語有空格分割,但是復合名詞寫成單獨的詞Lebensversicherungsgesellschaftsangestellter1/20/2020

diskharddisk

hard19人身保險公司的雇員–

database

data

base中文信息處理--基于語料庫的工作標記化:什么是一個詞非詞語分界的空格data

base

database,

9365

1873

–93651873New

York,

San

Francisco如果和連字符一起出現,問題就更加復雜了?the

New

York

New

Haven

Railroad–

習慣搭配形成的詞Work

out– I

couldn’t

work

the

answer

out.1/20/2020中文信息處理--基于語料庫的工作20標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作21電話號碼國家電話號碼國家0171

378

0647UK+45

43

48

60

60Denmark(44.171

830

1007)UK95-51-279648Pakistan+44

(0)

1225

753678UK+411/284

3797Switzerland01256

468661UK(94-1)

866854Sri

Lanka(202)

522-2239USA+49

69

136-2

98

05Germany1-925-225-3000USA33

1

34

43

32

36France212.995.5402USA++31-20-5200161The

Netherlands詞法詞干化去除詞綴只留詞干的過程operating-operate,

computing-compute詞干化的優點對詞的各種變化形式進行歸類,減少了詞的數目意味著一定水平上的詞義消歧Lying—lie,

lay(臥倒)

lie,

lied(欺騙)1/20/2020中文信息處理--基于語料庫的工作22詞法1/20/2020中文信息處理--基于語料庫的工作23詞干化中的問題??–

詞干化會浪費一些信息operating

system—operate

systembusiness—busy–

詞法分析把詞切分成詞次,但是有的時候把密切相關的信息組合到一起是有意義的?––保衛祖國—保衛祖國公民有保衛祖國,依法服兵役的義務保衛社會主義建設,戰斗在祖國邊疆及各個崗位上–英語中只有很少的詞態,所以對其進行詞態處理不是很有必要。而其它語言中,進行詞態處理可能會有很大的意義?芬蘭語,每個動詞有百萬種變化形式句子1/20/2020中文信息處理--基于語料庫的工作24句子:以一個“。”、“,”、“!”或者

“?”結尾的內容。90%的情況都是這樣句子可能會被其它的分隔符號切分開(e.g.,:;--)句子的順序可能會被打亂?“You

should

be

here,”

she

said,

“before

Iknow

it!”引號可能在句子的最后一個標點的后面識別句子的邊界,可以采用一些啟發式的方法,也有一些學者嘗試自動的方法來識別句子的邊界。啟發式的方法1/20/2020中文信息處理--基于語料庫的工作25在.?!(和可能的:;--)出現位置之后加一個假設的句子邊界如果假設邊界后面有引號,那么把假設邊界轉移到引號后面如果在句點之前是一個不縱出現在句子末尾的眾所周知的縮寫形式,而且通常后面會跟一個大寫的名字,例如:prof.如果句點前面是一個眾所周知的縮寫形式,但是句點后面沒有大寫詞。這樣即可正確地處理像etc.這樣的大多數縮寫用法,這些縮寫一般出現在句子的中間或者末尾如果下面的條件成立,則刪除?或者!的邊界資格這些符號后面跟著一個小寫字母(或者一個已知的名字)認為其它假設邊界就是句子的邊界自適應的句子邊界檢測Dr.

J.

M.

Freeman

and

T.Boone

PickensJr.David

D.

Palmer,

Marti

A.

Hearst,Adaptive

Sentence

BoundaryDisambiguation,

Technical

Report,

97/94

,UC

Berkeley:

98-99%

correct1/20/2020中文信息處理--基于語料庫的工作26數據標注—標注方案1/20/2020中文信息處理--基于語料庫的工作27我們可以在普通文本的語料庫上做很多工作,在此之上,如果增加一些信息,那么會得到更多的東西句子的邊界,段落的邊界,……Lexical

tags句法結構語義表達語義類別不同的標注方案COCOA

format(文本的頭信息,例如作者、時間、日期、題目等):使用尖括號,第一個字母表示某個域的主要語義通用標記語言SGML(related:HTML,TEI,XML)SGML例子1/20/2020中文信息處理--基于語料庫的工作28<p>

<s>

This

book

does

not

delve

very

deeply

intoSGML.

</s>

<s>

In

XML,

such

empty

elements

may

be

specifically

marked

by

ending

the

tag

name

with

aforward

slash

character.

</s></p><utt

speak=“Mary”,

date

=

“now”>

SGML

canbe

very

useful.

</utt>Character

and

Entity

codes:

begin

with

ampersandand

end

with

semicolonC

is

the

less

than

symbol→

<

is

the

less

than

symbolrésumé

rèsumè語法標注1/20/2020中文信息處理--基于語料庫的工作29?

Tagging

corresponds

to

indicating

the

variousconventional

parts

of

speech.

Tagging

can

be

doneautomatically

(we

will

talk

about

that

in

a

later

lecture)多種標注集,e.g.,Brown

Tag

Set,University

ofLancaster

Tag

Set,

Penn

Treebank

Tag

Set,

BritishNational

Corpus

(CLAWS*),

Czech

National

Corpus標注集的設計–

標注集的特征–Target

Features:useful

information

on

thegrammatical

class–

Predictive

Features:

useful

for

predicting

behaviorother

words

in

context

(e.g.,

distinguish

modals

andauxiliary

verbs

from

regular

verbs)Pen

Treebank標注集1/20/2020中文信息處理--基于語料庫的工作30Adjective:

JJ,

JJR,JJSCardinal:

CDAdverb:

RB,

RBR,RBS,

WRBConjunction:

CC,IN

(subordinating

andthat)Determiner:

DT,PDT,

WDTNoun:

NN,

NNS,NNP,

NNPS

(nodistinction

foradverbial)Pronoun:

PRP,

PRP$,WP,

WP$,

EXVerb:

VB,

VBP,

VBZ,VBD,

VBG,

VBN

(have,

be,and

do

are

notdistinguished)Infinitive

marker

(to

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論