




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于語料庫的工作張宇*1中文信息處理--基于語料庫的工作大綱什么是語料庫語料庫的發展簡史語料庫建設中處理的問題數據標注1/20/2020中文信息處理--基于語料庫的工作2什么是語料庫語料庫,英文為Corpus存儲語言材料的倉庫現代的語料庫是指存放在計算機里的原始語料文本或經過加工后帶有語言學信息標注的語料文本.1/20/2020中文信息處理--基于語料庫的工作3關于語料庫的三點基本認識語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源;1/20/2020中文信息處理--基于語料庫的工作4語料庫示例1/20/2020中文信息處理--基于語料庫的工作5北京大學計算語言所富士通人民日報標注語料庫樣例:歷史/n將/d銘記/v這個/r坐標/n:/w北緯/b41.1/m度/q、/w東經/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t1
50分/t。/w……[中國/ns政府/n]nt順利/ad恢復/v對/p香港/ns行使/v主權/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩定/an。/w語料庫的分類1/20/2020中文信息處理--基于語料庫的工作6生語料庫/熟語料庫生語料庫就是未經加工的,沒有任何切分,標注標記的原始語料庫熟語料庫就是指經過加工,帶有切分,標注標記的語料庫系統型語料庫/專用型語料庫系統型語料庫就是依據事先確定的選材原則和比例選取語料的語料庫專用型語料庫就是指專門服務于某個特定目的的語料庫單語種語料庫/多語種語料庫語料庫發展簡史第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代-)1/20/2020中文信息處理--基于語料庫的工作7第一代語料庫Brown語料庫LOB語料庫LLC語料庫百萬詞級以語言研究為導向1/20/2020中文信息處理--基于語料庫的工作8第二代語料庫COBUILD語料庫Longman語料庫千萬詞級詞典編纂-應用導向1/20/2020中文信息處理--基于語料庫的工作9第三代語料庫ACL/DCI語料庫The
Association
for
ComputationalLinguisticsData
Collection
InitiativeUPenn樹庫LDC(
Linguistic
Data
Consortium
)超大規模(上億詞級)標準編碼體系深度標注/多語種NLP應用1/20/2020中文信息處理--基于語料庫的工作10語料庫建設中處理的問題文本生文本標注文本語料庫建設中處理的問題低級格式問題標記化:什么是一個詞?詞法句子1/20/2020中文信息處理--基于語料庫的工作11低級格式問題垃圾格式由于語料庫的來源復雜,語料庫中可能存在無法處理的各種各樣的格式或內容,他們是沒有用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表如果數據來源于OCR,會引入錯誤識別的問題1/20/2020中文信息處理--基于語料庫的工作12低級格式問題大小寫the,The,THERichard
Brown
brown
paint識別句子中人名的啟發式方法把每個句子開頭的大寫字母轉換成小寫字母把一串連續大寫的詞當作標題和副標題這樣,其余的大寫字母就可以認為是名字1/20/2020中文信息處理--基于語料庫的工作13標記化:什么是一個詞什么是詞前后有空格的連續字母組成的字符串,可以包含連字符和省略號,但是不能包含其它的標點符號。–
Kucera
and
Francis(1967)$22.50,Micro$oft,C|net1/20/2020中文信息處理--基于語料庫的工作14標記化:什么是一個詞句點大多數句點的作用是表明句子結束,其它情況表示縮寫,例如:etc.,Calif.。保留句點的意義Wash.(Washington)--
Washetc.出現在句子的末尾的時候,只保留一個句點,這個句點同時表示兩種意思。1/20/2020中文信息處理--基于語料庫的工作15標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作16單撇號I’m,isn’t
……I
am,is
notdog’s表示什么?dog
is,dog
has,還是所有格形式?詞末尾的單撇號如何處理??通常代表一對引號的結束,不是該詞的一部分如果它跟著一個s出現boys’
toys標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作17連字符:不同形式表示相同形式的詞–
帶有連字符的一串字母應該看成一個詞還是兩個?(有時候是一個,有時候是兩個)?–一個,來源于排版印刷找到一行中最后的連字符,丟棄它,把本行的詞和下一行的連起來?e-mail,
co-operate連字符用于表示引用的短語或者數量、比率the
26-year-olddatabase,
data
base,
data-base破折號和詞語之間的空格標記化:什么是一個詞相同形式表示不同的“詞語”saw–工具saw–see的過去時1/20/2020中文信息處理--基于語料庫的工作18標記化:什么是一個詞其它語言中的分詞?–
中文、日文、泰文嚴守一把手機關上—嚴守一把手機關上–
德語中大多數的詞語有空格分割,但是復合名詞寫成單獨的詞Lebensversicherungsgesellschaftsangestellter1/20/2020
diskharddisk
–
hard19人身保險公司的雇員–
database
–
data
base中文信息處理--基于語料庫的工作標記化:什么是一個詞非詞語分界的空格data
base
–
database,
9365
1873
–93651873New
York,
San
Francisco如果和連字符一起出現,問題就更加復雜了?the
New
York
–
New
Haven
Railroad–
習慣搭配形成的詞Work
out– I
couldn’t
work
the
answer
out.1/20/2020中文信息處理--基于語料庫的工作20標記化:什么是一個詞1/20/2020中文信息處理--基于語料庫的工作21電話號碼國家電話號碼國家0171
378
0647UK+45
43
48
60
60Denmark(44.171
830
1007)UK95-51-279648Pakistan+44
(0)
1225
753678UK+411/284
3797Switzerland01256
468661UK(94-1)
866854Sri
Lanka(202)
522-2239USA+49
69
136-2
98
05Germany1-925-225-3000USA33
1
34
43
32
36France212.995.5402USA++31-20-5200161The
Netherlands詞法詞干化去除詞綴只留詞干的過程operating-operate,
computing-compute詞干化的優點對詞的各種變化形式進行歸類,減少了詞的數目意味著一定水平上的詞義消歧Lying—lie,
lay(臥倒)
lie,
lied(欺騙)1/20/2020中文信息處理--基于語料庫的工作22詞法1/20/2020中文信息處理--基于語料庫的工作23詞干化中的問題??–
詞干化會浪費一些信息operating
system—operate
systembusiness—busy–
詞法分析把詞切分成詞次,但是有的時候把密切相關的信息組合到一起是有意義的?––保衛祖國—保衛祖國公民有保衛祖國,依法服兵役的義務保衛社會主義建設,戰斗在祖國邊疆及各個崗位上–英語中只有很少的詞態,所以對其進行詞態處理不是很有必要。而其它語言中,進行詞態處理可能會有很大的意義?芬蘭語,每個動詞有百萬種變化形式句子1/20/2020中文信息處理--基于語料庫的工作24句子:以一個“。”、“,”、“!”或者
“?”結尾的內容。90%的情況都是這樣句子可能會被其它的分隔符號切分開(e.g.,:;--)句子的順序可能會被打亂?“You
should
be
here,”
she
said,
“before
Iknow
it!”引號可能在句子的最后一個標點的后面識別句子的邊界,可以采用一些啟發式的方法,也有一些學者嘗試自動的方法來識別句子的邊界。啟發式的方法1/20/2020中文信息處理--基于語料庫的工作25在.?!(和可能的:;--)出現位置之后加一個假設的句子邊界如果假設邊界后面有引號,那么把假設邊界轉移到引號后面如果在句點之前是一個不縱出現在句子末尾的眾所周知的縮寫形式,而且通常后面會跟一個大寫的名字,例如:prof.如果句點前面是一個眾所周知的縮寫形式,但是句點后面沒有大寫詞。這樣即可正確地處理像etc.這樣的大多數縮寫用法,這些縮寫一般出現在句子的中間或者末尾如果下面的條件成立,則刪除?或者!的邊界資格這些符號后面跟著一個小寫字母(或者一個已知的名字)認為其它假設邊界就是句子的邊界自適應的句子邊界檢測Dr.
J.
M.
Freeman
and
T.Boone
PickensJr.David
D.
Palmer,
Marti
A.
Hearst,Adaptive
Sentence
BoundaryDisambiguation,
Technical
Report,
97/94
,UC
Berkeley:
98-99%
correct1/20/2020中文信息處理--基于語料庫的工作26數據標注—標注方案1/20/2020中文信息處理--基于語料庫的工作27我們可以在普通文本的語料庫上做很多工作,在此之上,如果增加一些信息,那么會得到更多的東西句子的邊界,段落的邊界,……Lexical
tags句法結構語義表達語義類別不同的標注方案COCOA
format(文本的頭信息,例如作者、時間、日期、題目等):使用尖括號,第一個字母表示某個域的主要語義通用標記語言SGML(related:HTML,TEI,XML)SGML例子1/20/2020中文信息處理--基于語料庫的工作28<p>
<s>
This
book
does
not
delve
very
deeply
intoSGML.
</s>
…
<s>
In
XML,
such
empty
elements
may
be
specifically
marked
by
ending
the
tag
name
with
aforward
slash
character.
</s></p><utt
speak=“Mary”,
date
=
“now”>
SGML
canbe
very
useful.
</utt>Character
and
Entity
codes:
begin
with
ampersandand
end
with
semicolonC
is
the
less
than
symbol→
<
is
the
less
than
symbolrésumé
→
rèsumè語法標注1/20/2020中文信息處理--基于語料庫的工作29?
Tagging
corresponds
to
indicating
the
variousconventional
parts
of
speech.
Tagging
can
be
doneautomatically
(we
will
talk
about
that
in
a
later
lecture)多種標注集,e.g.,Brown
Tag
Set,University
ofLancaster
Tag
Set,
Penn
Treebank
Tag
Set,
BritishNational
Corpus
(CLAWS*),
Czech
National
Corpus標注集的設計–
標注集的特征–Target
Features:useful
information
on
thegrammatical
class–
Predictive
Features:
useful
for
predicting
behaviorother
words
in
context
(e.g.,
distinguish
modals
andauxiliary
verbs
from
regular
verbs)Pen
Treebank標注集1/20/2020中文信息處理--基于語料庫的工作30Adjective:
JJ,
JJR,JJSCardinal:
CDAdverb:
RB,
RBR,RBS,
WRBConjunction:
CC,IN
(subordinating
andthat)Determiner:
DT,PDT,
WDTNoun:
NN,
NNS,NNP,
NNPS
(nodistinction
foradverbial)Pronoun:
PRP,
PRP$,WP,
WP$,
EXVerb:
VB,
VBP,
VBZ,VBD,
VBG,
VBN
(have,
be,and
do
are
notdistinguished)Infinitive
marker
(to
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學寒假實踐活動方案
- 家長走進課堂活動方案
- 小型種植牙活動方案
- 小型家電清倉活動方案
- 小學志愿服務活動方案
- 宜昌粽子節活動方案
- 家政公司推廣策劃方案
- 家居電器商城活動方案
- 小區整治樓道活動方案
- 定向測向活動方案
- 2025年中學教師資格考試《綜合素質》教育法律法規經典案例分析及強化試題集(含答案)
- CGF生長因子在口腔醫學中的應用
- 2025年小學語文期末考試試題及答案
- 發改委立項用-超薄玻璃項目可行性研究報告
- 《等腰三角形的性質》課件
- 工業互聯網與船舶行業融合應用參考指南 2025
- 2024年浙江省《輔警招聘考試必刷500題》考試題庫附答案【綜合題】
- 中國熔融粘合環氧粉末涂料項目商業計劃書
- 200以內加減法-2000題(帶答案)
- 南通國家級南通經濟技術開發區公開招聘招商人員筆試歷年參考題庫附帶答案詳解析
- 上海市閔行區2024-2025學年八年級上學期期末考試物理試題(解析版)
評論
0/150
提交評論