信息時代漢字的標準化和共通化市公開課金獎市賽課一等獎?wù)n件_第1頁
信息時代漢字的標準化和共通化市公開課金獎市賽課一等獎?wù)n件_第2頁
信息時代漢字的標準化和共通化市公開課金獎市賽課一等獎?wù)n件_第3頁
信息時代漢字的標準化和共通化市公開課金獎市賽課一等獎?wù)n件_第4頁
信息時代漢字的標準化和共通化市公開課金獎市賽課一等獎?wù)n件_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息時代漢字標準化和共通化

馮志偉第1頁漢字效用遞減律7000通用漢字覆蓋率和不足率漢字數(shù)增加字數(shù)覆蓋率不足率

100090%10%

2400140099%1%

3800140099.9%0.1%

5200140099.99%0.01%

6600140099.999%0.001%從中能夠看出,1000個漢字覆蓋率為90%,以后每增加1400字,覆蓋率百分比最終一個9字之后便增加一個9字。覆蓋率到達99.999%6600個漢字,就組成了當代通用漢字主體,覆蓋率到達99.9%3800個漢字,就包含了全部當代慣用漢字。伴隨漢字頻度降低,其效用遞減。

第2頁四種漢字代碼漢字輸入碼:為了將漢字輸入計算機而編制代碼。漢字內(nèi)部碼:計算機內(nèi)部處理漢字信息時所采取代碼,其形式取決于機器本身。為了提升機器處理漢字效率,漢字內(nèi)部碼普通采取機器原有代碼結(jié)構(gòu),碼長都盡可能短,而且等長。許多漢字計算機,在輸入漢字之后都要進行一次將漢字輸入碼變成漢字內(nèi)部碼轉(zhuǎn)換。漢字輸出碼:計算機將漢字信息處理結(jié)果輸出打印或顯示時所用代碼,普通也取決于詳細機器或設(shè)備。漢字交換碼:用于計算機之間漢字信息交換代碼。它處于一臺計算機出口與另一臺計算機入口之間。除了確保一字一碼之外,還要與相關(guān)國際標準和國家標準保持一致。

一臺詳細計算機交換碼能夠和輸入碼、內(nèi)部碼、輸出碼一致,也能夠不一致,這一樣取決于漢字信息處理系統(tǒng)設(shè)計與應(yīng)用詳細情況。不過,在普通情況下,一臺計算機輸入碼、內(nèi)部碼和輸出碼是伴隨計算機不一樣而不一樣,而交換碼就必須整齊統(tǒng)一,才便于與其它計算機進行信息交換。第3頁《信息交換用漢字編碼字符集-基本集》(GB2312-80)漢字標準交換碼共分兩級。第一級為慣用字,有3755字,按漢語拼音字母次序排列,第二級為次慣用字,有3008字,按部首排列。字體以中國文字改革委員會1964年編印《簡化漢字總表》以及中華人民共和國文化部和中國文字改革委員會聯(lián)合公布《第一批異體字整理表》為準。字形以中華人民共和國文化部和中國文字改革委員會1965年聯(lián)合公布《印刷通用漢字字形表》為準。除漢字之外,該標準還搜集了普通符號202個(其中包含間隔、標點符號、運算符號、單位符號、制表符號等),序號60個,數(shù)字22個,拉丁字母52個(包含大小寫),日文假名169個(包含大小寫),漢語拼音符號26個,漢字注音符號37個,連同漢字一起,共有7445個圖形符號。這個代碼表最多可收8836個圖形字符,現(xiàn)在尚留有一些空白位置,供深入擴充之用。第4頁繁體字和簡體字對應(yīng)編碼六個字符集基本集(GB2312-80)第一輔助集(GB12345-90)第二輔助集(GB7589-87,收簡體字7237個)第三輔助集(GB/T13131-91)第四輔助集(GB7590-87,收簡體字7039個)第五輔助集(GB/T13132-91)?;炯偷诙?、第四輔助集是簡體字集,第一、第三、第五輔助集是繁體字集。在這六個字符集中,簡體字與繁體字存在著明確一一對應(yīng)關(guān)系:基本集中簡體字與第一輔助集中繁體字對應(yīng),第二輔助集中簡體字與第三輔助集中繁體字對應(yīng),第四輔助集中簡體字與第五輔助集中繁體字對應(yīng),而且對應(yīng)簡體字和繁體字在對應(yīng)字符集中同碼。個別漢字在簡繁體之間存在著一對多關(guān)系,作為特殊情況處理。第5頁《15×16、24×24、32×32漢字點陣字模集及字模數(shù)據(jù)集》所謂點陣字形,就是以點形式來表現(xiàn)字符或漢字形態(tài)。15×16點陣字形,能夠表示《信息交換用漢字編碼字符集·基本集》中絕大部分漢字。因為15×16點陣字形只能表示橫向筆畫和豎向筆畫都不超出八筆漢字。假如一個漢字橫向筆畫或者豎向筆畫超出了八筆(如“量、酬”等字),在點陣字模就容納不下。在《基本集》中,這么漢字共有138個,只好壓縮筆畫做變通處理。15×16點陣字形適于屏幕顯示,作校對之用。24×24點陣字形,能夠全部表示《基本集》中6763個漢字筆形結(jié)構(gòu),用不著壓縮筆畫,而且能夠保持橫細豎粗宋體格調(diào),適合用于針式打印、噴墨打印,是一個很有使用價值點陣字形。32×32點陣字形比24×24點陣字形更能表達宋體格調(diào),能完整地表現(xiàn)漢字筆鋒,使撇筆和捺筆自然婉轉(zhuǎn),舒暢流利,字體質(zhì)量較高。第6頁高精度點陣漢字標準GB/T14242-1993信息交換用漢字64×64點陣黑體字模集及數(shù)據(jù)集GB/T14243-1993信息交換用漢字64×64點陣楷體字模集及數(shù)據(jù)集GB/T14244-1993信息交換用漢字64×64點陣仿宋體字模集及數(shù)據(jù)集GB/T14245-1993信息交換用漢字64×64點陣宋體字模集及數(shù)據(jù)集GB/T14717-1993信息交換用漢字128×128點陣宋體字模集及數(shù)據(jù)集GB/T14718-1993信息交換用漢字128×128點陣黑體字模集及數(shù)據(jù)集GB/T13443-1992信息交換用漢字128×128點陣楷體字模集及數(shù)據(jù)集GB/T13444-1992信息交換用漢字128×128點陣仿宋體字模集及數(shù)據(jù)GB/T14719-1993信息交換用漢字256×256點陣宋體字模集及數(shù)據(jù)集GB/T14720-1993信息交換用漢字256×256點陣黑體字模集及數(shù)據(jù)集GB/T13445-1992信息交換用漢字256×256點陣楷體字模集及數(shù)據(jù)集GB/T13446-1992信息交換用漢字256×256點陣仿宋體字模集及數(shù)據(jù)集第7頁矢量漢字字模集及數(shù)據(jù)集GB/T13844-1992圖形信息交換用矢量漢字單線宋體字模集及數(shù)據(jù)集GB/T13845-1992圖形信息交換用矢量漢字宋體字模集及數(shù)據(jù)集GB/T13846-1992圖形信息交換用矢量漢字仿宋體字模集及數(shù)據(jù)集GB/T13847-1992圖形信息交換用矢量漢字楷體字模集及數(shù)據(jù)集GB/T13848-1992圖形信息交換用矢量漢字黑體字模集及數(shù)據(jù)集第8頁漢字共通化問題在漢字文化圈內(nèi),使用漢字地域和國家還有臺灣、韓國、日本、新加坡、馬來西亞。除了新加坡和馬來西亞同中國大陸一樣使用簡體字之外,這些地域和國家使用漢字并不完全相同。在信息化時代,漢字差異給信息交流帶來不便,這就有必要研究漢字共通化問題。研究漢字共通化問題,首先要盡快摸清現(xiàn)行漢字差異程度,分析產(chǎn)生差異原因,在共識基礎(chǔ)上加強合作,確定整理漢字統(tǒng)一標準,制訂各方都能接收、符合漢字演變規(guī)律科學(xué)方案,首先在信息處理領(lǐng)域內(nèi)實現(xiàn)漢字統(tǒng)一編碼,然后再逐步地統(tǒng)一字形,在國際范圍內(nèi)促進漢字規(guī)范化和標準化。第9頁中國制訂《信息處理文本通信用編碼字符集》(GB8586)該標準字符集由GB2312-80(基本集)和一個漢字通信子集組成。漢字通信子集搜集漢字、表示日期和時間圖形字符等共705個,其中有:第二輔助集中漢字520個,第四輔助集中漢字92個,表示日期和時間圖形字符69個,《第一批異體字整理表》淘汰用于人名、地名等異體字、漢字部件等23個。通信子集只限于在通信網(wǎng)中使用,與其它系統(tǒng)進行數(shù)據(jù)交換時仍要轉(zhuǎn)換為漢字標準交換碼。第10頁臺灣制訂漢字字符集標準《漢字資訊交換碼CCCII》,

《通用漢字標準交換碼TCA-CNS11643》。第11頁CCCII字符集慣用字集收4808個慣用字,作為CCCII第一冊,公布于1980年4月;備用字集收6025個次慣用字、5364個罕用字、2112個異體字以及3531個其它資訊用字,共17032字,作為CCCII第二冊,公布于1981年2月;罕用字集收12924個罕用字、314個次慣用字及7345個其它資訊用字,共20583字,作為CCCII第三冊,公布于1987年5月;異體字集收異體字11517個,公布于1981年2月。全部漢字首先按《康熙字典》部首排序,其次按部首外筆畫數(shù)排序,最終按筆順排序。

第12頁TCA-CNS11643共收漢字13051個,于1986年公布。整個編碼空間分16個字面:第一字面收慣用漢字5401個,包含CCCII中慣用字4808個、中小學(xué)書本上慣用字587個以及6個異體字;第二字面收次慣用漢字7650個;第三至十一字面為標準保留區(qū);第十二至十六字面為用戶定義區(qū),第十四字面已收罕用字6319個。每個字面上漢字按先筆畫后部首次序排列。第13頁JISX0208-1983和JISX0212-1990(日本漢字字符集)JISX0208-1983是日本國家交換碼標準,共收字符6877個,分為84區(qū)1至15區(qū)是拼音字符及符號區(qū),收普通圖形字符、數(shù)字、拉丁字母、日本平假名、片假名、希臘字母、西里爾字母、制表符號等共524個字符;16至84區(qū)是漢字區(qū),收日本漢字6353個,漢字分為兩級,一級漢字2965個,按音排列,二級漢字3388個,按形排列。另有1959個空白碼位是保留區(qū)。JISX0208-1990.JISX0212-1990是日本第二個漢字編碼字符集標準,作為日本漢字交換碼輔助集。該字符集共收圖形字符6067個,其中非漢字字符266個,日本漢字5801個,按部首排序。另有1829個空白碼位作保留區(qū),940個空白碼位作用戶自定義之用。第14頁韓國字符集字符集中同時收漢字字符和諺文字符。韓國于1987年制訂了韓國家標準準編碼字符集KSC5601-1987,共有8224個字符1至15區(qū)是拼音文字和符號區(qū),收986個字符;16至40區(qū)是諺文字符區(qū),收諺文字符2350個;42至93區(qū)是漢字字符區(qū),收漢字4888個,其中有268個多音字分配了一個以上碼位,出現(xiàn)重復(fù)編碼;41區(qū)和94區(qū)共188個碼位,是用戶自定義區(qū)。韓國于1991年制訂了編碼字符集輔助集KSC5657-1991,增收漢字2856個。

第15頁中日韓漢字字符集比較中國國家語言文字工作委員會曾將GB2312和JIS0208中漢字做過比較。GB漢字6763個,JIS漢字6353個,它們之間相同漢字為1851個,相近漢字為1393個,相同和相近漢字總數(shù)為3244個。從GB方面看,有48%一致,從JIS方面看,有51%一致。有些人曾將韓國文教部要求大中學(xué)用漢字1800字與GB12345中繁體字做過比較,發(fā)覺1800字中1791個漢字均可在GB12345中找到,占99.5%。這些比較研究說明,中、日、韓漢字標準,存在著大面積相互覆蓋,它們?yōu)橹小⑷铡㈨n漢字統(tǒng)一編碼提供了相當充分事實依據(jù)。第16頁《信息技術(shù)通用多八位編碼字符集(UCS)》國際標準化組織(ISO)于1984年開始研究、制訂《信息技術(shù)通用多八位編碼字符集(UCS)》國際標準,即ISO/IEC10646。1993年5月,該標準第一部分:體系結(jié)構(gòu)與基本多文種平面(即ISO/IEC10646.1)正式公布。前后經(jīng)歷了九年時間。它對UCS總體體系結(jié)構(gòu)和基本多文種平面(BasicMultilingualPlane,簡稱BMP)做了要求。在BMP內(nèi),A區(qū)用于字母文字、音節(jié)文字和各種符號編碼;I區(qū)用于中、日、韓(CJK)統(tǒng)一表意文字編碼;O區(qū)留作未來標準化之用;R區(qū)作為BMP限制使用區(qū),用于專用字符、變形顯現(xiàn)和兼容字符編碼。第17頁中日韓漢字統(tǒng)一編碼I區(qū)中表意文字采取中、日、韓漢字統(tǒng)一編碼方式;以現(xiàn)有各標準字符集為源字符集,將其中漢字按統(tǒng)一認同標準進行認同和甄別后,生成涵蓋各源字符集;按東亞著名四大字典(《康熙字典》、《大漢和字典》、《漢語大字典》、《大字源》)頁碼/字位綜合排序CJK漢字統(tǒng)一字匯和字序,組成UCS中表意文字部;共包含20902個漢字字符。第18頁國際標準字符集編碼標準第一,按文字(script)編碼,而不是按語言、國度、地域和專業(yè)編碼:在漢字文化圈內(nèi),漢字經(jīng)歷了許多世紀字形演變和字義漂移,它們原來形狀和含義都已經(jīng)發(fā)生了改變,不過,它們在字形、字音和基本含義方面依然存在著相同性,它們實際上就是一個超越語言“廣義漢字”,所以,統(tǒng)一編碼時不考慮語言、國度、地域和專業(yè)不一樣。第二,不允許(或盡可能防止)重復(fù)編碼。中、日、韓漢字統(tǒng)一編碼遵照了這兩條標準,這是處理表意文字編碼時大字量小空間矛盾最正確方案。第19頁源字符集確定統(tǒng)一編碼是在中日韓原有漢字編碼字符集基礎(chǔ)之上進行,為中日韓漢字統(tǒng)一編碼所選取源字符集有十三個,包含六萬多個已經(jīng)編碼漢字。這十三個源字符集是:

類集號字符集標準字符個數(shù)

G0GB2312-80(基本集)6763

G1GB12345-90(輔一)獨立字2352

CG3GB/T13131-91(輔三)7237

G5GB/T13132-91(輔五)7039

G7當代漢字通用字表(7000字表)獨立字41+1

G8GB8565-89(文本通信用)獨立字290

T1臺灣TCA-CNS11643/第1字面5401+9

T2臺灣TCA-CNS11643/第2字面7650

Te臺灣TCA-CNS11643/第14字面6319+239+10

JJ0日本JISX0208-906353+1

J1日本JISX0212-905801

KK0韓國KSC5601-874888

K1韓國KSC5657-912856

另外,還收納了少許香港用字(58個)、韓國文吏讀字(92字)和臺灣CCCII中獨特字(200多個)。第20頁漢字認同(1)漢字認同要處理橫跨幾個標準變體漢字,在認同過程中,要力爭保留任一標準之內(nèi)允許相同變異誤差,當兩個字形只含有微小差異時,只賦以一個代碼,不然,就賦以不一樣代碼。漢字認同規(guī)則在相當程度上考慮了中國對通用漢字編碼提議ISO/TC1/WG2/N489和日本JIS出版規(guī)則。漢字認同規(guī)則漢字認同指是表義文字字形(ideograph)認同,而不是字音、字義認同,也不是詳細造型(font)強求一律,字形結(jié)構(gòu)相同,只是筆畫小有差異字,就給予認同所謂“筆畫小有差異”是指以下情況筆形改變差異;筆畫類型差異;筆畫曲率差異;筆畫長度差異;斷筆與連筆;筆畫增減一筆。第21頁漢字認同(2)漢字認同規(guī)則(續(xù)前)偏旁部首有細微差異(不包含簡化字偏旁)字,給予認同;因簡化造成字形差異,不認同;同一字因結(jié)構(gòu)方式不一樣而形成變體,不認同;不作垂直認同,在同一集屬下(比如,同在G屬下,或同在K屬下),即使字形非常靠近,也不可認同,因為它們在同一集屬下,已經(jīng)分別編碼。非同源字(non-cognate)不認同,也就是說,在文字演變過程中互不相干漢字不認同。漢字認同中充分考慮到了中國大陸簡體字,對于當前正在開發(fā)中GB標準輔助集含有當代簡體字對應(yīng)字,分別給予編碼,共字左右。認同結(jié)果表明,中、日、韓各源字符集之間,確實存在著大面積相互覆蓋。J、K與C(G,T)間不一樣漢字只有744個?!罢J同”是一個求大同存小異正確路徑,它既未修改也未曾毀滅任何文字,因而也未觸動任何國家和地域文字政策,不包括文化與法律問題。第22頁字匯確定經(jīng)過認同與甄別,六萬多個源字符集中漢字,能夠歸納為28000多個“認同漢字”,其中20902個漢字已經(jīng)正式收入國際標準,成為UCS表意文字區(qū)(I區(qū))。其余8000個漢字,是G3、G5、Te中獨特字,現(xiàn)已作為擴充需求之一提交給國際標準化組織。已經(jīng)收入UCS20902個CJK漢字,從中國大陸角度看,有17124個漢字起源于GB;從中國臺灣角度看,有17258個漢字起源于TCA-CNS;從日本角度看,有12157個漢字起源于JIS;從韓國角度看,有7476個漢字起源于KSC。CJK漢字統(tǒng)一編碼完全能夠滿足中國(包含大陸和臺灣)、日本和韓國漢字信息處理需要。這是國際大協(xié)作重大結(jié)果,是國際信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論