




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章漢字編碼技術1漢字編碼的概念從廣義角度看 字典/詞典編碼方法,用于在字典和詞典中的快速定位,常見的方法:部首、筆畫、拼音和四角號碼等從狹義角度看 漢字鍵盤編碼,用計算機鍵盤上的按鍵為漢字編碼漢字編碼的概念計算機通信技術領域對所處理信息的字符集符號序列的排序原則和低嗎賦值方式,簡稱“機內碼”,包括存儲碼、處理碼、傳輸碼等計算機鍵盤輸入漢字的代碼設計與實現,簡稱“外碼”或“人機界面編碼”,用一套字母數字代碼輸入漢字漢語詞典常用檢字方法之一,用最多5個阿拉伯數字來對漢字進行歸類。四角號碼檢字法由王云五發明,他并在1925年5月著《號碼檢字法》由商務印書館出版。四角號碼檢字法用數字0到9表示一個漢字四角的十種筆形,有時在最后增加一位補碼。2四角號碼編碼方法橫一垂二三點捺叉四插五方框六七角八八九是小點下有橫變零頭舉例:端先取左上角0,其次取右上角2再取左下角1,最后取右下角2,端=0212。3四角號碼取角方法取角方法(1)一筆可以分角取號。例:以左邊是一筆,上取為2,下取為7。(2)一筆的上下兩段和別筆構成兩種筆形的,分兩角取號。例:水左邊,上取1,下取9。(3)下角筆形偏在一角的,按實際位置取號,缺角作0。例:妒右下角缺,取為0。(4)凡外圍是“口、門(門)”的三類字,左右兩下角改取里面的筆形。例:田=6040。(5)一個筆形,前角已經用過,后角作0。例:王左上角為一橫,取1,右上角因為前面已經用過,所以取0。附號(1)四角號碼字較多時,再取靠近右下角(第四角)上方一個筆形作“附號”,如果這一筆形已被右上角用過,則作0。(2)四角和“附號”相同的字,照各字所含橫筆數目,順序排列。取角注意項(1)角形有兩單筆或一單筆一復筆的,不論高低,一律取最左或最右的筆形。(2)有兩復筆可取的,在上角取較高的的復筆,在下取較低的復筆。(3)當中起筆的撇,下角有他筆的,取他筆作下角,但左邊起筆的撇,取撇筆作角。4漢字編碼的發展20世紀70年代 起步階段,拼音編碼、五筆字形、自然碼等,效率較低20世紀80年代中期 轟轟烈烈的“大躍進”式編碼活動,但沒有什么發展20世紀90年代 蕭條期進入21世紀后 將是又一個發展期,數字編碼方案將占主導5漢字編碼中的幾個概念(1)字符集/字匯和詞匯字符集/字匯多/少詞匯多/少 特指某個編碼方案編碼詞組的集合碼元組成輸入碼的字符集合稱為碼元。如拼音碼的碼元是“a”-“z”中的任意一個字母;縱橫碼的碼元是“0”-“9”中的任意一個數字。6縱橫碼的使用方法由香港殷商周忠繼先生發明、推廣的一套以0-9十個數字進行編碼的小鍵盤輸入法,它以片語/詞組作為主要輸入方式。一橫二豎三點捺,叉四插五方塊六,七角八八九是小,撇與左鉤都是零。單字取碼
取碼次序:左上角、右上角、左下角、右下角取大不取小有重復筆形不取有邊取邊有角高優先詞組取碼
33規則:對二字詞組,取每字的頭3碼,若不足3碼,則有幾碼取幾碼,取完按數字鍵的9上面的“﹡”222規則:對三字詞組,取每字的頭2碼,若不足2碼,則有幾碼取幾碼,同上。2112規則:對四字詞組,詞首尾字各取頭2碼,中間每字各只取頭1碼,同上。21111規則:對多字詞組,第一字取頭2碼,第二至第五字各取頭1碼,余下若字不用取碼,同上。7漢字編碼中的幾個概念(2)碼長輸入碼的長度稱為碼長。如輸入碼“123”的碼長為3等長編碼,如區位碼等不等長編碼,如拼音碼、縱橫碼等單碼和重碼一個編碼可能對應多個漢字和詞組,那么這些漢字或詞組稱為重碼。一個編碼對應的漢字和詞組只有一個時,稱該漢字和詞組為單碼。8漢字編碼中的幾個概念(3)編碼空間和編碼效率所有可能的輸入碼集合,稱為編碼空間。編碼空間的大小依賴于碼元集合和碼長。如某個編碼方案的碼元共有K個,編碼采用等長碼,長度為i,則編碼空間大小為:C=Ki,如區位碼的編碼空間大小為:C=104,即10000個。編碼效率簡單而言是指編碼的字匯/詞匯除以編碼空間的大小。如區位碼,它的字匯大小為6763,則編碼效率為6773/10000=67.73%。
9漢字的墑(1)——信息量的概念熵,在信息論里叫信息量。從控制論的角度來看,應叫不確定性。最簡單的是只有兩種可能性,非此即彼,我們以這種事物的信息量為單位,叫1比特(bit)。如果可能性數目有2的n次方(N=2n),那就是n比特,即信息量等于可能性數目N的“以2為底的對數”:H=㏒2N=㏒N/㏒2。信息量應按符號的可能性(數學上叫概率大小)來計算,它是概率的負對數。平均信息量就是它們的加權平均H=-∑pi㏒pi(1≤i≤n)(pi表示第i個字母的概率)文字信號的信息量H是信號個數n的以2為底的對數:H=㏒n/㏒2。英文有26個字母,每個字母的信息量H=㏒26/㏒2=4.700。10各種語言的字母的信息量法文 3.98比特 27個字母意大利文 4.00比特 21+5個字母西班牙文 4.01比特 27個字母英文 4.03比特 27個字母德文 4.10比特 26+4個字母羅馬尼亞文 4.12比特俄文 4.35比特 37個字母中文 9.65比特11漢字的墑(2)——漢字墑的概率分布假設給定一個漢字字符集HZ,其中漢字數為n,則該字符集的熵為H=-∑Pi㏒Pi(1≤i≤n)其中Pi為單個漢字在漢語文本中出現的概率,-㏒(Pi)是第i個漢字出現時的信息量,-∑㏒(Pi)是所有漢字在不考慮前后相關性時所給出的全部信息量。H是該集合中的每個漢字的平均信息量。12漢字的墑(3)——漢字墑的意義平均信息量(信息熵)表示存儲或表示該漢字字符集所需要的二進制位數(中文約為9.65bit)。根據每個漢字的平均熵,通過采用不等長編碼可以提高漢字存儲和傳輸效率。信息量(信息熵)與字的使用頻度成反比。即頻度下降一半,其信息量增加1位。對漢字編碼而言,采用多于2個碼元時,漢字的平均熵也會下降。如:當m=2時,Lmin
(3,4) 當m=47時Lmin
(1.73,2.73)不同領域,字的使用頻度不同,因此,對大系統內的漢字信息熵的意義不大。13漢字鍵盤編碼的依據——心理依據從心理學角度來看,根據漢字音信息的漢字編碼,人在大腦中無需進行任何的思考,就可以輸入漢字,所以說是最為直接的輸入方式。根據漢字形信息的漢字編碼,用戶在輸入時,大腦需要把語言轉換為字形,然后才能輸入,所以說是一種間接的輸入方式。漢字心理學和模糊心理學的研究表明,人認字時上半部優于下半部,外圍優于中間。從排列心理學角度來看,希望漢字的編碼能盡量唯一,并能盡量表達漢字的本身特征。14漢字鍵盤編碼的依據——漢語拼音漢語拼音的語言形式有三個要素:聲母、韻母和聲調。三者構成一個音節。其中聲母有21個,韻母有35個。聲調有五種:陰平、陽平、上聲、去聲和輕聲。聲韻結合起來有417個基本音節,如果考慮聲調,總共有1330個左右的音節。所有的計算機用漢字的發音都在這些音節范圍內。這就是漢字同音字/詞多的根本所在。如在GBK中,拼音“yi”有個460多個對應的漢字。同樣也存在大量的同音詞。這就造成重碼多和輸入不方便。這是以音作為編碼要素存在的主要問題。15漢字鍵盤編碼的依據——漢字部件漢字的字形分為三級:筆畫、漢字部件(如偏旁部首)和整字。由筆畫構成漢字部件,由漢字部件構成整字。絕大多數根據漢字字形的編碼方案基本上是基于部件的編碼,如“五筆”、“表形碼”等。基于部件的漢字編碼需要解決的問題是:漢字如何拆分?用漢字部件編碼的最大問題是部件的規范問題。16漢字鍵盤編碼的依據——筆畫/筆順筆畫/筆順編碼是選取漢字的基本筆畫(如五種或八種),把筆畫定義到漢字的數字鍵和字母鍵上,然后依筆順或漢字的筆順來給漢字編碼。筆畫輸入近年來受到了特別的重視,主要是手機迅速普及所致。筆畫輸入的優勢在于簡單,無需學習和記憶。筆畫輸入的困難在于單字輸入重碼多、詞組輸入效率低、句子輸入則困難。17漢字編碼的分類——流水碼將漢字按照一定順序排列后,給每個漢字以一個特定的順序號,形成的漢字編碼稱為流水碼,也稱無理碼或順序碼。一個現成的順序就是漢字內碼的排列順序,區位碼和內碼就是其中的兩個實例。流水碼的好處在于編碼與漢字一一對應,絕無重碼。缺點是編碼無規律,記憶難度大,不易掌握。18漢字編碼的分類——音碼音碼是以漢字的發音為基礎的一種漢字編碼,一般以《漢語拼音方案》為藍本進行設計。如智能ABC、全拼、雙拼、微軟拼音、紫光拼音等。音碼的最大好處是簡單易學。音碼的缺點:漢字同音字太多,檢索同音字使漢字輸入速度大大減慢。目前音碼仍然是使用最廣泛的編碼,幾乎96%以上的用戶采用音碼。值得一提的是:音碼本身也在揚長避短,作了許多有益的改進。19漢字編碼的分類——形碼形碼是依漢字的字形來編碼的。如五筆字型、筆形碼、大眾碼等。形碼有效地避免了按發音輸入的缺陷,重碼率也相對較低,為實現漢字的盲打提供了可能,成為專業人員的首選漢字輸入碼。形碼的部件多,分布廣,記憶起來較難,同時須經過較長時間的學習訓練才能熟練掌握。20漢字編碼的分類——音形碼/形音碼音形碼/形音碼兼顧漢字的讀音、字形兩方面的特點進行混合編碼。音形碼在兼有音碼和形碼二者之長的同時,也兼有二者的一些弱點。音形碼在輸入時既考慮漢字的讀音又考慮漢字的寫法,人需要思考的時間也會增多,造成輸入時的瓶頸。21海曼(Hyman)公式與漢字編碼時間海曼公式的一般形式為:T=a十bH(K)其中,T為平均選擇反應時間,K是選擇信號的個數,H(K)為每一個信號的平均信息量,a和b是系數。漢字編碼時間的公式:T=a十blog2K十Ca為大腦發出指令沖動到肌肉動作所需時間,即擊鍵時間;blog2K理解為“選擇時間與信息量成正比”的適用條件下,選擇等概率鍵位所需時間的一種可采用的表達方式;C代表一個碼元的平均“編碼時間”,反應了思維時間和檢索時間的長短。22鍵盤分區圖功能按鍵區小鍵盤區大鍵盤區23大鍵盤編碼如果一種編碼的碼元集合為“a”-“z”這26個字母或它的子集,那么我們稱這種碼元的鍵盤映射方式為大鍵盤編碼。如全拼和智能ABC等拼音編碼、五筆、鄭碼等等。各種拼音編碼一般都是采用大鍵盤編碼。形碼也有采用大鍵盤的,如五筆就是一個典型的例子。一般采用大鍵盤的碼長在3-4之間,平均碼長一般不能超過4。24小鍵盤編碼采用鍵盤右邊的數字區的“0”-“9”這10個數字進行編碼的方法稱為小鍵盤編碼。如區位、縱橫、字原、五筆數碼等均是小鍵盤編碼。采用小鍵盤編碼的以形碼居多,音碼也有但不多。形碼一般都采用筆畫編碼。音碼在計算機小鍵盤上應用很少,主要是用在數碼產品上,如手機、電話、遙控器等。實現時一般把26個英文字母映射到10個數字按鍵上。25縱橫碼的鍵位圖字母數字映射圖26大大鍵盤編碼大大鍵盤編碼是指編碼的碼元不僅是大鍵盤上的26個字母,還包括10個數字和部分的其它符號。這種編碼方案早期很多,如字元編碼、錢碼、陸碼、綠色拼形等。早期出現這樣的編碼方法主要是可以增加編碼空間,從而降低重碼率,實現快速輸入。這種編碼方案已經很少了,主要是因為這種方案具有不易學和難記等缺陷。27綠色拼形編碼的鍵位分布圖28小小鍵盤編碼小小鍵盤編碼是指只用5個數字來編碼,也就是碼元數只有5個。小小鍵盤編碼方案主要是應用在手機等數碼設備上,幾乎所有的手機筆形編碼均是采用小小鍵盤編碼。Nokia筆畫輸入法小小鍵盤圖29數碼鍵盤方案所謂的漢字數碼是指用“0”到“9”十個數字對漢字的單字和詞組進行編碼,使得只用小鍵盤就可以完成漢字的輸入,并可移植到手機以及各類PDA產品上使用。30縱橫碼在縱橫漢字編碼方案中,把筆形分為10類,分別用“0”到“9”這10個數字表示。筆形與數字代碼的關系可通過下列口訣記憶:“一橫二豎三點捺,叉四插五方塊六。七角八八九是小,撇與左鉤都是零。”取碼規則是將漢字看成一個方塊字,取漢字四個角的筆形為有關編碼。部分漢字的取碼實例:人(8)中(5)十(4)重(01)要(14)喜(46)事(50)31五筆數碼
五筆數碼按照筆畫進行編碼。筆畫分為“橫”、“豎”、“撇”、“捺”、“折”五種,分別用“1”、“2”、“3”、“4”、“5”作為代碼。下表為基本筆畫代碼表:326鍵6碼鍵盤圖9鍵9碼鍵盤圖33統一碼該方案取5種基本筆畫:“橫(一)”(含“提”)、“豎(丨)”(含“豎勾”)、“撇(丿)”(包括“啄”)、“點(丶)”(含“捺”)和“折(乙)”(包括左折和右折),并且將這五種筆畫賦予順序值“1”-“5”。數字統一碼將漢字結構歸納概括為四種基本結構。它們是:上下結構,左右結構,包圍結構,嵌套結構。同時規定一個漢字可以取一至六碼。字445576各359251右68934左右數碼利用數字來表示漢字的筆劃、拼音和部件,其特征是將左右(含左中右)結構的漢字定義為“左右字”,再按書寫順序把“左右字”分為“左部”與“右部”。如下表所示:把“左右字”以外的漢字都定義為“整體字”。根據規則進行數字編碼。35漢字編碼國家標準國家標準說明GB13000.1《信息技術多八位編碼字符(UCS)》GB18030《信息技術信息交換用漢字編碼字符集基本集的擴充》GB/T1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 呼吸系統不良反應綜合解析
- 人工智能技術在醫療行業應用案例研究報告
- 2025至2030中國桿系統幕墻行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030中國有機蔬菜種子行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030中國扶手輔助裝置行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030中國抽紗刺繡工藝品制造市場營銷推廣策略與行業投資趨向預測報告
- 2025至2030中國抗菌玻璃行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030中國手機游戲行業發展趨勢分析與未來投資戰略咨詢研究報告
- 2025至2030中國懸掛式拋丸機行業市場現狀分析及競爭格局與投資發展報告
- 2025至2030中國干濕車間吸塵器行業發展趨勢分析與未來投資戰略咨詢研究報告
- 機械制圖教案(完整版)
- 工業互聯網與智能制造
- 司母戊鼎的介紹
- 肺炎衣原體醫學課件
- 2024年兒童童車行業分析報告及未來發展趨勢
- 23秋國家開放大學《漢語基礎》期末大作業(課程論文)參考答案
- 《公務接待》課件
- 中醫內科學消渴課件
- 《新能源汽車動力電池及管理系統檢修》 課件 模塊3 新能源汽車動力電池PACK檢修
- 工藝知識培訓課件
- 公司關停并轉方案
評論
0/150
提交評論