大一計算機基礎第三章_第1頁
大一計算機基礎第三章_第2頁
大一計算機基礎第三章_第3頁
大一計算機基礎第三章_第4頁
大一計算機基礎第三章_第5頁
已閱讀5頁,還剩72頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

上節主要內容正數的原碼、反碼和補碼都相同負數的最高符號位均為1[x]補=[x]反+1補碼的減法運算可以轉換成加法0的補碼唯一補碼表示范圍大二進制浮點數→十進制:劃分、移位、轉換書P40

二(4)0

110

1

10001011100階碼尾數符號位

=(-29.125)10

(-0.01110100100)2×2

(110)2=(-11101.00100)2

將-50.625表示成二進制浮點數的形式。(前6位階碼,10位尾數,均為補碼形式)

=(-0.110010101)2

×2

(110)2

(-50.625)10=(-110010.101)2

0

00110

1

110010101階碼尾數符號位2.5

文字的表示及處理要考慮的問題

字母“A”是如何顯示在屏幕上的?漢字“一”又是如何顯示在屏幕上的?文字與字符

西文字符的編碼漢字字符的編碼輸入碼機內碼內存字形碼機內碼打印機顯示器西文字符的編碼

ASCII碼

EBCDIC碼ASCII碼

美國標準信息交換碼:使用7個二進位對字符進行編碼

ASCII字符集共有128個字符

95個可打印字符(常用字母、數字、標點符號等)

33個控制字符

標準ASCII字符集及其碼表b6b5b4b3b2b1b0

012345670123456789ABCDEFb6b5b4b3b2b1b001101001101011ASCII碼每個字符用標準規定的7位二進制數表示,在機內則占一個字節(最高位為0)。

要求:1)會比較ASCII字符的大小空格<0~9<A~Z<a~z2)會推算同組字符ASCII碼值如A的ASCII值(十進制)為65,則B、C…的ASCII值分別為66、67…EBCDIC碼用8位二進制數位表示一個字符

說明:有很多編碼沒有使用,保留做為擴充文字與字符

西文字符的編碼

漢字字符的編碼常用的漢字編碼字符集

國家標準GB2312

漢字擴充規范GBK

國家標準GB18030

臺灣地區的標準漢字字符集CNS11643(BIG5,俗稱“大五碼”)

日本工業標準漢字字符集JISX0208-90

韓國國家標準漢字字符集KSC5601-87GB2312-80漢字編碼◆第一部分:字母、數字和各種符號,包括拉丁字母、俄文、日文平假名與片假名、希臘字母、漢語拼音等共682個(統稱為GB2312圖形符號)◆第二部分:一級常用漢字,共3755個, 按漢語拼音排列◆第三部分:二級常用字,共3008個, 按偏旁部首排列漢字6763所有字符7445

◆區位碼:GB2312-80是一個二維代碼表,有94行、94列,漢字在代碼表中的位置用它所處的行號、列號表示

◆例如:“大”字的區號20,位號83,區位碼是2083

用2個字節表示為:0001010001010011GB2312-80漢字編碼一級漢字(3755個)二級漢字(3008個)(擴充使用)位號:

………………19423字母、數字和各種符號

…………區號:191655568794GB2312-80漢字編碼GB2312-80字符集

問題:信息通信中,漢字的區位碼與通信使用的控制碼(00H~1FH)發生沖突。

解決方案:每個漢字的區號和位號必須分別加上32。得到的代碼稱為漢字的“國標交換碼”例如:“大”字的區號20,位號83

區位碼2083的二進制表示為:0001010001010011國標交換碼52115

二進制表示為0011010001110011GB2312-80漢字編碼問題:文本中的漢字與西文字符經常是混合在一起使用的,漢字信息如不予以特別的標識,它與單字節的標準ASCII碼就會混淆不清解決方法:使表示GB2312漢字的兩個字節的最高位都置為“1”。這種漢字編碼,稱為GB2312漢字的“機內碼”

GB2312-80漢字編碼機內碼例如:“大”字區位碼:2083 二進制表示為:0001010001010011國標交換碼:52115(+32)

二進制表示為:0011010001110011機內碼:182243 (+128)

二進制表示為:1011010011110011(B4F3)區位碼+32=國標碼國標碼+128=機內碼區位碼、國標碼、機內碼之間的轉換區位碼+32=國標碼國標碼+128=機內碼(十進制)區位碼+20H=國標碼國標碼+80H=機內碼區位碼+160=機內碼區位碼+A0H=機內碼(十六進制)◆問題:GB2312-80只有6763個漢字,使用時功能不夠?!艚鉀Q方法:1995年發布GBK,全稱為《漢字內碼擴展規范》GBK字符集中一共有21003個漢字和883個圖形符號,它與GB2312國標漢字字符集及其內碼保持兼容?!艚M成:共收入21886個漢字和圖形符號(21003個漢字,883個圖形符號)GBK漢字內碼擴充規范GBK漢字內碼擴充規范◆

GBK編碼區分三個部分:漢字區GBK/2:GB2312中的全部漢字;GBK/3:CJK漢字6080個;GBK/4:CJK漢字和增補漢字8160個;圖形符號區GBK/1:收錄GB2312-80符號和其他一些增補符號GBK/5:擴充符號用戶自定義區GBK空白區域,用戶可以自行定義字符

首字節尾字節00407EA1 FE0081FEGBK/3GBK/4

GBK/2GBK/5GBK/1GB2312圖形符號GB2312漢字代碼空間(6763個漢字)A0AAGBK/1B0F7GBK漢字內碼擴充規范UCS/Unicode漢字編碼目的:統一的多文本處理環境,實現所有字符在同一字符集中統一編碼途徑:UCS:ISO/IEC10646(通用多8位編碼字符集)

Unicode:統一碼或聯合碼,與UCS完全等同的工業標準優點:編碼空間極大,能容納足夠多的各種字符集(13億字符)缺點:4字節的字符編碼使存儲空間浪費嚴重克服:UCS-2是雙字節編碼,共有字符49194個,其中包括:歐洲及中東地區使用的拉丁字母、音節文字各種標點符號、數學符號、技術符號、幾何形狀、箭頭及其他符號中、日、韓(CJK)統一編碼的漢字GB18030-2000漢字編碼標準

目的:與GB2312和GBK兼容,向UCS/Unicode過渡

內容:信息交換用的基本圖形字符及二進制表,同時收錄了主要的少數民族文字

編碼方式:單字節/雙字節/四字節碼位數160多萬幾種漢字編碼的對比GBK00FF00FF20902漢字00FF00FF6763漢字GB231200FF00FF27484漢字GB18030GB2312GBKGB18030UCS-2(Unicode)6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內)27000多漢字(包括GBK漢字和CJK及其擴充中的漢字)2萬多漢字雙字節存儲和表示,每個字節的最高位均為“1”雙字節存儲和表示,第1個字節的最高位必為“1”部分雙字節、部分4字節表示(UTF-8編碼)1字節、2字節、3字節等不等長編碼編碼不兼容!保持向下兼容文字的表示及處理BIG5編碼使用范圍:中國臺灣,香港地區的繁體漢字編碼標準特征: 第一個字節的值在A0H~FEH

第二個字節的值在40H~7EHA1H~FEH收錄內容:13461個漢字和符號符號408個常用漢字5401個次常用漢字7652個上節內容回顧1.字符的輸入、處理和輸出分別對應于不同的編碼:

輸入碼機內碼字形碼A01000001大1011010011110011上節內容回顧2.英文字符的ASCII碼用位二進制表示,其中最高位為,共能表示個不同的英文字符。3.對于同一英文字符,小寫字符的ASCII碼比其大寫字符的ASCII碼。如果字符A的ASCII碼為65,那么字符a的ASCII碼為4.一個漢字至少用個字節表示。80128大32972上節內容回顧5.在GB2312編碼中,區位碼、國標碼和機內碼之間的關系為:6.如果“大”的區位碼為2083,那么它的機內碼為區位碼+=國標碼國標碼+=機內碼區位碼+=機內碼32128160180243幾種漢字編碼的對比GBK00FF00FF20902漢字00FF00FF6763漢字GB231200FF00FF27484漢字GB18030GB2312GBKGB18030UCS-2(Unicode)6763個漢字(簡體字)21003個漢字(包括GB2312漢字在內)27000多漢字(包括GBK漢字和CJK及其擴充中的漢字)2萬多漢字雙字節存儲和表示,每個字節的最高位均為“1”雙字節存儲和表示,第1個字節的最高位必為“1”部分雙字節、部分4字節表示(UTF-8編碼)1字節、2字節、3字節等不等長編碼編碼不兼容!保持向下兼容文字的表示及處理

人工輸入:通過鍵盤、手寫筆或語音輸入方式輸入字符

自動輸入:將紙介質上的文本通過識別技術自動轉換為文字的編碼三、漢字的輸入輸出1.漢字輸入文字的表示及處理文本信息的輸入人工輸入自動識別輸入鍵盤輸入聯機手寫輸入語音輸入印刷體識別手寫體識別文字的表示及處理鍵盤輸入編碼:

漢字字數很多,無法與鍵盤上的鍵一一對應,因此必須使用一個或幾個鍵來表示漢字,這就需要對漢字進行編碼。(1)鍵盤輸入文字的表示及處理漢字輸入編碼的分類拼音編碼:如:智能ABC,紫光拼音缺點:同音字引起的重碼多,需增加選擇操作字形編碼:將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度較快,如:五筆字形法和表形碼等缺點:編碼規則不易掌握文字的表示及處理聯機手寫漢字識別系統構成

輸入、預處理、特征提取、分類、后處理、輸出需求的配件:專用的書寫板和筆(2)聯機手寫漢字識別(筆輸入)文字的表示及處理工作過程:

在書寫板上書寫,書寫板將筆尖的運動按時間采樣,發送到計算機中,由軟件進行識別,然后用該漢字(或符號)對應的代碼進行保存。例如:漢王筆正識率95℅~90℅,速度12字/秒文字的表示及處理

目的:使計算機具有人的聽覺,是模式識別的分支語音識別的分類(按照不同的應用及要求):孤立詞/連接詞/連續語音識別小詞匯量/中詞匯/大詞匯量語音識別特定人/限定人/非特定人語音識別最高目標:非特定人大詞匯量的連續語音識別技術(3)漢字語音識別文字的表示及處理

脫機文字識別:對已經印刷或寫完的文字進行識別,自動輸入計算機并轉換為數字文本形式的一種技術,也叫做漢字OCR(OpticalCharacterRecognition)。分類:印刷體OCR和手寫體OCR(4)脫機文字識別文字的表示及處理

漢字的輸出過程:輸出機器內部的漢字編碼,需要根據漢字編碼對應的漢字字型碼進行解釋,生成映像,最后再傳送到顯示器或打印機輸出。機內漢字編碼字型碼打印輸出(顯示器/打印機)2.漢字輸出文字的表示及處理

漢字字型碼:用于漢字在顯示器或者打印機上輸出.

漢字字型碼表示形式分類:點陣表示形式矢量表示形式文字的表示及處理漢字字型表示形式:漢字字型碼用點陣表示16*16(占32個字節)、24*24、48*48等漢字矢量表示存儲描述漢字輪廓特征的信息。如:Windows中TrueType技術即為該表示形式。輪廓描述輪廓點直線二次曲線點陣描述文字的表示及處理

字型庫:簡稱字庫,同一種字體的所有字符(例如GB2312中的7000多字符)的形狀描述信息的集合。不同的字體(如宋體、仿宋、楷體、黑體等)對應不同的字庫。

文字的表示及處理

文本編輯的主要功能(了解)對字、詞、句、段落進行添加、刪除、修改等操作字的處理:設置字體、字號、字的排列方向、間距、顏色、效果等三、文本編輯1.文本的編輯文字的表示及處理段落的處理:設置行距、段間距、段縮進、對稱方式等頁面布局的處理:設置頁邊距、每頁行列數、分欄、頁眉、頁腳等“所見即所得”(WhatYouSeeIsWhatYouGet,簡稱WYSIWYG)文字的表示及處理文本處理內容(了解):字數統計,字頻統計,簡/繁體相互轉換,漢字/拼音相互轉換詞語排序,詞語錯誤檢測,文句語法檢查自動分詞,詞頻統計,詞性標注,詞義辨識,大陸/臺灣術語轉換2.文本的處理文字的表示及處理文本壓縮,文本加密,文本著作權保護關鍵詞提取,文摘自動生成,文本分類文本檢索(關鍵詞檢索、全文檢索),文本過濾文語轉換(語音合成),文種轉換(機器翻譯)篇章理解,自動問答,自動寫作等2.文本的處理文字的表示及處理(1)面向通信的文本處理軟件 計算機網絡上最普及的應用是用電子郵件進行通信。典型軟件:微軟公司的OutlookExpress,具有文字的增、刪、改以及字體、字號的設置功能,也可以設定一些簡單的格式和插入一些圖片。3.常用文本處理軟件文字的表示及處理(2)面向辦公的文本處理軟件功能要求:文本制作的高效率、高質量;軟件面向非專業用戶,易學好用;文本處理能力,既功能豐富,又操作簡單;排版功能。典型軟件:MS-Office、WPS2000文字的表示及處理(3)面向出版的文本處理軟件排版軟件的主要功能: 將文字、圖形和圖像等合理地安排在頁面內,使版面符合專業排版要求。典型排版軟件:方正集團公司的“飛騰”排版軟件美國Adobe公司的PageMaker和PDFWriter文字的表示及處理(4)面向網絡信息發布和電子出版的文本處理軟件 將文本制作成網頁發布到internet或作為電子圖書進行出版典型處理軟件面向網絡信息發布的軟件MSFontpage、Word面向電子出版的軟件Adobe公司的AcrobatPDF格式文件文字的表示及處理

根據制作文本的用途分為純文本TXT豐富格式文本RTF根據軟件的使用不同DOC、PDF、WPS等3.常見文本類型文字的表示及處理

純文本:是由一連串的字符組成的,幾乎不包含任何其他格式信息和結構信息。特性:呈現為一種線性結構,文件體積小,閱讀不受限制,幾乎所有的文字處理軟件都能識別和處理,沒有字體、字號的變化,不能插入圖片、表格等,不能建立超鏈接。(1)純文本.txt文字的表示及處理

本書由南京大學出

B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6

版社(Publishing

B0E6C9E7285075626C697368696E67

HouseofNanjin

20486F757365206F66204E616E6A696E

gUniversity)出版

6720556E697665727369747929B3F6B0E6

文本的內容文本在計算機中的表示文字的表示及處理

文本的格式化(字型字號顏色)

豐富格式文本(richtext、fancytext、formattedtext)

RTF格式(不同軟件系統相互交互中間格式)

多媒體文檔(MultimediaDocument)插入圖表公式聲音視頻...(2)豐富格式文本文字的表示及處理練習題1、按照漢字的“輸入—處理—輸出打印”的處理流程,不同階段使用的漢字編碼分別對應為()。

A.國標碼交換碼字形碼

B.輸入碼機內碼字形碼

C.輸入碼國標碼機內碼

D.拼音碼交換碼字形碼2、字母與字符的編碼,目前在小型/微型計算機里最普遍采用的是()。

A.BCDB.ASCII碼C.余3碼D.16進制BB練習題3、在下列漢字編碼標準中,不支持簡化漢字的是()。

A.GB2312-80B.GBKC.BIG5D.Unicode4、已知大寫字母“T”的ASCII碼值為54H,則小寫字母“t”

的ASCII碼應為()。

A.70HB.68HC.74HD.71HCC練習題5、某微型機的內存儲器容量為640KB,這里的1KB是為()。

A.1024個字節B.1024個二進制位

C.1000個字節D.1000個二進制位6、1MB的內存空間可以存放()個GB2312-80的漢字機內碼。

A.1024B.512C.1024*512D.1024*1024AC練習題7、已知“江”字的區號為“29”,位號為“13”,則機內碼為()。

A.CDADHB.3D2DHC.BDADHD.4535H8、在全角方式下,錄入英文字符“STUDENT”需要占用()個字節。

A.7B.1C.14D.29、在中文win2000環境下,設有一串漢字的內碼為B5C8BCB6BFBCCAD4,則這串文字中包括()個漢字。

A.2B.4C.8D.16CCC練習題10、在中文win2000環境下,有一段文本的內碼為CBF5D0B45043CAC7D6B8,在這段文本中,含有()。

A.2個漢字和1個西文字符

B.4個漢字和2個西文字符

C.8個漢字和2個西文字符

D.4個漢字和1個西文字符D練習題11、在計算機處理漢字信息時,不同處理階段常使用不同形式的編碼,如輸入碼、機內碼和字形碼等。下列說法中不正確的是()。

A.采用不同漢字輸入法輸入的同一個漢字,其機內碼相同。

B.對于同一個漢字,不同字體的字形碼各不相同

C.在win2000環境下,不同字體的字形碼均分別以不同的文件進行保存。

D.在win2000環境下,對于GB2312-80字符集中的所有漢字,其機內碼就是國標碼。D12.現代計算機中采用二進制是因為二進制的優點是()。A.代碼表示簡單,易讀B.物理上容易實現且簡單可靠;運算規則簡單;適合邏輯運算C.容易閱讀,不易出錯D.只有0、1兩個符號,容易書寫B13.執行下列二進制邏輯與運算,其運算結果是:(

)。01011001∧10100111A.00000000B.11111111C.00000001D.11111110C14.十進制小數0.8125的十六進制表示為()。

A.0.12B.1.DHC.0.DHD.0.DF15.在16*32點陣的漢字字庫中,存儲一個漢字的字型信息需要()字節?A.256B.16C.32D.64

CD16.某個整數的二進制補碼和原碼相同,則該數一定()。A)大于0 B)小于0 C)等于0 D)大于或等于017.十進制“-65”在計算機內部用二進制代碼10111110表示,其表示方式為()。

A.ASCII碼B.反碼C.原碼D.補碼DB18.32位字長的最大正整數是2147483647(231-1),而最小的負整數是-2147483648(-231

),即負整數比正整數多一個,其原因是()

A.機內整數采用原碼表示

B.機內整數采用反碼表示

C.機內整數采用補碼表示

D.公認的約定C19.一個漢字文本文件的大小為200個字節,該文件內容在理論上應有()個漢字。

A.100 B.200 C.128 D.5020.根據某數制的運算規則,2*3=10,則3*5=()。

A.15B.17C.23D.21AC21.在某一進制下,如果8*7=62,則5*6=()。

A.26B.30C.17D.33D22.已知521+555=1406,則此種加法是在()下完成的。

A.七進制B.八進制

C.九進制D.十進制A第二章課后習題一、選擇題1.在微型計算機中,應用最普遍的字符編碼是()A.漢字拼音B.補碼C.BCD碼D.ASCII碼2.與十六進制數CD等值的十進制數是()

A.204 B.205 C.206 D.203DB3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論