2.2 非數值型數據的表示
非數值的文字和其他符號也要數字化為二進制編碼表示。
2.2.1 字符和字符串
1.ASCII碼:American Standard Code for Information Interchange,美國信息交換標準代碼。
ASCII碼由7位二進制數碼組成。
字符的具體ASCII編碼見教材P36表2-1所示。
常用的:
- 0~9的ASCII碼:30H ~ 39H
- A~Z的ASCII碼:41H ~ 5AH
- a~z的ASCII碼:61H ~ 6AH
將ASCII碼的最高位置0或一位奇偶校驗位,存儲時占一個字節。
2.字符串及其存儲
以ASCII碼形式在主存中占用連續的多個字節。
當主存的字長是多個字節時,同一主存字中可以按從低位字節向高位字節順序存放字符串,也可以按從高位字節向低位字節的次序存放字符串。
如:字長為4字節的主存,存放字符串“IF? A>B ? THEN ? X=2”,可以是如下兩種存放形式:
2.2.2 漢字的表示
三種類型的編碼
漢字在計算機中存儲、傳輸、交換、輸出,需要有輸入、內部處理和輸出三種類型的編碼。
1.漢字國標碼、區位碼
國標碼是我國在1981年公布的GB2312-80編碼,主要用于漢字信息處理系統或者通信系統之間交換信息。
規定:一個漢字用兩個字節表示,每個字節只用低七位編碼,最高位為0,未作定義。最多能夠表示出128′128=16384個漢字。目前,國標碼共收集了6763個常用漢字。
GB2312-80碼將漢字分成94個區,每個區又包含94個位,每個漢字對應一個區號和位號,也常稱為區位碼。
例如:漢字“青”在39區64位,其區位碼是3964;漢字“島”在21區26位,其區位碼是2126。
2.漢字機內碼
簡稱內碼,是漢字在計算機內部進行存儲、交換、檢索等操作的一種代碼,一般采用兩字節表示。
國標碼每個字節的最高位都是“0”,與ASCII碼無法區分。
例如:兩個字節內容是30H和21H時,可以認為是一個漢字“啊”的國標碼,也可以理解為兩個英文字符“0”和“!”的ASCII碼。
將國標碼的兩個字節的最高位設定為1,得到相應的機內碼。
例如,漢字“啊”的機內碼是:10110000 10100001
3.漢字的輸入編碼
目前常用的輸入編碼方法有以下幾種:
(1)數字編碼:常用的區位碼。每輸入一個漢字需按4次鍵。
無重碼,與內碼之間的轉換方便,代碼難記憶。
(2)拼音碼:輸入重碼率很高,影響輸入的速度。
改進:增加智能聯想功能,提高輸入速度。
(3)字形編碼:五筆字型編碼是一種最有影響的字形編碼。
上述都是利用鍵盤進行“手動”輸入。理想的輸入方式是利用語音或圖像識別技術“自動”將漢字輸入到計算機內,使計算機能認識漢字、聽懂漢語,并將其自動轉換為機內碼。目前寫字板手寫輸入,語音輸入,掃描儀識別文字輸入等。
4.漢字字模碼
用點陣表示漢字字形的編碼實現輸出漢字(顯示或打印)。
16×16點陣表示的漢字“英”的編碼:
字模點陣占用的存儲空間很大,一般只能用來構成漢字庫,而不用于機內存儲。當顯示或打印輸出時檢索字庫,輸出字模點陣,得到字形。
采用字形數據壓縮技術節省存儲空間。如矢量漢字采用矢量方法,將漢字點陣字模進行壓縮。
2.2.3 Unicode編碼
- code編碼也被稱為統一代碼,適用于世界上所有語言。
- Unicode的每一個字符采用2個字節,可以表示65536個不同字符。兼顧已存在的編碼方案,前128個字符編碼0000h~007Fh與ASCII碼字符一致。
- 這種編碼方式對國際商業和通訊來說非常有用。
- Unicode還適合于軟件的本地化,即針對特定的國家修改軟件:使用Unicode,軟件開發人員可以修改屏幕的提示、菜單和錯誤信息,以適用于不同的語言和地區。
- Unicode編碼在Internet中有著較為廣泛的使用
2.3 其他信息的數字化
語音、圖像、圖形等信息在計算機中的二進制編碼的形式。
1.語音信息的數字化
語音是一種模擬信號,不能直接進入計算機存儲。需經過對聲音信號進行采樣和量化后才能進入計算機存儲。
(1)采樣:由麥克風、錄音機等錄音設備把語音信號變成頻率、幅度連續變化的電流信號,經過采樣得到一組與聲音信號幅值相對應的離散的數值,其包含了聲音信號的頻率和幅值的特征信息。
(2)量化:將采樣得到的聲音的離散的數據值換成一個n位二進制的數字量。
(3)編碼:對量化后的二進制數字按照一定的格式進行編碼,形成相應格式的文件存儲。為了方便存儲或傳輸,音頻信息通常還要進行壓縮。常用的聲音文件格式有mp3、mav、midi等。
2.圖像信息的數字化
- 一幅圖像可以看作是由一個個像素點構成。
- 圖像的數字化,就是對每個像素點的灰度值進行采樣、量化,再進行編碼的過程。
- 常用圖像信息的文件格式有bmp、gif、jpg等。
3.圖形信息的數字化
- 圖形的基本元素是圖元,只需要知道圖元的幾個特征數據就可以通過圖形指令進行描述。
- 比如,只需要知道半徑和圓心就能畫出圓的圖形。
- 圖形信息只需要存儲包含的各圖元指令,所以占用的存儲空間比位圖圖像小許多。
-
二進制
+關注
關注
2文章
796瀏覽量
41731 -
通信系統
+關注
關注
6文章
1204瀏覽量
53429 -
模擬信號
+關注
關注
8文章
1142瀏覽量
52585 -
ASCII碼
+關注
關注
0文章
51瀏覽量
17339
發布評論請先 登錄
相關推薦
評論