学习笔记:计算机字符编码标准之GB2312-1980中文字符编码
《信息交換用漢字編碼字符集》是由中國(guó)國(guó)家標(biāo)準(zhǔn)總局1980年發(fā)布,1981年5月1日開(kāi)始實(shí)施的一套國(guó)家標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)是GB2312-1980。GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換,通行于中國(guó)大陸;新加坡等地也采用此編碼。中國(guó)大陸幾乎所有的中文系統(tǒng)和國(guó)際化的軟件都支持GB2312。
GB2312標(biāo)準(zhǔn)共收錄6763個(gè)漢字,其中一級(jí)漢字3755個(gè),二級(jí)漢字3008個(gè);同時(shí),GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語(yǔ)西里爾字母在內(nèi)的682個(gè)全角字符。GB2312的出現(xiàn),基本滿足了漢字的計(jì)算機(jī)處理需要,它所收錄的漢字已經(jīng)覆蓋中國(guó)大陸99.75%的使用頻率。對(duì)于人名、古漢語(yǔ)等方面出現(xiàn)的罕用字,GB2312不能處理,這導(dǎo)致了后來(lái)GBK及GB18030漢字字符集的出現(xiàn)。
GB2312中對(duì)所收漢字進(jìn)行了“分區(qū)”處理,每區(qū)含有94個(gè)漢字/符號(hào)。這種表示方式也稱為區(qū)位碼。01-09區(qū)為特殊符號(hào);16-55區(qū)為一級(jí)漢字,按拼音排序;56-87區(qū)為二級(jí)漢字,按部首/筆畫(huà)排序;10-15區(qū)及88-94區(qū)則未有編碼。舉例來(lái)說(shuō),“啊”字是GB2312之中的第一個(gè)漢字,它的區(qū)位碼就是1601。
在使用GB2312的程序中,通常采用EUC儲(chǔ)存方法,以便兼容于ASCII。瀏覽器編碼表上的“GB2312”,通常都是指“EUC-CN”表示法:每個(gè)漢字及符號(hào)以兩個(gè)字節(jié)來(lái)表示,第一個(gè)字節(jié)稱為“高位字節(jié)”(也稱“區(qū)字節(jié))”,第二個(gè)字節(jié)稱為“低位字節(jié)”(也稱“位字節(jié)”)。“高位字節(jié)”使用了0xA1-0xF7(把01-87區(qū)的區(qū)號(hào)加上0xA0),“低位字節(jié)”使用了0xA1-0xFE(把01-94加上 0xA0)。由于一級(jí)漢字從16區(qū)起始,漢字區(qū)的“高位字節(jié)”的范圍是0xB0-0xF7&#x
總結(jié)
以上是生活随笔為你收集整理的学习笔记:计算机字符编码标准之GB2312-1980中文字符编码的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: luogu P3966 [TJOI201
- 下一篇: 百度快照劫持是什么意思?怎么解决