字符集概述
1 GB2312-80
GB 2312 或 GB 2312-80 是中國國家標(biāo)準(zhǔn)簡(jiǎn)體中文字符集,全稱《信息交換用漢字編碼字符集·基本集》,又稱 GB 0,由中國國家標(biāo)準(zhǔn)總局發(fā)布,1981 年 5 月 1 日實(shí)施。GB 2312 編碼通行于中國大陸;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統(tǒng)和國際化的軟件都支持 GB 2312。
GB 2312 標(biāo)準(zhǔn)共收錄 6763 個(gè)漢字,其中一級(jí)漢字 3755 個(gè),二級(jí)漢字 3008 個(gè);同時(shí)收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內(nèi)的 682 個(gè)字符。- GB 2312 的出現(xiàn),基本滿足了漢字的計(jì)算機(jī)處理需要,它所收錄的漢字已經(jīng)覆蓋中國大陸99.75% 的使用頻率。
- 對(duì)于人名、古漢語等方面出現(xiàn)的罕用字,GB 2312 不能處理,這導(dǎo)致了后來 GBK 及 GB 18030 漢字字符集的出現(xiàn)。
GB 2312 對(duì)任意一個(gè)圖形字符都采用兩個(gè)字節(jié)表示,并對(duì)所收漢字進(jìn)行了“分區(qū)”處理,每區(qū)含有 94 個(gè)漢字/符號(hào),分別對(duì)應(yīng)第一字節(jié)和第二字節(jié)。這種表示方式也稱為區(qū)位碼。
- 01-09 區(qū)為特殊符號(hào)。
- 16-55 區(qū)為一級(jí)漢字,按拼音排序。
- 56-87 區(qū)為二級(jí)漢字,按部首/筆畫排序。
10-15 區(qū)及 88-94 區(qū)則未有編碼。
GB 2312 的編碼范圍為 2121H-777EH,與 ASCII 有重疊,通行方法是將 GB 碼兩個(gè)字節(jié)的最高位置 1 以示區(qū)別。
2 GBK
GBK 即漢字內(nèi)碼擴(kuò)展規(guī)范,K 為漢語拼音 Kuo Zhan(擴(kuò)展)中“擴(kuò)”字的聲母。英文全稱 Chinese Internal Code Specification。
GBK 共收入 21886 個(gè)漢字和圖形符號(hào),包括:- GB 2312 中的全部漢字、非漢字符號(hào)。
- BIG5 中的全部漢字。
- 與 ISO 10646 相應(yīng)的國家標(biāo)準(zhǔn) GB 13000 中的其它 CJK 漢字,以上合計(jì) 20902 個(gè)漢字。
- 其它漢字、部首、符號(hào),共計(jì) 984 個(gè)。
GBK 向下與 GB 2312 完全兼容,向上支持 ISO 10646 國際標(biāo)準(zhǔn),在前者向后者過渡過程中起到的承上啟下的作用。
GBK 采用雙字節(jié)表示,總體編碼范圍為 8140-FEFE 之間,首字節(jié)在 81-FE 之間,尾字節(jié)在 40-FE 之間,剔除 XX7F 一條線。GBK 編碼區(qū)分三部分:- 漢字區(qū) 包括
GBK/3:OX8140-AOFE,收錄 CJK 漢字 6080 個(gè);
GBK/4:OXAA40-FEAO,收錄 CJK 漢字和增補(bǔ)的漢字 8160 個(gè)。
- 圖形符號(hào)區(qū) 包括
GBK/5:OXA840-A9AO,擴(kuò)除非漢字區(qū)。
- 用戶自定義區(qū)
GBK 區(qū)域中的空白區(qū),用戶可以自己定義字符。
3 GB18030
GB 18030,全稱:國家標(biāo)準(zhǔn) GB 18030-2005《信息技術(shù)中文編碼字符集》,是中華人民共和國現(xiàn)時(shí)最新的內(nèi)碼字集,是 GB 18030-2000《信息技術(shù)信息交換用漢字編碼字符集基本集的擴(kuò)充》的修訂版。GB 18030 與 GB 2312-1980 和 GBK 兼容,共收錄漢字70244個(gè)。
- 與 UTF-8 相同,采用多字節(jié)編碼,每個(gè)字可以由 1 個(gè)、2 個(gè)或 4 個(gè)字節(jié)組成。
- 編碼空間龐大,最多可定義 161 萬個(gè)字符。
- 支持中國國內(nèi)少數(shù)民族的文字,不需要?jiǎng)佑迷熳謪^(qū)。
- 漢字收錄范圍包含繁體漢字以及日韓漢字
- 單字節(jié),其值從 0 到 0x7F,與 ASCII 編碼兼容。
- 雙字節(jié),第一個(gè)字節(jié)的值從 0x81 到 0xFE,第二個(gè)字節(jié)的值從 0x40 到 0xFE(不包括0x7F),與 GBK 標(biāo)準(zhǔn)兼容。
- 四字節(jié),第一個(gè)字節(jié)的值從 0x81 到 0xFE,第二個(gè)字節(jié)的值從 0x30 到 0x39,第三個(gè)字節(jié)從0x81 到 0xFE,第四個(gè)字節(jié)從 0x30 到 0x39。
總結(jié)
- 上一篇: java 调用SAP RFC函数错误信息
- 下一篇: SAP中过账码or记账码posting