日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结

發布時間:2024/8/1 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文漢字編碼知識

漢字的編碼體系主要有以下幾種:

⑴ 國標、區位、“準國標”

國標是將七千余個漢字以及標點符號、外文字母等,排成一個94行、94列的方陣。方陣中每一橫行稱為一個“區”,每個區有94個“位”。一個漢字在方陣中的坐標,稱為該字的區位碼。為了與美標(ASCII)的形象碼的范圍重合,出現了“國標碼”,即將區位碼的兩個十進制數都加上32,得到該漢字的國標碼。

當需要區分國標碼和美標碼時,出現了“準國標”,即將國標碼的兩個數字各加上128,而把原來的國標碼稱為“純國標”。

GBK碼是GB碼的擴展字符編碼,對多達兩萬多的簡繁漢字進行了編碼。

BIG5碼是針對繁體漢字的漢字編碼。

⑷ HZ碼

HZ碼是在Internet上廣泛使用的一種漢字編碼,它是以“純國標”的中文與美標碼混用為方案。

⑸ ISO 2022 CJK碼

這是國際標準組織為各種語言字符制定的編碼標準。CJK是中、日、韓語的合稱。它主要在Internet中使用。

⑹ UCS和ISO 10646

UCS是由ISO 10646定義的,是其他字符集標準的一個超集,保證與其他字符集是雙向兼容的,它包含了所有已知語言的字符。

Unicode提供一種統一的字符標識方法,它是16位編碼的,具備世界各地計算機與出版行業所用字符的全部代碼。而且它的產生是以各個國家或國標字符編碼為基礎的。目前,Unicode在網絡、Windows系統和很多大型軟件中得到應用。

各種中文編碼對應的編碼區間總結

一.ascii碼編碼區間(所有中文編碼中的ascii碼編碼均一樣)

1).單字節ASCII碼:0x00-0x7F

2).擴展ASCII碼:0x80-0xFF

二.GB2312雙字節編碼區間:

高字節 ? ? ? ? ? ?低字節

0xA1-0xF7 ? ? ? ? 0xA1-0xFE

三.Big5雙字節編碼區間:

高字節 ? ? ? ? ? ?低字節

0xA1-0xF9 ? ? ? ? 0x40-0x7E

0xA1-0xF9 ? ? ? ? 0xA1-0xFE

四.GB18030(一.二.四字節)編碼區間

1).單字節ASCII編碼區間: 0x00-0x7F

2).雙字節編碼區間:

高字節 ? ? ? ? ? ?低字節

0x81-0xFE ? ? ? ? 0x40-0x7E

0x81-0xFE ? ? ? ? 0x80-0xFE

3).四字節編碼區間:

0x81308130 - 0xFE39FE39

第1,3個字節均由0x81-0xFE構成

第2,4個字節均由0x30-0x39構成

五.utf-8編碼,由1-6字節構成:0xxxxxxx

110xxxxx?10xxxxxx

1110xxxx?10xxxxxx?10xxxxxx

11110xxx?10xxxxxx?10xxxxxx?10xxxxxx

111110xx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx

1111110x?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx

以下為中文編碼區間(包括雙字節和三字節)

1).單字節(ASCII碼)編碼區間: 0X00-0x7E

2).雙字節漢字編碼區間:

高字節 ? ? ? ? ? ?低字節

0xC0-0xDF ? ? ? ? 0x80-0xBF

3).三字節漢字編碼區間:

一字節 ? ? ? ? ? ?二字節 ? ? ? 三字節

0xE0-0xEF ? ? ? 0x80-0xBF ? ? ?0x80-0xBF

4).四字節:無中文

5).五字節:無中文

6).六字節:無中文

UTF-8使用3字節為中文漢字編碼.

對于Windows下的utf-8文本文件,會在文件頭加上0xEF 0xBB 0xBF三個字節便于windows應用程序快速識別文本編碼。

六.GBK編碼完全兼容GB2312.

七.Unicode雙字節編碼:

中文編碼區間:0x4E00-0x9FA5

對于Windows下快速判斷文本文件是Unicode還是ANSI編碼時,如果文件的前兩個字節是0xFF和0xFE,則識別為Unicode文本。

八.中文編碼兼容順序為(從左向右兼容): GB18030-->GBK--->GB2312.

以上編碼知識為個人(www.169it.com)總結,僅供參考。

總結

以上是生活随笔為你收集整理的java 汉字区位码表,中文汉字编码知识及各种中文编码对应的编码区间总结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。