Java笔记-字符串编码与解码以及编码表原理
編碼表
編碼表:是一張由字符及其對應(yīng)編碼的表
計算機只能識別二進制數(shù)據(jù),早期由電信號演化而來。
為了方便使用計算機,讓它可以識別各個國家的文字,就將各個國家的文字用數(shù)字來表示,并一一對應(yīng),形成一張編碼表。
常見編碼表
ASCII表
ASCII表:英國標(biāo)準(zhǔn)信息交換碼。用一個字節(jié)的7位來表示字符,還有一個符號位。
ISO8859-1表
ISO8859-1表:拉丁碼表。歐洲碼表。用一個字節(jié)的8位表示。不支持中文。
GB2312表
GB2312表:中國的中文編碼表。
GB 2312標(biāo)準(zhǔn)共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內(nèi)的682個全角字符。
但是!對于人名、古漢語等方面出現(xiàn)的罕用字,GB 2312不能處理,這導(dǎo)致了后來GBK及GB 18030漢字字符集的出現(xiàn)。
GBK表
GBK表:中國的中文編碼表 GB2312 的升級,融合了更多的中文文字符號。
GBK 總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003 個,圖形符號 883 個。
GB18030表
GB18030表:GBK的取代版本,也是中文目前的通用版本。
GB18030表:分為兩個版本 GB18030-2000表 和 GB18030-2005表。
GB18030-2000收錄了27533個漢字,GB18030-2005收錄了70244個漢字。
BIG-5表
BIG-5碼:通行于臺灣、香港地區(qū)的一個繁體編碼方案,俗稱—–”大五碼”。
Unicode表
Unicode表:國際標(biāo)準(zhǔn)碼,融合了多種文字。
所有文字都用兩個字節(jié)來表示
Java語言使用的就是Unicode碼表
UTF-8表
UTF-8表:最多用三個字節(jié)來表示一個字符。
UTF-8是 Unicode 的升級版。它定義了一種”區(qū)間規(guī)則”,這種規(guī)則可以和 ASCII 編碼保持最大程度的兼容:
它將Unicode編碼為 00000000-0000007F的字符,用1字節(jié)來表示。
它將Unicode編碼為 00000080-000007FF的字符,用2字節(jié)來表示。
它將Unicode編碼為 00000800-0000FFFF的字符,用3字節(jié)來表示。
字符串的編碼與解碼
字符串編碼解碼介紹
字符串編碼:將看得懂的字符變成計算機能看懂的符號(人類看不懂)。
Java字符串編碼:
| byte[] getBytes() | 使用當(dāng)前平臺的默認(rèn)字符集將此 String 編碼為 byte 序列,并將結(jié)果存儲到一個新的 byte 數(shù)組中。 |
Java字符串解碼:
| String String(byte[] bytes) | 通過使用當(dāng)前平臺默認(rèn)字符集,解碼指定的 byte 數(shù)組,構(gòu)造一個新的 String。 |
其中當(dāng)前平臺,指的是當(dāng)前操作系統(tǒng)。
我的是WIN10系統(tǒng),默認(rèn)的是GBK編碼表。
字符串編碼解碼演示
public static void main(String[] args) {// 使用GBK編碼,上面介紹過了,我的默認(rèn)GBKString str = "鋤禾日當(dāng)午,汗滴禾下土";byte[] bs = str.getBytes();for (int i = 0; i < bs.length; i++) {System.out.print(bs[i] + " ");}System.out.println();// 使用GBK解碼String newStr = new String(bs);System.out.println(newStr); } //運行結(jié)果為: //-77 -6 -70 -52 -56 -43 -75 -79 -50 -25 44 -70 -71 -75 -50 -70 -52 -49 -62 -51 -63 //鋤禾日當(dāng)午,汗滴禾下土//其中每兩個負(fù)數(shù)組成一個漢字,由于我的逗號為英文逗號,是44,可以刨除 //(-77 -6)鋤 (-70 -52)禾 ...在 GBK 中,所有漢字被拆分成兩個字節(jié),第一個字節(jié)肯定是負(fù)數(shù),第二個字節(jié)不一定。所以用 new String(byte[] bytes) 解碼時,看到第一個是負(fù)數(shù)的字節(jié),就自動將后面一個字節(jié)跟前面的字節(jié),放到一起處理。
字符串亂碼問題
方法名稱 作用
byte[] getBytes(String charsetName) 使用指定編碼表去編碼
字符串亂碼演示:
亂碼原因:
字符串編碼與解碼所依據(jù)的編碼表不一致!導(dǎo)致了碼表轉(zhuǎn)換!統(tǒng)一解碼編碼表即可解決。
總結(jié)
以上是生活随笔為你收集整理的Java笔记-字符串编码与解码以及编码表原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flash设计制作“太暴力了”搞笑QQ表
- 下一篇: Java源码:java.lang.ref