當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

字符集编码

發布時間：2023/11/27 生活经验 34 豆豆

生活随笔收集整理的這篇文章主要介紹了字符集编码小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Unicode編碼?

最初的unicode編碼是固定長度的，16位，也就是2兩個字節代表一個字符，這樣一共可以表示65536個字符。顯然，這樣要表示各種語言中所有的字符是遠遠不夠的。Unicode4.0規范考慮到了這種情況，定義了一組附加字符編碼，附加字符編碼采用2個16位來表示，這樣最多可以定義1048576個附加字符。所以4個字節表示一個字符。

Unicode只是一個編碼規范，目前實際實現的unicode編碼有：UTF-8,UTF-16等。utf-8是考慮了字符是怎么存儲在計算機上。

UTF-8

utf-8是一種可變長的編碼方式，使用1~6個字節表示一個符號，根據不同的符號調整字節數量。

        //ascii字符   1個字節
//        byte[] bytes = "a".getBytes("utf-8");
//        System.out.println(bytes.length); //1//希臘文2個字節
//        byte[] bytes = "α".getBytes("utf-8");
//        System.out.println(bytes.length);  //2//中文3個字節
//        byte[] bytes = "中".getBytes("utf-8");
//        System.out.println(bytes.length); //3//中文4個字節(ckj中韓日擴展表意字符)
//        byte[] bytes = "?".getBytes("utf-8");
//        System.out.println(bytes.length); //4

utf-8的可變長字節編碼

這是種比較巧妙的設計，如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符占用多少個字節。

以"嚴"的編碼字節數組為例，二進制表示為11100100 10111000 10100101

第一個字節開頭有三個連續的1，表示該字符占用三個字節

        byte[] bytes = "嚴".getBytes("utf-8"); //得到utf-8編碼StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i !=  bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //11100100 10111000 10100101

字符a的二進制編碼是?01100001 ，開頭是0，表示該字節單獨表示一個字符

        byte[] bytes = "a".getBytes("utf-8");StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i !=  bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //01100001

轉載于:https://www.cnblogs.com/moris5013/p/10608245.html

總結

以上是生活随笔為你收集整理的字符集编码的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

字符集