日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

字符集编码

發布時間:2023/11/27 生活经验 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 字符集编码 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Unicode編碼?

最初的unicode編碼是固定長度的,16位,也就是2兩個字節代表一個字符,這樣一共可以表示65536個字符。顯然,這樣要表示各種語言中所有的字符是遠遠不夠的。Unicode4.0規范考慮到了這種情況,定義了一組附加字符編碼,附加字符編碼采用2個16位來表示,這樣最多可以定義1048576個附加字符。所以4個字節表示一個字符。

Unicode只是一個編碼規范,目前實際實現的unicode編碼有:UTF-8,UTF-16等。utf-8是考慮了字符是怎么存儲在計算機上。

UTF-8

utf-8是一種可變長的編碼方式,使用1~6個字節表示一個符號,根據不同的符號調整字節數量。

        //ascii字符   1個字節
//        byte[] bytes = "a".getBytes("utf-8");
//        System.out.println(bytes.length); //1//希臘文2個字節
//        byte[] bytes = "α".getBytes("utf-8");
//        System.out.println(bytes.length);  //2//中文3個字節
//        byte[] bytes = "中".getBytes("utf-8");
//        System.out.println(bytes.length); //3//中文4個字節(ckj中韓日擴展表意字符)
//        byte[] bytes = "?".getBytes("utf-8");
//        System.out.println(bytes.length); //4

?

utf-8的可變長字節編碼

這是種比較巧妙的設計,如果一個字節的第一位是0,則這個字節單獨就是一個字符;如果第一位是1,則連續有多少個1,就表示當前字符占用多少個字節。

以"嚴"的編碼字節數組為例,二進制表示為11100100 10111000 10100101

第一個字節開頭有三個連續的1,表示該字符占用三個字節

        byte[] bytes = "".getBytes("utf-8"); //得到utf-8編碼StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i !=  bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //11100100 10111000 10100101

字符a的二進制編碼是?01100001 , 開頭是0,表示該字節單獨表示一個字符

        byte[] bytes = "a".getBytes("utf-8");StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i !=  bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //01100001

?

轉載于:https://www.cnblogs.com/moris5013/p/10608245.html

總結

以上是生活随笔為你收集整理的字符集编码的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。