日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

UTF-8&Unicode,0xC0和0x80是什么?

發布時間:2024/8/26 综合教程 40 生活家
生活随笔 收集整理的這篇文章主要介紹了 UTF-8&Unicode,0xC0和0x80是什么? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載:http://blog.sina.com.cn/s/blog_7c4f3b160101dv4p.html

一個字符串長度統計的代碼,如下

 
int calcLen(const char* _str)
{
        int n = 0;
        char ch = 0;
        while ((ch = *_str))
        {
            CC_BREAK_IF(! ch);
            if (0x80 != (0xC0 & ch))
            {
                ++n;
            }
            ++_str;
        }
        return n;   
}    


其中關于0x80!= (0xC0& ch)的判斷, 百思不得其解,按照ansi表的標準解釋來看, 0~127位足以表達對字符數目的統計,也就是說用如下代碼
(0x80 & ch) == 0足以判斷這個ch是不是一個字符, 因此那種復雜的寫法理論上不只是做ansi字符的判斷。

0xC0也就是1100, 這個&運算判斷的是下一個ch的頭兩位是什么字符, 因為11能完全反映出本來的數字
對于普通的ansi字符(非擴展集)而言, 他的頭一位一定是0(0000 0000 ~ 0111 1111)
對于UTF-8字符而言, 因為UTF-8編碼是一種多字節序的形式, 他采用如下的數字序規律

所有10打頭的在UTF-8里面, 表示都是一個多字節序的子序

兩個UTF-8字符, 打頭則是以110開始, 后面跟10XXXXXX, 10YYYYYY表示接下來的字符
三個則是1110開始, 后面跟三個10XXXXXX來表示字符

所以在計算字符串個數的時候, 只需要判斷當前字符是不是等于10開頭,不等于10開頭就一定是一個單字符或者一個多字符, 然后計數器+1即可

具體有興趣的童鞋可參閱http://stackoverflow.com/questions/3911536/utf-8-unicode-whats-with-0xc0-and-0x80

總結

以上是生活随笔為你收集整理的UTF-8&Unicode,0xC0和0x80是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。