當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍

發(fā)布時(shí)間：2024/1/23 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了 UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載地址:https://charlee.li/unicode-intro.html

基本知識

? ?(1) 字節(jié)和字符的區(qū)別

? ? ? ?咦，字節(jié)和字符能有什么區(qū)別啊？不都是一樣的嗎？完全正確，但只是在古老的DOS時(shí)代。當(dāng)Unicode出現(xiàn)后，字節(jié)和字符就不一樣了。

? ? ? ?字節(jié)（octet）是一個(gè)八位的存儲單元，取值范圍一定是0～255。而字符（character，或者word）為語言意義上的符號，范圍就不一定了。例如在UCS-2中定義的字符范圍為0～65535，它的一個(gè)字符占用兩個(gè)字節(jié)。

? ? (2) BigEndian和Little Endian??

? ? ? ?上面提到了一個(gè)字符可能占用多個(gè)字節(jié)，那么這多個(gè)字節(jié)在計(jì)算機(jī)中如何存儲呢？比如字符0xabcd，它的存儲格式到底是? ? ? ? ? ?AB CD，還是 CD AB 呢？

? ? ? ?實(shí)際上兩者都有可能，并分別有不同的名字。如果存儲為 AB CD，則稱為Big Endian；如果存儲為 CD AB，則稱為Little? ? ? ? ? ?Endian。

? ? ? ?具體來說，以下這種存儲格式為Big Endian，因?yàn)橹?0xabcd)的高位(0xab)存儲在前面：

地址	值
0x00000000	AB
0x00000001	CD

? ? ? ?相反，以下這種存儲格式為Little Endian：

地址	值
0x00000000	CD
0x00000001	AB

?(2) UCS-2和UCS-4

? ? ?Unicode是為整合全世界的所有語言文件所誕生的。任何文字在Unicode中都對應(yīng)一個(gè)值，這個(gè)值稱為代碼點(diǎn)(code point)。代碼點(diǎn)的值通常寫成U+ABCD的格式。?而文字和代碼點(diǎn)之間的對應(yīng)關(guān)系就是UCS-2（Universal Character Set coded in 2 octets）。顧名思義，UCS-2是用兩個(gè)字節(jié)來表示代碼點(diǎn)，其取值范圍為 U+0000～U+FFFF。

? ? ?為了能表示更多的文字，人們又提到了UCS-4,即用四個(gè)字節(jié)表示代碼點(diǎn)。它的范圍為U+00000000~U+7FFFFFFF,其中U+00000000~U+0000FFFF和UCS-2是一樣的。

? ? ?要注意，UCS-2和UCS-4只規(guī)定了代碼點(diǎn)和文字之間的對應(yīng)關(guān)系，并沒有規(guī)定代碼點(diǎn)在計(jì)算機(jī)中如何存儲。規(guī)定存儲方式的稱為UTF(Unicode Transformation Format),其中應(yīng)用較多的就是UTF-16和UTF-8了。

? (3) UTF-16和UTF-32

? ? a.UTF-16

? ? ? UTF-16由RFC2781規(guī)定，它使用兩個(gè)字節(jié)來表示一個(gè)代碼點(diǎn)。

? ? ? 不難猜到，UTF-16是完全對應(yīng)于UCS-2的，即把UCS-2規(guī)定的代碼點(diǎn)通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

? ? ? ?UTF-16BE和UTF-16LE不難理解，而UTF-16就需要通過在文件開頭以名為BOM(Byte Order Mark)的字符來表明文件時(shí)Big Endian還是Little Endian。BOM為U+FEFF這個(gè)字符。

? ? ? ?其實(shí)BOM是個(gè)小聰明的想法。由于UCS-2沒有定義U+FFFE,因此只要出現(xiàn)FF FE或者FE FF這樣的字節(jié)序列，就可以認(rèn)為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

? ? ? ?舉個(gè)例子，“ABC”這三個(gè)字符用各種方式編碼后的結(jié)果如下:

? ? ? ? UTF-16BE? ? ? ? ? ? ? ? ? ? ?00 41 00 42 00 43

? ? ? ? UTF-16LE? ? ? ? ? ? ? ? ? ? ? 41 00 42 00 43 00

? ? ? ? UTF-16(Big Endian)? ? ? ?FE FF 00 41 00 43 00 43

? ? ? ? UTF-16(Little Endian)? ? ?FF FE 41 00 42 00 43 00

? ? ? ? UTF-16(不帶BOM)? ? ? ? ?00 41 00 42 00 43

? ? ? ? Windows平臺下默認(rèn)的Unicode編碼為Little Endian的UTF-16(即上述的FF FE 41 00 42 00 43 00)。你可以打開記事本，寫上ABC，然后保存，再用二進(jìn)制編輯器看看它的編碼結(jié)果。

? ? ? ??

? ? ? ? 另外，UTF-16還能表示一部分的UCS-4代碼點(diǎn)-----U+10000~U+10FFFF。表示算法比較復(fù)雜，簡單說明如下: 1.從代碼點(diǎn)U中減去0x10000,得到'U'。這樣U+10000~U+10FFFF就變成了0x00000~0xFFFFF。2.用20位二進(jìn)制數(shù)表示U’。

? ? ? ??U’=yyyyyyyyyyxxxxxxxxxx 3. 將前10位和后10位用W1和W2表示，W1=110110yyyyyyyyyy，W2=110111xxxxxxxxxx，則 W1 = D800～DBFF，W2 = DC00～DFFF。

? ? ? ? 例如，U+12345表示為 D8 08 DF 45（UTF-16BE），或者08 D8 45 DF（UTF-16LE）。

? ? ? ? 但是由于這種算法的存在，造成UCS-2中的 U+D800～U+DFFF 變成了無定義的字符。

? ? ?b.UTF-32

? ? ? ? ?UTF-32用四個(gè)字節(jié)表示代碼點(diǎn)，這樣就可以完全表示UCS-4的所有代碼點(diǎn)，而無需像UTF-16那樣使用復(fù)雜的算法。與UTF-16類似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼，UTF-32也同樣需要BOM字符。僅用’ABC’舉例：

UTF-32BE? ? ? ? ? ? ? ? ? ?00 00 00 41 00 00 00 42 00 00 00 43

UTF-32LE? ? ? ? ? ? ? ? ? ?41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(Big Endian)? ? 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32(Little Endian)? FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(不帶BOM)? ? ? ?00 00 00 41 00 00 00 42 00 00 00 43

? ? ? ?c.UTF-8

? ? ? ? ??UTF-16和UTF-32的一個(gè)缺點(diǎn)就是它們固定使用兩個(gè)或四個(gè)字節(jié)，這樣在表示純ASCII文件時(shí)會有很多00字節(jié)，造成浪費(fèi)。而RFC3629定義的UTF-8則解決了這個(gè)問題。

? ? ? ? ??UTF-8用1～4個(gè)字節(jié)來表示代碼點(diǎn)。表示方式如下：

UCS-2(UCS-4)	位序列	第一字節(jié)	第二字節(jié)	第三字節(jié)	第四字節(jié)
U+0000 .. U+007F	00000000-0xxxxxxx	0xxxxxxx	?	?	?
U+0080 .. U+07FF	00000xxx-xxyyyyyy	110xxxxx	10yyyyyyy	?	?
U+0800 .. U+FFFF	xxxxyyyy-yyzzzzzz	1110xxxx	10yyyyyy	10zzzzzz	?
U+10000 .. U+10FFFF	00000000-000wwwxx-xxxxyyyy-yyzzzzzz	11110www	10xxxxxx	10yyyyyy	10zzzzzz

? ? ? ? ? ?可見，ASCII字符（U+0000～U+007F）部分完全使用一個(gè)字節(jié)，避免了存儲空間的浪費(fèi)。而且UTF-8不再需要BOM字節(jié)。

? ? ? ? ? ?另外，從上表中可以看出，單字節(jié)編碼的第一字節(jié)為[00-7F]，雙字節(jié)編碼的第一字節(jié)為[C2-DF]，三字節(jié)編碼的第一字節(jié)為[E0-EF]。這樣只要看到第一個(gè)字節(jié)的范圍就可以知道編碼的字節(jié)數(shù)。這樣也可以大大簡化算法。

總結(jié)

以上是生活随笔為你收集整理的UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： #,#x,\u开头的unicode介绍
下一篇： C语言切割多层字符串(strtok_r

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍

總結(jié)