當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

字符集编码详解

發(fā)布時間：2024/3/7 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了字符集编码详解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://blog.chinaunix.net/uid-90129-id-132794.html

參考文章一

字符，字節(jié)和編碼

1.?編碼問題的由來，相關(guān)概念的理解1.1?字符與編碼的發(fā)展從計算機對多國語言的支持角度看，大致可以分為三個階段：

系統(tǒng)內(nèi)碼	說明	系統(tǒng)
階段一	ASCII	計算機剛開始只支持英語，其它語言不能夠在計算機上存儲和顯示。	英文?DOS
階段二	ANSI編碼（本地化）	為使計算機支持更多語言，通常使用?0x80~0xFF?范圍的?2?個字節(jié)來表示?1?個字符。比如：漢字?\'中\'?在中文操作系統(tǒng)中，使用?[0xD6,0xD0]?這兩個字節(jié)存儲。不同的國家和地區(qū)制定了不同的標準，由此產(chǎn)生了?GB2312, BIG5, JIS?等各自的編碼標準。這些使用?2?個字節(jié)來代表一個字符的各種漢字延伸編碼方式，稱為?ANSI?編碼。在簡體中文系統(tǒng)下，ANSI?編碼代表?GB2312?編碼，在日文操作系統(tǒng)下，ANSI?編碼代表?JIS?編碼。不同?ANSI?編碼之間互不兼容，當信息在國際間交流時，無法將屬于兩種語言的文字，存儲在同一段?ANSI?編碼的文本中。	中文?DOS，中文?Windows 95/98，日文?Windows 95/98
階段三	UNICODE （國際化）	為了使國際間信息交流更加方便，國際組織制定了?UNICODE?字符集，為各種語言中的每一個字符設(shè)定了統(tǒng)一并且唯一的數(shù)字編號，以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。	Windows NT/2000/XP，Linux，Java

字符串在內(nèi)存中的存放方法：
在?ASCII?階段，單字節(jié)字符串使用一個字節(jié)存放一個字符（SBCS）。比如，Bob123?在內(nèi)存中為：

42	6F	62	31	32	33	00
B	o	b	1	2	3	\\0

在使用?ANSI?編碼支持多種語言階段，每個字符使用一個字節(jié)或多個字節(jié)來表示（MBCS），因此，這種方式存放的字符也被稱作多字節(jié)字符。比如，中文123?在中文?Windows 95?內(nèi)存中為7個字節(jié)，每個漢字占2個字節(jié)，每個英文和數(shù)字字符占1個字節(jié)：

D6	D0	CE	C4	31	32	33	00
中		文		1	2	3	\\0

在?UNICODE?被采用之后，計算機存放字符串時，改為存放每個字符在?UNICODE?字符集中的序號。目前計算機一般使用?2?個字節(jié)（16?位）來存放一個序號（DBCS），因此，這種方式存放的字符也被稱作寬字節(jié)字符。比如，字符串?中文123?在?Windows 2000?下，內(nèi)存中實際存放的是?5?個序號：

2D	4E	87	65	31	00	32	00	33	00	00	00	? ???←?在?x86 CPU?中，低字節(jié)在前
中		文		1		2		3		\\0

一共占?10?個字節(jié)。

[img][/img]

1.2?字符，字節(jié)，字符串理解編碼的關(guān)鍵，是要把字符的概念和字節(jié)的概念理解準確。這兩個概念容易混淆，我們在此做一下區(qū)分：

概念描述	舉例
字符	人們使用的記號，抽象意義上的一個符號。	\'1\', \'中\', \'a\', \'$\', \'￥\', ……
字節(jié)	計算機中存儲數(shù)據(jù)的單元，一個8位的二進制數(shù)，是一個很具體的存儲空間。	0x01, 0x45, 0xFA, ……
ANSI 字符串	在內(nèi)存中，如果“字符”是以?ANSI?編碼形式存在的，一個字符可能使用一個字節(jié)或多個字節(jié)來表示，那么我們稱這種字符串為?ANSI?字符串或者多字節(jié)字符串。	中文123 （占7字節(jié)）
UNICODE 字符串	在內(nèi)存中，如果“字符”是以在?UNICODE?中的序號存在的，那么我們稱這種字符串為?UNICODE?字符串或者寬字節(jié)字符串。	L中文123 （占10字節(jié)）

由于不同?ANSI?編碼所規(guī)定的標準是不相同的，因此，對于一個給定的多字節(jié)字符串，我們必須知道它采用的是哪一種編碼規(guī)則，才能夠知道它包含了哪些“字符”。而對于?UNICODE?字符串來說，不管在什么環(huán)境下，它所代表的“字符”內(nèi)容總是不變的。

[img][/img]

1.3?字符集與編碼各個國家和地區(qū)所制定的不同?ANSI?編碼標準中，都只規(guī)定了各自語言所需的“字符”。比如：漢字標準（GB2312）中沒有規(guī)定韓國語字符怎樣存儲。這些?ANSI?編碼標準所規(guī)定的內(nèi)容包含兩層含義：

1.???????使用哪些字符。也就是說哪些漢字，字母和符號會被收入標準中。所包含“字符”的集合就叫做“字符集”。

2.???????規(guī)定每個“字符”分別用一個字節(jié)還是多個字節(jié)存儲，用哪些字節(jié)來存儲，這個規(guī)定就叫做“編碼”。

各個國家和地區(qū)在制定編碼標準的時候，“字符的集合”和“編碼”一般都是同時制定的。因此，平常我們所說的“字符集”，比如：GB2312, GBK, JIS?等，除了有“字符的集合”這層含義外，同時也包含了“編碼”的含義。
“UNICODE?字符集”包含了各種語言中使用到的所有“字符”。用來給?UNICODE?字符集編碼的標準有很多種，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig?等。

[img][/img]

1.4?常用的編碼簡介簡單介紹一下常用的編碼規(guī)則，為后邊的章節(jié)做一個準備。在這里，我們根據(jù)編碼規(guī)則的特點，把所有的編碼分成三類：

分類	編碼標準	說明
單字節(jié)字符編碼	ISO-8859-1	最簡單的編碼規(guī)則，每一個字節(jié)直接作為一個?UNICODE?字符。比如，[0xD6, 0xD0]?這兩個字節(jié)，通過?iso-8859-1?轉(zhuǎn)化為字符串時，將直接得到?[0x00D6, 0x00D0]?兩個?UNICODE?字符，即??Ð。反之，將?UNICODE?字符串通過?iso-8859-1?轉(zhuǎn)化為字節(jié)串時，只能正常轉(zhuǎn)化?0~255?范圍的字符。
ANSI?編碼	GB2312, BIG5, Shift_JIS, ISO-8859-2 ……	把?UNICODE?字符串通過?ANSI?編碼轉(zhuǎn)化為“字節(jié)串”時，根據(jù)各自編碼的規(guī)定，一個?UNICODE?字符可能轉(zhuǎn)化成一個字節(jié)或多個字節(jié)。反之，將字節(jié)串轉(zhuǎn)化成字符串時，也可能多個字節(jié)轉(zhuǎn)化成一個字符。比如，[0xD6, 0xD0]?這兩個字節(jié)，通過?GB2312?轉(zhuǎn)化為字符串時，將得到?[0x4E2D]?一個字符，即?\'中\'?字。 “ANSI?編碼”的特點： 1.?這些“ANSI?編碼標準”都只能處理各自語言范圍之內(nèi)的?UNICODE?字符。 2. “UNICODE?字符”與“轉(zhuǎn)換出來的字節(jié)”之間的關(guān)系是人為規(guī)定的。
UNICODE編碼	UTF-8, UTF-16, UnicodeBig ……	與“ANSI?編碼”類似的，把字符串通過?UNICODE?編碼轉(zhuǎn)化成“字節(jié)串”時，一個?UNICODE?字符可能轉(zhuǎn)化成一個字節(jié)或多個字節(jié)。與“ANSI?編碼”不同的是： 1.?這些“UNICODE?編碼”能夠處理所有的?UNICODE?字符。 2. “UNICODE?字符”與“轉(zhuǎn)換出來的字節(jié)”之間是可以通過計算得到的。

我們實際上沒有必要去深究每一種編碼具體把某一個字符編碼成了哪幾個字節(jié)，我們只需要知道“編碼”的概念就是把“字符”轉(zhuǎn)化成“字節(jié)”就可以了。對于“UNICODE?編碼”，由于它們是可以通過計算得到的，因此，在特殊的場合，我們可以去了解某一種“UNICODE?編碼”是怎樣的規(guī)則。

[img][/img]

2.?字符與編碼在程序中的實現(xiàn)2.1?程序中的字符與字節(jié)在?C++?和?Java?中，用來代表“字符”和“字節(jié)”的數(shù)據(jù)類型，以及進行編碼的方法：

類型或操作	C++	Java
字符	wchar_t	char
字節(jié)	char	byte
ANSI?字符串	char[]	byte[]
UNICODE?字符串	wchar_t[]	String
字節(jié)串→字符串	mbstowcs(), MultiByteToWideChar()	string = new String(bytes, encoding)
字符串→字節(jié)串	wcstombs(), WideCharToMultiByte()	bytes = string.getBytes(encoding)

以上需要注意幾點：

1.???????Java?中的?char?代表一個“UNICODE?字符（寬字節(jié)字符）”，而?C++?中的?char?代表一個字節(jié)。

2.???????MultiByteToWideChar()?和?WideCharToMultiByte()?是?Windows API?函數(shù)。

[img][/img]

2.2 C++?中相關(guān)實現(xiàn)方法聲明一段字符串常量：

// ANSI?字符串，內(nèi)容長度?7?字節(jié)
char? ???sz[20] =?中文123;

// UNICODE?字符串，內(nèi)容長度?5?個?wchar_t（10?字節(jié)）
wchar_t wsz[20] = L\\x4E2D\\x6587\\x0031\\x0032\\x0033;

UNICODE?字符串的?I/O?操作，字符與字節(jié)的轉(zhuǎn)換操作：

//?運行時設(shè)定當前?ANSI?編碼，VC?格式
setlocale(LC_ALL,?.936);

// GCC?中格式
setlocale(LC_ALL,?zh_CN.GBK);

// Visual C++?中使用小寫?%s，按照?setlocale?指定編碼輸出到文件
// GCC?中使用大寫?%S
fwprintf(fp, L%s\\n, wsz);

//?把?UNICODE?字符串按照?setlocale?指定的編碼轉(zhuǎn)換成字節(jié)
wcstombs(sz, wsz,?20);
//?把字節(jié)串按照?setlocale?指定的編碼轉(zhuǎn)換成?UNICODE?字符串
mbstowcs(wsz, sz,?20);

在?Visual C++?中，UNICODE?字符串常量有更簡單的表示方法。如果源程序的編碼與當前默認?ANSI?編碼不符，則需要使用?#pragma setlocale，告訴編譯器源程序使用的編碼：

//?如果源程序的編碼與當前默認?ANSI?編碼不一致，
//?則需要此行，編譯時用來指明當前源程序使用的編碼
#pragma setlocale(.936)

// UNICODE?字符串常量，內(nèi)容長度?10?字節(jié)
wchar_t wsz[20] = L中文123;

以上需要注意?#pragma setlocale?與?setlocale(LC_ALL, )?的作用是不同的，#pragma setlocale?在編譯時起作用，setlocale()?在運行時起作用。

[img][/img]

2.3 Java?中相關(guān)實現(xiàn)方法字符串類?String?中的內(nèi)容是?UNICODE?字符串：

// Java?代碼，直接寫中文
String?string =?中文123;

//?得到長度為?5，因為是?5?個字符
System.out.println(string.length());

字符串?I/O?操作，字符與字節(jié)轉(zhuǎn)換操作。在?Java?包?java.io.*?中，以“Stream”結(jié)尾的類一般是用來操作“字節(jié)串”的類，以“Reader”，“Writer”結(jié)尾的類一般是用來操作“字符串”的類。

//?字符串與字節(jié)串間相互轉(zhuǎn)化

//?按照?GB2312?得到字節(jié)（得到多字節(jié)字符串）
byte?[] bytes = string.getBytes(GB2312);

//?從字節(jié)按照?GB2312?得到?UNICODE?字符串
string =?new?String(bytes,?GB2312);

//?要將?String?按照某種編碼寫入文本文件，有兩種方法：

//?第一種辦法：用?Stream?類寫入已經(jīng)按照指定編碼轉(zhuǎn)化好的字節(jié)串
OutputStream os =?new?FileOutputStream(1.txt);
os.write(bytes);
os.close();

//?第二種辦法：構(gòu)造指定編碼的?Writer?來寫入字符串
Writer ow =?new?OutputStreamWriter(new?FileOutputStream(2.txt),?GB2312);
ow.write(string);
ow.close();

/*?最后得到的?1.txt?和?2.txt?都是?7?個字節(jié)?*/

如果?java?的源程序編碼與當前默認?ANSI?編碼不符，則在編譯的時候，需要指明一下源程序的編碼。比如：

E:\\>javac?-encoding BIG5?Hello.java

以上需要注意區(qū)分源程序的編碼與?I/O?操作的編碼，前者是在編譯時起作用，后者是在運行時起作用。

[img][/img]

3.?幾種誤解，以及亂碼產(chǎn)生的原因和解決辦法3.1?容易產(chǎn)生的誤解

對編碼的誤解
誤解一	在將“字節(jié)串”轉(zhuǎn)化成“UNICODE?字符串”時，比如在讀取文本文件時，或者通過網(wǎng)絡(luò)傳輸文本時，容易將“字節(jié)串”簡單地作為單字節(jié)字符串，采用每“一個字節(jié)”就是“一個字符”的方法進行轉(zhuǎn)化。而實際上，在非英文的環(huán)境中，應(yīng)該將“字節(jié)串”作為?ANSI?字符串，采用適當?shù)木幋a來得到?UNICODE?字符串，有可能“多個字節(jié)”才能得到“一個字符”。通常，一直在英文環(huán)境下做開發(fā)的程序員們，容易有這種誤解。
誤解二	在?DOS，Windows 98?等非?UNICODE?環(huán)境下，字符串都是以?ANSI?編碼的字節(jié)形式存在的。這種以字節(jié)形式存在的字符串，必須知道是哪種編碼才能被正確地使用。這使我們形成了一個慣性思維：“字符串的編碼”。當?UNICODE?被支持后，Java?中的?String?是以字符的“序號”來存儲的，不是以“某種編碼的字節(jié)”來存儲的，因此已經(jīng)不存在“字符串的編碼”這個概念了。只有在“字符串”與“字節(jié)串”轉(zhuǎn)化時，或者，將一個“字節(jié)串”當成一個?ANSI?字符串時，才有編碼的概念。不少的人都有這個誤解。

第一種誤解，往往是導(dǎo)致亂碼產(chǎn)生的原因。第二種誤解，往往導(dǎo)致本來容易糾正的亂碼問題變得更復(fù)雜。
在這里，我們可以看到，其中所講的“誤解一”，即采用每“一個字節(jié)”就是“一個字符”的轉(zhuǎn)化方法，實際上也就等同于采用?iso-8859-1?進行轉(zhuǎn)化。因此，我們常常使用?bytes = string.getBytes(iso-8859-1)?來進行逆向操作，得到原始的“字節(jié)串”。然后再使用正確的?ANSI?編碼，比如?string = new String(bytes, GB2312)，來得到正確的“UNICODE?字符串”。

[img][/img]

3.2?非?UNICODE?程序在不同語言環(huán)境間移植時的亂碼非?UNICODE?程序中的字符串，都是以某種?ANSI?編碼形式存在的。如果程序運行時的語言環(huán)境與開發(fā)時的語言環(huán)境不同，將會導(dǎo)致?ANSI?字符串的顯示失敗。
比如，在日文環(huán)境下開發(fā)的非?UNICODE?的日文程序界面，拿到中文環(huán)境下運行時，界面上將顯示亂碼。如果這個日文程序界面改為采用?UNICODE?來記錄字符串，那么當在中文環(huán)境下運行時，界面上將可以顯示正常的日文。
由于客觀原因，有時候我們必須在中文操作系統(tǒng)下運行非?UNICODE?的日文軟件，這時我們可以采用一些工具，比如，南極星，AppLocale?等，暫時的模擬不同的語言環(huán)境。

[img][/img]

3.3?網(wǎng)頁提交字符串當頁面中的表單提交字符串時，首先把字符串按照當前頁面的編碼，轉(zhuǎn)化成字節(jié)串。然后再將每個字節(jié)轉(zhuǎn)化成?%XX?的格式提交到?Web?服務(wù)器。比如，一個編碼為?GB2312?的頁面，提交?中?這個字符串時，提交給服務(wù)器的內(nèi)容為?%D6%D0。
在服務(wù)器端，Web?服務(wù)器把收到的?%D6%D0?轉(zhuǎn)化成?[0xD6, 0xD0]?兩個字節(jié)，然后再根據(jù)?GB2312?編碼規(guī)則得到?中?字。
在?Tomcat?服務(wù)器中，request.getParameter()?得到亂碼時，常常是因為前面提到的“誤解一”造成的。默認情況下，當提交?%D6%D0?給?Tomcat?服務(wù)器時，request.getParameter()?將返回?[0x00D6, 0x00D0]?兩個?UNICODE?字符，而不是返回一個?中?字符。因此，我們需要使用?bytes = string.getBytes(iso-8859-1)?得到原始的字節(jié)串，再用?string = new String(bytes, GB2312)?重新得到正確的字符串?中。

[img][/img]

3.4?從數(shù)據(jù)庫讀取字符串通過數(shù)據(jù)庫客戶端（比如?ODBC?或?JDBC）從數(shù)據(jù)庫服務(wù)器中讀取字符串時，客戶端需要從服務(wù)器獲知所使用的?ANSI?編碼。當數(shù)據(jù)庫服務(wù)器發(fā)送字節(jié)流給客戶端時，客戶端負責將字節(jié)流按照正確的編碼轉(zhuǎn)化成?UNICODE?字符串。
如果從數(shù)據(jù)庫讀取字符串時得到亂碼，而數(shù)據(jù)庫中存放的數(shù)據(jù)又是正確的，那么往往還是因為前面提到的“誤解一”造成的。解決的辦法還是通過?string = new String( string.getBytes(iso-8859-1), GB2312)?的方法，重新得到原始的字節(jié)串，再重新使用正確的編碼轉(zhuǎn)化成字符串。

[img][/img]

3.5?電子郵件中的字符串當一段?Text?或者?HTML?通過電子郵件傳送時，發(fā)送的內(nèi)容首先通過一種指定的字符編碼轉(zhuǎn)化成“字節(jié)串”，然后再把“字節(jié)串”通過一種指定的傳輸編碼（Content-Transfer-Encoding）進行轉(zhuǎn)化得到另一串“字節(jié)串”。比如，打開一封電子郵件源代碼，可以看到類似的內(nèi)容：

Content-Type: text/plain;
? ?? ???charset=gb2312
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用的?Content-Transfer-Encoding?有?Base64?和?Quoted-Printable?兩種。在對二進制文件或者中文文本進行轉(zhuǎn)化時，Base64?得到的“字節(jié)串”比?Quoted-Printable?更短。在對英文文本進行轉(zhuǎn)化時，Quoted-Printable?得到的“字節(jié)串”比?Base64?更短。
郵件的標題，用了一種更簡短的格式來標注“字符編碼”和“傳輸編碼”。比如，標題內(nèi)容為?中，則在郵件源代碼中表示為：

//?正確的標題格式
Subject: =?GB2312?B?1tA=?=

其中，

第一個“=?”與“?”中間的部分指定了字符編碼，在這個例子中指定的是?GB2312。
“?”與“?”中間的“B”代表?Base64。如果是“Q”則代表?Quoted-Printable。
最后“?”與“?=”之間的部分，就是經(jīng)過?GB2312?轉(zhuǎn)化成字節(jié)串，再經(jīng)過?Base64?轉(zhuǎn)化后的標題內(nèi)容。

如果“傳輸編碼”改為?Quoted-Printable，同樣，如果標題內(nèi)容為?中：

//?正確的標題格式
Subject: =?GB2312?Q?=D6=D0?=

如果閱讀郵件時出現(xiàn)亂碼，一般是因為“字符編碼”或“傳輸編碼”指定有誤，或者是沒有指定。比如，有的發(fā)郵件組件在發(fā)送郵件時，標題?中：

//?錯誤的標題格式
Subject: =?ISO-8859-1?Q?=D6=D0?=

這樣的表示，實際上是明確指明了標題為?[0x00D6, 0x00D0]，即??Ð，而不是?中。

4.?幾種錯誤理解的糾正
誤解：“ISO-8859-1?是國際編碼？”非也。iso-8859-1?只是單字節(jié)字符集中最簡單的一種，也就是“字節(jié)編號”與“UNICODE?字符編號”一致的那種編碼規(guī)則。當我們要把一個“字節(jié)串”轉(zhuǎn)化成“字符串”，而又不知道它是哪一種?ANSI?編碼時，先暫時地把“每一個字節(jié)”作為“一個字符”進行轉(zhuǎn)化，不會造成信息丟失。然后再使用?bytes = string.getBytes(iso-8859-1)?的方法可恢復(fù)到原始的字節(jié)串。
誤解：“Java?中，怎樣知道某個字符串的內(nèi)碼？”Java?中，字符串類?java.lang.String?處理的是?UNICODE?字符串，不是?ANSI?字符串。我們只需要把字符串作為“抽象的符號的串”來看待。因此不存在字符串的內(nèi)碼的問題。

參考文章二

Unicode字符編碼規(guī)范

http://www.aoxiang.org 2006-4-2 10:48:02?
Unicode是一種字符編碼規(guī)范?。

　　先從ASCII說起。ASCII是用來表示英文字符的一種編碼規(guī)范，每個ASCII字符占用1個字節(jié)（8bits）?

　　因此，ASCII編碼可以表示的最大字符數(shù)是256，其實英文字符并沒有那么多，一般只用前128個（最高位為0），其中包括了控制字符、數(shù)字、大小寫字母和其他一些符號?
。

　　而最高位為1的另128個字符被成為“擴展ASCII”，一般用來存放英文的制表符、部分音標字符等等的一些其他符號，這種字符編碼規(guī)范顯然用來處理英文沒有什么問題。（實際上也可以用來處理法文、德文等一些其他的西歐字符，但是不能和英文通用），但是面對中文、阿拉伯文之類復(fù)雜的文字，255個字符顯然不夠用?

　　于是，各個國家紛紛制定了自己的文字編碼規(guī)范，其中中文的文字編碼規(guī)范叫做“GB2312-80”，它是和ASCII兼容的一種編碼規(guī)范，其實就是利用擴展ASCII沒有真正標準化這一點，把一個中文字符用兩個擴展ASCII字符來表示。?

　　但是這個方法有問題，最大的問題就是，中文文字沒有真正屬于自己的編碼，因為擴展ASCII碼雖然沒有真正的標準化，但是PC里的ASCII碼還是有一個事實標準的（存放著英文制表符），所以很多軟件利用這些符號來畫表格。這樣的軟件用到中文系統(tǒng)中，這些表格符就會被誤認作中文字，破壞版面。而且，統(tǒng)計中英文混合字符串中的字數(shù)，也是比較復(fù)雜的，我們必須判斷一個ASCII碼是否擴展，以及它的下一個ASCII是否擴展，然后才“猜”那可能是一個中文字?
。

　　總之當時處理中文是很痛苦的。而更痛苦的是GB2312是國家標準，臺灣當時有一個Big5編碼標準，很多編碼和GB是相同的，所以……，嘿嘿。?

　　這時候，我們就知道，要真正解決中文問題，不能從擴展ASCII的角度入手，也不能僅靠中國一家來解決。而必須有一個全新的編碼系統(tǒng)，這個系統(tǒng)要可以將中文、英文、法文、德文……等等所有的文字統(tǒng)一起來考慮，為每個文字都分配一個單獨的編碼，這樣才不會有上面那種現(xiàn)象出現(xiàn)。?

　　于是，Unicode誕生了。?

　　Unicode有兩套標準，一套叫UCS-2(Unicode-16)，用2個字節(jié)為字符編碼，另一套叫UCS-4(Unicode-32)，用4個字節(jié)為字符編碼。?

　　以目前常用的UCS-2為例，它可以表示的字符數(shù)為2^16=65535，基本上可以容納所有的歐美字符和絕大部分的亞洲字符?
。

　　UTF-8的問題后面會提到?。

　　在Unicode里，所有的字符被一視同仁。漢字不再使用“兩個擴展ASCII”，而是使用“1個Unicode”，注意，現(xiàn)在的漢字是“一個字符”了，于是，拆字、統(tǒng)計字數(shù)這些問題也就自然而然的解決了?
。

　　但是，這個世界不是理想的，不可能在一夜之間所有的系統(tǒng)都使用Unicode來處理字符，所以Unicode在誕生之日，就必須考慮一個嚴峻的問題：和ASCII字符集之間的不兼容問題。?

　　我們知道，ASCII字符是單個字節(jié)的，比如“A”的ASCII是65。而Unicode是雙字節(jié)的，比如“A”的Unicode是0065，這就造成了一個非常大的問題：以前處理ASCII的那套機制不能被用來處理Unicode了?
。

　　另一個更加嚴重的問題是，C語言使用'\0'作為字符串結(jié)尾，而Unicode里恰恰有很多字符都有一個字節(jié)為0，這樣一來，C語言的字符串函數(shù)將無法正常處理Unicode，除非把世界上所有用C寫的程序以及他們所用的函數(shù)庫全部換掉?
。

　　于是，比Unicode更偉大的東東誕生了，之所以說它更偉大是因為它讓Unicode不再存在于紙上，而是真實的存在于我們大家的電腦中。那就是：UTF。

　　UTF= UCS Transformation Format UCS轉(zhuǎn)換格式，它是將Unicode編碼規(guī)則和計算機的實際編碼對應(yīng)起來的一個規(guī)則。現(xiàn)在流行的UTF有2種：UTF-8和UTF-16?
。

　　其中UTF-16和上面提到的Unicode本身的編碼規(guī)范是一致的，這里不多說了。而UTF-8不同，它定義了一種“區(qū)間規(guī)則”，這種規(guī)則可以和ASCII編碼保持最大程度的兼容?
。

　　UTF-8有點類似于Haffman編碼，它將Unicode編碼為00000000-0000007F的字符，用單個字節(jié)來表示；?

　　　　00000080-000007FF的字符用兩個字節(jié)表示?

　　　　00000800-0000FFFF的字符用3字節(jié)表示?

　　因為目前為止Unicode-16規(guī)范沒有指定FFFF以上的字符，所以UTF-8最多是使用3個字節(jié)來表示一個字符。但理論上來說，UTF-8最多需要用6字節(jié)表示一個字符。?

　　在UTF-8里，英文字符仍然跟ASCII編碼一樣，因此原先的函數(shù)庫可以繼續(xù)使用。而中文的編碼范圍是在0080-07FF之間，因此是2個字節(jié)表示（但這兩個字節(jié)和GB編碼的兩個字節(jié)是不同的），用專門的Unicode處理類可以對UTF編碼進行處理。?

　　下面說說中文的問題。?

　　由于歷史的原因，在Unicode之前，一共存在過3套中文編碼標準。?

　　GB2312-80，是中國大陸使用的國家標準，其中一共編碼了6763個常用簡體漢字。Big5，是臺灣使用的編碼標準，編碼了臺灣使用的繁體漢字，大概有8千多個。HKSCS，是中國香港使用的編碼標準，字體也是繁體，但跟Big5有所不同。?

　　這3套編碼標準都采用了兩個擴展ASCII的方法，因此，幾套編碼互不兼容，而且編碼區(qū)間也各有不同?

　　因為其不兼容性，在同一個系統(tǒng)中同時顯示GB和Big5基本上是不可能的。當時的南極星、RichWin等等軟件，在自動識別中文編碼、自動顯示正確編碼方面都做了很多努力。

　　他們用了怎樣的技術(shù)我就不得而知了，我知道好像南極星曾經(jīng)以同屏顯示繁簡中文為賣點。?

　　后來，由于各方面的原因，國際上又制定了針對中文的統(tǒng)一字符集GBK和GB18030，其中GBK已經(jīng)在Windows、Linux等多種操作系統(tǒng)中被實現(xiàn)。?

　　GBK兼容GB2312，并增加了大量不常用漢字，還加入了幾乎所有的Big5中的繁體漢字。但是GBK中的繁體漢字和Big5中的幾乎不兼容。?

　　GB18030相當于是GBK的超集，比GBK包含的字符更多。據(jù)我所知目前還沒有操作系統(tǒng)直接支持GB18030。?

　　談?wù)?span style="font-family:Times New Roman">Unicode編碼，簡要解釋UCS、UTF、BMP、BOM等名詞
　　這是一篇程序員寫給程序員的趣味讀物。所謂趣味是指可以比較輕松地了解一些原來不清楚的概念，增進知識，類似于打RPG游戲的升級。整理這篇文章的動機是兩個問題：

　　問題一：
　　使用Windows記事本的“另存為”，可以在GBK、Unicode、Unicode big?
endian和UTF-8這幾種編碼方式間相互轉(zhuǎn)換。同樣是txt文件，Windows是怎樣識別編碼方式的呢？

　　我很早前就發(fā)現(xiàn)Unicode、Unicode big endian和UTF-8編碼的txt文件的開頭會多出幾個字節(jié)，分別是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但這些標記是基于什么標準呢？

　　問題二：
　　最近在網(wǎng)上看到一個ConvertUTF.c，實現(xiàn)了UTF-32、UTF-16和UTF-8這三種編碼方式的相互轉(zhuǎn)換。對于Unicode(UCS2)、GBK、UTF-8這些編碼方式，我原來就了解。但這個程序讓我有些糊涂，想不起來UTF-16和UCS2有什么關(guān)系。
查了查相關(guān)資料，總算將這些問題弄清楚了，順帶也了解了一些Unicode的細節(jié)。寫成一篇文章，送給有過類似疑問的朋友。本文在寫作時盡量做到通俗易懂，但要求讀者知道什么是字節(jié)，什么是十六進制。

　　0、big endian和little endian
　　big endian和little?
　　endian是CPU處理多字節(jié)數(shù)的不同方式。例如“漢”字的Unicode編碼是6C49。那么寫到文件里時，究竟是將6C寫在前面，還是將49寫在前面？如果將6C寫在前面，就是big endian。還是將49寫在前面，就是little endian。

　　“endian”這個詞出自《格列佛游記》。小人國的內(nèi)戰(zhàn)就源于吃雞蛋時是究竟從大頭(Big-Endian)敲開還是從小頭(Little-Endian)敲開，由此曾發(fā)生過六次叛亂，其中一個皇帝送了命，另一個丟了王位。

　　我們一般將endian翻譯成“字節(jié)序”，將big endian和little endian稱作“大尾”和“小尾”。

　　1、字符編碼、內(nèi)碼，順帶介紹漢字編碼
字符必須編碼后才能被計算機處理。計算機使用的缺省編碼方式就是計算機的內(nèi)碼。早期的計算機使用7位的ASCII編碼，為了處理漢字，程序員設(shè)計了用于簡體中文的GB2312和用于繁體中文的big5。

　　GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區(qū)的內(nèi)碼范圍高字節(jié)從B0-F7，低字節(jié)從A1-FE，占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

　　GB2312支持的漢字太少。1995年的漢字擴展規(guī)范GBK1.0收錄了21886個符號，它分為漢字區(qū)和圖形符號區(qū)。漢字區(qū)包括21003個字符。2000年的GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字，同時還收錄了藏文、蒙文、維吾爾文等主要的少數(shù)民族文字。現(xiàn)在的PC平臺必須支持GB18030，對嵌入式產(chǎn)品暫不作要求。所以手機、MP3一般只支持GB2312。

　　從ASCII、GB2312、GBK到GB18030，這些編碼方法是向下兼容的，即同一個字符在這些方案中總是有相同的編碼，后面的標準支持更多的字符。在這些編碼中，英文和中文可以統(tǒng)一地處理。區(qū)分中文編碼的方法是高字節(jié)的最高位不為0。按照程序員的稱呼，GB2312、GBK到GB18030都屬于雙字節(jié)字符集?
(DBCS)。

　　有的中文Windows的缺省內(nèi)碼還是GBK，可以通過GB18030升級包升級到GB18030。不過GB18030相對GBK增加的字符，普通人是很難用到的，通常我們還是用GBK指代中文Windows內(nèi)碼。

　　這里還有一些細節(jié)：

　　GB2312的原文還是區(qū)位碼，從區(qū)位碼到內(nèi)碼，需要在高字節(jié)和低字節(jié)上分別加上A0。

　　在DBCS中，GB內(nèi)碼的存儲格式始終是big endian，即高位在前。

　　GB2312的兩個字節(jié)的最高位都是1。但符合這個條件的碼位只有128*128=16384個。所以GBK和GB18030的低字節(jié)最高位都可能不是1。不過這不影響DBCS字符流的解析：在讀取DBCS字符流時，只要遇到高位為1的字節(jié)，就可以將下兩個字節(jié)作為一個雙字節(jié)編碼，而不用管低字節(jié)的高位是什么。

　　2、Unicode、UCS和UTF
前面提到從ASCII、GB2312、GBK到GB18030的編碼方法是向下兼容的。而Unicode只與ASCII兼容（更準確地說，是與ISO-8859-1兼容），與GB碼不兼容。例如“漢”字的Unicode編碼是6C49，而GB碼是BABA。

　　Unicode也是一種字符編碼方法，不過它是由國際組織設(shè)計，可以容納全世界所有語言文字的編碼方案。Unicode的學(xué)名"Universal?
　　Multiple-Octet Coded Character Set"，簡稱為UCS。UCS可以看作是"Unicode Character Set"的縮寫。

　　根據(jù)維基百科全書(http://zh.wikipedia.org/wiki/)的記載：歷史上存在兩個試圖獨立設(shè)計Unicode的組織，即國際標準化組織（ISO）和一個軟件制造商的協(xié)會（unicode.org）。ISO開發(fā)了ISO?
10646項目，Unicode協(xié)會開發(fā)了Unicode項目。

　　在1991年前后，雙方都認識到世界不需要兩個不兼容的字符集。于是它們開始合并雙方的工作成果，并為創(chuàng)立一個單一編碼表而協(xié)同工作。從Unicode2.0開始，Unicode項目采用了與ISO?
10646-1相同的字庫和字碼。

　　目前兩個項目仍都存在，并獨立地公布各自的標準。Unicode協(xié)會現(xiàn)在的最新版本是2005年的Unicode?
4.1.0。ISO的最新標準是10646-3:2003。

　　UCS規(guī)定了怎么用多個字節(jié)表示各種文字。怎樣傳輸這些編碼，是由UTF(UCS Transformation Format)規(guī)范規(guī)定的，常見的UTF規(guī)范包括UTF-8、UTF-7、UTF-16。

　　IETF的RFC2781和RFC3629以RFC的一貫風格，清晰、明快又不失嚴謹?shù)孛枋隽?span style="font-family:Times New Roman">UTF-16和UTF-8的編碼方法。我總是記不得IETF是Internet Engineering Task Force的縮寫。但IETF負責維護的RFC是Internet上一切規(guī)范的基礎(chǔ)。

　　3、UCS-2、UCS-4、BMP

　　UCS有兩種格式：UCS-2和UCS-4。顧名思義，UCS-2就是用兩個字節(jié)編碼，UCS-4就是用4個字節(jié)（實際上只用了31位，最高位必須為0）編碼。下面讓我們做一些簡單的數(shù)學(xué)游戲：

　　UCS-2有2^16=65536個碼位，UCS-4有2^31=2147483648個碼位。

　　UCS-4根據(jù)最高位為0的最高字節(jié)分成2^7=128個group。每個group再根據(jù)次高字節(jié)分為256個plane。每個plane根據(jù)第3個字節(jié)分為256行?(rows)，每行包含256個cells。當然同一行的cells只是最后一個字節(jié)不同，其余都相同。

　　group 0的plane 0被稱作Basic Multilingual Plane,?即BMP。或者說UCS-4中，高兩個字節(jié)為0的碼位被稱作BMP。
將UCS-4的BMP去掉前面的兩個零字節(jié)就得到了UCS-2。在UCS-2的兩個字節(jié)前加上兩個零字節(jié)，就得到了UCS-4的BMP。而目前的UCS-4規(guī)范中還沒有任何字符被分配在BMP之外。

　　4、UTF編碼

　　UTF-8就是以8位為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下：

　　UCS-2編碼(16進制) UTF-8?字節(jié)流(二進制)
　　0000 -?007F?0xxxxxxx
　　0080 - 07FF 110xxxxx 10xxxxxx
　　0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx?

　　例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3字節(jié)模板了：1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進制是：0110 110001 001001，?用這個比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

　　讀者可以用記事本測試一下我們的編碼是否正確。

　　UTF-16以16位為單元對UCS進行編碼。對于小于0x10000的UCS碼，UTF-16編碼就等于UCS碼對應(yīng)的16位無符號整數(shù)。對于不小于0x10000的UCS碼，定義了一個算法。不過由于實際使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以認為UTF-16和UCS-2基本相同。但UCS-2只是一個編碼方案，UTF-16卻要用于實際的傳輸，所以就不得不考慮字節(jié)序的問題。

　　5、UTF的字節(jié)序和BOM
　　UTF-8以字節(jié)為編碼單元，沒有字節(jié)序的問題。UTF-16以兩個字節(jié)為編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節(jié)序。例如收到一個“奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”，那么這是“奎”還是“乙”？

　　Unicode規(guī)范中推薦的標記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一個有點小聰明的想法：

　　在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK?
SPACE"的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應(yīng)該出現(xiàn)在實際傳輸中。UCS規(guī)范建議我們在傳輸字節(jié)流前，先傳輸字符"ZERO?
WIDTH NO-BREAK SPACE"。

　　這樣如果接收者收到FEFF，就表明這個字節(jié)流是Big-Endian的；如果收到FFFE，就表明這個字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

　　UTF-8不需要BOM來表明字節(jié)順序，但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF（讀者可以用我們前面介紹的編碼方法驗證一下）。所以如果接收者收到以EF BB?
BF開頭的字節(jié)流，就知道這是UTF-8編碼了。

　　Windows就是使用BOM來標記文本文件的編碼方式的。

　　6、進一步的參考資料
　　本文主要參考的資料是?"Short overview of ISO-IEC 10646 and Unicode"?
(http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

　　我還找了兩篇看上去不錯的資料，不過因為我開始的疑問都找到了答案，所以就沒有看：

"Understanding Unicode A general introduction to the Unicode Standard"?
(http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings?
and legacy encodings"?
(http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

參考文章三

計算機只有數(shù)字，計算機軟件里的一切都是用數(shù)字來表示的，屏幕上顯示的一個個字符也不例外。???????????????????????????????????????????????????????????????????????????????????
字符a對應(yīng)數(shù)字97，字符b對應(yīng)數(shù)字98等，這種字符與數(shù)字對應(yīng)的編碼規(guī)則被稱為ASCII（美國標準信息交換碼）。ASCII的最高bit位都為0,也就是說這些數(shù)字都在0到127之間。
中國大陸將每一個中文字符都用兩個字節(jié)的數(shù)字來表示，中文字符的每個字節(jié)的最高位都為1，中國大陸為每個中文字符制定的編碼規(guī)則稱為GB2312(國標碼)。
在GB2312的基礎(chǔ)上，對更多的中文字符（包括繁體）進行了編碼，新的編碼規(guī)則稱為GBK。
在中國大陸使用的計算機系統(tǒng)上，GBK和GB2312就被稱為該系統(tǒng)的本地字符集。
“中國”的“中”字，在中國大陸的編碼是十六進制的D6DO，而在中國臺灣的編碼是十六進制的A4A4，臺灣地區(qū)對中文字符集的編碼規(guī)則稱為BIG5（大五碼）。
在一個國家的本地化系統(tǒng)中出現(xiàn)的一個字符，通過電子郵件傳送到另外一個國家的本地化系統(tǒng)中，看到的就不是那個字符了，而是另個那個國家的一個字符或亂碼。

Unicode編碼（是一種全球通用的字符編碼）

ISO（國際標準化組織）將全世界所有的符號進行了統(tǒng)一編碼，稱之為Unicode編碼。
“中”這個符號，在全世界的任何角落始終對應(yīng)的都是一個十六進制的數(shù)字4E2D。
如果所用的計算機系統(tǒng)都使用Unicode編碼，在中國大陸的本地化系統(tǒng)中顯示的“中”這個符號，發(fā)送到伊拉克的本地化系統(tǒng)中，顯示的仍然是“中“這個符號。
Unicode編碼的字符都占用兩個字節(jié)的大小，對于ASCII碼所表示的字符，只是簡單地在ASCII碼原來占用的一個字節(jié)前面，增加一個所有bit為0的字節(jié)。
Unicode只占用兩個字節(jié)，在全世界范圍內(nèi)所表示的字符個數(shù)不會超過2的16次方（65536），實際上，Unicode編碼中還保留了兩千多個數(shù)值沒有用于字符編碼。
在相當長的一段時期內(nèi)，本地化字符編碼將與Unicode編碼共存。
Java中的字符使用的都是Unicode編碼，Java在通過Unicode保證跨平臺特性的前提下，也支持本地平臺字符集。

UTF-8編碼

ASCII碼字符保持原樣，仍然只占用一個字節(jié)，對于其它國家的字符，UTF-8使用兩個或三個字節(jié)來表示。使用UTF-8編碼的文件，通常都要用EF BB BF作為文件開頭的三個字節(jié)數(shù)據(jù)。

字符的UTF-8編碼與Unicode編碼之間的轉(zhuǎn)換關(guān)系對應(yīng)下列規(guī)則：

????? -? \u0001和\u007f之間的字符，UTF-8編碼為：(byte)c.

??????-? \u0000或其范圍在\u0080和\u07ff之間的字符，UTF-8編碼為：

????????????? (byte)(0xc0|(0x1f&(c>>6))),(byte)(0x80|(0x3f&c)).

????? -??\u0800和\uffff之間的字符，UTF-8編碼為：

????????????? (byte)(0xe0|0x0f&(c>>12)))),(byte)(0x80|(0x3f&(c>>6))),(byte)(0x80|(0x3f&c))

從上圖可以看出，應(yīng)用程序軟件很容易根據(jù)UTF-8編碼中那些固定不變的比特值來確定一個字符占用的是一個字節(jié)呢，還是兩個或是三個字節(jié)的，如果一個字節(jié)的第一個比特位為“0”，那么說明這個字符只占用一個字節(jié)；如果一個字節(jié)的前三個比特為“110”，這說明這個字符占用兩個字節(jié)；如果一個字節(jié)的前四個比特為“1110”，這說明這個字符占用三個字節(jié)。對于需要二個或三個字節(jié)表示的UTF-8字符，它們的第二個和第三個字節(jié)的前兩個比特位總是“10”。這樣很容易與UTF-8中只占用一個字節(jié)的字符相區(qū)分，非常便于應(yīng)用程序檢測數(shù)據(jù)在傳輸過程中是不是發(fā)生了錯誤。

相對Unicode編碼，UTF-8有一些顯著的優(yōu)點：

不出現(xiàn)內(nèi)容為0x00字節(jié)（字節(jié)內(nèi)容全為“0”）
便于應(yīng)用程序檢測數(shù)據(jù)在傳輸過程中是否發(fā)了錯誤
直接處理使用ASCII碼的英文文檔

UTF-8的缺點：

其中有些字符需要使用三個字節(jié)，是Unicode編碼的1.5倍，由其是對中日韓字符如此

使用UTF-8編碼的文件，通常都要用EF BB BF作為文件開頭的三個字節(jié)數(shù)據(jù)。

UTF-16編碼(兩個字節(jié)或四個字節(jié))

UTF-16編碼在Unicode基礎(chǔ)上進行了一些細節(jié)上的擴充，增加了對Unicode編碼沒有包括的那些字符的表示方式。
UTF-16對Unicode的擴充并沒有影響Unicode編碼所包括的那些字符，只是增加了對Unicode編碼沒有包括的那些字符的表示方式，一個使用Unicode編碼的字符就是UTF-16格式的。
Unicode編碼將OXD800-0XDFFF區(qū)間的數(shù)值保留出來，UTF-16擴充的字符，占用四個字節(jié)，前面兩個字節(jié)的數(shù)值為OXD800-OXD8FF之間，后面兩個字符的數(shù)值為OXDC00-OXDFFF之間。
為什么不讓前面和后面的兩個字節(jié)的數(shù)值都位于0XD800-OXDFFF之間呢？方便用于判斷字符的邊界。
在不同體系結(jié)構(gòu)的計算機系統(tǒng)中，UTF-16編碼的Unicode字符在內(nèi)存中的字節(jié)存儲順序不同。
對于0X1234這樣的一個雙字節(jié)數(shù)據(jù)，使用Little-Endian和Big-Endian兩種方式在內(nèi)存中存儲的格式，如圖所示：

如果文件以O(shè)XFF OXFF這兩個字節(jié)開頭，則表明文本的其余部分是Big-Endian的UTF-16編碼；如果文件以O(shè)XFF OXFE這兩個字節(jié)開頭，則表明文本的其余部分是Little-Endian的UTF-16編碼。

參考文章四

ISO-8859-1

來自ITwiki，開放的信息技術(shù)大百科

Jump to:?navigation,?<jumptoSearch>

ISO/IEC 8859-1，又稱Latin-1或“西歐語言”，是國際標準化組織內(nèi)ISO/IEC?8859的第一個8位字符集。它以ASCII為基礎(chǔ)，在空置的0xA0-0xFF的范圍內(nèi)，加入192個字母及符號，藉以供使用變音符號的拉丁字母語言使用。

此字符集支援部分于歐洲使用的語言，包括阿爾巴尼亞語、巴斯克語、布列塔尼語、加泰羅尼亞語、丹麥語、荷蘭語、法羅語、弗里西語、加利西亞語、德語、格陵蘭語、冰島語、愛爾蘭蓋爾語、意大利語、拉丁語、盧森堡語、挪威語、葡萄牙語、里托羅曼斯語、蘇格蘭蓋爾語、西班牙語及瑞典語。

英語雖然沒有重音字母，但仍會標明為ISO?8859-1編碼。除此之外，歐洲以外的部分語言，如南非荷蘭語、斯瓦希里語、印尼語及馬來語、菲律賓他加洛語等也可使用ISO?8859-1編碼。

法語及芬蘭語本來也使用ISO?8859-1來表示。但因它沒有法語使用的??、?、???三個字母及芬蘭語使用的??、?、?、??，故于1998年被ISO/IEC?8859-15所取代。（ISO?8859-15同時加入了歐元符號）

ISO/IEC 8859-1

-0

-1

-2

-3

-4

-5

-6

-7

-8

-9

-A

-B

-C

-D

-E

-F

(

)

;

[

]

{

}

A-

NBSP

￠

￡

￥

SHY

B-

′

C-

D-

E-

F-

在上表中，0x20是空格、0xA0是不換行空格、0xAD是選擇性連接號。

0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定義。(控制字符是由ISO 6429及ISO 4873定義)。

總結(jié)

以上是生活随笔為你收集整理的字符集编码详解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：我有一个好弟弟
下一篇：（翻译）所见即所得（WYSIWYG）

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

字符集编码详解

Unicode字符編碼規(guī)范

ISO-8859-1

來自ITwiki，開放的信息技術(shù)大百科

總結(jié)