GB2312、GBK、UTF-8 如何转换
【什么是編碼】
首先,我們要明白,GB2312、GBK和UTF-8都是一種字符編碼。除此之外,還有好多字符編碼。只是對于我們中國人的網站來說,用這三種編碼比較多。
簡單的說一下,為什么要用編碼?在計算機內,儲存文本信息用ASC II碼,每一個字符對應著唯一的ASCII碼。最初計算機是由美國發明的,他們也用的是鍵盤和上面的字母,所以他們的字符ASCII好解決。但是我們中國 的就不同了,每個漢字要對應唯一的ASCII碼。這樣,就出來了國家制定的字符編碼標準:GB2312、GBK等。其他國家,其他語言也有他們對應的編碼 標準。
GB 就是國標的意思,GB2312和GBK主要用于漢字的編碼,而UTF-8是全世界通用的。意思就是說,如果你的網頁主要面對使用漢語的中國人的話,使用 GB2312 和 GBK 非常好,文字儲存體積要小,有一些優點。如果你的網頁要面向世界的話,你再用GB2312 和 GBK 作為網頁編碼,有些電腦上的瀏覽器沒有這種編碼,你的網頁漢字內容就會變成無法識別的亂碼。
?
【延伸閱讀】
GBK、GB2312等與UTF8之間都必須通過Unicode編碼才能相互轉換(GBK、GB2312 -- Unicode -- UTF8?)
使用UTF-8的一個好處:其他地區的用戶(如香港臺灣)無需安裝簡體中文支持就能正常觀看你的文字,而不會出現亂碼。
- gb2312 是簡體中文的碼?
- gbk 支持簡體中文及繁體中文?
- big5 支持繁體中文?
- utf-8 支持幾乎所有字符?
中國大陸最常用的就是GBK18030編碼,除此之外還有GBK,GB2312,這幾個編碼的關系是這樣的。 最早制定的漢字編碼是GB2312,包括6763個漢字和682個其它符號 95年重新修訂了編碼,命名GBK1.0,共收錄了21886個符號。 之后又推出了GBK18030編碼,共收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字,現在WINDOWS平臺必需要支持GBK18030編碼。
?
【編碼轉換】
通常,服務端與客戶端之間進行數據傳輸,涉及到中文,往往都會涉及到編碼的轉換。服務端在遇到中文時,都會轉換為UTF-8格式。而客戶端接收到服務端數據時,一般會把該數據的中文字符轉為GBK(GB2312)才能正常顯示。
//utf8_to_gb2312string utf8_to_gb2312(const char* utf8){int len = MultiByteToWideChar(CP_UTF8, 0, utf8, -1, NULL, 0);wchar_t* wstr = new wchar_t[len + 1];memset(wstr, 0, len + 1);MultiByteToWideChar(CP_UTF8, 0, utf8, -1, wstr, len);len = WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);char* str = new char[len + 1];memset(str, 0, len + 1);WideCharToMultiByte(CP_ACP, 0, wstr, -1, str, len, NULL, NULL);string strTemp = str;if (wstr) delete[] wstr;if (str)delete[] str;return strTemp;}//gb2312_to_utf8string gb2312_to_utf8(const char* gb2312){int len = MultiByteToWideChar(CP_ACP, 0, gb2312, -1, NULL, 0);wchar_t* wstr = new wchar_t[len + 1];memset(wstr, 0, len + 1);MultiByteToWideChar(CP_ACP, 0, gb2312, -1, wstr, len);len = WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);char* str = new char[len + 1];memset(str, 0, len + 1);WideCharToMultiByte(CP_UTF8, 0, wstr, -1, str, len, NULL, NULL);string strTemp = str;if (wstr)delete[] wstr;if (str)delete[] str;return strTemp;}?
| CP_ACP | ANSI code page |
| CP_MACCP | Not supported |
| CP_OEMCP | OEM code page |
| CP_SYMBOL | Not supported |
| CP_THREAD_ACP | Not supported |
| CP_UTF7 | UTF-7 code page |
| CP_UTF8 | UTF-8 code page |
?
總結
以上是生活随笔為你收集整理的GB2312、GBK、UTF-8 如何转换的全部內容,希望文章能夠幫你解決所遇到的問題。