mfc中socket字符接收不完整unicode问题
? ? ? ? ?最近在socket編程中遇到一個問題:服務器端接收的字符不完整,設置斷點后發現接受的char數組中每隔一個字符有一個空,查閱相關資料后發現原因是字符編碼的問題。vs2010默認使用unicode編碼,即一個字符倆個字節,而傳統ANSI編碼為一個字節代表一個字符,所以socket編程中,使用send函數時需要注意,str.gelength()是獲得字符總數,而不是字節數,所以發送時需要*2倍或者*sizeof(TCHAR)。unicode詳細介紹如下:
一:字符編碼
1. ASCII?
我們需要了解的最早編碼是ASCII碼。它用7個二進制位來表示,由于那個時期生產的大多數計算機使用8位大小的字節,因此用戶不僅可以存放所有可能的 ASCII字符,而且有整整一位空余下來。
由于字節有多達8位的空間,因此許多人在想:“呀!我們可以把128~255之間的編碼用做個人的應用目的。”問題在于,同時產生這種想法的人相當 多,而且在128~255之間的各個位置上應該存放什么這一問題上,真是仁者見仁智者見智。事實上,只要人們開始在美國以外的地方購買計算機,那么各種各 樣的不同OEM字符集都會進入規劃設計行列,并且各人都會根據自己的需要使用高位的128個字符。如此一來,甚至在同語種的文檔之間就不容易實現互換。 ASCII可被擴展,最優秀的擴展方案是ISO 8859-1,通常稱之為Latin-1。Latin-1包括了足夠的附加字符集來寫基本的西歐語言。
最后,這個人人參與的OEM終于以ANSI標準的形式形成文件。在ANSI標準中,每個人都認同如何使用低端的128個編碼,這與ASCII相當一致。不過,根據所在國籍的不同,處理編碼128以上的字符有許多不同的方式。這些不同的系統稱為代碼頁。
同時,甚至更為令人頭疼的事情正在逐步上演,亞洲國家的字符表有成千上萬個字符,這樣的字符表是用8位二進制無法表示的。該問題的解決通常有賴于稱為DBCS(double byte character set,雙字節字符集)的繁雜字符系統。
不過,仍然需要指出一點,多數人還是姑且認為一個字節就是一個字符,以及一個字符就是8個二進制位,并且只要確保不將字符串從一臺計算機移植到另一臺 計算機,或者說一種以上的語言,那么這幾乎總是可以湊合。當然,只要一進入Internet,從一臺計算機向另一臺計算機移植字符串就成為家常便飯了,而 各種復雜狀況也隨之呈現出來。令人欣慰的是,Unicode隨即問世了。
2.iso8859-1
屬于單字節編碼,最多能表示的字符范圍是0-255,應用于英文系列。比如,字母'a'的編碼為0x61=97。
很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。但是,由于是單字節編碼,和計算機最基礎的表示單位一致,所以很多時候,仍 舊使用iso8859-1編碼來表示。而且在很多協議上,默認使用該編碼。比如,雖然"中文"兩個字不存在iso8859-1編碼,以gb2312編碼為 例,應該是"d6d0 cec4"兩個字符,使用iso8859-1編碼的時候則將它拆開為4個字節來表示:"d6 d0 ce c4"(事實上,在進行存儲的時候,也是以字節為單位處理的)。而如果是UTF編碼,則是6個字節"e4 b8 ad e6 96 87"。很明顯,這種表示方法還需要以另一種編碼為基礎。
3. GB碼
全稱是GB2312-80《信息交換用漢字編碼字符集基本集》,1980年發布,是中文信息處理的國家標準,在大陸及海外使用簡體中文的地區(如新 加坡等)是強制使用的唯一中文編碼。P-Windows3.2和蘋果OS就是以GB2312為基本漢字編碼, Windows 95/98則以GBK為基本漢字編碼、但兼容支持GB2312。?
雙字節編碼
范圍:A1A1~FEFE
A1-A9:符號區,包含682個符號
B0-F7:漢字區,包含6763個漢字
4.GB2312
GB2312(1980年)一共收錄了7445個字符,包括6763個漢字和682個其它符號。漢字區的內碼范圍高字節從B0-F7,低字節從 A1-FE,占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。GB2312-80中共收錄了7545個字符,用兩個字節編碼一個 字符。每個字符最高位為0。GB2312-80編碼簡稱國標碼。
GB2312支持的漢字太少。1995年的漢字擴展規范GBK1.0收錄了21886個符號,它分為漢字區和圖形符號區。漢字區包括21003個字符。
5. GB12345-90
1990年制定了繁體字的編碼標準GB12345-90《信息交換用漢字編碼字符集第一輔助集》,目的在于規范必須使用繁體字的各種場合,以及古籍 整理等。該標準共收錄6866個漢字(比GB2312多103個字,其它廠商的字庫大多不包括這些字),純繁體的字大概有2200余個。?
雙字節編碼
范圍:A1A1~FEFE
A1-A9:符號區,增加豎排符號
B0-F9:漢字區,包含6866個漢字
6.GBK
GBK編碼(Chinese Internal Code Specification)是中國大陸制訂的、等同于UCS的新的中文編碼擴展國家標準。gbk編碼能夠用來同時表示繁體字和簡體字,而gb2312只 能表示簡體字,gbk是兼容gb2312編碼的。GBK工作小組于1995年10月,同年12月完成GBK規范。該編碼標準兼容GB2312,共收錄漢字 21003個、符號883個,并提供1894個造字碼位,簡、繁體字融于一庫。Windows95/98簡體中文版的字庫表層編碼就采用的是GBK,通過 GBK與UCS之間一一對應的碼表與底層字庫聯系。
英文名:Chinese Internal Code Specification
中文名:漢字內碼擴展規范1.0版
雙字節編碼,GB2312-80的擴充,在碼位上和GB2312-80兼容
范圍:8140~FEFE(剔除xx7F)共23940個碼位
包含21003個漢字,包含了ISO/IEC 10646-1中的全部中日韓漢字
7. BIG5編碼
是目前臺灣、香港地區普遍使用的一種繁體漢字的編碼標準,包括440個符號,一級漢字5401個、二級漢字7652個,共計13060個漢字。 BIG5又稱大五碼或五大碼,1984年由臺灣財團法人信息工業策進會和五間軟件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大眾 (FIC)創立,故稱大五碼。Big5碼的產生,是因為當時臺灣不同廠商各自推出不同的編碼,如倚天碼、IBM PS55、王安碼等,彼此不能兼容;另一方面,臺灣政府當時尚未推出官方的漢字編碼,而中國大陸的GB2312編碼亦未有收錄繁體中文字。
Big5字符集共收錄13,053個中文字,該字符集在中國臺灣使用。耐人尋味的是該字符集重復地收錄了兩個相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
Big5碼使用了雙字節儲存方法,以兩個字節來編碼一個字。第一個字節稱為“高位字節”,第二個字節稱為“低位字節”。高位字節的編碼范圍0xA1-0xF9,低位字節的編碼范圍0x40-0x7E及0xA1-0xFE。
盡管Big5碼內包含一萬多個字符,但是沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物科等用字,沒有包含日文平假名及片假字母。
例如臺灣視“著”為“著”的異體字,故沒有收錄“著”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常見的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也沒有收錄到Big5之中。
8.UTF-8
UTF:UCS Transformation Format.考慮到unicode編碼不兼容iso8859-1編碼,而且容易占用更多的空間:因為對于英文字母,unicode也需要兩個字節來表 示。所以unicode不便于傳輸和存儲。因此而產生了utf編碼,utf編碼兼容iso8859-1編碼,同時也可以用來表示所有語言的字符,不 過,utf編碼是不定長編碼,每一個字符的長度從1-6個字節不等。另外,utf編碼自帶簡單的校驗功能。一般來講,英文字母都是用一個字節表示,而漢字 使用三個字節。
注意,雖然說utf是為了使用更少的空間而使用的,但那只是相對于unicode編碼來說,如果已經知道是漢字,則使用GB2312/GBK無疑是 最節省的。不過另一方面,值得說明的是,雖然utf編碼對漢字使用3個字節,但即使對于漢字網頁,utf編碼也會比unicode編碼節省,因為網頁中包 含了很多的英文字符。
UTF8編碼后的大小是不一定,例如一個英文字母"a" 和 一個漢字 "好",編碼后占用的空間大小就不樣了,前者是一個字節,后者是三個字節!編碼的方法是從低位到高位。黃色為標志位其它著色為了顯示其,編碼后的位置。
9.Unicode
Unicode字符集(簡稱為UCS),國際標準組織于1984年4月成立ISO/IEC JTC1/SC2/WG2工作組,針對各國文字、符號進行統一性編碼。1991年美國跨國公司成立Unicode Consortium,并于1991年10月與WG2達成協議,采用同一編碼字集。目前Unicode是采用16位編碼體系,其字符集內容與 ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通過DIS(Draf International Standard),目前版本V2.0于1996公布,內容包含符號6811個,漢字20902個,韓文拼音11172個,造字區6400個,保留 20249個,共計65534個。Unicode編碼后的大小是一樣的.例如一個英文字母 "a" 和 一個漢字 "好",編碼后都是占用的空間大小是一樣的,都是兩個字節!
Unicode可以用來表示所有語言的字符,而且是定長雙字節(也有四字節的)編碼,包括英文字母在內。所以可以說它是不兼容iso8859-1編 碼的,也不兼容任何編碼。不過,相對于iso8859-1編碼來說,uniocode編碼只是在前面增加了一個0字節,比如字母'a'為"00 61"。
需要說明的是,定長編碼便于計算機處理(注意GB2312/GBK不是定長編碼),而unicode又可以用來表示所有字符,所以在很多軟件內部是使用unicode編碼來處理的,比如java。
二:選擇Unicode的優勢
VS 2003開始VC方面的項目都是默認使用unicode字符集,使用Unicode編碼可以使您的工程同時支持多種語言,使您的工程國際化。另外,Windows NT是使用Unicode進行開發的,整個系統都是基于Unicode的。如果調用一個API函數并給它傳遞一個ANSI(ASCII字符集以及由此派生并兼容的字符集,如:GB2312,通常稱為ANSI字符集)字符串,那么系統首先要將字符串轉換成Unicode,然后將Unicode字符串傳遞給操作系統。如果希望函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,然后將結果返回給您的應用程序。進行這些字符串的轉換需要占用系統的時間和內存。如果用Unicode來開發應用程序,就能夠使您的應用程序更加有效地運行。
另外,Windows NT是使用Unicode進行開發的,整個系統都是基于Unicode的。如果調用一個API函數并給它傳遞一個ANSI(ASCII字符集以及由此派生并兼容的字符集,如:GB2312,通常稱為ANSI字符集)字符串,那么系統首先要將字符串轉換成Unicode,然后將Unicode字符串傳遞給操作系統。如果希望函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,然后將結果返回給您的應用程序。進行這些字符串的轉換需要占用系統的時間和內存。如果用Unicode來開發應用程序,就能夠使您的應用程序更加有效地運行。
在ANSI中,一個字符(char)的長度為一個字節(Byte)。使用Unicode時,一個字符占據一個字,
三、使用C++進行Unicode編程
對寬字符的支持其實是ANSI C標準的一部分,用以支持多字節表示一個字符。寬字符和Unicode并不完全等同,Unicode只是寬字符的一種編碼方式。
1、寬字符的定義
在ANSI中,一個字符(char)的長度為一個字節(Byte)。使用Unicode時,一個字符占據一個字,C++在wchar.h頭文件中定義了最基本的寬字符類型wchar_t:
typedef unsigned short wchar_t;從這里我們可以清楚地看到,所謂的寬字符就是無符號短整數。
2、常量寬字符串
對C++程序員而言,構造字符串常量是一項經常性的工作。那么,如何構造寬字符字符串常量呢?很簡單,只要在字符串常量前加上一個大寫的L就可以了,比如:
wchar_t *str1=L" Hello";這個L非常重要,只有帶上它,編譯器才知道你要將字符串存成一個字符一個字。還要注意,在L和字符串之間不能有空格。
3、寬字符串庫函數
為了操作寬字符串,C++專門定義了一套函數,比如求寬字符串長度的函數是
size_t __cdel wchlen(const wchar_t*); 為什么要專門定義這些函數呢?最根本的原因是,ANSI下的字符串都是以’\0’來標識字符串尾的(Unicode字符串以“\0\0”結束),許多字符串函數的正確操作均是以此為基礎進行。而我們知道,在寬字符的情況下,一個字符在內存中要占據一個字的空間,這就會使操作ANSI字符的字符串函數無法正確操作。以”Hello”字符串為例,在寬字符下,它的五個字符是:
0x0048 0x0065 0x006c 0x006c 0x006f
在內存中,實際的排列是:
于是,ANSI字符串函數,如strlen,在碰到第一個48后的00時,就會認為字符串到尾了,用strlen對寬字符串求長度的結果就永遠會是1!
4. Windows定義的Unicode數據類型有哪些?
數據類型 說明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指針
PCWSTR 指向一個恒定的Unicode字符串的指針
對應的ANSI數據類型為CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用數據類型為TCHAR,PTSTR,LPCTSTR。
5. 如何對Unicode進行操作?
字符集 特性 實例
ANSI 操作函數以str開頭 strcpy
Unicode 操作函數以wcs開頭 wcscpy
MBCS 操作函數以_mbs開頭 _mbscpy
ANSI/Unicode 操作函數以_tcs開頭 _tcscpy(C運行期庫)
ANSI/Unicode 操作函數以lstr開頭 lstrcpy(Windows函數)
如何表示Unicode字符串常量?
字符集 實例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
6. 如何編寫符合ANSI和Unicode的應用程序?
(1)將文本串視為字符數組,而不是chars數組或字節數組。
(2)將通用數據類型(如TCHAR和PTSTR)用于文本字符和字符串。
(3)將顯式數據類型(如BYTE和PBYTE)用于字節、字節指針和數據緩存。
(4) 將TEXT宏用于原義字符和字符串。
(5)執行全局性替換(例如用PTSTR替換PSTR)。
(6)修改字符串運算問題。例如函數通常希望在字符中傳遞一個緩存的大小,而不是字節。這意味著不應該傳遞sizeof(szBuffer),而應該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要為字符串分配一個內存塊,并且擁有該字符串中的字符數目,那幺請記住要按字節來分配內存。這就是說,應該調用
malloc(nCharacters *sizeof(TCHAR)),而不是調用malloc(nCharacters)。
7、用宏實現對ANSI和Unicode通用的編程
可見,C++有一整套的數據類型和函數實現Unicode編程,也就是說,您完全可以使用C++實現Unicode編程。
如果我們想要我們的程序有兩個版本:ANSI版本和Unicode版本。當然,編寫兩套代碼分別實現ANSI版本和Unicode版本完全是行得通的。但是,針對ANSI字符和Unicode字符維護兩套代碼是非常麻煩的事情。為了減輕編程的負擔,C++定義了一系列的宏,幫助您實現對ANSI和Unicode的通用編程。
C++宏實現ANSI和Unicode的通用編程的本質是根據”_UNICODE”(注意,有下劃線)定義與否,這些宏展開為ANSI或Unicode字符(字符串)。
如下是tchar.h頭文件中部分代碼摘抄:
#ifdef _UNICODE typedef wchar_t TCHAR; #define __T(x) L##x #define _T(x) __T(x) #else #define __T(x) x typedef char TCHAR; #endif 可見,這些宏根據”_UNICODE” 定義與否,分別展開為ANSI或Unicode字符。 tchar.h頭文件中定義的宏可以分為兩類:A、實現字符和常量字符串定義的宏我們只列出兩個最常用的宏:
| 宏 | 未定義_UNICODE(ANSI字符) | 定義了_UNICODE(Unicode字符) |
| TCHAR | char | wchar_t |
| _T(x) | x | L##x |
注意:
“##”是ANSI C標準的預處理語法,它叫做“粘貼符號”,表示將前面的L添加到宏參數上。也就是說,如果我們寫_T(“Hello”),展開后即為L“Hello”
B、實現字符串函數調用的宏
C++為字符串函數也定義了一系列宏,同樣,我們只例舉幾個常用的宏:
| 宏 | 未定義_UNICODE(ANSI字符) | 定義了_UNICODE(Unicode字符) |
| _tcschr | strchr | wcschr |
| _tcscmp | strcmp | wcscmp |
| _tcslen | strlen | wcslen |
四、使用Win32 API進行Unicode編程
Win32 API中定義了一些自己的字符數據類型。這些數據類型的定義在winnt.h頭文件中。例如:
typedef char CHAR; typedef unsigned short WCHAR; // wc, 16-bit UNICODE character typedef CONST CHAR *LPCSTR, *PCSTR; Win32 API在winnt.h頭文件中定義了一些實現字符和常量字符串的宏進行ANSI/Unicode通用編程。同樣,只例舉幾個最常用的: #ifdef UNICODE typedef WCHAR TCHAR, *PTCHAR; typedef LPWSTR LPTCH, PTCH; typedef LPWSTR PTSTR, LPTSTR; typedef LPCWSTR LPCTSTR; #define __TEXT(quote) L##quote // r_winnt #else /* UNICODE */ // r_winnt typedef char TCHAR, *PTCHAR; typedef LPSTR LPTCH, PTCH; typedef LPSTR PTSTR, LPTSTR; typedef LPCSTR LPCTSTR; #define __TEXT(quote) quote // r_winnt #endif /* UNICODE */ // r_winnt 從以上頭文件可以看出,winnt.h根據是否定義了UNICODE(沒有下劃線),進行條件編譯。Win32 API也定義了一套字符串函數,它們根據是否定義了“UNICODE”分別展開為ANSI和Unicode字符串函數。如:lstrlen。API的字符串操作函數和C++的操作函數可以實現相同的功能,所以,如果需要的話,建議您盡可能使用C++的字符串函數,沒必要去花太多精力再去學習API的這些東西。
也許您從來沒有注意到,Win32 API實際上有兩個版本。一個版本接受MBCS字符串,另一個接受Unicode字符串。例如:其實根本沒有SetWindowText()這個API函數,相反,有SetWindowTextA()和SetWindowTextW()。后綴A表明這是MBCS函數,后綴W表示這是Unicode版本的函數。這些API函數的頭文件在winuser.h中聲明,下面例舉winuser.h中的SetWindowText()函數的聲明部分: #ifdef UNICODE #define SetWindowText SetWindowTextW #else #define SetWindowText SetWindowTextA #endif // !UNICODE 可見,API函數根據定義UNICODE與否決定指向Unicode版本還是MBCS版本。
總結
以上是生活随笔為你收集整理的mfc中socket字符接收不完整unicode问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 权限设计,设计模型分析(DAC,MAC,
- 下一篇: 驯龙高手java版_石器时代2驯龙高手