如何使用微软提供的TCHAR.H头文件
生活随笔
收集整理的這篇文章主要介紹了
如何使用微软提供的TCHAR.H头文件
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
如何使用微軟提供的TCHAR.H頭文件?
2010-06-09 19:58
如果你現(xiàn)在寫的代碼使用的是SBCS (ASCII)字符集,但是過一段時間后某個客戶跟你說他們現(xiàn)在的系統(tǒng)只支持Unicode (wide-character)字符集,你怎么辦呢?問題的答案就在微軟給我們提供的tchar.h頭文件里面!
通過研究msdn知道,微軟為了方便程序?qū)懗瞿軌蚴褂貌煌址耐ㄓ么a,特別為程序員提供了這個頭文件,頭文件的功能就是實(shí)現(xiàn)了 數(shù)據(jù)類型、函數(shù)以及其他對象依據(jù)宏定義進(jìn)行map過程。
msdn的對該文件的描述如下:
To simplify transporting code for international use, the Microsoft run-time library provides Microsoft-specific
generic-text mappings for many data types, routines, and other objects.
這樣我們就可以使用TCHAR.H頭文件中的定義的這些mapping寫出可以運(yùn)行于不同字符集上的通用代碼;你所需要做的就是在包含該頭文件后在編譯器選項里面定義好所需要的宏或者在你的源文件里使用#define定義所需要的宏也可以。
需要說明的是TCHAR.H給出的mapping過程是微軟專有的并不是ANSI標(biāo)準(zhǔn),這點(diǎn)要注意,也就是說在微軟之外的系統(tǒng)可能就不可以使用了。
在編譯器編譯過程中會檢查你所定義的宏,然后將TCHAR.H文件中的以_tcs打頭的函數(shù)轉(zhuǎn)換成對應(yīng)的str或wcs大頭的函數(shù)。如果你要build一個使用UNICODE字符集的程序,則可以定義_UNICODE宏。如果要build一個single-byte的程序則不需要定義任何宏,單字節(jié)字符程序時默認(rèn)的(對于WIN32是這樣,對于WINCE默認(rèn)則是unicode字符程序)。
我們特別要注意頭文件中定義的類型--_TCHAR;這個類型也是與使用的字符集類型有關(guān)的,如果是單字符集則其被定義成char類型;如果是寬字符集程序則是wchar_t類型,是16bit的。
如果我們不知道自己的系統(tǒng)究竟使用的是什么字符集我們可以使用_tcs打頭的系列函數(shù)和_TCHAR類型是不會錯的,編譯器在編譯過程中自己會做出正確的映射。
我們給出一個例子:
如果我們這樣寫程序:
_TCHAR *RetVal, *szString;
RetVal = _tcsrev(szString);
如果預(yù)編譯系統(tǒng)定義了宏_UNICODE ,則上述代碼被翻譯成如下:
wchar_t *RetVal, *szString;
RetVal = _wcsrev(szString);
如果沒有定義宏_UNICODE ,則preprocessor maps 該代碼to single-byte ASCII code:
char *RetVal, *szString; RetVal = strrev(szString);
Thus you can write, maintain, and compile a single source code file to run with routines that are specific to either single byte or Unicode character sets.
【注意】
我們有時候會看到這樣的函數(shù)wsprintf,有人會和swprintf比較,其實(shí)這兩個函數(shù)對用用戶來說是一樣的,只不過前者是在Winbase.h聲明,Winbase.c中定義的;后者是在stdio.h, stdlib.h文件中聲明。
轉(zhuǎn)載一篇很好的博文,如果你能看完以下的博文你就能徹底的理解windows系統(tǒng)中編程時亂想紛飛的字符錯類型了:
Windows環(huán)境下Unicode編程總結(jié)
UNICODE環(huán)境設(shè)置
在安裝Visual Studio時,在選擇VC++時需要加入unicode選項,保證相關(guān)的庫文件可以拷貝到system32下。
UNICODE編譯設(shè)置:
C/C++, Preprocessor difinitions 去除_MBCS,加_UNICODE,UNICODE
在ProjectSetting/link/output 中設(shè)置Entry為wWinMainCRTStartup
反之為MBCS(ANSI)編譯。
Unicode :寬字節(jié)字符集
1. 如何取得一個既包含單字節(jié)字符又包含雙字節(jié)字符的字符串的字符個數(shù)?
可以調(diào)用Microsoft Visual C++的運(yùn)行期庫包含函數(shù)_mbslen來操作多字節(jié)(既包括單字節(jié)也包括雙字節(jié))字符串。
調(diào)用strlen函數(shù),無法真正了解字符串中究竟有多少字符,它只能告訴你到達(dá)結(jié)尾的0之前有多少個字節(jié)。
2. 如何對DBCS(雙字節(jié)字符集)字符串進(jìn)行操作?
函數(shù) 描述
PTSTR CharNext ( LPCTSTR ); 返回字符串中下一個字符的地址
PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一個字符的地址
BOOL IsDBCSLeadByte( BYTE ); 如果該字節(jié)是DBCS字符的第一個字節(jié),則返回非0值
3. 為什么要使用Unicode?
(1) 可以很容易地在不同語言之間進(jìn)行數(shù)據(jù)交換。
(2) 使你能夠分配支持所有語言的單個二進(jìn)制.exe文件或DLL文件。
(3) 提高應(yīng)用程序的運(yùn)行效率。
Windows 2000是使用Unicode從頭進(jìn)行開發(fā)的,如果調(diào)用任何一個Windows函數(shù)并給它傳遞一個ANSI字符串,那幺系統(tǒng)首先要將字符串轉(zhuǎn)換成Unicode,然后將Unicode字符串傳遞給操作系統(tǒng)。如果希望函數(shù)返回ANSI字符串,系統(tǒng)就會首先將Unicode字符串轉(zhuǎn)換成ANSI字符串,然后將結(jié)果返回給你的應(yīng)用程序。進(jìn)行這些字符串的轉(zhuǎn)換需要占用系統(tǒng)的時間和內(nèi)存。通過從頭開始用Unicode來開發(fā)應(yīng)用程序,就能夠使你的應(yīng)用程序更加有效地運(yùn)行。
Windows CE 本身就是使用Unicode的一種操作系統(tǒng),完全不支持ANSI Windows函數(shù)
Windows 98 只支持ANSI,只能為ANSI開發(fā)應(yīng)用程序。
Microsoft公司將COM從16位Windows轉(zhuǎn)換成Win32時,公司決定需要字符串的所有COM接口方法都只能接受Unicode字符串。
4. 如何編寫Unicode源代碼?
Microsoft公司為Unicode設(shè)計了WindowsAPI,這樣,可以盡量減少代碼的影響。實(shí)際上,可以編寫單個源代碼文件,以便使用或者不使用Unicode來對它進(jìn)行編譯。只需要定義兩個宏(UNICODE和_UNICODE),就可以修改然后重新編譯該源文件。
_UNICODE宏用于C運(yùn)行期頭文件,而UNICODE宏則用于Windows頭文件。當(dāng)編譯源代碼模塊時,通常必須同時定義這兩個宏。
5. Windows定義的Unicode數(shù)據(jù)類型有哪些?
數(shù)據(jù)類型 說明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指針
PCWSTR 指向一個恒定的Unicode字符串的指針
對應(yīng)的ANSI數(shù)據(jù)類型為CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用數(shù)據(jù)類型為TCHAR,PTSTR,LPCTSTR。
6. 如何對Unicode進(jìn)行操作?
字符集 特性 實(shí)例
ANSI 操作函數(shù)以str開頭 strcpy
Unicode 操作函數(shù)以wcs開頭 wcscpy
MBCS 操作函數(shù)以_mbs開頭 _mbscpy
ANSI/Unicode 操作函數(shù)以_tcs開頭 _tcscpy(C運(yùn)行期庫)
ANSI/Unicode 操作函數(shù)以lstr開頭 lstrcpy(Windows函數(shù))
所有新的和未過時的函數(shù)在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函數(shù)結(jié)尾以A表示;Unicode版本函數(shù)結(jié)尾以W表示。Windows會如下定義:
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE
7. 如何表示Unicode字符串常量?
字符集 實(shí)例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
8. 為什么應(yīng)當(dāng)盡量使用操作系統(tǒng)函數(shù)?
這將有助于稍稍提高應(yīng)用程序的運(yùn)行性能,因為操作系統(tǒng)字符串函數(shù)常常被大型應(yīng)用程序比如操作系統(tǒng)的外殼進(jìn)程Explorer.exe所使用。由于這些函數(shù)使用得很多,因此,在應(yīng)用程序運(yùn)行時,它們可能已經(jīng)被裝入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。
9. 如何編寫符合ANSI和Unicode的應(yīng)用程序?
(1) 將文本串視為字符數(shù)組,而不是chars數(shù)組或字節(jié)數(shù)組。
(2) 將通用數(shù)據(jù)類型(如TCHAR和PTSTR)用于文本字符和字符串。
(3) 將顯式數(shù)據(jù)類型(如BYTE和PBYTE)用于字節(jié)、字節(jié)指針和數(shù)據(jù)緩存。
(4) 將TEXT宏用于原義字符和字符串。
(5) 執(zhí)行全局性替換(例如用PTSTR替換PSTR)。
(6)修改字符串運(yùn)算問題。例如函數(shù)通常希望在字符中傳遞一個緩存的大小,而不是字節(jié)。這意味著不應(yīng)該傳遞sizeof(szBuffer),而應(yīng)該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要為字符串分配一個內(nèi)存塊,并且擁有該字符串中的字符數(shù)目,那幺請記住要按字節(jié)來分配內(nèi)存。這就是說,應(yīng)該調(diào)用
malloc(nCharacters *sizeof(TCHAR)),而不是調(diào)用malloc(nCharacters)。
10. 如何對字符串進(jìn)行有選擇的比較?
通過調(diào)用CompareString來實(shí)現(xiàn)。
標(biāo)志 含義
NORM_IGNORECASE 忽略字母的大小寫
NORM_IGNOREKANATYPE 不區(qū)分平假名與片假名字符
NORM_IGNORENONSPACE 忽略無間隔字符
NORM_IGNORESYMBOLS 忽略符號
NORM_IGNOREWIDTH 不區(qū)分單字節(jié)字符與作為雙字節(jié)字符的同一個字符
SORT_STRINGSORT 將標(biāo)點(diǎn)符號作為普通符號來處理
11. 如何判斷一個文本文件是ANSI還是Unicode?
判斷如果文本文件的開頭兩個字節(jié)是0xFF和0xFE,那幺就是Unicode,否則是ANSI。
12. 如何判斷一段字符串是ANSI還是Unicode?
用IsTextUnicode進(jìn)行判斷。IsTextUnicode使用一系列統(tǒng)計方法和定性方法,以便猜測緩存的內(nèi)容。由于這不是一種確切的科學(xué)方法,因此 IsTextUnicode有可能返回不正確的結(jié)果。
13. 如何在Unicode與ANSI之間轉(zhuǎn)換字符串?
Windows函數(shù)MultiByteToWideChar用于將多字節(jié)字符串轉(zhuǎn)換成寬字符串;函數(shù)WideCharToMultiByte將寬字符串轉(zhuǎn)換成等價的多字節(jié)字符串。
//========================================================================
//TITLE:
// MultiByteToWideChar和WideCharToMultiByte用法詳解
//AUTHOR:
// norains
//DATE:
// 第一版:Monday 25-December -2006
// 增補(bǔ)版:Wednesday 27-December -2006
// 修訂版:Wednesday 14-March-2007 (修正之前的錯誤例子)
//Environment:
// EVC4.0 + Standard SDK
//========================================================================
1.使用方法詳解
在本文開始之處,先簡要地說一下何為短字符和寬字符.
所謂的短字符,就是用8bit來表示的字符,典型的應(yīng)用是ASCII碼.而寬字符,顧名思義,就是用16bit表示的字符,典型的有UNICODE.關(guān)于 windows下的ASCII和UNICODE的更多信息,可以參考這兩本經(jīng)典著作:《windows 程序設(shè)計》,《windows 核心編程》.這兩本書關(guān)于這兩種字符都有比較詳細(xì)的解說.
寬字符轉(zhuǎn)換為多個短字符是一個難點(diǎn),不過我們只要掌握到其中的要領(lǐng),便可如魚得水.
好吧,那就讓我們開始吧.
這個是我們需要轉(zhuǎn)化的多字節(jié)字符串:
char sText[20] = {"多字節(jié)字符串!OK!"};
我們需要知道轉(zhuǎn)化后的寬字符需要多少個數(shù)組空間.雖然在這個里程里面,我們可以直接定義一個 20*2寬字符的數(shù)組,并且事實(shí)上將運(yùn)行得非常輕松愉快.但假如多字節(jié)字符串更多,達(dá)到上千個乃至上萬個,我們將會發(fā)現(xiàn)其中浪費(fèi)的內(nèi)存將會越來越多.所以以多字節(jié)字符的個數(shù)的兩倍作為寬字符數(shù)組下標(biāo)的聲明絕對不是一個好主意.
所幸,我們能夠確知所需要的數(shù)組空間.
我們只需要將MultiByteToWideChar()的第四個形參設(shè)為-1,即可返回所需的短字符數(shù)組空間的個數(shù):
DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);
接下來,我們只需要分配響應(yīng)的數(shù)組空間:
wchar_t *pwText;
pwText = new wchar_t[dwNum];
if(!pwText)
{
delete []pwText;
}
接著,我們就可以著手進(jìn)行轉(zhuǎn)換了.在這里以轉(zhuǎn)換成ASCII碼做為例子:
MultiByteToWideChar (CP_ACP, 0, psText, -1, sText, dwSize);
最后,使用完畢當(dāng)然要記得釋放占用的內(nèi)存:
delete []psText;
同理,寬字符轉(zhuǎn)為多字節(jié)字符的代碼如下:
wchar_t wText[20] = {L"寬字符轉(zhuǎn)換實(shí)例!OK!"};
DWORD dwNum = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
char *psText;
psText = new char[dwNum];
if(!psText)
{
delete []psText;
}
WideCharToMultiByte (CP_OEMCP,NULL,lpcwszStr,-1,psText,dwNum,NULL,FALSE);
delete []psText;
如果之前我們已經(jīng)分配好空間,并且由于字符串較短,可以不理會浪費(fèi)的空間,僅僅只是想簡單地將短字符和寬字符相互轉(zhuǎn)換,那有沒有什么簡便的方法呢?
WIN32 API里沒有符合這種要求的函數(shù),但我們可以自己進(jìn)行封裝:
//-------------------------------------------------------------------------------------
//Description:
// This function maps a character string to a wide-character (Unicode) string
//
//Parameters:
// lpcszStr: [in] Pointer to the character string to be converted
// lpwszStr: [out] Pointer to a buffer that receives the translated string.
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
//
//Example:
// MByteToWChar(szA,szW,sizeof(szW)/sizeof(szW[0]));
//---------------------------------------------------------------------------------------
BOOL MByteToWChar(LPCSTR lpcszStr, LPWSTR lpwszStr, DWORD dwSize)
{
// Get the required size of the buffer that receives the Unicode
// string.
DWORD dwMinSize;
dwMinSize = MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, NULL, 0);
if(dwSize < dwMinSize)
{
return FALSE;
}
// Convert headers from ASCII to Unicode.
MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, lpwszStr, dwMinSize);
return TRUE;
}
//-------------------------------------------------------------------------------------
//Description:
// This function maps a wide-character string to a new character string
//
//Parameters:
// lpcwszStr: [in] Pointer to the character string to be converted
// lpszStr: [out] Pointer to a buffer that receives the translated string.
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
//
//Example:
// MByteToWChar(szW,szA,sizeof(szA)/sizeof(szA[0]));
//---------------------------------------------------------------------------------------
BOOL WCharToMByte(LPCWSTR lpcwszStr, LPSTR lpszStr, DWORD dwSize)
{
DWORD dwMinSize;
dwMinSize = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
if(dwSize < dwMinSize)
{
return FALSE;
}
WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,lpszStr,dwSize,NULL,FALSE);
return TRUE;
}
使用方法也很簡單,示例如下:
wchar_t wText[10] = {L"函數(shù)示例"};
char sText[20]= {0};
WCharToMByte(wText,sText,sizeof(sText)/sizeof(sText[0]));
MByteToWChar(sText,wText,sizeof(wText)/sizeof(wText[0]));
這兩個函數(shù)的缺點(diǎn)在于無法動態(tài)分配內(nèi)存,在轉(zhuǎn)換很長的字符串時可能會浪費(fèi)較多內(nèi)存空間;優(yōu)點(diǎn)是,在不考慮浪費(fèi)空間的情況下轉(zhuǎn)換較短字符串非常方便.
2.MultiByteToWideChar()函數(shù)亂碼的問題
有的朋友可能已經(jīng)發(fā)現(xiàn),在標(biāo)準(zhǔn)的WinCE4.2或WinCE5.0 SDK模擬器下,這個函數(shù)都無法正常工作,其轉(zhuǎn)換之后的字符全是亂碼.及時更改MultiByteToWideChar()參數(shù)也依然如此.
不過這個不是代碼問題,其結(jié)癥在于所定制的操作系統(tǒng).如果我們定制的操作系統(tǒng)默認(rèn)語言不是中文,也會出現(xiàn)這種情況.由于標(biāo)準(zhǔn)的SDK默認(rèn)語言為英文,所以肯定會出現(xiàn)這個問題.而這個問題的解決,不能在簡單地更改控制面板的"區(qū)域選項"的"默認(rèn)語言",而是要在系統(tǒng)定制的時候,選擇默認(rèn)語言為"中文".
系統(tǒng)定制時選擇默認(rèn)語言的位置于:
Platform -> Setting... -> locale -> default language ,選擇"中文",然后編譯即可.
14. Unicode和DBCS之間的區(qū)別
Unicode使用(特別在C程序設(shè)計語言環(huán)境里)“寬字符集”。「Unicode中的每個字符都是16位寬而不是8位寬。」在Unicode中,沒有單單使用8位數(shù)值的意義存在。相比之下,在“雙位組字符集”中我們?nèi)匀惶幚?位數(shù)值。有些位組自身定義字符,而某些位組則顯示需要和另一個位組共同定義一個字符。
處理DBCS字符串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字符(16位代碼從 0x0000到0x007F)就是ASCII字符,而接下來的128個Unicode字符(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴(kuò)展。Unicode中不同部分的字符都同樣基于現(xiàn)有的標(biāo)準(zhǔn)。這是為了便于轉(zhuǎn)換。希臘字母表使用從0x0370到0x03FF 的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱為CJK)占用了從0x3000到0x9FFF的代碼。Unicode的最大好處是這里只有一個字符集,沒有一點(diǎn)含糊。
15.衍生標(biāo)準(zhǔn)
Unicode是一個標(biāo)準(zhǔn)。UTF-8是其概念上的子集,UTF-8是具體的編碼標(biāo)準(zhǔn)。而UNICODE是所有想達(dá)到世界統(tǒng)一編碼標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。UTF-8標(biāo)準(zhǔn)就是Unicode(ISO10646)標(biāo)準(zhǔn)的一種變形方式,
UTF的全稱是:Unicode/UCS Transformation Format,其實(shí)有兩種UTF,一種是UTF-8,一種是UTF-16,
不過UTF-16使用較少,其對應(yīng)關(guān)系如下:
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 0xxxxxxx
在Unicode中編碼為 0080 - 07FF 的 UTF-8 中編碼形式為: 110xxxxx 10xxxxxx
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 1110xxxx 10xxxxxx 10xxxxxx
utf-8是unicode的一個新的編碼標(biāo)準(zhǔn),其實(shí)unicode有過好幾個標(biāo)準(zhǔn).我們知道一直以來使用的unicode字符內(nèi)碼都是16位,它實(shí)際上還不能把全世界的所有字符編在一個平面系統(tǒng),比如中國的藏文等小語種,所以utf-8擴(kuò)展到了32位,也就是說理論在utf-8中可容納二的三十二次方個字符. UNICODE的思想就是想把所有的字符統(tǒng)一編碼,實(shí)現(xiàn)一個統(tǒng)一的標(biāo)準(zhǔn).big5、gb都是獨(dú)立的字符集,這也叫做遠(yuǎn)東字符集,把它拿到德文版的 WINDOWS上可能將會引起字符編碼的沖突....早期的WINDOWS默認(rèn)的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在 NT/2000內(nèi)部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中則是 UNICODE.ANSI和UNICODE可以方便的實(shí)現(xiàn)對應(yīng)映射,也就是轉(zhuǎn)換 ASCII是8位范圍內(nèi)的字符集,對于范圍之外的字符如漢字它是無法表達(dá)的。unicode是16位范圍內(nèi)的字符集,對于不同地區(qū)的字符分區(qū)分配,unicode是多個IT巨頭共同制定的字符編碼標(biāo)準(zhǔn)。如果在unicode環(huán)境下比如WINDOWS NT上,一個字符占兩字節(jié)16位,而在ANSI環(huán)境下如WINDOWS98下一個字符占一個字節(jié)8位.Unicode字符是16位寬,最多允許 65,535字符,數(shù)據(jù)類型被稱為WCHAR。
對于已有的ANSI字符,unicode簡單的將其擴(kuò)展為16位:比如ANSI"A"=0x43,則對應(yīng)的UNICODE為
"A"= 0x0043
而ASCII用七存放128個字符,ASCII是一個真正的美國標(biāo)準(zhǔn),所以它不能滿足其他國家的需要,例如斯拉夫語的字母和漢字于是出現(xiàn)了Windows ANSI字符集,是一種擴(kuò)展的ASCII碼,用8位存放字符,低128位仍然存放原來的ASCII碼,
而高128位加入了希臘字母等
if def UNICODE
TCHAR = wchar
else
TCHAR = char
你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE
UINCODE,_UNICODE都要定義。不定義_UNICODE的話,用SetText(HWND,LPCTSTR),將被解釋為 SetTextA(HWND,LPTSTR),這時API將把你給的Unicode字符串看作ANSI字符串,顯示亂碼。因為windows API是已經(jīng)編譯好存在于dll中的,由于不管UNICODE還是ANSI字符串,都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI讀,因為ANSI字串是以''''''''\0''''''''結(jié)束的,所以只能讀到兩字節(jié)"0B A3 \0",如果按UNICODE讀,將完整的讀到''''''''\0\0''''''''結(jié)束。
由于UNICODE沒有額外的指示位,所以系統(tǒng)必須知道你提供的字串是哪種格式。此外,UNICODE好象是ANSI C++規(guī)定的,_UNICODE是windows SDK提供的。如果不編寫windows程序,可以只定義UNICODE。
開發(fā)過程:
圍繞著文件讀寫、字符串處理展開。文件主要有兩種:.txt和.ini文件
1. 在unicode和非unicode環(huán)境下字符串做不同處理的,那么需要參考以上9,10兩條,以適應(yīng)不同環(huán)境得字符串處理要求。
對文件讀寫也一樣。只要調(diào)用相關(guān)接口函數(shù)時,參數(shù)中的字符串前都加上_TEXT等相關(guān)宏。如果寫成的那個文件需要是unicode格式保存的,那么在創(chuàng)建文件時需要加入一個字節(jié)頭。
CFile file;
WCHAR szwBuffer[128];
WCHAR *pszUnicode = L"Unicode string\n"; // unicode string
CHAR *pszAnsi = "Ansi string\n"; // ansi string
WORD wSignature = 0xFEFF;
file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
file.Write(&wSignature, 2);
file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
// explicitly use lstrlenW function
MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
file.Close();
//以上這段代碼在unicode和非unicode環(huán)境下都有效。這里顯式的指明用Unicode來進(jìn)行操作。
2. 在非unicode環(huán)境下,缺省調(diào)用的都是ANSI格式的字符串,此時TCHAR轉(zhuǎn)換為CHAR類型的,除非顯式定義WCHAR。所以在這個環(huán)境下,如果讀取unicode文件,那么首先需要移動2個字節(jié),然后讀取得字符串需要用MultiByteToWideChar來轉(zhuǎn)換,轉(zhuǎn)換后字符串信息才代表 unicode數(shù)據(jù)。
3. 在unicode環(huán)境下,缺省調(diào)用得都是unicode格式得字符串,也就是寬字符,此時TCHAR轉(zhuǎn)換為WCHAR,相關(guān)得API函數(shù)也都調(diào)用寬字符類型的函數(shù)。此時讀取unicode文件也和上面一樣,但是讀取得數(shù)據(jù)是WCHAR的,如果要轉(zhuǎn)換成ANSI格式,需要調(diào)用 WideCharToMultiByte。如果讀取ANSI的,則不用移動兩個字節(jié),直接讀取然后視需要轉(zhuǎn)換即可。
某些語言(如韓語)必須在unicode環(huán)境下才能顯示,這種情況下,在非unicode環(huán)境下開發(fā),就算用字符串函數(shù)轉(zhuǎn)換也不能達(dá)到顯示文字的目的,因為此時調(diào)用得API函數(shù)是用ANSI的(雖然底層都是用UNICODE處理但是處理結(jié)果是按照程序員調(diào)用的API來顯示的)。所以必須用unicode來開發(fā)。
【總結(jié)】
看了這么多的資料也專研了這么長時間,也應(yīng)該對自己的認(rèn)識做個小結(jié)了,如果我們是寫 windows程序時,在編寫操作字符的程序時,我們可以調(diào)用運(yùn)行時庫的函數(shù),運(yùn)行時庫中的函數(shù)接口定義都是行業(yè)標(biāo)準(zhǔn)的,也就是說如果你使用的都是運(yùn)行時庫函數(shù)則你的程序在windows上開發(fā)的,但是編譯后也可以在linux系統(tǒng)上運(yùn)行,只要這連個系統(tǒng)的編譯器所使用的運(yùn)行時庫中的函數(shù)都嚴(yán)格按照國際標(biāo)準(zhǔn)實(shí)現(xiàn)的就ok。
你如果在windows上編程,編譯并運(yùn)行,你當(dāng)然可以使用windows系統(tǒng)提供給你的函數(shù),這些函數(shù)得到了windows系統(tǒng)的支持。當(dāng)然這樣的程序編譯后也只能在windows系統(tǒng)上運(yùn)行,其他系統(tǒng)上無法正常執(zhí)行。所有如果你再 windows上開發(fā)程序,而又想在其他系統(tǒng)上運(yùn)行,這只能使用運(yùn)行時庫函數(shù)了。
小結(jié)就這么多,如果有錯的地方請看官指正,歡迎交流!!!
2010-06-09 19:58
如果你現(xiàn)在寫的代碼使用的是SBCS (ASCII)字符集,但是過一段時間后某個客戶跟你說他們現(xiàn)在的系統(tǒng)只支持Unicode (wide-character)字符集,你怎么辦呢?問題的答案就在微軟給我們提供的tchar.h頭文件里面!
通過研究msdn知道,微軟為了方便程序?qū)懗瞿軌蚴褂貌煌址耐ㄓ么a,特別為程序員提供了這個頭文件,頭文件的功能就是實(shí)現(xiàn)了 數(shù)據(jù)類型、函數(shù)以及其他對象依據(jù)宏定義進(jìn)行map過程。
msdn的對該文件的描述如下:
To simplify transporting code for international use, the Microsoft run-time library provides Microsoft-specific
generic-text mappings for many data types, routines, and other objects.
這樣我們就可以使用TCHAR.H頭文件中的定義的這些mapping寫出可以運(yùn)行于不同字符集上的通用代碼;你所需要做的就是在包含該頭文件后在編譯器選項里面定義好所需要的宏或者在你的源文件里使用#define定義所需要的宏也可以。
需要說明的是TCHAR.H給出的mapping過程是微軟專有的并不是ANSI標(biāo)準(zhǔn),這點(diǎn)要注意,也就是說在微軟之外的系統(tǒng)可能就不可以使用了。
在編譯器編譯過程中會檢查你所定義的宏,然后將TCHAR.H文件中的以_tcs打頭的函數(shù)轉(zhuǎn)換成對應(yīng)的str或wcs大頭的函數(shù)。如果你要build一個使用UNICODE字符集的程序,則可以定義_UNICODE宏。如果要build一個single-byte的程序則不需要定義任何宏,單字節(jié)字符程序時默認(rèn)的(對于WIN32是這樣,對于WINCE默認(rèn)則是unicode字符程序)。
我們特別要注意頭文件中定義的類型--_TCHAR;這個類型也是與使用的字符集類型有關(guān)的,如果是單字符集則其被定義成char類型;如果是寬字符集程序則是wchar_t類型,是16bit的。
如果我們不知道自己的系統(tǒng)究竟使用的是什么字符集我們可以使用_tcs打頭的系列函數(shù)和_TCHAR類型是不會錯的,編譯器在編譯過程中自己會做出正確的映射。
我們給出一個例子:
如果我們這樣寫程序:
_TCHAR *RetVal, *szString;
RetVal = _tcsrev(szString);
如果預(yù)編譯系統(tǒng)定義了宏_UNICODE ,則上述代碼被翻譯成如下:
wchar_t *RetVal, *szString;
RetVal = _wcsrev(szString);
如果沒有定義宏_UNICODE ,則preprocessor maps 該代碼to single-byte ASCII code:
char *RetVal, *szString; RetVal = strrev(szString);
Thus you can write, maintain, and compile a single source code file to run with routines that are specific to either single byte or Unicode character sets.
【注意】
我們有時候會看到這樣的函數(shù)wsprintf,有人會和swprintf比較,其實(shí)這兩個函數(shù)對用用戶來說是一樣的,只不過前者是在Winbase.h聲明,Winbase.c中定義的;后者是在stdio.h, stdlib.h文件中聲明。
轉(zhuǎn)載一篇很好的博文,如果你能看完以下的博文你就能徹底的理解windows系統(tǒng)中編程時亂想紛飛的字符錯類型了:
Windows環(huán)境下Unicode編程總結(jié)
UNICODE環(huán)境設(shè)置
在安裝Visual Studio時,在選擇VC++時需要加入unicode選項,保證相關(guān)的庫文件可以拷貝到system32下。
UNICODE編譯設(shè)置:
C/C++, Preprocessor difinitions 去除_MBCS,加_UNICODE,UNICODE
在ProjectSetting/link/output 中設(shè)置Entry為wWinMainCRTStartup
反之為MBCS(ANSI)編譯。
Unicode :寬字節(jié)字符集
1. 如何取得一個既包含單字節(jié)字符又包含雙字節(jié)字符的字符串的字符個數(shù)?
可以調(diào)用Microsoft Visual C++的運(yùn)行期庫包含函數(shù)_mbslen來操作多字節(jié)(既包括單字節(jié)也包括雙字節(jié))字符串。
調(diào)用strlen函數(shù),無法真正了解字符串中究竟有多少字符,它只能告訴你到達(dá)結(jié)尾的0之前有多少個字節(jié)。
2. 如何對DBCS(雙字節(jié)字符集)字符串進(jìn)行操作?
函數(shù) 描述
PTSTR CharNext ( LPCTSTR ); 返回字符串中下一個字符的地址
PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一個字符的地址
BOOL IsDBCSLeadByte( BYTE ); 如果該字節(jié)是DBCS字符的第一個字節(jié),則返回非0值
3. 為什么要使用Unicode?
(1) 可以很容易地在不同語言之間進(jìn)行數(shù)據(jù)交換。
(2) 使你能夠分配支持所有語言的單個二進(jìn)制.exe文件或DLL文件。
(3) 提高應(yīng)用程序的運(yùn)行效率。
Windows 2000是使用Unicode從頭進(jìn)行開發(fā)的,如果調(diào)用任何一個Windows函數(shù)并給它傳遞一個ANSI字符串,那幺系統(tǒng)首先要將字符串轉(zhuǎn)換成Unicode,然后將Unicode字符串傳遞給操作系統(tǒng)。如果希望函數(shù)返回ANSI字符串,系統(tǒng)就會首先將Unicode字符串轉(zhuǎn)換成ANSI字符串,然后將結(jié)果返回給你的應(yīng)用程序。進(jìn)行這些字符串的轉(zhuǎn)換需要占用系統(tǒng)的時間和內(nèi)存。通過從頭開始用Unicode來開發(fā)應(yīng)用程序,就能夠使你的應(yīng)用程序更加有效地運(yùn)行。
Windows CE 本身就是使用Unicode的一種操作系統(tǒng),完全不支持ANSI Windows函數(shù)
Windows 98 只支持ANSI,只能為ANSI開發(fā)應(yīng)用程序。
Microsoft公司將COM從16位Windows轉(zhuǎn)換成Win32時,公司決定需要字符串的所有COM接口方法都只能接受Unicode字符串。
4. 如何編寫Unicode源代碼?
Microsoft公司為Unicode設(shè)計了WindowsAPI,這樣,可以盡量減少代碼的影響。實(shí)際上,可以編寫單個源代碼文件,以便使用或者不使用Unicode來對它進(jìn)行編譯。只需要定義兩個宏(UNICODE和_UNICODE),就可以修改然后重新編譯該源文件。
_UNICODE宏用于C運(yùn)行期頭文件,而UNICODE宏則用于Windows頭文件。當(dāng)編譯源代碼模塊時,通常必須同時定義這兩個宏。
5. Windows定義的Unicode數(shù)據(jù)類型有哪些?
數(shù)據(jù)類型 說明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指針
PCWSTR 指向一個恒定的Unicode字符串的指針
對應(yīng)的ANSI數(shù)據(jù)類型為CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用數(shù)據(jù)類型為TCHAR,PTSTR,LPCTSTR。
6. 如何對Unicode進(jìn)行操作?
字符集 特性 實(shí)例
ANSI 操作函數(shù)以str開頭 strcpy
Unicode 操作函數(shù)以wcs開頭 wcscpy
MBCS 操作函數(shù)以_mbs開頭 _mbscpy
ANSI/Unicode 操作函數(shù)以_tcs開頭 _tcscpy(C運(yùn)行期庫)
ANSI/Unicode 操作函數(shù)以lstr開頭 lstrcpy(Windows函數(shù))
所有新的和未過時的函數(shù)在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函數(shù)結(jié)尾以A表示;Unicode版本函數(shù)結(jié)尾以W表示。Windows會如下定義:
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE
7. 如何表示Unicode字符串常量?
字符集 實(shí)例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
8. 為什么應(yīng)當(dāng)盡量使用操作系統(tǒng)函數(shù)?
這將有助于稍稍提高應(yīng)用程序的運(yùn)行性能,因為操作系統(tǒng)字符串函數(shù)常常被大型應(yīng)用程序比如操作系統(tǒng)的外殼進(jìn)程Explorer.exe所使用。由于這些函數(shù)使用得很多,因此,在應(yīng)用程序運(yùn)行時,它們可能已經(jīng)被裝入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。
9. 如何編寫符合ANSI和Unicode的應(yīng)用程序?
(1) 將文本串視為字符數(shù)組,而不是chars數(shù)組或字節(jié)數(shù)組。
(2) 將通用數(shù)據(jù)類型(如TCHAR和PTSTR)用于文本字符和字符串。
(3) 將顯式數(shù)據(jù)類型(如BYTE和PBYTE)用于字節(jié)、字節(jié)指針和數(shù)據(jù)緩存。
(4) 將TEXT宏用于原義字符和字符串。
(5) 執(zhí)行全局性替換(例如用PTSTR替換PSTR)。
(6)修改字符串運(yùn)算問題。例如函數(shù)通常希望在字符中傳遞一個緩存的大小,而不是字節(jié)。這意味著不應(yīng)該傳遞sizeof(szBuffer),而應(yīng)該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要為字符串分配一個內(nèi)存塊,并且擁有該字符串中的字符數(shù)目,那幺請記住要按字節(jié)來分配內(nèi)存。這就是說,應(yīng)該調(diào)用
malloc(nCharacters *sizeof(TCHAR)),而不是調(diào)用malloc(nCharacters)。
10. 如何對字符串進(jìn)行有選擇的比較?
通過調(diào)用CompareString來實(shí)現(xiàn)。
標(biāo)志 含義
NORM_IGNORECASE 忽略字母的大小寫
NORM_IGNOREKANATYPE 不區(qū)分平假名與片假名字符
NORM_IGNORENONSPACE 忽略無間隔字符
NORM_IGNORESYMBOLS 忽略符號
NORM_IGNOREWIDTH 不區(qū)分單字節(jié)字符與作為雙字節(jié)字符的同一個字符
SORT_STRINGSORT 將標(biāo)點(diǎn)符號作為普通符號來處理
11. 如何判斷一個文本文件是ANSI還是Unicode?
判斷如果文本文件的開頭兩個字節(jié)是0xFF和0xFE,那幺就是Unicode,否則是ANSI。
12. 如何判斷一段字符串是ANSI還是Unicode?
用IsTextUnicode進(jìn)行判斷。IsTextUnicode使用一系列統(tǒng)計方法和定性方法,以便猜測緩存的內(nèi)容。由于這不是一種確切的科學(xué)方法,因此 IsTextUnicode有可能返回不正確的結(jié)果。
13. 如何在Unicode與ANSI之間轉(zhuǎn)換字符串?
Windows函數(shù)MultiByteToWideChar用于將多字節(jié)字符串轉(zhuǎn)換成寬字符串;函數(shù)WideCharToMultiByte將寬字符串轉(zhuǎn)換成等價的多字節(jié)字符串。
//========================================================================
//TITLE:
// MultiByteToWideChar和WideCharToMultiByte用法詳解
//AUTHOR:
// norains
//DATE:
// 第一版:Monday 25-December -2006
// 增補(bǔ)版:Wednesday 27-December -2006
// 修訂版:Wednesday 14-March-2007 (修正之前的錯誤例子)
//Environment:
// EVC4.0 + Standard SDK
//========================================================================
1.使用方法詳解
在本文開始之處,先簡要地說一下何為短字符和寬字符.
所謂的短字符,就是用8bit來表示的字符,典型的應(yīng)用是ASCII碼.而寬字符,顧名思義,就是用16bit表示的字符,典型的有UNICODE.關(guān)于 windows下的ASCII和UNICODE的更多信息,可以參考這兩本經(jīng)典著作:《windows 程序設(shè)計》,《windows 核心編程》.這兩本書關(guān)于這兩種字符都有比較詳細(xì)的解說.
寬字符轉(zhuǎn)換為多個短字符是一個難點(diǎn),不過我們只要掌握到其中的要領(lǐng),便可如魚得水.
好吧,那就讓我們開始吧.
這個是我們需要轉(zhuǎn)化的多字節(jié)字符串:
char sText[20] = {"多字節(jié)字符串!OK!"};
我們需要知道轉(zhuǎn)化后的寬字符需要多少個數(shù)組空間.雖然在這個里程里面,我們可以直接定義一個 20*2寬字符的數(shù)組,并且事實(shí)上將運(yùn)行得非常輕松愉快.但假如多字節(jié)字符串更多,達(dá)到上千個乃至上萬個,我們將會發(fā)現(xiàn)其中浪費(fèi)的內(nèi)存將會越來越多.所以以多字節(jié)字符的個數(shù)的兩倍作為寬字符數(shù)組下標(biāo)的聲明絕對不是一個好主意.
所幸,我們能夠確知所需要的數(shù)組空間.
我們只需要將MultiByteToWideChar()的第四個形參設(shè)為-1,即可返回所需的短字符數(shù)組空間的個數(shù):
DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);
接下來,我們只需要分配響應(yīng)的數(shù)組空間:
wchar_t *pwText;
pwText = new wchar_t[dwNum];
if(!pwText)
{
delete []pwText;
}
接著,我們就可以著手進(jìn)行轉(zhuǎn)換了.在這里以轉(zhuǎn)換成ASCII碼做為例子:
MultiByteToWideChar (CP_ACP, 0, psText, -1, sText, dwSize);
最后,使用完畢當(dāng)然要記得釋放占用的內(nèi)存:
delete []psText;
同理,寬字符轉(zhuǎn)為多字節(jié)字符的代碼如下:
wchar_t wText[20] = {L"寬字符轉(zhuǎn)換實(shí)例!OK!"};
DWORD dwNum = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
char *psText;
psText = new char[dwNum];
if(!psText)
{
delete []psText;
}
WideCharToMultiByte (CP_OEMCP,NULL,lpcwszStr,-1,psText,dwNum,NULL,FALSE);
delete []psText;
如果之前我們已經(jīng)分配好空間,并且由于字符串較短,可以不理會浪費(fèi)的空間,僅僅只是想簡單地將短字符和寬字符相互轉(zhuǎn)換,那有沒有什么簡便的方法呢?
WIN32 API里沒有符合這種要求的函數(shù),但我們可以自己進(jìn)行封裝:
//-------------------------------------------------------------------------------------
//Description:
// This function maps a character string to a wide-character (Unicode) string
//
//Parameters:
// lpcszStr: [in] Pointer to the character string to be converted
// lpwszStr: [out] Pointer to a buffer that receives the translated string.
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
//
//Example:
// MByteToWChar(szA,szW,sizeof(szW)/sizeof(szW[0]));
//---------------------------------------------------------------------------------------
BOOL MByteToWChar(LPCSTR lpcszStr, LPWSTR lpwszStr, DWORD dwSize)
{
// Get the required size of the buffer that receives the Unicode
// string.
DWORD dwMinSize;
dwMinSize = MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, NULL, 0);
if(dwSize < dwMinSize)
{
return FALSE;
}
// Convert headers from ASCII to Unicode.
MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, lpwszStr, dwMinSize);
return TRUE;
}
//-------------------------------------------------------------------------------------
//Description:
// This function maps a wide-character string to a new character string
//
//Parameters:
// lpcwszStr: [in] Pointer to the character string to be converted
// lpszStr: [out] Pointer to a buffer that receives the translated string.
// dwSize: [in] Size of the buffer
//
//Return Values:
// TRUE: Succeed
// FALSE: Failed
//
//Example:
// MByteToWChar(szW,szA,sizeof(szA)/sizeof(szA[0]));
//---------------------------------------------------------------------------------------
BOOL WCharToMByte(LPCWSTR lpcwszStr, LPSTR lpszStr, DWORD dwSize)
{
DWORD dwMinSize;
dwMinSize = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
if(dwSize < dwMinSize)
{
return FALSE;
}
WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,lpszStr,dwSize,NULL,FALSE);
return TRUE;
}
使用方法也很簡單,示例如下:
wchar_t wText[10] = {L"函數(shù)示例"};
char sText[20]= {0};
WCharToMByte(wText,sText,sizeof(sText)/sizeof(sText[0]));
MByteToWChar(sText,wText,sizeof(wText)/sizeof(wText[0]));
這兩個函數(shù)的缺點(diǎn)在于無法動態(tài)分配內(nèi)存,在轉(zhuǎn)換很長的字符串時可能會浪費(fèi)較多內(nèi)存空間;優(yōu)點(diǎn)是,在不考慮浪費(fèi)空間的情況下轉(zhuǎn)換較短字符串非常方便.
2.MultiByteToWideChar()函數(shù)亂碼的問題
有的朋友可能已經(jīng)發(fā)現(xiàn),在標(biāo)準(zhǔn)的WinCE4.2或WinCE5.0 SDK模擬器下,這個函數(shù)都無法正常工作,其轉(zhuǎn)換之后的字符全是亂碼.及時更改MultiByteToWideChar()參數(shù)也依然如此.
不過這個不是代碼問題,其結(jié)癥在于所定制的操作系統(tǒng).如果我們定制的操作系統(tǒng)默認(rèn)語言不是中文,也會出現(xiàn)這種情況.由于標(biāo)準(zhǔn)的SDK默認(rèn)語言為英文,所以肯定會出現(xiàn)這個問題.而這個問題的解決,不能在簡單地更改控制面板的"區(qū)域選項"的"默認(rèn)語言",而是要在系統(tǒng)定制的時候,選擇默認(rèn)語言為"中文".
系統(tǒng)定制時選擇默認(rèn)語言的位置于:
Platform -> Setting... -> locale -> default language ,選擇"中文",然后編譯即可.
14. Unicode和DBCS之間的區(qū)別
Unicode使用(特別在C程序設(shè)計語言環(huán)境里)“寬字符集”。「Unicode中的每個字符都是16位寬而不是8位寬。」在Unicode中,沒有單單使用8位數(shù)值的意義存在。相比之下,在“雙位組字符集”中我們?nèi)匀惶幚?位數(shù)值。有些位組自身定義字符,而某些位組則顯示需要和另一個位組共同定義一個字符。
處理DBCS字符串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字符(16位代碼從 0x0000到0x007F)就是ASCII字符,而接下來的128個Unicode字符(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴(kuò)展。Unicode中不同部分的字符都同樣基于現(xiàn)有的標(biāo)準(zhǔn)。這是為了便于轉(zhuǎn)換。希臘字母表使用從0x0370到0x03FF 的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱為CJK)占用了從0x3000到0x9FFF的代碼。Unicode的最大好處是這里只有一個字符集,沒有一點(diǎn)含糊。
15.衍生標(biāo)準(zhǔn)
Unicode是一個標(biāo)準(zhǔn)。UTF-8是其概念上的子集,UTF-8是具體的編碼標(biāo)準(zhǔn)。而UNICODE是所有想達(dá)到世界統(tǒng)一編碼標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。UTF-8標(biāo)準(zhǔn)就是Unicode(ISO10646)標(biāo)準(zhǔn)的一種變形方式,
UTF的全稱是:Unicode/UCS Transformation Format,其實(shí)有兩種UTF,一種是UTF-8,一種是UTF-16,
不過UTF-16使用較少,其對應(yīng)關(guān)系如下:
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 0xxxxxxx
在Unicode中編碼為 0080 - 07FF 的 UTF-8 中編碼形式為: 110xxxxx 10xxxxxx
在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 1110xxxx 10xxxxxx 10xxxxxx
utf-8是unicode的一個新的編碼標(biāo)準(zhǔn),其實(shí)unicode有過好幾個標(biāo)準(zhǔn).我們知道一直以來使用的unicode字符內(nèi)碼都是16位,它實(shí)際上還不能把全世界的所有字符編在一個平面系統(tǒng),比如中國的藏文等小語種,所以utf-8擴(kuò)展到了32位,也就是說理論在utf-8中可容納二的三十二次方個字符. UNICODE的思想就是想把所有的字符統(tǒng)一編碼,實(shí)現(xiàn)一個統(tǒng)一的標(biāo)準(zhǔn).big5、gb都是獨(dú)立的字符集,這也叫做遠(yuǎn)東字符集,把它拿到德文版的 WINDOWS上可能將會引起字符編碼的沖突....早期的WINDOWS默認(rèn)的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在 NT/2000內(nèi)部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中則是 UNICODE.ANSI和UNICODE可以方便的實(shí)現(xiàn)對應(yīng)映射,也就是轉(zhuǎn)換 ASCII是8位范圍內(nèi)的字符集,對于范圍之外的字符如漢字它是無法表達(dá)的。unicode是16位范圍內(nèi)的字符集,對于不同地區(qū)的字符分區(qū)分配,unicode是多個IT巨頭共同制定的字符編碼標(biāo)準(zhǔn)。如果在unicode環(huán)境下比如WINDOWS NT上,一個字符占兩字節(jié)16位,而在ANSI環(huán)境下如WINDOWS98下一個字符占一個字節(jié)8位.Unicode字符是16位寬,最多允許 65,535字符,數(shù)據(jù)類型被稱為WCHAR。
對于已有的ANSI字符,unicode簡單的將其擴(kuò)展為16位:比如ANSI"A"=0x43,則對應(yīng)的UNICODE為
"A"= 0x0043
而ASCII用七存放128個字符,ASCII是一個真正的美國標(biāo)準(zhǔn),所以它不能滿足其他國家的需要,例如斯拉夫語的字母和漢字于是出現(xiàn)了Windows ANSI字符集,是一種擴(kuò)展的ASCII碼,用8位存放字符,低128位仍然存放原來的ASCII碼,
而高128位加入了希臘字母等
if def UNICODE
TCHAR = wchar
else
TCHAR = char
你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE
UINCODE,_UNICODE都要定義。不定義_UNICODE的話,用SetText(HWND,LPCTSTR),將被解釋為 SetTextA(HWND,LPTSTR),這時API將把你給的Unicode字符串看作ANSI字符串,顯示亂碼。因為windows API是已經(jīng)編譯好存在于dll中的,由于不管UNICODE還是ANSI字符串,都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI讀,因為ANSI字串是以''''''''\0''''''''結(jié)束的,所以只能讀到兩字節(jié)"0B A3 \0",如果按UNICODE讀,將完整的讀到''''''''\0\0''''''''結(jié)束。
由于UNICODE沒有額外的指示位,所以系統(tǒng)必須知道你提供的字串是哪種格式。此外,UNICODE好象是ANSI C++規(guī)定的,_UNICODE是windows SDK提供的。如果不編寫windows程序,可以只定義UNICODE。
開發(fā)過程:
圍繞著文件讀寫、字符串處理展開。文件主要有兩種:.txt和.ini文件
1. 在unicode和非unicode環(huán)境下字符串做不同處理的,那么需要參考以上9,10兩條,以適應(yīng)不同環(huán)境得字符串處理要求。
對文件讀寫也一樣。只要調(diào)用相關(guān)接口函數(shù)時,參數(shù)中的字符串前都加上_TEXT等相關(guān)宏。如果寫成的那個文件需要是unicode格式保存的,那么在創(chuàng)建文件時需要加入一個字節(jié)頭。
CFile file;
WCHAR szwBuffer[128];
WCHAR *pszUnicode = L"Unicode string\n"; // unicode string
CHAR *pszAnsi = "Ansi string\n"; // ansi string
WORD wSignature = 0xFEFF;
file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
file.Write(&wSignature, 2);
file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
// explicitly use lstrlenW function
MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
file.Close();
//以上這段代碼在unicode和非unicode環(huán)境下都有效。這里顯式的指明用Unicode來進(jìn)行操作。
2. 在非unicode環(huán)境下,缺省調(diào)用的都是ANSI格式的字符串,此時TCHAR轉(zhuǎn)換為CHAR類型的,除非顯式定義WCHAR。所以在這個環(huán)境下,如果讀取unicode文件,那么首先需要移動2個字節(jié),然后讀取得字符串需要用MultiByteToWideChar來轉(zhuǎn)換,轉(zhuǎn)換后字符串信息才代表 unicode數(shù)據(jù)。
3. 在unicode環(huán)境下,缺省調(diào)用得都是unicode格式得字符串,也就是寬字符,此時TCHAR轉(zhuǎn)換為WCHAR,相關(guān)得API函數(shù)也都調(diào)用寬字符類型的函數(shù)。此時讀取unicode文件也和上面一樣,但是讀取得數(shù)據(jù)是WCHAR的,如果要轉(zhuǎn)換成ANSI格式,需要調(diào)用 WideCharToMultiByte。如果讀取ANSI的,則不用移動兩個字節(jié),直接讀取然后視需要轉(zhuǎn)換即可。
某些語言(如韓語)必須在unicode環(huán)境下才能顯示,這種情況下,在非unicode環(huán)境下開發(fā),就算用字符串函數(shù)轉(zhuǎn)換也不能達(dá)到顯示文字的目的,因為此時調(diào)用得API函數(shù)是用ANSI的(雖然底層都是用UNICODE處理但是處理結(jié)果是按照程序員調(diào)用的API來顯示的)。所以必須用unicode來開發(fā)。
【總結(jié)】
看了這么多的資料也專研了這么長時間,也應(yīng)該對自己的認(rèn)識做個小結(jié)了,如果我們是寫 windows程序時,在編寫操作字符的程序時,我們可以調(diào)用運(yùn)行時庫的函數(shù),運(yùn)行時庫中的函數(shù)接口定義都是行業(yè)標(biāo)準(zhǔn)的,也就是說如果你使用的都是運(yùn)行時庫函數(shù)則你的程序在windows上開發(fā)的,但是編譯后也可以在linux系統(tǒng)上運(yùn)行,只要這連個系統(tǒng)的編譯器所使用的運(yùn)行時庫中的函數(shù)都嚴(yán)格按照國際標(biāo)準(zhǔn)實(shí)現(xiàn)的就ok。
你如果在windows上編程,編譯并運(yùn)行,你當(dāng)然可以使用windows系統(tǒng)提供給你的函數(shù),這些函數(shù)得到了windows系統(tǒng)的支持。當(dāng)然這樣的程序編譯后也只能在windows系統(tǒng)上運(yùn)行,其他系統(tǒng)上無法正常執(zhí)行。所有如果你再 windows上開發(fā)程序,而又想在其他系統(tǒng)上運(yùn)行,這只能使用運(yùn)行時庫函數(shù)了。
小結(jié)就這么多,如果有錯的地方請看官指正,歡迎交流!!!
總結(jié)
以上是生活随笔為你收集整理的如何使用微软提供的TCHAR.H头文件的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LPC(Low Pin Count) 与
- 下一篇: 远心镜头成像模型