當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

字符和字符串处理

發布時間：2025/3/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了字符和字符串处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

C語言的char的話是一個8bit的ANIS字符，unicode的話主要有UTF-8,UTF-16和UTF-32。

//An 8bit character

char c = 'A';

vs的編譯器的話定義了一個內建的數據類型wchar_t ，它表示的是一個16bit的unicode。

//A 16bit character

wchar_t c = L'a';

字符串之前的大寫字母L通知編譯器編譯為一個unicode字符串。

目前的話，window的api都會使用unicode字符串，不過有些老的接口還是會存在ANSI接口。

任何修改字符串的函數都存在一個安全隱患,如果目標字符的緩沖區不夠大，無法容納所生成的字符串，就會導致內存中的數據被破壞。

wchar_t szBuffer[3] = L"";

wcscpy(szBuffer,L"abc");//結束符0也是一個字符

strcpy和wcscpy函數以及其他的大多數字符串處理函數的問題在于，他們沒有收到制定了緩沖區最大長度的參數.所以函數不知道自己會破壞內存，所以也不會報告錯誤，引起bug。

在新的應用程序中包含StrSafe.h，string.h也會被包含進來。

注意UNICODE和_UNICODE符號要么同時制定，要么都不指定！

unicode和ansi字符串轉換 MultiByteToWideChar和WideCharToMultiByte

第一個就是寬字符到多字節字符轉換函數，函數原型如下：

int?WideCharToMultiByte(? UINT?CodePage,? DWORD?dwFlags,? LPCWSTR?lpWideCharStr,? int?cchWideChar,? LPSTR?lpMultiByteStr,? int?cbMultiByte,? LPCSTR?lpDefaultChar,? LPBOOL?lpUsedDefaultChar? );

此函數把寬字符串轉換成指定的新的字符串，如ANSI，UTF8等，新字符串不必是多字節字符集。參數：

CodePage：?指定要轉換成的字符集代碼頁，它可以是任何已經安裝的或系統自帶的字符集，你也可以使用如下所示代碼頁之一。? CP_ACP?當前系統ANSI代碼頁? CP_MACCP?當前系統Macintosh代碼頁? CP_OEMCP?當前系統OEM代碼頁，一種原始設備制造商硬件掃描碼? CP_SYMBOL?Symbol代碼頁，用于Windows?2000及以后版本，我不明白是什么? CP_THREAD_ACP?當前線程ANSI代碼頁，用于Windows?2000及以后版本，我不明白是什么? CP_UTF7?UTF-7，設置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL? CP_UTF8?UTF-8，設置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL?

我想最常用的應該是CP_ACP和CP_UTF8了，前者將寬字符轉換為ANSI，后者轉換為UTF8。

dwFlags：?指定如何處理沒有轉換的字符，?但不設此參數函數會運行的更快一些，我都是把它設為0。?可設的值如下表所示：? WC_NO_BEST_FIT_CHARS?把不能直接轉換成相應多字節字符的Unicode字符轉換成lpDefaultChar指定的默認字符。也就是說，如果把Unicode轉換成多字節字符，然后再轉換回來，你并不一定得到相同的Unicode字符，因為這期間可能使用了默認字符。此選項可以單獨使用，也可以和其他選項一起使用。? WC_COMPOSITECHECK?把合成字符轉換成預制的字符。它可以與后三個選項中的任何一個組合使用，如果沒有與他們中的任何一個組合，則與選項WC_SEPCHARS相同。? WC_ERR_INVALID_CHARS?此選項會致使函數遇到無效字符時失敗返回，并且GetLastError會返回錯誤碼ERROR_NO_UNICODE_TRANSLATION。否則函數會自動丟棄非法字符。此選項只能用于UTF8。? WC_DISCARDNS?轉換時丟棄不占空間的字符，與WC_COMPOSITECHECK一起使用? WC_SEPCHARS?轉換時產生單獨的字符，此是默認轉換選項，與WC_COMPOSITECHECK一起使用? WC_DEFAULTCHAR?轉換時使用默認字符代替例外的字符，(最常見的如’?’)，與WC_COMPOSITECHECK一起使用。?

當指定WC_COMPOSITECHECK時，函數會將合成字符轉換成預制字符。合成字符由一個基字符和一個不占空間的字符(如歐洲國家及漢語拼音的音標)組成，每一個都有不同的字符值。預制字符有一個用于表示基字符和不占空間字符的合成體的單一的字符值。
當指定WC_COMPOSITECHECK選項時，也可以使用上表列出的最后3個選項來定制預制字符的轉換規則。這些選項決定了函數在遇到寬字符串的合成字符沒有對應的預制字符時的行為，他們與WC_COMPOSITECHECK一起使用，如果都沒有指定，函數默認WC_SEPCHARS。
對于下列代碼頁，dwFlags必須為0，否則函數返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對于UTF8，dwFlags必須為0或WC_ERR_INVALID_CHARS，否則函數都將失敗返回并設置錯誤碼ERROR_INVALID_FLAGS，你可以調用GetLastError獲得。

lpWideCharStr：?待轉換的寬字符串。? cchWideChar：?待轉換寬字符串的長度，-1表示轉換到字符串結尾。? lpMultiByteStr：?接收轉換后輸出新串的緩沖區。? cbMultiByte：?輸出緩沖區大小，如果為0，lpMultiByteStr將被忽略，函數將返回所需緩沖區大小而不使用lpMultiByteStr。? lpDefaultChar：?指向字符的指針，?在指定編碼里找不到相應字符時使用此字符作為默認字符代替。?如果為NULL則使用系統默認字符。對于要求此參數為NULL的dwFlags而使用此參數，函數將失敗返回并設置錯誤碼ERROR_INVALID_PARAMETER。? lpUsedDefaultChar：開關變量的指針，用以表明是否使用過默認字符。對于要求此參數為NULL的dwFlags而使用此參數，函數將失敗返回并設置錯誤碼ERROR_INVALID_PARAMETER。lpDefaultChar和lpUsedDefaultChar都設為NULL，函數會更快一些。? 返回值：?如果函數成功，且cbMultiByte非0，返回寫入lpMultiByteStr的字節數(包括字符串結尾的null)；cbMultiByte為0，則返回轉換所需? 字節數。函數失敗，返回0。?

注意：函數WideCharToMultiByte使用不當，會給影響程序的安全。調用此函數會很容易導致內存泄漏，因為lpWideCharStr指向的輸入緩沖區大小是寬字符數，而lpMultiByteStr指向的輸出緩沖區大小是字節數。為了避免內存泄漏，應確保為輸出緩沖區指定合適的大小。我的方法是先使cbMultiByte為0調用WideCharToMultiByte一次以獲得所需緩沖區大小，為緩沖區分配空間，然后再次調用WideCharToMultiByte填充緩沖區，詳見下面的代碼。另外，從Unicode UTF16向非Unicode字符集轉換可能會導致數據丟失，因為該字符集可能無法找到表示特定Unicode數據的字符。

wchar_t*?pwszUnicode?=?"Holle,?word!?你好，中國！?";? int?iSize;? char*?pszMultiByte;? iSize?=?WideCharToMultiByte(CP_ACP,?0,?pwszUnicode,?-1,?NULL,?0,?NULL,?NULL);? pszMultiByte?=?(char*)malloc((iSize+1)/**sizeof(char)*/);? WideCharToMultiByte(CP_ACP,?0,?pwszUnicode,?-1,?pszMultiByte,?iSize,?NULL,?NULL);?

第二個是多字節字符到寬字符轉換函數，函數原型如下：?

int?MultiByteToWideChar(? UINT?CodePage,? DWORD?dwFlags,? LPCSTR?lpMultiByteStr,? int?cbMultiByte,? LPWSTR?lpWideCharStr,? int?cchWideChar? );? 此函數把多字節字符串轉換成寬字符串(Unicode)，待轉換的字符串并不一定是多字節的。
此函數的參數，返回值及注意事項參見上面函數WideCharToMultiByte的說明，這里只對dwFlags做簡單解釋。
dwFlags：?指定是否轉換成預制字符或合成的寬字符，對控制字符是否使用像形文字，以及怎樣處理無效字符。? MB_PRECOMPOSED?總是使用預制字符，即有單個預制字符時，就不會使用分解的基字符和不占空間字符。此為函數的默認選項，不能和MB_COMPOSITE合用? MB_COMPOSITE?總是使用分解字符，即總是使用基字符+不占空間字符的方式? MB_ERR_INVALID_CHARS?設置此選項，函數遇到非法字符就失敗并返回錯誤碼ERROR_NO_UNICODE_TRANSLATION，否則丟棄非法字符? MB_USEGLYPHCHARS?使用像形字符代替控制字符? 對于下列代碼頁，dwFlags必須為0，否則函數返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對于UTF8，dwFlags必須為0或MB_ERR_INVALID_CHARS，否則函數都將失敗并返回錯誤碼ERROR_INVALID_FLAGS。
以下函數我沒用過，只簡要說明之。
int GetTextCharset( HDC hdc );
此函數獲取當前選進的設備描述表的字符集，等同于GetTextCharsetInfo(hdc, NULL, 0)。
返回值：成功返回字符集標識，失敗返回DEFAULT_CHARSET。

總結

以上是生活随笔為你收集整理的字符和字符串处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java - 用数组求出斐波那契数列的前
下一篇： JVM学习笔记一