當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

UNICODE使用的一些知识和技巧

發(fā)布時(shí)間：2023/11/27 生活经验 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 UNICODE使用的一些知识和技巧小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

UNICODE宏和_UNICODE宏的關(guān)系

在windows編程中,經(jīng)常要編譯Unicode版本的程序,方法是工程文件的配置中加上UNICODE或者_(dá)UNICODE編譯條件,那么到底是用哪一個(gè)呢?

Jeffrey Richter在《Windows核心編程》中說,_UNICODE宏用于C運(yùn)行期頭文件,而UNICODE宏則用于Windows頭文件.當(dāng)編譯源代碼模塊時(shí),通常必須同時(shí)定義這兩個(gè)宏.究竟是怎么樣的呢?

我在MFC的頭文件中搜了一下,在Afxv_W32.h文件中找到這樣一段代碼:

#ifdef _UNICODE

#ifndef UNICODE

#define UNICODE

#endif

#ifdef UNICODE

#ifndef _UNICODE

#define _UNICODE

#endif

所以,在MFC程序中,只要設(shè)置了兩個(gè)中其中一個(gè)就可以了.

但是對(duì)于SDK程序,我在頭文件搜索中,發(fā)現(xiàn)出現(xiàn)次數(shù)最多的是UNICODE, _UNICODE僅僅在少數(shù)幾個(gè)文件中,并且互相定義的地方也不多,所以寫SDK程序,如果要編譯成UNICODE程序,只要設(shè)置UNICODE宏就可以了

本篇文章來源于黑客手冊(cè)
原文鏈接：http://www.nohack.cn/code/other/2006-10-05/8850.html

【IT168知識(shí)庫】
?

Unicode編碼問題，編程方面的技巧集合

一、匹配Unicode字符的正則表達(dá)式

原文：http://tech.it168.com/KnowledgeBase/Articles/2/2/0/220fcae070b4f62461e3e99e17e30306.htm

這里是幾個(gè)主要非英文語系字符范圍(google上找到的):

2E80～33FFh：中日韓符號(hào)區(qū)。收容康熙字典部首、中日韓輔助部首、注音符號(hào)、日本假名、韓文音符，中日韓的符號(hào)、標(biāo)點(diǎn)、帶圈或帶括符文數(shù)字、月份，以及日本的假名組合、單位、年號(hào)、月份、日期、時(shí)間等。

3400～4DFFh：中日韓認(rèn)同表意文字?jǐn)U充A區(qū)，總計(jì)收容6,582個(gè)中日韓漢字。

4E00～9FFFh：中日韓認(rèn)同表意文字區(qū)，總計(jì)收容20,902個(gè)中日韓漢字。

A000～A4FFh：彝族文字區(qū)，收容中國南方彝族文字和字根。

AC00～D7FFh：韓文拼音組合字區(qū)，收容以韓文音符拼成的文字。

F900～FAFFh：中日韓兼容表意文字區(qū)，總計(jì)收容302個(gè)中日韓漢字。

FB00～FFFDh：文字表現(xiàn)形式區(qū)，收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標(biāo)點(diǎn)、小符號(hào)、半角符號(hào)、全角符號(hào)等。

比如需要匹配所有中日韓非符號(hào)字符,那么正則表達(dá)式應(yīng)該是^[\u3400-\u9FFF]+$
理論上沒錯(cuò), 可是我到msn.co.ko隨便復(fù)制了個(gè)韓文下來, 發(fā)現(xiàn)根本不對(duì), 詭異
再到msn.co.jp復(fù)制了個(gè)'お', 也不得行..

然后把范圍擴(kuò)大到^[\u2E80-\u9FFF]+$, 這樣倒是都通過了, 這個(gè)應(yīng)該就是匹配中日韓文字的正則表達(dá)式了, 包括我們臺(tái)灣省還在盲目使用的繁體中文

而關(guān)于中文的正則表達(dá)式, 應(yīng)該是^[\u4E00-\u9FFF]+$, 和論壇里常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是論壇里說的^[\u4E00-\u9FA5]+$這是專門用于匹配簡體中文的正則表達(dá)式, 實(shí)際上繁體字也在里面, 我用測(cè)試器測(cè)試了下'中華人民共和國', 也通過了, 當(dāng)然, ^[\u4E00-\u9FFF]+$也是一樣的結(jié)果

二、利用漢字Unicode范圍來驗(yàn)證是否為漢字的JavaScript函數(shù)

1、function?checkchinese(str){??
???var?re1?=?new?RegExp("^[\u4E00-\\u9fa5]*$")???????//漢字的范圍
???var?re2?=?new?RegExp("^[\uE7C7-\uE7F3]*$")
???var?str?=?str.replace(/(^\s*)|(\s*$)/g,'');
???if?(str?==?''){return?false;}
???if?(!(re1.test(str)?&&?(!?re2.test(str)))){
??????return?false;
???}
???return?true;
}

3.怎么判斷是否是字符
if(/[^\x00-\xff]/g.test(s))
??? alert("含有漢字");
else
??? alert("全是字符");

3.怎么判斷是否含有漢字
if(escape(str).indexOf("%u")!=-1)
??? alert("含有漢字");
else
??? alert("全是字符");

4、

String.prototype.existChinese ? = ? function() ?
? { ?
? //[\u4E00-\u9FA5]為漢字﹐[\uFE30-\uFFA0]為全角符號(hào) ?
? return ? /[\u4e00-\u9fa5]/.test(this); ?
? }

三、其他技巧

1、只能輸入漢字，數(shù)字，英文大小寫，符號(hào)只允許，。！的正則表達(dá)式

if(/[^\u4e00-\u9fa5\w,\.]/.test(obj.value))?obj.value="";return?false;
function?SpecChar(obj)?{?if(event.type=="keyup")?{?if(/[^\u4e00-\u9fa5\w,\.]/.test(obj.value))?obj.value=obj.value.substring(0,obj.value.length-1);return?false;?}?}

四、Windows環(huán)境下Unicode編程總結(jié)

UNICODE環(huán)境設(shè)置

在安裝Visual Studio時(shí)，在選擇VC++時(shí)需要加入unicode選項(xiàng)，保證相關(guān)的庫文件可以拷貝到system32下。

UNICODE編譯設(shè)置：

C/C++, Preprocessor difinitions 去除_MBCS，加_UNICODE,UNICODE

在ProjectSetting/link/output 中設(shè)置Entry為wWinMainCRTStartup

反之為MBCS（ANSI）編譯。

Unicode ：寬字節(jié)字符集

1. 如何取得一個(gè)既包含單字節(jié)字符又包含雙字節(jié)字符的字符串的字符個(gè)數(shù)？

可以調(diào)用Microsoft Visual C++的運(yùn)行期庫包含函數(shù)_mbslen來操作多字節(jié)（既包括單字節(jié)也包括雙字節(jié)）字符串。

調(diào)用strlen函數(shù)，無法真正了解字符串中究竟有多少字符，它只能告訴你到達(dá)結(jié)尾的0之前有多少個(gè)字節(jié)。

2. 如何對(duì)DBCS（雙字節(jié)字符集）字符串進(jìn)行操作？

函數(shù) 描述

PTSTR CharNext （ LPCTSTR ）; 返回字符串中下一個(gè)字符的地址

PTSTR CharPrev （ LPCTSTR, LPCTSTR ）；返回字符串中上一個(gè)字符的地址

BOOL IsDBCSLeadByte( BYTE )；如果該字節(jié)是DBCS字符的第一個(gè)字節(jié)，則返回非0值

3. 為什幺要使用Unicode？

（1）可以很容易地在不同語言之間進(jìn)行數(shù)據(jù)交換。

（2）使你能夠分配支持所有語言的單個(gè)二進(jìn)制.exe文件或DLL文件。

（3）提高應(yīng)用程序的運(yùn)行效率。

Windows 2000是使用Unicode從頭進(jìn)行開發(fā)的，如果調(diào)用任何一個(gè)Windows函數(shù)并給它傳遞一個(gè)ANSI字符串，那幺系統(tǒng)首先要將字符串轉(zhuǎn)換成Unicode，然后將Unicode字符串傳遞給操作系統(tǒng)。如果希望函數(shù)返回ANSI字符串，系統(tǒng)就會(huì)首先將Unicode字符串轉(zhuǎn)換成ANSI字符串，然后將結(jié)果返回給你的應(yīng)用程序。進(jìn)行這些字符串的轉(zhuǎn)換需要占用系統(tǒng)的時(shí)間和內(nèi)存。通過從頭開始用Unicode來開發(fā)應(yīng)用程序，就能夠使你的應(yīng)用程序更加有效地運(yùn)行。

Windows CE 本身就是使用Unicode的一種操作系統(tǒng)，完全不支持ANSI Windows函數(shù)

Windows 98 只支持ANSI，只能為ANSI開發(fā)應(yīng)用程序。

Microsoft公司將COM從16位Windows轉(zhuǎn)換成Win32時(shí)，公司決定需要字符串的所有COM接口方法都只能接受Unicode字符串。

4. 如何編寫Unicode源代碼？

Microsoft公司為Unicode設(shè)計(jì)了WindowsAPI，這樣，可以盡量減少代碼的影響。實(shí)際上，可以編寫單個(gè)源代碼文件，以便使用或者不使用Unicode來對(duì)它進(jìn)行編譯。只需要定義兩個(gè)宏（UNICODE和_UNICODE），就可以修改然后重新編譯該源文件。

_UNICODE宏用于C運(yùn)行期頭文件，而UNICODE宏則用于Windows頭文件。當(dāng)編譯源代碼模塊時(shí)，通常必須同時(shí)定義這兩個(gè)宏。

5. Windows定義的Unicode數(shù)據(jù)類型有哪些？

數(shù)據(jù)類型說明

WCHAR Unicode字符

PWSTR 指向Unicode字符串的指針

PCWSTR 指向一個(gè)恒定的Unicode字符串的指針

對(duì)應(yīng)的ANSI數(shù)據(jù)類型為CHAR，LPSTR和LPCSTR。

ANSI/Unicode通用數(shù)據(jù)類型為TCHAR，PTSTR,LPCTSTR。

6. 如何對(duì)Unicode進(jìn)行操作？

字符集特性實(shí)例

ANSI 操作函數(shù)以str開頭 strcpy

Unicode 操作函數(shù)以wcs開頭 wcscpy

MBCS 操作函數(shù)以_mbs開頭 _mbscpy

ANSI/Unicode 操作函數(shù)以_tcs開頭 _tcscpy（C運(yùn)行期庫）

ANSI/Unicode 操作函數(shù)以lstr開頭 lstrcpy（Windows函數(shù)）

所有新的和未過時(shí)的函數(shù)在Windows2000中都同時(shí)擁有ANSI和Unicode兩個(gè)版本。ANSI版本函數(shù)結(jié)尾以A表示；Unicode版本函數(shù)結(jié)尾以W表示。Windows會(huì)如下定義：

#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#else

#define CreateWindowEx CreateWindowExA

#endif // !UNICODE

7. 如何表示Unicode字符串常量？

字符集實(shí)例

ANSI “string”

Unicode L“string”

ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }

8. 為什幺應(yīng)當(dāng)盡量使用操作系統(tǒng)函數(shù)？

這將有助于稍稍提高應(yīng)用程序的運(yùn)行性能，因?yàn)椴僮飨到y(tǒng)字符串函數(shù)常常被大型應(yīng)用程序比如操作系統(tǒng)的外殼進(jìn)程Explorer.exe所使用。由于這些函數(shù)使用得很多，因此，在應(yīng)用程序運(yùn)行時(shí)，它們可能已經(jīng)被裝入RAM。

如：StrCat，StrChr，StrCmp和StrCpy等。

9. 如何編寫符合ANSI和Unicode的應(yīng)用程序？

（1）將文本串視為字符數(shù)組，而不是chars數(shù)組或字節(jié)數(shù)組。

（2）將通用數(shù)據(jù)類型（如TCHAR和PTSTR）用于文本字符和字符串。

（3）將顯式數(shù)據(jù)類型（如BYTE和PBYTE）用于字節(jié)、字節(jié)指針和數(shù)據(jù)緩存。

（4）將TEXT宏用于原義字符和字符串。

（5）執(zhí)行全局性替換（例如用PTSTR替換PSTR）。

（6）修改字符串運(yùn)算問題。例如函數(shù)通常希望在字符中傳遞一個(gè)緩存的大小，而不是字節(jié)。這意味著不應(yīng)該傳遞sizeof(szBuffer),而應(yīng)該傳遞（sizeof(szBuffer)/sizeof(TCHAR)。另外，如果需要為字符串分配一個(gè)內(nèi)存塊，并且擁有該字符串中的字符數(shù)目，那幺請(qǐng)記住要按字節(jié)來分配內(nèi)存。這就是說，應(yīng)該調(diào)用

malloc(nCharacters *sizeof(TCHAR)),而不是調(diào)用malloc(nCharacters)。

10. 如何對(duì)字符串進(jìn)行有選擇的比較？

通過調(diào)用CompareString來實(shí)現(xiàn)。

標(biāo)志含義

NORM_IGNORECASE 忽略字母的大小寫

NORM_IGNOREKANATYPE 不區(qū)分平假名與片假名字符

NORM_IGNORENONSPACE 忽略無間隔字符

NORM_IGNORESYMBOLS 忽略符號(hào)

NORM_IGNOREWIDTH 不區(qū)分單字節(jié)字符與作為雙字節(jié)字符的同一個(gè)字符

SORT_STRINGSORT 將標(biāo)點(diǎn)符號(hào)作為普通符號(hào)來處理

11. 如何判斷一個(gè)文本文件是ANSI還是Unicode？

判斷如果文本文件的開頭兩個(gè)字節(jié)是0xFF和0xFE，那幺就是Unicode，否則是ANSI。

12. 如何判斷一段字符串是ANSI還是Unicode？

用IsTextUnicode進(jìn)行判斷。IsTextUnicode使用一系列統(tǒng)計(jì)方法和定性方法，以便猜測(cè)緩存的內(nèi)容。由于這不是一種確切的科學(xué)方法，因此 IsTextUnicode有可能返回不正確的結(jié)果。

13. 如何在Unicode與ANSI之間轉(zhuǎn)換字符串？

Windows函數(shù)MultiByteToWideChar用于將多字節(jié)字符串轉(zhuǎn)換成寬字符串；函數(shù)WideCharToMultiByte將寬字符串轉(zhuǎn)換成等價(jià)的多字節(jié)字符串。

14. Unicode和DBCS之間的區(qū)別

Unicode使用（特別在C程序設(shè)計(jì)語言環(huán)境里）“寬字符集”。「Unicode中的每個(gè)字符都是16位寬而不是8位寬。」在Unicode中，沒有單單使用8位數(shù)值的意義存在。相比之下，在“雙位組字符集”中我們?nèi)匀惶幚?位數(shù)值。有些位組自身定義字符，而某些位組則顯示需要和另一個(gè)位組共同定義一個(gè)字符。

處理DBCS字符串非常雜亂，但是處理Unicode文字則像處理有秩序的文字。您也許會(huì)高興地知道前128個(gè)Unicode字符（16位代碼從0x0000到0x007F）就是ASCII字符，而接下來的128個(gè)Unicode字符（代碼從0x0080到0x00FF）是ISO 8859-1對(duì)ASCII的擴(kuò)展。Unicode中不同部分的字符都同樣基于現(xiàn)有的標(biāo)準(zhǔn)。這是為了便于轉(zhuǎn)換。希臘字母表使用從0x0370到0x03FF的代碼，斯拉夫語使用從0x0400到0x04FF的代碼，美國使用從0x0530到0x058F的代碼，希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字（總稱為CJK）占用了從0x3000到0x9FFF的代碼。Unicode的最大好處是這里只有一個(gè)字符集，沒有一點(diǎn)含糊。

15.衍生標(biāo)準(zhǔn)

Unicode是一個(gè)標(biāo)準(zhǔn)。UTF-8是其概念上的子集，UTF-8是具體的編碼標(biāo)準(zhǔn)。而ＵＮＩＣＯＤＥ是所有想達(dá)到世界統(tǒng)一編碼標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。UTF-8標(biāo)準(zhǔn)就是Unicode（ISO10646）標(biāo)準(zhǔn)的一種變形方式，

UTF的全稱是：Unicode/UCS Transformation Format，其實(shí)有兩種UTF，一種是UTF-8，一種是UTF-16，

不過UTF-16使用較少，其對(duì)應(yīng)關(guān)系如下：

在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 0xxxxxxx

在Unicode中編碼為 0080 - 07FF 的 UTF-8 中編碼形式為: 110xxxxx 10xxxxxx

在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 1110xxxx 10xxxxxx 10xxxxxx

utf-8是unicode的一個(gè)新的編碼標(biāo)準(zhǔn),其實(shí)unicode有過好幾個(gè)標(biāo)準(zhǔn).我們知道一直以來使用的unicode字符內(nèi)碼都是16位,它實(shí)際上還不能把全世界的所有字符編在一個(gè)平面系統(tǒng),比如中國的藏文等小語種,所以u(píng)tf-8擴(kuò)展到了32位,也就是說理論在utf-8中可容納二的三十二次方個(gè)字符. UNICODE的思想就是想把所有的字符統(tǒng)一編碼,實(shí)現(xiàn)一個(gè)統(tǒng)一的標(biāo)準(zhǔn).big5、gb都是獨(dú)立的字符集,這也叫做遠(yuǎn)東字符集,把它拿到德文版的WINDOWS上可能將會(huì)引起字符編碼的沖突....早期的WINDOWS默認(rèn)的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在NT/2000內(nèi)部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中則是UNICODE.ANSI和UNICODE可以方便的實(shí)現(xiàn)對(duì)應(yīng)映射,也就是轉(zhuǎn)換 ASCII是8位范圍內(nèi)的字符集，對(duì)于范圍之外的字符如漢字它是無法表達(dá)的。unicode是16位范圍內(nèi)的字符集，對(duì)于不同地區(qū)的字符分區(qū)分配，unicode是多個(gè)IT巨頭共同制定的字符編碼標(biāo)準(zhǔn)。如果在unicode環(huán)境下比如WINDOWS NT上，一個(gè)字符占兩字節(jié)16位，而在ANSI環(huán)境下如WINDOWS98下一個(gè)字符占一個(gè)字節(jié)8位.Unicode字符是16位寬，最多允許65,535字符，數(shù)據(jù)類型被稱為WCHAR。

對(duì)于已有的ANSI字符，unicode簡單的將其擴(kuò)展為16位：比如ANSI"A"=0x43,則對(duì)應(yīng)的UNICODE為

"A"= 0x0043

而ASCII用七存放128個(gè)字符,ASCII是一個(gè)真正的美國標(biāo)準(zhǔn),所以它不能滿足其他國家的需要,例如斯拉夫語的字母和漢字于是出現(xiàn)了Windows ANSI字符集,是一種擴(kuò)展的ASCII碼,用8位存放字符,低128位仍然存放原來的ASCII碼,

而高128位加入了希臘字母等

if def UNICODE

TCHAR = wchar

else

TCHAR = char

你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE

UINCODE,_UNICODE都要定義。不定義_UNICODE的話，用SetText(HWND,LPCTSTR),將被解釋為SetTextA(HWND,LPTSTR),這時(shí)API將把你給的Unicode字符串看作ANSI字符串，顯示亂碼。因?yàn)閣indows API是已經(jīng)編譯好存在于dll中的，由于不管UNICODE還是ANSI字符串，都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI讀，因?yàn)锳NSI字串是以'\0'結(jié)束的，所以只能讀到兩字節(jié)"0B A3 \0"，如果按UNICODE讀，將完整的讀到'\0\0'結(jié)束。

由于UNICODE沒有額外的指示位，所以系統(tǒng)必須知道你提供的字串是哪種格式。此外，UNICODE好象是ANSI C++規(guī)定的，_UNICODE是windows SDK提供的。如果不編寫windows程序，可以只定義UNICODE。

開發(fā)過程：

圍繞著文件讀寫、字符串處理展開。文件主要有兩種：.txt和.ini文件

1. 在unicode和非unicode環(huán)境下字符串做不同處理的，那么需要參考以上9，10兩條，以適應(yīng)不同環(huán)境得字符串處理要求。

對(duì)文件讀寫也一樣。只要調(diào)用相關(guān)接口函數(shù)時(shí)，參數(shù)中的字符串前都加上_TEXT等相關(guān)宏。如果寫成的那個(gè)文件需要是unicode格式保存的，那么在創(chuàng)建文件時(shí)需要加入一個(gè)字節(jié)頭。

CFile file;

WCHAR szwBuffer[128];

WCHAR *pszUnicode = L"Unicode string\n"; // unicode string

CHAR *pszAnsi = "Ansi string\n"; // ansi string

WORD wSignature = 0xFEFF;

file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);

file.Write(&wSignature, 2);

file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));

// explicitly use lstrlenW function

MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);

file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));

file.Close();

//以上這段代碼在unicode和非unicode環(huán)境下都有效。這里顯式的指明用Unicode來進(jìn)行操作。

2. 在非unicode環(huán)境下，缺省調(diào)用的都是ANSI格式的字符串，此時(shí)TCHAR轉(zhuǎn)換為CHAR類型的，除非顯式定義WCHAR。所以在這個(gè)環(huán)境下，如果讀取unicode文件，那么首先需要移動(dòng)2個(gè)字節(jié)，然后讀取得字符串需要用MultiByteToWideChar來轉(zhuǎn)換，轉(zhuǎn)換后字符串信息才代表unicode數(shù)據(jù)。

3. 在unicode環(huán)境下，缺省調(diào)用得都是unicode格式得字符串，也就是寬字符，此時(shí)TCHAR轉(zhuǎn)換為WCHAR，相關(guān)得API函數(shù)也都調(diào)用寬字符類型的函數(shù)。此時(shí)讀取unicode文件也和上面一樣，但是讀取得數(shù)據(jù)是WCHAR的，如果要轉(zhuǎn)換成ANSI格式，需要調(diào)用WideCharToMultiByte。如果讀取ANSI的，則不用移動(dòng)兩個(gè)字節(jié)，直接讀取然后視需要轉(zhuǎn)換即可。

某些語言（如韓語）必須在unicode環(huán)境下才能顯示，這種情況下，在非unicode環(huán)境下開發(fā)，就算用字符串函數(shù)轉(zhuǎn)換也不能達(dá)到顯示文字的目的，因?yàn)榇藭r(shí)調(diào)用得API函數(shù)是用ANSI的（雖然底層都是用UNICODE處理但是處理結(jié)果是按照程序員調(diào)用的API來顯示的）。所以必須用unicode來開發(fā)。

轉(zhuǎn)載于:https://www.cnblogs.com/bluesky_blog/archive/2009/08/04/1538872.html

總結(jié)

以上是生活随笔為你收集整理的UNICODE使用的一些知识和技巧的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：上海欢乐谷有哪些项目
下一篇： note-在VisualStudio中使