vs2010 qt中文乱码 最终版
2020.11.27?最后終于把這玩意里理解明白了,可能是翻譯引起的理解差異吧。微軟對(duì)此做出的解釋:
對(duì)于vs編譯器來(lái)說(shuō),有兩個(gè)概念:
源字符集
執(zhí)行字符集
對(duì)于vs2010 sp1-VS2015,引入指令#pragma execution_character_set("utf-8"),這只是將執(zhí)行字符集設(shè)為UTF-8,然而源碼字符集僅僅支持UTF-16 little bom、UTF-16 big、UTF-8 with BOM,你的文件格式UTF-8它就不支持,自己又去轉(zhuǎn)換了,所以必定亂碼,想不亂碼,必須源碼文件格式保存UTF-8?BOM (VS文件格式中叫 Unicode (UTF-8帶簽名))或者?簡(jiǎn)體中文格式 (linux等別的平臺(tái)不支持);
);
在VS2015版本(Visual Studio 2015 Update 2)及其之后,微軟放棄了上面的編譯指令,新增編譯選項(xiàng)/utf-8,只需要這一個(gè)命令就將源碼字符集和執(zhí)行文件字符集都指定為UTF-8,所以文件格式并不重要了,一個(gè)編譯執(zhí)行命令,文件編碼格式UTF-8?BOM和UTF-8、?簡(jiǎn)體中文格式三個(gè)都不會(huì)亂碼了,當(dāng)然優(yōu)選UTF-8跨平臺(tái)換編譯器等都支持?;
//vs2015?updater2以后以下兩個(gè)編譯命令等同于這一個(gè)命令 /utf-8
/source-charset:utf-8? ? ?源碼字符集設(shè)為utf-8
/execution-charset:utf-8? ?執(zhí)行字符集設(shè)為UTF-8
//兩個(gè)基礎(chǔ)概念
UTF-8?BOM? ==?Unicode (UTF-8帶簽名)?
UTF-8 ==?Unicode UTF-8無(wú)簽名? ? ?//linux等平臺(tái)默認(rèn)支持此。
?
搞清楚以上這幾個(gè)概念,再去看微軟官方文檔,便一目了然了。
https://docs.microsoft.com/en-us/cpp/preprocessor/execution-character-set?view=msvc-160
方法如下:
文件編碼格式方法
結(jié)論:
1、vs2015?updater2-vs2019,只在vs版本下開(kāi)發(fā),想保持兼容性,文件編碼格式建議采用UTF-8?BOM最省事,vs商店有插件ForceUTF8 (with BOM);
2、需要跨平臺(tái)、庫(kù)、算法涉及到跨平臺(tái)、linux、換編譯器,文件編碼格式建議UTF-8,只能手動(dòng)設(shè)置;
3、vs2010?sp1-vs2015 ,別想了,只能用UTF-8?BOM!
2020.11.26重新思考后,查看了,微軟官方文檔:
vs編輯器可以區(qū)分utf-8和utf-8 bom等,可編譯器不認(rèn)賬,如果你不是這三個(gè)中的一個(gè)UTF-16 little bom、UTF-16 big、UTF-8 with BOM它就自做主張按默認(rèn)處理,那你要么編譯中文亂碼要么qt的ui中文亂碼。
https://docs.microsoft.com/en-us/previous-versions/xwy0e8f2(v=vs.140)?redirectedfrom=MSDN
也可以看看此試驗(yàn),作者寫的很詳細(xì):
https://blog.csdn.net/qq_33154343/article/details/78686075?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-1-78686075.nonecase&utm_term=qt%20%E4%B8%AD%E6%96%87%E6%B3%A8%E9%87%8A%E9%80%A0%E6%88%90%E7%BC%96%E8%AF%91%E4%B8%8D%E9%80%9A%E8%BF%87&spm=1000.2123.3001.4430
2020.11.25? 對(duì)編碼格式報(bào)錯(cuò)產(chǎn)生疑問(wèn),為什么文件編碼格式utf-8 vs2010就報(bào)錯(cuò)?明明QT默認(rèn)就是這個(gè)格式?……
要搞清楚這個(gè)問(wèn)題,先要弄明白編碼。但是編碼問(wèn)題實(shí)在太復(fù)雜,這里肯定講不開(kāi)。
我先找一個(gè)例子,比如:"中文" 的 Unicode 碼點(diǎn)/UTF8編碼/GBK 分別是多少。
先去這個(gè)網(wǎng)站,輸入 "中文" 查詢對(duì)應(yīng)的 Unicode 碼點(diǎn)/UTF8編碼:
http://www.mytju.com/classcode/tools/encode_utf8.asp
Unicode的碼點(diǎn)分別是(十進(jìn)制):中(20013),文(25991)。
對(duì)應(yīng)的UTF8編碼分別(16進(jìn)制): 中(E4B8AD),文(E69687)。
然后再去下面這個(gè)網(wǎng)站,輸入 "中文" 查詢對(duì)應(yīng)的 GBK 編碼:
http://www.mytju.com/classcode/tools/encode_gb2312.asp
GBK編碼16進(jìn)制(GBK內(nèi)碼)分別是:中(D6D0),文(CEC4)。
現(xiàn)在已經(jīng)知道了"中文"的UTF8和GBK編碼的具體值。
我們?cè)倏纯碫C2010是怎么處理的。
?
1. 先看 無(wú) BOM 的 UTF8 編碼的代碼 (utf8_no_bom.cpp)
// utf8 no bom // 文件中包含不能在當(dāng)前代碼頁(yè)(936)中表示的字符 #include <stdio.h>int main() {const char* str = "中文";for(int i = 0; i < sizeof(str); ++i) {printf("0x%x ", str[i]&0xFF);}return 0;// Output:// 0xe4 0xb8 0xad 0xe6 }輸出是:0xe4 0xb8 0xad 0xe6。
感覺(jué)好像是對(duì)的。
但是,先別急:VC編譯時(shí)輸出了一條警告信息:
utf8_no_bom.cpp : warning C4819: 該文件包含不能在當(dāng)前代碼頁(yè)(936)中表示的字符。
請(qǐng)將該文件保存為 Unicode 格式以防止數(shù)據(jù)丟失。
潛臺(tái)詞就是,你這個(gè)代碼有GBK不能表示的字符,請(qǐng)用Unicode方式保存。
VC根本就沒(méi)把 代碼(utf8_no_bom.cpp) 當(dāng)作UTF8,VC只是把它作為GBK處理罷了。
那為什么又輸出了正確的結(jié)果呢?
因?yàn)?VC 把 (utf8_no_bom.cpp) 當(dāng)作 GBK,而編譯時(shí)也要轉(zhuǎn)換為本地編碼(也是GBK)。因此,UTF8編碼的 "中文",被VC當(dāng)作編碼GBK編碼的 "0xe4 0xb8 0xad 0xe6" 的字符串處理了(肯定不是"中文"含義了)。
?
VC已經(jīng)不知道 "0xe4 0xb8 0xad 0xe6" 是對(duì)應(yīng) "中文" 字面值了。
但是在GBK(實(shí)際是無(wú)BOM的UTF8)轉(zhuǎn)GBK的過(guò)程中,發(fā)現(xiàn)了一些UTF8編碼的字符并不是GBK能表達(dá)的合理方式,因此就出現(xiàn)了那個(gè)C4819編譯警告。
2. 再看帶BOM的UTF8是怎么處理的 (utf8_with_bom.cpp)
?
編譯沒(méi)有警告,但是輸出有問(wèn)題:0xd6 0xd0 0xce 0xc4。
源文件明明是 UTF8 編碼的格式"0xe4 0xb8 0xad 0xe6",
怎么變成了 "0xd6 0xd0 0xce 0xc4" (這個(gè)是GBK編碼)?
這就是VC私下干的好事:它自作聰明的將UTF8源代碼轉(zhuǎn)換為GBK處理了!
VC為何要做這樣蠢事?
原因是為了兼容老的VC版本。
因?yàn)橐郧暗腣C不能處理UTF8,都是用本地編碼處理的。
3. 在看看真的GBK是怎么處理的 (gbk.cpp)
// gbk #include <stdio.h>int main() {const char* str = "中文";for(int i = 0; i < sizeof(str); ++i) {printf("0x%x ", str[i]&0xFF);}return 0;// Output:// 0xd6 0xd0 0xce 0xc4 }沒(méi)有編譯錯(cuò)誤,輸出也和源代碼一致:"0xd6 0xd0 0xce 0xc4"。
因?yàn)樵次募褪荊BK,cl在編譯時(shí)GBK轉(zhuǎn)化為GBK,沒(méi)有改變字符串。
只是,現(xiàn)在很多人不想用GBK了(因?yàn)橹荒茉谥袊?guó)地區(qū)用,不能表示全球字符)。
------
到這里,可以初步小結(jié)一下:
1. VC編輯器和VC編譯器是2個(gè)概念,VC編輯器支持UTF8并不能表示VC編譯器也支持UTF8
2. VC編輯器從2008?開(kāi)始支持帶BOM的UTF8(不帶BOM的暫時(shí)沒(méi)戲,因?yàn)闀?huì)本地編碼沖突)
3. VC編譯器從2010開(kāi)始也可以支持UTF8了(雖然支持方式很不優(yōu)雅)
------
?
繼續(xù)前面的測(cè)試,
看看VC2010編譯器是怎么支持帶BOM的UTF8的 (utf8_with_bom_2010.cpp)
// utf8 with bom (VC2010), 下面這句是重點(diǎn)! #pragma execution_character_set("utf-8")#include <stdio.h>int main() {const char* str = "中文";for(int i = 0; i < sizeof(str); ++i) {printf("0x%x ", str[i]&0xFF);}return 0;// Output:// 0xe4 0xb8 0xad 0xe6 }沒(méi)有編譯錯(cuò)誤,輸出也和源代碼一致:"0xe4 0xb8 0xad 0xe6"。
UTF8編碼,UTF8輸出。完美!
------
回到 Qt5 的中文輸出問(wèn)題。
Qt默認(rèn)支持 VS2010/MinGW/Gcc 等編譯器,而它們現(xiàn)在都已經(jīng)真正支持UTF8了。
當(dāng)然,VS2010 對(duì)UTF8的支持會(huì)入侵代碼(#pragma execution_character_set("utf-8"))。
看看Qt官方論壇別人是怎么說(shuō)的:
http://qt-project.org/forums/viewthread/17617
?
簡(jiǎn)單的說(shuō),從Qt5開(kāi)始,源代碼就是默認(rèn)UTF8編碼的。
當(dāng)然,VC2010編輯器對(duì)帶BOM的UTF8也是認(rèn)識(shí),只可惜VC2010編譯器根本不認(rèn)識(shí)!
在繼續(xù)看官方論壇的回復(fù):
總結(jié)
以上是生活随笔為你收集整理的vs2010 qt中文乱码 最终版的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: error: C3861: “pcap_
- 下一篇: 802.1x认证EAP包结构