常见编码格式
中文編碼主要有以下四種:
GB2312:簡體中文編碼,一個漢字占用2字節,在大陸是主要編碼方式。當文章/網頁中包含繁體中文、日文、韓文等等時,這些內容可能無法被正確編碼。
BIG5:繁體中文編碼。主要在臺灣地區采用。
GBK:支持簡體及繁體中文,但對他國非拉丁字母語言還是有問題。
UTF-8:Unicode編碼的一種。Unicode用一些基本的保留字符制定了三套編碼方式,它們分別UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列來編碼的,用一個或幾個字節來表示一個字符。這種方式的最大好處,是UTF-8保留了ASCII字符的編碼做為它的一部分。UTF-8俗稱“萬國碼”,可以同屏顯示多語種,一個漢字占用3字節。為了做到國際化,網頁應盡可能采用UTF-8編碼。
當然,處理中文時http頭也要改成UTF-8編碼的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。
字符集
常用字符集分類
ASCII及其擴展字符集
作用:表語英語及西歐語言。
位數:ASCII是用7位表示的,能表示128個字符;其擴展使用8位表示,表示256個字符。
范圍:ASCII從00到7F,擴展從00到FF。
ISO-8859-1字符集
作用:擴展ASCII,表示西歐、希臘語等。
位數:8位,
范圍:從00到FF,兼容ASCII字符集。
GB2312字符集
作用:國家簡體中文字符集,兼容ASCII。
位數:使用2個字節表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。
范圍:高字節從A1到F7, 低字節從A1到FE。將高字節和低字節分別加上0XA0即可得到編碼。
BIG5字符集
作用:統一繁體字編碼。
位數:使用2個字節表示,表示13053個漢字。
范圍:高字節從A1到F9,低字節從40到7E,A1到FE。
GBK字符集
作用:它是GB2312的擴展,加入對繁體字的支持,兼容GB2312。
位數:使用2個字節表示,可表示21886個字符。
范圍:高字節從81到FE,低字節從40到FE。
GB18030字符集
作用:它解決了中文、日文、朝鮮語等的編碼,兼容GBK。
位數:它采用變字節表示(1 ASCII,2,4字節)??杀硎?7484個文字。
范圍:1字節從00到7F; 2字節高字節從81到FE,低字節從40到7E和80到FE;4字節第一三字節從81到FE,第二四字節從30到39。
UCS字符集
作用:國際標準 ISO 10646 定義了通用字符集 (Universal Character Set)。它是與UNICODE同類的組織,UCS-2和UNICODE兼容。
位數:它有UCS-2和UCS-4兩種格式,分別是2字節和4字節。
范圍:目前,UCS-4只是在UCS-2前面加了0x0000。
UNICODE字符集
作用:為世界650種語言進行統一編碼,兼容ISO-8859-1。
位數:UNICODE字符集有多個編碼方式,分別是UTF-8,UTF-16和UTF-32。
?
按所表示的文字分類
語言???????????????????????????? 字符集??????????????????????????????? 正式名稱
英語、西歐語??????????????? ASCII,ISO-8859-1??????? MBCS 多字節
簡體中文????????????????????? GB2312????????????????????????? MBCS 多字節
繁體中文????????????????????? BIG5????????????????????????????? ?MBCS 多字節
簡繁中文???????????????????? ?GBK?????????????????????????????? ?MBCS 多字節
中文、日文及朝鮮語?????? GB18030??????????????????????? MBCS 多字節
各國語言????????????????????? UNICODE,UCS????????????? DBCS 寬字節
轉載于:https://www.cnblogs.com/zhuhui-site/p/10088590.html
總結
- 上一篇: 朴素贝叶斯应用:垃圾邮件分类
- 下一篇: UESTC 趣味赛命题报告E