當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于网页乱码和字符编码方式

發布時間：2025/5/22 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了关于网页乱码和字符编码方式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網頁出現亂碼的原因一般是因為字符的編碼方式不同。

字符編碼是計算機技術的基礎，對于計算機來說，所有的信息都是0或者1的二進制序列，計算機是無法直接識別和存儲字符的，所以，字符必須經過編碼才能被計算機處理。

一、兩個概念：字符集和字符編碼

字符集：直觀上來講就是人們統計預先規定好的一系列字符與二進制序列（數字）之間的映射關系。

比較常用字符集有ASCII、GBK、Unicode等。

但是當我們規定好了字符與數字之間的對應關系，但這并不代表計算機一定要按照字符對應的數字將數字本身直接存儲，所以，我們需要設定一種規則，將這些字符的碼元再次處理，使之更加適應計算機存儲、網絡傳輸的需要。

字符編碼，就是規定了如何編碼、存儲這些字符對應的二進制序列。

所以，字符集是一種協議，而字符編碼就是對字符集更好實現的一種規則，所以，一種字符集就有了不同的編碼方式。

二、常見的編碼方式：

Unicode、ASCII、GBK、GB2312、UTF-8

三、關于ASCII碼

這是美國在19世紀60年代的時候為了建立英文字符和二進制的關系時制定的編碼規范，它能表示128個字符，其中包括英文字符、阿拉伯數字、西文字符以及32個控制字符。它用一個字節來表示具體的字符，但它只用后7位來表示字符（2^7=128），最前面的一位統一規定為0。

四、擴展的ASCII碼

原本的ASCII碼對于英文語言的國家是夠用了，但是歐洲國家的一些語言會有拼音，這時7個字節就不夠用了。因此一些歐洲國家就決定，利用字節中閑置的最高位編入新的符號。比如，法語中的é的編碼為130（二進制10000010）。這樣一來，這些歐洲國家使用的編碼體系，可以表示最多256個符號。但這時問題也出現了：不同的國家有不同的字母，因此，哪怕它們都使用256個符號的編碼方式，代表的字母卻不一樣。比如，130在法語編碼中代表了é，在希伯來語編碼中卻代表了字母Gimel (?)，在俄語編碼中又會代表另一個符號。但是不管怎樣，所有這些編碼方式中，0—127表示的符號是一樣的，不一樣的只是128—255的這一段。這個問題就直接促使了Unicode編碼的產生。

五、Unicode符號集

正如上一節所說，世界上存在著多種編碼方式，同一個二進制數字可以被解釋成不同的符號。因此，要想打開一個文本文件，就必須知道它的編碼方式，否則用錯誤的編碼方式解讀，就會出現亂碼。為什么電子郵件常常出現亂碼？就是因為發信人和收信人使用的編碼方式不一樣。而Unicode就是這樣一種編碼：它包含了世界上所有的符號，并且每一個符號都是獨一無二的。比如，U+0639表示阿拉伯字母Ain，U+0041表示英語的大寫字母A，U+4E25表示漢字“嚴”。具體的符號對應表，可以查詢unicode.org，或者專門的漢字對應表?。很多人都說Unicode編碼，但其實Unicode是一個符號集（世界上所有符號的符號集），而不是一種新的編碼方式。

但是正因為Unicode包含了所有的字符，而有些國家的字符用一個字節便可以表示，而有些國家的字符要用多個字節才能表示出來。即產生了兩個問題：第一，如果有兩個字節的數據，那計算機怎么知道這兩個字節是表示一個漢字呢？還是表示兩個英文字母呢？第二，因為不同字符需要的存儲長度不一樣，那么如果Unicode規定用2個字節存儲字符，那么英文字符存儲時前面1個字節都是0，這就大大浪費了存儲空間。

上面兩個問題造成的結果是：1）出現了unicode的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示unicode。2）unicode在很長一段時間內無法推廣，直到互聯網的出現。

六、UTF-8

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種unicode的實現方式。其他實現方式還包括UTF-16和UTF-32，不過在互聯網上基本不用。重復一遍，這里的關系是，UTF-8是Unicode的實現方式之一。

UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。

UTF-8的編碼規則很簡單，只有兩條：

1）對于單字節的符號，字節的第一位設為0，后面7位為這個符號的unicode碼。因此對于英語字母，UTF-8編碼和ASCII碼是相同的。

2）對于n字節的符號（n>1），第一個字節的前n位都設為1，第n+1位設為0，后面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的unicode碼。

七、GBK/GB2312/GB18030

GBK和GB2312都是針對簡體字的編碼，只是GB2312只支持六千多個漢字的編碼，而GBK支持1萬多個漢字編碼。而GB18030是用于繁體字的編碼。漢字存儲時都使用兩個字節來儲存。

總的來說：

ASCII編碼：用來表示英文，它使用1個字節表示，其中第一位規定為0，其他7位存儲數據，一共可以表示128個字符。

拓展ASCII編碼：用于表示更多的歐洲文字，用8個位存儲數據，一共可以表示256個字符

GBK/GB2312/GB18030：表示漢字。GBK/GB2312表示簡體中文，GB18030表示繁體中文。

Unicode編碼：包含世界上所有的字符，是一個字符集。

UTF-8：是Unicode字符的實現方式之一，它使用1-4個字符表示一個符號，根據不同的符號而變化字節長度。

網頁出現亂碼一般就是因為編碼方式出現了問題。

轉載于:https://www.cnblogs.com/shireyhu/p/7811543.html

總結

以上是生活随笔為你收集整理的关于网页乱码和字符编码方式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。