日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于网页乱码和字符编码方式

發(fā)布時間:2025/5/22 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 关于网页乱码和字符编码方式 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)頁出現(xiàn)亂碼的原因一般是因為字符的編碼方式不同。

字符編碼是計算機技術的基礎,對于計算機來說,所有的信息都是0或者1的二進制序列,計算機是無法直接識別和存儲字符的,所以,字符必須經(jīng)過編碼才能被計算機處理。

一、兩個概念:字符集和字符編碼

字符集:直觀上來講就是人們統(tǒng)計預先規(guī)定好的一系列字符與二進制序列(數(shù)字)之間的映射關系。

比較常用字符集有ASCII、GBK、Unicode等。

但是當我們規(guī)定好了字符與數(shù)字之間的對應關系,但這并不代表計算機一定要按照字符對應的數(shù)字將數(shù)字本身直接存儲,所以,我們需要設定一種規(guī)則,將這些字符的碼元再次處理,使之更加適應計算機存儲、網(wǎng)絡傳輸?shù)男枰?/span>

字符編碼,就是規(guī)定了如何編碼、存儲這些字符對應的二進制序列。

所以,字符集是一種協(xié)議,而字符編碼就是對字符集更好實現(xiàn)的一種規(guī)則,所以,一種字符集就有了不同的編碼方式。

二、常見的編碼方式:

Unicode、ASCII、GBK、GB2312、UTF-8

三、關于ASCII碼

這是美國在19世紀60年代的時候為了建立英文字符和二進制的關系時制定的編碼規(guī)范,它能表示128個字符,其中包括英文字符、阿拉伯數(shù)字、西文字符以及32個控制字符。它用一個字節(jié)來表示具體的字符,但它只用后7位來表示字符(2^7=128),最前面的一位統(tǒng)一規(guī)定為0。

四、擴展的ASCII碼

原本的ASCII碼對于英文語言的國家是夠用了,但是歐洲國家的一些語言會有拼音,這時7個字節(jié)就不夠用了。因此一些歐洲國家就決定,利用字節(jié)中閑置的最高位編入新的符號。比如,法語中的é的編碼為130(二進制10000010)。這樣一來,這些歐洲國家使 用的編碼體系,可以表示最多256個符號。但這時問題也出現(xiàn)了:不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不一樣。比如,130在法語編碼 中代表了é,在希伯來語編碼中卻代表了字母Gimel (?),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。這個問題就直接促使了Unicode編碼的產(chǎn)生。

五、Unicode符號集

正如上一節(jié)所說,世界上存在著多種編碼方式,同一個二進制數(shù)字可以被解釋成不同的符號。因此,要想打開一個文本文件,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現(xiàn)亂碼。為什么電子郵件常常出現(xiàn)亂碼?就是因為發(fā)信人和收信人使用的編碼方式不一樣。而Unicode就是這樣一種編碼:它包含了世界上所有的符號,并且每一個符號都是獨一無二的。比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表?。很多人都說Unicode編碼,但其實Unicode是一個符號集(世界上所有符號的符號集),而不是一種新的編碼方式。

但是正因為Unicode包含了所有的字符,而有些國家的字符用一個字節(jié)便可以表示,而有些國家的字符要用多個字節(jié)才能表示出來。即產(chǎn)生了兩個問題:第一,如果有兩個字節(jié)的數(shù)據(jù),那計算機怎么知道這兩個字節(jié)是表示一個漢字呢?還是表示兩個英文字母呢?第二,因為不同字符需要的存儲長度不一樣,那么如果Unicode規(guī)定用2個字節(jié)存儲字符,那么英文字符存儲時前面1個字節(jié)都是0,這就大大浪費了存儲空間。

上面兩個問題造成的結果是:1)出現(xiàn)了unicode的多種存儲方式,也就是說有許多種不同的二進制格式,可以用來表示unicode。2)unicode在很長一段時間內(nèi)無法推廣,直到互聯(lián)網(wǎng)的出現(xiàn)。

六、UTF-8

互聯(lián)網(wǎng)的普及,強烈要求出現(xiàn)一種統(tǒng)一的編碼方式。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實現(xiàn)方式。其他實現(xiàn)方式還包括UTF-16和UTF-32,不過在互聯(lián)網(wǎng)上基本不用。重復一遍,這里的關系是,UTF-8是Unicode的實現(xiàn)方式之一。

UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個字節(jié)表示一個符號,根據(jù)不同的符號而變化字節(jié)長度。

UTF-8的編碼規(guī)則很簡單,只有兩條:

1)對于單字節(jié)的符號,字節(jié)的第一位設為0,后面7位為這個符號的unicode碼。因此對于英語字母,UTF-8編碼和ASCII碼是相同的。

2)對于n字節(jié)的符號(n>1),第一個字節(jié)的前n位都設為1,第n+1位設為0,后面字節(jié)的前兩位一律設為10。剩下的沒有提及的二進制位,全部為這個符號的unicode碼。

七、GBK/GB2312/GB18030

GBK和GB2312都是針對簡體字的編碼,只是GB2312只支持六千多個漢字的編碼,而GBK支持1萬多個漢字編碼。而GB18030是用于繁體字的編碼。漢字存儲時都使用兩個字節(jié)來儲存。

?

總的來說:

?

ASCII編碼:用來表示英文,它使用1個字節(jié)表示,其中第一位規(guī)定為0,其他7位存儲數(shù)據(jù),一共可以表示128個字符。

拓展ASCII編碼:用于表示更多的歐洲文字,用8個位存儲數(shù)據(jù),一共可以表示256個字符

GBK/GB2312/GB18030:表示漢字。GBK/GB2312表示簡體中文,GB18030表示繁體中文。

Unicode編碼:包含世界上所有的字符,是一個字符集。

UTF-8:是Unicode字符的實現(xiàn)方式之一,它使用1-4個字符表示一個符號,根據(jù)不同的符號而變化字節(jié)長度。

?

網(wǎng)頁出現(xiàn)亂碼一般就是因為編碼方式出現(xiàn)了問題。

轉(zhuǎn)載于:https://www.cnblogs.com/shireyhu/p/7811543.html

總結

以上是生活随笔為你收集整理的关于网页乱码和字符编码方式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。