當(dāng)前位置：首頁(yè) >

一图看懂py2/py3编码

發(fā)布時(shí)間：2024/9/20 41 豆豆

生活随笔收集整理的這篇文章主要介紹了一图看懂py2/py3编码小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

版權(quán)聲明：本文為博主原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
本文鏈接：https://blog.csdn.net/xufive/article/details/102726739
無(wú)論是py2還是py3，都使用unicode作為內(nèi)存編碼，簡(jiǎn)稱內(nèi)碼。保存在python解釋器內(nèi)存中的文本，輸出到屏幕、編輯器，或者保存成文件的時(shí)候，都要將內(nèi)碼轉(zhuǎn)換成utf8或者gbk等編碼格式；同樣，python解釋器從輸入設(shè)備接收文本，或者從文件讀取文本的時(shí)候，都要將utf8或者gbk等編碼轉(zhuǎn)換成unicode編碼格式。因此，無(wú)論是py2還是py3，想要在unicode、utf8、gbk等編碼格式之間轉(zhuǎn)換的話，下圖是通用的：
我們之所以會(huì)產(chǎn)生困惑，是因?yàn)閜y2和py3給這些編碼格式指定了令人困惑的名字。py2的字符串有兩種類型：unicode類型和str類型。py2的unicode類型就是unicode編碼，py2的str類型泛指除unicode編碼之外的所有編碼，包括ascii編碼、utf8編碼、gbk編碼、cp936編碼等。py3的字符串也有兩種類型：bytes類型和str類型。py3的str類型就是unicode編碼，py3的bytes類型泛指除unicode編碼之外的所有編碼，包括ascii編碼、utf8編碼、gbk編碼、cp936編碼等。同樣是str類型，在py2和py3中完全顛倒了！下圖稍微補(bǔ)充了一點(diǎn)內(nèi)容，更有助于理解編碼問(wèn)題。

接下來(lái)，我們實(shí)戰(zhàn)演練一下。

>>> s = 'abc天圓地方'
>>> type(s)
<class 'str'>
>>> len(s)
7
>>> s
'abc天圓地方'
>>> print(s)
abc天圓地方
>>> s.encode('unicode-escape')
b'abc\\u5929\\u5706\\u5730\\u65b9'
1
2
3
4
5
6
7
8
9
10
11
不管是否在字符串前面加了u，只要不在字符串前面使用b，在IDLE中定義的字符串都是unicode編碼，也就是py3的<class ‘str’>，其長(zhǎng)度就是字符數(shù)量，不是字節(jié)數(shù)。我們把unicode字符串’abc天圓地方’轉(zhuǎn)成utf8編碼：

>>> s_utf8 = s.encode('utf8')
>>> type(s_utf8)
<class 'bytes'>
>>> len(s_utf8)
15
>>> s_utf8
b'abc\xe5\xa4\xa9\xe5\x9c\x86\xe5\x9c\xb0\xe6\x96\xb9'
>>> print(s_utf8)
b'abc\xe5\xa4\xa9\xe5\x9c\x86\xe5\x9c\xb0\xe6\x96\xb9'
>>> s_utf8.decode('utf8')
'abc天圓地方'
1
2
3
4
5
6
7
8
9
10
11
utf8編碼就是bytes類型（字節(jié)碼），長(zhǎng)度就是字節(jié)數(shù)量。我們把unicode字符串’abc天圓地方’轉(zhuǎn)成gbk編碼：

>>> s_gbk= s.encode('gbk')
>>> type(s_gbk)
<class 'bytes'>
>>> len(s_gbk)
11
>>> s_gbk
b'abc\xcc\xec\xd4\xb2\xb5\xd8\xb7\xbd'
>>> print(s_gbk)
b'abc\xcc\xec\xd4\xb2\xb5\xd8\xb7\xbd'
>>> s_gbk.decode('s_gbk')
'abc天圓地方'
1
2
3
4
5
6
7
8
9
10
11
gbk編碼也是bytes類型（字節(jié)碼），長(zhǎng)度也是字節(jié)數(shù)量。我們?cè)賮?lái)看看，不同編碼的字節(jié)碼能否連接：

>>> ss = s_utf8 + s_gbk
>>> ss
b'abc\xe5\xa4\xa9\xe5\x9c\x86\xe5\x9c\xb0\xe6\x96\xb9abc\xcc\xec\xd4\xb2\xb5\xd8\xb7\xbd'
>>> ss.decode('utf8')
Traceback (most recent call last):
? File "<pyshell#64>", line 1, in <module>
? ? ss.decode('utf8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 18: invalid continuation byte
>>> ss.decode('gbk')
'abc澶╁渾鍦版柟abc天圓地方'
>>> ss.decode('utf8', 'ignore')
'abc天圓地方abc??'
>>> ss.decode('gbk', 'ignore')
'abc澶╁渾鍦版柟abc天圓地方'
1
2
3
4
5
6
7
8
9
10
11
12
13
14
看以看出，不同編碼的字節(jié)碼可以連接，但一般不能解碼成unicode（字符串），除非使用ignore參數(shù)。

后記
近期有很多朋友通過(guò)私信咨詢有關(guān)python學(xué)習(xí)問(wèn)題。為便于交流，我創(chuàng)建了一個(gè)名為“python程序員進(jìn)階之路”的微信群，面向python初學(xué)者，為大家提供一個(gè)交流學(xué)習(xí)的平臺(tái)。我也會(huì)盡我所能在群里為大家提供技術(shù)支持。歡迎有興趣的同學(xué)掃我微信碼，我?guī)闳腙?duì)。
————————————————
版權(quán)聲明：本文為CSDN博主「天元浪子」的原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/xufive/article/details/102726739

總結(jié)

以上是生活随笔為你收集整理的一图看懂py2/py3编码的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

看懂

上一篇： python语言中with as的用法使
下一篇：希腊字母扩展

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

一图看懂py2/py3编码

總結(jié)