字符串编码与转码
需知:
1.在python2默認(rèn)編碼是ASCII, python3里默認(rèn)是unicode
2.unicode 分為 utf-32(占4個(gè)字節(jié)),utf-16(占兩個(gè)字節(jié)),utf-8(占1-4個(gè)字節(jié)), so utf-16就是現(xiàn)在最常用的unicode版本, 不過(guò)在文件里存的還是utf-8,因?yàn)閡tf8省空間
3.在py3中encode,在轉(zhuǎn)碼的同時(shí)還會(huì)把string 變成bytes類型,decode在解碼的同時(shí)還會(huì)把bytes變回string
?
python中,字符編碼默認(rèn)為Unicode,因此,在進(jìn)行字符編碼解碼時(shí): str = '你好' #str是Unicode str_to_gbk = str.encode('gbk') #這里解碼即可,即是Unicode解碼為gbk 此時(shí)str_to_gbk是GBK編碼,再進(jìn)行編碼時(shí) 需要decode成Unicode,再encode成其他格式 例: gbk_to_utf8 = str_to_gbk.decode('gbk').encode('utf-8') #先轉(zhuǎn)化為Unicode,再轉(zhuǎn)化為utf-8<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">
轉(zhuǎn)載于:https://www.cnblogs.com/limich/p/7476620.html
總結(jié)
- 上一篇: 蜗牛慢慢爬 LeetCode 6. Zi
- 下一篇: (转)Mat, vectorpoint2