當前位置：首頁 >

解码python_Python解码

發布時間：2025/3/20 26 豆豆

生活随笔收集整理的這篇文章主要介紹了解码python_Python解码小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2016.3.3部分

上手爬蟲第一天，就遇到了一個麻煩的問題：解碼解不出來。

先上源碼：

import urllib

import urllib.request

data = {}

data['word'] = 'LEGO'

url_values = urllib.parse.urlencode(data)

url = 'http://www.baidu.com/s?'

full_url = url + url_values

response = urllib.request.urlopen(url)

data = response.read()

data = data.decode('utf8')

print (data)

這段代碼就等于是在百度搜索“LEGO”，然后讀取搜索到的網頁結果。跑一下，發現提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbe in position 60: invalid start byte。上網查了下資料，發現有幾三個地方沒太搞懂，搞懂了就能解決這個解碼問題了：

response.read()返回的到底是什么編碼字符？是html的代碼對吧，那么這個html代碼是用什么方法來編碼的呢？

decode('?')中需要用什么編碼方式才能正確解碼？如果知道問題1的答案，那么這個問題2也容易解決了。由于不知道是什么編碼方式，那么將?一個個使用uft8、big5、unicode、gbk等編碼方式嘗試，結果都是類似的提示，只是報錯的行數不同。

我在網上嘗試了一下解碼后再次編碼的方法，變成了data = data.decode('utf8').encode('gbk')，看能不能有突破，發現不行后，刪掉了后加上的代碼，只保留data = data.decode('utf8')，結果運行.py后還一直提示UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 25145: illegal multibyte sequence，最后只能是將整行注釋掉才恢復正常(輸出html源碼)，但去掉注釋后又彈出encode提示，代碼中明明沒有了encode啊！我的內心幾乎是崩潰的！

在繼續查資料后，決定先放下這個解碼問題，先做好數據存儲那一塊，再回頭慢慢解決切割和解碼問題，沒準到時候就懂了。

2016.3.10部分

在使用了Requests和BeautifulSoup第三方庫后，打算將爬到的數據打印出來看一下：

import requests

import urllib.parse

from bs4 import BeautifulSoup

response = requests.get('http://www.baidu.com')

soup = BeautifulSoup(response.text, "html.parser")

print (soup.title.text)

print (soup.body.text)

結果，還是報了跟之前一樣的編碼錯誤：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 12734: illegal multibyte sequence，于是繼續查，終于找到原因了。

解決方法如下：

忽略cmd的顯示問題，直接存為文件輸出

其實呢，這是windows控制臺本身的顯示編碼，在dos窗口標題，右鍵菜單選擇屬性，可以看到控制臺的默認編碼為GBK(cp936)。

所以說，問題不在python，不在網頁，而是那個呆板的dos控制臺。

解決方法呢，簡單點可以寫到本地文件中查看，復雜點的就留給你去折騰了。注意，這只是dos控制臺的顯示問題，對于其中字符串的處理完全不受阻礙。看不看得見，它就在內存里，該干嘛還干嘛。

使用函數將爬取的數據保存為文件

def save_file(data, path):

files = open(path, 'wb')

files.write(data)

files.close()

save_file(soup.title.text, 'p7_title.txt')

save_file(soup.body.text, 'p7_body.txt')

結果報了另外一個錯：TypeError: a bytes-like object is required, not 'str'，那么再對爬到的數據使用strip再encode的方法

save_file(soup.title.text.strip('\00').encode(), 'p7_title.txt')

save_file(soup.body.text.strip('\00').encode(), 'p7_body.txt')

如此一來，雖然是繞彎解決的，沒有直面問題，但還是順利解決了問題，并且已經拿到了需要的數據。

相關資料

總結

以上是生活随笔為你收集整理的解码python_Python解码的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

python_python

上一篇： python穷举法搬砖_python 穷
下一篇： python random.choice

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

解码python_Python解码

總結