日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫中文乱码问题(爬虫乱码)

發(fā)布時間:2025/3/15 python 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫中文乱码问题(爬虫乱码) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在輸出內(nèi)容時,出現(xiàn)如下圖的情況:

解決爬蟲中文亂碼的步驟 網(wǎng)址編碼為gbk

  • 查看網(wǎng)頁源代碼的head部分的編碼:
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312">,發(fā)現(xiàn)網(wǎng)頁編碼為gbk類型
  • 利用requests庫的方法查看默認(rèn)輸出的編碼類型
  • import requestsurl = 'https://chengdu.chashebao.com/yanglao/19077.html'response = requests.get(url) print(response.encoding)

    輸出結(jié)果為編碼ISO-8859-1,并不是原網(wǎng)頁的編碼類型。

    ? ? 3. 利用requests庫改變輸出結(jié)果的編碼

    import requestsurl = 'https://chengdu.chashebao.com/yanglao/19077.html'response = requests.get(url) response.encoding = 'gbk' print(response.encoding)

    輸出結(jié)果為編碼gbk,與原網(wǎng)頁保持一致。

    基于以上三個步驟,即可解決爬蟲中文亂碼問題。

    代碼

    import requestsdef get_html(url):try:response = requests.get(url)response.encoding = 'gbk' # 改變編碼print(response.encoding)html = response.textreturn htmlexcept:print('請求網(wǎng)址出錯')url = 'https://chengdu.chashebao.com/yanglao/19077.html' html = get_html(url) print(html)

    效果展示如下圖所示:

    解決爬蟲中文亂碼的步驟 網(wǎng)址編碼為utf-8

    對于有些網(wǎng)頁編碼為utf-8的網(wǎng)址,輸出事發(fā)現(xiàn)中文為亂碼,此時我們需要進(jìn)行兩次重編碼。

    response = requests.get(url, headers=headers) response.encoding = 'GBK' response.encoding = 'utf-8'

    解決爬蟲中文亂碼的步驟 網(wǎng)址編碼為gb2312

    response.encoding = 'GBK'

    ?

    總結(jié)

    以上是生活随笔為你收集整理的Python爬虫中文乱码问题(爬虫乱码)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。