日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

發布時間:2024/7/23 python 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

當下如果需要批量處理文件,爬蟲網頁和圖片的時候使用Python是最為簡單和高效的。但是在處理過程中還是有一些細節問題,比如在爬蟲中文名稱和處理中文文件URL的時候會出現亂碼。實際上就是因為編碼的問題。我們在使用的Python3版本默認編碼是utf-8。爬蟲到的所有的數據他都會以utf-8進行編碼。

這樣的話,Python3處理文件的時候會將目標網站爬取進行utf-8編碼,如果我們爬取的目標網站是GB2312編碼,這樣編碼不同就會造成亂碼。那我們如何處理呢?

第一種、授予編碼

import requests

req= requests.get("http://example.com")

req_text=req.text.encode("latin1").decode("GBK")

print(req_text)

第二種、添加字體

參考:https://www.ywowl.com/prolan/python/2018/03/550.html

上傳字體simhei.ttf到:

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/fonts/ttf

然后修改matplotlibrc配置:

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/matplotlibrc

然后將backend的TkAgg換成Agg、注釋掉font.family : sans-serif,添加font.sans-serif : SimHei。最后清理清除~/.cache/matplotlib目錄緩存。解決圖片中文亂碼問題的。

總結

以上是生活随笔為你收集整理的python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。