日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

轻松解决Python “字符编码”,玩儿爬虫的朋友最爱这个库!

發布時間:2024/9/15 python 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 轻松解决Python “字符编码”,玩儿爬虫的朋友最爱这个库! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:黃偉呢

來源:快學Python

1.chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道,在爬取不同的網頁時,返回結果會出現亂碼的情況。比如,在爬取某個中文網頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網頁編碼很重要的。

雖然HTML頁面有charset標簽,但是有些時候是不對的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現字符串/文件的編碼檢測。

如果你安裝過Anaconda,那么可以直接使用chardet庫。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。

pip?install?chardet

接著,使用下面這行代碼,導入chardet庫。

import?chardet

2.chardet庫的使用

這個小節,我們分3部分講解。

2.1 chardet.detect()函數

detect()函數接受一個參數,一個非unicode字符串。它返回一個字典,其中包含自動檢測到的字符編碼和從0到1的可信度級別。

  • encoding:表示字符編碼方式。

  • confidence:表示可信度。

  • language:語言。

光看這個解釋,大多數朋友可能看不懂,下面我們就用例子來講述這個函數。

2.2 使用該函數分別檢測gbk、utf-8和日語

檢測gbk編碼的中文:

str1?=?'大家好,我是黃同學'.encode('gbk') chardet.detect(str1)chardet.detect(str1)["encoding"]

結果如下:

檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正確的概率是99%,language字段指出的語言是'Chinese'。

檢測utf-8編碼的中文:

str2?=?'我有一個夢想'.encode('utf-8') chardet.detect(str2)chardet.detect(str2)["encoding"]

結果如下:

檢測一段日文:

str3?=?'ありがとう'.encode('euc-jp') chardet.detect(str3)chardet.detect(str3)

結果如下:

2.3 如何在“爬蟲”中使用chardet庫呢?

我們以百度網頁為例子,進行講述。

這個網頁的源代碼,使用的是什么編碼呢?我們看看源代碼:

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫,獲取網頁源代碼的時候,怎么指定字符編碼呢?

import?chardet import?requestsheaders?=?{'User-Agent':'Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/55.0.2883.87?Safari/537.36'} response?=?requests.get('https://www.baidu.com',headers=headers) response.encoding?=?"utf-8" response.text

結果如下:

你會發現:正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結果。此時已經亂碼。

如果使用chardet庫,獲取網頁源代碼的時候,可以輕松指定字符編碼!

import?chardet import?requestsheaders?=?{'User-Agent':'Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/55.0.2883.87?Safari/537.36'} response?=?requests.get('https://www.baidu.com',headers=headers)#?注意下面這行代碼,是怎么寫的? response.encoding?=?chardet.detect(response.content)['encoding'] response.text

結果如下:

編碼不用我們自己查找,也不用猜,直接交給chardet庫去猜測,正確率還高。

推薦閱讀

誤執行了rm -fr /*之后,除了跑路還能怎么辦?!

程序員必備58個網站匯總

大幅提高生產力:你需要了解的十大Jupyter Lab插件

總結

以上是生活随笔為你收集整理的轻松解决Python “字符编码”,玩儿爬虫的朋友最爱这个库!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。