python爬虫第一课 开发环境配置
一、Python3的安裝
二、請(qǐng)求庫(kù)的安裝
1、requests的安裝
直接pip安裝:pip3 install requests
2、Selenium的安裝
selenium是一個(gè)自動(dòng)測(cè)試化工具,利用它我們可以驅(qū)動(dòng)瀏覽器執(zhí)行特定的動(dòng)作,如點(diǎn)擊、下拉等操作。
直接pip安裝:pip install selenium
3、ChromeDriver的安裝
首先下載Chrome瀏覽器,并記住Chrome的版本號(hào)。然后下載ChromDriver,下載完成之后需要進(jìn)行環(huán)境變量的配置,直接將chromedriver.exe復(fù)制到python的Scripts目錄下。
當(dāng)然,可以在命令行下進(jìn)行驗(yàn)證:chromedriver。
4、PhantomJS的安裝
百度下載安裝包之后,將其exte文件放在python3的Scripts目錄下,安裝之后進(jìn)行在命令行下進(jìn)行測(cè)試:phantomjs。
5、aiohttp的安裝
直接進(jìn)行 pip3 install aiohttp
此外同時(shí)推薦安裝兩個(gè)庫(kù),一個(gè)是字符編碼檢測(cè)庫(kù)cchardet,另一個(gè)是加速DNS的解析庫(kù)aiodns。
直接進(jìn)行 pip3 install cchardet aiodns
三、解析庫(kù)的安裝
1、lxml的安裝
直接進(jìn)行 pip install lxml
lxml是python的一個(gè)解析庫(kù),支持HTML和XML的解析,支持XPath的解析方式,而且解析效率非常高。
2、Beautiful Soup的安裝
Beautiful Soup是python的HTML或XML的解析庫(kù),可以用來(lái)方便的從網(wǎng)頁(yè)上提取數(shù)據(jù)。注意:Beautiful Soup的HTML和XML的解析器是依賴(lài)于lxml庫(kù)的。
3、pyquery的安裝
同樣是一個(gè)強(qiáng)大的網(wǎng)頁(yè)解析工具,它提供了和jQuery類(lèi)似的語(yǔ)法來(lái)解析HTML文檔,支持CSS選擇器,使用非常方便。
直接進(jìn)行 pip3 install pyquery?
4、tessserocr的安裝
--------------待續(xù)。。。
總結(jié)
以上是生活随笔為你收集整理的python爬虫第一课 开发环境配置的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: csv.writer写入文件有多余的空行
- 下一篇: python 爬虫-beautifuls