python3 爬虫 requests安装_爬虫开发环境部署
欲善其事必先利其器
提起爬蟲(chóng)我們首先就會(huì)想到python,雖然其他的語(yǔ)言也可以做出爬蟲(chóng),但是都沒(méi)有python方便,python有許多第三方庫(kù)可以為我們所用,所以我們會(huì)以python的角度學(xué)習(xí)爬蟲(chóng)。
這里介紹的是Windows下的安裝過(guò)程
目錄1、Python3的安裝 2、請(qǐng)求庫(kù)的安裝
3、解析庫(kù)的安裝 4、OCR 識(shí)別庫(kù)
Python3的安裝
既然要用python開(kāi)發(fā)那么第一步肯定要安裝好python環(huán)境。
官方網(wǎng)站:http://python.org
下載地址:http://www.python.org/downloads
官方文檔:http://docs.python.org/3
直接在官方網(wǎng)站下載python3的安裝包,當(dāng)前最新的版本是3.8.1,小編用的是3.7.3,這里就以3.7.3為例(其他版本的也一樣)
點(diǎn)擊下載就好了
pip選項(xiàng)記得點(diǎn)上,這個(gè)是幫助我們下載第三方庫(kù)的工具
Add Python to environment variables選項(xiàng)選上,它可以自主的將python加入環(huán)境變量中,省去了我們手動(dòng)操作
安裝完成后,按Win+R運(yùn)行cmd命令在命令行輸入python
如果出現(xiàn)了這些就說(shuō)明你的python安裝完成了。
2、請(qǐng)求庫(kù)的安裝
2.1、requests的安裝 2.2、selenium的安裝
2.3、ChromeDriver的安裝
常用的請(qǐng)求庫(kù)有requests、selenium
- 2.1、 requests的安裝
requests屬于第三方庫(kù),python不會(huì)自帶這個(gè)庫(kù),就需要我們手動(dòng)安裝。
相關(guān)連接:
PyPI:https://pypi.python.org/pypi/requests
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.org/zh_CN/latest
1、pip安裝
在安裝的時(shí)候我們還安裝了一個(gè)pip的第三方庫(kù)的下載工具還記得嗎
在命令界面輸入:pip install requests
即可完成requests庫(kù)的安裝(因?yàn)閜ip鏈接的是國(guó)外的源所以會(huì)比較的慢,建議加個(gè)國(guó)內(nèi)的源就會(huì)快很多,安裝python庫(kù)都可以加這個(gè)源)
這里用的是豆瓣源:
pip install -i https://pypi.douban.com/simple/ requests這是最簡(jiǎn)單是安裝方式
2、wheel安裝
Wheel是python的一種安裝包,其后綴為.whl,在無(wú)法用pip直接下載的時(shí)候可以選擇下載wheel文件再安裝,再用pip命令加文件銘安裝即可。
在這之前要安裝wheel庫(kù)
pip install wheel然后到pypi下載對(duì)應(yīng)wheel文件
在wheel文件下進(jìn)入命令行(只需要文件路徑的命令行輸入cmd’即可)
pip install requests-2.22.0-py2.py3-none-any.whl這樣也可以完成安裝
- 2.2、Selenium的安裝
Selenium 是一個(gè)用于Web應(yīng)用程序測(cè)試的工具。Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。對(duì)于一些JavaScript渲染的界面來(lái)說(shuō),這種抓取非常有效,可以避過(guò)很多反爬機(jī)制。
相關(guān)連接:
官方網(wǎng)站:http://www.seleniumhq.org
Pypi:https://pypi.python.org/pypi/selenium
官方文檔:http://selenium-python.readthedocs.io
中文文檔:http://selenium-python-zh.readthedocs.io
推薦直接用pip安裝即可:
pip install selenium- 2.3、ChromeDriver的安裝
前面我們安裝好了Selenium,但它只是一個(gè)自動(dòng)化測(cè)試工具,還需要配合瀏覽器一起使用。
推薦使用谷歌瀏覽器,至于下載這里就不再贅述了,有很多方法。
之后安裝ChromeDriver。只有安裝了ChromeDriver才能驅(qū)動(dòng)Chrome。
相關(guān)連接:
下載地址:http://npm.taobao.org/mirrors/chromedriver/
ChromeDriver要與Chrome的版本相對(duì)應(yīng)
建議把chromedriver.exe文件加入到python的Scripts目錄下;也可以將其單獨(dú)配置到環(huán)境變量
3、解析庫(kù)的安裝
3.1、lxml的安裝 3.2、pyquery的安裝
3.1、lxml的安裝
lxml 是 一個(gè)HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)(xpath就是這個(gè)庫(kù)的一個(gè)功能)
相關(guān)連接:
官方網(wǎng)站:http://lxml.de
Pypi: https://pypi.python.org/pypi/lxml
推薦直接用pip安裝即可:
pip install lxml如果有問(wèn)題的話就用wheel安裝,鏈接為:https://pypi.org/project/lxml/#files
下載后進(jìn)入文件所在目錄運(yùn)行:
pip install lxml-4.4.2-cp27m-win_amd64.whl- 3.2、pyquery的安裝
類似于jquery的python庫(kù),支持css選擇器
官方文檔:http://pyquery.readthedocs.io
Pypi:https://pypi.python.org/pyquery
推薦pip安裝:
pip install pyquery也可以用wheel安裝
4、OCR 識(shí)別庫(kù)
- Tesserocr的安裝
tesserocr 是 Python 的一個(gè) OCR 識(shí)別庫(kù),但其實(shí)是對(duì) tesseract做的一層 Python API 封裝,所以它的核心是 tesseract。 因此,在安裝 tesserocr 之前,我們需要先安裝 tesseract
相關(guān)鏈接:
Tesseract下載地址:http://digi.bib.uni-mannheim.de/tesseract
Tesserocr pypi: https://pypi.python.org/pypi/tesserocr
Tesseract的安裝
名字中帶有dev的為開(kāi)發(fā)版本,不帶dev的為穩(wěn)定版,推薦下穩(wěn)定版
勾選Addition language data(download),安裝OCR支持的語(yǔ)言包,這樣OCR就可以識(shí)別多國(guó)語(yǔ)言,之后一直點(diǎn)Next即可,安裝過(guò)程中會(huì)出項(xiàng)很多語(yǔ)言包無(wú)法下載,可以直接忽略,不影響正常使用。
之后再安裝tesserocr
pip install tesserocr pillow總結(jié)
以上是生活随笔為你收集整理的python3 爬虫 requests安装_爬虫开发环境部署的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 当复选框中打勾时后面自动显示y或者n_基
- 下一篇: python2定点找色_Python实现