Python爬虫进阶三之Scrapy框架安装配置
初級(jí)的爬蟲(chóng)我們利用urllib和urllib2庫(kù)以及正則表達(dá)式就可以完成了,不過(guò)還有更加強(qiáng)大的工具,爬蟲(chóng)框架Scrapy,這安裝過(guò)程也是煞費(fèi)苦心哪,在此整理如下。
Windows 平臺(tái):
我的系統(tǒng)是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。
官網(wǎng)文檔:http://doc.scrapy.org/en/latest/intro/install.html,最權(quán)威噠,下面是我的親身體驗(yàn)過(guò)程。
1.安裝Python
安裝過(guò)程我就不多說(shuō)啦,我的電腦中已經(jīng)安裝了 Python 2.7.7 版本啦,安裝完之后記得配置環(huán)境變量,比如我的安裝在D盤(pán),D:\python2.7.7,就把以下兩個(gè)路徑添加到Path變量中
| 1 | D:\python2.7.7;D:\python2.7.7\Scripts |
配置好了之后,在命令行中輸入 python –version,如果沒(méi)有提示錯(cuò)誤,則安裝成功
2.安裝pywin32
在windows下,必須安裝pywin32,安裝地址:http://sourceforge.net/projects/pywin32/
下載對(duì)應(yīng)版本的pywin32,直接雙擊安裝即可,安裝完畢之后驗(yàn)證:
在python命令行下輸入
import win32com
如果沒(méi)有提示錯(cuò)誤,則證明安裝成功
3.安裝pip
pip是用來(lái)安裝其他必要包的工具,首先下載?get-pip.py
下載好之后,選中該文件所在路徑,執(zhí)行下面的命令
| 1 | python get-pip.py |
執(zhí)行命令后便會(huì)安裝好pip,并且同時(shí),它幫你安裝了setuptools
安裝完了之后在命令行中執(zhí)行
| 1 | pip --version |
如果提示如下,說(shuō)明就安裝成功了,如果提示不是內(nèi)部或外部命令,那么就檢查一下環(huán)境變量有沒(méi)有配置好吧,有兩個(gè)路徑。
4.安裝pyOPENSSL
在Windows下,是沒(méi)有預(yù)裝pyOPENSSL的,而在Linux下是已經(jīng)安裝好的。
安裝地址:https://launchpad.net/pyopenssl
5.安裝 lxml
lxml的詳細(xì)介紹?點(diǎn)我?,是一種使用 Python 編寫(xiě)的庫(kù),可以迅速、靈活地處理 XML
直接執(zhí)行如下命令
| 1 | pip install lxml |
就可完成安裝,如果提示 Microsoft Visual C++庫(kù)沒(méi)安裝,則?點(diǎn)我?下載支持的庫(kù)。
6.安裝Scrapy
最后就是激動(dòng)人心的時(shí)刻啦,上面的鋪墊做好了,我們終于可以享受到勝利的果實(shí)啦!
執(zhí)行如下命令
| 1 | pip install Scrapy |
pip 會(huì)另外下載其他依賴的包,這些就不要我們手動(dòng)安裝啦,等待一會(huì),大功告成!
7.驗(yàn)證安裝
輸入 Scrapy
如果提示如下命令,就證明安裝成功啦,如果失敗了,請(qǐng)檢查上述步驟有何疏漏。
Linux Ubuntu 平臺(tái):
Linux 下安裝非常簡(jiǎn)單,只需要執(zhí)行幾條命令幾個(gè)
1.安裝Python
| 1 | sudo apt-get install python2.7 python2.7-dev |
2.安裝 pip
首先下載?get-pip.py
下載好之后,選中該文件所在路徑,執(zhí)行下面的命令
| 1 | sudo python get-pip.py |
3.直接安裝 Scrapy
由于 Linux下已經(jīng)預(yù)裝了 lxml 和 OPENSSL
如果想驗(yàn)證 lxml ,可以分別輸入
| 1 | sudo pip install lxml |
出現(xiàn)下面的提示這證明已經(jīng)安裝成功
| 1 | Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages |
如果想驗(yàn)證 openssl,則直接輸入openssl 即可,如果跳轉(zhuǎn)到 OPENSSL 命令行,則安裝成功。
接下來(lái)直接安裝 Scrapy 即可
| 1 | sudo pip install Scrapy |
安裝完畢之后,輸入 scrapy
注意,這里linux下不要輸入Scrapy,linux依然嚴(yán)格區(qū)分大小寫(xiě)的,感謝kamen童鞋提醒。
如果出現(xiàn)如下提示,這證明安裝成功
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 | Usage: scrapy <command> [options] [args] Available commands: bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader runspider Run a self-contained spider (without creating a project) settings Get settings values shell Interactive scraping console startproject Create new project version Print Scrapy version view Open URL in browser, as seen by Scrapy [ more ] More commands available when run from project directory |
截圖如下
如有問(wèn)題,歡迎留言!祝各位小伙伴順利安裝!
總結(jié)
以上是生活随笔為你收集整理的Python爬虫进阶三之Scrapy框架安装配置的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python2.X在linux上的安装
- 下一篇: Python3网络爬虫(四): 登录