快速认识网络爬虫与Scrapy网络爬虫框架
本課程為之后Scrapy課程的預(yù)先課程,非常簡(jiǎn)單,主要是為了完全沒(méi)有基礎(chǔ)的小白準(zhǔn)備的,如果你已經(jīng)有了一定的了解那么請(qǐng)?zhí)^(guò)該部分
問(wèn):什么是網(wǎng)絡(luò)爬蟲(chóng)
答:就是從網(wǎng)上下載數(shù)據(jù)的一個(gè)程序,只不過(guò)這個(gè)程序下載的東西不是某某網(wǎng)站直接提供給我們的,我們直接從別人的網(wǎng)頁(yè)上拿來(lái)的.
問(wèn):為什么是我們自己拿?這兩者到底有什么區(qū)別
答:我們?yōu)g覽網(wǎng)站是通過(guò)某個(gè)網(wǎng)址從別人的服務(wù)器獲取一個(gè)網(wǎng)頁(yè),但是這個(gè)網(wǎng)頁(yè)我們是不能像BT文件那樣,通過(guò)迅雷直接下載的,但是網(wǎng)絡(luò)爬蟲(chóng)則是一個(gè)我們自己的迅雷,只要有了網(wǎng)址,那么網(wǎng)頁(yè)上的東西我們不需要網(wǎng)站提供給我們,我們自己寫程序下載就可以了
問(wèn):這樣有什么好處嗎?
答:好處很簡(jiǎn)單,就是批量獲取數(shù)據(jù),比如我們我們想要下載周杰倫所有的微博,一個(gè)個(gè)復(fù)制粘貼是不現(xiàn)實(shí)的,但是網(wǎng)絡(luò)爬蟲(chóng)卻可以幫助我們很快全都下載下來(lái),機(jī)器是不會(huì)累,也不會(huì)煩的.
其他的比如批量獲取圖片,批量下載音樂(lè)什么的都是類似的網(wǎng)絡(luò)爬蟲(chóng)
問(wèn): 那Scrapy網(wǎng)絡(luò)爬蟲(chóng)框架又是什么?
答: 如同我們常用的其他框架一樣,比如Sklearn或者TensorFlow,又或者換一個(gè)例子,我們的PPT模板,框架就是一個(gè)已經(jīng)寫好了很多東西的工具包(模板),我們可以使用它快速開(kāi)發(fā),不過(guò)代價(jià)就是我們得按照框架的一些條條框框來(lái)寫.
問(wèn):如何去寫一個(gè)網(wǎng)絡(luò)爬蟲(chóng)?
答:首先是要找到擁有我們想要數(shù)據(jù)的網(wǎng)頁(yè),比如之前一個(gè)獲取趕集網(wǎng)數(shù)據(jù)的爬蟲(chóng),我們需要的是一座城市所有的租房信息,那么首先我們需要的就是擁有這樣數(shù)據(jù)的網(wǎng)站,比如趕集網(wǎng)
然后就是分析這個(gè)網(wǎng)頁(yè),然后才能開(kāi)始編寫我們的爬蟲(chóng),然后才能運(yùn)行爬蟲(chóng)—>真正的獲取到我們想要的數(shù)據(jù).
當(dāng)頁(yè)面不同的時(shí)候,那么我們所需寫的爬蟲(chóng)也就不一樣.這是一個(gè)見(jiàn)招拆招額過(guò)程
而我們本次系列的博客講的就是后面的第二部分,如何見(jiàn)招拆招,寫出我們需要的爬蟲(chóng)
問(wèn):這次課程有什么要準(zhǔn)備的嗎?
答:準(zhǔn)備的話,需要看看之前趕集網(wǎng)的那篇博客,之后我們會(huì)用做例子,其他的沒(méi)什么要準(zhǔn)備的
問(wèn):有什么資料之類的嗎?
答:有,首先是書(shū)一本,《精通Scrapy網(wǎng)絡(luò)爬蟲(chóng)》這本書(shū)的線也是我們這次課程的主線,我備課的時(shí)候參考這本書(shū)比較多,除此之外因?yàn)楝F(xiàn)在是寒假了,為了更好的教課,我開(kāi)了嗶哩嗶哩直播(歡迎大家來(lái)直播間送禮物),不過(guò)直播面向?qū)ο笫俏业膶W(xué)弟們,其他人如果來(lái)旁聽(tīng)的話,我確實(shí)不介意,但是我只會(huì)按照學(xué)弟們的進(jìn)度走。
除此之外博客會(huì)更新,會(huì)慢一天,內(nèi)容基本差不多。
總結(jié)
以上是生活随笔為你收集整理的快速认识网络爬虫与Scrapy网络爬虫框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Sklearn中的CV与KFold详解
- 下一篇: Scrapy八小时快速入门第一小时:安装