Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门
1 Robots協(xié)議
Robots協(xié)議(爬蟲協(xié)議)全稱網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取(Allow:/),哪些不能抓取(Disallow:/)。這個協(xié)議是國際互聯(lián)網(wǎng)界遵守的道德規(guī)范。
在進行爬蟲時要對自己的爬蟲行為自我管理,過快或者過于密集的網(wǎng)絡(luò)爬蟲會對服務(wù)器產(chǎn)生巨大的壓力。因此要遵守Robots協(xié)議,約束爬蟲速度;使用爬到的數(shù)據(jù)時遵守網(wǎng)站的知識產(chǎn)權(quán)。
?
2 Python爬蟲的流程
① 獲取網(wǎng)頁
給網(wǎng)站發(fā)送一個請求,網(wǎng)站返回整個網(wǎng)頁的數(shù)據(jù)
② 解析網(wǎng)頁(提取數(shù)據(jù))
從整個網(wǎng)頁的數(shù)據(jù)中提取想要的數(shù)據(jù)
③ 存儲數(shù)據(jù)
?
3 三個流程的技術(shù)實現(xiàn)
① 獲取網(wǎng)頁
基礎(chǔ)技術(shù):request、urllib、selenium(模擬瀏覽器)
進階技術(shù):多進程多線程抓取、登錄抓取、突破IP封禁和服務(wù)器抓取
② 解析網(wǎng)頁(提取數(shù)據(jù))
基礎(chǔ)技術(shù):re正則表達式、BeautifulSoup和lxml
進階技術(shù):解決中文亂碼
③ 存儲數(shù)據(jù)
基礎(chǔ)技術(shù):存入txt文件和存入csv文件
進階技術(shù):存入mysql數(shù)據(jù)庫和存入MongoDB數(shù)據(jù)庫
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些知识点
- 下一篇: eval?python顺序列表模拟栈实现