二、入门爬虫,爬取百度图片
什么是爬蟲
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。(來源: 百度百科)
爬蟲協(xié)議
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見的文本編輯器,比如Windows系統(tǒng)自帶的Notepad,就可以創(chuàng)建和編輯它。robots.txt是一個(gè)協(xié)議,而不是一個(gè)命令。robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。(來源: 百度百科)
爬蟲百度圖片
目標(biāo):爬取百度的圖片,并保存電腦中
- 能不能爬?
首先數(shù)據(jù)是否公開?能不能下載?
總結(jié)
以上是生活随笔為你收集整理的二、入门爬虫,爬取百度图片的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 空军某旅修理厂厂长什么级别?
- 下一篇: 十九、Seaborn数据可视化