爬虫的笔记
爬蟲:?
? ? 網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
? ? 2.自己理解:
? ? ? ? 通過代碼、模擬瀏覽器上網(wǎng) 然后抓取數(shù)據(jù)的過程
2.爬蟲是否合法?
? ? 1.法律允許
? ? 2.有法律風(fēng)險(xiǎn)的
3.統(tǒng)一規(guī)定? 【法律界限】
? ? robots.txt協(xié)議
4.爬蟲的分類:
? ? 1.獲取一整張頁面 【通用爬蟲】
? ? 2.獲取一整張頁面 部分?jǐn)?shù)據(jù) 【聚焦爬蟲】
? ? 3.檢查頁面更新、獲取頁面最新的更新的數(shù)據(jù) 【增量式爬蟲】
5.爬蟲的規(guī)則:
? ? 1.反爬策略:
? ? ? ? 門戶網(wǎng)站 通過 技術(shù)手段 防止爬蟲程序?qū)撁媾廊?shù)據(jù)
? ? 2.反 反爬策略
? ? ? ? 爬蟲程序 通過 技術(shù)手段 對(duì)頁面爬取數(shù)據(jù)
http 與https?
? ? service 與 client 進(jìn)行數(shù)據(jù)交互的一種形式
request:?
? ? User-Agent: 請(qǐng)求載體的身份標(biāo)識(shí)
response:?
? ? Content-Type:服務(wù)器響應(yīng)client的數(shù)據(jù)類型
?
總結(jié)
- 上一篇: 迪拜政府和当地银行合作推出基于区块链的贷
- 下一篇: 《美国职业橄榄球大联盟》:NFL·橄榄1