python自动爬取更新电影网站_python爬取电影网站信息
一、爬取前提
1)本地安裝了mysql數(shù)據(jù)庫 5.6版本
2)安裝了Python 2.7
二、爬取內(nèi)容
電影名稱、電影簡介、電影圖片、電影下載鏈接
三、爬取邏輯
1)進入電影網(wǎng)列表頁, 針對列表的html內(nèi)容進行數(shù)據(jù)提取 電影名稱,電影簡介, 電影圖片, 電影詳情URL, 插入數(shù)據(jù)庫表
2)通過步驟1獲取到的電影詳情URL, 進入電影詳情頁, 獲取下載鏈接, 更新數(shù)據(jù)庫的下載鏈接字段
3)循環(huán)執(zhí)行如上過程,直到數(shù)據(jù)被爬取完或者循環(huán)完畢。
三、爬取步驟
1)本地初始化數(shù)據(jù)庫腳本 database.sql
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS`movie`;
CREATE TABLE`movie` (
`id` bigint(20) NOT NULLAUTO_INCREMENT,
`title` varchar(100) DEFAULT NULL,
`pic_url` varchar(100) DEFAULT NULL,
`target_url` varchar(100) DEFAULT NULL,
`introduction` varchar(1000) DEFAULT NULL,
`download_url` text,
`create_time` datetime DEFAULT NULL,
PRIMARY KEY(`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;
2) 運行 MovieSpider.py 文件, 開啟爬蟲(當(dāng)前只爬取1000頁數(shù)據(jù), 總共約10萬部電影)
3)查詢數(shù)據(jù)庫表, 觀察爬取數(shù)據(jù)清空
select * from movie;
四、github代碼地址
總結(jié)
以上是生活随笔為你收集整理的python自动爬取更新电影网站_python爬取电影网站信息的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: activiti 多部门审批_Activ
- 下一篇: python创建二维空列表_python