Day 02 第二天课时总结
一 requests請求庫爬取豆瓣電影信息
????- 請求url
????????https://movie.douban.com/top250
?
????- 請求方式
????????GET
?
????- 請求頭
????????user-agent
????????cookies
import requestsimport re
def get_page(url):
response = requests.get(url)
return response
def parse_index(html):
movie_list = re.findall('<div class="item">,*?<em class="">(.*?)</em>.*?<a href="(.*?)">'
'.*?<span class="title">(.*?)</span>.*?導演:(.*?)主演:(.*?)<br>(.*?)</p>'
'.*?<span class="rating_num",*?>(.*?)</span>.*?<span>(.*?)人評價</span>'
'.*?<span class="inq">(.*?)</span>',html,re.S)
return movie_list
def save_data(movie):
top, m_url, name, daoyan, actor, year_type,\
point, commit, desc = movie
year_type = year_type.strip('\n')
data=f'''
==============歡迎尊敬的官人觀賞===============
電影排名:{top}
電影url:{m_url}
電影名稱:{name}
電影導演:{daoyan}
電影主演:{actor}
年份類型:{year_type}
電影評分:{point}
電影評價:{commit}
電影簡介:{desc}
================請官人下次再來喲================
\n
\b
'''
print(data)
with open('douban_top250.text','a',encoding='utf-8') as f:
f.write(data)
print(f'電影:{name} 寫入成功。。。')
if __name__ == '__main__':
num=0
for line in range(10):
url = f'htt=://movie.douban.com/top250?start={num}&filter='
num+=25
print(url)
index_res = get_page(url)
movie_list = parse_index(index_res.text)
for movie in movie_list:
save_data(movie)
二 selenium請求庫
????1、什么是selenium?
????????期初是一個自動化測試工具,原理是驅動
????????瀏覽器執行一些一定好的操作。爬蟲本質
????????上就是模擬瀏覽器,所以可以使用它來做爬蟲。
?
????2、為什么要使用selenium?
????????優點:
????????????- 執行js代碼
????????????- 不需要分析復雜的通信流程
????????????- 對瀏覽器做彈窗、下拉等操作
????????????- ***** 獲取動態數據
????????????- *** 破解登錄驗證
?
????????缺點:
????????????- 執行效率低
?
????3、安裝與使用
????????1. 安裝selenium請求庫:
????????????pip3 install selenium
?
????????2. 必須安裝瀏覽器
????????????"谷歌"或者火狐
?
????????3.安裝瀏覽器驅動
????????????http://npm.taobao.org/mirrors/chromedriver/2.38/
????????????windows:
????????????????下載win32驅動
轉載于:https://www.cnblogs.com/xtx642/p/11121729.html
總結
以上是生活随笔為你收集整理的Day 02 第二天课时总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【音乐】想不起来歌名的瞎唱
- 下一篇: 台式计算机液晶显示屏尺寸,台式电脑显示屏