python爬虫爬当当网_python爬取当当网图书排行榜
目標(biāo):根據(jù)最近學(xué)習(xí)的python(selenium+pyquery)爬取當(dāng)當(dāng)網(wǎng)圖書排行榜
宣言:漲薪仍未成功,碼農(nóng)仍需努力,Write Less Do More!
頁面分析
共有“圖書暢銷榜”,“新書熱賣榜”,“童書榜”,“圖書尾品匯榜”,“五星圖書榜”,“圖書飆升榜”,“電子書暢銷榜”,“電子書新書熱賣榜”八種不同的排行榜,頁面上表現(xiàn)為一個(gè)tab切換,點(diǎn)擊之后發(fā)現(xiàn)瀏覽器地址欄刷新,說明不是ajax請(qǐng)求,點(diǎn)擊翻頁時(shí)發(fā)現(xiàn)頁面也有刷新,并且地址欄的參數(shù)有變化,url最后一個(gè)參數(shù)為翻頁參數(shù),找到規(guī)則后開始爬取。
QQ截圖20190131165451.png
代碼
# 系統(tǒng)windows10 python3
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from pyquery import PyQuery as pq
from urllib.parse import quote
import json
import time
browser=webdriver.Chrome()
wait=WebDriverWait(browser,30)
'''
獲取圖書排行榜分類,得到分類名稱和url
'''
def books_category():
browser.get('http://bang.dangdang.com/books/bestsellers')
try:
wait.until(
EC.presence_of_element_located( (By.CSS_SELECTOR, '.bang_title > div.tab > h2') )
)
# xmlns 如果不將這個(gè)參數(shù)去掉,則無法使用pq定位子級(jí)標(biāo)簽
html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')
doc=pq(html)
cate_list=doc('.bang_title .tab h2').items()
for cate in cate_list:
cate_name=cate.find('a').text().strip()
cate_url=cate.find('a').attr('href').strip()
yield {
'cate_name' : cate_name,
'cate_url' : cate_url
}
except TimeoutError:
print(e.message)
'''
獲取每個(gè)分類總頁數(shù)
'''
def get_total_page(url):
browser.get(url)
try:
total=wait.until(
EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.paginating > ul.paging > li:nth-last-child(3) > a' ) )
)
return total[0].text
except TimeoutError:
print(e.message)
'''
獲取需要爬取的頁面
'''
def get_page(url, name, page_number):
browser.get(url)
try:
#到頁面底部
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
#等待加載完成
wait.until(
EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.bang_list_box > .bang_list > li' ) )
)
#判斷是否翻頁成功
wait.until(
EC.text_to_be_present_in_element( (By.CSS_SELECTOR, '.paginating > ul.paging > li > a.current'), str(page_number) )
)
#如果不將xmlns屬性去掉,使用pyquery時(shí)無法根據(jù)標(biāo)簽名稱獲取子級(jí)標(biāo)簽
html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')
write_to_file(parse_html(html,name))
except TimeoutException:
get_page(url, name, page_number)
'''
使用pq抽取有用的信息
'''
def parse_html(html,cate_name):
doc=pq(html)
lis=doc('.bang_list_box .bang_list li').items()
for li in lis:
name=li.find('div.name a').text()
img=li.find('div.pic a img').attr('src')
author=li.find('div:nth-child(5) a').text()
publisher=li.find('div:nth-child(6) a').text()
original_cost=li.find('div.price p span:nth-child(1)').text()
discount_price=li.find('div.price p span:nth-child(2)').text()
discount=li.find('div.price p span:nth-child(3)').text()
yield {
'cate_name' : cate_name,
'books_infos':{
'name' : name,
'img' : img,
'author' : author,
'publisher' : publisher,
'original_cost' : original_cost,
'discount_price' : discount_price,
'discount' : discount
}
}
'''
將抓取的數(shù)據(jù)寫入文件
'''
def write_to_file(jsondata):
for x in jsondata:
with open('dangdang.json','a',encoding='utf-8') as f:
f.write(json.dumps(x,ensure_ascii=False) + '\n')
f.close()
def main():
cate_list=books_category()
for cate in cate_list:
total=int(get_total_page(cate['cate_url']))
for i in range(1,total+1):
print('正在爬取%s,共%i頁,正在抓取第%i頁' % (cate['cate_name'], total, i))
cate_url=cate['cate_url'][:len(cate['cate_url'])-1] + str(i)
get_page(cate_url, cate['cate_name'], i)
time.sleep(3)
print('數(shù)據(jù)抓取完成')
if __name__=='__main__':
main()
代碼執(zhí)行
cd D:\test\python\
py .\dangdang.py
截圖
dangdang.png
json.png
done.png
總結(jié)
以上是生活随笔為你收集整理的python爬虫爬当当网_python爬取当当网图书排行榜的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为手机序列号前三位_华为手机序列号怎么
- 下一篇: websocket python爬虫_p