當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫爬当当网_python爬取当当网图书排行榜

發(fā)布時(shí)間：2023/12/31 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫爬当当网_python爬取当当网图书排行榜小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目標(biāo)：根據(jù)最近學(xué)習(xí)的python(selenium+pyquery)爬取當(dāng)當(dāng)網(wǎng)圖書排行榜

宣言：漲薪仍未成功，碼農(nóng)仍需努力，Write Less Do More!

頁面分析

共有“圖書暢銷榜”，“新書熱賣榜”，“童書榜”，“圖書尾品匯榜”，“五星圖書榜”，“圖書飆升榜”，“電子書暢銷榜”，“電子書新書熱賣榜”八種不同的排行榜，頁面上表現(xiàn)為一個(gè)tab切換，點(diǎn)擊之后發(fā)現(xiàn)瀏覽器地址欄刷新，說明不是ajax請(qǐng)求，點(diǎn)擊翻頁時(shí)發(fā)現(xiàn)頁面也有刷新，并且地址欄的參數(shù)有變化，url最后一個(gè)參數(shù)為翻頁參數(shù)，找到規(guī)則后開始爬取。

QQ截圖20190131165451.png

代碼

# 系統(tǒng)windows10 python3

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from pyquery import PyQuery as pq

from urllib.parse import quote

import json

import time

browser=webdriver.Chrome()

wait=WebDriverWait(browser,30)

'''

獲取圖書排行榜分類，得到分類名稱和url

'''

def books_category():

browser.get('http://bang.dangdang.com/books/bestsellers')

try:

wait.until(

EC.presence_of_element_located( (By.CSS_SELECTOR, '.bang_title > div.tab > h2') )

)

# xmlns 如果不將這個(gè)參數(shù)去掉，則無法使用pq定位子級(jí)標(biāo)簽

html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')

doc=pq(html)

cate_list=doc('.bang_title .tab h2').items()

for cate in cate_list:

cate_name=cate.find('a').text().strip()

cate_url=cate.find('a').attr('href').strip()

yield {

'cate_name' : cate_name,

'cate_url' : cate_url

}

except TimeoutError:

print(e.message)

'''

獲取每個(gè)分類總頁數(shù)

'''

def get_total_page(url):

browser.get(url)

try:

total=wait.until(

EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.paginating > ul.paging > li:nth-last-child(3) > a' ) )

)

return total[0].text

except TimeoutError:

print(e.message)

'''

獲取需要爬取的頁面

'''

def get_page(url, name, page_number):

browser.get(url)

try:

#到頁面底部

browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

#等待加載完成

wait.until(

EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.bang_list_box > .bang_list > li' ) )

)

#判斷是否翻頁成功

wait.until(

EC.text_to_be_present_in_element( (By.CSS_SELECTOR, '.paginating > ul.paging > li > a.current'), str(page_number) )

)

#如果不將xmlns屬性去掉，使用pyquery時(shí)無法根據(jù)標(biāo)簽名稱獲取子級(jí)標(biāo)簽

html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')

write_to_file(parse_html(html,name))

except TimeoutException:

get_page(url, name, page_number)

'''

使用pq抽取有用的信息

'''

def parse_html(html,cate_name):

doc=pq(html)

lis=doc('.bang_list_box .bang_list li').items()

for li in lis:

name=li.find('div.name a').text()

img=li.find('div.pic a img').attr('src')

author=li.find('div:nth-child(5) a').text()

publisher=li.find('div:nth-child(6) a').text()

original_cost=li.find('div.price p span:nth-child(1)').text()

discount_price=li.find('div.price p span:nth-child(2)').text()

discount=li.find('div.price p span:nth-child(3)').text()

yield {

'cate_name' : cate_name,

'books_infos':{

'name' : name,

'img' : img,

'author' : author,

'publisher' : publisher,

'original_cost' : original_cost,

'discount_price' : discount_price,

'discount' : discount

}

'''

將抓取的數(shù)據(jù)寫入文件

'''

def write_to_file(jsondata):

for x in jsondata:

with open('dangdang.json','a',encoding='utf-8') as f:

f.write(json.dumps(x,ensure_ascii=False) + '\n')

f.close()

def main():

cate_list=books_category()

for cate in cate_list:

total=int(get_total_page(cate['cate_url']))

for i in range(1,total+1):

print('正在爬取%s，共%i頁，正在抓取第%i頁' % (cate['cate_name'], total, i))

cate_url=cate['cate_url'][:len(cate['cate_url'])-1] + str(i)

get_page(cate_url, cate['cate_name'], i)

time.sleep(3)

print('數(shù)據(jù)抓取完成')

if __name__=='__main__':

main()

代碼執(zhí)行

cd D:\test\python\

py .\dangdang.py

截圖

dangdang.png

json.png

done.png

總結(jié)

以上是生活随笔為你收集整理的python爬虫爬当当网_python爬取当当网图书排行榜的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：华为手机序列号前三位_华为手机序列号怎么
下一篇： websocket python爬虫_p