日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫爬当当网_python爬取当当网图书排行榜

發(fā)布時(shí)間:2023/12/31 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫爬当当网_python爬取当当网图书排行榜 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目標(biāo):根據(jù)最近學(xué)習(xí)的python(selenium+pyquery)爬取當(dāng)當(dāng)網(wǎng)圖書排行榜

宣言:漲薪仍未成功,碼農(nóng)仍需努力,Write Less Do More!

頁面分析

共有“圖書暢銷榜”,“新書熱賣榜”,“童書榜”,“圖書尾品匯榜”,“五星圖書榜”,“圖書飆升榜”,“電子書暢銷榜”,“電子書新書熱賣榜”八種不同的排行榜,頁面上表現(xiàn)為一個(gè)tab切換,點(diǎn)擊之后發(fā)現(xiàn)瀏覽器地址欄刷新,說明不是ajax請(qǐng)求,點(diǎn)擊翻頁時(shí)發(fā)現(xiàn)頁面也有刷新,并且地址欄的參數(shù)有變化,url最后一個(gè)參數(shù)為翻頁參數(shù),找到規(guī)則后開始爬取。

QQ截圖20190131165451.png

代碼

# 系統(tǒng)windows10 python3

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from pyquery import PyQuery as pq

from urllib.parse import quote

import json

import time

browser=webdriver.Chrome()

wait=WebDriverWait(browser,30)

'''

獲取圖書排行榜分類,得到分類名稱和url

'''

def books_category():

browser.get('http://bang.dangdang.com/books/bestsellers')

try:

wait.until(

EC.presence_of_element_located( (By.CSS_SELECTOR, '.bang_title > div.tab > h2') )

)

# xmlns 如果不將這個(gè)參數(shù)去掉,則無法使用pq定位子級(jí)標(biāo)簽

html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')

doc=pq(html)

cate_list=doc('.bang_title .tab h2').items()

for cate in cate_list:

cate_name=cate.find('a').text().strip()

cate_url=cate.find('a').attr('href').strip()

yield {

'cate_name' : cate_name,

'cate_url' : cate_url

}

except TimeoutError:

print(e.message)

'''

獲取每個(gè)分類總頁數(shù)

'''

def get_total_page(url):

browser.get(url)

try:

total=wait.until(

EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.paginating > ul.paging > li:nth-last-child(3) > a' ) )

)

return total[0].text

except TimeoutError:

print(e.message)

'''

獲取需要爬取的頁面

'''

def get_page(url, name, page_number):

browser.get(url)

try:

#到頁面底部

browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

#等待加載完成

wait.until(

EC.presence_of_all_elements_located( (By.CSS_SELECTOR, '.bang_list_box > .bang_list > li' ) )

)

#判斷是否翻頁成功

wait.until(

EC.text_to_be_present_in_element( (By.CSS_SELECTOR, '.paginating > ul.paging > li > a.current'), str(page_number) )

)

#如果不將xmlns屬性去掉,使用pyquery時(shí)無法根據(jù)標(biāo)簽名稱獲取子級(jí)標(biāo)簽

html=(browser.page_source).replace('xmlns="http://www.w3.org/1999/xhtml"','')

write_to_file(parse_html(html,name))

except TimeoutException:

get_page(url, name, page_number)

'''

使用pq抽取有用的信息

'''

def parse_html(html,cate_name):

doc=pq(html)

lis=doc('.bang_list_box .bang_list li').items()

for li in lis:

name=li.find('div.name a').text()

img=li.find('div.pic a img').attr('src')

author=li.find('div:nth-child(5) a').text()

publisher=li.find('div:nth-child(6) a').text()

original_cost=li.find('div.price p span:nth-child(1)').text()

discount_price=li.find('div.price p span:nth-child(2)').text()

discount=li.find('div.price p span:nth-child(3)').text()

yield {

'cate_name' : cate_name,

'books_infos':{

'name' : name,

'img' : img,

'author' : author,

'publisher' : publisher,

'original_cost' : original_cost,

'discount_price' : discount_price,

'discount' : discount

}

}

'''

將抓取的數(shù)據(jù)寫入文件

'''

def write_to_file(jsondata):

for x in jsondata:

with open('dangdang.json','a',encoding='utf-8') as f:

f.write(json.dumps(x,ensure_ascii=False) + '\n')

f.close()

def main():

cate_list=books_category()

for cate in cate_list:

total=int(get_total_page(cate['cate_url']))

for i in range(1,total+1):

print('正在爬取%s,共%i頁,正在抓取第%i頁' % (cate['cate_name'], total, i))

cate_url=cate['cate_url'][:len(cate['cate_url'])-1] + str(i)

get_page(cate_url, cate['cate_name'], i)

time.sleep(3)

print('數(shù)據(jù)抓取完成')

if __name__=='__main__':

main()

代碼執(zhí)行

cd D:\test\python\

py .\dangdang.py

截圖

dangdang.png

json.png

done.png

總結(jié)

以上是生活随笔為你收集整理的python爬虫爬当当网_python爬取当当网图书排行榜的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。