日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取天猫,python如何爬取天猫店铺商品链接?

發(fā)布時間:2023/12/14 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取天猫,python如何爬取天猫店铺商品链接? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在使用python爬蟲爬取網(wǎng)頁時會遇到很多含有特殊符號的情況,當(dāng)把鏈接復(fù)制到瀏覽器打開,發(fā)現(xiàn)每個節(jié)點(diǎn)都多了個\,直接使用response.xpath()無法定位元素,為避免定位不到元素的問題,應(yīng)先對響應(yīng)內(nèi)容做一下過濾,然后使用response.replace()將過濾后的html文檔重新賦值給response,本文以爬取天貓店鋪商品鏈接為例,向大家介紹爬取過程。

爬取思路

1、使用response.text獲取html文本,去除其中的\;

2、使用response.replace() 重新將去除\后的html賦值給response;

3、使用response.xpath()定位元素,成功獲取商品鏈接。

具體代碼#?-*-?coding:?utf-8?-*-

import?re

import?scrapy

class?TmallSpider(scrapy.Spider):

name?=?'tmall'

allowed_domains?=?['tmall.com']

start_urls?=?[

'https://wogeliou.tmall.com/i/asynSearch.htm?_ksTS=1611910763284_313&callback=

jsonp314&mid=w-22633333039-0&wid=22633333039&path=/search.htm&search=y&spm=a220o.1000855.0.0.7fcc367fsdZyLF'

]

custom_settings?=?{

'ITEM_PIPELINES':?{

'tn_scrapy.pipelines.TnScrapyPipeline':?300,

},

'DEFAULT_REQUEST_HEADERS':?{

"user-agent":?'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)

Chrome/78.0.3904.70?Safari/537.36',

'cookie':?'登錄后的cookie'

}

}

def?parse(self,?response):

html?=?re.findall(r'jsonp\d+\("(.*?)"\)',?response.text)[0]

#?替換掉?\

html?=?re.sub(r'\\',?'',?html)

#?print('html:',?html)

response?=?response.replace(body=html)

link?=?response.xpath('//div[@class="item5line1"]/dl/dd[@class="detail"]/a/@href').extract()

print('link:?',?link)

以上就是python爬取天貓店鋪商品鏈接的介紹,大家可以套入代碼直接使用哦~更多python爬蟲學(xué)習(xí)推薦:python爬蟲教程。

總結(jié)

以上是生活随笔為你收集整理的python爬取天猫,python如何爬取天猫店铺商品链接?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。