22-0001 淘宝店铺搜索界面
淘寶店鋪搜索界面
- 1.元素
- 2.過程
- 2.1 搜索界面的網頁源碼
- 2.2 通過Chrome控制臺獲取sellerid
- 2.3 搜索鏈接
- 2.4 控制臺
- 3.總結
1.元素
- 獲取店鋪搜索界面每個店鋪的’sellerid’
備注:通過sellerid可以在下面鏈接中獲取買家秀的圖片,也可以使用相關軟件進行下載。[將最后的xxx替換為sellerid即可]
Link:https://h5.m.taobao.com/ocean/privatenode/shop.html?&sellerId=xxx
2.過程
2.1 搜索界面的網頁源碼
店鋪搜索界面如下:
備注:每一個界面會有20個結果,結果是根據熱度排序的
源碼如下:
備注:每一頁對應可以搜索得到20個類似的id。
2.2 通過Chrome控制臺獲取sellerid
//備注:需要保證20個店鋪都加載過,否則獲取的不完整 tag_list=document.getElementsByClassName("list-img"); str_pr=""; for (var i =0; i < tag_list.length; i++) {a_list=tag_list[i].getElementsByTagName("a");trace_uid=a_list[0].getAttribute("trace-uid");trace_title=a_list[0].title;str_temp=trace_uid+':'+trace_title;str_pr=str_pr+str_temp+'\n'; } console.log(str_pr);對應的一段源碼如下:
2.3 搜索鏈接
如下鏈接:不能得到任何與第幾頁相關的內容
url='https://shopsearch.taobao.com/search?q=%E6%89%8B%E5%8A%9E&js=1&initiative_id=staobaoz_20200511&ie=utf8'; 'q=%E6%89%8B%E5%8A%9E':搜索的內容,url二次編碼 'ie=utf8':編碼格式下翻一頁與上一頁對比:
url1='https://shopsearch.taobao.com/search?q=%E6%89%8B%E5%8A%9E&js=1&initiative_id=staobaoz_20200511&ie=utf8'; url2='https://shopsearch.taobao.com/search?q=%E6%89%8B%E5%8A%9E&js=1&initiative_id=staobaoz_20200511&ie=utf8&s=20';可以看到末尾的多了 ‘s=20’ ,可以通過這個鏈接,每次獲取網頁源碼,從中進行提取。
備注:上面的方法不可行,因為需要進行登錄,哈哈~
因此,需要在控制臺輸入JS代碼,將每次的結果進行復制
2.4 控制臺
有這么一項:
經過了一番測試,得到如下結果:
- count:返回搜索結果的數目,最大200
- offset:偏移,從將offset后count個店鋪信息返回
- keyword:類似于url二次編碼,但似乎還進行了其他處理,不能直接解碼
- p4p可以去掉
- pid可以任意修改,但一定要有
類似于一個接口
其中的內容如下:
備注:果不其然,只有20條數據。
單拎出來一條:
備注:可以使用python批量獲取N條數據,將其排列得到熱度較高的店鋪。python代碼就不貼出來了 。
3.總結
這才不過是第一篇,以后指定會遇到各種奇奇怪怪的網站~
其中類似于url二次編碼的問題,是值得思考與探討的~
關于圖片下載的部分內容:
鏈接:https://wenshitaiyi.lanzous.com/ichlukf
密碼:8pzd
備注:生成的文件夾與該.exe文件在同一個路徑下!🤔
總結
以上是生活随笔為你收集整理的22-0001 淘宝店铺搜索界面的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 创业的Idea是怎样产生的?
- 下一篇: STM32F429第二十篇之高级定时器—